Привет, Хабр! Меня зовут Даша Галимзянова, я – NLP-разработчик в MTS AI. Сегодня  на своем опыте расскажу, как попасть на топовые международные ИИ-конференции – и зачем вам это нужно.

В MTS AI я работаю почти два года. За это время статьи, которые я готовила вместе с коллегами, приняли на две крупнейшие международные конференции: EMNLP (Empirical Methods in Natural Language Processing), которая прошла в ноябре 2024 года во Флориде, и ECIR (European Conference on Information Retrieval) — она состоится в Италии в этом году. 

Сразу скажу, что далеко не всегда статьи проходят отбор на конференции.  Например, мы с коллегами готовили исследование CleanComedy: Creating Friendly Humor through Generative Techniques, и его не приняли к публикации на двух конференциях. Поэтому мы пошли другим путем —  опубликовали препринт (то есть предварительную версию) на сайте arxiv.org, чтобы статья уже была доступна всем заинтересованным.

Кто и зачем участвует в конференциях?

Первая категория участников конференций по ИИ —  это студенты.  Где-то для них даже предусмотрены отдельные треки. В университете при обучении компьютерным наукам и в смежных направлениях написание научных работ и выступления на конференциях сильно поощряются, а для получения PhD это и вовсе является обязательным. Поэтому студенты при помощи наставников ведут активную исследовательскую работу по профильным темам, готовят материалы и с ними подаются на конференции. Большинство из них начинают свой путь с таких российских и международных конференций, как AIST, AINL, «Диалог». В дальнейшем некоторые студенты остаются в научной сфере и продолжают заниматься фундаментальными исследованиями.

Вторая категория участников конференций — это научные сотрудники и те, кто работает в исследовательских отделах крупных коммерческих компаний. Сегодня департаментов фундаментальных исследований появляется все больше и больше — они есть в MTS AI, Т-Банке, Сбер создал AIRI — институт, цель которого проведение научных исследований и публикация статей на международных конференциях. При этом некоторые лаборатории занимаются еще и прикладным задачами, например, разрабатывают новые, более эффективные методы обучения нейросетей, чтобы в дальнейшем использовать эти наработки в своих продуктах. Добавлю, что статьи на конференции можно подать сразу от двух компаний или научных лабораторий — например, от MTS AI и Сколтеха. 

Третьей категорией участников конференций становятся именно разработчики прикладных решений.  Зачастую они уже долго работают в корпорациях и рассказывают в своих статьях о том, как создали то или иное прорывное ИИ-решение или придумали метод, который сделал разработку продукта более эффективной. Например, в статье Efficient Answer Retrieval System (EARS) для конференции EMNLP мы с коллегами описали работающую в MTS AI систему ответов на фактологические вопросы.

Кстати, для более прикладных исследований предусмотрены специальные индустриальные треки международных конференций. Попасть на них даже проще из-за более щадящей оценки публикации: чтобы статью приняли на индустриальный трек, не обязательно выкладывать код или данные, которые могут быть под NDA, достаточно бывает показать работу нейросети на открытых данных. 

Мотивация участвовать в конференциях может быть самой разной. Например, активная научная деятельность позволяет корпорациям подтверждать свою экспертизу и авторитет на рынке — а значит, заключать новые партнерства,  получать заказы и проводить больше пилотов и экспериментов.

Однако есть и другие причины. В сфере ML-технологий очень важно делиться результатами своих исследований с другими специалистами. Обмен опытом с коллегами из других компаний и стран ускоряет разработку новых подходов к машинному обучению. К тому же, критика от международных исследователей всегда полезна — она позволяет взглянуть на проблему под другим углом и подсказывает пути развития темы, о которых, может быть, автор не догадывался сам.

Процесс подачи заявки на конференцию

Планировать участие в конференции лучше за полгода — так у вас будет время, чтобы подготовить исследование, при необходимости пройти несколько этапов ребаттлов, оплатить взносы и запланировать поездку — получить визу и спланировать маршрут. 

Выбор конференции

На этом этапе нужно исходить из вашего профиля, потому что в целом мероприятий по теме ИИ множество. Я расскажу о наиболее близком мне направлении — Natural Language Processing. В сфере компьютерной лингвистики есть несколько крупнейших конференций, большинство из которых проходит под эгидой ACL (Association for Computational Linguistics) — они считаются самыми авторитетными в этой сфере. Крупнейшая из них – ежегодная встреча этой ассоциации, которая посвящена самым разным аспектам машинного обучения. Также ACL проводит множество тематических мероприятий в течение года: например, конференции по обработке человеческой речи INTERSPEECH 2025 и по машинному переводу Machine Translate Summit, воркшоп по моделированию генеративных нейросетей XLLM Workshop и многие другие. Есть также междисциплинарные конференции, посвященные Computer Science, например, всем известная NeurIPS.  

Подготовка темы

Исследователь редко придумывает тему с нуля — она формируется на базе его научных интересов, он занимается ей в университете или в лаборатории и при достижении каких-либо успехов пишет о них в статье. 

Инициатива податься на конференцию может исходить от руководителя лаборатории (направления, отдела) или от самих сотрудников. В первом случае руководитель собирает исследователей. Во втором, когда инициатива приходит от команды,  руководитель или внешний эксперт помогает с научной стороной вопроса. Кстати, понять эту структуру всегда можно по перечислению авторов статьи – первым всегда указывается человек, который проделал большую часть работы, а последним – научный руководитель или эксперт, помогавший в исследовании.

Разберем конкретный пример проработки темы для выступления на конференции. Если группа инженеров лаборатории работала над методикой оценки эффективности работы LLM и нашла новый способ, как сделать это более дешево — это уже звучит как тема для исследования.

На первом этапе важно провести детальный обзор литературы по схожим темам и убедиться в инновационности подхода. Уже существующие и описанные методы могут быть требовательнее к вычислительным мощностям, объему данных и выбору конкретных моделей, некоторые методы могут не подходить для работы с датасетами на русском языке.

Чтобы статью точно взяли на конференцию, необходимо провести как можно больше экспериментов – а для этого нужно очень много вычислительных мощностей, которые далеко не все могут себе позволить. При ограниченном количестве ресурсов нужно заранее понимать, какие именно эксперименты нужны, чтобы проверить гипотезы, и нет ли среди запланированных тестов чего-то лишнего.

В итоге, если новый метод оказался более эффективным, необходимо провести эксперименты на открытых моделях с публичными датасетами. Полученные данные необходимо сравнить с результатами работы существующих методов на тех же моделях и данных. Если тесты прошли успешно, можно переходить к подготовке статьи. 

Непосредственно написание статьи — один из самых простых этапов работы. Обычно  текст занимает от 4 до 8 страниц в зависимости от требований конференции. К нему необходимо приложить графики и сравнительную таблицу, в которой важно показать результаты работы нового метода и уже существующих. В тексте стоит пояснить все преимущества нового метода – что он быстрее, дешевле и т.д.

Подача заявки

Итак, когда статья готова, ее нужно отправить на конференцию. Прием исследований на мероприятия Ассоциации компьютерной лингвистики (ACL) (в их число входят непосредственно ACL, EMNLP, EACL и другие) идет в строгие циклы. Например, с 15 декабря по 15 февраля принимаются заявки на одну конференцию, затем — с 15 февраля по 15 апреля на другую и так далее. В этот срок входит подача заявки, ребаттл (апелляция) и финальное решение.  

При этом вся наука работает по времени, которое называется Anywhere on Earth. Если дедлайн приема публикаций стоит до 15 февраля, то исследования принимаются до того момента, когда этот день закончится на всей планете. То есть если в Москве уже на календаре 16 февраля, а на часах — 10 утра, вы все еще можете подать заявку на конференцию с дедлайном 15 февраля, так как этот день еще не закончился на всей планете. На Гавайях, например, еще 9 вечера предыдущего дня. 

Ревью и ребаттл

После сабмита начинается этап ревью — публикации проходят двойную слепую проверку. Исследователь не знает, кто именно читает его работу, а рецензенту не сообщают национальность, имя и название компании, которую представляет ученый, чтобы избежать байеса и двойных стандартов.  

Во время ревью исследование проверяет 3-4 анонимных эксперта. Финальную оценку выставляет метаревьюер по итогам прошедших проверок.

Если исследователя не устроила оценка работы, то он вправе защитить свою работу, подискутировав с ревьюерами, и оспорить оценку.

Одна из самых распространенных причин отказа в участии на конференции – это нехватка эмпирической базы. Когда я в первый раз подавала свою статью на ACL, ревьюеры указали, что в моей работе мало экспериментов — при этом они не уточнили, сколько именно тестов необходимо для допуска. Поэтому я добавила оценки своего метода на паре новых датасетов и подала статью заново. Впрочем, мне снова отказали, но я решила не останавливаться, доработала публикацию и отправила ее уже на другую конференцию — EMNLP — и на этот раз исследование приняли. 

Также отказы возможны по следующим причинам:

  • обнаружен плагиат или есть подозрение в фальсификации результата исследований; 

  • статья не соответствует тематике конференции или уровень исследования не подходит к требованиям организаторов; 

  • тема не актуальна для текущих тенденций в области ИИ

  • содержание недостаточно логично изложено. 

Интересный факт: если среди авторов вашего исследования есть опытные ученые (минимум 3 публикации за последние 3 года), хотя бы один из них также должен участвовать в ревью других исследовательских работ.

В случае, когда статья не прошла отбор на конференцию, ее можно доработать по комментариям и подать заново в следующий цикл. Оценивать работу будут те же эксперты, а если они недоступны — то новые ревьюеры получат доступ к оценкам предыдущих экспертов. Затем повторный ребатл и итоговая оценка.

Если вам снова пришел отказ, вы всегда можете попробовать подать эту тему на другую конференцию. В крайнем случае есть вариант выложить исследование на arxiv.org — для публикации на этом ресурсе нужно, чтобы кто-то из других авторов портала подтвердил, что вы действительно являетесь ученым. 

Кстати, недавно организаторы ACL смягчили правила подачи статей — теперь их можно публиковать на arxiv.org даже до завершения ревью, главное — их нельзя активно продвигать, например, в социальных сетях. Это позволяет “застолбить” за собой тему исследования. Ранее уже были прецеденты, когда две независимые друг от друга команды одновременно занимались одной и той же темой, и пока одна из них проходила ревью к конференции — другая сделала публикацию, тем самым забрав себе первенство в этой теме.

По этой же причине ревьюерам теперь крайне не рекомендуется искать в интернете материалы по теме анализируемой работы, потому что они могут найти эту публикацию в интернете. Считается, что это может повысить предвзятость ревьюера — например, из-за места учебы или работы автора.

Если статью одобрили

Если статью автора принимают на конференцию, его об этом уведомляют по имейлу. Далее исследователь должен внести организационный взнос за регистрацию на конференции (около $1000) — как правило, его оплачивает компания или научно-исследовательский институт. Далее вместе готовится финальный вариант публикации.

На конференции можно выступить лично либо онлайн в рамках трека или же поучаствовать в постерной сессии — это когда в одном зале участники размещают несколько стендов с презентацией своего исследования. Лично я – большая фанатка постеров, потому что это самый эффективный способ познакомиться с большим количеством статей и авторов. Среди множества исследований ты можешь найти релевантные темы и задать коллеге-исследователю интересующие вопросы. В некоторых случаях (например, если слишком много очных участников) автор может прикрепить свою статью к материалам конференции вовсе без выступления — тогда она будет опубликована в сборнике по итогам мероприятия. 

А что если нет времени на исследования?

Участвовать в конференциях хотят многие — интересную тему для исследования можно найти в том числе в продуктовой разработке, единомышленников — среди коллег. Однако не у всех хватает времени и сил на научную работу. 

Самое главное — даже если вы не можете написать статью самостоятельно, важно хотя бы из окошка наблюдать за тем, что происходит в научном сообществе, и читать статьи с топовых конференций. Если исследователи выступали с ними на ACL, значит, они прошли строгий отбор, и эти материалы могут помочь вам в вашей основной работе.

Комментарии (0)