Текущая ситуация в мире не повод останавливать диалог, особенно если его можно вести онлайн. С 17 по 20 июня состоится 26-ая Международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». В этот раз она пройдет онлайн и будет бесплатной. Много лет основным организатором конференции выступает ABBYY: мы заинтересованы в развитии компьютерной лингвистики, обработки естественного языка (Natural Language Processing, NLP) и проведении исследований в этих областях. Подробнее о том, что такое «Диалог» и зачем он нужен, мы уже говорили на Хабре.

Сегодня расскажем об интересных событиях, которые запланированы на предстоящей конференции: докладах, темах дискуссий и трех технологических соревнованиях в рамках Dialogue Evaluation – по извлечению семантических отношений из деловых текстов, автоматическому поиску гиперонимов и морфосинтаксическому анализу текстов. Поехали!

В этом году в центре «Диалога» – подведение итогов соревнований между разработчиками систем лингвистического анализа текстов. В этом году состоялись соревнования по трем задачам. Все они так или иначе были связаны с темой исследования и развития новых языковых моделей, которые учитывают контекст предложения.

  • Соревнования RuREBus (Russian Relation Extraction for Business) по автоматическому извлечению семантических отношений в постановке, приближенной к бизнес-задачам. Цель дорожки – сравнить методы извлечения отношений из деловых текстов на русском языке. В качестве датасета для соревнований участники использовали корпус Минэкономразвития (около 280 млн токенов). Это различные отчеты региональных органов, а также прогнозы и планы развития.
  • Соревнования GramEval по автоматическому морфосинтаксическому анализу текстов. Участники состязания разрабатывали системы, которые определяют морфологические признаки слова, лемму (словарную форму слова) и синтаксические связи в предложении. Победитель соревнований, выпускник МФТИ Даниил Анастасьев, побил state-of-the-art результаты (наилучшие на данный момент) для русского языка, полученные ранее на крупных международных конференциях.
  • Соревнования по автоматическому поиску гиперонимов в русском языке (гипероним – понятие, которое выражает более общее название предметов по отношению к другому понятию. Например, «кошка» – гипероним по отношению к термину «мейн-кун»). Условия соревнования были приближены к реальности: участникам на входе давались только сами слова без определений, а также контексты, в которых эти слова встречались.

18 и 19 июня победители каждого из соревнований расскажут, как они решали задачи, какие эксперименты ставили и какими методами машинного обучения пользовались.

На открытии конференции, 17 июня,11:00-11:30, выступит директор Физтех-школы прикладной математики и информатики (ФПМИ) МФТИ Андрей Райгородский. ФПМИ интересен диалог с гуманитарными науками и деятельность на стыке искусственного интеллекта и языка. ABBYY давно сотрудничает с этой Физтех-школой: в ней открыты две базовых кафедры и лаборатория ABBYY Lab.

Традиционно в «Диалоге» участвуют известные международные специалисты по компьютерной лингвистике:

Манфред Штэде, профессор прикладной компьютерной лингвистики Потсдамского университета. Его научная сфера интересов – это argumentation mining, основанный на теории риторических отношений в тексте и разметке логики развития текста. На «Диалоге» он расскажет, как, основываясь на этой логике, ставить эксперименты по машинному обучению и извлекать аргументы. 17 июня, среда, 15:30-16:45.

Игорь Богуславский, профессор Мадридского технологического университета и заведующий Лабораторией компьютерной лингвистики ИППИ РАН, один из крупнейших специалистов по онтологической семантике. Его доклад будет посвящен тому, как обучать компьютер понимать тексты. 17 июня, среда, 12:00-14:00.

Ольга Инькова, профессор Женевского университета, выступит в секциях «Анализ сентимента и интенций» 18 июня, четверг, 16:30-18:30; «Лингвистические модели языка» 19 июня, пятница, 15:30-18:30.

Сергей Шаров, профессор кафедры переводоведения Университета Лидса (Великобритания). Один из наиболее авторитетных специалистов в мире в области анализа интернет-текстов. Он выступит с докладом о надежности корпусных исследований и о том, чем один корпус отличается от другого. 19 июня, пятница, 11:00-14:00.

Круглые столы


18 июня, в 19:00, приглашаем на круглый стол «Технологический NLP-барьер UPGREAT «ПРО//ЧТЕНИЕ»: как правильно поставить (и решить) задачу понимания текста». Конкурс Up Great «ПРО//ЧТЕНИЕ» посвящен созданию ИИ-системы, которая сможет автоматически выявлять и аннотировать смысловые ошибки в реальных текстах. Победит тот, кто преодолеет технологический барьер: создаст не имеющее аналогов в мире решение, которое справится с содержательным анализом текста на уровне не хуже специалистов. Участники дискуссии на «Диалоге» обсудят задачу понимания текста и пути ее решения.

19 июня, в 19:30, состоится презентация и обсуждение RuSuperGlue – нового ресурса для проведения open-source тестирований для русского языка. Это российский аналог английского проекта SuperGLUE (General Language Understanding Evaluation). На нем будут размещены тестовые задания на логику и целеполагание с открытым кодом и возможностью добавить на лидерборд свою модель трансформера для русского языка и сравнить с другими.

По основным направлениям «Диалога» 20 июня c 15:00 по 18:30 также состоится студенческая сессия.

Рабочие языки конференции – русский и английский. Подробная программа конференции выложена здесь, она будет дополняться. Материалы конференции будут опубликованы на сайте, лучшие 60 статей будут отобраны по результатам рецензирования, в котором принимали участие около 100 ведущих специалистов, в ежегодник «Компьютерная лингвистика и интеллектуальные технологии». Он входит в международную систему цитирования Scopus.

Зарегистрироваться на «Диалог» можно здесь вплоть до 20 июня. За два дня до каждого выступления Оргкомитет «Диалога» откроет участникам доступ к презентациям докладчиков.