Уже февраль 2021 года, а значит пришло время подводить итоги! В это время, 3 года назад, состоялся первый альфа релиз библиотеки. Библиотека DeepPavlov v0.0.1 содержала несколько предварительно обученных моделей и конфигураций JSON. А сегодня у нас есть несколько продуктов, множество пользователей и сценариев использования, достижения на всемирно известных конкурсах и конференциях, и всего через несколько месяцев библиотека DeepPavlov совершит скачок до версии v1.
И несмотря на обстоятельства пандемии, в 2020 году у нас было много задач и поводов для гордости. Как минимум, мы обновили наш веб-сайт, выпустили новый продукт DP Dream, выиграли Про/Чтение, а также повторно участвуем в Alexa Prize Challenge. Об этих и других достижениях мы рады поделиться с вами в обзоре нашего 2020 года.
P.S. 5 марта в честь 3х летия состоится встреча пользователей и разработчиков открытой библиотеки DeepPavlov. Посмотреть детали и зарегистрироваться можно на сайте.
DeepPavlov в достижениях и цифрах
Прежде чем мы перейдем к деталям, давайте вспомним о тех огромных скачках, которые мы сделали за этот год:
Скачивания DeepPavlov Library возросли на 40% по сравнению с прошлым годом. Сейчас всего более 200 тысяч pip установок и более полумиллиона установок контейнеров. Наши технологии используют в 80 странах!
DeepPavlov Library достигла 5 тысяч звезд на Github.
Выпустили 7 релизов DeepPavlov Library, с которыми выкатили новые модели и стали писать release notes о них.
Первый релиз DP Dream и нашего открытого multiskill AI Assistant-а Deepy.
Количество активных участников сообщества возросло в 5 раз. Сотрудниками проводятся ежемесячные звонки «DeepPavlov Community Calls», в рамках которых разбираются основы использования компонент библиотеки DeepPavlov, проводятся обучающие туториалы, а также приглашаются внешние спикеры для проведения мастер-классов.
Наша команда студентов и аспирантов дошла до полуфинала конкурса Alexa Prize Socialbot Grand Challenge 3 by Amazon.
Наша команда студентов и аспирантов была повторно отобрана для участия в Alexa Prize Socialbot Grand Challenge 4 by Amazon.
Команда DeepPavlov заняла 1 место в номинации «Грамматика.Eng» в рамках первого этапа конкурса по разработке системы искусственного интеллекта для выявления смысловых, логических и фактических ошибок в текстах Up Great ПРО//ЧТЕНИЕ.
Сотрудниками было опубликовано 12 научных публикаций.
Три наших аспиранта успешно защитили диссертации на соискание ученой степени кандидата наук.
Мы провели более 20 лекций и воркшопов на таких конференциях, как: NVIDIA GTC Fall 2020, ODSC WEST 2020, MLConf EU 2020, Conversations AI, AI Journey 2020, Innopolis NLP MeetUp.
Выпустили 10 постов-туториалов по использованию компонент библиотеки DeepPavlov.
Приняли 10 студентов-стажеров в команду по направлениям NLP и Conversational AI.
Мы провели 2 учебных курса в весеннем семестре: «Глубокое обучение в обработке естественного языка» и «Advanced Topics in Deep Reinforcement learning».
1 место на либерборде DialoGLUE.
Ключевые направления и программные решения DeepPavlov
На сегодняшний день, DeepPavlov — это не только одна библиотека, это целая экосистема продуктов и проектов. К основным направлениям можно отнести:
Развитие открытой библиотеки DeepPavlov Library, которая поставляется с набором предобученных компонентов для решения задач, связанных с обработкой естественного языка, и предоставляет разработчикам возможность автоматизации разговорных интерфейсов.
Развитие открытой платформы DeepPavlov Agent, которая представляет собой многофункциональный оркестратор, использующий декларативный подход для формирования конвейеров и построения диалогового ИИ в виде модульной системы.
Развитие открытой платформы DeepPavlov Dream, необходимой для разработки масштабируемых и многофункциональных виртуальных помощников, и опирающейся на технологии DP Library и Agent.
Развитие репозитория открытого multiskill AI Assistant-а Deepy, в настоящее время представляющего собой очень простую демонстрацию многофункционального AI Assistant, обладающего всего двумя навыками (целенаправленным и «болталкой»), а также несколькими аннотаторами. Это фундамент, который позволит любому желающему создать своего ассистента.
Расширение функционала демо-версии работы компонент библиотеки и открытой версии ИИ ассистента на базе Deepy.
Развитие NLP сообщества и контрибьюторов, а также участие в конкурсах для преодоления технологических барьеров.
Вместе с продуктами DeepPavlov, мы обновили наш сайт. Пройдемся детальнее по основному функционалу, о котором вы могли не знать:
Появился свой собственный блог как на русском, так и на английском языке, где мы делимся новостями.
Появился раздел Challenges, где мы рассказываем о конкурсах, в которых участвуем или проводим сами.
Для раздела DeepPavlov Library появилась вкладка Releases, где подробно описаны изменения в библиотеке.
Теперь вы можете узнать о наших научных проектах, а также про текущие стажировки в разделе Research.
Другие улучшения разделов: о проекте, о команде, о выпускниках, и т.д.
DeepPavlov Library: что нового
У нас отличные новости — начиная с v0.12.0 релиза DeepPavlov Library поддерживает и TensorFlow, и PyTorch. В дополнение к этому DP поддерживает Трансформеры от Hugging Face, позволяющие разработчикам использовать широкий выбор моделей на основе Трансформеров и сотни датасетов для ваших моделей.
В 2020 году в DeepPavlov Library также появились следующие модели:
Speech recognition and synthesis (ASR and TTS)
Knowledge Base Question Answering model for WikiData
Entity Linking
Intent Catcher
Обновления Go-Bot
С 2021 мы начали преобразование нашей библиотеки DeepPavlov до версии v1.0. Этот процесс потребует значительной реструктуризации и рефакторинга, которые, в свою очередь, приведут к значительным изменениям. Вот некоторые из ожидаемых обновлений:
Переход на PyTorch всех моделей
Изменение документации
Прекращение поддержки старых моделей и кода
Контроль версий моделей
Обновления конфигураций
Вы можете заполнить эту форму, чтобы сообщить нам, как вы используете DeepPavlov Library, и что бы вы предложили добавить или улучшить!
Контейнеры библиотеки DeepPavlov теперь доступны в облаке NVIDIA GPU Cloud (NGC)
В 2020 DeepPavlov стал партнёром программы NVIDIA GPU Cloud (NGC) – контейнерного реестра для работы с искусственным интеллектом, машинным обучением, нейронными сетями и высокопроизводительными вычислениями. Теперь контейнеры библиотеки DeepPavlov доступны в облаке NGC.
Контейнеры DeepPavlov состоят из предварительно обученных моделей, которые используют современные модели глубокого обучения типа BERT для задач классификации, распознавания именованных сущностей, вопросов-ответов и других задач области NLP. Использование GPU позволяет ускорить работу библиотеки DeepPavlov до 20 раз (для примера был взят запуск конвейеров модуля ASR / TTS на V100 GPU в сравнении с CPU).
DeepPavlov для построения AI Assistants
Представьте, что в будущем ИИ-помощники будут понимать нас и разговаривать с нами на одном языке. Представьте, что они будут учиться и учить нас. Представьте, что они станут нашими верными друзьями. Они будут делать все, что мы захотим…
Для достижения этой цели мы создали целое семейство ИИ-помощников и сейчас подробнее о них расскажем.
DeepPavlov Dream
DeepPavlov Dream — это ИИ-помощник, основанный на социальном боте, созданном командой лаборатории для участия в конкурсе Alexa Prize Socialbot Grand Challenge 3 от Amazon. Подробнее о нем мы недавно писали в статье.
Но что важно знать, сейчас этот помощник отключен от каналов и не работает. По причине того, что организаторы Alexa Prize попросили выключить его на время нашего участия в конкурсе. Сейчас доступны мини-версии под названием Deepy.
Deepy
Deepy — это репозиторий нашего простого многофункционального ИИ-помощника, обладающего всего двумя навыками (целенаправленным, написанным с использованием нашей инфраструктуры Go-Bot, и болталкой, написанной с использованием AIML), а также несколькими аннотаторами.
Архитектура Deepy та же, что и у DeepPavlov Dream: мы используем тот же DeepPavlov Agent в качестве механизма для оркестрации и тот же конвейер. Однако количество используемых компонентов значительно сокращено по сравнению Dream.
В настоящий момент доступны 3 конфигурации дистрибутивов:
deepy_base — базовый дистрибутив Deepy, состоящий из двух навыков: простого целенаправленного навыка и навыка общения в чате, а также классификаций эмоций и аннотаторов проверки орфографии,
deepy_gobot_base — дистрибутив Deepy на основе Go-Bot, состоящий также из двух навыков: целенаправленного на основе Go-Bot и болталки, а также классификаций эмоций и аннотаторов проверки орфографии,
deepy_adv — более продвинутый дистрибутив Deepy, который в дополнение к компонентам deepy_gobot_base также включает еще несколько аннотаторов, включая Entity Linking, Intent Catcher и Sentence Segmentation.
Третий дистрибутив, deepy_adv, в настоящее время работает на нашем демо.
Почитать подробнее про DeepPavlov Deepy можно в статье.
DeepPavlov Challenges
Мы не только проводим конкурсы, но и сами участвуем в них.
Так, в марте 2020 наш исследователь и преподаватель курса по NLP Алексей Сорокин занял второе место на конкурсе GramEval-2020. Он разработал модель для автоматического определения морфологических и синтаксических характеристик слов в предложениях на русском языке.
А в декабре 2020 исследователь проекта DeepPavlov и капитан команды Dream Alexa Prize Диляра Баймурзина взяла третье место на конкурсе AI 4 Humanities: ruGPT-3 от AIJourney. Она разработала модель AI CopyWriter для перефразирования и/или распространения текста на основе ruGPT3Large.
Alexa Prize Socialbot Grand Challenge
Каждый год американская компания Amazon проводит конкурс на создание разговорного искусственного интеллекта для своего голосового помощника — Alexa Prize Socialbot Grand Challenge. Задача — научить Alexa поддерживать естественный диалог с пользователем на свободные темы. 10 командам выдают грант на разработку в $250 тыс. В 2019 году в эту десятку впервые попала наша команда DREAM DeepPavlov. Команда год работала над проектом и достигла полуфинала конкурса. Узнать подробности созданной архитектуры DREAM socialbot можно ознакомившись с техническим отчетом команды DREAM для конкурса Alexa Prize 3 .
В 2020 команда проекта повторно прошла отбор на участие в конкурсе Alexa Prize Socialbot Grand Challenge 4. На данный момент команда активно работает над созданием бота и проходит необходимые стадии тестирования системы на ресурсах Amazon. Всю актуальную информацию можно найти на официальной странице проекта.
Технологический конкурс Up Great ПРО//ЧТЕНИЕ
В декабре 2020 года завершился первый цикл конкурса Up Great ПРО//ЧТЕНИЕ по созданию ИИ-системы для проверки сочинений школьников. В соревновании приняли участие более 180 команд, из которых до испытаний были допущены 11 коллективов разработчиков, показавших эффективные решения. В рамках испытаний ИИ-ассистенты проверили по 500 эссе и сочинений ЕГЭ на русском языке и столько же — на английском. Автоматизированная платформа сопоставила тексты, проверенные ИИ-ассистентами и реальными педагогами, и выявила наиболее качественные решения.
Наша команда «НейроЧтение» заняла первое место в номинации «Грамматика.Eng». В работе над решением сложной составной задачи по проверке эссе на английском языке мы использовали фреймворк DeepPavlov Agent.
DeepPavlov Community
Для удобства общения с пользователями ранее был создан форум разработчиков, позволяющий найти и задать вопросы по теме фреймворка. Так что если у вас есть вопросы, то сразу пишите туда. А для тех, кто использует DeepPavlov Dream, дополнительно создана группа в Telegram.
С сентября прошлого года у нас появилась хорошая традиция — для наших пользователей и разработчиков мы проводим ежемесячные звонки «DeepPavlov Community Calls», в рамках которых разбираем основы использования компонент библиотеки DeepPavlov, проводим обучающие туториалы, а также приглашаем внешних спикеров для проведения мастер-классов.
А если вы просто хотите быть на волне DeepPavlov, то подключайтесь к каналу новостей в Telegram.
DeepPavlov Workshops
На 2х летии библиотеки мы обещали вам больше туториалов и воркшопов. За прошедший год мы постарались исполнить обещание, и по итогу мы участвовали:
На конференции NVIDIA GTC Fall 2020 с докладом: Multiskill Conversational AI innovations
На конференции ODSC WEST 2020 с докладом: Conversational AI with DeepPavlov
В обучающем вебинаре, в рамках ODSC: BERT-based Open Domain Question Answering using DeepPavlov Library on Azure Machine Learning
На конференции MLConf EU 2020 с воркшопом: DeepPavlov Open-source Framework for Multiskill Conversational AI
На конференции AI Journey 2020 с докладом: От NLP к AGI Многофункциональный ИИ
И это только часть, но самая весомая.
Учебные курсы
Немаловажную часть нашего Community занимают образовательные программы. Так в весеннем семестре 2020 года мы организовали курс «Глубокое обучение в обработке естественного языка». Темами занятий являлись построение диалоговых систем, способы оценки диалоговой системы с возможностью генерации ответа, различные фреймворки диалоговых систем и др. В курсе суммарно приняли участие более 800 человек с разных регионов России, а защитили успешно проекты порядка 100 (самый масштабный для нас курс выдался). Кстати, подробную информацию об итоговых проектах можно найти в статье на Хабр.
Также в весеннем семестре совместно с АНО ВО «Школа анализа данных» был проведен курс «Advanced Topics in Deep Reinforcement learning», проходивший в формате reading group. В рамках курса было проведено 13 занятий, где исследовались и анализировались современные подходы по теме обучения с подкреплением. Для успешного завершения курса участникам также необходимо было выполнить итоговый проект. Если вам интересна тема RL, обязательно посмотрите запись курса.
Call to Action
Также мы хотели бы поблагодарить всех контрибьюторов за ценный вклад в код в этом году. В 2020 году более 20 человек впервые добавили код в DeepPavlov. Большое спасибо всем вам!
Ну а если вы ML/NLP инженер и разделяете нашу внутреннюю страсть к расширению границ разговорного ИИ или просто хотите упростить использование инструментов NLP/NLU сообществом, мы приглашаем присоединиться к нашему Open Source Community.
Узнать больше про community можно в статье блога, а если хочется внести свой вклад прямо сейчас, то вам сюда.
DeepPavlov 3 года
Какой день рождения без праздника? По нашей сложившейся традиции, в честь дня рождения DeepPavlov мы проводим встречу пользователей и разработчиков. В этом году, к сожалению, она пройдет в онлайн формате 5 марта. Чтобы попасть на мероприятие, необходимо зарегистрироваться на сайте.
В программе вечера 10 крутых докладов от сотрудников проекта DeepPavlov и приглашенные специалисты:
Булат Замалиев, Уполномоченный по технологиям ИИ в Татарстане расскажет, как DeepPavlov помогает в решении государственных задач
Диляра Баймурзина, исследователь и капитан Dream Team Alexa, расскажет как русской команде участвовать в международном конкурсе Alexa Prize Socialbot Grand Challenge
Дмитрий Сошников, Microsoft, поделится туториалом о том, как адаптировать DeepPavlov отвечать на вопросы по COVID-19
Роман Смирнов, Системный архитектор DeepPavlov, поделится, как можно организовать свою личную жизнь с помощью ИИ
Щекин Роман и Тедеев Алан, исследователи НКО АО НРД, в своем докладе расскажут о том, как им удалось свести обработку новостей о корпоративных действиях к очень специфичному NER'у с помощью DeepPavlov
Фёдор Игнатов, старший инженер-разработчик, расскажет о том, какой станет версия 1.0 библиотеки DeepPavlov Library.
В докладе Александра Янчина, CTO в Leroma B2B-Platform, речь пойдет об использовании библиотеки DeepPavlov для определения сущностей из текста, и дальнейшей структуризации этой информации.
Данила Корнев, CPO проекта DeepPavlov, расскажет о том, как и почему лаборатория DeepPavlov пришла к открытому решению для создания Multiskill AI Assistants.
Татьяна Шаврина, AGI NLP Team lead в управлении экспериментальных систем машинного обучения в Sberdevices, поговорит с вами на “Всю эту BERTологию”
Ну и герой вечера — Михаил Бурцев, руководитель проекта, держит в секрете тему выступления, чтобы удивить вас!
Всех ждем! Присоединяйтесь!
Спасибо всем, кто дочитал этот текст. Мы ждем ваши комментарии и вопросы по продуктам, которые мы создаем в проекте. Ждем ваши пулреквесты и предложения. И конечно же, ждем на нашем праздновании!
SemyonSinchenko
А кто в итоге сейчас делает этот проект? Я немного запутался в этой истории, так как есть:
Буду очень признателен, если немного просветите на эту тему. И извините, если это немного оффтоп.
Moryshka Автор
В 2020 году лаборатория нейронных систем и глубокого обучения МФТИ завершила проект «Нейроинтеллект iPavlov», реализуемый в рамках НТИ. Основным технологическим продуктом которого, стала библиотека с открытым кодом DeepPavlov.
По итогу из проекта iPavlov выделились два основных направления работы. Коммерциализацию технологии под брендом iPavlov продолжила другая команда в МФТИ под руководством Лорана Акопяна, а наша изначальная команда лаборатории нейронных систем и глубокого обучения под руководством Михаила Бурцева сосредоточилась на исследованиях, дальнейшем развитии технологий разговорного ИИ и библиотеке DeepPavlov.
Получается наша лаборатория (т.е. проект DeepPavlov) занимается только продвижением на Deeppavlov.ai, а к iPavlov.ai уже мы не имеем никакого отношения)