Технологические прорывы часто случаются в результате совместной работы научного сообщества и бизнеса. Поэтому помимо хороших айтишников, мы приглашаем работать в Сбер учёных и инженеров. Они публикуются в научных журналах и проводят доклады на международных конференциях, которые мы решили собрать в сборник «Наука в Сбере-2021». Сегодня, в День российской науки, мы расскажем про этот сборник и сделаем мини-обзор некоторых статей.
Что такое сборник «Наука в Сбере-2021»?
Сборник даёт представление о передовых направлениях деятельности нашей компании. В нём мы собрали информацию об опубликованных работах исследователей Сбера, представили ведущих партнёров, рассказали о нашей Научной премии и некоторых результатах прогнозных исследований (разделы «Видение-2035», «Сбер-Космос-Сбер», «Метавселенная», «Квантовая перспектива»).
В разделе со статьями даны краткие аннотации опубликованных в 2021 году статей и докладов. Они связаны с ИИ, современной медициной, нейролингвистикой (в частности, с популярным бенчмарком Russian SuperGLUE 1.1 и языковой моделью RuGPT3-XL), робототехникой, нейроинтерфейсами и многими другими сегодняшними научными достижениями.
В завершающем разделе сборника под названием «Научная жизнь» собраны данные о статьях и докладах, которые будут опубликованы в первые месяцы 2022 года, чтобы дать читателю представление об актуальных направлениях работы исследователей Сбера.
Обзор некоторых статей из сборника
Выявление текстов, сгенерированных ИИ, на основе анализа топологических данных
Авторы: Л. Кушнарёва, Д. Чернявский, В. Михайлов, Е. Артёмова, С. Баранников, А. Бернштейн, И. Пионтковская, Д. Пионтковский, Е. Бурнаев.
Последние достижения в области нейронных систем обработки информации, в частности модели генерации текста (TGM), продемонстрировали впечатляющие возможности создания текстов, очень близких к человеческим по беглости, связности, грамматической и фактической правильности. Обширные TGM в стиле GPT (GPT — нейронная сеть, наделавшая шума в 2020 году как самая сложная, объёмная и многообещающая модель по работе с текстовыми данными) достигли выдающихся результатов в большом количестве задач нейролингвистики (NLP, Natural Language Processing), используя методы нулевого, одноразового и нескольких кадров и даже превосходя современные подходы к точной настройке. Однако такие модели могут быть использованы для создания фейковых новостей, обзоров товаров и даже контента экстремистского и оскорбительного содержания.
Было сделано много попыток разработать детекторы искусственного текста, начиная от классических методов машинного обучения и функций на основе подсчёта, заканчивая продвинутыми генеративными моделями глубокого машинного обучения (порождающие модели, generative model). Несмотря на выдающуюся производительность этих методов в различных областях, им всё ещё не хватает интерпретируемости и устойчивости по отношению к невидимым моделям. Искусственные тексты пока сложно отличить от написанных людьми.
В этой статье представлен новый метод обнаружения искусственного текста, основанный на анализе топологических данных (TDA), который, по мнению авторов, недостаточно изучен в области NLP. Авторы предлагают три новых типа интерпретируемых топологических функций на основе TDA. Результаты показывают, что TDA — это многообещающее направление в отношении задач NLP, особенно тех, которые включают поверхностную и структурную информацию.
Читайте полную версию научной статьи «Выявление текстов, сгенерированных
ИИ, на основе анализа топологических данных», кликнув по ссылке или отсканировав QR-код:
О методах компьютерной лингвистики в оценке систем искусственного интеллекта
Автор: Т. О. Шаврина
Основным инструментом оценки уровня систем искусственного интеллекта выступают языковые тесты. Они являются самым доступным способом обучения ИИ и одновременно обладают высокой вариативностью, необходимой для формулировки интеллектуальных задач. В статье автор обозревает актуальную методологию обучения и тестирования интеллектуальных систем, рассматривает золотые стандарты текстовых задач (бенчмарки) в методологии General Language Understanding Evaluation (GLUE), а также обсуждает теоретические основы и конкретные реализации теста для ИИ-систем Russian SuperGLUE. Автор считает, что дальнейшее сближение практик машинного обучения и науки о языке способно заполнить лакуны в оценке ИИ-систем, в методах их эффективного обучения и в автоматическом анализе текста.
Найти статью «О методах компьютерной лингвистики в оценке систем искусственного интеллекта» можно, кликнув по ссылке или отсканировав QR-код:
Одновременная локализация и построение карты на основе случайных признаков Фурье
Авторы: Е. Капушев, А. Кишкун, Г. Феррер, Е. Бурнаев.
С прошлого века вероятностная оценка состояния была основной темой в мобильной робототехнике, как часть проблемы одновременной локализации и отображения (Simultaneous Localization and Mapping, SLAM). Восстановление положения робота и карты окружающей его среды по данным датчиков является сложной задачей, поскольку неизвестны как карта, так и траектория, а также соответствие между наблюдениями и ориентирами. Область методов оценки и отображения траекторий с дискретным временем хорошо развита. Однако представления в дискретном времени ограничены, потому что их нелегко адаптировать к неравномерно распределённым позам или асинхронным измерениям по траекториям.
Одним из наиболее эффективных инструментов для аппроксимации гладких функций является регрессия гауссовского процесса (GP). Регрессия GP — это байесовский подход, в котором предполагается, что предварительное распределение по функциям является гауссовским процессом. В этой статье представлен алгоритм, основанный на приближении GP со случайными функциями Фурье (RFF) для SLAM без каких-либо ограничений. Авторы разработали этот метод на основе гауссовских процессов и случайных признаков Фурье для одновременной локализации и построения карты.
Преимущества RFF для SLAM с непрерывным временем заключаются в том, что мы можем рассматривать более широкий класс ядер и в то же время поддерживать вычислительную сложность на достаточно низком уровне, работая в пространстве функций Фурье. Компромисс между точностью и скоростью можно регулировать с помощью количества функций. На наборе синтетических и реальных задач показано, что подход лучше всего работает в случаях очень шумных данных.
Полную версию статьи «Одновременная локализация и построение карты на основе случайных Фурье признаков» читайте, пройдя по ссылке или отсканировав QR-код:
Игродром: что нужно знать о видеоиграх и игровой культуре
Автор этой книги Александр Вертушинский является одним из ведущих российских представителей направления game studies. Дисциплина занимается поисками ответов на вопросы «Что такое видеоигры и какое место они занимают в жизни человека?»
Игра в разных формах присутствует в жизни каждого человека с ранних лет. Она может отражать социальные тенденции, технологические успехи и даже становиться искусством. Этот продукт современной культуры стал значимой частью нашей повседневности, поэтому сейчас самое время задаться вопросом, что собой представляют видеоигры и что они значат для нас? Книга представляет собой философское осмысление этапов развития игровой индустрии, анализ её сформировавшегося языка и места в современном культурном пространстве.
Бесплатно прочитать отрывок книги «Игродром: что нужно знать о видеоиграх и игровой культуре» и купить её можно по ссылке или QR-коду:
Заключение
Многие работы, представленные в сборнике «Наука в Сбере-2021», подготовлены сотрудниками нашей компании вместе с партнёрами по исследовательской работе из ведущих российских вузов и научных центров. Практически половина представленных работ (47%) опубликована или принята к публикации в журналах высшей категории Q1, а также представлена на конференциях уровня A/А*, а остальные нашли своего читателя в отечественных или узкоспециальных изданиях. Мы надеемся, что вам будет интересно ознакомиться с ними и составить своё мнение об уровне научной деятельности Сбера.
Скачать сборник «Наука в Сбере-2021» в формате PDF можно по ссылке.