30 мая 2025 году состоялось мероприятие прямо в здании Сбербанка на Кутузовском проспекте. Конференция прошла уже не совсем в формате, как у ВТБ, доклады относительно длинные, но было заметно, как спикеры варьируют между тем, чтобы показать науку, и между тем, чтобы объяснить как можно популярнее. В этоге я думал, в формат ли развлечений мне переключиться и просто кодить под фан-доклады спикеров, или же очень загрузить себя кучей вопросов про то, как обобщить те или иные случаи в докладах, какие формулы уместны в контексте. Об этом я задумался еще на докладе, на котором выступал Иван Оселедец...

Который вообще соорентировал, что презентацию ему пришлось дорабатывать не без просьбы к Gigachat декомпозировать вопрос про красоту страниц современной и актуальной 2025 году презентации.
В итоге я зацепился в большей части докладов за то, что можно подтянуть знания в сфере Аббревиатур, нахвататься слов, тем более тех, которые я уже, как мне кажется, знаю.
Давайте рассмотрим некоторые доклады, которые лично нас заинтересовали на конференции.
Доклад по реверс-инжинирингу
Чтобы спроектировать дом или мост, доработать его при помощи LLM, можно представить эти объекты в графовом виде. Есть даже специальный формат: IFC, то есть Industry Foundation Classes.
Насчет реверс-инжиниринга очень перекликается с областью профессиональной деятельности. Оцифрованные детали при передаче заказчику. Часто эти модели – это коммерческая тайна той или иной инженерной группы, того или иного отдела компании.
Модель, предложенная в докладе, называется Cadrille: мультимодальная модель для генерации 3D-модели
Формообразующие операции (выдавливание, вытяжка, отбортовка, формовка). Можно генерировать через LLM, а не просто рисовать. Работаем через дерево построения, в результате чего получается 3D-модель. LLM выдает DSL-код. В этой области актуально создание бенчмарков и метрик.
2) Доклад про генерацию видео
Сравнить стоит генерацию картинок в 2021 году и в 2025. Вообще автор сказал, что видео начали генерировать полноценно в 2023 году. Наиболее крутой инструмент сейчас, который это делает – VEO3. VLM.
Wan 2.1 – опенсорсная модель, которую несложно прикрутить к своим проектам.
Шла речь о связке таких технологий, как GPT, BERT, T5. О DiT и GPT. О DDPM. О LAION, Video-VAE. Kandinsky 4.1 T2I. Кандинский, автор оттуда, учится активно создавать видео из картинок. Например, показать, как сгеренированный чебурашка машет лапой. Разработчики пробуют дать доступ к редактированию угла поворота камеры, чтобы пользователь смог задать позицию, с которой зритель наблюдает видео. Интересно сосуществовать в совершенно разных пространствах. Особенно это актуально для роботов. GR2. Несмотря на то, что
Зацепил Pikaeffect, который мне захотелось добавить в свои музыкальные видеоклипы (я как музыкант Meurch). Добавить в видео к себе можно такие эффекты. Например, показать на видео , как Энди надувается шариком или растекается, зафиксировать странную силу тяжести, продемонстрировать, как из 1 волка выходят 2 с каждым шагом этого волка и наоборот).
Loss функции. Для роботов сейчас нет единого реестра данных, нейросетям особенно негде брать реальные данные, они берутся же из данных, которые уже получены человеком, но не основаны на опыте разных роботов. В отличие от инверсной кинематики, нейросеть поможет легче рассчитать траекторию, куда роботу протянуть банан, чтобы, например, дать его обезьяне или человеку.
Видеомодели могут предсказывать, что будет в том или ином пространстве, они хранят в себе много информации именно о сцене, например в которой происходит съемка кадров для фильма.
Разработчики Deep-фейков сегодня специально могут немного "лоботомировать" модельки, чтобы не дай бог не сгенерировать лица из реального мира.

3) Вопрос эмоционального ИИ
Рационально или на эмоциях принимать решения? На людей часто влияет то, как именно выдана информация. ИИ может подсказать абсолютно адекватный и правильный ответ, дать правильный совет, но если он будет применен в ситуации, где эмоционально собеседники настроены совсем на другую волну, результат ситуации может быть далек от предсказанного нейросетью.
Эмоцию можно вообще интерпретировать как отдельную модальность. Это – совершенно отдельный канал, через который можно получать информацию, который и может, конечно, идти как лишь надстройка над звуковой или визуальной модальностями.

Психологи и психотерапевты исследуют пациента в многомодальном мире. От себя добавлю, что мой отец, Рычков Николай Николаевич, психотерапевт европейского реестра из Красноярска, вообще говорит о том, что невозможно профессионально заменить психотерапевта на набор нейросетевых решений или девайсов, которые решат ваши психические проблемы. Методики доктора требуют не только большой степени начитанности, но и умения выносить решение не только по тому, что сказал пациент или как он на тебя посмотрел. Описать опыт современных психотерапевтов передового уровня ученым пока будет сложно еще лет 10 точно, хотя решать частные психотерапевтические задачи LLM уже относительно готовы.
STAT-признаки, Attention, сглаживающий фильтр для покаровых предсказаний. Expression Recognition, Action Unit Detection, .... Модельности – это и ЭЭГ и ЭКГ. Dreamer.
Мое личное умозаключение: мир сейчас идет от того, что есть разные недоучителя, менторы, которые учат делать по-разному, от странных ученых к относительно унифицированному пространству, где много информации не просто можно быстро фильтровать из Интернета, как это было еще в 2014 году. Сегодня нам доступна красота решений множества крупных исследовательских центров, которые помогают быстро увидеть красивые картинки, послушать, как должен звучать голос, с какими эмоциями он должен подаваться.
4) Вместо ученых будут суперученые, а статьи, которые принимают труднодоступные журналы, уже сейчас генерируют нейросети
Спикер поставил эксперимент: сгенерировал 3 статьи и разослал по крутым журналам. Статьи проверены на корректность, но особо не парились, как я понял, и просто готовое решение за день создало статью (надеялись, что за пару дней, получилось даже быстрее – за несколько часов). Статью разослали в известные журналы, в некоторые из них она спокойно прошла.
FutureHouse: Robin – этот стартап генерирует статьи. Хорошо нарисовались графики по экспериментам.
Стираются границы между науками. Перенос термина мультимодальности: мультинаучность. В природе нет границ между науками. Мультидисциплинарность. В науке же есть еще ограничение в том, что между самими языками есть границы (японским, китайским, английским, русским).
Мне лично пришла в голову интересная мысль: это не просто автоматизированные лаборатории, а автоматизированная соцсеть для общения ученых. LLM легко могут взять вопрос одного японского ученого на одном языке и выдать ответ на французском языке. Такой информации в научном мире мало. Ученые совсем не знают, кто чем занимается. Когда берешь определенную тему для исследований, нужно долго читать статьи коллег, на практике не все додумаются спросить зарубежных коллег. Например, я сам многое узнал во время работы по гранту Eranet Mundus во Франции про работу французских ученых над методами уменьшения PAPR OFDM-сигнала.
Единственное, графики и подобная информация пока RAG-алгоритмами не генерируется, это создается вручную, но по датасетам. Датасеты LLM могут генерировать хорошо, но вот вопрос хороший, тут еще есть дыра, то есть речь в докладе именно про текст статей больше.
5) Инструменты Сбера для кодинга
GigaCode Inline. DPO (обучаемся не делать синтаксические ошибки). 5 трл токенов для очучения (эквивалентно Qwen Coder 2.5). В отличие от Qwen Coder продукт стартовали со случайных весов. Llama 3 подобная архитектура. Датасер The Stack v2 smol, некоторые языки The Stack v2 dedup, свежие Github-репо, OpenCoder annealing corpus. FIM-режим. Похожие модели, с которыми сравнивали: Inline 3B v3.0, Inline 3B v3.0 DPO, Qwen2.5-Coder 3B, Qwen2.5-Coder 7B.
RealCode SG. LiveCodeBench, RealCode FG, RealCode Java.
GigaCode Chat. Уже после доклада узнал, что его развивает другая команда отдельно от Giga Chat. Он быстрее кодит, потому что обучен на специализированном датасете. Но реально я прямо на стенде задал ему промпт рассказать что-то о юриспруденции, он спокойно рассказал, странно. Ну да ладно.
При выдаче кода сегодня проблем немало. Стоит в промптах учитывать жесткое обуславливание версий библиотек. Типизация после использования модели может хромать. Но тут просто надо либо дольше учить модель, либо показывать свежий код.
6) Обмен данными между роботами
Понравилось, что жизнь робота сегодня совершенно неизвестна другим роботам. Еще на Data Fusion в прошлом году слышал, что мы должны чаще делиться друг с другом датасетами, продавать их, а не держать взаперти внутри своей компании. Многие этого хотят.
Но здесь я лично для себя отметил две интересные вещи: роботам стоит "рожать" роботов. И роботу стоит
Рожать – это как Бендер в Футураме сделал ребенка. За свою жизнь робот проходит определенное количество проб и совершает некоторые ошибки. Сегодня множество таких данных просто уходит вникуда, тогда как они должны передаваться по наследству и, возможно, даже не просто влиять на дообучение робота, но складывается в датасет, который воспитал ни одно поколение роботов. Это уже чисто мои мысли, хотя докладчик был близок. Он говорил об Интернете вещей, про обмен данными между роботами и между людьми и роботами.
7) Как роботы распознают места, где Вы находитесь
На изображении школа... А где она находится? CNN/ViT бэкбоны, часто DINOv2. Обучаемая агрегация признаков: SegVLAD, SALAD, GeM, .... Новая голова...
Меня лично зацепило то, что не нужен GPS, но не нужно и базовых станций, между которыми находится телефон. Мы сами смотрим на окружающие нас объекты и понимаем, где мы находимся. Почему роботы работают с метками, используют GPS, но только не работают локально за счет нейронки, которая обучена на данных окружения, в котором робот ездит? А ведь склад не такой большой, как улица, на которой Вы живете.
Фичи из изображений можно извлекать по отдельности, а потом объединять. Объект может быть под разным углом, и нужно действительно максимально четко понимать, чем это место отличается от другого. Отличительные признаки...
SeqMamba-MPR подход. Обучаемый слой фьюжна. Мультимодальный метод, облака точек, полученных с лидара.
BoQ + SegVLAD = ??? = SegBoQ. Вот такой метод попробовал спикер. Объединил два известных метода в рамках офиса Сбер Robotics.
8) Современная навигация

В соседнем зале проходили более прикладные доклады с более конкретизированными результатами исследования, но мы возлюбили кресла в большом зале, удобнее было сидеть)

ИТОГИ
После конференции я понял, что даже несмотря на работу параллельно за ноутбуком, я хотя-нехотя нахватался терминов и идей. Казалось бы, моя тема исследований, текущая именно, далековата от LLM, RAG, но было много терминов, близких к моей теме. Даже обсуждали генерацию 3D-моделей средствами LLM. А я сейчас больше ориентируюсь на 3D-графику, учитывая проект, над которым я работаю и который мы с командой завершаем.
В нейросетях интересно то, что делятся результатами и эти результаты могут быть даже реальны, но разработчики не выложили код, и как это верифицировать, улучшать и дорабатывать – часто малопонятно.