ICLR 2025 — это крупнейшее событие весны в мире машинного обучения, на которое я… не поехал, в отличие от моих коллег из лаборатории FusionBrain AIRI. Почему? Потому что я посетил конференцию Machines can see 2025, которая проходила примерно в эти же дни в Дубае. О том, что это за мероприятие и что я там увидел, — в репортаже ниже.

Все мы любим конференции, которые набираю ранги A и A* по версии CORE, и всеми силами стремимся туда попасть. Но это, как правило, чисто научные мероприятия. А, вместе с тем, кто‑то должен сводить вместе учёных, представителей государств, бизнес и разработчиков, чтобы научные открытия меняли нашу повседневную жизнь. Machines can see (MCS) как раз решает такую задачу.

Как можно догадаться из названия, эта серия мероприятий посвящена в первую очередь вопросам компьютерного зрения. Начало ей положила конференция, прошедшая в 2017 году в Москве, но сейчас MCS представляет собой крупнейший ближневосточный саммит, который принимают у себя ОАЭ.

MCS 2025 длилась два дня: 23 и 24 апреля, в ходе которых прошли многочисленные доклады, панельные дискуссии, воркшопы и тому подобное. Участники много говорили о роли ИИ в бизнесе и жизни общества, но научная программа там тоже присутствовала. В частности, много внимания было уделено прикладным задачам, которые можно решать на базе VLM/LLM.

Крупные игроки рынка вроде NVIDIA, Google или X тоже отправили своих делегатов в этом году, и у всех были интересные доклады или воркшопы. К сожалению, невозможно объять необъятное, поэтому в этом посте я расскажу лишь то, что сильнее всего привлекло моё внимание.

Первый день

Прежде всего хотелось бы отметить доклад главы Google Research Йосси Матиаса, состоявшийся в первый день конференции. Он рассказывал о том, какие плюсы от применения фундаментальных моделей ожидают самые разные стороны человеческой деятельности: медицина, образование, дистанционное зондирование Земли.

Говоря о первом, Матиас показывал свежие статьи из Nature о применении языковых моделей для энкодинга клинических знаний, повышении качества вопросно‑ответных систем, мультимодальных экспериментах по анализу рентгенограмм и многое другое. Впечатлил слайд о том, как несколько клиник повысили эффективность от применения помощников на базе LLM в своих процессах диагностики.

Следом Матиас рассказал про LearnLM — экспериментальную модель для конкретных задач в образовательном процессе, которую обучали в соответствии с последними достижениями педагогики. LearnLM может преподавать и обучать, следуя системным инструкциям вида «You are an expert tutor».

Но больше всего меня впечатлила тема с геопространственным ризонингом, то есть добавлением моделям способности объяснять те или иные события (и тем самым повышать качество ответа) при анализе данных дистанционного зондирования (или, попросту, космоснимков). Ризонинг сам по себе вообще здорово улучшил работу языковых моделей и привлёк внимание ML‑исследователей (спасибо Deepseek'у за такой буст!). Логично было ожидать применение этой техники в смежных областях, в данном случае, для работы мультимодальных моделей с учётом территориальных данных.

Скажем, это может быть полезно для ответов на более сложные вопросы, касающиеся некоторой местности, которые потребуют от модели самостоятельно исследовать её прошлое, найти и проанализировать исторические снимки, архивы и так далее. Хотя, наверное, более важным будет способность к прогнозированию сложных геопространственных событий и анализу геопространственных механизмов — можно научиться анализировать по спутниковым снимкам ситуацию в выбранном регионе и оценивать экономические показатели, риски стихийных бедствий, предсказывать погоду.

Сфотографировался с Йосси Матиасом
Сфотографировался с Йосси Матиасом

Запомнился также доклад Екатерины Сиразитдиновой из NVIDIA. Она рассказывала про платформенные решения для доведения GenAI‑инструментов до продакшена.

Например, Екатерина показала механику Test‑Time скейлинга в агентном формате: модель получает запрос от пользователя, далее отправляет его в цикл обработки (план + определение инструментов + критик), далее формируется ответ пользователю.

Простите за блики, но по-другому было не сфоткать
Простите за блики, но по‑другому было не сфоткать

Отдельный акцент был сделан на модели Cosmos про авторегрессионное предсказание состояний физической среды для задач моделирования сложных или редких процессов. Докладчица даже назвала это движением в сторону physical AI — модели, генерирующей мультимедийные данные (видео, картинки, и т. д.), которые отвечают тем или иным требованиям с точки зрения законов физики.

Тут, правда, не всё так однозначно, поскольку генеративные модели не являются интерпретаторами мира. Действительно, если мы не закладываем в модель каких‑то законов физики (как, к примеру, делают в PINN), то не можем интерпретировать результат как физическую модель. Например, мы можем создать видео с движущимся автомобилем, но вопрос о его скорости будет физически бессмысленным.

Мы даже немного подискутировали с Екатериной на эту тему, и она со мной согласилась, сказав, что это физическая симуляция «в кавычках», и что команда всё понимает и занимается этой проблемой.


Коллеги из X показывали новые возможности социальной сети X после добавления туда языковой модели Grok. Например, в Grok теперь появилась сущность в виде пользователя: его можно тэгать в постах, подключать к диалогу, просить суммаризировать информацию о странице, пользователе и так далее. Grok теперь также может оставлять комментарии в своих сообщениях в ветках коммуникации.

Помимо этого спикеры похвастались несколькими прикладными кейсами применения Grok 3:

  1. Климатические исследования (ризонинг). Провели за 6 часов симуляцию 50-летней истории замеров углекислого газа — новый способ оказался на 30 процентов эффективнее существующих методов прогнозирования.

  2. Планирование космической миссии. Рассчитали орбитальный путь Марса за 4 минуты — результат исследования приведёт к сокращению расхода топлива на 15% по сравнению с моделью NASA.

  3. Исследования генома (ризонинг). Удалось найти участок генома, ответственный за редкую болезнь. На это ушёл всего один день, в то время как краудсорс‑исследования с задачей не справились.

На технические вопросы о модели спикеры ответы дать не смогли.


Первый день MCS совпал с финалом другого мероприятия — Международного чемпионата по промпт‑инжинирингу. Участники из разных стран соревновались друг с другом в 4 категориях: art, video, gaming, coding. В финале встречались тройки лучших.

Финал по вайб-программированию. Победит парень справа — магистрант MBZUAI.
Финал по вайб‑программированию. Победит парень справа — магистрант MBZUAI.

Конкурс примечателен размером призового фонда — он составил 1 миллион дирхамов (примерно 22 миллиона рублей). Награждать же победителей приехал заместитель премьер‑министра Объединённых Арабских Эмиратов и принц Дубая Хамдан ибн Мохаммед Аль Мактум, из‑за чего в месте проведения были приняты очень строгие меры безопасности. Всё говорит о том, что правительство ОАЭ крайне заинтересовано в развитии ИИ в стране.

Второй день

Второй день MCS 2025 начался с выступления иллюзиониста Марко Темпеста, который рассказал и показал, как изменился мир фокусников с появлением ИИ‑инструментов. С помощью ComfyUI, методов удаления фона, лип синка, image‑to‑image генераций поверх видеопотока можно создавать красивые иллюзии с заданным сторилайном.

Чуть позже выступила Микал Ирани из Института Вейцмана. Она рассказала про исследование своей группы, связанное с разработкой решений по визуализации мыслей человека. Фактически, они создали энкодер данных ЭЭГ и научились конвертировать их в изображения. Исследуя латентные промежуточные представления, команда нашла кластеры векторов, отвечающих за определённые классы объектов: лица, животные, природу и так далее.

А ещё Ирани и её коллеги занимаются задачами цифровизации запахов для их распознавания и классификации.


Следом за ней выступил глава VGG группы из Оксфордского университета Андреа Ведальди. Он рассказал о нескольких работах в направлении фундаментальных 3D-моделей, например, про VGGT. VGGT — это трансформерная архитектура, обученная решать сразу несколько задач в модальности 3D. Она принимает на вход одно или несколько изображений и решает такие задачи, как оценка глубины, построение облака точек, трэкинг, граундинг и так далее.

При своей мультизадачности модель работает быстрее существующих SoTA аналогов, при этом обгоняя их в точности. Следующим шагом станет переход к более качественному 4D-представлению, что, по сути, ведёт к развитию моделей обусловленного синтеза видео, в которых «заложено» понимание физики мира за счёт корректной симуляции.

С Ведальди тоже удалось сделать совместное фото
С Ведальди тоже удалось сделать совместное фото

Также Ведальди рассказал про ряд работ в области композиционного представления 3D-объектов, что является формой механистической интерпретации трёхмерных представлений. Свои наработки в этом направлении докладчик обещал представить на CVPR 2025.


Была пара дискуссий про компьютерное зрение в 2025 году и про развитие робототехники. В обеих сессиях участники подчеркивали, что области видоизменяются с приходом генеративного ИИ, и это приводит к новым постановкам задач, новым подходам, а также новым вызовам в части интерпретации, alignment и развития нового аппарата моделей, основанных на трансформерах, MoE подходах и других решениях.

Сам я принял участие в форсайт‑сессии по ИИ вместе с другими 60 участниками из разных стран, по большей части учёных и представителей бизнеса. Я освещал главные тренды и перспективны GenAI 2025, выделил 4 направления:

  1. Визуальные модальности для расширения мультимодальных архитектур. Речь о расширении функциональности для редактирования изображений по инструкциям, визуального граундинга (детекции объектов по текстовым инструкциям) и работы с видеомодальностью посредством сжатия контекста для оффлайн и потоковой обработки.

  2. Мультимодальность в физическом мире (Embodied AI). Такая интеграция требует решения задач переноса знаний из симуляторов в реальность (sim‑to‑real), количественной оценки неопределенности и использования фундаментальных робототехнических моделей для планирования действий и взаимодействия со средой.

    Оценка успешности моделей включает анализ успешности действий роботов (открывание дверей, захват объектов) и интеграцию фундаментальных моделей как критиков для оптимизации процессов. Критик обладает некоторым «взглядом со стороны» для оценки качества исполнения операций и предложения следующих этапов выполнения/исправления действий.

  3. Мультимодальные методы рассуждений. Такие штуки улучшают анализ временны́х событий (например, появление объектов в видео) и позволяют кастомизировать функции вознаграждения для задач локализации и анализа данных. Данный подход актуален как для решения задач с изображениями, так и с видео при развитии методов темпоральных рассуждений.

  4. Синтез мультимедийных данных, обусловленных законами физики. Это критически важно для робототехники, автономного вождения и синтеза реалистичных 4D‑сред, но требует проверки на простых сценариях. Существующие на сегодняшний день решения показывают возможность повторять те сведения, которые встречались в обучающих выборках, а вот сложные кейсы модели спрогнозировать достоверно не могут (да и сам аппарат оценки достоверности отсутствует для ряда задач).


Поездкой я остался доволен, и в целом мог бы рекомендовать своим коллегам посетить MCS в следующем году.

Комментарии (1)


  1. Dennvo
    27.05.2025 16:39

    Мне кажется вам Nike Airforce белые бы больше подошли по стилю. Не знаю почему, но что-то меня обескураживает в дизайне этой (что вы надели) обуви. Я желаю задуматься... Извините, я дизайнер, мы не понимаем в ваших IQ 200 темах, просто оставил коммент.