
Современные ИИ-модели достигли впечатляющих успехов в понимании текстов и изображений, однако все еще не идеальны в задачах, где важна визуальная интуиция, таких как навигация и планирование действий. Сегодня большинство моделей конвертируют визуальную информацию в текстовую и только затем принимают решения, что приводит к потере важных деталей и делает решение задач менее интуитивным.
Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

Исследователи поставили перед собой цель создать новую парадигму — Visual Planning, где модели принимают решения и планируют действия, опираясь только на изображения. Для проверки такой идеи был разработан специальный подход под названием Visual Planning via Reinforcement Learning (VPRL).
Что именно исследователи проверяли? Они хотели выяснить, может ли ИИ-модель строить точные визуальные траектории действий без использования слов. Проверка велась на трех классических задачах навигации:
FROZENLAKE – агент должен пройти по замёрзшему озеру, избегая дырок.
MAZE – агент ищет выход из лабиринта.
MINIBEHAVIOR – агент должен перенести принтер от одного места к другому.

Для тестов использовались несколько моделей: чисто визуальная модель LVM-3B и мультимодальные модели Qwen 2.5-VL-Instruct и Gemini (версии 2.0 и 2.5 Pro).
В чём же суть Visual Planning? Модель получает стартовое изображение и затем должна самостоятельно создать последовательность картинок, каждое из которых показывает результат её следующего действия, вплоть до достижения цели.
Исследователи разработали специальный метод VPRL, который состоит из двух этапов:
Этап 1 (инициализация): модель обучается на случайных наборах картинок, чтобы понять, какие действия возможны.
Этап 2 (обучение с подкреплением): модель учится выбирать оптимальные шаги, учитывая их последствия, и избегать ошибок (например, столкновения со стенами).

Результаты оказались впечатляющими. Сравнивая новую визуальную модель с обычными текстовыми, исследователи выяснили, что модель без использования слов (VPFT, упрощенный подход без обучения с подкреплением) была эффективнее текстовых аналогов примерно на 22%. Однако, когда использовали полноценный подход VPRL с обучением с подкреплением, результат вырос ещё на 20%!
Конкретные цифры следующие:
FROZENLAKE: VPFT – 75,4%, VPRL – 91,6%
MAZE: VPFT – 59,0%, VPRL – 74,5%
MINIBEHAVIOR: VPFT – 64,0%, VPRL – 75,8%
В среднем, визуальный подход VPRL показал точность 80,6% против 66,1% у упрощённого подхода. Это доказывает, что обучение с подкреплением значительно улучшает способность модели планировать визуально.
Когда размер среды увеличивали, точность текстовых моделей резко падала, а визуальные модели справлялись гораздо лучше. Например, на FROZENLAKE с ростом размера с 3×3 до 6×6, точность текстовых моделей падала с 98% до 38,8%, тогда как VPRL снижалась всего лишь с 97,6% до 82,4%.

Ещё одно преимущество нового подхода — это меньшее число недопустимых действий. Модели на основе VPRL делали намного меньше ошибок, связанных с невозможными движениями (например, столкновением со стенами). Например, в задаче MAZE количество таких ошибок снизилось почти в три раза — с 73,7% у VPFT до 25,1% у VPRL.
Однако, несмотря на преимущества, у подхода есть и ограничения:
Визуальное планирование требует больше вычислительных ресурсов.
Пока сложно применять подход в очень сложных сценах без специальных доработок, таких как более продвинутый анализ изображений.
Модели могут «заучивать» конкретные маршруты, что снижает их гибкость.
Кроме того, хотя визуальные траектории легче воспринимаются людьми, сам процесс принятия решений внутри модели остаётся непрозрачным.
Авторы исследования убеждены, что подход Visual Planning может быть полезен в робототехнике, автономном транспорте и других областях, где важна визуальная информация. Но перед массовым применением нужно решить проблемы с масштабируемостью и ресурсами, а также обеспечить безопасность и прозрачность работы моделей.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Комментарии (5)
Dron007
28.05.2025 17:37Интересное направление, тоже задумывался, что этого ИИ не хватает. Возможно, такие модели могли бы показать хорошие результаты и в Arc-AGI задачах. Человек мыслит скорее даже не визуальными образами, а чувственными, предощущениями действий иногда. Допустим вам говорят подготовиться к заданию - подойти к полке, взять книгу, перевернуть её и поставить на место. Что проносится у вас в голове? План моторных реакций, идеомоторная визуализация, очень условная, но достаточная чтобы потом быстро дать команду мышцам. Есть ощущения физического расположения, не визуализация даже и уж точно не детальная попиксельная визуализация, совершенно не нужная. Может быть если найдут способ такое же запихнуть в нейросеть, будет большой прогресс при минимальных затратах. Думаю, это где-то в области эмбеддингов, которые не требуется доводить до уровня чёткой картинки и лучше всего это может сработать если у нейросети есть опыт управления роботом.
Sm0ke85
28.05.2025 17:371) Ерунда, человек не мыслит текстом (поробуй о чем-то поразмышлять и сразу поймешь что ты мыслишь объектами и действиями, а никака не буквами и знаками припенания...).
2) На сегодня ИИ "понимать" не умеют, они умеют агрегировать и имитировать.
3) Вы переоценивает возможности текущих ИИ, там по фундаменту много чего не хватает, что еще и не совсем ясно как оптимально реализовать (по крайней мере мне это СРАЗУ бросается в глаза при попытке с ИИ "пообщаться" - там "понимание" задачи околонулевое и т.д.)
4) Также считаю слова "обучение", "распознавание" и т.п. в отношении текущих "ИИ" - "бусами для аборигенов" или маркетинговым (цыганским) ходом, т.к. данные слова не отражают действительность (тут подходят слова "калибровка", "сопоставление" и т.п., и даже "дрессировка" - видится мне как исбыточное, не отражающее действительность, понятие)
JimDangle
28.05.2025 17:37Последнее время ищу максимум ифны по ИИ, спасибо вам всем кто выкладывает подобный контент
morty45
наверное doomать всё же