Мультимодальные модели – грубый и дорогой инструмент / forpes.ru

Главная
Мультимодальные модели – грубый и дорогой инструмент

Мультимодальные модели – грубый и дорогой инструмент +2

15.04.2026 16:10

marchrap 8 9400 Источник

Нам нужно новое зрение для интерфейсов

Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему.

Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning.

Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде.

Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и бэкенд (если вы используете ИИ для разработки). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео(хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев).

И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу.

Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

Конечно, код даёт модели описание интерфейса, контекст мы можем увеличить до миллиона токенов, придумать сжатие контекста, разряженное или скользящее внимание, но не даёт самого интерфейса в его реальном состоянии после рендера. По коду не всегда понятно, что кнопка уехала за экран, что блоки налезли друг на друга, что выпадающее меню перекрыто, что элемент формально существует, но фактически недоступен пользователю.

Скриншоты решают часть этих проблем, но слишком дорогой ценой. Чтобы действительно понять страницу, мало одного кадра. Нужны разные viewport (размеры окна просмотра), разные состояния, hover (наведение), focus (фокус), модалки, загрузка, динамические изменения, иногда и целые видео. В итоге задача, которую браузер внутренне уже "понимает" как структуру элементов, их геометрию и состояния, снова сводится к тяжёлому анализу пикселей. А зачем?

Именно поэтому мультимодальные модели сегодня часто оказываются грубым инструментом для интерфейсов. Они слишком универсальны там, где нужен более специализированный способ восприятия.

Мне кажется, здесь не нужна новая глобальная архитектура ИИ. Не нужно отказываться от трансформеров и заново изобретать интеллект. Но, возможно, моделям нужен новый постоянный модуль восприятия – не очередная временная "рука", которую агент каждый раз заново пишет в виде скрипта, а встроенный способ видеть интерфейс как структуру. Но скорее новый глаз, либо целый набор на выбор с универсальным подключением (Но это уже другой вопрос).

Как уже говорилось ранее, человек смотрит на сайт не как на DOM и не как на поток байтов. Мы почти мгновенно различаем текст, фон, кнопки, границы, поля ввода, меню, модальные окна, области контента и то, что выглядит сломанным. Для этого нам не нужно каждый раз восстанавливать интерфейс ни из исходного кода, ни из набора пикселей.

Значит, и для моделей сайт (и другие интерфейсы, возможно) должны быть не просто кодом и не просто картинкой, и не нужно изобретать велосипед по типу интерпретации каждого сайта для ИИ. Нам явно не хватает третьего слоя – более лёгкого и более точного представления интерфейса, пригодного и для понимания страницы, и для проверки вёрстки, и для взаимодействия с UI.

Благодаря такому слою, модель сможет лучше решать широкий спектр задач и оставаться универсальной.

P.S. Статья написана человеком. Это не разбор готовой реализации и не попытка продать "почти решённую" задачу. Цель – аккуратно зафиксировать саму проблему.

Комментарии (8)

AlexWorkHabr
15.04.2026 17:26
#29835430
Вообще да, пока что модельки “понимают” интерфейс примерно как я чужой код в 3 ночи - чёт смотрю, но лучше не спрашивать, что именно вижу)
1. marchrap Автор
  15.04.2026 17:26
  #29835478
  Сколько не пытался перестроить режим, всё равно к ночи, даже если голова уже "хуже думает" - работа наоборот прет.
  
  Про интерфейс. Модельки щас натаскали на шаблонные решения, которые палятся даже лучше, чем нейрослоп. Я смотрел представление Сэма о выходе гпт5, боже как они там хвалили что она делает сервис с нуля, и показывали эти интерфейсы. Но через три тестовые генерации, я понял что не всё так гладко. особенно когда оно пытается запихнуть весь контент и ручки (если сервис) в одну страницу.
  
  Я думаю, если появиться новый канал зрения, то этот вопрос получится решить в том числе. Но мне больше интересно на сколько это снизит стоимость автоматизации работы с сайтами, типа бронирование, поиск.
  1. tkutru
    15.04.2026 17:26
    #29837046
    если появиться новый канал зрения
    
    Считаю, проблема не в нехватке источников информации, каналов, вычислительных ресурсов и тп. Проблема концептуальная - отсутствие у LLM понимания. Имитацию они могут сделать, ну это как попугай, он тоже вроде "говорит", но толку от этого не сказать чтоб много...
    
    marchrap Автор
    15.04.2026 17:26
    #29837202
    Я полностью согласен, но предложил это опустить в начале статьи. И посмотреть на LLM как на программу которая поглощая А выдает нам Б, где Б имеет некое качество, даже можно допустить что оно приемлемое для нас (но это тоже не важно).
    
    Дело в том что если мы посмотрим на LLM как на жалкую программу(а не на какой то интеллект), то увидим что не эффективно в модель пихать фотографии сайтов, а так же код, для оценки визуала (а еще сюр когда она каждый раз пишет код для чтения pdf). Даже если бы она давала достойный результат.
    Но и этот достойный результат она не дает, а шишки AI компаний продолжают раздувать AGI говоря нам что модель должна видеть, слышать писать как мы и тогда она сможет быть умной, это будет сверх интеллект.
    
    И вот я говорю что пока их идеи это бред, мы можем просто добавить специфичный механизм в LLM и он даст рост качества на определенных задачах. Это как вместо LLM для анализа результатов крови обучить более мелкую нейросеть. Вот тут будет эффективность.
    Или для бота поддержки взять не API chatgpt а поднять локально gpt2 и дообучить его шаблонно отвечать на вопросы используя RAG.
    
    В общем таких кейсов много где излишне усложняют используя большие языковые модели или тратя токены.
    
    Например многие чаты не поддерживают банальную вещь - не переключенная раскладка клавиатуры, которая давно есть в поисковиках. Модель с первого раза не расшифровывает это, а тратит в среднем 2-3 генерации.
    
    Но с точки зрения Сэма, (я думаю) - он скажет, можно а зачем?)
    
    marchrap Автор
    15.04.2026 17:26
    #29837330
    Кстати насчет попугаев, очень хороший пример. Есть более умные попугаи которые знают много слов и могут вставлять их правдоподобно в диалог, как LLM)
    То есть со стороны люди верят что он умный (что он понимает), но его мозг просто выбрасывает звуки связанные ассоциациями а не каким то размышлением. В отличие от Ворон.
    
    Я изучал этот вопрос, сам хотел себе забавную ~~игрушку~~ птичку до глобального AI хайпа.

kuza2000
15.04.2026 17:26
#29838972
Для этого нам не нужно каждый раз восстанавливать интерфейс ни из исходного кода, ни из набора пикселей.

Открою страшную тайну. Человеческий глаз передает тоже набор пикселей. Причем там всё ещё хуже - там набор пикселей кусочка изображения. Приходится с начала из пикселей восстанавливать кусочек, потом ещё кусочек, потом складывать это в картинку.
1. marchrap Автор
  15.04.2026 17:26
  #29839418
  А еще убирать шум. переворачивать картинку. Но мы не тратим на это все ресурсы нашего мозга. Суть в этом.
  Что есть боль, можно решить чуть проще и дешевле, также как появились mcp сервера, нужен один или набор каналов информации
  1. kuza2000
    15.04.2026 17:26
    #29840150
    Ресурсы тратим. Для сознания они незаметны, да.
    
    Если честно, я не увидел в статье конкретных фактов - почему другие варианты могут быть лучше. Мне это кажется не очевидным.
    
    Сверточная сеть, используемая моделью для зрения занимает крошечную, просто ничтожную ее часть. И она поставляет модели информацию так же естественно, как нам ее дают глаза. Зачем отнимать у модели естественное зрение, и заменять костылями? Для таких предложений нужны конкретные варианты с пруфами.

Мультимодальные модели – грубый и дорогой инструмент +2

Нам нужно новое зрение для интерфейсов

Комментарии (8)

AlexWorkHabr

marchrap Автор

tkutru

marchrap Автор

marchrap Автор

kuza2000

marchrap Автор

kuza2000