Новое исследование показывает, что мультимодальные модели искусственного интеллекта неравномерно полагаются на визуальные и текстовые данные, что может приводить к ошибкам при обработке противоречивой информации.

В работе анализируется устойчивость мультимодальных больших языковых моделей к конфликтующим сенсорным данным и предлагается метод тонкой настройки для улучшения кросс-модального обоснования и рассуждений.
Несмотря на впечатляющий прогресс в области мультимодальных больших языковых моделей (MLLM), остается неясным, насколько устойчивы они к противоречивым сигналам от различных сенсоров. В работе «Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs» представлен всесторонний анализ, выявляющий предвзятость современных MLLM в пользу визуальных и текстовых данных, а также их уязвимость к семантическому рассогласованию между модальностями. Исследователи демонстрируют, что предложенная стратегия тонкой настройки, направленная на выравнивание приоритетов между модальностями, существенно улучшает мультимодальное обоснование и логическое мышление моделей.
Интересно, что выявленные проблемы полностью релевантны и отечественным мультимодальным архитектурам. Например, Kandinsky 5.0, обладая значительно улучшенным семантическим заземлением, также демонстрирует чувствительность к конфликтующим текстовым подсказкам - о чём активно пишут пользователи, экспериментирующие с генерацией видео и сложными многоступенчатыми промптами. А в случае мультимодальных сценариев на базе GigaChat (в частности, GigaChat Lightning в VLM-конфигурации) можно наблюдать тот же приоритет текстовой модальности при неоднозначном визуальном контексте. Это подчёркивает универсальность описанной проблемы и важность предложенного в исследовании подхода к выравниванию модальностей.
Когда модальности расходятся: проблема согласованности в мультимодальных моделях
Многообещающие мультимодальные большие языковые модели (MLLM), способные к более глубокому пониманию информации, сталкиваются с серьезными трудностями при расхождении между различными модальностями ввода, что приводит к непоследовательности в результатах. Ключевым ограничением является выраженная зависимость MLLM от текстовых данных: модели зачастую игнорируют противоречивую информацию, поступающую из визуальных или слуховых каналов, демонстрируя явный текстовый уклон. Эта особенность порождает существенные проблемы с семантическим выравниванием, проявляющиеся в виде галлюцинаций и подрывающих надежность логических выводов, основанных на обработке данных из нескольких модальностей.

Анализ семантического конфликта показывает, что хотя визуальное рассуждение остается стабильным, аудио-рассуждение значительно ухудшается при конфликте видео- и аудиоданных, что подтверждает склонность моделей к визуальному доминированию независимо от архитектуры и масштаба.
Улучшение согласованности восприятия в мультимодальных системах
Исследования в области мультимодального обучения активно направлены на повышение согласованности между различными модальностями. Разрабатываются методы AutoSteer, MC2, Arrow-of-Time и другие, которые корректируют механизмы внимания или вводят ограничения согласованности в процессе обучения. Фреймворки дистилляции, например Bridging Ears and Eyes, стремятся согласовать представления модальностей на уровне кодировщиков, улучшая их взаимосвязь и заземление.

Испытание на прочность: MMA-Bench для оценки устойчивости мультимодальных моделей
MMA-Bench представляет собой систематический набор тестов для оценки устойчивости MLLM к искажениям и несогласованности модальностей. Анализ на платформе Qwen2.5-Omni показал значительные успехи после применения выравнивания модальностей, включая повышение точности до 90.27% при нулевом обучении.

Преодоление иллюзий и развитие способности к отказу от ответа
Схемы декодирования AVCD и Fork-Merge позволяют снизить склонность моделей к галлюцинациям без дорогостоящей переподготовки. Модели, умеющие отказываться от ответа в условиях нехватки данных, демонстрируют гораздо более устойчивое поведение.

Интересно отметить, что аналогичные подходы постепенно внедряются и в российские модели. В частности, GigaChat в своих последних версиях значительно улучшил механизм отказа от ответа, а в Kandinsky 5.0 экспериментируются стратегии регулировки веса текстовых и визуальных подсказок при генерации сложных мультимодальных композиций. Эти тенденции подтверждают: проблема модального перекоса носит глобальный характер и требует системного решения.
Что дальше?
Описанное исследование поднимает фундаментальный вопрос о природе «понимания» в контексте мультимодального искусственного интеллекта. Корректная интеграция модальностей — не просто вопрос оптимизации метрик, а создание систем, способных к непротиворечивому рассуждению при наличии неполных или конфликтующих данных. Предложенные методы — важный шаг вперёд, однако корнем проблемы остаётся отсутствие формальной модели семантического согласования модальностей.
Российские модели — такие как Kandinsky 5.0 и мультимодальные конфигурации GigaChat — неизбежно столкнутся с теми же фундаментальными ограничениями. Если вектор развития продолжит смещаться от «добавления новых модальностей» к строгим методам их синхронизации, мы можем получить поколение систем, способных к гораздо более надёжному восприятию.
До тех пор MLLM будут оставаться сложными, но всё же несовершенными системами, лишь имитирующими когнитивные способности. Настоящий прорыв потребует переосмысления самой архитектурной парадигмы.
Оригинал статьи: arxiv.org/pdf/2511.22826.pdf
Связаться с автором: linkedin.com/in/avetisyan