Новое исследование показывает, что мультимодальные модели искусственного интеллекта неравномерно полагаются на визуальные и текстовые данные, что может приводить к ошибкам при обработке противоречивой информации.

При добавлении нерелевантного длинного контекста к запросам, наблюдается снижение точности мультимодальных языковых моделей (MLLM), причем это снижение проявляется как для визуальных, так и для аудиозапросов.
При добавлении нерелевантного длинного контекста к запросам, наблюдается снижение точности мультимодальных языковых моделей (MLLM), причем это снижение проявляется как для визуальных, так и для аудиозапросов.

В работе анализируется устойчивость мультимодальных больших языковых моделей к конфликтующим сенсорным данным и предлагается метод тонкой настройки для улучшения кросс-модального обоснования и рассуждений.

Несмотря на впечатляющий прогресс в области мультимодальных больших языковых моделей (MLLM), остается неясным, насколько устойчивы они к противоречивым сигналам от различных сенсоров. В работе «Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs» представлен всесторонний анализ, выявляющий предвзятость современных MLLM в пользу визуальных и текстовых данных, а также их уязвимость к семантическому рассогласованию между модальностями. Исследователи демонстрируют, что предложенная стратегия тонкой настройки, направленная на выравнивание приоритетов между модальностями, существенно улучшает мультимодальное обоснование и логическое мышление моделей.

Интересно, что выявленные проблемы полностью релевантны и отечественным мультимодальным архитектурам. Например, Kandinsky 5.0, обладая значительно улучшенным семантическим заземлением, также демонстрирует чувствительность к конфликтующим текстовым подсказкам - о чём активно пишут пользователи, экспериментирующие с генерацией видео и сложными многоступенчатыми промптами. А в случае мультимодальных сценариев на базе GigaChat (в частности, GigaChat Lightning в VLM-конфигурации) можно наблюдать тот же приоритет текстовой модальности при неоднозначном визуальном контексте. Это подчёркивает универсальность описанной проблемы и важность предложенного в исследовании подхода к выравниванию модальностей.


Когда модальности расходятся: проблема согласованности в мультимодальных моделях

Многообещающие мультимодальные большие языковые модели (MLLM), способные к более глубокому пониманию информации, сталкиваются с серьезными трудностями при расхождении между различными модальностями ввода, что приводит к непоследовательности в результатах. Ключевым ограничением является выраженная зависимость MLLM от текстовых данных: модели зачастую игнорируют противоречивую информацию, поступающую из визуальных или слуховых каналов, демонстрируя явный текстовый уклон. Эта особенность порождает существенные проблемы с семантическим выравниванием, проявляющиеся в виде галлюцинаций и подрывающих надежность логических выводов, основанных на обработке данных из нескольких модальностей.

Анализ семантического конфликта показывает, что хотя визуальное рассуждение остается стабильным, аудио-рассуждение значительно ухудшается при конфликте видео- и аудиоданных, что подтверждает склонность моделей к визуальному доминированию независимо от архитектуры и масштаба.
Анализ семантического конфликта показывает, что хотя визуальное рассуждение остается стабильным, аудио-рассуждение значительно ухудшается при конфликте видео- и аудиоданных, что подтверждает склонность моделей к визуальному доминированию независимо от архитектуры и масштаба.

Анализ семантического конфликта показывает, что хотя визуальное рассуждение остается стабильным, аудио-рассуждение значительно ухудшается при конфликте видео- и аудиоданных, что подтверждает склонность моделей к визуальному доминированию независимо от архитектуры и масштаба.

Улучшение согласованности восприятия в мультимодальных системах

Исследования в области мультимодального обучения активно направлены на повышение согласованности между различными модальностями. Разрабатываются методы AutoSteer, MC2, Arrow-of-Time и другие, которые корректируют механизмы внимания или вводят ограничения согласованности в процессе обучения. Фреймворки дистилляции, например Bridging Ears and Eyes, стремятся согласовать представления модальностей на уровне кодировщиков, улучшая их взаимосвязь и заземление.

Результаты показывают, что семантическое выравнивание видео и аудио значительно улучшает производительность модели как при визуальных, так и при аудиозапросах.
Результаты показывают, что семантическое выравнивание видео и аудио значительно улучшает производительность модели как при визуальных, так и при аудиозапросах.

Испытание на прочность: MMA-Bench для оценки устойчивости мультимодальных моделей

MMA-Bench представляет собой систематический набор тестов для оценки устойчивости MLLM к искажениям и несогласованности модальностей. Анализ на платформе Qwen2.5-Omni показал значительные успехи после применения выравнивания модальностей, включая повышение точности до 90.27% при нулевом обучении.

Тепловая карта внимания показывает, что большая часть внимания модели Qwen2.5-Omni на 28-м слое сосредоточена на текстовых токенах, что подтверждает сильное влияние текстовых данных на производительность современных многоязычных моделей.
Тепловая карта внимания показывает, что большая часть внимания модели Qwen2.5-Omni на 28-м слое сосредоточена на текстовых токенах, что подтверждает сильное влияние текстовых данных на производительность современных многоязычных моделей.

Преодоление иллюзий и развитие способности к отказу от ответа

Схемы декодирования AVCD и Fork-Merge позволяют снизить склонность моделей к галлюцинациям без дорогостоящей переподготовки. Модели, умеющие отказываться от ответа в условиях нехватки данных, демонстрируют гораздо более устойчивое поведение.

В отличие от базовой модели, склонной к галлюцинациям из-за конфликта между модальностями, наша модель демонстрирует надёжную связь между запрошенными сенсорными данными и корректными предсказаниями (обозначены зелёным цветом).
В отличие от базовой модели, склонной к галлюцинациям из-за конфликта между модальностями, наша модель демонстрирует надёжную связь между запрошенными сенсорными данными и корректными предсказаниями (обозначены зелёным цветом).

Интересно отметить, что аналогичные подходы постепенно внедряются и в российские модели. В частности, GigaChat в своих последних версиях значительно улучшил механизм отказа от ответа, а в Kandinsky 5.0 экспериментируются стратегии регулировки веса текстовых и визуальных подсказок при генерации сложных мультимодальных композиций. Эти тенденции подтверждают: проблема модального перекоса носит глобальный характер и требует системного решения.

Что дальше?

Описанное исследование поднимает фундаментальный вопрос о природе «понимания» в контексте мультимодального искусственного интеллекта. Корректная интеграция модальностей — не просто вопрос оптимизации метрик, а создание систем, способных к непротиворечивому рассуждению при наличии неполных или конфликтующих данных. Предложенные методы — важный шаг вперёд, однако корнем проблемы остаётся отсутствие формальной модели семантического согласования модальностей.

Российские модели — такие как Kandinsky 5.0 и мультимодальные конфигурации GigaChat — неизбежно столкнутся с теми же фундаментальными ограничениями. Если вектор развития продолжит смещаться от «добавления новых модальностей» к строгим методам их синхронизации, мы можем получить поколение систем, способных к гораздо более надёжному восприятию.

До тех пор MLLM будут оставаться сложными, но всё же несовершенными системами, лишь имитирующими когнитивные способности. Настоящий прорыв потребует переосмысления самой архитектурной парадигмы.


Оригинал статьи: arxiv.org/pdf/2511.22826.pdf

Связаться с автором: linkedin.com/in/avetisyan

Комментарии (0)