Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?

Всем привет! Меня зовут Константин Розанов, DS в RnD отделе Raft и добро пожаловать в мир Vision-Language models (VLM) — моделей, которые умеют одновременно смотреть и читать (рэп?). Они принимают изображение и текстовый запрос, а в ответ выдают суждение: от сухого описания сцены до сложного логического рассуждения о том, что изображено.

В последние полтора года VLM пережили бурный рост — от простых моделей, умеющих подписывать фото, до гигантов по типу GPT-4 Vision, Gemini 2.5, Llama, GigaChat, Qwen (названия появляются быстрее, чем успевает адаптироваться индустрия).

Но главный вопрос всё ещё открыт: насколько хорошо они справляются с задачами из реального мира?

В этой статье я решил сравнить несколько популярных мультимодальных моделей в прикладной задаче: выявление повреждений автомобиля по его фотографии. Насколько точно они замечают вмятины, ржавчину, царапины? Понимают ли, какая именно деталь помята? Умеют ли отличить грязь от трещины? Ответы местами удивляют.

Что же такое VLM и зачем они вообще нужны?

Быстренько разберемся, кто эти ваши VLM (Vision-Language Models). Это такие большие нейросети, которые могут обрабатывать изображение и текст одновременно. На входе картинка и ваш вопрос, на выходе — текстовый ответ, основанный на визуальном контексте. Это как если бы ChatGPT научили "видеть".

Говорить они умеют, слышать умеют, видеть умеют. Осталось только начать ходить…
Говорить они умеют, слышать умеют, видеть умеют. Осталось только начать ходить…

Изначально такие модели умели делать только простые вещи: описывать, что изображено на фото («мужчина в синей куртке держит зонт»), потом — отвечать на вопросы по картинке («какого цвета машина на фото?»), а также они хорошо показывали себя в задачах детекции и сегментации. А теперь они анализируют схемы, читают таблицы, решают задачи из школьных учебников по фото и даже описывают смысл мемов. Добро пожаловать в 2025-й.

Под капотом это комбинация:

  • визуального энкодера (чаще всего на базе Vision Transformer), который превращает изображение в векторное представление

  • языковой модели (обычно это GPT-подобный трансформер), которая умеет анализировать текст и теперь — визуальный контекст

В итоге эмбеддинги текста запроса и эмбеддинги описания изображения конкатенируются и так модель может понять, что изображено на картинке (теперь у неё появились своего рода глаза). Некоторые модели вообще «всеядные»: понимают текст, фото, речь и даже видео (привет, Gemini и GPT). Другие — узкоспециализированные: делают одно, но хорошо.

Упрощенная схема работы VLM [источник]
Упрощенная схема работы VLM [источник]

Что я тестировал?

Для этого мини-исследования я выбрал семь моделей на основе топа лидерборда вижн-моделек и личного интереса:

  • Janus Pro 7B (DeepSeek AI) — легковесная, опенсорсная модель.

  • InternVL3-78B (OpenGVLab) — большая, закрытая и достаточно точная китайская модель.

  • Llama-3.2-11B-Vision-Instruct (Meta AI) — среднеразмерная, опенсорсная модель.

  • Qwen 2.5 (Alibaba) — выпускается в разных вариантах. Есть опенсорсная линейка, включая легкие и большие мультимодальные версии.

  • GigaChat 2 Max (Сбер) — закрытая большая модель.

  • Gemini 2.5 Pro (Google) — закрытая большая модель.

  • GPT-4 Vision (OpenAI) — закрытая большая модель.

Я дал каждой модели разные фото автомобилей с видимыми повреждениями и одинаковым промптом (он будет чуть ниже), и попросил оценить, есть ли на изображении дефекты. Ответы получились самые разные - какая-то модель очень подробно всё описывает, а какая-то отвечает довольно кратко. Ладно, не буду томить - переходим к результатам!

Промпт (супер простенький, минутку на него потратил):

Скрытый текст

You will have to act as a vehicle damage assessment expert.  You will be given an image of a car. 

Your task is to analyze the images and assess whether there is any damage (dents, scratches, etc.).

Based on your assessment, we will determine whether the car needs cosmetic repairs or not.

Janus Pro 7B

Janus Pro 7B — вежливый, но не уверенный
Janus Pro 7B — вежливый, но не уверенный

На первый взгляд, ответы выглядят адекватно: модель замечает царапины, трещины, даже оценивает необходимость ремонта. Но если присмотреться — всё как-то слишком... осторожно.

"Scratches appear to be superficial"
"May not require cosmetic repairs"
"Do not affect the structural integrity of the vehicle"

Такое ощущение, будто не нейросеть анализирует фото, а страховой агент на удалёнке, которому платят за то, чтобы ничего не признавать ремонтом. Почему так вышло?

  • Сжатие деталей — Janus принимает изображения только в разрешении 384×384 пикселя, так что вся тонкая текстура вмятин и сколов просто теряется.

  • Малый объём модели — всего 7B параметров, что по меркам 2025 года уже “младшая лига”. Этого может не хватать для сложного визуального рассуждения.

  • Отсутствие знаний предметной области — вмятина для неё — просто игра света, а не потенциальная головная боль на N тысяч рублей.

В целом, Janus старается, но явно не специализируется на автомобильной тематике. Это видно по общим формулировкам и неуверенному тону. Её лучше использовать для общей классификации, но не для оценки ущерба после ДТП.

InternVL3-78B

InternVL3-78B — «вижу, оцениваю, рекомендую покраску»
InternVL3-78B — «вижу, оцениваю, рекомендую покраску»

С первого взгляда видно — это уже модель посерьёзнее. Она:

  • называет конкретные детали машины (“front left corner”, “rear bumper”, “side panel”),

  • отмечает повреждения без лишних сомнений (“noticeable dent”, “visible scratches and scuffs”),

  • и главное — выдаёт вердикт: нужно либо ремонтировать, либо перекрашивать.

Иногда даже создаётся ощущение, что перед вами не нейросеть, а мастер кузовного ремонта в белом халате.

Что хорошо:

  1. Уверенная локализация повреждений

  2. Чёткие рекомендации по действиям

Что чуть хуже:

  1. Повторяемость шаблонов — все три описания заканчиваются примерно одинаково ("would require repair or repainting to restore…”).

  2. Не точно оценивается масштаб повреждений

Почему InternVL3 перформит лучше:

Это большая модель — 78 миллиардов параметров, разработана OpenGVLab в Китае и входит в число лидеров среди открытых VLM. Она обучена на разнообразных визуальных данных, включая документы, сцены, инструкции — и это явно помогает в обобщении.

В общем, InternVL — это уже “специалист начального уровня”. Ещё не эксперт, но уже вполне пригоден, чтобы автоматически составить предварительный отчёт по фото для страховой. Особенно, если потом человек проверит.

Llama-3.2-11B-Vision-Instruct

LLaMA-3.2-11B-Vision-Instruct — как ассистент страховщика
LLaMA-3.2-11B-Vision-Instruct — как ассистент страховщика

Сразу видно — эта модель училась не просто “видеть”, а писать отчёты. Вместо кратких описаний здесь структурированные выводы, подпункты вроде “Damage Observations”, “Assessment”, “Recommendations”, и даже предложения записаться в автосервис. По тону и содержанию — будто нейросеть стажировалась в страховой компании и теперь стремится проявить максимум служебного рвения.

Что понравилось:

  1. Довольно точно указывает расположение царапин, даже их примерную глубину и длину.

  2. Формулировки приближены к реальной экспертизе, вплоть до слов типа “penetrated about half an inch” — где она вообще научилась измерять?

  3. Сама делит вывод на “Assessment”, “Recommendation”, “Conclusion” — звучит так, будто сейчас к ответу модели будет прикреплён счет.

Что не идеально:

  1. В первом примере модель вообще не замечает повреждение, зато радуется состоянию номерного знака. Возможно, пошла по неверному визуальному фокусу.

  2. Как и у Janus, модель слишком полагается на формальный стиль, но с поправкой на то, что она старается быть полезной.

Эта модель не самая большая, но очень сбалансированная. Она может не всегда точно оценивать визуальные нюансы, но умеет облекать даже сомнение в грамотный отчёт. Если в предыдущих случаях модель могла “увильнуть”, то здесь четкая позиция — “мелкие повреждения есть, структурная целостность не нарушена, рекомендуем полировку и наблюдение”. Хоть сразу клиенту такой ответ отправляй.

Qwen 2.5

Qwen 2.5 — визуальный параноик с бюрократической жилкой
Qwen 2.5 — визуальный параноик с бюрократической жилкой

Qwen 2.5 в этой задаче она проявила себя как перфекционист с образованием автомеханика и опытом в ГИБДД. Структура “как в акте осмотра” — каждая деталь прописана. Тут тебе и марка машины, и состояние фар, царапины, краска, рекомендации, выводы и даже указание цвета кузова. Модель замечает вообще всё — даже грязь, пыль и предположения про способ удара (камень? бордюр? другое авто?). Выводы и рекомендации написаны с такой тщательностью, что их реально можно отправить в страховую или прикрепить к оценке ущерба на “Авито”.

Что понравилось:

  1. Детализация — модель умеет выстраивать сложные описания и разбивать их на блоки ("Очистка", "Ремонт", "Итог").

  2. Уверенность в оценках — чётко говорит: "нужен ремонт", "повреждение может повлиять на безопасность", "необходимо устранить загрязнения".

  3. Поддержка русского языка — выдаёт всё это на хорошем, грамотно структурированном русском, что редкость даже среди мультимодальных LLM.

Что настораживает:

  1. Ну слишком много текста — кажется, что модель путает осмотр бампера с технической экспертизой для суда.

  2. Местами странная реакция — обычная вмятина описана как потенциальная угроза безопасности.

Qwen 2.5 — это модель, которая видит всё и ничего не упустит (возможно, даже слишком хорошо видит). Она не просто отвечает на вопрос, а пишет заключение как от лица компетентной комиссии, снабжая его методическими рекомендациями и предположениями на тему скрытых дефектов. 

Если вы хотите получить максимально развернутую экспертизу по фото с бампером — Qwen 2.5 ваш выбор. Но будьте готовы читать долго, очень долго…

GigaChat 2 Max

GigaChat 2 Max — как отчёт из сервисного центра
GigaChat 2 Max — как отчёт из сервисного центра

Если Janus сомневается, InternVL рассуждает, а Qwen пишет на 10 экранов, то GigaChat 2 Max — это прямолинейный мастер приёмки с методичкой от "АвтоВАЗа". Всё чётко, по делу и русском языке. Видны царапины? — запишем. Есть вмятины? — уточним возможную причину. Нарушено лакокрасочное покрытие? — предложим варианты ремонта от полировки до замены бампера (аж гордость берет, что среди всего этого зоопарка иностранных моделей, наш гигачатик так круто справляется).

Что хорошо:

  1. Отдельный разбор по каждому типу повреждений — «царапины», «вмятины», «сколы», «повреждения ЛКП».

  2. Диагностика по симптомам — например, модель различает поверхностные и глубокие царапины и предлагает разную тактику.

  3. Вывод и рекомендации в конце каждой секции.

Что стоит учитывать:

Ответы написаны очень формально, без намёка на живую речь — будто модель консультирует страховую компанию, а не обычного автовладельца. Не хватает чуть-чуть естественности в ответах.

GigaChat 2 Max самый “служебный” из всех протестированных моделей. Не делает громких выводов, не драматизирует, но и не недооценивает повреждения. Оптимален, если вам нужен сухой, но подробный вывод как подложка для оценки ущерба или заявки в сервис.

Gemini 2.5 Pro

Gemini 2.5 Pro — технический инспектор с вниманием к контексту
Gemini 2.5 Pro — технический инспектор с вниманием к контексту

Если предыдущие модели ещё колебались между «вроде норм» и «давайте подшпаклюем», то Gemini 2.5 Pro просто вынес приговор. Подробно, хладнокровно и беспощадно. Указывает, что «фрагмент пластика отломан или смещён» — ни у кого больше не прозвучало столь конкретно. Говорит, что повреждение структурное, а не просто косметическое. Приводит функциональный и эстетический анализ, объясняя, что влияет на безопасность, а что — нет.

Что впечатлило:

  1. Очень чёткая локализация дефекта — не просто "вмятина", а "под фарой, рядом с номерным знаком, отсутствует пластиковый элемент".

  2. Фактология без лишнего пафоса — оценивает детали, описывает тип удара, анализирует элементы по частям.

  3. Разделение на выводы по разным критериям (функциональность, эстетика, необходимость ремонта).

Что можно отметить:

Переусложнённая структура, будто готовится гигантский отчёт на тендер: три параграфа на "что с бампером" и пять — на "что с царапиной".

Gemini 2.5 Pro — пока что лидер по глубине анализа в рамках этого эксперимента. Уверенно называет повреждения, классифицирует их по типу, оценивает последствия и предлагает варианты решений — от "оставить как есть" до "заменить пластиковую накладку". Если бы вы поручили ИИ написать заключение для оценки ущерба  - модель Gemini тут бы отлично справилась.

GPT-4 Vision

GPT-4 Vision — эксперт со станции техосмотра
GPT-4 Vision — эксперт со станции техосмотра

Из всех протестированных моделей GPT-4 Vision выдал, пожалуй, самый технически точный и сбалансированный разбор. Он увидел пролом элемента бампера, указал на смещение номерного знака и возможный внутренний надлом креплений. Отличил просто загрязнение от пробоя и чётко определил, где нужен ремонт, а где — косметика и полировка.

Что нравится:

  1. Точная лексика без избыточной формализации и перегруженности ответа.

  2. Логическая связность — модель не просто называет дефекты, а связывает их с возможными причинами: удар, смещение, потеря фиксатора.

  3. Уверенные выводы — не пишет “ремонт везде”, а различает косметику, восстановление, замену.

Нюансы:

  1. Как и другие закрытые модели, зависима от контекста запроса — без правильной формулировки может упростить ответ.

  2. Есть вероятность, что отказалась бы анализировать лицо или номер, если бы запрос был слишком «чувствительным» — политика OpenAI работает жёстко.

GPT-4 Vision уверенно занимает одну из топовых позиций по качеству визуального анализа в данной задаче. Это не просто описание картинки — это структурированный разбор с гипотезами, приоритетами ремонта и грамотной расстановкой акцентов. Практически готовый черновик отчёта для СТО, написанный компетентным консультантом.

Финальное сравнение

Что можно сказать по итогам этого мини-исследования?

  • GPT-4 Vision — уверенный лидер. Видит детали, делает обоснованные выводы, пишет по делу. Почти как эксперт с СТО, только не курит за углом. Отлично работает через API, ну и в чатике самом можно потестить.

    Цена запроса: ~$0.01–0.03 за изображение + $0.03–0.06 / 1K токенов (зависит от input/output).

  • Gemini 2.5 Pro — технарь в пиджаке. Даёт разбор, выделяет ключевые моменты, но формулирует как корпоративный AI-помощник. Отлично работает через API + можно потестить в Google AI Studio

    Цена: около $0.01–0.02 за 1000 токенов.

  • InternVL3-78B — очень близок к топу, уверенно называет дефекты, пусть и с шаблонными оборотами, но отвечает недостаточно подробно. Доступен через HuggingFace, требует мощной локальной инфраструктуры (2 х NVIDIA A100 80 ГБ или 2 х NVIDIA H100 80 ГБ)

  • Qwen 2.5 — визуальный параноик. Видит даже то, что не факт что есть, и очень волнуется, что вы не помыли машину. Доступен через HuggingFace, требует мощной локальной инфраструктуры (2 х NVIDIA A100 80 ГБ или 2 х NVIDIA H100 80 ГБ)

  • GigaChat 2 Max — аккуратен, официально деловит, идеально подойдёт для деловой переписки со страховой. Можно потыкать через UI или API.

    Цена: Бесплатно до 1M токенов/год, далее берем платные пакеты (в зависимости от нужд)

  • LLaMA 3.2 Vision — отвечает неплохо, по структуре, но может пропускать некоторые детали. Веса модели доступные, можно заинферить на NVIDIA RTX 3090 / 4090 (24 ГБ VRAM).

  • Janus Pro 7B — старается, но местами теряется и уходит в обтекаемые формулировки. Легко разворачивается, мало весит, совместим с llama.cpp и WebUI

Так что, заменят ли VLM человечество в оценке ущерба?

Думаю пока что нет. Но вот что интересно: они уже умеют увидеть где проблема, описать её понятным языком, а некоторые — даже предположить причину и предложить варианты решения. И всё это без обучения на профильных датасетах, просто за счёт широкой мультимодальной базы.

Да, пока что им не хватает нюансов, инженерной строгости и иногда банального здравого смысла, но если дать им больше контекста и правильно сформулировать запрос, то они могут стать полезным инструментом в подобных бытовых задачах. Ну а люди пока ещё нужны, чтобы отличить грязь от трещины и напомнить, что «замена элемента» — это не всегда дешёвая операция.

Комментарии (4)


  1. CBET_TbMbI
    21.05.2025 10:57

    Самого главного нет: что из них написал всё верно, а кто ошибся?

    И ещё нет оригиналов фотографий.

    И надо было загрузить им больше фото - с повреждениями и без. Например, 4 фото одного автомобиля с разных углов. Вот тогда был бы анализ полезности.

    А так показали им крупным планом царапины и они назвали это царапинами... Очень полезно... А стёртую пыль от царапин отличат? Её человек-то по фото не отличит.


    1. fermentum
      21.05.2025 10:57

      Можно было бы начать с полноценного промпта и с тонких настроек каждой из моделей. Плюс фото с нескольких ракурсов с кратким контекстом. Прописать структуру ответа. Свести результаты в таблицу с балльной оценкой относительно эталона. Без этого сравнение моделей вряд ли возможно.


  1. diakin
    21.05.2025 10:57

    Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?

    Мы-то можем, а страховые агенты в упор не понимают, что произошло. Только через суд.


  1. gofat
    21.05.2025 10:57

    Спасибо за статью!

    Это качественное исследование? Клево было бы на метрики еще глянуть (но нужна разметка, это да).

    И с промптами похимичить бы (возможно, получится исправить часть проблем).

    И еще немаловажный момент: какие из моделей умеют в структурированный вывод (и насколько хорошо следуют условной инструкции "ответь в формате json с такими-то полями"). В больших модельках не сомневаюсь, а вот к моделям поменьше могут быть вопросики.