![интернет начиная с августа месяца интернет начиная с августа месяца](https://habrastorage.org/getpro/habr/upload_files/039/0f4/4b6/0390f44b63400db681286382232b3e52.png)
Ладно, на самом деле картинка не верна, если нормально померить - gpt4v будет обгонять любой опенсурс на любом бенче, но api нет, папиры нет, а значит я могу клипать смешнявки на потеху публике.
![](https://habrastorage.org/getpro/habr/upload_files/4e4/cf1/174/4e4cf1174bbe4a4501b9f749ada481a8.png)
Архитектура простая простейшая - давайте возьмем LM пожирнее(Vicuna 13b - удачный тюн llama), а дальше начинаются фокусы:
Обучение идет в два этапа
Треним на LAION-CC-SBU - кусок LAION размеченный BLIP, причем учим ТОЛЬКО тонкую матрицу projection поверх вектора из CLIP, за счет чего экономиться куча ресурсов - у нас все остальное заморожено! А сама проекция идет в IMAGE_TOKEN - выделенный токен под картинку, в него мы пихаем всю информацию. Короче Prefix tuning чистой воды.
-
Учим уже и Projection матрицу и LM на сете диалогово инстуктивного формата.
-
Собирался он так: брали COCO17(это кэпшены) и просили GPT4 написать диалог на их основе! Easy peasy
так выгляят возможные варианты разметки для 1 изображения, используются все 3
-
Красивые картинки из статьи:
![Видали как может? а пару лет назад для этого было нужно пятом моделей разной степени тяжести! Видали как может? а пару лет назад для этого было нужно пятом моделей разной степени тяжести!](https://habrastorage.org/getpro/habr/upload_files/68c/f0c/207/68cf0c2079ea2689e4d23e2a678a0ed6.png)
Бенчмарки
![](https://habrastorage.org/getpro/habr/upload_files/630/a4c/0e4/630a4c0e47fd362923a59208d698dc72.png)
Фактически это лучшая opensource модель для текстовых операций с изображениями + она есть в 7b и 13b размере - те запустить можно на любом тостере с 3090 на LORA finetune.
![](https://habrastorage.org/getpro/habr/upload_files/1c5/f75/8e2/1c5f758e25149c03a55f9e73befffabf.png)
А еще ее можно использовать в связке с GPT4, в формате когда LLAVA только описывает изображение, а gpt4 нормализует и улучшает текст.
Реально полезные ссылки
Shameless self Promo
А если очень хочется читать больше такого - подписаться на мой канал в tg
RGrimov
А какого размера токен что в него помещается вся информация с картинки? Та картинка со сканом Driver license была помещена в один токен и из него потом нейронка смогла вытащить весь текст, правильно?