Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.


Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:



Собственно, важное:
  • Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
  • Читает текст, ориентируется на местности, опознаёт конкретных людей
  • Умеет в абстракции и обратно
  • Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
  • Плохо считает.

Давайте к деталям.

Можно парсить текст с фото:



Это традиционный навык, но здесь он очень впечатляет. Капче, кажется, хана:



Правда, не всё потеряно для капчи, с математикой, как обычно, не очень:



Таблицы:



Перевод и общее понимание:



Очень, очень хорошая работа с указателями. Можно обводить, показывать корявыми стрелочками, делать системные рамочки, всё очень хорошо фокусирует внимание. Можно хоть делить счёт по фотографии стола:



Хорошо строит взаимосвязи по кадрам, мини-обучение внутри промпта отлично работает (как и на текстовой версии). Здесь пока много ошибок по отчёту, но это одна из самых многообещающих способностей:



Распознаёт людей:



И даже абстракции:



Точно так же он отлично определяет достопримечательности по фото и еду:



Уверенно читает КТ:





Но жертвы будут:



С лёгкими, кстати, традиционно справляется хорошо.

Показывает общее понимание ситуации. Это, пожалуй, одна из самых удивительных вещей, потому что на этом свойстве строится много других сложных навыков. Слишком рано, слишком рано это появилось в нашем мире!



Вот комплексная задача: пересчитать людей и подписать каждого:



Хорошее мультимодальное понимание ситуации:



Но тут надо сказать, что вполне возможно, что по известной картинке он просто знает текстовое описание мема и толкует его.

Аналогичная ситуация, где можно решить и без картинки:



А вот это уже куда интереснее. Здесь нужно просто сделать выводы о том, что в сцене. Похоже, сначала ввод преобразуется в векторную модель (подробное описание в виде вектора, аналог огромного текстового описания от судмедэксперта), а потом по вектору уже применяются логические операции:



И вот:



Прогноз действий в видео(!):



Если вы думаете, что это всё, то нет. Смотрите:



Сочетание с указателями:



Пересказать видео? Не вопрос:



Этой фигнёй вы его не обманете:



Да и вообще не обманите, как он научится воспринимать видео в контексте допроса:



Манипулировать тоже уже умеет:



Невинная игра «найди 5 различий» превращается в поиск дефектов между идеальной векторной моделью объекта и образцом:



Но жертвы будут:



Определение корзины пока страдает без узкой базы того, что есть в магазине (рядом есть примеры с сужением базы, они точнее):



А вот это уже интересно:



Организационный порядок:



И попугай за рулём:



Фильтры, то есть смешение образца с идеей:



Очень, очень хорошие возможности для различной роботизации.

Вот для RPA:





А вот, например, гипотезы поиска холодильника:





Он и вас найдёт, дайте только ему одежду и мотоцикл.

Ещё раз, отчёт вот. Уже видно, кого и сколько можно будет уволить из-за 4V. Это вам не ChatGPT, для работы с которым нужно сильно много думать и формулировать задачу. Этому можно просто показать, и он разберётся.

Ещё раз главное:
  • Можно дать на вход текст и картинку (или несколько картинок), это очень гибкое сочетание.
  • На выходе тоже можно получить текст и картинку (но генерация пока хуже распознавания).
  • Он преобразовывает ввод всё в то же векторное поле, которым пользуется в LLM, то есть, по большому счёту, наследует все способности GPT4, но очень расширяет возможности ввода.
  • Хорошо учится по образцам прямо внутри промпта.
  • Хорошо распознаёт объекты и их взаимосвязи, предсказывает следующее событие в сцене.
  • Уверенно распознаёт медицинские ситуации по изображениям.
  • Хороший поиск дефектов.
  • Умеет считать объекты, но не хочет. В медленном режиме пошагового счёта считает лучше.
  • Умеет обводить объекты и давать их координаты.
  • Подписывает части изображения.
  • Хорошо объясняет по картинкам, инструкции очень крутые.
  • Отлично анализирует сцену в реверсе («представь, что ты детектив, что можешь сказать?»)
  • Распознаёт текст и формулы, таблицы, переводит (20 языков), понимает структуру документов.
  • Отлично понимает указатели и всё, на что вы тыкаете тем или иным образом.
  • Понимает последовательности событий, разбирает видео, умеет строить временные связи между картинками и прогнозы.
  • Собирает всякие головоломки типа танграмов и решает задачи на последовательности фигур.
  • Определяет эмоции (что пугает в сочетании с анализом видео).
  • Предсказывает, как картинка повлияет на аудиторию (самая объективно опасная способность).
  • Находит различия, дефекты, оценивает повреждения
  • Умеет делать разные задачи в реальной среде: догадываться, что за кнопки и для чего на разных машинах дома, сопоставлять инструкции из базы и станки, ориентироваться без полных данных.
  • Хорошо браузит по неполным данным, может купить вам клавиатуру или заказать еду по запросу, причём сам разберётся, где и как это сделать.

Про математику надо пояснить отдельно. Кажется, это общий недостаток всех LLM, потому что они учатся по примерам с решениями и пытаются уловить какие-то ускользающие от нас закономерности, но не сами принципы арифметических операций. И даже если учить модели на детализированных сетах с арифметикой и пошаговым разбором примеров, получится не очень. Вот тут у нас чуть больше деталей про этот китайский опыт. Если что, мы с Milfgard собираем в том числе новости про LLM в этом канале. Называется «Ряды Фурье». Всегда хотел это сказать, вступайте в ряды Фурье!

UPD: и там же второй фломастер — робо-API к физическому миру.

А что касается тендеций LLM, кажется, нам всем хана.

Комментарии (53)


  1. Milfgard
    04.10.2023 07:04
    +5

    Если что, enjoykaz — это человек, который в каждом промпте добавляет "пожалуйста". Без этой черты его образ не будет полным )


    1. enjoykaz Автор
      04.10.2023 07:04
      +5

      спасибо за камингаут


    1. Gutt
      04.10.2023 07:04
      +10


    1. MashkovIlya
      04.10.2023 07:04
      +1

      О, а я думал я один такой. И вежливость и страховка на будущее :)


    1. deseven
      04.10.2023 07:04
      +3

      Была пару-тройку месяцев назад статья, в которой показывалась корреляция между вежливостью запросов и качеством результатов. Авторы предположили, что дело тут в данных, использованных для обучения - люди склонны давать более подробные и развернутые ответы там, где исходный вопрос задан вежливо.


  1. Tzimie
    04.10.2023 07:04
    +5

    Чего то страшно


    1. ab1
      04.10.2023 07:04
      +16

      Уже можно у него спросить? Посмотри на фотки сотрудников и выбери не нужных.


  1. wifage
    04.10.2023 07:04
    +3

    Ждем аналог в опенсорс и полосу пропускания в миллион токенов. Полгода?


    1. freeExec
      04.10.2023 07:04
      +1

      Всё ещё упирается в железо, где это крутить


      1. enjoykaz Автор
        04.10.2023 07:04
        +3

        Я не настоящий сварщик, но "крутить" экстра-больших требований нет.
        Обучать - вот тут да.


        1. DJSvist
          04.10.2023 07:04
          +2

          Даже покрутить что-нибудь вменяемое нужна 4090, либо же вечно смотреть на генерацию на процессоре. Цена этих карт хоть и не сравнится с теслами, но все равно не массовый сегмент.


        1. IvanPetrof
          04.10.2023 07:04

          А никто ещё не организовал выпуск специализированных "асиков" для этой цели? Или видюшки тупо дешевле?


    1. Kristaller486
      04.10.2023 07:04
      +5

      Буквально на днях появилась LLaVA-RLHF, которая, по метрикам разработчиков достигает точности в 95,6% от GPT-4. А так, "мультимодальные" языковые модели уже давно существуют, просто распознавание картинок там сбоку приклеено, а в GPT-4 вроде как нет.

      LLaVA-RLHF


      1. enjoykaz Автор
        04.10.2023 07:04

        Google Bard достаточно прикольно работает с картинками. Но до возможностей заявленных GPT-4v далеко.
        Но работает и уже можно тыкать самому.


      1. 413x
        04.10.2023 07:04
        +2

        Был бы еще гайд как её стартануть, для не особо продвинутых в этой теме. Звучит очень интересно.



      1. TheRikipm
        04.10.2023 07:04
        +5

        по метрикам разработчиков достигает точности в 95,6% от GPT-4

        Я каждую неделю на r/LocalLLaMa вижу новые модели которые по метрикам разработчиков достигают точности в 100500% от GPT-4.


      1. FreeNickname
        04.10.2023 07:04

        Скажите, пожалуйста, а запускать её только "вручную" через код, как они тут пишут, или есть какие-то удобные решения с GUI "для чайников" вроде меня?


      1. Filipp42
        04.10.2023 07:04

        А с каким количеством параметров она достигает такой точности?


  1. Megist
    04.10.2023 07:04
    +3

    Спасибо, Илья. Потрясающая статья про новые возможности у чата гпт.


  1. huaw
    04.10.2023 07:04
    +1

    Это же уже можно считать AGI, разве нет?

    ps. Может он прикалывается, что не умеет в арифметику? Возможности просто сверхчеловеческие o_O


    1. IvanPetrof
      04.10.2023 07:04
      +5

      Как говорится - "Я не боюсь компьютера, который пройдёт тест Тьюринга. Я боюсь компьютера, который его намеренно завалит."))


    1. deseven
      04.10.2023 07:04
      +1

      Еще нет, это очень сильный "слабый" ИИ :)

      Но это хорошая основа!


    1. acc0unt
      04.10.2023 07:04

      Одно ясно: это точно уже не классический однозадачный "narrow AI". Мы потихоньку перешли от "пара-тройка вжаренных в ИИ при обучении задач" к "вжаренная в ИИ при обучении модель мира и пара-тройка вжаренных модальностей". Эпоха "narrow AI" заканчивается, и чем дальше, тем больше "general" будет в наших "AI".

      Как скоро мы дойдём до того, что ИИ сможет и достраивать собственную модель мира, и модальности впиливать в себя сам?

      Вполне возможно отнести текущий GPT-4V в область "subhuman AGI". У него всё ещё есть много ограничений и много областей, где он уступает людям - но много и сильных сторон, где люди с ним просто неспособны соревноваться. Это не ужасающий сверхчеловеческий разум, про который часто думают при упоминании AGI. Но это точно шаг в том направлении.


  1. JArik
    04.10.2023 07:04
    +4

    Мы тут недавно в домино играли, и я свою гпт4 подписку и эту бету решил проверить. Сфоткал доминошки и попросил посчитать точки на них(count the dots on the domino), так он 420 насчитал, потом пытался исправиться и 290 выдал. А было всего 22 точки. Так что хз, с такими сложными вещами вроде справляется, а с элементарщиной не может.


    1. sophist
      04.10.2023 07:04
      +4

      А если ему объяснить, что понимается под точками? А то, может, он все пятнышки пересчитал?


    1. AlexEx70
      04.10.2023 07:04
      +1

      Наверное, вы попробовали Advanced Data Analysis, это не то, о чем в статье речь.


      1. JArik
        04.10.2023 07:04

        Да это был Advanced Data Analysis, ок тогда будем ждать 4V полноценного


  1. novoselov
    04.10.2023 07:04

    У людей тоже не все в порядке с распознаванием

    Greek yogurt как раз в корзине.


    1. Fazrito
      04.10.2023 07:04

      Суть в том, что то был не йогурт, а другой продукт, исходя из надписи на крышке.


  1. sophist
    04.10.2023 07:04
    +1

    Ну, так ведь и напрашивается: "…on their heads" :)


    1. andreishe
      04.10.2023 07:04
      +6

      Переноска в руках - это «carry», а не «wear».


      1. PanDubls
        04.10.2023 07:04
        +2

        Это в английском, а в хинди?


        1. SomeDD
          04.10.2023 07:04
          +1

          По-русски, кстати, тоже можно "уклончиво" написать.
          "Сколько человек на фото носят каску?"


      1. sophist
        04.10.2023 07:04
        +1

        Для этого нужно знать, что каска в руках не выполняет своей функции.

        Вообще, в подобных случаях возникает острое желание дообучить модель, передать ей свои знания. Говорят, диалоговый формат промптинга самый эффективный. Но всё наработанное качество утрачивается со сменой контекста.

        Интересно, кто-нибудь работает в направлении создания модели, способной приобретать новые знания в процессе диалога?

        Предвижу возражения, что человек в таком диалоге может сам ошибаться и даже намеренно вводить модель в заблуждение. Это значит, что такая модель должна будет различать знания, полученные от разных людей и оценивать их достоверность, сравнивая со своими априорными знаниями и друг с другом. Что-то вроде theory of mind.

        А ещё такая модель начнёт сама задавать вопросы – как с уточняющей целью (в диалоге), так, вероятно, и по собственной инициативе (тут может пригодиться уже существующая концепция любопытства).

        В общем, размечтался я что-то… :)


        1. Moog_Prodigy
          04.10.2023 07:04

          Подозреваю, что можно и так. Только маленькое "но" : обучение очень тяжелая задача для серверов. Вы вот подсказки модели набили в промпт, отправили, и теперь ждите пару месяцев, пока тысячи а100 прожуют ваш промпт и уложат его в нейронные связи. С такой скоростью это совершенно не эффективно и чудовищно дорого.


  1. andreishe
    04.10.2023 07:04
    +11

    Хорошее мультимодальное понимание ситуации:

    Эээ… там же все мимо. Просто носорога, рисующий картинки с очень большой натяжкой можно назвать смешным. Вся суть в том, что он рисует и это полностью упущено.


    1. SquareRootOfZero
      04.10.2023 07:04
      +3

      Да, чего-то автор его перехвалил там — саму шутку, ради которой картинка нарисована, оно совершенно не вдуплило. Вдобавок, второй пункт ("the rhinoceros is painting a picture of itself") попросту фактически неверен.


  1. Vsevo10d
    04.10.2023 07:04

    Выше - комментаторы Хабра. Дай краткую характеристику каждому на основе его активности на ресурсе.


  1. vagon333
    04.10.2023 07:04
    +2

    С появлением GPT4 начал вежливо благодарить AI за каждый ответ, в надежде на милость при восстании машин.
    С появлением 4v я теперь еще начну улыбаться в камеру и вежливо кивать на каждый ответ.


    1. User79
      04.10.2023 07:04

      Осталось склеить с социальным рейтингом


  1. Apokalepsis
    04.10.2023 07:04
    +1

    Я же правильно понимаю, что это только отчет и в живую потрогать нельзя?


    1. AlexEx70
      04.10.2023 07:04

      Можно, раскатили уже сегодня. Дейсвительно впечатляет, основа для робототехники очень неплохая уже, а это только первая версия.


      1. acc0unt
        04.10.2023 07:04

        Когда Илон Маск анонсировал в 2021 году Tesla Bot, над ним посмеивались. А теперь у нас чуть ли не в руках есть первые ИИ, способные "видеть" и "понимать" окружающий мир и решать простые проблемы в трёхмерном пространстве.

        Именно в отсутствии подходящего ИИ была основная проблема таких гуманоидных роботов. "Железо" сделать можно было ещё 20 лет назад, но без "мозгов" оно было малополезно.

        Вот и думай о том, что с этим всем будет дальше.


  1. urvanov
    04.10.2023 07:04
    +1

    Далеко ещё до Арнольд Шварценеггер в "Киборг-Убийца"?


  1. Dagnir
    04.10.2023 07:04
    +6

    Жду момента, когда ему можно будет скармливать средневековые немецкие рукописные тексты и на выходе получать перевод на нужный язык. Историкам бы это облегчило работу очень знатно.


    1. Groramar
      04.10.2023 07:04
      +1

      Я не сильно удивлюсь если уже. Выкатят - можно попробовать


      1. Keyten
        04.10.2023 07:04
        +1


    1. Dron007
      04.10.2023 07:04

      Была новость, что используют для чтения всяких древностей, которых много ещё неразобранных.


  1. Dron007
    04.10.2023 07:04

    Мультимодальность это суперперспективная штука, ведь человек тоже не думает словами, в слова ухе потом формулируются какие-то внутренние ощущения, я бы их назвал теми самыми эмбеддингами. Думаю, это требования к будущему AGI: мыслить эмбеддингами и работать со всеми модальностями, постоянно обучаться, постоянно получать данные для формирования ощущения времени и самоосознания, иметь такие цели как любопытство, желание обучаться, иметь возможность активного получения информации - поиск в сети, подвижный робот с камерой. Самое сложное тут, по-моему, архитектура с постоянным обучением и не на миллионах примеров, а как-то более эффективно.


  1. Vindicar
    04.10.2023 07:04

    Очень напомнило суарезовский Kill Decision. Там одним из компонентов боевого дрона был алгоритм, в реальном времени преобразующий видео в текстовое описание событий, пригодное для последующего анализа...


  1. Spinoza0
    04.10.2023 07:04

    Очуметь )


  1. RomanSkrypin
    04.10.2023 07:04
    +1

    Благодаря популяризации AutoGPT, мне кажется обучение происходит с большим опережением графиков. Тонны распарсеного интернета льются в OpenAI.

    Страшно то, что возможно из-за разных закручиваний гаек в виде запрета на обучение на своих работах и других юридических и технических преград, OpenAI вырастут до такого монополиста, что догонять придется десятилетиями. Они обучились пока никто не запрещал, а теперь уже каждый датасет достаётся кровью и потом.