13 мая 2024 года запомнится как важная веха в мире искусственного интеллекта. OpenAI провела долгожданное обновление, представив GPT-4o и множество улучшений для ChatGPT. Эти новинки имеют все шансы изменить то, как мы взаимодействуем с ИИ в повседневной жизни.

GPT-4o: ИИ нового поколения

Главным событием дня стало объявление о запуске новой флагманской модели GPT-4o. CTO OpenAI, Мира Муратти, охарактеризовала GPT-4o как мощнейшую и самую быструю модель из всех существующих. В отличие от своих предшественников, новая модель объединяет все передовые возможности GPT-4 с потрясающим улучшением скорости и производительности.

"GPT-4o приносит интеллект GPT-4 всем пользователям, включая бесплатных", - подчеркнула Муратти. Это значит, что мощные возможности новой модели станут доступными широкой аудитории, что значительно расширяет круг её применения.

GPT-4o не только самая эффективная модель, но и самая "умная". На графике внизу представлены экспериментальные результаты модели на текстовых бенчмарках.

GPT-4o установил новый рекордный результат - 88,7% на 0-shot COT MMLU (вопросы на общие знания)
GPT-4o установил новый рекордный результат - 88,7% на 0-shot COT MMLU (вопросы на общие знания)

Демонстрация в действии

Во время презентации Мира Муратти предложила зрителям live-демонстрации, чтобы показать, на что способна новая модель. Один из исследователей, Mark Chen, продемонстрировал способность ChatGPT вести живую беседу, распознавать эмоции и даже генерировать речь в разных стилях. Это кардинально улучшает взаимодействие и делает его более естественным.

Баретт Зоф продемонстрировал способности модели в понимании и решении математических задач, начиная от простых линейных уравнений и завершая сложными вычислениями. Это лишь примеры, показывающие, насколько многофункциональной и универсальной становится новая модель.

Мы проверили модель на своих примерах и, в первую очередь, были удивлены её скорости. Протестируем модель на задаче написания SQL запроса со вложенностью.

Тестируем модель на задаче написания кода
Тестируем модель на задаче написания кода

Модель справилась с довольно объёмным текстом за три секунды.

Усложним задачу, заставив модель "посмотреть" видео на ютубе и рассказать о чём оно.

Тестируем модель на задаче "просмотра" и пересказа видео
Тестируем модель на задаче "просмотра" и пересказа видео

Ответ также занял не более трёх секунд, а его содержание довольно точно отражает само видео.

Напоследок, проведём эксперимент с голосовым сообщением.

Просим модель написать стишок про хабр
Просим модель написать стишок про хабр

Предыдущие модели от OpenAI довольно плохо справлялись с анектдотами и стихотворениями. Тут мы видим довольно неплохой результат генерации, но поэтов модель всё же заменить не сможет.

Новые возможности и расширенные функции

GPT-4o также поддерживает работу с API, что послужит мощным инструментом для разработчиков и позволит создавать новые AI-приложения с максимальной эффективностью. Важно отметить, что модель становится на 50% дешевле и на 5 раз быстрее по сравнению с предыдущей версией GPT-4 Turbo.

OpenAI также внесли значительные улучшения в безопасность и защиту данных, уделяя особое внимание предотвращению возможности злоупотреблений новыми функциями. Работая в сотрудничестве с различными заинтересованными сторонами, включая правительство и гражданские общества, OpenAI стремится внедрять инновации наиболее безопасными способами.

Качественное улучшение работы с текстом и изображениями, поддержка 50 языков, новые функции анализа данных и поиска в реальном времени — всё это делает GPT-4o незаменимым инструментом для пользователей по всему миру.

Заключение

Запуск GPT-4o и глобальные обновления ChatGPT демонстрируют стремление OpenAI не только улучшать свои технологии, но и обеспечивать их доступность для всех пользователей. Это очередной шаг к будущему, где взаимодействие с ИИ становится простым, естественным и повсеместным. Мы с нетерпением ждем новых удивительных открытий и применения этих технологий в реальной жизни.

Напоминаем, что протестировать модельку можно тут.

Больше новостей в моём телеграм канале.

Комментарии (40)


  1. Myshinskiy
    13.05.2024 22:42

    А ты хорош…


  1. Wesha
    13.05.2024 22:42
    +3

    Ответ также занял не более трёх секунд, а его содержание довольно точно отражает само видео.

    Интересно, а как модель может за 3 секунды "посмотреть" 900-секундное видео?

    Нет, я не против, оно не обязано смотреть со скоростью человека, но чисто скачать этот файл с тутрубы занимает 5 минут...


    1. sixxio
      13.05.2024 22:42
      +12

      Предположу, что в данном случае модель просто может использовать автоматическую расшифровку видео, которая достаточно давно прикручена ко всем видео на YouTube..
      А там уже аккуратно суммаризировать текст - задачка куда более простая..


      1. Wesha
        13.05.2024 22:42
        +10

        Ну то есть получается, что это не "ответ модели", а "ответ распознавалки ютуба"? Тогда в чём здесь заслуга модели?


        1. RichardMerlock
          13.05.2024 22:42

          Будет зависить от того, переработала модель текст от видео или просто скопировала. Можно же попросить краткое изложение.


        1. wolframko
          13.05.2024 22:42

          Заслуги модели здесь нет. Более того, OpenAI никакой поддержки ютуба и не заявляли. Модель не может анализировать видео в целом, что указано на сайте.


    1. AlexunKo
      13.05.2024 22:42

      Тоже тригернулся на этом, из-за невообразимости вычислительных ресурсов, требуемых на такой "просмотр".


    1. Lezvix
      13.05.2024 22:42
      +1

      А в чём проблема? Модель же не ограничена скоростью человеческого восприятия, она ограничена своей пропускной способностью. Ей надо только прогнать через себя все кадры видео и спектрограмму звука. А на счёт такой сумасшедшей пропускной способности, возможно она просмотренные видео кэширует где-то у себя


      1. Wesha
        13.05.2024 22:42
        +3

        Хохма в том, что, как можно убедиться, сабжевое видео было загружено на ютупчик 13 мая, то есть не более суток назад. Сильно сомневаюсь, что модель просматривает каждое загруженное на ютуп видео в момент, когда оно загружается — особенно если оно на непонятном русском языке; также сильно сомневаюсь, что у ребят есть прямой доступ в гуглевское видеохранилище — а если скачивать как все белые обычные люди, то на скачку этого видео потребуется минимум пять минут (я засёк), то есть я не вижу, как можно "получить краткое содержание за 3 секунды".


        1. Myshinskiy
          13.05.2024 22:42

          А ChatGPT видит) возможно они обвязались какими-нибудь соглашениями и API доступами с крупнейшими поставщиками и провайдерами контента, например.


        1. Zoolander
          13.05.2024 22:42
          +4

          Они пока не смотрят видео, они делают выжимку с transcript


          1. Hed-ge-Hog
            13.05.2024 22:42

            gemini на googleaistudio точно анализирует и видео и аудио, сам проверял. Делает транскрипцию и описание видеоряда.


    1. Eggsiname
      13.05.2024 22:42

      Модель не смотрит видео, она берёт звук, переводит в текст и дальше нейронка работает с текстом


      1. Siddthartha
        13.05.2024 22:42
        +2

        пишут, что нет.. как раз, в gpt-4o -- модель работает с модальностью звука -- а, значит, отображается в латентное пространство напрямую, и может улавливать интонации и прочие подобные вещи (так заявлено).


      1. dilukhin
        13.05.2024 22:42

        +100, с трудом представляю себе модель, просматривающую видеоряд.


  1. Flidermouse
    13.05.2024 22:42

    стих, конечно, полное говно - про размер вообще GPT ничего не сказали?

    это вам не sql запросы писать, тут нужно чувство прекрасного, чего у ИИ пока нет.


    1. Eggsiname
      13.05.2024 22:42
      +2

      Если тебе дать стих написанный нейронкой и текст написанный человек, то я с 100% уверенностью могу сказать что ты не сможешь различить где чей текст. И никаких "чувств" для этого не нужно.


      1. Flidermouse
        13.05.2024 22:42

        Ну текст может и нет, а стихи как она не умела писать так и не научилась судя по скрину. Я про классическую поэзию с рифмой, размером и всем таким. А то ща набегут любители современного "искусства"...


        1. Eggsiname
          13.05.2024 22:42
          +3

          Пока тебе не сказали что этот стих написан нейронкой, ты не узнаешь написан ли он на самом деле нейронкой. Ты можешь только строить догадки, но по факту никак не распознаешь нейронка или человек.


          1. Moog_Prodigy
            13.05.2024 22:42

            Гаврила нейросетку учит

            Он нейросетку обучил

            Затем вопросами замучил

            В итоге сервер и упал.


        1. DaneSoul
          13.05.2024 22:42
          +1

          Я про классическую поэзию с рифмой, размером и всем таким.

          Так и среди людей такое могут писать единицы - это не универсальная человеческая способность. А обычный человек если и напишет "стихи", то это тоже будет что-то весьма корявое и очень далекое от классики.


        1. TommyG
          13.05.2024 22:42

          стихи как она не умела писать так и не научилась

          Она очень хорошо пишет стихи, просто отлично. Но только на английском


    1. Moonlization
      13.05.2024 22:42

      У меня вообще такое ощущение складывается, что статья написана с помощью GPT еще и кривым языком. «Важно отметить, что модель становится на 50% дешевле и на 5 раз быстрее по сравнению с предыдущей версией GPT-4 Turbo». На целых 5 раз быстрее, ну надо же…


  1. Tarasov-Front-Dev
    13.05.2024 22:42

    Могу сказать, что пока ллм справляются хуже джунов даже с самыми простым тасками.

    Буквально вчера просил написать тесты к нескольким простейшим, изолированным, уже написанным и протестированным функциям. Тест кейсы пришлось править вручную.


    1. Eggsiname
      13.05.2024 22:42
      +4

      Учись промпт инжинирингу.


      1. Tomasina
        13.05.2024 22:42
        +1

        есть материалы с примерами?


        1. Moog_Prodigy
          13.05.2024 22:42

          Цивитай) Промты с примерами.


    1. gev
      13.05.2024 22:42
      +2

      У меня обратный опыт =) Справляется на уровне тимлида!

      Попросил дописать строк 200 бойлерплейта на основе готового котога. Она показала с десяток строк и сказала: "Вот пример, дальше сам давай!" =)


  1. LLPSD
    13.05.2024 22:42

    "Релизнула"? В русском языке нет слова "выпустила"?


  1. A3a3eJLJLo
    13.05.2024 22:42

    А в чем тогда разница с подпиской plus, если эта модель доступна для бесплатных пользователей?


    1. vlad_bo
      13.05.2024 22:42


    1. TommyG
      13.05.2024 22:42

      Скорее всего новая версия будет, вот она только за деньги

      дядя на видео про это говорит


  1. asukhodko
    13.05.2024 22:42
    +1

    Я правильно понимаю, что после завершения обучения модели, сменили float32 на float16, и поэтому стало быстрее?


    1. perevalov_a Автор
      13.05.2024 22:42

      Никто не знает наверняка, кроме OpenAI


  1. bpGusar
    13.05.2024 22:42
    +1

    забавляют такие боты. я, конечно, не совсем понимаю как они работают, но просить деньги за бесплатное это что то на уровне джейлбрейка айфона с платными модами )


    1. Eggsiname
      13.05.2024 22:42
      +1

      Видео тоже бесплатные, но люди за них деньги просят (+кучу мусорных видео за которые деньги просят). Стримы тоже бесплатны, но на стримах есть донаты...


  1. 0x6b73ca
    13.05.2024 22:42

    Заголовки наше всё


  1. Johnybigbals
    13.05.2024 22:42

    Да, да, вы ее уже внедрили.

    Бот ваш проверен, не вводите людей в заблуждение.

    На данный момент, как ИИ, я не осведомлен о существовании версии ChatGPT 4 Omni (4o). Моя текущая версия на основе GPT-3.5. OpenAI еще не выпускала никаких официальных заявлений о подобных версиях под названием "Omni". Вы можете всегда проверить последние новости и обновления на официальном сайте OpenAI или в их документации.


  1. kolor_sv
    13.05.2024 22:42

    Классная штука, только не понятно зачем подписка, если и на бесплатном работает... Как прикольная штука или для своего спокойствия, что это будет у тебя работать всегда (потому что подписка)


  1. funguard
    13.05.2024 22:42

    Проверил:

    К сожалению, у меня нет возможности автоматически транскрибировать видео. Вы можете использовать сторонние инструменты, такие как YouTube's авто-субтитры или сервисы для расшифровки видео.

    Так что оно просто по названию додумывает что внутри.