Произошел ранний выход запланированной новости на CNBC, новость также появилась на Reuters и уже есть подтверждение в блоге OpenAI

OpenAI назвала новый релиз «самой умной и экономически эффективной малой моделью, доступной на сегодняшний день». Она в 2.5 раза дешевле и так недорогой последней модели ChatGPT-3.5, и, вероятно, будет её основной заменой. В модель также планируется интегрировать обработку изображений, видео и аудио.

Мини‑модель ИИ является упрощенной версией GPT-4o, самой быстрой и мощной модели OpenAI на сегодняшний день, которую компания запустила в мае во время прямой трансляции с участием руководителей.

Согласно пресс‑релизу GPT-4o mini будет доступна в четверг для бесплатных пользователей ChatGPT, а также для подписчиков ChatGPT Plus и Team, и станет доступна для пользователей ChatGPT Enterprise на следующей неделе.

Поскольку я пилю сервис VseGPT для доступа к разным сетям (GPT-4o, Sonnet 3.5 и пр.) по OpenAI API и через вебчат, то, конечно, постараюсь подключить модель в самые короткие сроки, как только она станет доступна. уже подключил модель :)

UPD1: Вышел официальный пост в блоге OpenAI с сравнением с другими моделями. GPT-4o-mini опережает все модели... кроме изначальной GPT-4o

Также замечено, что, как всегда, было уделено внимание фильтрации неэтичных данных: «При предварительном обучении мы отфильтровывали информацию, которую не хотим, чтобы наши модели изучали: язык ненависти, контент для взрослых, сайты, которые в основном собирают личную информацию, и спам.»

UPD2 (21:43): Модель доступна по API OpenAI API и у меня на сервисе, который проксирует вызовы к OpenAI. Сейчас будем тестировать :)

UPD3 (22:30): Под рукой у меня есть мой собственный опенсорсный бенчмарк по переводу с английского на русский. Как показывает моя практика, его оценки неплохо коррелируют со способностями модели на русском языке - что, в общем, нас обычно и интересует.

Рейтинг COMET на 100 фразах из FLORES. Больше - лучше.
Рейтинг COMET на 100 фразах из FLORES. Больше - лучше.

Нас в первую очередь интересует направление перевода eng->rus (последний столбец).

На небольшую разницу в значениях не стоит обращать внимание - таков бенчмарк COMET, там даже небольшие значения играют роль. Например Google Translate (89.63) отличают десятые доли от DeepL (89.82).

Что мы видим?

  • У GPT-4o mini результат 89.55

  • Это лучше темно синих: gpt-3.5-turbo (да, модель по ходу лучше старой), а также конкурентов Claude 3 Haiku и Google Gemini Flash 1.5

  • Модель хуже светло синих: GPT-4o (что логично, так как это уменьшенная модель), а также сильного лидера Claude 3 Sonnet (он обошел даже предыдущего Claude 3 Opus)

По скорости: модель быстрая; только-только подключился, и уже смог прогнать 400 примеров (по 100 на каждое направление перевода в бенчмарке). Загрузки и падений, несмотря на старт, на котором раньше у компаний были проблемы, не наблюдается.

По цене: ну да, практически дешевле всего, что есть такого уровня на рынке - Claude 3 Haiku и Gemini 1.5 Flash.

Я своё любопытство насчет новой модели удовлетворил, так что иду спать; а желающим ещё потестировать желаю удачи!

Комментарии (1)


  1. Pol1mus
    18.07.2024 23:31

    Каждый раз одно и тоже [враньё]. Опережает оно всех ага