Современные технологии искусственного интеллекта (ИИ) становятся неотъемлемой частью разработки видеоигр, предоставляя новичкам в разработке видеоигр новые инструменты для быстрого поиска информации и обучения необходимым навыкам. 

Среди таких технологий особое внимание привлекают большие языковые модели, такие как GPT-4o mini и GigaChat Max, которые могут ускорить процесс обучения. Однако для разработчика выбор между этими инструментами может быть сложной задачей, требующей учета их особенностей, производительности и применимости в конкретных задачах. В данном эссе будет проведено сравнительное исследование GPT-4o mini и GigaChat Max с точки зрения разработчика видеоигр, чтобы выявить их преимущества и недостатки относительно друг друга для использования в обучении.

Нейросети будут сравниваться по нескольким критериям, таким как:

  • Доступность и цена - критерий, который определяет, насколько доступна языковая модель для пользователя. Даже если одна модель опережает другую по остальным критериям, но недоступна для пользователя, то считать ее лучше нельзя, так как у пользователя просто может не быть к ней доступа.

  • Различия в возможностях языковых моделей - критерий, который показывает, какие особенности есть у нейросетей. Важно учитывать этот критерий, ведь различный функционал может ускорить процесс получения необходимых знаний и навыков. Например, возможность работы с текстовыми файлами может позволить сделать краткую выжимку файла и быстрее получить нужную информацию.

  • Бенчмарки (в целом) - критерий, в котором производится сравнение нейросетей по бенчмаркам, который затрагивают различные области знаний, суммарно показывающий общий уровень нейросети, что важно учитывать, так как разработка видеоигры включает в себя множество различных областей.

  • Бенчмарки (программирование и математика) - критерий, в котором нейросети сравниваются отдельно по бенчмаркам, связанным с программированием и математикой, так как обучение в этих областях может быть крайне сложным и трудозатратным. Поэтому важно уделить отдельное внимание данным областям.

Доступность и цена являются одним из важнейших показателей при выборе языковой модели. 

  • Обе языковые модели можно использовать абсолютно бесплатно, что позволяет пользоваться данными сервисами вне зависимости от финансовой ситуации. 

  • С GPT-4o mini можно взаимодействовать через сайт, в то время как доступ к GigaChat Max можно получить через сайт и официального telegram-бота. 

  • Для полноценного использования GigaChat Max потребуется российский IP-адрес и авторизация через Сбер ID, что требует российского номера телефона. Для использования GPT-4o mini требуется email адрес, также доступ к данной нейросети есть только в некоторых странах.

Учитывая эти особенности, можно сделать вывод, что для пользователя из России получить доступ к GPT 4o-mini труднее чем к GigaChat Max. Для пользователей из других стран ситуация противоположна.

При выборе модели важно оценивать ее возможности, к сожалению, и OpenAl и Sber не предоставляют данных об одном из самых важных параметров - размере языковой модели. Но нейросети все еще можно сравнить по некоторым другим параметрам, которые могут повлиять на выбор нейросети.

Важно отметить, что первым параметром в таблице является количество символов в одном токене и выбор языковой модели не должен основываться на этом параметре. 

Характеристика

GPT-4o mini

GigaChat Max

Токен

~4 символа

3-4 символа

Размер контекста в токенах

128 тысяч

32 тысячи

Максимальная длина одного ответа

16 тысяч токенов

~4 тысячи символов

Работа с изображениями

да

да

Работа с текстовыми файлами

да

да

Работа с таблицами

да

нет

Возможность генерировать изображения

бесплатно, 2 изображения день

бесплатно, неограниченное количество раз

Данные таблицы показывают, что GPT-4o mini уступает лишь в одном параметре: возможности генерировать изображения. Однако, во всех остальных параметрах GPT-4o mini показывает себя лучше или наравне с GigaChat Max. Размер контекста в токенах у GPT-4o mini больше в 4 раза по сравнению с его соперником, что позволяет взаимодействовать с большими объемами информации и лучше отвечать на запросы пользователя. К тому-же у GPT-4o mini приблизительно в 16 раз больше максимальная длина одного ответа. Различия в этом параметре очень хорошо видны, когда обеим нейросетям задается развернутый вопрос. GPT-4o mini дает более развернутые и комплексные ответы, 

Также важным различием является возможность работы с таблицами, которой нет у GigaСhat Max, что может несколько усложнить работу с таблицами.

Следует отметить, что в таблице не представлены максимальные размеры файлов, с которыми могут работать нейросети. Данные не отражены в таблице ввиду не структурированности информации. OpenAI и Sber предоставляют некоторую информацию, однако систематизировать ее непросто.

Важными показателями эффективности языковой модели являются бенчмарки. Все результаты бенчмарков были взяты из трех источников: сайт OpenAI с информацией о GPT-4o mini, документация GigaChat Max от Sber, сайт MERA.

В данной таблице указаны результаты нейросетей для общего бенчмарка MMLU и его русскоязычной версии ruMMLU. Также в таблице приведена общая оценка языковых моделей от MERA, включающая в себя большое количество задач.

Бенчмарк

GPT-4o mini

GigaChat Max

MMLU

0.82

0.80

ruMMLU

0.652

0.718-0.75

Общая оценка модели от MERA

0.57

0.588

Исходя из данных, можно заметить, что обе нейросети показывают практически идентичные результаты как в бенчмарке MMLU, так и в оценке от MERA. В бенчмарке ruMMLU точность языковых моделей падает, однако GigaChat Max показывает более высокий результат, что может являться результатом лучшего понимания русского языка.

Учитывая то, что сравнение производится с точки зрения разработчика видеоигр, важно уделить особое внимание программированию и математике, так как обе эти области критически важны при разработке компьютерной игры и иногда могут являться большим препятствием для начинающего разработчика.

Первая таблица предоставляет результаты бенчмарков, связанных с программированием. Бенчмарк ruCodeEval является российским аналогом HumanEval. BPS и LCS также являются русскоязычными бенчмарками.

Бенчмарк

GPT-4o mini

GigaChat Max

HumanEval

0.872

0.64

ruCodeEval

0.704 / 0.753 / 0.768

0.077 / 0.093  / 0.098

BPS

0.965

0.977

LCS

0.108

0.192

Исходя из данных таблицы, можно заметить, что GigaChat Max показывает крайне низкие результаты в бенчмарке ruCodeEval, несмотря на неплохой результат в тесте HumaEval. Также нейросети показывают практически идентичный результат в бенчмарке BPS и Gigachat Max заметно опережает GPT-4o mimi в тесте LCS. В целом GPT-4o mini показывает лучшие результаты в тестах, что может стать причиной выбора именно этой языковой модели.

Вторая таблица предоставляет результаты бенчмарков, связанных с математическими способностями моделей. Из всех бенчмарков, представленных в таблице, англоязычным бенчмарком является лишь MATH, он же и является самым сложным из тестов, включающим в себя задачи вплоть до университетского уровня.

 

Бенчмарк

GPT-4o mini

GigaChat Max

MATH

0.702

0.53

MathLogicQA

0.454

0.575

ruMultiAr

0.301

0.362

ruModAr

0.495

0.938

Исходя из данных таблицы, можно сделать заключение, что GigaChat Max справляется с базовыми задачами на русском языке лучше, чем GPT-4o mini. Однако, GigaChat Max проигрывает в тесте MATH, показывая проблемы, которые испытывает данная языковая модель с задачами на английском языке. 

Учитывая все, что написано выше, можно отметить, что обе языковые модели имеют как плюсы, так и минусы относительно друг-друга и назвать лучшую модель для всех случаев нельзя. GPT-4o mini имеет больший функционал, показывает лучшие результаты во всех англоязычных тестах, размер контекста нейросети больше в 4 раза, однако, данная языковая модель недоступна на территории России. GigaChat Max в основном показывает лучшие результаты в русскоязычных текстах, показывает себя хуже чем GPT-4o mini в задачах, связанных с программированием. Но в среднем эта языковая модель немного отстает от своего противника.

Для пользователей которые не знают русский язык и/или не живут в России выбор между нейросетями очевиден. GPT-4o mini лучше показывает себя в англоязычных тестах, является более доступным и обладает большим функционалом.

Для пользователей из России выбрать языковую модель будет труднее. Учитывая то, что получить доступ к GigaChat Max проще, а также лучший результат в русскоязычных тестах, данная нейросеть становится привлекательным вариантом. Однако, следует учитывать, что GPT-4o mini решает сложные задачи лучше, и, в некоторых ситуациях, особенно если пользователь знает английский язык, GigaChat Max может быть менее выгодным выбором, несмотря на свои преимущества. В данном случае выбирать нейросеть лучше исходя из задач и их сложности, в некоторых случаях GPT-4o mini будет лучше, в некоторых - GigaChat Max.

Комментарии (16)


  1. gfiopl8
    09.01.2025 10:27

    Гигачат который в телеграм боте практически несъедобен. По-моему там даже не среднего размера моделька а мелкая типа 13b.

    Картинки распознает совсем плохо, показываешь ему текст заваленный набок и он не может его прочитать.


  1. Suoriks
    09.01.2025 10:27

    А еще путает каланов и тюленей


  1. smarkelov
    09.01.2025 10:27

    Почему версия mini а не обычная 4o? Тем более, что выбор ЛЛМ сейчас не ограничивается chatgpt, для программирования имхо claude 3.5 даже бесплатный не хуже.


    1. S-trace
      09.01.2025 10:27

      Потому что гигачад настолько плох, что с нормальными ЛЛМ его даже в один ряд ставить не получится - слишком заметно отставание будет?


      1. smarkelov
        09.01.2025 10:27

        Тогда можно просто сравнивать с gpt-3.5 и все будет вообще классно.


      1. kotokot
        09.01.2025 10:27

        По-вашему, gpt-4o-mini - "ненормальная ЛЛМ"? Просто сравниваются модели в одной весовой категории. Я, если честно, про гигачат ничего не могу сказать, но 4o-mini это сейчас хорошая рабочая лошадка, которая способна решать многие задачи относительно дешево.

        Ну и, ясное дело, ИИ команда Сбера это не монстры типа Antropic или Open AI, чтобы ожидать от них конкуренции с топовыми моделями. Весовая категория, опять же, разная


        1. smarkelov
          09.01.2025 10:27

          Это слегка урезанная версия 4o, просто тут имхо с вашей стороны манипуляция данными. Берем самую крутую модель от сбера и самую простую от конкурентов. Ура, мы победили. Но если посмотреть в тот же Лидерборд, то видно, что все остальные модели от сбера проигрывают 4o-mini. Упс.


          1. kotokot
            09.01.2025 10:27

            >>с вашей стороны манипуляция данными...

            Простите, я никакого отношения к сберу не имею. Просто мимокрокодил

            Опять же, кто же говорит, что Сбер конкурент антропикам? Но разве это плохо, что их самую крутую модель уже можно сравнивать с младшими моделями монстров рынка gen ai?


        1. gfiopl8
          09.01.2025 10:27

          А как ты понял что это одна весовая категория? Судя по ценам гигачат макс это какой то супергигант. Он стоит 20 баксов за 1млн токенов, а 4o-mini 15(или 60, или 15+60 непонятно что за токены у гигачата) центов за тот же миллион токенов.

          Они там совсем что ли поехавшие


        1. Hardcoin
          09.01.2025 10:27

          Разумеется ненормальная. Для генерации мусора ради денег подойдёт, но "для обучения"? Разве что цель - самому себе плохо сделать. Зачем брать настолько слабую модель? Нет 20$, читай книги и документацию, фундамент никому ещё не мешал.


        1. mithdradates
          09.01.2025 10:27

          4o-mini это сейчас хорошая рабочая лошадка, которая способна решать многие задачи относительно дешево.

          Для чего-то простого - да, но в целом 4o-mini весьма слабенькая модель. В курсоре пользовался 4o-mini часто (т.к. на него лимиты большие), он был прямо плох, сливал в ноль тем же опенсорсным Qwen 2.5 32B-Coder или DeepSeek v2.5 Coder.

          Ну и, ясное дело, ИИ команда Сбера это не монстры типа Antropic или Open AI, чтобы ожидать от них конкуренции с топовыми моделями. Весовая категория, опять же, разная

          Они и с Alibaba/DeepSeek/01.ai/Mistral не могут конкурировать. Причем дело не только в вычислительных ресурсах - те же DeepSeek выкатили DeepSeekV3, которую тренили на 2048 H800 (урезанная версия H100), и она сейчас обходит многие закрытые, в том числе от OpenAI/Antropic - LiveBench.

          Причем даже если ограничиваться чисто русским языком, то и тут GigaChat Max проигрывает Qwen 2.5-72b, а с файнтюном его обходит уже 32b версия.

          Тут скорее речь о том, что практического смысла юзать GigaChat с текущей ценой за токены - нет. Для большой компании проще поднять опенсорсную модель - это в конечном счете выйдет дешевле и намного лучше по приватности; ну а для персонального юзкейса и так понятно.


    1. HellQwer
      09.01.2025 10:27

      Вот да. Бесплатные явно стоит в сравнение добавить. Gemini бесплатно доступен через три буквы. Хотя у меня версия 2.0 почему-то некоторые сообщения сразу удаляет после написания, но про вторую версию в приложении написано, что она нестабильна :)


  1. Reinmor
    09.01.2025 10:27

    Такое впечатление, что "статью" писал Gigachat.

    Gigachat Max при работе через API начинает глючить, если ему отправить текст на 25к+ токенов - зацикливает фразы или выдает вообще рандомные данные из своего датасета.

    GPT-4o mini тоже не самая лучшая модель, хотя получше чем Gigachat.

    Если модели нужны для личного пользования - используйте бесплатный доступ к Gemini.


  1. eeglab
    09.01.2025 10:27

    Пользователям из России вполне доступен бесплатный (и сравнимый с большим chatgpt 4o) deepseek v3.


    1. gfiopl8
      09.01.2025 10:27

      В каком месте он сравним?


      1. Hardcoin
        09.01.2025 10:27

        Согласен с замечанием. Deepseek v3 в режиме рассуждений обходит 4о по многим параметрам.