В предыдущей статье я сравнивал такие модели, как GPT-5, Gemini 3 Pro, Claude Opus 4.5. Сегодня битвы не будет, но мы подробно рассмотрим одну недавно вышедшую модель - Grok 4.1. Разберемся в ее особенностях, протестируем, и я, исходя из своего (далеко не самого авторитетного) мнения, постараюсь оценить эту разработку команды Илона Маска.

Устраивайтесь поудобнее, я начинаю.


Подробнее о модели

Разумеется, прежде чем переходить к каким-либо тестам и выводам, нужно понять, с чем мы имеем дело.

Grok 4.1 - модель, которая, по заявлениям разработчиков и данным бенчмарков, значительно улучшила качество взаимодействия благодаря расширенным творческим, эмоциональным и кооперативным возможностям.

Всего существует две версии:

  • Grok 4.1 Thinking - версия, предназначенная для задач, требующих глубокого размышления.

  • Grok 4.1 Fast - версия для мгновенных ответов.

Некоторые особенности модели

Начнем с одного из ключевых параметров - контекста. Благодаря обучению с подкреплением на длинных последовательностях модель стабильно работает с контекстом до двух миллионов токенов.

Помимо огромного контекстного окна, xAI позаботилась и о качестве ответов. После дополнительной тренировки Grok 4.1 значительно снизил частоту галлюцинаций при обработке реальных запросов пользователей.

Особо стоит отметить уникальную особенность модели - работу с социальными настроениями и текущими событиями в реальном времени. Grok - единственный продукт, напрямую интегрированный с платформой X. Модель анализирует твиты и события, происходящие в данный момент.

И, наконец, эмоциональный интеллект. Согласно бенчмаркам (которые мы рассмотрим далее), Grok точнее всех распознает человеческие эмоции и проявляет эмпатию, обеспечивая более комфортное общение.

Бенчмарки

Не упомянуть такую достаточно важную вещь было бы ошибкой.

τ²-bench Telecom: 100% - лучший результат среди агентских моделей, ориентированных на инструменты. Модель значительно превосходит Grok 4, GPT-5 и Claude Sonnet 4.5.

Berkeley Function Calling v4: точность 72% при невысокой стоимости выводит Grok 4.1 Fast в лидеры по качеству обычного и рассуждающего tool-calling.

Text Arena проекта LMArena: Grok 4.1 Thinking и Fast заняли первое и второе места соответственно.

Модели лидируют в бенчмарке на навыки понимания, эмпатии, проницательности и межличностного взаимодействия.

Разумеется, эти результаты отражают ситуацию на момент выпуска модели. Сейчас уже представлены Gemini 3 Pro, Claude Opus 4.5 и GPT-5.2, которые по многим параметрам обошли Grok 4.1.

Проблемы, о которых говорят пользователи

В том, что я так поздно добрался до обзора этой модели, есть и свои плюсы. Заявления разработчиков и данные бенчмарков - это, конечно, хорошо, но спустя месяц появились и отзывы обычных пользователей, которые нашли недостатки.

Во-первых, Grok 4.1 плохо справляется с языками, отличными от английского, и сложными инструкциями. Это достаточно серьезная проблема для тех, кто не желает возиться с переводом своих запросов на английский.

Эксперты также отмечают, что, несмотря на значительные улучшения, модель уступает последним разработкам OpenAI и Google в задачах, требующих глубокого анализа и рассуждений. Та самая харизма, которую подчеркивали благодаря Илону Маску, иногда приводит к неточным или чрезмерно уверенным ответам.

Сомнительной можно считать и маркетинговую стратегию. Компания xAI позиционирует Grok 4.1 как искателя истины, однако на практике его выводы сильно зависят от данных платформы X, что может приводить к предвзятости.

Наконец, по ряду тестов Grok 4.1 уступает даже предыдущему поколению моделей от OpenAI (GPT-4) в задачах, требующих быстрого понимания визуальных материалов. Для универсального ассистента это критический недостаток.


Небольшое отступление

Чтобы воспользоваться моделью, я обращусь к агрегатору нейросетей BotHub, дающему доступ к большому количеству нейросетей - от генерации текста до транскрибации и создания видео. Кстати, по специальной ссылке при регистрации можно получить 100 000 капсов для собственных экспериментов.


Тесты

Первый тест

Для начала почему бы не протестировать эмоциональность модели, которую так активно рекламировали? Хочется получить стихотворение с грустью, тоской и печалью.

Полученный стих меня не устроил. Модель действительно пытается выразить эмоции, но итоговый результат получился грубоватым. Читается тяжело, местами теряется нить повествования и атмосфера, которой здесь и так недостает.

Решив пойти дальше, я попытался доработать результат. Просьба сделать текст легче и добавить рифму немного улучшила ситуацию, но лишь до приемлемого уровня. Ничего выдающегося я не обнаружил.

Второй тест

Итак, добиться чего-то путного в генерации стихотворения не удалось. Перейдем к другому тесту, тоже связанному с творчеством. Теперь я попрошу модель написать небольшой рассказ о человеке, потерявшемся в лесу. Пусть она попытается передать его тревогу и отчаянное желание выбраться.

Получившийся короткий рассказ модель представила довольно удачно. Передать эмоции ей удалось, хотя, на мой взгляд, местами даже чрезмерно. Но в целом результатом я доволен.

Третий тест

Достаточно нестандартный для меня тест. Посмотрим, как модель определит эмоции и намерения участников диалога.

Я ожидал худшего, но получилось вполне неплохо. Grok 4.1 подметил многие детали, передал, кажется, все возможное и сделал логичный вывод в финале. Конечно, истинную причину, зачем Марина искала Бориса, сказать сложно, поэтому выводы модели нельзя принимать за абсолютную истину, но выглядят они достаточно убедительно.

Четвертый тест

Отойдем от эмоциональных тестов и перейдем к чему-то более базовому - высшей математике. Модель попробует решить несколько достаточно простых задач.

Из трех задач верно решена только одна. Не думаю, что один правильный ответ из трех - показатель хорошего уровня.

Пятый тест

Проверим возможности модели в программировании, попросив ее написать программу инженерного калькулятора.

Изначально я хотел провести серию тестов, как с математикой, но в итоге ограничился одним.

Работоспособная программа получилась только после трех уточняющих запросов, исправляющих ошибки. Это разочаровало: раньше я не сталкивался с тем, чтобы модель не справлялась с такой задачей с первого раза. Даже GigaChat показывал приемлемые результаты сразу. Впрочем, итоговый вариант визуально приятнее, чем у упомянутой модели. И главное - все функции работают корректно, что уже хорошо.


 Итог

Можно однозначно сказать, что модель добилась определенных успехов в эмоциональном интеллекте. Однако во всех остальных аспектах Grok 4.1 не демонстрирует выдающихся результатов и не дотягивает до современных топовых моделей. При таком количестве пиара можно было бы постараться и сильнее, не правда ли, Илон Маск?

Спасибо за прочтение!

Комментарии (1)


  1. liutas4x4
    13.12.2025 10:03

    Я подписан на SuperGrok с версии 3. Пользую Thinking, потому как задачи -- глубокий поиск (я имею дело с ремонтом проприетарного и найти что-то очень тяжко, даже сами поставщики оборудования располагают неполными документами).

    И вот пример из 4.1 (не копипаста, но примерно):

    • Найди джамперы вот такого (редкое_имя) HDD;

    • Контакты 1-2 -- то-то, 3-4 -- то-то, 5-6 -- третье;

    • Врешь: там всего четыре пина;

    • Ты прав, да. ... и повторят предыдущий ответ;

    • Я сейчас начну тебя ругать русским матом, ты крадешь мое время. Четыре пина!

    • 5-6 да, отсутсвуют.

    • Дай линки где ты нашел данные, не списком, а конкретно.

    • Шлет, подчеркивает, выделяет;

    • Это другой диск. В этом одна из пар должна переключать spin up. (джампер упал в корпус контроллера от вибрации убитого шпинделя -- это вам, не для Грока).

    • Ищет минут 7-8. И выдает по-новой первую лабуду.

      Бросаю затею и через минут 40 в древней ветке полумертвого форума дакдаком нахожу ответ.

    • Ты имеешь доступ к (называю сайт) или тебе закрыт доступ?

    • Нет, есть robot.txt и он мне не закрыт. Добавил в поиск.

    • И какой ответ на мой первый вопрос?

    • Повторяет все ошибочное.

      "Шум набежавшей воды сливаетвсё в трубу." (С)

    Но иногда да, помогает, когда просишь, зная с кем имеешь дело, просто сводную сравнительную таблицу параметров при попыке замены древнего на новое.