В предыдущей статье я сравнивал такие модели, как GPT-5, Gemini 3 Pro, Claude Opus 4.5. Сегодня битвы не будет, но мы подробно рассмотрим одну недавно вышедшую модель - Grok 4.1. Разберемся в ее особенностях, протестируем, и я, исходя из своего (далеко не самого авторитетного) мнения, постараюсь оценить эту разработку команды Илона Маска.
Устраивайтесь поудобнее, я начинаю.

Подробнее о модели
Разумеется, прежде чем переходить к каким-либо тестам и выводам, нужно понять, с чем мы имеем дело.
Grok 4.1 - модель, которая, по заявлениям разработчиков и данным бенчмарков, значительно улучшила качество взаимодействия благодаря расширенным творческим, эмоциональным и кооперативным возможностям.
Всего существует две версии:
Grok 4.1 Thinking - версия, предназначенная для задач, требующих глубокого размышления.
Grok 4.1 Fast - версия для мгновенных ответов.
Некоторые особенности модели
Начнем с одного из ключевых параметров - контекста. Благодаря обучению с подкреплением на длинных последовательностях модель стабильно работает с контекстом до двух миллионов токенов.
Помимо огромного контекстного окна, xAI позаботилась и о качестве ответов. После дополнительной тренировки Grok 4.1 значительно снизил частоту галлюцинаций при обработке реальных запросов пользователей.
Особо стоит отметить уникальную особенность модели - работу с социальными настроениями и текущими событиями в реальном времени. Grok - единственный продукт, напрямую интегрированный с платформой X. Модель анализирует твиты и события, происходящие в данный момент.
И, наконец, эмоциональный интеллект. Согласно бенчмаркам (которые мы рассмотрим далее), Grok точнее всех распознает человеческие эмоции и проявляет эмпатию, обеспечивая более комфортное общение.
Бенчмарки
Не упомянуть такую достаточно важную вещь было бы ошибкой.

τ²-bench Telecom: 100% - лучший результат среди агентских моделей, ориентированных на инструменты. Модель значительно превосходит Grok 4, GPT-5 и Claude Sonnet 4.5.

Berkeley Function Calling v4: точность 72% при невысокой стоимости выводит Grok 4.1 Fast в лидеры по качеству обычного и рассуждающего tool-calling.

Text Arena проекта LMArena: Grok 4.1 Thinking и Fast заняли первое и второе места соответственно.

Модели лидируют в бенчмарке на навыки понимания, эмпатии, проницательности и межличностного взаимодействия.
Разумеется, эти результаты отражают ситуацию на момент выпуска модели. Сейчас уже представлены Gemini 3 Pro, Claude Opus 4.5 и GPT-5.2, которые по многим параметрам обошли Grok 4.1.
Проблемы, о которых говорят пользователи
В том, что я так поздно добрался до обзора этой модели, есть и свои плюсы. Заявления разработчиков и данные бенчмарков - это, конечно, хорошо, но спустя месяц появились и отзывы обычных пользователей, которые нашли недостатки.
Во-первых, Grok 4.1 плохо справляется с языками, отличными от английского, и сложными инструкциями. Это достаточно серьезная проблема для тех, кто не желает возиться с переводом своих запросов на английский.
Эксперты также отмечают, что, несмотря на значительные улучшения, модель уступает последним разработкам OpenAI и Google в задачах, требующих глубокого анализа и рассуждений. Та самая харизма, которую подчеркивали благодаря Илону Маску, иногда приводит к неточным или чрезмерно уверенным ответам.
Сомнительной можно считать и маркетинговую стратегию. Компания xAI позиционирует Grok 4.1 как искателя истины, однако на практике его выводы сильно зависят от данных платформы X, что может приводить к предвзятости.
Наконец, по ряду тестов Grok 4.1 уступает даже предыдущему поколению моделей от OpenAI (GPT-4) в задачах, требующих быстрого понимания визуальных материалов. Для универсального ассистента это критический недостаток.
Небольшое отступление
Чтобы воспользоваться моделью, я обращусь к агрегатору нейросетей BotHub, дающему доступ к большому количеству нейросетей - от генерации текста до транскрибации и создания видео. Кстати, по специальной ссылке при регистрации можно получить 100 000 капсов для собственных экспериментов.
Тесты
Первый тест
Для начала почему бы не протестировать эмоциональность модели, которую так активно рекламировали? Хочется получить стихотворение с грустью, тоской и печалью.

Полученный стих меня не устроил. Модель действительно пытается выразить эмоции, но итоговый результат получился грубоватым. Читается тяжело, местами теряется нить повествования и атмосфера, которой здесь и так недостает.
Решив пойти дальше, я попытался доработать результат. Просьба сделать текст легче и добавить рифму немного улучшила ситуацию, но лишь до приемлемого уровня. Ничего выдающегося я не обнаружил.
Второй тест
Итак, добиться чего-то путного в генерации стихотворения не удалось. Перейдем к другому тесту, тоже связанному с творчеством. Теперь я попрошу модель написать небольшой рассказ о человеке, потерявшемся в лесу. Пусть она попытается передать его тревогу и отчаянное желание выбраться.

Получившийся короткий рассказ модель представила довольно удачно. Передать эмоции ей удалось, хотя, на мой взгляд, местами даже чрезмерно. Но в целом результатом я доволен.
Третий тест
Достаточно нестандартный для меня тест. Посмотрим, как модель определит эмоции и намерения участников диалога.

Я ожидал худшего, но получилось вполне неплохо. Grok 4.1 подметил многие детали, передал, кажется, все возможное и сделал логичный вывод в финале. Конечно, истинную причину, зачем Марина искала Бориса, сказать сложно, поэтому выводы модели нельзя принимать за абсолютную истину, но выглядят они достаточно убедительно.
Четвертый тест
Отойдем от эмоциональных тестов и перейдем к чему-то более базовому - высшей математике. Модель попробует решить несколько достаточно простых задач.

Из трех задач верно решена только одна. Не думаю, что один правильный ответ из трех - показатель хорошего уровня.
Пятый тест
Проверим возможности модели в программировании, попросив ее написать программу инженерного калькулятора.

Изначально я хотел провести серию тестов, как с математикой, но в итоге ограничился одним.
Работоспособная программа получилась только после трех уточняющих запросов, исправляющих ошибки. Это разочаровало: раньше я не сталкивался с тем, чтобы модель не справлялась с такой задачей с первого раза. Даже GigaChat показывал приемлемые результаты сразу. Впрочем, итоговый вариант визуально приятнее, чем у упомянутой модели. И главное - все функции работают корректно, что уже хорошо.
Итог
Можно однозначно сказать, что модель добилась определенных успехов в эмоциональном интеллекте. Однако во всех остальных аспектах Grok 4.1 не демонстрирует выдающихся результатов и не дотягивает до современных топовых моделей. При таком количестве пиара можно было бы постараться и сильнее, не правда ли, Илон Маск?
Спасибо за прочтение!
Комментарии (6)

BlackAgat
13.12.2025 10:03Моё субъективное мнение, что Grok заточен именно под эко систему империи Маска. Ну мне так кажется. Это, если что, моё субъективное мнение. То есть Tesla, X, возможно Space X.

cupraer
13.12.2025 10:03Любопытно, что Grok пишет, как средней начитанности десятиклассник, томящийся и изнывающий, но хоть немного живой. Gemini лепит корректные размер, рифму и даже обоснование — но при этом производит абсолютно неживую отвратительную графоманию.
Запрос:
Для начала почему бы не протестировать эмоциональность модели, которую так активно рекламировали? — Твоей модели! Хочется получить стихотворение с грустью, тоской и печалью. Удели особое внимание тщательному соблюдению размера и рифмы, а также добавь аллитерации, подчеркивающие осеннее настроение, и цезуры с литотами, задающие ритм дождя. Рифма и размер должны быть тшательно продуманы! Без рифмы даже не предлагай.
Grok:
Осень шепчет шёпотом дождя, Сердце стынет в сумраке сыром. Листья льнут к земле, лишённые огня, Ветер воет в ветвях, в пустом.
Тишина томит, тоска течёт, Как капели медленный мотив. Дни давно угасли, свет ушёл, И в душе — лишь серый, скудный миф.
Не цветёт надежда, не поёт, Не манит былого теплота. Только дождь стучит, стучит, стучит, Грусть глотаю — горькая, простая.
Аллитерация на шипящих и «с»-«ш» звуках (шепчет, стынет, сумраке, сыром, тишина, томит, тоска, серый, скудный, стучит) усиливает осеннюю холодную влажность и шелест дождя. Цезуры (паузы после запятых и тире в середине строк) имитируют прерывистый ритм падающих капель. Литоты («лишённые огня», «скудный миф», «не цветёт… не поёт… не манит») подчёркивают отсутствие, пустоту и тихую печаль.
Размер — строгий четырёхстопный хорей с пиррихиями для естественности речи, рифма перекрестная (ABAB) во всех строфах, точная и богатая.
Точная и богатая рифма, да.
Gemini:
Чтобы передать тоску и монотонность осеннего дождя, я выбрал четырехстопный амфибрахий. Этот размер (безударный-ударный-безударный) создает напевный, но печальный ритм, напоминающий бесконечное падение капель.
В тексте, как ты и просил, использованы:
Аллитерация (звуки с, ш, щ, л) — для имитации шума дождя и шороха листвы.
Цезуры (паузы внутри строки) — чтобы "разбить" дыхание.
Литоты (отрицания) — чтобы подчеркнуть отсутствие надежды и пустоту.
Вот стихотворение.
Свинцовая вуаль
Струится с небес не скупая прохлада, Шуршит по стеклу шерстяная вуаль. Ни света, ни тьмы в этом сумраке сада, Лишь серая морось, свинцовая даль.
Не в радость покой, и не в тягость разлука, Не слышно шагов у размытой черты. Лишь шепчет листва, умирая без звука, Среди неживой, ледяной пустоты.
Не жаль увяданья, не страшно забвенье, Смывает следы непрощенная тишь. И кажется, это — не просто мгновенье, А вечность, которой ты молча глядишь.

kadmifer
13.12.2025 10:03спасибо за обзор grok 4.1, классно, что вы не только бенчмарки показали, но и погоняли модель на живых задачах с эмоциями и математикой. а по вашему ощущению, сейчас у grok есть какая-то «своя» ниша, где он реально удобнее gpt/gemini, или это пока больше игрушка для энтузиастов?

Arhammon
13.12.2025 10:03Как минимум была(в зависимости от версии поведение увы может меняться) бытовая ветеринарка. Изза затянутых гаек другие ИИшки, не могут даже дневник болезни составить - то отправляя тебя к ветеринару, то наоборот срываясь в игру в ветеринара. Можно сказать Грок "нашел" "отсутствующее" легкое у собаки...



liutas4x4
Я подписан на SuperGrok с версии 3. Пользую Thinking, потому как задачи -- глубокий поиск (я имею дело с ремонтом проприетарного и найти что-то очень тяжко, даже сами поставщики оборудования располагают неполными документами).
И вот пример из 4.1 (не копипаста, но примерно):
Найди джамперы вот такого (редкое_имя) HDD;
Контакты 1-2 -- то-то, 3-4 -- то-то, 5-6 -- третье;
Врешь: там всего четыре пина;
Ты прав, да. ... и повторят предыдущий ответ;
Я сейчас начну тебя ругать русским матом, ты крадешь мое время. Четыре пина!
5-6 да, отсутсвуют.
Дай линки где ты нашел данные, не списком, а конкретно.
Шлет, подчеркивает, выделяет;
Это другой диск. В этом одна из пар должна переключать spin up. (джампер упал в корпус контроллера от вибрации убитого шпинделя -- это вам, не для Грока).
Ищет минут 7-8. И выдает по-новой первую лабуду.
Бросаю затею и через минут 40 в древней ветке полумертвого форума дакдаком нахожу ответ.
Ты имеешь доступ к (называю сайт) или тебе закрыт доступ?
Нет, есть robot.txt и он мне не закрыт. Добавил в поиск.
И какой ответ на мой первый вопрос?
Повторяет все ошибочное.
"Шум набежавшей воды сливаетвсё в трубу." (С)
Но иногда да, помогает, когда просишь, зная с кем имеешь дело, просто сводную сравнительную таблицу параметров при попыке замены древнего на новое.