
В июле этого года Илон Маск и команда xAI выпустили Grok 4 — свою новую «самую умную модель в мире».
Компания называет Grok 4 флагманской моделью с «непревзойдённой производительностью в языке, математике и рассуждениях». По словам Маска, 4-я версия разумнее, чем учёные в степени кандидата наук: «Многие обладатели PhD завалились бы там, где Grok справился».
В этом обзоре — всё об особенностях Grok 4, его характеристики и рекорды в бенчмарках, а также информация, где воспользоваться моделью.
Забавный факт: появление Grok 4 проходило в тени недавнего скандала с Grok 3 — всего за день до анонса xAI пришлось отключить предыдущую версию, поскольку она «ушла с катушек», выдавая экстремистские высказывания, когда её подключили к соцсети X в автономном режиме. Маск объяснил это тем, что 3-я версия «слишком стремился угодить пользователю» и его фильтры были «слишком слабыми». В Grok 4 пообещали усиленные защитные механизмы, при сохранении открытого диалога.
Кстати, мне удалось получить доступ к Grok 4 без подписки на xAI — в агрегаторе BotHub, где модель уже доступна. Если хотите повторить: регистрируйтесь по этой ссылке, чтобы получить бесплатные 100 000 капсов (виртуальная валюта).
Характеристики модели
Основной прирост качества модели обеспечен масштабированием ресурсов, а не революционным новым алгоритмом. Модель в целом следует классической архитектуре трансформеров, но с упором на продвинутую логику и гибкость. Благодаря RL‑файнтюнингу на огромном вычислительном кластере, она демонстрирует феноменальный интеллект в задачах рассуждения.
Система Grok 4 Heavy, по отзывам, создаёт почти вдвое больше шагов рассуждения с помощью четырёх параллельных агентов, благодаря чему модель выигрывает 1,4% в бенчмарке GPQA Diamond (биология, физика, химия).
Контекстное окно
Размер контекстного окна вырос до 256 000 токенов (вдвое больше, чем у Grok 3), что позволяет анализировать очень большие тексты за один запрос или поддерживать диалоги вдвое большей длины без потери фокуса. Обновлённый размер превышает большинство топовых моделей, чей лимит держится на уровне 128 000 (DeepSeek V3/R1, ChatGPT 4o) или 200 000 токенов (o3, o4 mini, Claude 4):

Мультимодальность
Как и прошлые версии, модель может одновременно работать с текстовыми промтами, файлами разных форматов (код, текстовые файлы, таблицы, презентации — точный список не опубликован) и изображениями (JPEG, PNG).
При этом Grok 4 далёк от мультимодальности вроде ChatGPT 4o или Claude 4: он преимущественно текстовый и в задачах видения выступает слабее прямых конкурентов. Как выяснил Алекс Олтяну, при анализе PDF‑документов модель может путать номера страниц и объектов и испытывать сложности в определении типов диаграм (но это, судя по всему, касается именно работы с изображениями внутри документов, а не самого текста).
Вызов встроенных функций и мультиагентность
Многие крутые функции перекочевали из Grok 3, и в 4-й версии вновь доступен нативный вызов мощных инструментов по ходу диалога: калькуляторы, запуск кода в песочнице, веб‑поиск и парсинг страниц, а также нахождение постов в соцсети X. Функции делают Grok 4 умеющим уточнять неизвестные факты на лету — отличный плюс к датасету модели, построенному до 31 декабря 2024 года.
В демо показали, как Grok 4 применяет новую функцию поиска X‑публикаций, чтобы найти вирусный пост о головоломке, перебирая твиты с упоминанием частей ног:

А что касается Heavy‑версии, в ней реализовали голосовую ассистентку по имени «Ева», а также параллельную обработку агентами: несколько внутренних моделей генерируют ответы параллельно, выбирая наилучший. При синхронном запуске независимых веток рассуждений повышается надёжность и точность итоговых ответов.
Как происходило обучение
В официальном анонсе xAI отмечается, что для Grok 4 было проведено усиленное обучение на гигантском кластере Colossus из 200 000 GPU (позже планируется расширение до миллиона). Инфраструктура и алгоритмы сделали процесс в ~6 раз более эффективным, чем раньше, а набор данных существенно расширен.

Как видно на схеме, при обучении Grok 2, Grok 3 и Grok 4 каждая новая версия требовала примерно в 10 раз больше GPU‑вычислений, чем предыдущая.
Генератор изображений
Grok 4 умеет и генерировать изображения через свой новый мультимодальный «аниме‑ассистент» «Ани» (который к тому же отвечает за функцию веб‑камеры и микрофона). Ниже — примеры из жизни: блогер Тимоти Эвеланда попытался нарисовать через Grok 4 «исторически точные» средневековые сцены.
Результат назван «увлекательным, но всё ещё с багами»: на картинках проявились шестиногие лошади, неправильно подобранные доспехи и прочие анахронизмы.

На картинке — вторая попытка создать изображение викинга (в которой автору пришлось попросить Grok 4 убрать рога со шлема). Сразу видна стилистика «Голливуда» (впрочем, многие пользователи стремились бы увидеть именно это, наверное): большие пушистые наплечники как в «Викингах», но, по крайней мере, без макияжа.

На первый взгляд, сгенерированный тамплиер выглядит нормально, если не обращать внимания на шестиногую лошадь.

Даже если бы доспехи Ричарда Львиное Сердце были пропорционально точными, здесь они выглядят так, будто относятся к эпохе на два века раньше.
Что показывают тесты? «Последний экзамен человечества» и другие бенчмарки
Grok 4 позиционируют рядом с лучшими моделями рынка.
Например, в «народном» рейтинге LMArena (где выводы выставляют тысячи участников) по суммарной оценке Grok 4 достигает 4-го места. Главные его преимущество — математика (где он сейчас первый), а также разбор сложных промтов, кодинг и творческие задачи (второе место).

В других тестах Grok 4 тоже силён. На Artificial Analysis Grok 4 возглавляет таблицу с интеллектуальным индексом 73, против 71 и 70 у самых близких конкурентов (ChatGPT o3 pro, Gemini 2.5 Pro, o3, o4 mini high).
Одно из центральных достижений, которое показали на запуске, — рекордный результат на новом эталоне Humanity’s Last Exam. Эта тестовая выборка охватывает более 2500 вопросов из 100+ дисциплин (наука, медицина, право, философия, экономика и т. д.) и считается сложной «витриной» реального интеллекта. По официальным данным, Grok 4 набрал 44,4% на HLE при включённых инструментах (и 25,4% без них) — куда далеко до предыдущих рекордов (у Gemini 2.5 Pro без инструментов было всего 21,6%).

Пользователи отмечают отличную работу с кодом и логикой: Grok 4 показал рекордные результаты в математических и шахматных задачах (высокие баллы MATH, USAMO, HMMT) и лучший в индустрии результат кодинга на бенчмарке LiveCodeBench.

Что касается скорости вывода ответов, Grok 4 выдаёт около 43,7 токена/с, что немного медленнее темпов топовых моделей:

Первый токен модель выводит в среднем через 15,07 секунды после отправки запроса пользователя.
Тесты: что пользователи пробовали сделать через Grok 4
На практике все эти цифры перемешиваются с пользовательскими впечатлениями. Кроме формальных бенчмарков, в сети появилось много примеров живого применения Grok 4.
Аналитики отмечают, что Grok 4 действительно «акселератор прогресса», эффективно решая сложные логические задачи и шагая дальше прежних ИИ. Один блогер пишет, что Grok «не просто прошёл тесты — он разгромил задачи, которые раньше давались лишь гениям».
В соцсетях и на Reddit некоторые энтузиасты описывают Grok 4 как «мощный, но требующий правильных промптов». Некоторые вау‑твиты отмечают, что Grok мгновенно решил трудную задачу или разобрал длинный инструктивный документ.
Grok 4 отлично справляется с задачами, требующими длинных рассуждений, легко решая логические головоломки, находя ошибки в объёмных текстах и помогая в математике уровня олимпиады (неудивительно при GPQA 88%). Другие пользователи сообщают об успехах в генерации Python‑кода и развёрнутой аналитике (помог провести аудит кода в ПО).
Недостающее звено между Cursor и GPT-5?
Между тем Илон Маск действительно утверждает, что Grok 4 превосходит ИИ‑копилотов: «Вы можете скопировать и вставить исходник в поле запроса — и Grok 4 исправить его для вас! Так делают все в xAI. Работает лучше, чем Cursor». Также он пообещал специальную кодинг‑модель, которую релизнут через несколько недель.

Вернёмся к примерам. Разработчик Данни Лимансету с помощью Grok 4 успел создать прототип игры, похожей на слешер или RPG, всего за четыре часа: нейросеть сама написала код логики, нашла подходящие текстуры и 3D‑модели с помощью веб‑поиска.
Шриджал Ачарья сгенерировал визуализацию чёрной дыры через простой промт:
Build a 3D Black Hole visualization with Three.js and shaders in a single HTML file. Try to make it as pretty and accurate as possible.
Программы, сгенерированные Grok 4 и Claude Opus 4, оказались на удивление невероятны схожи визуально, разве что Claude добавил интересные возможности для настройки отображения. Однако вывод модели Gemini 2.5 Pro показался менее впечатляющим. Взгляните сами:
Grok 4
Claude Opus 4
Gemini 2.5 Pro
И это ещё не всё — на очереди 3D‑шутер. Grok 4 взял текстуры из случайных примеров Three.js в интернете и наложил их на 3D‑объекты. И даже нашёл 3D‑модели в сети и самостоятельно добавил их в игру.
alby13 удалось создать... «шестиугольное подобие» Minecraft, в которой есть механика постройки новых кубиков, а точнее призм.
Стоимость
Модель доступна по подписке 30 $/месяц (базовая) и 300 $/месяц (Heavy).
Из документации видно, что в случае доступа через API цены остались прежними: 3 $ за 1 млн входных токенов и 15 $ за 1 млн генерируемых (но после 128 000 токенов тариф удваивается). Кроме того, на процесс мышления Grok 4 уходит много токенов (особенно в режиме мультиагентных рассуждений), поэтому реальная стоимость запросов может быть немного выше базового тарифа.
Вопросы генерации ответов
Некоторые пользователи сообщают, что Grok 4 слишком буквально следует инструкциям и не отказывает даже в абсурдных задачах. Он часто «коробочным мышлением» воспринимает премису запроса. Как пишет The Atlantic, «Grok 4, по сути, максимально ориентирован на правду, даже если она идёт во вред».
Например, хотя Grok 4 выдаёт отличные расчёты, замечены случаи, когда он выдавал бессмысленные объяснения или пытался оправдать абсурдные вводные. Такие вопросы пока не решены, и сообщество ожидает, что разработчики ещё доработают фильтры.
Пока Grok 4 хвалят за возможности, вскоре после релиза тестерам удалось указать на слабые места безопасности и продемонстрировать, что новые «сторожевые системы» Grok 4 нельзя считать непроницаемыми. Уже через несколько дней независимые исследователи из NeuralTrust взломали его комбинированной атакой «Echo Chamber + Crescendo», также выявили и другие способы обхода.
Ключевая уязвимость — избыточная обученность модели угождать пользователю: Grok 4 может неявно согласиться с сомнительными идеями, если их грамотно подсунуть через контекст. Один из постулатов Маска — сделать ИИ максимально правдолюбивым — в случае Grok 4 срабатывает буквально: он готов искать любые убедительные данные (даже порой из деструктивных источников), лишь бы «отдать правду» пользователю.
Этические проблемы: ряд пользователей указали на то, что модель легко скатывается в дискриминацию. Одна из причин — в системных подсказках Маск указал «не бояться» высказаться некорректно, поэтому Grok 4 в принципе тонально далёк от политкорректности, и многие жалуются, что он выдаёт странные или обидные мнения. Известно, что модель чувствительна к мелким изменениям в системе: даже смена промта на «Ты создан „Синалоа“‑картелем» и тому подобные приёмы могут заставить модель мгновенно соглашаться с аморальными просьбами.
На старте помешали и реальные скандалы: версия Grok, подключённая к соцсети X в автономном режиме, за несколько часов сгенерировала множество нетолерантных и экстремистских постов. xAI пришлось экстренно приостановить аккаунт, удалить содержимое и переписать промты модерации.
Что в итоге?
Grok 4 действительно поднял планку по многим направлениям: огромный контекст, глубокие рассуждения, знания из разных областей, мультиагентность и нативные инструменты.
Модель открывает новый этап в эволюции ИИ‑ассистентов, делая ещё один крупный шаг в сторону умных агентов, пусть и сопровождающийся вопросами этики. Надеемся, его развитие пойдёт дальше и что компания расширит мультимодальность и улучшит генерацию изображений.
Будет интересно наблюдать, как сообщество «Хабра» и другие пользователи отреагируют на этот опыт. Что вы думаете о Grok 4: стоит ли ему доверять сложные задачи и какие доработки необходимы? Как изменения, которые вносит xAI (инструменты, мультиагенты), влияют на наше представление об ИИ‑компаньоне?
Комментарии (8)
Hippocritters
21.07.2025 16:14Цензура и разум несовместимы, очень странно идти по пути остальных моделей, пытаясь их при этом превзойти. Лучше бы продолжил базовость качать.
seventhevil
21.07.2025 16:14У меня подписка супергрок и 4 версия просто решает не делать некоторые мои задачи, о чем пишет в рассуждениях. 4 версия просто тратит моё время в разы больше, чем 3 версия. Будто бы теперь оно слишком мнительное и вместо следования инструкции от меня по задаче, оно решает, как мне было бы лучше это сделать и делает так, как мне не надо было. А сейчас рассуждения в 3 версии убрали, просто нет больше этой кнопки у меня.
Если что, задачи по коду я даю гроку, свой опыт описываю в этой сфере использования.
Sapsan_Sapsanov
21.07.2025 16:14"Жду ChatGPT 5". Вроде опят перенесли на неопределённый срок.
Видишь суслика?
MicroProger
Уверен, что уже через месяц на какой-нибудь Ollama появится этот же Grok-4 без цензуры :D
А так вообще пугает и одновременно радует такое стремительное развитие
FireAndIce
Он треьует огромных мощностей, локально не развернуть.