
Это официально. Grok 3 уже доступен.
В понедельник сам Илон Маск, а также три других члена xAI собрались вместе для презентации Grok 3, которая транслировалась в прямом эфире.
Если вы впервые слышите о Grok, то это ИИ-модель, разработанная xAI, чтобы конкурировать с GPT от OpenAI, Gemini от Google и недавно запущенной моделью DeepSeek.
Маск поделился, что слово «Grok» пришло из научно-фантастического романа Роберта Хайнлайна «Чужак в чужой стране». В книге «Grok» - это термин, используемый персонажем, выросшим на Марсе, и означающий полное и глубокое понимание чего-либо.
Полную трансляцию анонса можно посмотреть здесь.

За несколько дней до запуска Маск назвал Grok 3 «самым умным ИИ на Земле». Во время презентации, транслировавшейся в прямом эфире, он добавил: «[Это] максимально правдивый ИИ, даже если эта правда иногда расходится с политически корректной».
xAI утверждает, что Grok 3 в 10-15 раз мощнее Grok 2. Он работает на суперкомпьютере Colossus, используя 100 000 графических процессоров Nvidia H100 и затрачивая 200 миллионов GPU-часов на обучение. Благодаря такой мощности Grok 3 может быстро и точно обрабатывать огромные массивы данных, поднимая ИИ-вычисления на совершенно новый уровень.
Grok 3 с большим отрывом занимает первое место в рейтинге LMSYS Chatbot Arena и демонстрирует впечатляющие результаты в предварительном обучении и оценке рассуждений.


На данный момент Grok 3 набрал более 1400 баллов ELO, а Gemini Flash Thinking занимает второе место с 1385 баллами ELO.
Важно отметить, что Grok 3 - первая модель, получившая более 1400 баллов на Chatbot Arena и превосходящая лучшие общедоступные модели рассуждений от OpenAI и Google.
Бенчмарки Grok 3
Судя по бенчмаркам, предоставленным xAI, Grok 3 выигрывает у GPT-4o в нескольких сравнительных тестах, включая AIME (который оценивает производительность модели на выборке математических вопросов) и GPQA (который оценивает модели с помощью задач по физике, биологии и химии уровня доктора наук).

Спустя 17 месяцев после того, как оригинальная модель Grok с трудом справлялась с задачами школьного уровня, Маск отметил ее стремительный прогресс, заявив, что «Grok готова к поступлению в колледж», так как она сильно усовершенствовалась.
Модели Reasoning и Mini
Стоит отметить, что Grok 3 представлен следующими вариантами моделей:
Grok 3
Grok 3 Mini
Grok 3 Reasoning
Grok 3 Mini Reasoning
Таким образом, существует четыре варианта модели Grok 3.
Grok 3 Mini может отвечать на вопросы быстрее за счет некоторой точности. Пока доступны не все модели и связанные с ними функции Grok 3 (некоторые находятся в бета-версии), но они начали появляться в понедельник.
Grok 3 Reasoning и Grok 3 Mini Reasoning могут тщательно «обдумывать» проблемы, аналогично «рассуждающим» моделям, таким как o3-mini от OpenAI, R-1 от DeepSeek и Gemini-2 Flash Thinking.

Одна из впечатляющих возможностей, которую xAI продемонстрировала на презентации, - способность Grok 3 создавать игры. В деморолике команда продемонстрировала, как модель создала игру, сочетающую в себе элементы Tetris и Bejeweled.

Это интересная возможность от Grok, учитывая, что xAI планирует открыть студию по созданию ИИ-игр. Маск ретвитнул сообщение ниже с подписью «да», подтвердив новость.

В центре внимания - создание веселых, увлекательных игр с передовым искусственным интеллектом, без политического подтекста и с вызовом гигантам индустрии.
Прогресс с бешеной скоростью
Компания xAI опубликовала новые данные, отражающие стремительное развитие языкового мышления и вычислительной мощности Grok с 2023 года.
Приведенный ниже график показывает две вещи:
Возможности Grok 2 превзошли показатели GPT-4 всего за 18 месяцев разработки.
У Grok была крутая траектория по сравнению с постепенным ростом OpenAI GPT в период с 2019 по 2024 год.

Это смелое и интересное заявление, но методология получения этих данных не была раскрыта, поэтому неясно, как Grok оценивался в сравнении с GPT.
Доступность Grok 3
Grok 3 уже доступен для подписчиков Premium+ на X, стоимость которого составляет 50 долларов в месяц. Для тех, кому нужны еще более продвинутые функции, xAI представляет новый тарифный план под названием SuperGrok, предлагающий расширенный доступ к ИИ-модели и дополнительные возможности.
В настоящее время модель доступна через приложение Grok для iOS и новый веб-сайт Grok.com, а в скором времени планируется запустить приложение в Google Play. Однако я проверил новый сайт, и Grok 3 в настоящее время нет в списке моделей.

Полагаю, он будет доступен в ближайшие дни.
Команда xAI также подтвердила, что через несколько недель Grok 3 станет доступен через корпоративный API, наряду с функцией DeepSearch, которая расширяет возможности поиска.
Маск сообщил, что примерно через неделю в приложение Grok будет добавлен голосовой режим, который позволит пользователям взаимодействовать с моделью с помощью синтезированного голоса. Хотя Grok 3 все еще находится в статусе бета-версии, xAI рекомендует пользователям обращать внимание на возможные ошибки, поскольку модель продолжает совершенствоваться.
Кроме того, xAI подтвердила свою стратегию открытого исходного кода, заявив, что Grok 2 станет с открытым исходным кодом, как только Grok 3 станет достаточно стабильным, что ожидается в течение нескольких месяцев.
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений - я стараюсь делиться только полезной информацией.
Комментарии (26)
avshkol
18.02.2025 12:09Интересно, что в новости про новейшую американскую модель все комментарии - о её китайских конкурентах... )))
KillUI
18.02.2025 12:09«самым умным ИИ на Земле» - сильное заявление. Но куда ж без него)
Это мы ещё проверим. Мощности это далеко не всё.
Arxitektor
18.02.2025 12:09По доступу к Grok 3 только через сеть X и наличие платного Аккаунта. ?
Или есть ограниченный бесплатный вариант ?
MrCina32
А qwen вообще за игрока не считаете? Пробовали общаться с дипсиком дольше чем 1-2 запроса?
NeyroEntuziast Автор
А в чем преимущества qwen, на Ваш взгляд?
MrCina32
Бесплатный, бесконечный, работает без The server is busy. Please try again later.
NeyroEntuziast Автор
Тоже рассуждающая модель? Просто я её не пробовал пока
MrCina32
Я пользуюсь тремя нейросетями, но код моего проекта веб приложения на 95% написан в QWEN, не потому что он самый умный, а потому что он самый стабильный и работающий. Если уж становится слишком упрямым и не справляется с запросом, отдаю проблему на откуп ЧатГПТ или Дипсик, и молюсь чтобы у них получилось с первых двух трех раз, ибо потом то ваш лимит исчерпан то The server is busy. Сравнил бы QWEN с рабочим конем.
NeyroEntuziast Автор
А Вы только для кода используете, или для других целей тоже?
MrCina32
для кода квен. для всего остального чат.гпт. дипсик использую только чтобы поправить то что к квене не получается.
NeyroEntuziast Автор
Спасибо! Тогда мне квен не пригодится )
alex592
DeepSeek R-1 еще можно использовать через OpenRouter. Там со стабильностью тоже не всё хорошо, но заметно лучше, чем в веб-приложении
wtandoor
По-моему опыту с кодом хорошо работает только отдельный файн-тюн qwen'a на код и матан. В остальном qwen это не ультимативная модель для всего, и закрытые модели пока что на всех задачах в совокупности лучше.
alexxxdevelop
До сих пор не понимаю, почему многим нравится этот квен. Каждый раз, когда я попытался к нему обратиться, он всегда жестко тупил по разным вопросам. Ну и сейчас попробовал дать ему задачу, которую chatgpt (бесплатная версия) решил изящно с dom-элементами и простым кодом, да еще и сам предложил добавить красивую анимацию. А квен пошел через дебри svg и составил слишком запутанный код, решая задачу наполовину, и анимацию сделал кривую
alex592
Нет, у Qwen пока нет рассуждающих моделей в открытом доступе
nakirrrr
у него приоритет интеграция в китайские гаджеты. обычных пользователей он отправляет "в конец очереди" после одного запроса старая модель v3 работает подольше без задежек
NeyroEntuziast Автор
Я пользуюсь через апи, поэтому такого не заметил
avshkol
Для меня qwen имеет существенный недостаток - не читает сканированные картинки и pdf. Но что намного доступнее, чем deepseek, это точно. Но немного ленивее, когда просишь обработать большой текст - экономит токены выдачи,
NeyroEntuziast Автор
Это существенный недостаток и для меня, чатгпт помогает с этим
MrCina32
Qwen2.5-VL-72B-Instruct пробовали переключать? Я вчера кормил скрин дерева проекта с VS Code квену и он все понял.
Вот только что скормил сканированный в пдф мануал старого роутера. все ок
avshkol
О, спасибо, не знал!
Ingref
Дипсиком можно тут пользоваться https://chat.minimax.io/
Ну и их собственная модель тоже может читать сканированный pdf. И контекст там 4 миллиона токенов (самый большой среди всех LLM).
avshkol
Ого, не знал про эту модель. Попробую её на некачественных зубодробительных сканах технического текста (которых у меня горы)...
NeyroEntuziast Автор
4 млн токенов - круто. Спасибо, не знал про них