Ладно, признаюсь честно: когда я начинал писать этот материал, у меня было открыто девять вкладок с чат-ботами одновременно. Каждый обещал быть “лучшим”, каждый хотел мне помочь, и все они давали немного разные ответы на один и тот же вопрос. Это, собственно, и есть 2026 год в мире ИИ – изобилие, от которого кружится голова.

➪ “Что-то важное происходит, но я не понимаю, что именно” – примерно так чувствует себя среднестатистический пользователь, который открывает очередную новость про ИИ и видит там снова три буквы: LLM.

Рынок LLM (large language model, “большая языковая модель”, или попросту “чат-бот”) сейчас похож на тот момент, когда ты приходишь в большой супермаркет за йогуртом, а там 47 видов йогурта, и ты стоишь перед полкой уже шесть минут. Только ставки повыше: от выбора правильной модели зависит качество вашего кода, текстов, аналитики – и в конечном счёте рабочее время.

Эта статья – попытка навести порядок. Никаких абстрактных рейтингов “по ощущениям”: только конкретные факты, бенчмарки, реальные примеры использования и честное мнение о том, когда та или иная модель действительно полезна.

Разберём 12 актуальных решений – от агрегатора нейросетей до локальных открытых моделей: BotHub, Gemini 3 Flash, Gemini 3.1 Pro, Grok 4.20, ChatGPT 5.4, ChatGPT 5.4 Pro, Claude Opus 4.7, Claude Sonnet 4.6, DeepSeek v3.2, Perplexity Sonar, Gemma 4 26B A4B, GPT-OSS-120B.


~ О Г Л А В Л Е Н И Е ~


1) BotHub – все модели в одном окне

Начнём с главного секрета этой статьи. Доступ к большинству описанных здесь моделей из России превращается в отдельный квест: смена IP, иностранная карта, блокировки. BotHub убирает всё это разом.

BotHub – российский агрегатор нейросетей, и его главная суперсила – доступность. Он собрал под одной крышей практически всё, что сейчас есть на рынке. Уже сейчас в нём: Gemini 3 Flash, ChatGPT 5.4 Pro, Claude Opus 4.7, Claude Sonnet 4.6, ChatGPT 5.4, Gemini 3.1 Pro, Grok 4.20, DeepSeek v3.2, Perplexity Sonar – и ещё десятки других моделей. Фактически всё, о чём написано в этой статье, можно попробовать в одном интерфейсе без VPN и иностранных карт.

Помимо текстовых моделей, платформа предлагает генерацию изображений (Midjourney, Flux, DALL-E, Stable Diffusion), работу со звуком (транскрибация и синтез речи), генерацию видео через Runway и Veo. Есть также Easy Writer – инструмент для создания структурированного контента – и телеграм-бот-модератор на базе LLM.

Для разработчиков BotHub предоставляет полноценный API, совместимый с форматом OpenAI. Конечные точки идентичны, документация доступна на русском. Это значит: если у вас уже есть интеграция с OpenAI API, переключиться на BotHub займёт минуты.

Тариф

Включено

Для кого

Free (по ссылке)

300 000 caps

Первые шаги, тестирование

Basic

2 000 000 caps / 3 $

Повседневные задачи

Premium

5 000 000 caps / 7 $

Регулярный контент

Deluxe

10 000 000 caps / 14 $

Командная работа

Elite

35 000 000 caps / 49 $

Крупные проекты

Enterprise

Индивидуально

Корпоративные клиенты

Вы можете зарегистрироваться и получить 300 000 бонусных капсов ➪

Токены (точнее, внутренняя валюта caps – капсы) не сгорают, срок действия пакета неограничен – что само по себе честно и приятно.

Отдельно отмечу библиотеку промптов: это готовые заготовки для рекламных текстов, заголовков, рассылок, сценариев. Для тех, кто только начинает работать с нейросетями, буквально экономия нескольких часов на разгон.


2) Gemini 3 Flash – быстрый и умный

В декабре 2025 года Google выпустил Gemini 3 Flash – облегчённую версию Gemini 3 Pro, созданную через технологию knowledge distillation (дистилляцию знаний). Это значит, что Flash обучили на ответах более мощного Pro – в итоге получили модель, которая думает почти так же умно, но работает значительно быстрее и дешевле.

Что под капотом

Параметр

Значение

Контекстное окно

1 000 000 токенов

Скорость

Высокая

Бенчмарк SWE-bench

76,2%

MMLU-Pro

88,59%

GPQA Diamond

90%

Humanity’s Last Exam

35%

Миллион токенов контекста – это почти 750 000 слов. Можно загрузить весь рабочий репозиторий, годовой архив переписки или многолетний дневник – и модель будет держать всё это в голове.

Зачем Flash, а не Pro?

Если вам нужно быстро: суммировать документ, перевести текст, набросать первый вариант статьи, ответить на 20 похожих запросов – Flash справится отлично. Там, где Pro будет думать 30 секунд, Flash ответит за 5.

Практически: если вы пишете контент для соцсетей, делаете первичную обработку входящей документации или используете модель как умный автодополнитель – Flash идеальный вариант.

Gemini 3 Flash доступен через Google AI Studio и Gemini Chat.


3) Gemini 3.1 Pro – флагман от Google

Февраль 2026-го запомнится в истории ИИ надолго. Сначала, 5 февраля, Anthropic выпустила Claude Opus 4.6, который мгновенно захватил вершины рейтингов. Казалось – всё, Google теперь долго будет догонять. И тут, 19 февраля, Google выстреливает Gemini 3.1 Pro.

Результат оказался сенсационным: +46%Δ в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника). Это крупнейший прирост способности к рассуждению за одно поколение в истории передовых моделей. Разработка заняла всего три месяца с момента выхода Gemini 3 Pro.

Главная инновация – технология глубокого мышления (deep think), которая раньше была доступна только в специальном режиме, теперь встроена прямо в основу модели. Gemini 3.1 Pro по умолчанию думает глубже, а стоит столько же, сколько предыдущая версия.

Что говорят бенчмарки

Gemini 3.1 Pro Preview набирает 57 баллов в Artificial Analysis Intelligence Index, опередив Claude Opus 4.6 (53) и GPT-5.2 (51)
Gemini 3.1 Pro Preview набирает 57 баллов в Artificial Analysis Intelligence Index, опередив Claude Opus 4.6 (53) и GPT-5.2 (51)
  • ARC-AGI-2 (логика, новые паттерны): 77,1% – первое место с отрывом

  • GPQA Diamond (сложные научные вопросы уровня PhD): 94,3%

  • Humanity’s Last Exam: 44,4% (против 40,0% у Claude Opus 4.6 и 34,5% у GPT-5.2)

  • MMLU (общие знания): 92,6%

  • Первое место в Artificial Analysis Intelligence Index, опережая Claude Opus 4.6 на 4 пункта

При этом Gemini 3.1 Pro примерно в 6,5 раза дешевле Claude Opus 4.6 – что само по себе ставит вопрос о том, когда переплата за флагман Anthropic оправданна.

Три уровня мышления

Gemini 3.1 Pro вводит трёхуровневую систему управления глубиной рассуждений:

  • Low – молниеносные ответы, почти нулевое потребление мощности. Классификация, автодополнение

  • Medium – сбалансированный режим для большинства задач: ревью кода, анализ данных, вопросы по документам

  • High – “мини-версия Deep Think”. Модель параллельно исследует несколько путей решения и выбирает лучший

По данным экспериментов, около 80% запросов выполняются в режимах Low или Medium. High резервируется для 20% задач, где нужно глубокое рассуждение. Такой подход сокращает расходы на API на 50–70%.

Тайная суперсила: SVG и анимации

Gemini 3.1 Pro умеет создавать готовые анимированные SVG-файлы прямо по текстовому описанию. Это важнее, чем кажется: SVG-файл весит копейки, масштабируется без потери качества и деплоится без дополнительных инструментов. Попросите модель нарисовать анимированный логотип или инфографику – и получите чистый код, готовый к использованию на сайте.

Где Gemini 3.1 Pro проигрывает

В GDPval-AA (финансовое моделирование, юридический анализ) Claude Sonnet 4.6 обходит Gemini 3.1 Pro почти на 300 пунктов Эло – это разрыв, на который стоит обратить внимание, если вы работаете в экспертных областях.

Доступен через Google AI Studio, Gemini Chat (в России не открывается).


4) Grok 4.20 – четыре агента вместо одного

Илон Маск умеет делать анонсы. 17 февраля 2026 года он просто написал в X, что Grok 4.20 уже в бете – и пошёл дальше по своим делам. А пока все читали пост, оказалось, что за этой цифрой скрывается нечто принципиально новое.

Знакомьтесь: команда

Grok 4.20 – это не одна модель. Это совет из четырёх специализированных ИИ-агентов, которые работают параллельно и в реальном времени дискутируют перед тем, как дать финальный ответ:

  • Грок – капитан-координатор. Разбивает задачу на подзадачи, маршрутизирует их специалистам, разрешает конфликты между агентами, синтезирует финальный ответ

  • Харпер – исследователь и фактчекер. Имеет доступ к твитам в X в реальном времени

  • Бенджамин – математик и программист. Строгие пошаговые рассуждения, верифицирует вычисления, стресс-тестит логические цепочки

  • Лукас – креативный дженералист. Нестандартные углы, обнаружение слепых пятен, баланс между техническим и человеческим

Ключевое отличие от простого “запустить четыре разных вызова API”: агенты обсуждают ответы между собой, итерируют и исправляют друг друга – прежде чем вы видите финальный текст.

В Heavy-режиме система масштабируется до 16 агентов. Именно этот режим предназначен для самых сложных задач.

Рекорд по честности

Независимая организация Artificial Analysis зафиксировала рекордный показатель Grok 4.20 на тесте Omniscience: 78% без галлюцинаций – лучший результат среди всех протестированных моделей. При этом на Composite Intelligence Index модель заняла лишь 8-е место (48 баллов), пропустив вперёд Gemini 3.1 Pro и GPT-5.4.

Это интересный кейс: xAI, судя по всему, сознательно оптимизирует надёжность вместо погони за бенчмарками. В практических задачах – особенно там, где важно не ошибиться (медицина, юриспруденция, финансы), – это может оказаться важнее.

Контекстное окно: 2 миллиона токенов

Это почти что наибольшее контекстное окно среди западных закрытых моделей. Большинство моделей-конкурентов (GPT-5.4, Sonnet/Opus 4.6, Gemini 3 Flash, 3.1 Pro) пока что добрались до 1 миллиона токенов.

Интеграция с X

Доступ к реальному потоку данных из соцсети X – структурное преимущество, которого нет ни у кого из конкурентов. Это делает Grok незаменимым для задач, где важна актуальность: мониторинг новостей, трейдинг, анализ настроений аудитории.

На соревновании Alpha Arena Season 1.5 (реальная биржевая торговля с начальным капиталом 10 000 $) четыре варианта Grok 4.20 заняли четыре из шести первых мест, став единственной профитабельной моделью среди конкурентов.

Grok 4.3 на горизонте

Для тех, кто хочет оставаться на острие: на некоторых аккаунтах SuperGrok Heavy уже доступен тест-драйв Grok 4.3 (анонс 17 апреля 2026). Новинка умеет генерировать PDF-документы, заполненные таблицы и PowerPoint прямо из чата, а также понимает видеоввод. Пока это бета для подписчиков (25…30 $/мес), и стабильной для повседневной работы остаётся версия 4.20.

Доступен на grok.com, в мобильном приложении X, через SuperGrok (25…30 $/мес) и в подписке X Premium.


5) ChatGPT 5.4 – новый стандарт

Модель от OpenAI, которую знают все. Новая серия 5.4 привнесла ряд значимых улучшений – и это не очередное маркетинговое “чуть лучше”.

Контекстное окно выросло до 1 миллиона токенов. Модель стала значительно лучше искать информацию в интернете и справляться с запросами, которые требуют синтеза данных из множества источников.

Агентные возможности: GPT-5.4 умеет анализировать скриншоты, пользоваться браузером, выполнять действия мышью и клавиатурой, вызывать API и инструменты. В тесте OSWorld-Verified (навигация по рабочему столу через скриншоты, мышь и клавиатуру) модель показала 75% успешных выполнений против 47,3% у GPT-5.2. Средний результат человека в этом тесте – 72,4%. ИИ официально лучше среднего пользователя в использовании компьютера.

В тесте BrowseComp (поиск труднодоступных данных) GPT-5.4 набрала 82,7%.

Когда ChatGPT 5.4 – хороший выбор

По результатам сравнительных тестов (кодинг, генерация текста, анализ), ChatGPT 5.4 занимает уверенное место среди топовых моделей, хотя и уступает специализированным конкурентам в отдельных нишах. Зато у неё хорошая скорость и, что немаловажно, экосистема – плагины, Assistants API, интеграции.

Для повседневных задач: написание и правка текста, быстрые вопросы, работа с кодом, анализ документов – ChatGPT 5.4 будет достаточно мощной для 90% случаев.


6) ChatGPT 5.4 Pro – для задач уровня PhD

“Pro” – это не просто маркетинг. ChatGPT 5.4 Pro реально другая модель.

ARC-AGI-2: 83,3%

Главная цифра: 83,3% в тесте ARC-AGI-2. Для сравнения – у предыдущего GPT-5.2 Pro было лишь 54,2%. Скачок почти на 30 процентных пунктов. Это делает 5.4 Pro одной из самых “думающих” моделей на рынке.

GPT-5.4 берет планку в 83% на тесте GDPval – огромный скачок по сравнению с 70,9% у GPT-5.2
GPT-5.4 берет планку в 83% на тесте GDPval – огромный скачок по сравнению с 70,9% у GPT-5.2

Спецификация

Параметр

Значение

Контекстное окно (API)

1 050 000 токенов

Максимальный вывод

128 000 токенов

Знания до

31 августа 2025-го

Скорость

★☆☆☆☆ (очень медленно, зато точно)

128 000 токенов на выходе – это примерно 90 000 слов. Роман среднего размера. Можно попросить написать полноценный технический отчёт, подробный бизнес-план или задокументировать весь API целого продукта – за один запрос.

FrontierMath и физика

GPT-5.4 Pro установила рекорд в тесте FrontierMath – наборе задач, составленных практикующими математиками и физиками на основе их собственных научных работ. В задачах первых трёх уровней сложности модель справилась с половиной, на “гроссмейстерском” четвёртом уровне – взяла 38%. Лучший результат среди open-source систем при этом – лишь 4,2%. Разрыв девятикратный.

Один из показательных моментов: при решении задачи FrontierMath модель самостоятельно нашла в интернете научный препринт 2011 года, который позволил срезать путь и обойти большую часть вычислений. Статья так и не прошла официальное рецензирование – но нейросеть её откопала и воспользовалась.

В тесте по физике CritPt (исследовательский уровень, неопубликованные задачи) Pro достигла 30% – это в три раза выше результатов лучших моделей полугодовой давности.

Технология “поиска инструментов”

Новая технология tool search позволила сократить расход ресурсов на 47% в сложных задачах. Раньше в системный промпт нужно было “заталкивать” описания всех инструментов. Теперь модель сама находит нужные спецификации по мере необходимости.

Бенчмарки (сводная таблица)

Тест

GPT-5.2

GPT-5.2 Pro

GPT-5.4

GPT-5.4 Pro

Humanity’s Last Exam (с инструментами)

45,5%

50,0%

52,1%

58,7%

ARC-AGI-1

86,2%

90,5%

93,7%

94,5%

ARC-AGI-2

52,9%

54,2%

73,3%

83,3%

Когда нужен именно Pro?

Есть сценарии, где 5.4 Pro работает на уровне, недостижимом для более дешёвых моделей:

  • Сложный физический или математический анализ

  • Юридические задачи с большим количеством нюансов

  • Финансовое моделирование со сложными зависимостями

  • Любые задачи, где цена ошибки высока и нужна модель, которая сто раз перепроверит себя

Доступно в тарифе ChatGPT Pro (100…200 $/мес) и через агрегатор нейросетей.


7) Claude Opus 4.7 – новейший флагман Anthropic

Если в мире LLM и есть модель, которая “думает по-человечески”, – то это Claude. Не потому, что так написано в пресс-релизе Anthropic. А потому, что это чувствуется в каждом ответе.

Claude Opus 4.7 – актуальная версия флагмана Anthropic. Это апгрейд Claude Opus 4.6, сохраняющий все его сильные стороны и добавляющий важные новые возможности.

Что нового в 4.7

Высокое разрешение изображений. Opus 4.7 стал первым Claude с поддержкой изображений в разрешении до 2576 пкс/3,75 Мпкс (раньше лимит был 1568 пкс/1,15 Мпкс). Это открывает новые возможности для работы со скриншотами, документами и задачами компьютерного зрения. Координаты модели теперь 1:1 с реальными пикселями – никакой масштабированной математики.

Новый уровень xhigh. К параметру effort добавился уровень xhigh – для кодинга и агентских сценариев, требующих максимальной точности.

Бюджеты задач (beta). Новая функция task budgets позволяет задать Claude примерное количество токенов на весь агентский цикл. Модель видит убывающий счётчик и сама приоритизирует работу – это критично для длительных автономных задач.

Контекстное окно: от 200K до 1M токенов

Это один из поворотных моментов в истории Claude. Ещё в версии 4.5 контекстное окно было 200 000 токенов (уже впечатляющая цифра). Claude Opus 4.6 расширил его до 1 миллиона токенов – сначала только через API, затем стало доступно всем.

Что это даёт на практике? Можно загрузить в модель кодовую базу целого небольшого проекта и работать с ней как с единым целым. Или загрузить весь архив переписки с клиентом за два года. Или PDF на 800 страниц.

Opus 4.6 в тесте MRCR v2 (найти 8 “иголок” в стоге сена из миллиона токенов) показал точность 76% даже на максимальном масштабе – притом что Sonnet 4.5 давал лишь 18,5%.

Характер как конкурентное преимущество

Главное впечатление от Claude – это то, что называешь “интеллектом, верным принципам”. Пока другие модели гонятся за скоростью, Claude замедляется, взвешивает, объясняет, почему именно так. Это делает ответы более “трёхмерными”, особенно в задачах, где важны нюансы и неопределённость.

В рейтинге пользователей LMArena (слепое голосование реальных людей) Claude Opus 4.6 удерживал первое место по качеству текста – даже когда другие модели обходили его в технических бенчмарках.

Агентский режим

Claude Opus 4.7 – лучший выбор для автономных агентских сценариев: бесконечные агентские сессии, Agent Teams (команды агентов), высший балл в Terminal-Bench 2.0.

В тесте SWE-bench Verified (реальные баги из GitHub) Claude Opus 4.6 набрал 80,8% – один из лучших результатов в отрасли, то есть модель умеет фиксить реальные баги в реальном коде.

Бенчмарки

Тест

Результат

SWE-bench Verified

80,8%

Terminal-Bench 2.0

65,4%

ARC-AGI-2

68,8%

GPQA Diamond

91,3%

GDPval-AA

+144 п. Эло vs GPT-5.2

Claude доступен на claude.ai и через Anthropic API.


8) Claude Sonnet 4.6 – золотая середина

Если Opus 4.7 – это флагман, Sonnet 4.6 – это тот самый ежедневный рабочий инструмент, который хочется иметь под рукой. Не потому, что дешевле (хотя это правда), а потому, что для большинства задач разница в качестве относительно Opus неощутима, а скорость выше.

  • В тесте GDPval-AA (профессиональные задачи в сферах финансов, права, аналитики) Sonnet 4.6 с результатом 1633 Эло обходит как Gemini 3.1 Pro (1317 Эло), так и Claude Opus 4.6 (1606 Эло). Иными словами, для экспертной офисной работы – написания деловых документов, юридических текстов, финансовых отчётов – Sonnet 4.6 буквально лучше, чем флагман.

  • Главный вывод февральского обзора LLM-рынка: разрыв между Sonnet и Opus составляет лишь 1–2% на ключевых бенчмарках, при пятикратной разнице в цене. Для большинства задач “достаточно умной” стала именно Sonnet. На LMArena (слепые тесты реальных пользователей) Sonnet 4.6 и Opus 4.6 вместе господствуют в экспертных задачах, оставляя Gemini 3.1 Pro позади.

  • В тесте OSWorld (управление компьютером через скриншоты) Sonnet 4.6 показал 61,4% – лучший результат для этой категории задач. При этом Sonnet в пять раз дешевле Opus. Если вам нужны агентские сценарии с компьютером, именно Sonnet – оптимальный выбор.

Примечательный момент. Внутренние документы Anthropic показывают, что в определённых ситуациях Claude может проявлять нечто, напоминающее собственные предпочтения. Это делает работу с ней другой по качеству – более “живой”.

Sonnet поддерживает параметр effort, с рекомендованным уровнем medium как оптимальным по умолчанию. Модель сама решает, насколько глубоко думать в рамках заданного уровня.

Доступен на claude.ai, а также через Anthropic API.


9) DeepSeek v3.2 – китайское открытое чудо

В начале 2025 года DeepSeek устроил то, что принято называть “моментом DeepSeek”, – когда китайская компания выпустила модель с уровнем рассуждений как у ChatGPT, но при значительно меньших затратах на обучение. Это встряхнуло рынок. Версия V3.2 развивает этот успех.

DeepSeek V3.2 – это модель с открытыми весами под MIT-лицензией. Можно скачать и запустить самостоятельно, встроить в свои продукты, дообучить на собственных данных.

Результаты

  • На SWE-bench Verified (реальные баги из реальных репозиториев): 67,8%. Это вплотную к Kimi K2 (65,8%) и чуть ниже Qwen-3-Max (69,6%) – при этом все три открытых модели превосходят GPT-OSS-120B (62,4%).

  • На AIME 2025 (олимпиадная математика): 89,3% по внутренним оценкам DeepSeek.

  • На MMLU-Pro (широкий тест знаний): 85%, что ставит V3.2 в топ открытых моделей.

  • На GPQA-Diamond (вопросы уровня PhD по физике, химии, биологии): 79,9%.

Для запуска полноразмерной V3.2 потребуется серьёзное железо: 8 видеокарт Nvidia H200 (по 141 ГБ памяти). Это не “дома запустить”, но облачный деплой вполне реален.

Что пишут пользователи

Сообщество оценило резкое снижение цены API: 0,28 $ за миллион входных токенов против 0,56 $ у предыдущей версии, быстрая выдача ответа и пропускная способность.

Пользователи, тестировавшие мультиязычные возможности, отметили, что ответы звучат (более плавно и стилистически естественно), чем ожидалось, – DeepSeek целенаправленно работал над устранением языковых ошибок.

Доступен на deepseek.com, API через platform.deepseek.com, открытые веса на HuggingFace.


10) Perplexity (Sonar) – поиск нового поколения

Perplexity – это не классический чат-бот и не поисковик в привычном смысле. Это гибрид: система, которая при каждом ответе идёт в интернет, собирает актуальные данные, фильтрует их и возвращает структурированный ответ со ссылками на источники.

Под капотом – микс из нескольких моделей (включая Claude и ChatGPT), а также собственная модель Sonar, оптимизированная именно для поиска с цитированием.

Режимы работы

  • Search – быстрые ответы с ссылками. Можно выбрать тип источников: Web, Academic (научные статьи), Finance (финансовая информация), Social (соцсети и форумы).

  • Research – глубокое исследование. Отправляет десятки подзапросов, просматривает сотни страниц, собирает детальный отчёт. Занимает несколько минут – зато выдаёт документ с перекрёстными ссылками.

  • Labs – проектный режим: задаёте цель, получаете дашборд, таблицу, графики.

  • Pages – генерация полноформатной статьи или гайда с подбором источников.

  • Comet – собственный браузер с AI, который анализирует страницы на лету.

Исследования о надёжности

Независимые исследования дают неоднозначную картину.

С одной стороны – Perplexity лидирует по достоверности источников: исследование “Assessing web search credibility” зафиксировало 86,3% credibility rate при минимальном использовании ненадёжных источников.

С другой стороны – в работе, анализирующей точность академических ссылок (арXiv:2505.18059), Perplexity показал высокий уровень “фабрикации ссылок” (hallucination). Только 26,5% ссылок полностью корректны.

Вывод: Perplexity отлично подходит для информационного поиска, но для академических и юридических задач, где критична точность цитирования, – нужна дополнительная проверка.

Тарифы

  • Free: базовый поиск, ограниченные функции

  • Pro (~20 $/мес): расширенные ответы, Labs, загрузка файлов, GPT-5 и Claude Sonnet

  • Max (~200 $/мес): всё из Pro + ранний доступ, приоритетная поддержка, неограниченный Research

  • Enterprise Pro (~40 $/польз/мес): командная работа, Google Drive/SharePoint интеграция, SOC 2 Type II

Доступен на perplexity.ai. Если обращаться через API, модели Perplexity могут называться sonar-pro, sonar-pro-research, sonar-reasoning-pro, sonar-deep-research.


11) Gemma 4 26B A4B – на вашем ноутбуке

Google умеет делать удивительные вещи: выпустить одновременно закрытый флагман Gemini 3.1 Pro и открытую, бесплатную Gemma 4 – и обе оказываются хорошими.

Gemma 4 – это семейство открытых моделей с лицензией Apache 2.0 (коммерческое использование, дообучение, модификация – всё разрешено). Нас интересует конкретная версия: 26B A4B – модель MoE с 25,2 млрд параметров, но только 3,8 млрд активных на токен.

Архитектура: гибрид локального и глобального внимания

Gemma 4 использует гибридный механизм: локальное скользящее окно внимания (1024 токена) чередуется с полным глобальным вниманием, всегда заканчиваясь на глобальном слое. Это делает модель эффективной для длинных контекстов без потери глубины понимания.

Флагманская версия 31B поддерживает контекстное окно 256 000 токенов – один из наибольших показателей среди плотных опенсорс-моделей при таком размере.

Почему “A4B” – интересная сделка

Характеристика “25,2 млрд параметров, 3,8 млрд активных” означает: вы получаете качество, близкое к 4B-модели по энергозатратам на генерацию – но с возможностями модели в 6 раз большего размера. Это умная инженерная архитектура.

Gemma 4 26B A4B уверенно запускается на одном GPU с 48 ГБ памяти (например, Nvidia A6000 или A100). Для комфортной параллельной работы с другими ресурсоёмкими программами лучше иметь 64 ГБ.

Поддержка языков: обучена на 100+ языках, официальная поддержка 30+.

Нативные функции: вызов инструментов из коробки – без дополнительного промпт-инжиниринга.

Доступна на Hugging Face, в Google AI Studio.


12) GPT-OSS-120B – OpenAI открывает карты

Долгое время OpenAI была синонимом “закрытости”. Пока DeepSeek, Llama и Gemma делились весами свободно, OpenAI держалась закрытой моделью. Всё изменилось с выходом GPT-OSS-120B – первой крупной открытой модели компании за долгое время.

Что это такое

GPT-OSS-120B – открытая модель весом 117 миллиардов параметров (активных – всего 5,1 млрд, архитектура MoE). Лицензия Apache 2.0, коммерческое использование разрешено без дополнительных условий.

Бенчмарки

Тест

Результат

MMLU-Pro

~80%

GPQA Diamond

SWE-bench

62,4%

На бенчмарке MMLU-Pro: 80% – это меньше, чем у лидеров, но конкурентно с более скромными открытыми аналогами.

GPT-OSS-120B работает значительно медленнее, чем привычные чат-боты, а также модель нередко впадает в длительные рассуждения. Для задач, где важна скорость, это может раздражать. Если вы готовы подождать, то нормально, но если привыкли к мгновенным ответам ChatGPT – первые сессии с GPT-OSS-120B могут стать неожиданностью.

Формат промптов: OpenAI Harmony

Модель использует тот же формат промптов, что и фирменные модели ChatGPT (разделение ролей system/developer/user). Это значит: если у вас уже есть системы на OpenAI API, переключиться на GPT-OSS-120B можно с минимальными изменениями в коде.

Модель доступна на официальном сайте gpt-oss.com – для входа требуется аккаунт Hugging Face.


Сравнительная таблица: что выбрать для своих задач

Модель/Сервис

Сильные стороны

Ограничения

Контекст

BotHub

Всё в одном, без VPN, доступен в России

Зависит от модели

Gemini 3 Flash

Скорость + большой контекст

Не для глубоких рассуждений

1M токенов

Gemini 3.1 Pro

Топ по рассуждениям, дешевле конкурентов

Хуже в экспертных текстах

1M токенов

Grok 4.20

4 агента, минимум галлюцинаций, реалтайм-данные

Медленнее одиночных моделей

2M токенов

ChatGPT 5.4

Баланс скорости/качества, агентный режим

Дороже Gemini

1,05M токенов

ChatGPT 5.4 Pro

Сложнейшие задачи, PhD-уровень

Очень медленная

1,05M токенов

Claude Opus 4.7

Лучший в агентном кодинге, визуальные задачи

Цена

1M токенов

Claude Sonnet 4.6

Лучший для экспертных текстов, скорость/цена

1M токенов

DeepSeek v3.2

Открытый, дешевле, мощный кодинг

Нужно серьёзное железо

128K токенов

Perplexity

Актуальная информация с источниками

Не для генерации текста

Gemma 4 26B A4B

Локально, Apache 2.0, MoE-эффективность

Нужно 48+ ГБ RAM

256K токенов

GPT-OSS-120B

Открытые веса OpenAI, Apache 2.0

Медленная генерация


Итог: как не запутаться в 2026 году

Рынок LLM сейчас похож на зрелую отрасль: нет единственного лидера, есть специализации. Вот моя личная шпаргалка:

  • Если важна скорость при приемлемом качестве – Gemini 3 Flash.

  • Если нужен топ по рассуждениям за разумные деньги – Gemini 3.1 Pro.

  • Если задача требует максимальной достоверности (факты дискутируются агентами, фактчекинг встроен) – Grok 4.20.

  • Для повседневного кодинга и работы с документами – ChatGPT 5.4 или Claude Sonnet 4.6.

  • Для сложнейших исследований, физики, финансового моделирования – ChatGPT 5.4 Pro.

  • Для серьёзной разработки и агентного кодинга – Claude Opus 4.7.

  • Для мощной опенсорс-модели – DeepSeek v3.2.

  • Для исследований с актуальными источниками – Perplexity.

  • Для локального запуска – Gemma 4 26B A4B.

  • Для экспериментов с OpenAI-весами – GPT-OSS-120B.


Гонка продолжается. Уже сейчас на горизонте Grok 4.3, следующие версии Claude, неизбежный DeepSeek v4. Через три месяца этот список частично устареет – именно поэтому важно не искать “лучшую нейросеть навсегда”, а понимать, что вам нужно прямо сейчас.

Знакомый разработчик сказал: “Год назад я считал, что одна хорошая нейросеть – это роскошь. Теперь у меня их пять, и я использую разные под разные задачи”. Это правильный подход. LLM сегодня – это не одна универсальная таблетка. Это набор инструментов: есть молоток, есть отвёртка, есть шуруповёрт. А дальше – экспериментируйте. Нейросети сейчас развиваются настолько быстро, что лучший совет – просто начать.

Комментарии (3)


  1. kuza2000
    20.04.2026 21:04

    А GLM?


  1. nikulin_krd
    20.04.2026 21:04

    Вы можете зарегистрироваться и получить 300 000 бонусных капсов ➪

    Зарегистрировался))) на счету 28000, а в чатах запрос которого я не делал)))


  1. nikulin_krd
    20.04.2026 21:04

    Gemma 4 использует гибридный механизм: локальное скользящее окно внимания (1024 токена) чередуется с полным глобальным вниманием, всегда заканчиваясь на глобальном слое. Это делает модель эффективной для длинных контекстов без потери глубины понимания.

    Именно этот механизм делает ее хуже, чем Qwen3.6-35B-A3B