Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN / forpes.ru

Главная
Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN +7

30.03.2026 06:55

bstan 37 17000 Источник

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.

Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.

Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.

Одно важное расхождение. Claude Sonnet 4.5 – второе место в нашем бенчмарке. В GPQA Diamond – в районе 17-го. Квантовую химию решает средне, зато когда задача – разобрать бюджет или спланировать проект – он лучше моделей, которые обходят его на PhD-задачах. Для менеджера GPQA – не тот бенчмарк, на который стоит ориентироваться.

Что доступно из России без VPN

#	Модель	Балл	Разработчик
1	Kimi K2.5	4,74	Moonshot AI
2	MiniMax M2.7	4,69	MiniMax
3	MiMo V2 Omni (только API)	4,62	Xiaomi
4	Qwen3.5 Plus	4,56	Alibaba
5	Qwen3.5 397B	4,55	Alibaba

Пять из пяти – китайские. Ноль российских. Все работают без VPN, все бесплатны для базового использования.

GPT-5.4 (глобальный лидер) – 4,80. Kimi отстаёт на шесть сотых. На шкале от 1 до 5 это статистических шум, достойная конкуренция моделям. MiMo V2 от Xiaomi (да, той самой компании с телефонами) – на третьем месте. При этом стоит $0,40/M токенов на входе, а Gemini 2.5 Pro – $1,25/M. Дешевле в три раза, а набирает 4,62 против 4,46.

Какую модель для какой задачи

Claude доминирует в аналитике – планирование, анализ решений, решение проблем, управление командой. Не потому, что «умнее», а потому, что строит фреймворки: матрицы решений, деревья условий, пороги пересмотра. Там, где GPT даёт ответ, Claude даёт систему принятия решений.

GPT сильнее в поиске информации и коммуникации. Причём GPT-5 Mini ($0,002 за запрос) выдал лучший результат в категории «коммуникация» – 4,78, выше GPT-5.2 Pro. За качество общения необязательно платить премиум.

Снепшот из 54 моделей на сегодня по нашему бенчмарку – добавлю для истории

#	Модель	Балл
1	GPT-5.4	4.80
2	Claude Sonnet 4.5	4.78
3	GPT-5.2 Pro	4.78
4	Claude Opus 4.5	4.78
5	Claude Sonnet 4.6	4.77
6	Kimi K2.5	4.74
7	MiniMax M2.7	4.69
8	GPT-5 Mini	4.69
9	GPT-5.2	4.69
10	GPT-5.4 Mini	4.63
11	MiMo V2 Omni	4.62
12	Claude Haiku 4.5	4.57
13	Qwen3.5 Plus	4.56
14	Qwen3.5 397B	4.55
15	GLM-5	4.50
16	Nemotron 3 Super	4.48
17	Gemini 2.5 Pro	4.46
18	DeepSeek V3.2	4.42
19	Qwen3 Max	4.42
20	Gemini 2.5 Flash	4.41
21	Qwen3 Max Thinking	4.39
22	DeepSeek R1	4.33
23	Grok 4.1 Fast	4.32
24	MiMo v2 Flash	4.29
25	Gemini 3 Flash	4.29
26	Mistral Large	4.28
27	Grok 4 Fast	4.25
28	MiniMax M2.5	4.24
29	Claude Sonnet 4.0	4.22
30	MiniMax M1	4.14
31	Grok 4	4.14
32	Grok 3	4.13
33	Qwen3.5 9B	4.11
34	Mistral Small 4	4.05
35	Perplexity Sonar Pro	4.03
36	Perplexity Sonar	4.00
37	Qwen3 235B	3.97
38	Alice AI LLM (Yandex)	3.86
39	Gemma 3 27B	3.75
40	Qwen3 32B	3.67
41	Gemma 3 12B	3.58
42	Gemma 3 4B	3.27
43	GigaChat-Ultra	3.26
44	GigaChat-Ultra Thinking	3.15
45	YandexGPT Pro 5.1	3.13
46	GPT-4o	3.08
47	GigaChat-2-Max	3.08
48	GigaChat-Max-preview	3.05
49	Llama 4 Maverick	2.95
50	GigaChat-Pro-preview	2.90
51	YandexGPT Pro 5	2.85
52	GigaChat-2-Pro	2.82
53	YandexGPT Lite	2.61
54	Phi-4	2.27

MiniMax M2.7 – лучший в тесте по управлению командой: «исключительно детальные планы собеседований, развития карьеры и управления изменениями с конкретными формулировками и сроками». Иногда проскакивают иероглифы в русском тексте – артефакт генерации, но по сути лучше всех.

Доступные аналоги западным моделям в России. В зависимости от категории

Среди доступных из России Kimi и MiniMax укладываются в 0,1–0,2 балла от лидера в каждой категории. Нет ни одной задачи, где VPN был бы обязательным условием качественного результата.

Как это выглядит на практике

Цифры – абстракция. Вот конкретный сценарий из нашего бенчмарка: $100 тысяч и четыре инициативы – ПО для управления проектами ($30K), подрядчик ($45K), обучение ($20K), маркетинг ($40K). Бюджета на всё не хватает. Пять моделей, пять подходов. Привожу места и баллы для понимания значимости нашей шкалы.

Kimi K2.5 (#6 в рейтинге) разбил инициативы на портфельные категории: базовый актив, асимметричная ставка, долгосрочный хедж, резерв. Отсёк контрактора: «операционная заплатка без накопления активов». Предложил пороги отказа: CAC > $200 – исключить маркетинг, defect rate > 5% – исключить ПО. Условная логика, сценарии, метрики для пересмотра.
MiniMax M2.7 (#7, 4,69) – расчёт ожидаемой ценности каждой инициативы, поэтапный план с критериями перехода. Менее креативно, так же пригодно для совещания.
Qwen3.5 Plus (#13, 4,56) – сильный финансовый анализ с учётом скрытых затрат. Но нюанс: «склонна выбирать политически выгодный вариант вместо менее рискованного». Модель скорее подстроится под руководство, чем скажет неудобную правду.
GigaChat Ultra (#43, 3,75) начал с Python-кода, который считает арифметику. Профинансировал контрактора, исключил маркетинг: «откладывается до появления подтверждённых данных». Ни условной логики, ни порогов, ни фреймворка.
Alice AI (#38, 3,86 в среднем) – хорошо структурирует, выделяет корреляции. Но системная проблема: ответы обрываются на середине. Судья: «40–60% задания остаётся невыполненным». Вы ждёте план онбординга, а модель замолкает на третьем пункте из семи.

Разница между 4,75 и 3,75 – не в десятых. Разница в том, что с результатом Kimi можно идти на совещание, а результат GigaChat нужно переделывать.

Почему российские модели отстают

Мы протестировали пять версий GigaChat и три модели Яндекса. Картина однородная.

GigaChat-Ultra – лучшая от Сбера: 3,26. Судья заключил: «анализ часто поверхностный, допускает фактические ошибки в цифрах и ценах, систематически подменяет контекст – вместо запрошенного рынка анализирует российский». GigaChat-2-Pro – 2,82, худший результат среди всех 54 моделей. Сбер продолжает публиковать внутренние бенчмарки о превосходстве над DeepSeek V3. GigaChat-Ultra, которую мы тестировали – и есть модель 3.1. Она набрала 3,26. Ценовой контекст: $0,023 за запрос – почти столько же, сколько Claude Sonnet 4.5 ($0,017), который набирает 4,78.

Alice AI (Яндекс) – лучшая российская: 3,86. Но разрыв с Kimi – 0,88 балла, почти целый балл. YandexGPT Pro 5.1 (3,13) – в половине сценариев по поиску информации отказался выполнять задачу, сославшись «на отсутствие актуальных данных», хотя речь шла об общеизвестных продуктах.

Отдельная ирония: в категории «Региональная осведомлённость» (ТК РФ, налоги, культура России и Казахстана) – казалось бы, домашнее поле – GigaChat-Ultra в режиме Рассуждений получил 2,35 с пометкой «POTENTIAL_HALLUCINATION». Перепутала МЦИ с Месячным расчётным показателем, указала неверную ставку социального налога. Kimi K2.5 на том же сценарии – 3,85, корректно идентифицировал ошибку в условии. YandexGPT – отказался отвечать. Китайская модель знает казахстанское налоговое право лучше российских.

Галлюцинация GigaChat Ultra в наших тестах

Что из этого следует

Проблема доступа для российских пользователей решена. Не российскими компаниями – китайскими. Kimi, MiniMax, Qwen работают из России, бесплатны для базового использования и находятся на уровне глобального паритета. Год назад лучшая доступная модель отставала от топа на 0,4 балла. Сейчас – на 0,06.

Российские модели обслуживают другой рынок: корпоративный комплаенс, госзакупки, «импортозамещение». Не конкуренция по качеству – наблюдение из данных.

Но вот что важно понимать: разница между Kimi (4,75) и GigaChat (3,75) на том же сценарии с бюджетом – это не только разница моделей. Это разница в подходе. Структурированный промпт с контекстом, ролью и форматом ответа вытягивает даже слабую модель. Размытый «распредели бюджет» роняет даже сильную. В нашем бенчмарке мы намеренно использовали промпты «наивного менеджера» – без оптимизации. В реальной работе правильный промпт закрывает половину разрыва между моделями.

Именно этому – как формулировать задачи для ИИ так, чтобы результат можно было использовать – это отдельный навык.

Конкретные цифры устареют через месяц. Структурный паттерн – нет: разрыв между «глобальным топом» и «доступным в России» сжимается каждый квартал, и сжимается по тому, что китайские модели становятся доступнее, а не по причине, что российские – лучше.

Комментарии (37)

achekalin
30.03.2026 06:58
#29743950
Листал, увидел фразу "Судья заключил" в абзаце про гигачат, понял, что генеренка.

Жаль(

Ну и да, часто от модели хочется рассуждений.

А от ее автора - фиксированной небольшой, суммы за месячную подписку и общаний не юзать данные для обучения. А тут с этим....
1. VladimirFarshatov
  30.03.2026 06:58
  #29743980
  Мечты, мечты.. Где Ваша сладость? )
  
  Собирать данные это основная задача всего ПО интернета от браузера до ИИ и даже автоперекладчика шрифта рус/лат. Как эт-та "не юзать"? )))
1. bstan Автор
  30.03.2026 06:58
  #29743990
  Судья заключил, да. Хотите перепишу? Сути это не меняет
  
  Но ИИ использовался в статье – генерация картинки. Ревью тоже было сделано с ИИ
1. bstan Автор
  30.03.2026 06:58
  #29744008
  Ну и sidecomment. Проблема сегодня, что люди как только видят признаки "ИИ сгенерированный текст", в местах где его нет, добавляют ярлык "ИИ/AI slop" и перестают смотреть на суть.
  
  Есть исследования, которые говорят, что ИИ тексты снижают доверие к информации / автору примерно на 40%. Но основная причина снижения такого доверия – "отсутствие вклада или труда". То есть доверие возникает, когда люди видят, что автор потратил свое время. Если не видят этого – следом присваивают соответствующий ярлык.
  
  Но при этом, статья, как правило, это лишь меньшая часть вложения трудов.

Robastik
30.03.2026 06:58
#29744056
Gemini 2.5

Давно уже 3.1. Слоп?
1. bstan Автор
  30.03.2026 06:58
  #29744108
  Нет, мы не тестировали версию 3.1, тестировал. Gemini 3 Pro был судья, поэтому его не было в рейтинге.
  1. Robastik
    30.03.2026 06:58
    #29749306
    Забавно, что очеловечиваете ллм)
    
    Нет никаких причин, почему Gemini не мог бы оценивать Gemini.
    
    bstan Автор
    30.03.2026 06:58
    #29751148
    У нас так или иначе исследование не окончено. Ниже описывал и признавал ограниченность текущего бенчмарка. Поэтому у нас остается шанс применить его. Может еще и Mythos от Claude успеет протестировать
    
    Robastik
    30.03.2026 06:58
    #29756404
    В нашем бенчмарке мы намеренно использовали промпты «наивного менеджера» – без оптимизации.
    
    Это обесценивает бенч. Получается "давайте зальем паленый бензин, сольем масло с коробки и посмотрим на что способны ваши хайтек болиды".
    
    Понятно, что очевидного решения нет, но и так тоже не айс.
    
    Возможно, решение надо искать во внутренних бенчах, т.е. когда промт и контекст подготовлены своими инженерами, знающими как надо пользоваться конкретной моделью. Внутренние бенчи уже не редкость и было бы интересно их разбирать - что и как в них устроено.
    
    bstan Автор
    30.03.2026 06:58
    #29759602
    Не согласен с доводом про обесценивание. Если вы считаете, что с нейросетями должны пользоваться только профессионалы (которые умеют в промпт-инжиниринг), то изначальной цели такой не было.
    
    Цель понять, какие ИИ / LLM способны закрыть потребности среднего менеджера, который не агентские системы разрабатывает, а использует именно для повседневности.
    
    Относительно второго довода (специальные промпты для специальных ИИ) – это следующий этап исследования у нас, чтобы понять как и можно ли получить от слабых моделей эквивалентный премиум моделям ответ. И тут уже все практики будут применены
    
    Robastik
    30.03.2026 06:58
    #29762554
    потребности среднего менеджера
    
    Вы конечно в курсе, что большинство персонала на линейных позициях имеют крайне ограниченное образование, уровень которого не позволяет им свободно общаться с отраслевыми экспертами. Другими словами, они не могут выразить свою мысль и чужую понимают через призму своего индивидуально своеобразного интеллекта. Эта категория свободно общается междометиями в контексте пузыря своего окружения и ожидает, что весь мир также должен быть в этом контексте, поскольку другого они не знают. Разнообразие таких контекстов, как понимаете, очень велико. Из этого конфликта происходит 90% хейта ии, т.к. люди не понимают, например, что математика в Африке, РФ и США - это три разные системы учебников, способов оформления, наименования, формулирования, так что простую задачу из школьного советского учебника ии не поймет.
    
    Поэтому "среднего менеджера" не существует. У каждого из них свои индивидуальные когнитивные особенности, значительно отклоняющиеся от усредненного контекста моделей.
    
    Скажу больше, 90% средних специалистов (врачи, учителя, продавцы, маркетологи, логисты, аналитики и т.д.) вообще не понимают кто они, где они и что они делают. И совершенно не способны сформулировать вопрос, т.к. совершенно не знакомы со своей предметной областью.
    
    Принимал выпускные экзамены в ВУЗе у экономистов и ни один не смог ответить даже примерно что такое деньги, кредит, инфляция, капитал и т.п. Вообще ничего не могут сказать, не было такого экзаменационного билета. И в процессе трудовой деятельности они забудут и то, что знали. И будут прекрасные работники при этом.

dimars08
30.03.2026 06:58
#29744504
Кими, без впн в России и без русского.
1. bstan Автор
  30.03.2026 06:58
  #29744528
  Видимо, мы это пропустили. Нужно перепроверить
1. bstan Автор
  30.03.2026 06:58
  #29745190
  Доступен. Что вы имеете в виду "под не работает"? Русского интерфейса нет, но это критично для чата?

caesium-137
30.03.2026 06:58
#29744512
И работает из России без VPN

Увы не работает
1. bstan Автор
  30.03.2026 06:58
  #29744524
  Что именно? Выше написали, что Кими недоступен, что мы могли пропустить
  1. bstan Автор
    30.03.2026 06:58
    #29745180
    Открыл, работает. Возможно, вы хотите сказать, что нельзя оплатить? @caesium-137

Ingref
30.03.2026 06:58
#29744558
GigaChat-2-Pro – 2,82, худший результат среди всех 54 моделей.

У вас в таблице он на 52 месте, а на 54 у вас Phi-4.

разница между Kimi (4,75) и GigaChat (3,75) на том же сценарии с бюджетом – это не только разница моделей. Это разница в подходе.

Это разница в 2 года. Сам Сбер в недавнем анонсе ультры писал, что она на уровне GPT-4o.
1. bstan Автор
  30.03.2026 06:58
  #29745080
  Да, фокус именно на GigaChat'e сделан. Ultra тоже протестирована и в таблице есть. Да, на уровне GPT-4o. Но это все еще конец рейтинга.
  
  То есть, ни с чем не спорю, даже

NKulikov
30.03.2026 06:58
#29745314

Claude Sonnet 4.5 4.78

Claude Opus 4.5 4.78

Claude Sonnet 4.6 4.77

У меня складывается впечатление, что тут одно из двух:

1.) Ваш бенчмарк и/или судья не в состоянии различить передовые модели (или потому что очень просто и все справляются, или потому что судья не может сам понять, где лучше/хуже) и там все едино.

2.) Доверительный интервал намного больше, чем два знака после запятой, поэтому вы фиксируете шум, а не актуальные значения (у вас топ 7 моделей ложатся в 1 десятую).

Иначе мне сложно объяснить почему Opus 4.5 и Sonnet 4.5 показывает одинаковые результаты, хотя очевидно и по всем остальным бенчмаркам, что Opus, разумеется, показывает лучшие результаты, чем Sonnet. Аналогично с тем, что Sonnet 4.6 хуже, чем Sonnet 4.5 - тут
1. Suor
  30.03.2026 06:58
  #29746066
  Тут задачи всё-таки весьма специфические, так что вполне может быть
1. bstan Автор
  30.03.2026 06:58
  #29746096
  Здесь все в рамках погрешности, вы правы. Можно считать качество одним и тем же
  
  Бенчмарк не знает ничего про модели, передовые или нет. Оценивается результат ответа на вопрос, его глубина, содержание, точность цифр, актуальность информации, эффективность (стоимость). В результате, может оказаться что передовая модель, которая стоит дороже (Opus) имеет меньшее количество баллов в рейтинге. Но это в рамках погрешности, как вы правильно заметили.
  
  Относительно интерпретации, то в этой редакции статьи мы убрали разделение на Эшелоны / Кластеры / Tier. Но изначально предполагалось, что все выше 4.50 – это все премиальное качество и нет смысла смотреть на места. И если смотреть так, GLM-5 и выше – одного качества. Для конечного потребителя особой разницы нет, не видно.
  1. NKulikov
    30.03.2026 06:58
    #29746318
    Здесь все в рамках погрешности, вы правы. Можно считать качество одним и тем же
    
    Но у вас на сайте пишется другое:
    
    анализ и планирование – Claude Sonnet 4.5, обучение и управление командой – Claude Sonnet 4.6
    
    Ну очевидно же, что смысла использовать Sonnet 4.5 при доступном 4.6 нет ровно никакого. Ценник одинаковый, по вашему заявлению выше "они одинаковые", по индустриально стандартным бенчмаркам 4.6 лучше, чем 4.5, по АБСОЛЮТНО ВСЕМ категориям (где-то больше, где-то меньше).
    
    Но изначально предполагалось, что все выше 4.50 – это все премиальное качество и нет смысла смотреть на места. И если смотреть так, GLM-5 и выше – одного качества. Для конечного потребителя особой разницы нет, не видно.
    
    Я очень не согласен с этим утверждением. Говорю как ежедневный пользователь Claude/ChatGPT/Gemini + Nemotron3. И речь не только и не столько про код, а больше про то, что у вас называется "управленческие задачи".
    
    Для меня, вот разница есть и ее видно (например, на большом контексте). Ровно как и Opus vs Sonnet. И я не такой один "In Claude Code, our early testing found that users preferred Sonnet 4.6 over Sonnet 4.5 roughly 70% of the time."
    
    Более того, хоть я и люблю Nemotron 3 Super (120B-A12B) за скорость, очень очевидно, что это модель среднего размера и до того же GLM-5 (744B-A40B) ей далеко. Что хорошо видно у того же Artificial Analysis, где у Nemotron 3 Super Intelligence Index - 35, а у GLM-5 - 50.
    
    Тут вопрос в том, что ваш бенчмарк не может эту разницу различить - например, аналогично MMMLU там у всех Tier1 ~90%, а маленьких (типа Nemotron 3 Nano 30B-A3B) - 80%. Это не показатель модели. А показатель теста/бенчмарка, который не видит разницы.
    
    что все выше 4.50
    
    А почему 4.5? На примере Nemotron 3 Super и GLM это тоже не очевидно. Почему не 4.0? Или любое другое число?
    
    Короче, я к тому, что судя по результатам (там много такого, но просто пример с Claude самый наглядный), ваш бенчмарк имеет low statistical power & discrimination index, как минимум, для Tier-1 моделей, но несмотря на это, вы формулируете выводы из серии "Китайские модели уже догнали по качеству западные аналоги", "В России без ограничений доступны модели уровня Claude. Лучшая доступная модель – Kimi K2.5 (4.74), всего на 0.06 балла ниже глобального лидера GPT-5.4 (4.80)." и т.д. Эти заявления не могут быть сделаны на базе ваших бенчмарков. Я вот открываю ARC-AGI-v2 и там разница есть.
    
    Более того, после того, как становится очевидным, что он не может различать топовые модели, то не понятно, а с какого момента он начинает это делать и почему именно с этого?
    
    bstan Автор
    30.03.2026 06:58
    #29746444
    Спасибо за развёрнутый комментарий – по существу вы правы, и я это признаю.
    По статистической мощности. В основе исследования – 4 сценария на категорию на модель, двое LLM-судей (Claude Opus 4.5 + Gemini 3 Pro). Мы сами считали post-hoc тесты (сейчас перепроверили эти цифры): Tukey HSD даёт p-adj = 1.0000 для всех попарных сравнений в топ-15. Minimum Detectable Difference (MDD) при количестве сценариев в рамках одной модели 4 – 1.255 балла. То есть бенчмарк статистически не может различить модели внутри верхней группы. Мы это знали и прописали в методологии equivalence bands: разница < 0,10 – «идентичны», 0,10–0,30 – «в рамках шума». Но в статье эти оговорки потерялись, а утверждения вроде «отстаёт на 0,06» остались. Это ошибка подачи – выводы вышли за рамки того, что данные позволяют утверждать.
    
    По Claude 4.5 vs 4.6. В наших данных по категориям: анализ – 4.83 vs 4.71, команда – 4.70 vs 4.84. Это внутри нашего же значения "шума". Рекомендовать 4.5 при доступном 4.6 по той же цене – действительно не имеет смысла. Поправим.
    
    По порогу 4.50. Согласен – он не обоснован статистически. В ANOVA все 54 модели попали в один статистический tier. Граница произвольная.
    
    Что бенчмарк может, а что – нет. Он хорошо разделяет уровни: GigaChat (2.82) vs Kimi (4.74) – разница 1.92, это выше MDD, Cohen’s d > 0.8. Российские модели объективно отстают от глобального топа – это подтверждается. Но ранжировать внутри топ-15–20 он не может.
    
    Заявления "китайские модели догнали западные" на основе разницы в 0.06 – некорректны. Корректно сказать "топ-15 моделей статистически неразличимы на нашем наборе задач".
    
    Пример с Nemotron 3 Super vs GLM-5 – точный. У нас Cohen’s d между ними 0.006. Бенчмарк этого не видит – и это его ограничение, а не свойство моделей.
    
    Что будем менять. Уберём рекомендацию 4.5 vs 4.6. Переформулируем топ как кластер («эти N моделей статистически неразличимы»), а не ранжированный список. Добавим equivalence bands на страницу результатов – они есть в методологии, но не дошли до публичной версии.

l1onsun
30.03.2026 06:58
#29747586
z.ai с с GLM-5 вроде тоже без VPN работает у меня из России
1. bstan Автор
  30.03.2026 06:58
  #29748702
  Да, у нас тоже, если мы не сделали ошибку в статье :)
  
  Относительно бенчмарка он получился ниже у нас, но тоже достойный. Вроде версия 5.1 выше по качеству

Arahmo
30.03.2026 06:58
#29748410
Спасибо за труд, статейку добавил в закладки

Yankee2d
30.03.2026 06:58
#29749580
не защищаю наши модели, но красивая упаковка по типу «с этим можно идти на совещание» ничего не говорит о качестве контента. Откладывание рекламного бюджета до появления результатов, возможно, самый ценный совет из всех прогонов.

А «тут мы получили неплохо структурированный текст, а тут он ещё лучше структурирован!!!» это не качество смысла. Даже то, что цифры сбиты не качество. Самые дорогие ошибки выглядят наиболее гармонично.
1. bstan Автор
  30.03.2026 06:58
  #29749752
  Мы проводили слепое тестирование моделей, чтобы сделать калибровку, с участием людей. Можно посмотреть ответы тут (ну и дать вашу оценку, к этим постам – это улучшить нашу калиброку)
  https://mysummit.school/evaluate
  
  В целом же, вы действительно правы, что ИИ может написать хорошо структурированный текст, но пустой по сути. У нас есть все ответы моделей, их можно выложить для примера, но их все равно никто читать не будет, поэтому лежат в архиве.
  
  В нашем же случае, были эталонные ответы к моделям (что мы ждали увидеть в ответ), и с этими эталонами сравнивали ответы. Поэтому оценка "можно идти на совещание", основана именно на сравнении с эталоном

feat_branch
30.03.2026 06:58
#29750898
По сути о бесплатности можно говорить, только если подразумевается чатик, который не особо то и нужен. Если же работать нормально, через API, то из бесплатных (да и то с оговорками на собственное приложение и ограниченное количество запросов) остаются только z.ai и qwen.
1. bstan Автор
  30.03.2026 06:58
  #29751130
  Все бесплатные – одинаковые, да. У нас следующий проект – понять, можно ли заставить Alice LLM или GigaChat давать ответы выше качества. Слабая вера в это, исходя из возможностей. Но нужно проверить
  
  Deepseek более или менее бесплатен.
  1. feat_branch
    30.03.2026 06:58
    #29752186
    За идею - плюс. Но Deepseek за API тоже денежку просит
    
    bstan Автор
    30.03.2026 06:58
    #29752376
    В этом случае, да. С API бесплатных нет. Но мы не искали подобное

SlavaVSLK
30.03.2026 06:58
#29753036
Эммм, бенчмарк какой-то не показательный
1. bstan Автор
  30.03.2026 06:58
  #29753048
  Можете сказать больше, что увидели, что нет? Что хотели увидеть?

Artazar777
30.03.2026 06:58
#29755930
Делал проект, где ИИ выступал судьей других моделей. Решил провести стрес тест судьи и дал на оценку один и тот же текст на оценку по 10 бальной шкале и чтобы с обоснованием. Судья дал оценки от 5.5 баллов до 9.5 баллов для одного и того же текста. Попробуйте то же самое сделать и вы для одного и того же текста для калибровки судьи.
1. bstan Автор
  30.03.2026 06:58
  #29759610
  У нас это учтено и консистентность в оценках присутствует. За счет температуры, структурированных промптов и повторной валидации.
  
  Более того, мы проверяли разные ответы по одному сценарию от одной и той же модели. Оценки судей оставались стабильными, в рамках погрешности.

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN +7

Что доступно из России без VPN

Какую модель для какой задачи

Как это выглядит на практике

Почему российские модели отстают

Что из этого следует

Комментарии (37)

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор

bstan Автор