Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?
Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.
Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.
Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.
Одно важное расхождение. Claude Sonnet 4.5 – второе место в нашем бенчмарке. В GPQA Diamond – в районе 17-го. Квантовую химию решает средне, зато когда задача – разобрать бюджет или спланировать проект – он лучше моделей, которые обходят его на PhD-задачах. Для менеджера GPQA – не тот бенчмарк, на который стоит ориентироваться.
Что доступно из России без VPN
# |
Модель |
Балл |
Разработчик |
|---|---|---|---|
1 |
4,74 |
Moonshot AI |
|
2 |
4,69 |
MiniMax |
|
3 |
MiMo V2 Omni (только API) |
4,62 |
Xiaomi |
4 |
4,56 |
Alibaba |
|
5 |
4,55 |
Alibaba |
Пять из пяти – китайские. Ноль российских. Все работают без VPN, все бесплатны для базового использования.
GPT-5.4 (глобальный лидер) – 4,80. Kimi отстаёт на шесть сотых. На шкале от 1 до 5 это статистических шум, достойная конкуренция моделям. MiMo V2 от Xiaomi (да, той самой компании с телефонами) – на третьем месте. При этом стоит $0,40/M токенов на входе, а Gemini 2.5 Pro – $1,25/M. Дешевле в три раза, а набирает 4,62 против 4,46.
Какую модель для какой задачи
Claude доминирует в аналитике – планирование, анализ решений, решение проблем, управление командой. Не потому, что «умнее», а потому, что строит фреймворки: матрицы решений, деревья условий, пороги пересмотра. Там, где GPT даёт ответ, Claude даёт систему принятия решений.
GPT сильнее в поиске информации и коммуникации. Причём GPT-5 Mini ($0,002 за запрос) выдал лучший результат в категории «коммуникация» – 4,78, выше GPT-5.2 Pro. За качество общения необязательно платить премиум.
Снепшот из 54 моделей на сегодня по нашему бенчмарку – добавлю для истории
# |
Модель |
Балл |
|---|---|---|
1 |
GPT-5.4 |
4.80 |
2 |
Claude Sonnet 4.5 |
4.78 |
3 |
GPT-5.2 Pro |
4.78 |
4 |
Claude Opus 4.5 |
4.78 |
5 |
Claude Sonnet 4.6 |
4.77 |
6 |
Kimi K2.5 |
4.74 |
7 |
MiniMax M2.7 |
4.69 |
8 |
GPT-5 Mini |
4.69 |
9 |
GPT-5.2 |
4.69 |
10 |
GPT-5.4 Mini |
4.63 |
11 |
MiMo V2 Omni |
4.62 |
12 |
Claude Haiku 4.5 |
4.57 |
13 |
Qwen3.5 Plus |
4.56 |
14 |
Qwen3.5 397B |
4.55 |
15 |
GLM-5 |
4.50 |
16 |
Nemotron 3 Super |
4.48 |
17 |
Gemini 2.5 Pro |
4.46 |
18 |
DeepSeek V3.2 |
4.42 |
19 |
Qwen3 Max |
4.42 |
20 |
Gemini 2.5 Flash |
4.41 |
21 |
Qwen3 Max Thinking |
4.39 |
22 |
DeepSeek R1 |
4.33 |
23 |
Grok 4.1 Fast |
4.32 |
24 |
MiMo v2 Flash |
4.29 |
25 |
Gemini 3 Flash |
4.29 |
26 |
Mistral Large |
4.28 |
27 |
Grok 4 Fast |
4.25 |
28 |
MiniMax M2.5 |
4.24 |
29 |
Claude Sonnet 4.0 |
4.22 |
30 |
MiniMax M1 |
4.14 |
31 |
Grok 4 |
4.14 |
32 |
Grok 3 |
4.13 |
33 |
Qwen3.5 9B |
4.11 |
34 |
Mistral Small 4 |
4.05 |
35 |
Perplexity Sonar Pro |
4.03 |
36 |
Perplexity Sonar |
4.00 |
37 |
Qwen3 235B |
3.97 |
38 |
Alice AI LLM (Yandex) |
3.86 |
39 |
Gemma 3 27B |
3.75 |
40 |
Qwen3 32B |
3.67 |
41 |
Gemma 3 12B |
3.58 |
42 |
Gemma 3 4B |
3.27 |
43 |
GigaChat-Ultra |
3.26 |
44 |
GigaChat-Ultra Thinking |
3.15 |
45 |
YandexGPT Pro 5.1 |
3.13 |
46 |
GPT-4o |
3.08 |
47 |
GigaChat-2-Max |
3.08 |
48 |
GigaChat-Max-preview |
3.05 |
49 |
Llama 4 Maverick |
2.95 |
50 |
GigaChat-Pro-preview |
2.90 |
51 |
YandexGPT Pro 5 |
2.85 |
52 |
GigaChat-2-Pro |
2.82 |
53 |
YandexGPT Lite |
2.61 |
54 |
Phi-4 |
2.27 |
MiniMax M2.7 – лучший в тесте по управлению командой: «исключительно детальные планы собеседований, развития карьеры и управления изменениями с конкретными формулировками и сроками». Иногда проскакивают иероглифы в русском тексте – артефакт генерации, но по сути лучше всех.

Среди доступных из России Kimi и MiniMax укладываются в 0,1–0,2 балла от лидера в каждой категории. Нет ни одной задачи, где VPN был бы обязательным условием качественного результата.
Как это выглядит на практике
Цифры – абстракция. Вот конкретный сценарий из нашего бенчмарка: $100 тысяч и четыре инициативы – ПО для управления проектами ($30K), подрядчик ($45K), обучение ($20K), маркетинг ($40K). Бюджета на всё не хватает. Пять моделей, пять подходов. Привожу места и баллы для понимания значимости нашей шкалы.
Kimi K2.5 (#6 в рейтинге) разбил инициативы на портфельные категории: базовый актив, асимметричная ставка, долгосрочный хедж, резерв. Отсёк контрактора: «операционная заплатка без накопления активов». Предложил пороги отказа: CAC > $200 – исключить маркетинг, defect rate > 5% – исключить ПО. Условная логика, сценарии, метрики для пересмотра.
MiniMax M2.7 (#7, 4,69) – расчёт ожидаемой ценности каждой инициативы, поэтапный план с критериями перехода. Менее креативно, так же пригодно для совещания.
Qwen3.5 Plus (#13, 4,56) – сильный финансовый анализ с учётом скрытых затрат. Но нюанс: «склонна выбирать политически выгодный вариант вместо менее рискованного». Модель скорее подстроится под руководство, чем скажет неудобную правду.
GigaChat Ultra (#43, 3,75) начал с Python-кода, который считает арифметику. Профинансировал контрактора, исключил маркетинг: «откладывается до появления подтверждённых данных». Ни условной логики, ни порогов, ни фреймворка.
Alice AI (#38, 3,86 в среднем) – хорошо структурирует, выделяет корреляции. Но системная проблема: ответы обрываются на середине. Судья: «40–60% задания остаётся невыполненным». Вы ждёте план онбординга, а модель замолкает на третьем пункте из семи.
Разница между 4,75 и 3,75 – не в десятых. Разница в том, что с результатом Kimi можно идти на совещание, а результат GigaChat нужно переделывать.
Почему российские модели отстают
Мы протестировали пять версий GigaChat и три модели Яндекса. Картина однородная.
GigaChat-Ultra – лучшая от Сбера: 3,26. Судья заключил: «анализ часто поверхностный, допускает фактические ошибки в цифрах и ценах, систематически подменяет контекст – вместо запрошенного рынка анализирует российский». GigaChat-2-Pro – 2,82, худший результат среди всех 54 моделей. Сбер продолжает публиковать внутренние бенчмарки о превосходстве над DeepSeek V3. GigaChat-Ultra, которую мы тестировали – и есть модель 3.1. Она набрала 3,26. Ценовой контекст: $0,023 за запрос – почти столько же, сколько Claude Sonnet 4.5 ($0,017), который набирает 4,78.
Alice AI (Яндекс) – лучшая российская: 3,86. Но разрыв с Kimi – 0,88 балла, почти целый балл. YandexGPT Pro 5.1 (3,13) – в половине сценариев по поиску информации отказался выполнять задачу, сославшись «на отсутствие актуальных данных», хотя речь шла об общеизвестных продуктах.
Отдельная ирония: в категории «Региональная осведомлённость» (ТК РФ, налоги, культура России и Казахстана) – казалось бы, домашнее поле – GigaChat-Ultra в режиме Рассуждений получил 2,35 с пометкой «POTENTIAL_HALLUCINATION». Перепутала МЦИ с Месячным расчётным показателем, указала неверную ставку социального налога. Kimi K2.5 на том же сценарии – 3,85, корректно идентифицировал ошибку в условии. YandexGPT – отказался отвечать. Китайская модель знает казахстанское налоговое право лучше российских.

Что из этого следует
Проблема доступа для российских пользователей решена. Не российскими компаниями – китайскими. Kimi, MiniMax, Qwen работают из России, бесплатны для базового использования и находятся на уровне глобального паритета. Год назад лучшая доступная модель отставала от топа на 0,4 балла. Сейчас – на 0,06.
Российские модели обслуживают другой рынок: корпоративный комплаенс, госзакупки, «импортозамещение». Не конкуренция по качеству – наблюдение из данных.
Но вот что важно понимать: разница между Kimi (4,75) и GigaChat (3,75) на том же сценарии с бюджетом – это не только разница моделей. Это разница в подходе. Структурированный промпт с контекстом, ролью и форматом ответа вытягивает даже слабую модель. Размытый «распредели бюджет» роняет даже сильную. В нашем бенчмарке мы намеренно использовали промпты «наивного менеджера» – без оптимизации. В реальной работе правильный промпт закрывает половину разрыва между моделями.
Именно этому – как формулировать задачи для ИИ так, чтобы результат можно было использовать – это отдельный навык.
Конкретные цифры устареют через месяц. Структурный паттерн – нет: разрыв между «глобальным топом» и «доступным в России» сжимается каждый квартал, и сжимается по тому, что китайские модели становятся доступнее, а не по причине, что российские – лучше.
Комментарии (37)

Robastik
30.03.2026 06:58Gemini 2.5
Давно уже 3.1. Слоп?

bstan Автор
30.03.2026 06:58Нет, мы не тестировали версию 3.1, тестировал. Gemini 3 Pro был судья, поэтому его не было в рейтинге.

Robastik
30.03.2026 06:58Забавно, что очеловечиваете ллм)
Нет никаких причин, почему Gemini не мог бы оценивать Gemini.

bstan Автор
30.03.2026 06:58У нас так или иначе исследование не окончено. Ниже описывал и признавал ограниченность текущего бенчмарка. Поэтому у нас остается шанс применить его. Может еще и Mythos от Claude успеет протестировать

Robastik
30.03.2026 06:58В нашем бенчмарке мы намеренно использовали промпты «наивного менеджера» – без оптимизации.
Это обесценивает бенч. Получается "давайте зальем паленый бензин, сольем масло с коробки и посмотрим на что способны ваши хайтек болиды".
Понятно, что очевидного решения нет, но и так тоже не айс.
Возможно, решение надо искать во внутренних бенчах, т.е. когда промт и контекст подготовлены своими инженерами, знающими как надо пользоваться конкретной моделью. Внутренние бенчи уже не редкость и было бы интересно их разбирать - что и как в них устроено.

bstan Автор
30.03.2026 06:58Не согласен с доводом про обесценивание. Если вы считаете, что с нейросетями должны пользоваться только профессионалы (которые умеют в промпт-инжиниринг), то изначальной цели такой не было.
Цель понять, какие ИИ / LLM способны закрыть потребности среднего менеджера, который не агентские системы разрабатывает, а использует именно для повседневности.
Относительно второго довода (специальные промпты для специальных ИИ) – это следующий этап исследования у нас, чтобы понять как и можно ли получить от слабых моделей эквивалентный премиум моделям ответ. И тут уже все практики будут применены
Robastik
30.03.2026 06:58потребности среднего менеджера
Вы конечно в курсе, что большинство персонала на линейных позициях имеют крайне ограниченное образование, уровень которого не позволяет им свободно общаться с отраслевыми экспертами. Другими словами, они не могут выразить свою мысль и чужую понимают через призму своего индивидуально своеобразного интеллекта. Эта категория свободно общается междометиями в контексте пузыря своего окружения и ожидает, что весь мир также должен быть в этом контексте, поскольку другого они не знают. Разнообразие таких контекстов, как понимаете, очень велико. Из этого конфликта происходит 90% хейта ии, т.к. люди не понимают, например, что математика в Африке, РФ и США - это три разные системы учебников, способов оформления, наименования, формулирования, так что простую задачу из школьного советского учебника ии не поймет.
Поэтому "среднего менеджера" не существует. У каждого из них свои индивидуальные когнитивные особенности, значительно отклоняющиеся от усредненного контекста моделей.
Скажу больше, 90% средних специалистов (врачи, учителя, продавцы, маркетологи, логисты, аналитики и т.д.) вообще не понимают кто они, где они и что они делают. И совершенно не способны сформулировать вопрос, т.к. совершенно не знакомы со своей предметной областью.
Принимал выпускные экзамены в ВУЗе у экономистов и ни один не смог ответить даже примерно что такое деньги, кредит, инфляция, капитал и т.п. Вообще ничего не могут сказать, не было такого экзаменационного билета. И в процессе трудовой деятельности они забудут и то, что знали. И будут прекрасные работники при этом.

caesium-137
30.03.2026 06:58И работает из России без VPN
Увы не работает

bstan Автор
30.03.2026 06:58Что именно? Выше написали, что Кими недоступен, что мы могли пропустить

bstan Автор
30.03.2026 06:58Открыл, работает. Возможно, вы хотите сказать, что нельзя оплатить? @caesium-137

Ingref
30.03.2026 06:58GigaChat-2-Pro – 2,82, худший результат среди всех 54 моделей.
У вас в таблице он на 52 месте, а на 54 у вас Phi-4.
разница между Kimi (4,75) и GigaChat (3,75) на том же сценарии с бюджетом – это не только разница моделей. Это разница в подходе.
Это разница в 2 года. Сам Сбер в недавнем анонсе ультры писал, что она на уровне GPT-4o.

bstan Автор
30.03.2026 06:58Да, фокус именно на GigaChat'e сделан. Ultra тоже протестирована и в таблице есть. Да, на уровне GPT-4o. Но это все еще конец рейтинга.
То есть, ни с чем не спорю, даже

NKulikov
30.03.2026 06:58Claude Sonnet 4.5 4.78
Claude Opus 4.5 4.78
Claude Sonnet 4.6 4.77
У меня складывается впечатление, что тут одно из двух:
1.) Ваш бенчмарк и/или судья не в состоянии различить передовые модели (или потому что очень просто и все справляются, или потому что судья не может сам понять, где лучше/хуже) и там все едино.
2.) Доверительный интервал намного больше, чем два знака после запятой, поэтому вы фиксируете шум, а не актуальные значения (у вас топ 7 моделей ложатся в 1 десятую).
Иначе мне сложно объяснить почему Opus 4.5 и Sonnet 4.5 показывает одинаковые результаты, хотя очевидно и по всем остальным бенчмаркам, что Opus, разумеется, показывает лучшие результаты, чем Sonnet. Аналогично с тем, что Sonnet 4.6 хуже, чем Sonnet 4.5 - тут

bstan Автор
30.03.2026 06:58Здесь все в рамках погрешности, вы правы. Можно считать качество одним и тем же
Бенчмарк не знает ничего про модели, передовые или нет. Оценивается результат ответа на вопрос, его глубина, содержание, точность цифр, актуальность информации, эффективность (стоимость). В результате, может оказаться что передовая модель, которая стоит дороже (Opus) имеет меньшее количество баллов в рейтинге. Но это в рамках погрешности, как вы правильно заметили.
Относительно интерпретации, то в этой редакции статьи мы убрали разделение на Эшелоны / Кластеры / Tier. Но изначально предполагалось, что все выше 4.50 – это все премиальное качество и нет смысла смотреть на места. И если смотреть так, GLM-5 и выше – одного качества. Для конечного потребителя особой разницы нет, не видно.
NKulikov
30.03.2026 06:58Здесь все в рамках погрешности, вы правы. Можно считать качество одним и тем же
Но у вас на сайте пишется другое:
анализ и планирование – Claude Sonnet 4.5, обучение и управление командой – Claude Sonnet 4.6
Ну очевидно же, что смысла использовать Sonnet 4.5 при доступном 4.6 нет ровно никакого. Ценник одинаковый, по вашему заявлению выше "они одинаковые", по индустриально стандартным бенчмаркам 4.6 лучше, чем 4.5, по АБСОЛЮТНО ВСЕМ категориям (где-то больше, где-то меньше).
Но изначально предполагалось, что все выше 4.50 – это все премиальное качество и нет смысла смотреть на места. И если смотреть так, GLM-5 и выше – одного качества. Для конечного потребителя особой разницы нет, не видно.
Я очень не согласен с этим утверждением. Говорю как ежедневный пользователь Claude/ChatGPT/Gemini + Nemotron3. И речь не только и не столько про код, а больше про то, что у вас называется "управленческие задачи".
Для меня, вот разница есть и ее видно (например, на большом контексте). Ровно как и Opus vs Sonnet. И я не такой один "In Claude Code, our early testing found that users preferred Sonnet 4.6 over Sonnet 4.5 roughly 70% of the time."
Более того, хоть я и люблю Nemotron 3 Super (120B-A12B) за скорость, очень очевидно, что это модель среднего размера и до того же GLM-5 (744B-A40B) ей далеко. Что хорошо видно у того же Artificial Analysis, где у Nemotron 3 Super Intelligence Index - 35, а у GLM-5 - 50.
Тут вопрос в том, что ваш бенчмарк не может эту разницу различить - например, аналогично MMMLU там у всех Tier1 ~90%, а маленьких (типа Nemotron 3 Nano 30B-A3B) - 80%. Это не показатель модели. А показатель теста/бенчмарка, который не видит разницы.
что все выше 4.50
А почему 4.5? На примере Nemotron 3 Super и GLM это тоже не очевидно. Почему не 4.0? Или любое другое число?
Короче, я к тому, что судя по результатам (там много такого, но просто пример с Claude самый наглядный), ваш бенчмарк имеет low statistical power & discrimination index, как минимум, для Tier-1 моделей, но несмотря на это, вы формулируете выводы из серии "Китайские модели уже догнали по качеству западные аналоги", "В России без ограничений доступны модели уровня Claude. Лучшая доступная модель – Kimi K2.5 (4.74), всего на 0.06 балла ниже глобального лидера GPT-5.4 (4.80)." и т.д. Эти заявления не могут быть сделаны на базе ваших бенчмарков. Я вот открываю ARC-AGI-v2 и там разница есть.
Более того, после того, как становится очевидным, что он не может различать топовые модели, то не понятно, а с какого момента он начинает это делать и почему именно с этого?

bstan Автор
30.03.2026 06:58Спасибо за развёрнутый комментарий – по существу вы правы, и я это признаю.
По статистической мощности. В основе исследования – 4 сценария на категорию на модель, двое LLM-судей (Claude Opus 4.5 + Gemini 3 Pro). Мы сами считали post-hoc тесты (сейчас перепроверили эти цифры): Tukey HSD даёт p-adj = 1.0000 для всех попарных сравнений в топ-15. Minimum Detectable Difference (MDD) при количестве сценариев в рамках одной модели 4 – 1.255 балла. То есть бенчмарк статистически не может различить модели внутри верхней группы. Мы это знали и прописали в методологии equivalence bands: разница < 0,10 – «идентичны», 0,10–0,30 – «в рамках шума». Но в статье эти оговорки потерялись, а утверждения вроде «отстаёт на 0,06» остались. Это ошибка подачи – выводы вышли за рамки того, что данные позволяют утверждать.
По Claude 4.5 vs 4.6. В наших данных по категориям: анализ – 4.83 vs 4.71, команда – 4.70 vs 4.84. Это внутри нашего же значения "шума". Рекомендовать 4.5 при доступном 4.6 по той же цене – действительно не имеет смысла. Поправим.
По порогу 4.50. Согласен – он не обоснован статистически. В ANOVA все 54 модели попали в один статистический tier. Граница произвольная.
Что бенчмарк может, а что – нет. Он хорошо разделяет уровни: GigaChat (2.82) vs Kimi (4.74) – разница 1.92, это выше MDD, Cohen’s d > 0.8. Российские модели объективно отстают от глобального топа – это подтверждается. Но ранжировать внутри топ-15–20 он не может.
Заявления "китайские модели догнали западные" на основе разницы в 0.06 – некорректны. Корректно сказать "топ-15 моделей статистически неразличимы на нашем наборе задач".
Пример с Nemotron 3 Super vs GLM-5 – точный. У нас Cohen’s d между ними 0.006. Бенчмарк этого не видит – и это его ограничение, а не свойство моделей.
Что будем менять. Уберём рекомендацию 4.5 vs 4.6. Переформулируем топ как кластер («эти N моделей статистически неразличимы»), а не ранжированный список. Добавим equivalence bands на страницу результатов – они есть в методологии, но не дошли до публичной версии.

Yankee2d
30.03.2026 06:58не защищаю наши модели, но красивая упаковка по типу «с этим можно идти на совещание» ничего не говорит о качестве контента. Откладывание рекламного бюджета до появления результатов, возможно, самый ценный совет из всех прогонов.
А «тут мы получили неплохо структурированный текст, а тут он ещё лучше структурирован!!!» это не качество смысла. Даже то, что цифры сбиты не качество. Самые дорогие ошибки выглядят наиболее гармонично.

bstan Автор
30.03.2026 06:58Мы проводили слепое тестирование моделей, чтобы сделать калибровку, с участием людей. Можно посмотреть ответы тут (ну и дать вашу оценку, к этим постам – это улучшить нашу калиброку)
https://mysummit.school/evaluate
В целом же, вы действительно правы, что ИИ может написать хорошо структурированный текст, но пустой по сути. У нас есть все ответы моделей, их можно выложить для примера, но их все равно никто читать не будет, поэтому лежат в архиве.В нашем же случае, были эталонные ответы к моделям (что мы ждали увидеть в ответ), и с этими эталонами сравнивали ответы. Поэтому оценка "можно идти на совещание", основана именно на сравнении с эталоном

feat_branch
30.03.2026 06:58По сути о бесплатности можно говорить, только если подразумевается чатик, который не особо то и нужен. Если же работать нормально, через API, то из бесплатных (да и то с оговорками на собственное приложение и ограниченное количество запросов) остаются только z.ai и qwen.

bstan Автор
30.03.2026 06:58Все бесплатные – одинаковые, да. У нас следующий проект – понять, можно ли заставить Alice LLM или GigaChat давать ответы выше качества. Слабая вера в это, исходя из возможностей. Но нужно проверить
Deepseek более или менее бесплатен.

Artazar777
30.03.2026 06:58Делал проект, где ИИ выступал судьей других моделей. Решил провести стрес тест судьи и дал на оценку один и тот же текст на оценку по 10 бальной шкале и чтобы с обоснованием. Судья дал оценки от 5.5 баллов до 9.5 баллов для одного и того же текста. Попробуйте то же самое сделать и вы для одного и того же текста для калибровки судьи.

bstan Автор
30.03.2026 06:58У нас это учтено и консистентность в оценках присутствует. За счет температуры, структурированных промптов и повторной валидации.
Более того, мы проверяли разные ответы по одному сценарию от одной и той же модели. Оценки судей оставались стабильными, в рамках погрешности.
achekalin
Листал, увидел фразу "Судья заключил" в абзаце про гигачат, понял, что генеренка.
Жаль(
Ну и да, часто от модели хочется рассуждений.
А от ее автора - фиксированной небольшой, суммы за месячную подписку и общаний не юзать данные для обучения. А тут с этим....
VladimirFarshatov
Мечты, мечты.. Где Ваша сладость? )
Собирать данные это основная задача всего ПО интернета от браузера до ИИ и даже автоперекладчика шрифта рус/лат. Как эт-та "не юзать"? )))
bstan Автор
Судья заключил, да. Хотите перепишу? Сути это не меняет
Но ИИ использовался в статье – генерация картинки. Ревью тоже было сделано с ИИ
bstan Автор
Ну и sidecomment. Проблема сегодня, что люди как только видят признаки "ИИ сгенерированный текст", в местах где его нет, добавляют ярлык "ИИ/AI slop" и перестают смотреть на суть.
Есть исследования, которые говорят, что ИИ тексты снижают доверие к информации / автору примерно на 40%. Но основная причина снижения такого доверия – "отсутствие вклада или труда". То есть доверие возникает, когда люди видят, что автор потратил свое время. Если не видят этого – следом присваивают соответствующий ярлык.
Но при этом, статья, как правило, это лишь меньшая часть вложения трудов.