Сравнительный анализ 18 LLM моделей: конец монополии?
Ноябрь 2025 — месяц, когда open-source модели официально догнали проприетарные. Разбираем, что произошло, кто теперь на вершине, и как это использовать в своих проектах.

Введение: А что вообще произошло?
Ещё год назад всё было просто: хочешь топовое качество — плати OpenAI или Anthropic. Open-source модели «подавали надежды», но стабильно отставали на 15-20% по ключевым бенчмаркам.
А потом случился ноябрь 2025.
13 ноября — Baidu анонсирует ERNIE 5.0 на Baidu World 2025 — нативно омни-модальную модель, которая за неделю попадает в топ-15 Vision Arena на LMArena, сравниваясь с Claude Sonnet 4 и GPT-5-high.
18 ноября — Google выкатывает Gemini 3 Pro: 91.9% на GPQA Diamond (научное рассуждение), контекст в миллион токенов. Казалось бы, закрытые модели снова впереди планеты всей...
19 ноября — Сбер отвечает релизом GigaChat3-702B под MIT-лицензией. И вот тут начинается интересное: модель показывает 86.59% на HumanEval+ — по цифрам класно, но не понятно как интерпретировать. В добавок веса открыты.
24 ноября — Anthropic представляет Claude Opus 4.5 — первую модель, пробившую планку 80% на SWE-bench Verified (80.9%). Реальные баги из реальных репозиториев — и модель фиксит 4 из 5.
Параллельно китайцы не спят: Kimi-K2-Thinking от Moonshot AI — первая open-source модель с триллионом параметров. 84.5% на GPQA Diamond, 71.3% на SWE-bench. Под MIT-лицензией. Бесплатно. Забирайте. А Alibaba выкатывает Qwen3-VL-235B-A22B-Thinking — VLM с поддержкой визуальных агентов и GUI-автоматизации.
? Главный инсайт: Если вы до сих пор считаете, что open-source — это «почти как GPT-4, но похуже» — пора обновить картину мира. Kimi-K2 бьёт GPT-4o на научном рассуждении с разницей в 30+ процентных пунктов.
Так что там с монополией OpenAI и Anthropic? Давайте разбираться с цифрами в руках.
Большая сравнительная таблица
Данные собраны из официальных источников: HuggingFace model cards, технические отчёты компаний, Aider LLM Leaderboards, LMSys Chatbot Arena.
# |
Модель |
Тип |
MMLU-Pro |
GPQA |
HumanEval+ |
SWE-bench |
MATH-500 |
AIME |
Парам. |
Актив. |
|---|---|---|---|---|---|---|---|---|---|---|
1 |
Gemini 3 Pro |
Closed |
91.8% |
91.9% |
— |
76.2% |
— |
95-100% |
~1T |
~20B |
2 |
GPT-5.1 |
Closed |
91.4% |
85.6% |
— |
76.3% |
96.0% |
94.6% |
N/A |
N/A |
3 |
Claude Opus 4.5 |
Closed |
90.8% |
87.0% |
— |
80.9% |
— |
— |
N/A |
N/A |
4 |
Kimi-K2-Thinking |
? Open |
84.6% |
84.5% |
— |
71.3% |
— |
94.5-100% |
1000B |
32B |
5 |
Claude Sonnet 4.5 |
Closed |
89.1% |
83.4% |
— |
77.2% |
— |
87-100% |
N/A |
N/A |
6 |
DeepSeek-R1 |
? Open |
84.0% |
81.0% |
— |
49.2% |
97.3% |
79.8% |
671B |
37B |
7 |
DeepSeek-V3.2-Exp |
? Open |
85.0% |
79.9% |
— |
67.8% |
— |
89.3% |
671B |
37B |
8 |
Qwen3-235B-A22B |
? Open |
83.0% |
81.1% |
— |
— |
— |
92.3% |
235B |
22B |
9 |
GPT-5.1-Codex-Max |
Closed |
— |
— |
— |
77.9% |
— |
— |
N/A |
N/A |
10 |
Mistral Large 2 |
? Open |
84.0% |
— |
92.0% |
— |
— |
— |
123B |
123B |
11 |
GigaChat3-702B ?? |
? Open |
72.76% |
55.72% |
86.59% |
— |
78.4% |
— |
702B |
36B |
12 |
Qwen3-30B-A3B |
? Open |
80.9% |
— |
— |
— |
— |
85% |
30.5B |
3.3B |
13 |
Gemma-3-27B-IT |
? Open |
67.5% |
42.4% |
— |
— |
89.0% |
— |
27B |
27B |
14 |
Mistral Small 3 |
? Open |
81.0% |
— |
92.9% |
— |
— |
— |
24B |
24B |
15 |
Codestral 25.01 |
Closed |
— |
— |
86.6% |
— |
— |
— |
~22B |
~22B |
16 |
Gemma-3-12B-IT |
? Open |
~55% |
~35% |
— |
— |
~70% |
— |
12B |
12B |
17 |
GigaChat3-10B ?? |
? Open |
60.61% |
35.02% |
69.51% |
— |
70.0% |
— |
10B |
1.8B |
18 |
Vikhr-Nemo-12B ?? |
? Open |
26.64% |
— |
— |
— |
17.15% |
— |
12B |
12B |
? = Open-source (MIT/Apache 2.0) | ?? = Российская разработка
Kimi-K2: Open-source догнал топов
Остановимся на этом подробнее, потому что это реально переломный момент для индустрии.
Kimi-K2-Thinking от китайской Moonshot AI:
? Триллион параметров — но благодаря MoE активируется только 32B на токен
? 84.5% на GPQA Diamond — это уровень Claude 3.5 Sonnet
? 71.3% на SWE-bench — фиксит реальные баги из GitHub
? 51% на Humanity's Last Exam — лучший результат среди всех open-source
? MIT-лицензия — хотите в прод? Пожалуйста. Хотите дообучить? Да на здоровье
Для понимания масштаба: GPT-4o показывает ~53% на GPQA Diamond. Kimi-K2 — open-source модель — опережает его на 30+ процентных пунктов.
? Практический совет: Kimi-K2 доступен через API на Together AI и других платформах. Для задач глубокого анализа и научного рассуждения — отличная альтернатива Claude/GPT по гораздо меньшей цене.
Топ-5 по категориям
? Научное рассуждение (GPQA Diamond)
GPQA — это вопросы уровня PhD по физике, химии и биологии. Здесь нужно не знать факты, а уметь думать.
# |
Модель |
GPQA Diamond |
Тип |
|---|---|---|---|
? |
Gemini 3 Pro |
91.9% |
Closed |
? |
Claude Opus 4.5 |
87.0% |
Closed |
? |
GPT-5.1 |
85.6% |
Closed |
4 |
Kimi-K2-Thinking |
84.5% |
Open |
5 |
Claude Sonnet 4.5 |
83.4% |
Closed |
Вывод: Разрыв между closed и open — всего 7%. Год назад было 25+.
? Кодинг (SWE-bench Verified)
SWE-bench — реальные баги из реальных open-source репозиториев. Модель должна понять issue, найти файл, написать патч, пройти тесты.
# |
Модель |
SWE-bench |
Тип |
|---|---|---|---|
? |
Claude Opus 4.5 |
80.9% |
Closed |
? |
GPT-5.1-Codex-Max |
77.9% |
Closed |
? |
Claude Sonnet 4.5 |
77.2% |
Closed |
4 |
Gemini 3 Pro |
76.2% |
Closed |
5 |
Kimi-K2-Thinking |
71.3% |
Open |
6 |
DeepSeek-V3.2-Exp |
67.8% |
Open |
Вывод: В кодинге closed-модели пока лидируют, но open-source уже на расстоянии вытянутой руки.
? Математика (MATH-500 / AIME)
AIME — олимпиадная математика уровня финала всероса. MATH-500 — от школьной алгебры до university-level.
# |
Модель |
MATH-500 |
AIME |
Тип |
|---|---|---|---|---|
? |
DeepSeek-R1 |
97.3% |
79.8% |
Open |
? |
GPT-5.1 |
96.0% |
94.6% |
Closed |
? |
Gemini 3 Pro |
— |
95-100% |
Closed |
4 |
Kimi-K2-Thinking |
— |
94.5-100% |
Open |
5 |
Qwen3-235B-A22B |
— |
92.3% |
Open |
Вывод: В математике open-source УЖЕ лидирует! DeepSeek-R1 с 97.3% на MATH-500 — абсолютный рекорд.
? Для практиков: Нужна модель для математических расчётов, анализа данных, научных вычислений? DeepSeek-R1 под MIT-лицензией. Серьёзно.
? Лучшие Open-Source LLM — Overall
Сводный рейтинг. Только модели с открытыми весами.
Ранг |
Модель |
MMLU-Pro |
GPQA |
SWE-bench |
Лицензия |
VRAM |
|---|---|---|---|---|---|---|
? |
Kimi-K2-Thinking |
84.6% |
84.5% |
71.3% |
MIT |
~250GB+ |
? |
Qwen3-235B-A22B |
83.0% |
81.1% |
— |
Apache 2.0 |
~470GB |
? |
DeepSeek-V3.2-Exp |
85.0% |
79.9% |
67.8% |
MIT |
~700GB |
4 |
DeepSeek-R1 |
84.0% |
81.0% |
49.2% |
MIT |
~700GB |
5 |
Mistral Large 2 |
84.0% |
— |
— |
MRL |
~300GB |
6 |
GigaChat3-702B ?? |
72.76% |
55.72% |
— |
MIT |
~800GB+ |
Лучшие компактные Open-Source модели (≤30B параметров)
Для тех, у кого нет кластера H100, но есть RTX 4090 или облачный инстанс.
Ранг |
Модель |
Параметры |
Активные |
VRAM |
Фишка |
|---|---|---|---|---|---|
? |
Qwen3-30B-A3B-Thinking |
30.5B |
3.3B |
~60GB |
MoE-магия: качество 70B+ при затратах 7B |
? |
Mistral Small 3 |
24B |
24B |
~48GB |
81% MMLU, HumanEval 92.9% |
? |
Gemma-3-27B-IT |
27B |
27B |
~54GB |
Мультимодальный, 128K контекст |
4 |
Codestral 25.01 |
~22B |
~22B |
~44GB |
FIM 95.3% — лучший для автодополнения |
5 |
Gemma-3-12B-IT |
12B |
12B |
~24GB |
RTX 4090 ready, 140+ языков |
6 |
GigaChat3-10B ?? |
10B |
1.8B |
~20GB |
Русский язык из коробки |
? Qwen3-30B-A3B — это магия MoE: 30 миллиардов параметров, но активируется только 3.3B на токен. Качество как у 70B+ модели, VRAM как у 7B.
? Лучшие Open-Source LLM для кодинга
Отдельный рейтинг для тех, кто строит coding assistants, IDE-плагины и системы автоматического ревью. В этой категории в конце ноября произошло важное событие — релиз специализированной линейки Qwen3-Coder.
Ранг |
Модель |
HumanEval+ |
SWE-bench |
FIM |
Лицензия |
|---|---|---|---|---|---|
? |
Qwen3-Coder-480B-A35B |
94.2% |
82.1% |
97.0% |
Apache 2.0 |
? |
Mistral Small 3 |
92.9% |
— |
— |
Apache 2.0 |
? |
Mistral Large 2 |
92.0% |
— |
— |
MRL |
4 |
Qwen3-Coder-30B-A3B |
89.5% |
— |
94.5% |
Apache 2.0 |
5 |
Codestral 25.01 |
86.6% |
— |
95.3% |
Proprietary |
6 |
GigaChat3-702B ?? |
86.59% |
— |
— |
MIT |
7 |
Kimi-K2-Thinking |
— |
71.3% |
— |
MIT |
8 |
GigaChat3-10B ?? |
69.51% |
— |
— |
MIT |
Лидеры рейтинга
Qwen3-Coder-480B-A35B-Instruct — новый «король кода». Это массивная MoE-модель (480 млрд параметров, 35 млрд активных), которая впервые в истории open-source пробила 80% на SWE-bench, опережая даже Claude Opus 4.5. Если вам нужен аналог Senior Developer для сложных рефакторингов — это он.
Qwen3-Coder-30B-A3B — лучшее соотношение цена/качество. При смешных требованиях к железу (активируется всего 3 млрд параметров!) она выдает почти 90% на HumanEval+, обгоняя многие 70B-модели. Идеальный выбор для локального Copilot в VS Code.
?? Феномен GigaChat
GigaChat3-702B занимает почетное место в мировом топ-6, и здесь важен контекст.
Да, специализированные «кодеры» (как Qwen Coder или Mistral) вырвались вперед по сухим цифрам, но GigaChat — это General Purpose модель.
Показатель 86.59% на HumanEval+ означает, что российская модель пишет код лучше, чем GPT-4o и Claude 3.5 Sonnet (образца 2024 года).
Почему для нас GigaChat может быть №1:
Русский контекст: Она идеально понимает ТЗ на русском, комментарии в кириллице и специфику 1С/Bitrix, где западные модели часто «плывут».
MIT Лицензия: В отличие от Mistral Large (MRL) или Codestral, Сбер отдал веса полностью. Никаких ограничений на коммерческое использование.
Безопасность: Это единственная модель из топа, которую можно развернуть в закрытом контуре российского энтерпрайза без юридических рисков и «закладок».
? Итог: Если вам нужен сухой код на Python/JS — берите Qwen3-Coder. Если нужна модель, которая обсудит с вами архитектуру на русском языке, поймет нечеткое ТЗ и напишет документацию — GigaChat3-702B вне конкуренции.
?? Российские и русскоязычные модели
Отдельная секция для отечественных разработок. Спойлер: есть чем гордиться.
Модель |
Разработчик |
Параметры |
HumanEval+ |
Ru Arena |
Особенности |
|---|---|---|---|---|---|
GigaChat3-702B-A36B |
Сбер |
702B (36B акт.) |
86.59% |
— |
Мировой рекорд HumanEval+ |
GigaChat3-10B-A1.8B |
Сбер |
10B (1.8B акт.) |
69.51% |
— |
Влезает в RTX 4090 |
Vikhr-Nemo-12B |
Vikhrmodels |
12B |
— |
65.5 |
Лучший для RAG на русском |
QVikhr-3-4B |
Vikhrmodels |
4B |
— |
78.2 |
+20.7% vs базовой Qwen3-4B |
Что сделал Сбер
Команда SberDevices выпустила GigaChat3 — и это не «ещё одна российская LLM». Это:
702B параметров с архитектурой Mixture-of-Experts (36B активных)
86.59% на HumanEval+ — мировой рекорд на момент релиза
MIT-лицензия — полностью открытые веса, используйте как хотите
Pretrain с нуля — не файнтюн китайской модели, а собственный корпус данных
Также выпущена компактная GigaChat3-10B — 10 миллиардов параметров, 1.8B активных. Влезает в RTX 4090, показывает 69.51% на HumanEval и 70% на MATH. Отличный вариант для локального запуска.
Vikhrmodels — комьюнити-разработка
Отдельного упоминания заслуживает проект Vikhrmodels — команда энтузиастов, адаптирующая мировые модели под русский язык:
Vikhr-Nemo-12B — адаптация Mistral-Nemo, оптимизирована для RAG-задач
QVikhr-3-4B — улучшенная Qwen3-4B, +20.7% на русскоязычных бенчмарках
Требования к GPU VRAM
Практическая таблица для планирования инфраструктуры.
Категория |
Модели |
VRAM (BF16) |
С квантизацией (Q4) |
Железо |
|---|---|---|---|---|
Кластерные |
Kimi-K2, GigaChat3-702B, DeepSeek-R1 |
700-1000GB+ |
250-400GB |
8+ H100 |
Multi-GPU |
Qwen3-235B, Mistral Large 2 |
300-470GB |
80-120GB |
4× H100 |
Single H100 |
Qwen3-30B, Gemma-3-27B |
54-60GB |
15-20GB |
1× H100 |
RTX 4090 |
GigaChat3-10B, Gemma-3-12B, Vikhr-Nemo |
20-24GB |
6-8GB |
RTX 4090 |
Consumer |
QVikhr-3-4B, Gemma-3-4B |
8GB |
2-4GB |
RTX 3080/4070 |
Зачем платить за API, когда есть Open-Source?
Хороший вопрос. Давайте честно.
Математика простая:
Сценарий 1: Стартап, 100K запросов/месяц
GPT-4o API: ~$1,750/месяц
Аренда H100: ~$1,500-2,200/месяц, но запросов неограниченно
При 100K+ запросов self-hosted уже выгоднее.
Сценарий 2: Небольшая команда, 10K запросов/месяц
GPT-4o API: ~$175/месяц
Аренда H100: ~$1,500+/месяц
Здесь API выигрывает в 10 раз.
Но есть нюанс
Простой человек и даже средняя компания не может просто так купить сервер с H100 за десятки тысяч долларов. Это реальность.
Поэтому реальный компромисс:
Ваша ситуация |
Рекомендация |
|---|---|
<50K запросов/месяц |
API дешевле и проще |
>100K запросов/месяц |
Self-hosted окупается |
Чувствительные данные |
Только self-hosted, никаких вариантов |
Эксперименты/R&D |
Локальные 7-12B модели на RTX 4090 |
Production + приватность |
Облачные инстансы с GPU + open-source модели |
? Практический совет: Начните с API, измерьте реальные объёмы, посчитайте unit economics. Self-hosted имеет смысл при >50K запросов/месяц ИЛИ при жёстких требованиях к приватности.
Данные: почему не все могут сделать свою LLM
Хотите понять, почему не каждая компания может выпустить свой GPT-4? Ответ не в архитектуре — трансформеры давно опубликованы. Ответ в данных.
Что нужно для pretrain:
Этап |
Что нужно |
Сложность |
|---|---|---|
Pretrain |
10-15 триллионов токенов чистых данных |
Собрать, очистить, дедуплицировать |
Instruct |
Миллионы пар вопрос-ответ |
Разметка, качество, разнообразие |
Thinking |
Синтетические цепочки рассуждений |
Нужны сильные модели для генерации |
Почему это ОЧЕНЬ дорого:
Сбор данных — лицензии, парсеры, петабайты хранилища
Очистка — до 90% сырых данных отбраковывается
Дедупликация — без неё модель «заучивает», а не «понимает»
Compute — pretrain на 14T токенов = месяцы работы кластера из 1000+ GPU
Кто в России делает pretrain с нуля?
Только Сбер.
И это не преувеличение. Pretrain GigaChat3-702B — это:
Кластер из тысяч GPU
Месяцы непрерывной работы
Десятки ML-инженеров
14 триллионов токенов собственного корпуса
Остальные российские проекты работают с файнтюном существующих моделей — и это разумный подход при ограниченных ресурсах. Но полный pretrain на русскоязычных данных — это уровень ресурсов, который в России есть только у Сбера.
? Рекомендую: Pretrain: как мы собрали обучающий корпус из 14 триллионов токенов — отличная техническая статья от команды SberDevices.
LLM в агентных системах
Агенты — следующий рубеж после простых чатботов. Модель должна планировать, использовать инструменты, обрабатывать ошибки, работать автономно.
Что нужно от модели для агентов:
Function calling — надёжный вызов внешних API
Длинный контекст — помнить историю сессии
Следование инструкциям — не отклоняться от плана
Самокоррекция — понимать, когда что-то пошло не так
Топ-6 моделей для агентных систем
Ранг |
Модель |
Function Calling |
Контекст |
SWE-bench |
Тип |
|---|---|---|---|---|---|
? |
Claude Opus 4.5 |
⭐⭐⭐ |
200K |
80.9% |
Closed |
? |
GPT-5.1 |
⭐⭐⭐ |
128K |
76.3% |
Closed |
? |
Gemini 3 Pro |
⭐⭐⭐ |
1M |
76.2% |
Closed |
4 |
Kimi-K2-Thinking |
⭐⭐ |
128K |
71.3% |
Open |
5 |
Qwen3-235B-A22B |
⭐⭐ |
256K |
— |
Open |
6 |
DeepSeek-V3.2 |
⭐⭐ |
128K |
67.8% |
Open |
Честно о сложностях open-source агентов
Проблемы:
Function calling менее надёжный, чем у GPT/Claude
Чаще «галлюцинирует» при длинных сессиях
Меньше примеров и best practices
Преимущества:
Полный контроль над моделью
Можно дообучить на своих данных
Нет rate limits и зависимости от внешнего API
Приватность данных
? Практический совет: Для production-агентов начните с Claude/GPT. Для внутренних инструментов и экспериментов — Kimi-K2 или Qwen3 отлично справятся.
VLM: модели с пониманием изображений
Vision-Language Models — отдельная категория, где модель понимает и текст, и картинки. Ноябрь 2025 принёс несколько важных релизов в этой области.
Что нового в VLM
ERNIE 5.0 Preview от Baidu — нативно омни-модальная модель, которая сразу попала в топ-15 Vision Arena (score ~1206) на уровне Claude Sonnet 4 и GPT-5-high. Особенно сильна в документах и графиках.
Qwen3-VL-235B-A22B-Thinking от Alibaba — флагманская VLM с поддержкой:
Visual Agent — может управлять GUI на ПК и мобильных устройствах
Visual Coding — генерирует HTML/CSS/JS из скриншотов
3D Grounding — пространственное понимание объектов
Контекст до 256K токенов
Топ-6 VLM (ноябрь 2025)
Ранг |
Модель |
Arena Score |
Видео |
Тип |
Особенности |
|---|---|---|---|---|---|
? |
Gemini 3 Pro |
#1 |
✅ |
Closed |
Лидер Vision Arena, 1M контекст |
? |
GPT-5.1 |
#2-3 |
✅ |
Closed |
Улучшенный OCR, анализ графиков |
? |
Claude Opus 4.5 |
#4-5 |
❌ |
Closed |
Лучший для длинных документов |
4 |
ERNIE 5.0 Preview |
#12-15 |
✅ |
Closed |
Документы, графики, китайский |
5 |
Qwen3-VL-235B-A22B-Thinking |
— |
✅ |
Open |
Visual agents, GUI automation |
6 |
InternVL3-78B |
— |
✅ |
Open |
Industrial/3D reasoning |
? Для практиков:
Нужен VLM для анализа скриншотов, документов? Gemma-3-27B работает на одном H100.
Хотите автоматизацию GUI? Qwen3-VL-235B-Thinking — единственная open-source с visual agents.
Работаете с китайским контентом? ERNIE 5.0 или Qwen3-VL будут оптимальны.
Open-Source VLM: на что обратить внимание
Модель |
Параметры |
VRAM |
Фишка |
|---|---|---|---|
Qwen3-VL-235B-A22B-Thinking |
235B (22B акт.) |
~500GB |
Visual agents, лучший open-source |
InternVL3-78B |
78B |
~160GB |
Industrial reasoning, 3D |
Gemma-3-27B-IT |
27B |
~54GB |
Pan & Scan, 128K, одна H100 |
ERNIE-4.5-VL-28B-A3B-Thinking |
28B (3B акт.) |
~48GB |
Apache 2.0, документы |
LLaMA 3.2 Vision |
11B-90B |
24-180GB |
Strong OCR, 128K контекст |
Ключевые выводы
1. Монополия закончилась
Open-source модели официально достигли уровня проприетарных. Kimi-K2 (MIT) сравним с Claude 3.5 Sonnet. DeepSeek-R1 (MIT) — лучший в мире на математике.
2. MoE — архитектура 2025 года
Большинство топовых моделей используют Mixture-of-Experts: триллион параметров, но активируется 3-5%. Качество «большой» модели при затратах «маленькой».
3. Россия в игре
GigaChat3-702B от Сбера — не «догоняющая разработка», а мировой рекорд на HumanEval+ (86.59%). Под MIT-лицензией. Это достижение мирового уровня.
4. VLM становятся агентами
Новое поколение VLM умеет не только видеть, но и действовать: управлять GUI, генерировать код из скриншотов, понимать 3D-пространство.
5. Таблица выбора
И тут практически нет Чат-ЖПТ от Open-АИ?.
Задача |
Лучший выбор |
Open-source альтернатива |
|---|---|---|
Научное рассуждение |
Gemini 3 Pro |
Kimi-K2-Thinking |
Кодинг |
Claude Opus 4.5 |
Qwen3-Coder-480B-A35B |
Математика |
DeepSeek-Math-V2 или R1(open!) |
— уже лучший |
Агенты |
Claude Opus / GPT-5.1 |
Kimi-K2 / Qwen3-235B |
Локальный запуск |
— |
Qwen3-30B-A3B / Mistral Small 3 |
Русский язык |
GigaChat3 |
Vikhr-Nemo-12B |
VLM + Visual Agents |
Gemini 3 Pro |
Qwen3-VL-235B-Thinking |
VLM локально |
— |
Gemma-3-27B-IT |
6. Что это значит для вас?
DS/ML-инженерам: Пора пробовать open-source в production. Качество уже там.
Стартапам: Считайте unit economics. >100K запросов — self-hosted выгоднее.
Enterprise: Open-source + приватные данные = независимость от внешних API.
Всем: Следите за китайскими и российскими релизами. Там сейчас происходит самое интересное.
Понравилась статья? Делитесь в комментариях своим опытом с LLM. Особенно интересно услышать про реальные кейсы open-source в production.
Источники: HuggingFace, Anthropic, OpenAI, Google DeepMind, Alibaba (Qwen), DeepSeek, Moonshot AI, Sber, Vikhrmodels, Baidu, Aider LLM Leaderboards, LMArena (Vision/Text Arena)
Дата: Декабрь 2025