Разработка больших языковых моделей обычно ассоциируется с астрономическими затратами. Но пример китайской компании DeepSeek показывает, что эта логика не всегда работает: их модель R1 была дообучена всего за 294 тыс. долларов США (на базовую версию ушло около 6 млн). Для сравнения, создание ChatGPT обошлось OpenAI в суммы на порядки выше.
Если информация китайских разработчиков верна, создавать LLM смогут не только корпорации уровня OpenAI, но и относительно небольшие компании. Правда, данные от DeepSeek вызывают сомнения у специалистов: не исключено, что часть расходов осталась «за кадром». Сегодня посмотрим, какие методы применяла DeepSeek, чем их стратегия отличается от подхода OpenAI и почему ИИ-сообщество оказалось разделено на оптимистов и скептиков.

Подход DeepSeek: искусство оптимизации в условиях ограничений

DeepSeek из Ханчжоу не просто сэкономили — они полностью перестроили процесс обучения. Базовая модель DeepSeek-V3, на которой держится R1, обошлась примерно в 6 млн $ и потребовала 2,8 млн часов вычислений на GPU H800. Эти ускорители — упрощенная версия Nvidia H100 для китайского рынка, где действует экспортный контроль США. Вместо того чтобы ждать топовое «железо», команда подогнала алгоритмы под то, что было под рукой, и выжала из него максимум. В ход пошла архитектура Mixture of Experts, где активна только часть параметров модели, что снижает энергопотребление и ускоряет обучение. Такой подход позволил прогнать колоссальные массивы данных без лишних расходов.
Как это все удалось? Во-первых, через глубокую автоматизацию процессов — от сбора данных до настройки гиперпараметров, где ручной труд сведен к минимуму, а алгоритмы берут на себя рутину, снижая количество ошибок и экономя ресурсы. Во-вторых, оптимизация на уровне кода: формат FP8 для хранения данных сокращает потребность в памяти и ускоряет вычисления, сохраняя точность, а алгоритм DualPipe распределяет задачи между процессорами, избегая простоев. Эти решения опираются на опыт предыдущих моделей, таких как DeepSeek-V2, но в R1 они отточены до предела. В результате модель показывает заметно более качественные пошаговые рассуждения (chain-of-thought), что улучшает точность ответов без дополнительных вложений в оборудование.
Контраст с OpenAI: масштаб против точечной эффективности
В то время как DeepSeek делает ставку на экономию и оптимизацию, OpenAI выбрала противоположный путь — масштаб и крупные бюджеты. По оценкам, обучение базовых моделей вроде GPT-3 обходилось компании от 4,6 млн долларов за ранние версии до сотен миллионов за новые, а вместе с инфраструктурой и дальнейшей доработкой сумма может превышать миллиард. Такой разрыв объясняется подходом: OpenAI запускает обучение на кластерах из тысяч GPU Nvidia H100 — самых мощных ускорителей на рынке. Там счет идет на эксафлопсы вычислений и триллионы токенов, чтобы добиться универсальности модели — от ведения диалогов до генерации кода. Все это требует дата-центров с энергопотреблением на уровне небольшого города и команд из сотен специалистов, чьи зарплаты тоже влияют на итоговый бюджет.
Разница заметна не только в масштабах вычислений, но и в самих приоритетах. OpenAI инвестирует в инновации. Например, в модель o1, где во время инференса выполняются дополнительные вычисления. Она задействует больше операций прямо во время инференса: это позволяет системе «размышлять» дольше и повышает точность, но делает каждый запрос заметно дороже. DeepSeek пошла другим путем — вместо наращивания нагрузки они вложились в оптимизацию и предложили API-тарифы, которые в 20–50 раз дешевле, чем у ChatGPT. Такая разница меняет правила игры: если раньше доступ к LLM был оправдан только в крупных корпоративных проектах, то теперь им могут пользоваться небольшие стартапы, исследовательские группы и даже отдельные разработчики. У OpenAI же акцент смещен в сторону подписок и партнерских интеграций, где высокая стоимость обработки токенов закрепляет статус продукта как премиального сервиса — надежного и мощного, но не рассчитанного на массовое повсеместное применение.

Например, для компании, обрабатывающей миллионы токенов в месяц, DeepSeek обойдется в сотни долларов, тогда как OpenAI — в тысячи, что меняет экономику приложений на базе ИИ. Еще одно отличие — зависимость от оборудования: DeepSeek адаптируется под H800, обходя санкционные ограничения, в то время как OpenAI полагается на флагманские Nvidia. Это ускоряет разработку, но увеличивает уязвимость к сбоям в поставках. В итоге ChatGPT по-прежнему остается лидером по числу пользователей и интеграций, но появление DeepSeek показывает: добиться конкурентного качества можно и без миллиардных вложений. Такой пример заставляет крупных игроков пересматривать подходы к затратам и эффективности, а у небольших команд появляется шанс войти в игру.
Скептицизм по поводу «успешного успеха»
Заявление DeepSeek о минимальных расходах на обучение модели вызвало оживленные споры в ИИ-сообществе. Часть специалистов увидела в этом шанс на революцию: R1 показывает результаты на уровне o1 от OpenAI в тестах на логику и математику, но при этом доступна через открытые API по минимальным тарифам. Такой подход дает дорогу к новым экспериментам — от научных проектов до бытовых приложений. На Reddit и X разработчики отмечают, что низкая стоимость делает ИИ реальным инструментом для малого бизнеса и независимых специалистов. Теперь даже задачи вроде анализа данных или автоматизации процессов можно запускать за считанные доллары, тогда как раньше это было по силам только крупным компаниям.
Однако скептиков тоже немало. Среди них — предприниматель Палмер Лаки, основатель Oculus VR и нынешний глава оборонной компании Anduril. Он и другие критики считают, что сумма в 294 тыс. долларов может отражать лишь часть расходов, а настоящие затраты скрыты — например, за счет импорта GPU в обход санкций или государственных субсидий. Подобные сомнения активно обсуждаются и на X: там обращают внимание, что учтенные часы работы на H800, вероятно, не включают подготовку данных, тестирование и инфраструктурные затраты, поэтому реальная стоимость может быть значительно выше.
Геополитический фон только усиливает дискуссию. На фоне торговых противостояний между США и Китаем DeepSeek нередко рассматривают как часть более широкой стратегии: низкие тарифы позволяют компании привлекать международных клиентов и одновременно ослаблять позиции Nvidia и OpenAI, что отражается на фондовом рынке и влияет на распределение инвестиций.
При этом независимые тесты, например бенчмарки от ARC Prize или LMSYS, подтверждают высокую производительность R1. Даже те, кто скептически относится к официальным заявлениям, признают, что инженерам DeepSeek удалось добиться серьезных результатов, хотя и отмечают, что в расчетах могут быть не учтены расходы на команду или ранние этапы разработки.
В целом, опыт DeepSeek показывает, что большие языковые модели можно развивать не только за счет миллиардных инвестиций, но и за счет грамотной оптимизации. Их пример доказывает: даже с ограниченными ресурсами можно добиться заметных результатов и предложить альтернативу крупным игрокам.
Комментарии (3)
Adam_West
01.10.2025 09:03только на неделе пару раз уже писали что реальная стоимость обучения вышла в 10 раз дороже заявленной стоимости
нпрмр
https://habr.com/ru/articles/948882/
smarkelov
01.10.2025 09:03Правда, данные от DeepSeek вызывают сомнения у специалистов: не исключено, что часть расходов осталась «за кадром».
Вот тут то и самое интересное, как я помню, в первых расчетах они "забыли" затраты на железо.
rzcoder
Вспоминается анекдот: