Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.
1
Настоящие экспортные ограничения на ИИ-чипы вступили в силу лишь в октябре 2023 года. Заявления об их неэффективности преждевременны. Модели DeepSeek обучались на GPU Nvidia H800, которые проектировались специально для обхода изначальных экспортных ограничений, введённых в октябре 2022 года. Для решения задач DeepSeek эти устройства обеспечивают уровень производительности, сопоставимый с тем, который дают ускорители H100, доступные в США. GPU Nvidia H20 — самая современная разработка компании, которая может экспортироваться в Китай, отличается меньшей производительностью при обучении моделей. Правда, при этом ускорители H20 обладают серьёзными возможностями, проявляющимися на этапе развёртывания ИИ-систем. Эти возможности заслуживают отдельного разговора.
Хотя ускоритель H20 и имеет ограничения, касающиеся обучения, он ничем специально не ограничен при решении задач развёртывания ИИ-систем. Особенно хорошо он подходит для решения задач, требовательных к памяти, наподобие формирования ответа модели с использованием длинного контекста. Это особенно важно с учётом недавних тенденций. Среди них — вычисления, проводимые во время тестирования модели, генерирование синтетических данных и обучение с подкреплением. Всё это — задачи, которые зависят от объёма памяти больше, чем от вычислительных ресурсов. В декабре 2024 года США ввели ограничения на экспорт в Китай памяти с высокой пропускной способностью. В этой связи необходимо обратить внимание на то, что ускоритель H20 продолжает экспортироваться. Особенно это важно в свете того, что вычисления, проводимые на этапе развёртывания, становятся всё важнее для реализации возможностей ИИ-систем.
2
Экспортные ограничения, касающиеся аппаратного обеспечения, действуют с некоторой задержкой. Пока они применяются недостаточно долго для того, чтобы оказать заметное воздействие.
Не забывайте о том, что в основе всех этих рассуждений лежит предположение об абсолютной эффективности экспортных ограничений. На самом деле это не так. Мы уже видели множество обходных путей в системах контроля за полупроводниками, у нас имеются достоверные сведения о крупномасштабной контрабанде микросхем в Китай. В январе 2025 года в США появился нормативный акт Framework for Artificial Intelligence Diffusion, посвящённый регулированию распространения ИИ-технологий. И, хотя он должен помочь устранить некоторые пробелы, его практическая реализация — это задача не из лёгких.
В Китае всё ещё используются дата-центры, созданные до ограничений. Там работают десятки тысяч чипов, в то время как компании из США создают дата-центры с сотнями тысяч чипов. Реальная проверка эффективности ограничений начнётся, когда дата-центры нужно будет обновлять или расширять. Американским фирмам сделать это всё будет гораздо легче, а китайские компании, находящиеся под экспортными ограничениями США, столкнутся с серьёзными трудностями. Если для обучения моделей следующего поколения потребуется 100000 чипов — экспортные ограничения серьёзно повлияют на разработку передовых китайских ИИ-систем. Но, даже если не размышлять о вычислительных ресурсах таких масштабов, экспортные ограничения подействуют на ИИ-экосистему Китая. Это выразится в снижении возможностей разработки, в ограничении роста компаний, в создании препятствий в сферах обучения моделей на синтетических данных и обучения, в ходе которого модели взаимодействуют сами с собой.
3
Тот факт, что модель DeepSeek V3 была обучена с привлечением меньших вычислительных ресурсов, неудивителен. Алгоритмы машинного обучения всегда со временем становятся менее ресурсоёмкими. Но тот же прирост эффективности алгоритмов, который позволяет небольшим игрокам рынка, вроде DeepSeek, обращаться к определённым ресурсам («эффект доступа»), возможно, позволит другим компаниям создавать более мощные системы на более крупных вычислительных кластерах («эффект производительности»). К нашему счастью, компания DeepSeek обучала модель V3 на 2000 ускорителей H800, а не на 200000 ускорителей B200 (устройства последнего поколения, выпущенные Nvidia).
4
Выбор времени выпуска модели может быть стратегическим решением, но технологии — это реальность. Релиз модели R1 во время инаугурации президента Дональда Трампа, возможно, рассчитан на то, чтобы, в переломный для политики США момент, подорвать общественное доверие к лидерству США в ИИ-сфере. Нечто похожее произошло, когда компания Huawei представила новый смартфон во время визита в Китай бывшего министра торговли США Джины Раймондо. Надо отметить, что результаты бенчмарков модели DeepSeek-R1-Lite-Preview были выложены в открытый доступ ещё в ноябре.
Точно рассчитанный PR-ход китайской компании не должен заслонять два реальных факта. Это — проблемы DeepSeek, связанные с техническим прогрессом, и структурные проблемы китайской ИИ-отрасли, которые всё сильнее действуют на компанию из-за экспортных ограничений.
5
Экспортным ограничениям сложнее повлиять на отдельные сеансы обучения моделей, чем на целую ИИ-экосистему. Очень важно то, что ограничения на самые продвинутые чипы способны реально помешать развёртыванию крупномасштабных ИИ-систем (то есть — тех, которые позволяют большому количеству пользователей работать с ИИ-службами), а так же — способны замедлить развитие возможностей моделей. ИИ-компании обычно тратят 60-80% своих вычислительных ресурсов на развёртывание проектов, причём, эта ситуация возникла ещё до появления моделей, способных выполнять логические рассуждения и требовательных к вычислительным мощностям. Ограничения доступа к таким мощностям приведут к повышению затрат Китая на ИИ, затруднят массовое развёртывание ИИ-систем и снизят их возможности.
Важно то, что вычисления, проводимые в развёрнутых проектах, не ограничиваются обслуживанием пользователей. Они чрезвычайно важны для генерирования синтетических обучающих данных, для обеспечения обратной связи посредством взаимодействия моделей, для создания, масштабирования, дистилляции моделей.
Например — взгляните на этот недавний комментарий пользователя gwern. Там речь идёт о том, что вычисления, выполняемые в развёрнутых моделях, играют чрезвычайно важную роль, не ограниченную обслуживанием пользователей. Модели, наподобие o1 от OpenAI, используются при генерировании высококачественных обучающих данных для будущих моделей. Эти модели применяют для создания контуров обратной связи, когда результаты работы развёрнутых моделей используются для непосредственного улучшения возможностей и эффективности моделей, находящихся в разработке.
6
Причина успехов моделей DeepSeek, вероятно, заключается в том, что у компании раньше был доступ к значительным вычислительным мощностям. Как это ни странно, путь к использованию меньшего количества чипов (то есть — путь к «эффективности») может начинаться с периода, когда модель требует гораздо большего количества ресурсов. Компания DeepSeek пользовалась первым азиатским кластером из 10000 ускорителей A100. Сообщается о том, что она поддерживает 50000 вычислительных узлов «Hoppers» (такие вычислительные узлы могут быть основаны на устройствах Nvidia H100, H800 или H20). У неё, кроме того, был неограниченный доступ к китайским и иностранным облачным провайдерам (экспортные ограничения к ним не применялись). Вероятно, доступ к вычислительным ресурсам такого масштаба стал ключевым фактором в разработке эффективных механизмов через метод проб и ошибок, а также в обеспечении клиентского доступа к модели.
Недавние всплески использования ресурсов в других ИИ-компаниях привели к сбоям в службах, и это — несмотря на более крупные вычислительные мощности. Пока не выяснено — способна ли компания DeepSeek справляться с подобными ситуациями. Учитывая то, что вычислительные ресурсы этой компании не слишком велики, она в таких ситуациях может столкнуться с проблемами. (Сэм Альтман даже заявлял, что сейчас эта компания теряет деньги на подписке ChatGPT Pro).
Модель DeepSeek R1 демонстрирует впечатляющую эффективность, но её разработка потребовала огромных вычислительных ресурсов для генерирования синтетических данных, для дистилляции модели и для экспериментов.
7
Главным ограничением DeepSeek остаётся разрыв в вычислительных мощностях между США и Китаем, который становится всё заметнее из-за экспортных ограничений. Руководство компании открыто признало, что, несмотря на превосходство в эффективности, у неё имеется 4-кратное отставание в вычислительных ресурсах. Основатель DeepSeek Лян Вэньфэн заявил: «это означает, что нам, для достижения тех же результатов, требуется вдвое больше вычислительной мощности. Кроме того, имеется примерно 2-кратный разрыв в эффективности обработки данных, а это значит, что нам нужно вдвое больше обучающих данных и вычислительных ресурсов для достижения сравнимых результатов. Всё вместе это и требует вчетверо больше вычислительных мощностей». Он добавил: «У нас нет краткосрочных планов по сбору средств. Финансирование никогда не было нашей проблемой. Наша проблема — это эмбарго на высокопроизводительные чипы».
8
Ведущие американские компании держат в тайне свои лучшие разработки, поэтому общедоступные бенчмарки дают неполную картину прогресса в сфере ИИ. В то время как некоторые китайские фирмы открыто делятся своими достижениями, компании вроде Anthropic, Google и OpenAI многое скрывают. В результате прямые сравнения на основе общедоступной информации оказываются неполными. Компания DeepSeek привлекла к себе внимание отчасти из-за её открытости — она не скрывает подробностей о весах моделей и о применяемых ей методах, что отличает её от западных компаний, в которых наблюдается нарастающая тенденция к закрытости. Правда, пока неясно, даёт ли открытость какие-либо стратегические преимущества. Нам было бы интересно увидеть больше обсуждений и аналитических материалов, посвящённых этой теме.
И что теперь?
Достижения DeepSeek реальны и значительны. Мы считаем ошибочными утверждения, которые сводят успехи компании к обычной пропаганде.
Затраты на обучение моделей, о которых сообщила DeepSeek, нельзя назвать беспрецедентными, учитывая исторический тренд на повышение эффективности алгоритмов. Но для выполнения сравнений нужно тщательно анализировать обстоятельства, в которых происходили те или иные события. DeepSeek сообщает лишь о стоимости финального предобучения модели, не говоря о других важных статьях затрат. Среди них — оплата труда работников, предварительные эксперименты, сбор данных, настройка инфраструктуры. Взгляните на этот материал — там вы найдёте дискуссию о том, как применение разных методов подсчёта затрат может привести к некорректным сравнениям.
Реальное положение дел, касающееся растущей вычислительной эффективности алгоритмов, ведёт к неизбежности распространения ИИ-технологий. Одних лишь ограничений недостаточно: ограничения должны применяться вместе с мерами по повышению устойчивости и защиты общества. Речь идёт о создании структур для выявления, оценки и устранения ИИ-рисков. Сюда же относится создание надёжной защиты от потенциально вредоносных ИИ-приложений, созданных неприятелем. Правда, надо признать то, что экспортные ограничения уже подействовали на ИИ-разработки Китая, а так же то, что в будущем это действие усилится.
В то время как сами модели могут и не быть тем стратегическим барьером, которым многие их считают, воздействие ограничений вычислительных ресурсов на национальную безопасность может варьироваться от случая к случаю. В ситуациях, когда требуются крупномасштабные развёртывания ИИ-систем (вроде массового наблюдения) ограничения вычислительных ресурсов могут создавать серьёзные препятствия. А в случае с приложениями, предназначенными для индивидуального использования, ограничения играют менее значительную роль. Взаимоотношения между доступом к вычислительным ресурсам и национальной безопасностью остаются сложными, несмотря на то, что воспроизведение возможностей моделей стало проще.
И хотя распространение ИИ-разработок по миру, вероятно, продолжится независимо от ограничений (какие бы ограничения ни применялись, полностью остановить распространение технологий всегда сложно), ограничения по-прежнему будут играть важную роль в поддержании нашего технологического превосходства. Ограничения позволяют выиграть ценное время, но им должна сопутствовать политика, обеспечивающая лидерство демократических держав и их устойчивость перед противниками.
О, а приходите к нам работать? ? ?
Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.
Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.
Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.
Anvano
Учитывая, что 70% запасов редкоземельных металлов, используемых в производстве микроэлектроники, приходится на Китай (https://habr.com/ru/companies/ru_mts/articles/826968/), то он, вероятно, может просто перестать их экспортировать в прежних объемах, или ввести бартер металлов на необходимую продукцию производимую из них.
Хотите получать материалы для чипов - будьте любезны поделиться самими чипами. Хотите санкции - ну тогда и сами останетесь без чипов, которые будет не из чего производить.
knstqq
пару лет колошматить будет, потом выровняется всё. сейчас 70% редкоземельных металлов добывается в китае исключительно потому что им примерно срать на экологию, а значит себестоимость добычи в десятки или сотни раз меньше, чем в зарегулированных странах; а это значит что просто нет экономической мотивации что-то делать за исключительными ситуациями. Встанут раком - через 2 года будет 60% вместо 70, а через 5 - треть хорошо если будет.