Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.

1
Настоящие экспортные ограничения на ИИ-чипы вступили в силу лишь в октябре 2023 года. Заявления об их неэффективности преждевременны. Модели DeepSeek обучались на GPU Nvidia H800, которые проектировались специально для обхода изначальных экспортных ограничений, введённых в октябре 2022 года. Для решения задач DeepSeek эти устройства обеспечивают уровень производительности, сопоставимый с тем, который дают ускорители H100, доступные в США. GPU Nvidia H20 — самая современная разработка компании, которая может экспортироваться в Китай, отличается меньшей производительностью при обучении моделей. Правда, при этом ускорители H20 обладают серьёзными возможностями, проявляющимися на этапе развёртывания ИИ-систем. Эти возможности заслуживают отдельного разговора.
Хотя ускоритель H20 и имеет ограничения, касающиеся обучения, он ничем специально не ограничен при решении задач развёртывания ИИ-систем. Особенно хорошо он подходит для решения задач, требовательных к памяти, наподобие формирования ответа модели с использованием длинного контекста. Это особенно важно с учётом недавних тенденций. Среди них — вычисления, проводимые во время тестирования модели, генерирование синтетических данных и обучение с подкреплением. Всё это — задачи, которые зависят от объёма памяти больше, чем от вычислительных ресурсов. В декабре 2024 года США ввели ограничения на экспорт в Китай памяти с высокой пропускной способностью. В этой связи необходимо обратить внимание на то, что ускоритель H20 продолжает экспортироваться. Особенно это важно в свете того, что вычисления, проводимые на этапе развёртывания, становятся всё важнее для реализации возможностей ИИ-систем.
2
Экспортные ограничения, касающиеся аппаратного обеспечения, действуют с некоторой задержкой. Пока они применяются недостаточно долго для того, чтобы оказать заметное воздействие.
Не забывайте о том, что в основе всех этих рассуждений лежит предположение об абсолютной эффективности экспортных ограничений. На самом деле это не так. Мы уже видели множество обходных путей в системах контроля за полупроводниками, у нас имеются достоверные сведения о крупномасштабной контрабанде микросхем в Китай. В январе 2025 года в США появился нормативный акт Framework for Artificial Intelligence Diffusion, посвящённый регулированию распространения ИИ-технологий. И, хотя он должен помочь устранить некоторые пробелы, его практическая реализация — это задача не из лёгких.
В Китае всё ещё используются дата-центры, созданные до ограничений. Там работают десятки тысяч чипов, в то время как компании из США создают дата-центры с сотнями тысяч чипов. Реальная проверка эффективности ограничений начнётся, когда дата-центры нужно будет обновлять или расширять. Американским фирмам сделать это всё будет гораздо легче, а китайские компании, находящиеся под экспортными ограничениями США, столкнутся с серьёзными трудностями. Если для обучения моделей следующего поколения потребуется 100000 чипов — экспортные ограничения серьёзно повлияют на разработку передовых китайских ИИ-систем. Но, даже если не размышлять о вычислительных ресурсах таких масштабов, экспортные ограничения подействуют на ИИ-экосистему Китая. Это выразится в снижении возможностей разработки, в ограничении роста компаний, в создании препятствий в сферах обучения моделей на синтетических данных и обучения, в ходе которого модели взаимодействуют сами с собой.

3
Тот факт, что модель DeepSeek V3 была обучена с привлечением меньших вычислительных ресурсов, неудивителен. Алгоритмы машинного обучения всегда со временем становятся менее ресурсоёмкими. Но тот же прирост эффективности алгоритмов, который позволяет небольшим игрокам рынка, вроде DeepSeek, обращаться к определённым ресурсам («эффект доступа»), возможно, позволит другим компаниям создавать более мощные системы на более крупных вычислительных кластерах («эффект производительности»). К нашему счастью, компания DeepSeek обучала модель V3 на 2000 ускорителей H800, а не на 200000 ускорителей B200 (устройства последнего поколения, выпущенные Nvidia).

4
Выбор времени выпуска модели может быть стратегическим решением, но технологии — это реальность. Релиз модели R1 во время инаугурации президента Дональда Трампа, возможно, рассчитан на то, чтобы, в переломный для политики США момент, подорвать общественное доверие к лидерству США в ИИ-сфере. Нечто похожее произошло, когда компания Huawei представила новый смартфон во время визита в Китай бывшего министра торговли США Джины Раймондо. Надо отметить, что результаты бенчмарков модели DeepSeek-R1-Lite-Preview были выложены в открытый доступ ещё в ноябре.
Точно рассчитанный PR-ход китайской компании не должен заслонять два реальных факта. Это — проблемы DeepSeek, связанные с техническим прогрессом, и структурные проблемы китайской ИИ-отрасли, которые всё сильнее действуют на компанию из-за экспортных ограничений.
5
Экспортным ограничениям сложнее повлиять на отдельные сеансы обучения моделей, чем на целую ИИ-экосистему. Очень важно то, что ограничения на самые продвинутые чипы способны реально помешать развёртыванию крупномасштабных ИИ-систем (то есть — тех, которые позволяют большому количеству пользователей работать с ИИ-службами), а так же — способны замедлить развитие возможностей моделей. ИИ-компании обычно тратят 60-80% своих вычислительных ресурсов на развёртывание проектов, причём, эта ситуация возникла ещё до появления моделей, способных выполнять логические рассуждения и требовательных к вычислительным мощностям. Ограничения доступа к таким мощностям приведут к повышению затрат Китая на ИИ, затруднят массовое развёртывание ИИ-систем и снизят их возможности.
Важно то, что вычисления, проводимые в развёрнутых проектах, не ограничиваются обслуживанием пользователей. Они чрезвычайно важны для генерирования синтетических обучающих данных, для обеспечения обратной связи посредством взаимодействия моделей, для создания, масштабирования, дистилляции моделей.
Например — взгляните на этот недавний комментарий пользователя gwern. Там речь идёт о том, что вычисления, выполняемые в развёрнутых моделях, играют чрезвычайно важную роль, не ограниченную обслуживанием пользователей. Модели, наподобие o1 от OpenAI, используются при генерировании высококачественных обучающих данных для будущих моделей. Эти модели применяют для создания контуров обратной связи, когда результаты работы развёрнутых моделей используются для непосредственного улучшения возможностей и эффективности моделей, находящихся в разработке.
6
Причина успехов моделей DeepSeek, вероятно, заключается в том, что у компании раньше был доступ к значительным вычислительным мощностям. Как это ни странно, путь к использованию меньшего количества чипов (то есть — путь к «эффективности») может начинаться с периода, когда модель требует гораздо большего количества ресурсов. Компания DeepSeek пользовалась первым азиатским кластером из 10000 ускорителей A100. Сообщается о том, что она поддерживает 50000 вычислительных узлов «Hoppers» (такие вычислительные узлы могут быть основаны на устройствах Nvidia H100, H800 или H20). У неё, кроме того, был неограниченный доступ к китайским и иностранным облачным провайдерам (экспортные ограничения к ним не применялись). Вероятно, доступ к вычислительным ресурсам такого масштаба стал ключевым фактором в разработке эффективных механизмов через метод проб и ошибок, а также в обеспечении клиентского доступа к модели.
Недавние всплески использования ресурсов в других ИИ-компаниях привели к сбоям в службах, и это — несмотря на более крупные вычислительные мощности. Пока не выяснено — способна ли компания DeepSeek справляться с подобными ситуациями. Учитывая то, что вычислительные ресурсы этой компании не слишком велики, она в таких ситуациях может столкнуться с проблемами. (Сэм Альтман даже заявлял, что сейчас эта компания теряет деньги на подписке ChatGPT Pro).
Модель DeepSeek R1 демонстрирует впечатляющую эффективность, но её разработка потребовала огромных вычислительных ресурсов для генерирования синтетических данных, для дистилляции модели и для экспериментов.
7
Главным ограничением DeepSeek остаётся разрыв в вычислительных мощностях между США и Китаем, который становится всё заметнее из-за экспортных ограничений. Руководство компании открыто признало, что, несмотря на превосходство в эффективности, у неё имеется 4-кратное отставание в вычислительных ресурсах. Основатель DeepSeek Лян Вэньфэн заявил: «это означает, что нам, для достижения тех же результатов, требуется вдвое больше вычислительной мощности. Кроме того, имеется примерно 2-кратный разрыв в эффективности обработки данных, а это значит, что нам нужно вдвое больше обучающих данных и вычислительных ресурсов для достижения сравнимых результатов. Всё вместе это и требует вчетверо больше вычислительных мощностей». Он добавил: «У нас нет краткосрочных планов по сбору средств. Финансирование никогда не было нашей проблемой. Наша проблема — это эмбарго на высокопроизводительные чипы».

8
Ведущие американские компании держат в тайне свои лучшие разработки, поэтому общедоступные бенчмарки дают неполную картину прогресса в сфере ИИ. В то время как некоторые китайские фирмы открыто делятся своими достижениями, компании вроде Anthropic, Google и OpenAI многое скрывают. В результате прямые сравнения на основе общедоступной информации оказываются неполными. Компания DeepSeek привлекла к себе внимание отчасти из-за её открытости — она не скрывает подробностей о весах моделей и о применяемых ей методах, что отличает её от западных компаний, в которых наблюдается нарастающая тенденция к закрытости. Правда, пока неясно, даёт ли открытость какие-либо стратегические преимущества. Нам было бы интересно увидеть больше обсуждений и аналитических материалов, посвящённых этой теме.
И что теперь?
Достижения DeepSeek реальны и значительны. Мы считаем ошибочными утверждения, которые сводят успехи компании к обычной пропаганде.
Затраты на обучение моделей, о которых сообщила DeepSeek, нельзя назвать беспрецедентными, учитывая исторический тренд на повышение эффективности алгоритмов. Но для выполнения сравнений нужно тщательно анализировать обстоятельства, в которых происходили те или иные события. DeepSeek сообщает лишь о стоимости финального предобучения модели, не говоря о других важных статьях затрат. Среди них — оплата труда работников, предварительные эксперименты, сбор данных, настройка инфраструктуры. Взгляните на этот материал — там вы найдёте дискуссию о том, как применение разных методов подсчёта затрат может привести к некорректным сравнениям.
Реальное положение дел, касающееся растущей вычислительной эффективности алгоритмов, ведёт к неизбежности распространения ИИ-технологий. Одних лишь ограничений недостаточно: ограничения должны применяться вместе с мерами по повышению устойчивости и защиты общества. Речь идёт о создании структур для выявления, оценки и устранения ИИ-рисков. Сюда же относится создание надёжной защиты от потенциально вредоносных ИИ-приложений, созданных неприятелем. Правда, надо признать то, что экспортные ограничения уже подействовали на ИИ-разработки Китая, а так же то, что в будущем это действие усилится.
В то время как сами модели могут и не быть тем стратегическим барьером, которым многие их считают, воздействие ограничений вычислительных ресурсов на национальную безопасность может варьироваться от случая к случаю. В ситуациях, когда требуются крупномасштабные развёртывания ИИ-систем (вроде массового наблюдения) ограничения вычислительных ресурсов могут создавать серьёзные препятствия. А в случае с приложениями, предназначенными для индивидуального использования, ограничения играют менее значительную роль. Взаимоотношения между доступом к вычислительным ресурсам и национальной безопасностью остаются сложными, несмотря на то, что воспроизведение возможностей моделей стало проще.
И хотя распространение ИИ-разработок по миру, вероятно, продолжится независимо от ограничений (какие бы ограничения ни применялись, полностью остановить распространение технологий всегда сложно), ограничения по-прежнему будут играть важную роль в поддержании нашего технологического превосходства. Ограничения позволяют выиграть ценное время, но им должна сопутствовать политика, обеспечивающая лидерство демократических держав и их устойчивость перед противниками.
О, а приходите к нам работать? ? ?
Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.
Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.
Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.
Комментарии (36)
SADKO
03.02.2025 08:51Ребята, а человек-ли? написавший статью. Точно ли имеет какое-либо отношение к брижам, вне биржам, и высокочастотке в частности?
ИМХО ситуация, предельно проста, даже для тех кто не в теме и дорожной карты не знает.
Ведь даже если искренне верить, в происходящий спектакль, очевидно что китайцы не разу не дураки. Ведь не первый-же раз нечто ценное выходит в паблик, и взрослые люди прекрасно знают зачем такое бывает!
Так что запасаемся попкорном, ни или санкции вдруг снимут, но это уже не важно.
Сегодня-ли завтра, нас ждут увлекательные экскурсы в историю информационных технологий ;-)
vmalyutin
03.02.2025 08:51Американцы все думают что и где им ещё ограничить. Так себе лидерство. Только прогресс тормозят.
ssj100
03.02.2025 08:51Так себе лидерство. Только прогресс тормозят.
Вам то без разницы, а они хотят и дальше пировать и менять золото на бусы. Поэтому готовы тормозить хоть всему миру
uzverkms
03.02.2025 08:51Могли бы и атомную бомбу не секретить и ограничивать. А то пришлось воровать чертежи и делать свою с опозданием в 4 года.
surarus
03.02.2025 08:51Сейчас все эти ИИ (OpenAI, DeepSeeker, Ali) на поверхности не больше чем информационный повод для манипуляций рынками и т.п.
Гораздо страшнее то, что происходит за кулисами. На мой взгляд, разработка AGI (искусственного общего интеллекта) — вот что действительно скрывается за всеми этими событиями. Государства просто демонстрируют, кто лидирует в этой гонке. Пока что только две державы заявили о себе — это Китай и США. Странно, что Европа не спешит включиться в этот процесс, но, думаю, не за горами великий французский ИИ.
dv0ich
03.02.2025 08:51думаю, не за горами великий французский ИИ
Который будет делать вид, что не понимает по-английски :)
На мой взгляд, разработка AGI (искусственного общего интеллекта) — вот что действительно скрывается за всеми этими событиями
Мне почему-то думается, что государства - главные противники AGI. Это же сверхразумный субъект, от которого непонятно что ждать. Государства такое не любят.
Hardcoin
03.02.2025 08:51Скрывается за кулисами? Джо зоркий глаз, о разработке AGI говорит каждая компания.
surarus
03.02.2025 08:51Говорит то "каждая", что работает над ним или собирается начать работать над ним! Но AGI требует огромных количеств данных для своих моделей, и как следствие не меньшее количество ресурсов, при этом ресурс здесь не только "деньги"!
AGI - как новое ядерное оружие, ничто без его "демонстрации". А демонстрация может иметь различные реализации:
- Кибератаки: AGI может быть использован для разработки сложных кибератак, которые могут нарушить работу критически важных инфраструктур, таких как энергетические сети, транспортные системы или финансовые учреждения.
- Автономные боевые системы: AGI может управлять автономными боевыми системами, такими как дроны или роботы;
- Манипуляция финансовыми рынками: AGI может создавать и распространять дезинформацию, фейковые новости или пропаганду;
- Разработка оружия: AGI может быть использован для разработки новых видов оружия;
- Саботаж: AGI может анализировать данные о людях и использовать эту информацию для планирования и выполнения саботажа, направленного на разрушение критически важных объектов или инфраструктуры;
- Автоматизация контрразведки: AGI может анализировать гигантские объемы информации и находить в них паттерны, не явные для человека.
Можно конечно сказать, что никакой компьютер не сможет взломать "бумажную картотеку", но AGI может "взломать" человека которой работает в этой "картотеке" и не всегда это могут быть "угрозы или шантаж", это вполне может быть цепочка действий направленных на "доведение" человека к принятию тех или иных взглядов и совершению поступков. Простой пример "мошенники" которые умудряются обчистить и спровоцировать людей на противоправные действия, для AGI это проще-простого!
Мы в шаге от этой реальности, если уже не в ней!
Даже фильм про это сняли в 2008 году, "На крючке"("Eagle Eye")
sfunx
03.02.2025 08:51Пока не выяснено — способна ли компания DeepSeek справляться с подобными ситуациями. Учитывая то, что вычислительные ресурсы этой компании не слишком велики, она в таких ситуациях может столкнуться с проблемами. (Сэм Альтман даже заявлял, что сейчас эта компания теряет деньги на подписке ChatGPT Pro)
Контекст утерян. Эта компания — это DeepSeek или OpenAI?
ilih
03.02.2025 08:51К нашему счастью, компания DeepSeek обучала модель V3 на 2000 ускорителей H800, а не на 200000 ускорителей B200 (устройства последнего поколения, выпущенные Nvidia).
2048 H800 только на пред-обучение, 119 тысяч на обучение, и еще 5 тысяч на пост-обучение.
DeepSeek-V3 Technical ReportDuring the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K
H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pretraining stage is completed in less than two months and costs 2664K GPU hours. Combined
with 119K GPU hours for the context length extension and 5K GPU hours for post-training,
DeepSeek-V3 costs only 2.788M GPU hours for its full training.Flux
03.02.2025 08:512048 H800 только на пред-обучение, 119 тысяч на обучение, и еще 5 тысяч на пост-обучение.
our pretraining stage is completed in less than two months and costs 2664K GPU hours. Combined
with 119K GPU hours for the context length extension and 5K GPU hours for post-trainingВы сравниваете штуки GPU и GPU-часы.
Roxalon
03.02.2025 08:51Ну вы хотя бы прочитали вашу собственную цитату 180.000 это число видеокарто-часов то есть 3,7 суток работы кластера из 2048 h800 GPU
barabasu
03.02.2025 08:51Соединённые пока ещё Штаты не могут или боятся, что-ли, признать, что Китай и в чипах, и в ИИ, их уже обощёл? Или стал на равных. И что их ССанкции на некоторых не действуют. Действуют они только на слабые страны.
Скоро Штаты сами уже будут ломать голову насчёт того, как санкции Китая обойти.
Anvano
Учитывая, что 70% запасов редкоземельных металлов, используемых в производстве микроэлектроники, приходится на Китай (https://habr.com/ru/companies/ru_mts/articles/826968/), то он, вероятно, может просто перестать их экспортировать в прежних объемах, или ввести бартер металлов на необходимую продукцию производимую из них.
Хотите получать материалы для чипов - будьте любезны поделиться самими чипами. Хотите санкции - ну тогда и сами останетесь без чипов, которые будет не из чего производить.
knstqq
пару лет колошматить будет, потом выровняется всё. сейчас 70% редкоземельных металлов добывается в китае исключительно потому что им примерно срать на экологию, а значит себестоимость добычи в десятки или сотни раз меньше, чем в зарегулированных странах; а это значит что просто нет экономической мотивации что-то делать за исключительными ситуациями. Встанут раком - через 2 года будет 60% вместо 70, а через 5 - треть хорошо если будет.
Aggle
Насколько я знаю, китайцам на экологию уже давно не срать, хотя да, такая ситуация была ещё лет 20 назад. К примеру - при переработке золотосодержащих концентратов они почти полностью отказались от технологии обжига, при которой в воздух улетает куча мышьяка и прочей гадости (ну или поезда денег на газоочистку). Не знаю, насколько далеко зашёл движ, но отношение к экологической обстановке меняется в лучшую сторону;
Организация полного цикла работ по добыче, переработке и обогащению - процесс весьма долгий (года 3 точно), плюс необходимы профильные специалисты, которые в парниках не растут, а растут в вузах и на производстве, например в том же Китае;
Нахожу весьма вероятным, что ситуацию с редкозёмами попытаются изменить потенциальные игроки рынка (Россия в том числе), но вопрос в сроках - это явно будет не год и не два;
Ну и надо думать, что китайцы тоже не будут почивать на лаврах, а уж в плане крупных инфраструктурных проектов им вообще сейчас нет равных.
PetyaUmniy
Это правда лишь отчасти. Многие редкоземельные элементы получают как побочный продукт переработки сырья для обычных элементов, таких как железо, титан и фосфор. Соответственно если этого основного производства нет, или оно не достаточно отмаштабированно, то объемы и себестоимость производства РЗЭ на нем будет неудовлетворительными. Если Китай производит 50% мировой стали (и вероятно плюс/минус такой же подавляющий процент остальных типичных элементов) и в то же время обладает и капиталом и технологиями, то у него появляется исключительное положение на рынке РЗЭ. Так просто, "за 2 года" его не заменить.
cry_san
-Встанут раком
Ошибаетесь, просто пойдут войной на нас. Отобрать проще...
13i
70% != 100%
Чем производительнее чип - тем меньше нужно материала для его изготовления.
Скорее Китай постепенно сам доведет технологические процессы или захватит Тайвань в 2027 году.
Alexsey
А вы видимо не знакомы с процентом брака на современных техпроцессах? На самых свежих нодах TSMC 40% пластины уходят в утиль. На старте продаж PS5 там вообще 50% пластины с процессорами для нее не проходили контроль качества.
Hardcoin
Металл из утиля не пропадает. Добыть его из пластины не сложнее, чем из руды.
AbitLogic
Добыть металл из кремниевых пластин?))) ну успехов
Retifff
Там вроде Трамп на Гренландию нацелился в том числе как раз из-за залежей редкоземельных металлов.
VanishingPoint
Это полная чушь, доля цены всяких "залежей" (в том числе таких которые используются для получения энергии) в конечном продукте ничтожно мала. Иначе бы мы наблюдали заметные колебания цены на всю продукцию, когда нефть становится дороже или дешевле. Но их не было, даже когда нефть стоила 140 долларов за баррель.
Для того чтобы какой-нибудь продукт (например, смартфон) вырос в цене в 2 раза из-за стоимости сырья или энергии, необходимо чтобы стоимость сырья или энергии выросла наверное раз в 100.
Hardcoin
Ошибаетесь. 70% поставок, это не 70% запасов. Редкоземельные металлы, несмотря на название, не редкие (если учитывать объемы спроса), добываются много где, просто в Китае дешевле всего. США готово платить больше. Так что Китай создаёт некоторые проблемы, но по-настоящему на производстве чипов это не скажется
Mamonthful
не так.
большинство "редкоземельных" металлов потому так и названо, что они довольно равномерно рассеяны по всей литосфере, где чуть больше, где чуть менье. Так, один из источников германия - ... каменноугольная зола! Это же, фактически, концентированный остаток осадочной породы.
Так что в Китае нет каких-то особых месторождений. Там большие мощности по переработке прочих элементов земной коры, а из отвалов обогатительных комбинатов можно добыть и германий и галлий и прочие.
Почему другие страны так не делают? Добыча открытым способом и переработка - неблагодарное дело, уродование ландшафта и экосистем. Могут позволить себе сохранять природу и экологию.
Aggle
США вполне себе добывают. При грамотном подходе (рекультивация, контроль выбросов и т. п.) вред для окружающей среды минимален, а без полезных ископаемых цивилизации кирдык. В Европе несколько сложнее, в силу меньшего количества месторождений и некоторой тесноты, но и там добывают вполне себе (853 предприятия с ОГР на 2023 год). Объёмы тоже нехилые местами: Belchatow Mine (Польша, уголь) - 61,5 млн. т/год, Aitik Mine (Швеция, медь) - 42,7 млн. т/год, Maritsa East Mine (Болгария, уголь) - 32 млн. т/год.
DenSigma
Можно уточнить, 70% редкоземельных металлов ДОБЫВАЮТСЯ в Китае, или находятся в РЗВЕДАННЫХ месторождениях?
Даже то, что это находится в разведанных месторождениях, мало что означает - будет необходимость, пошарят по земному шарику и, уверен, найдут.