DeepSeek называют «поразительной и впечатляющей», несмотря на использование менее совершенных чипов.

Китайская компания в сфере искусственного интеллекта заставила Кремниевую долину недоумевать, как её программистам удалось почти сравняться с американскими конкурентами, используя более слабые чипы.

Дисклеймер: это вольный перевод колонки издания The Wall Street Journal, которую написал Рафаэль Хуанг. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Обсудить пилот или задать вопрос об LLM можно здесь.

Модели DeepSeek резво вошли в мировую десятку лидеров по производительности. Это свидетельствует о том, что экспортные ограничения Вашингтона с трудом сдерживают быстрый прогресс в Китае.

20 января DeepSeek представила R1 — специализированную модель, созданную для решения сложных задач.

«DeepSeek R1 — одно из самых удивительных и впечатляющих достижений, которые я когда-либо видел», — написал в пятницу в X венчурный капиталист Кремниевой долины Марк Андрессен, который консультирует президента Трампа.

Прорыв DeepSeek спровоцировал в понедельник утреннее падение акций чипмейкеров на фоне опасений, оправданы ли огромные расходы американских IT-гигантов на передовые полупроводники и прочую инфраструктуру ИИ. Фьючерсы на Nasdaq-100, ориентированный на технологический сектор, снизились на 4%, при этом бумаги Nvidia рухнули более чем на 10% до начала торгов.

Разработку DeepSeek возглавил китайский менеджер хедж-фонда Лянь Вэньфэн, ставший лицом национального рывка в сфере ИИ. 20 января он встретился с премьером Китая и обсудил с ним, как местные компании могут сократить отставание от США.

Лян Вэньфэн, сидящий перед микрофоном, был показан по китайскому государственному телевидению, выступая на встрече, посвященной искусственному интеллекту.
Лян Вэньфэн, сидящий перед микрофоном, был показан по китайскому государственному телевидению, выступая на встрече, посвященной искусственному интеллекту.

Специалисты отмечают, что технология DeepSeek пока уступает OpenAI и Google. Но она вплотную приблизилась к лидерам, несмотря на более скромное число чипов и меньшее их совершенство, а также на пропуск некоторых этапов, которые американские разработчики считали обязательными.

В DeepSeek заявили, что обучение одной из новейших моделей обошлось в 5,6 миллиона долларов, тогда как по словам Дарио Амодеи, главы разработчика ИИ Anthropic, затраты на создание модели могут колебаться в диапазоне от 100 миллионов до 1 миллиарда долларов.

Барретт Вудсайд, сооснователь сан-францисской компании по производству аппаратуры для ИИ Positron, рассказал, что он и его коллеги активно обсуждают DeepSeek. «Это очень круто, — заметил Вудсайд, — особенно учитывая, что модели DeepSeek имеют открытый код, который предоставляется бесплатно».

Пользователи последней флагманской модели DeepSeek, названной V3 и выпущенной в декабре, заметили, что она отказывается отвечать на острые политические вопросы о Китае и его лидере Си Цзиньпине. Иногда продукт даёт ответы, согласующиеся с официальной пропагандой Пекина, вместо того чтобы включать точку зрения критиков правительства, как это делает ChatGPT.

«Единственный её недостаток — примитивная цензура КНР, — сказал Вудсайд, имея в виду Китайскую Народную Республику. — Но это можно убрать, так как другие разработчики могут свободно модифицировать код».

В DeepSeek отмечают, что R1 и V3 работают лучше или сравнимо с передовыми западными моделями. По состоянию на субботу обе модели входили в первую десятку Chatbot Arena — платформы, созданной при Университете Калифорнии в Беркли для оценки качества чат-ботов. Модель Gemini от Google заняла верхнюю позицию, тогда как DeepSeek обошла Claude от Anthropic и Grok от xAI Илона Маска.

DeepSeek возникла на базе исследовательского подразделения High-Flyer, хедж-фонда с активами в 8 миллиардов долларов, известного применением ИИ в торговле.

«Когда люди принимают инвестиционные решения, это искусство, и делают они это интуитивно. Когда такие решения принимают компьютерные программы, это уже наука, и она даёт оптимальный результат», — заявил Лянь в своей речи в 2019 году.

Лянь, родившийся в 1985 году, вырос в юго-восточной провинции Гуандун. Он поступил в престижный Чжэцзянский университет и специализировался на машинном зрении. Спустя несколько лет после выпуска, в 2015 году, Лянь вместе с двумя однокурсниками основал High-Flyer.

По словам людей из близкого окружения, Ляню больше по душе, когда его считают инженером, а не трейдером. Его High-Flyer одним из первых в Китае применил глубокое обучение в компьютеризированной торговле. Эта технология, смоделированная по образцу человеческого мозга, даёт компьютерам возможность обрабатывать более разнообразные типы данных.

Хотя флагманская модель DeepSeek бесплатна, компания берёт деньги с пользователей, которые подключают к ней собственные приложения, используя её вычислительную инфраструктуру. Например, бизнес может внедрить эту технологию для ответов на вопросы клиентов.

В начале прошлого года DeepSeek снизила цены на такие услуги до уровня, гораздо более доступного, чем у конкурентов. Это спровоцировало ценовую войну в отрасли.

Энтони Пу, сооснователь стартапа из Кремниевой долины, использующего генеративный ИИ для прогнозирования финансовых показателей, рассказал, что в сентябре его компания перешла с модели Claude от Anthropic на DeepSeek. Испытания показали, что DeepSeek даёт схожую точность примерно за четверть стоимости.

«Модель OpenAI лучше всего по показателям, но мы не хотим переплачивать за возможности, которые нам не нужны», — пояснил Пу.

На встрече 20 января Лянь из DeepSeek сказал премьеру Ли Цяну, что, несмотря на усилия китайских компаний по сокращению отставания, американские ограничения на поставки передовых чипов в Китай по-прежнему остаются узким местом, сообщили осведомлённые люди.

В 2019 году High-Flyer начала создавать кластер чипов для исследований в области ИИ, отчасти на средства, заработанные в финансовом бизнесе. По данным компании, позже был создан более крупный кластер примерно из 10 тысяч графических процессоров Nvidia, которые можно использовать для обучения больших языковых моделей.

Лишь немногие компании в Китае имели достаточную вычислительную инфраструктуру для создания подобных моделей к концу 2022 года, когда OpenAI представила ChatGPT.

Судя по техническому отчёту DeepSeek, для обучения модели V3 использовали кластер из свыше 2 тысяч чипов Nvidia, тогда как сопоставимые модели тренируются на десятках тысяч чипов. Некоторые американские специалисты в области ИИ недавно выразили сомнение, не располагают ли High-Flyer и DeepSeek ещё большими вычислительными ресурсами, чем сообщается.

Некоторые внешние исследователи указывают на недостаток у DeepSeek по сравнению с более дорогостоящими аналогами в умении удерживать контекст долгих бесед.

В последней модели для рассуждений, выпущенной 20 января, DeepSeek отказалась от процесса под названием «контролируемая донастройка», при котором программисты заранее снабжают модель экспертными знаниями. По словам DeepSeek, её модель, предназначенная для решения сложных математических задач и похожих головоломок, оказалась сравнима с reasoning-моделью o1 от OpenAI, хотя и не прошла контролируемую донастройку, а вместо этого сосредоточилась на обучении с подкреплением, то есть целенаправленном методе проб и ошибок.

Джим Фань, старший научный сотрудник Nvidia, назвал отчет DeepSeek о результатах прорывом. Он написал в X, что она напомнила ему о ранних новаторских программах, которые научились играть в шахматы «с нуля, без подражания человеческим гроссмейстерам».

Зак Касс, бывший руководитель в OpenAI, отметил, что прогресс DeepSeek, несмотря на американские ограничения, «подтверждает более общий урок: нехватка ресурсов часто побуждает креативность».

Комментарии (2)



  1. kometakot
    27.01.2025 15:39

    Болгары восхитились