Современные системы искусственного интеллекта, такие как ChatGPT от OpenAI, Gemini от Google и Claude от Anthropic, поразили воображение общественности, создавая беглый текст на нескольких языках в ответ на запросы пользователей. Эти компании также попали в заголовки газет благодаря огромным суммам, которые они вложили в создание всё более мощных моделей.
Китайский ИИ-стартап DeepSeek разрушил ожидания относительно того, сколько денег необходимо для создания новейших и лучших ИИ. Тем самым они поставили под сомнение миллиардные инвестиции крупных игроков рынка ИИ.
Я изучаю машинное обучение. Подрывной дебют DeepSeek связан не с каким-то потрясающим технологическим прорывом, а с проверенной временем практикой: поиском эффективности. В области, которая потребляет огромные вычислительные ресурсы, это оказалось очень важным.
Где скрываются затраты
Разработка таких мощных систем искусственного интеллекта начинается с создания большой языковой модели. Большая языковая модель предсказывает следующее слово на основе предыдущих слов. Например, если начало предложения звучит так: «Теория относительности была открыта Альбертом», то большая языковая модель может предсказать, что следующим словом будет «Эйнштейн». Большие языковые модели обучаются таким предсказаниям в процессе, который называется предварительным обучением.
Предварительное обучение требует большого количества данных и вычислительных мощностей. Компании собирают данные, просматривая веб-страницы и сканируя книги. Вычисления обычно осуществляются с помощью графических процессоров, или GPU. Почему именно графических? Оказывается, и компьютерная графика, и искусственные нейронные сети, лежащие в основе больших языковых моделей, опираются на одну и ту же область математики, известную как линейная алгебра. Большие языковые модели хранят внутри себя сотни миллиардов чисел, называемых параметрами или весами. Именно эти веса изменяются в процессе предварительного обучения.
Однако предварительного обучения недостаточно для создания такого потребительского продукта, как ChatGPT. Предварительно обученная большая языковая модель обычно не очень хорошо выполняет инструкции человека. Она также может не соответствовать предпочтениям человека. Например, она может выводить вредные или оскорбительные выражения, которые часто встречаются в текстах в Интернете.
Поэтому предварительно обученная модель обычно проходит дополнительные этапы обучения. Одним из таких этапов является настройка инструкций, когда модели показывают примеры человеческих инструкций и ожидаемых реакций. После настройки инструкций наступает этап, называемый обучением с подкреплением на основе обратной связи от человека. На этом этапе аннотаторам показывают несколько ответов большой языковой модели на одну и ту же подсказку. Затем аннотаторов просят указать, какой ответ им больше нравится.
Легко понять, как возрастают затраты при создании модели ИИ: наём высококлассных специалистов в области ИИ, строительство центра обработки данных с тысячами графических процессоров, сбор данных для предварительного обучения и выполнение предварительного обучения на графических процессорах. Кроме того, затраты связаны со сбором данных и вычислениями на этапах настройки инструкций и обучения с подкреплением на основе обратной связи от людей.
В совокупности затраты на создание передовой модели ИИ могут достигать 100 миллионов долларов США. Обучение на GPU является значительной составляющей общей стоимости.
Расходы не заканчиваются, когда модель готова. Когда модель развёрнута и отвечает на запросы пользователя, она использует больше вычислений, известных как время тестирования [test time] или подсчёт времени выдачи [inference time compute]. Для вычислений времени тестирования также требуются графические процессоры. В декабре 2024 года OpenAI объявила о новом феномене, который они наблюдали в своей последней модели o1: по мере увеличения количества вычислений во время тестирования модель лучше справлялась с задачами на логическое мышление, таких как математическая олимпиада и конкурсные задачи по кодированию.
Снижение потребления ресурсов
Таким образом, казалось, что путь к созданию лучших в мире моделей ИИ — это инвестирование в большее количество вычислений как при обучении, так и при выводе. Но затем на арену вышла компания DeepSeek и изменила эту тенденцию.
В моделях серии V, кульминацией которой является модель V3, использован ряд оптимизаций, позволяющих сделать обучение передовых моделей искусственного интеллекта значительно более экономичным. В их техническом отчёте говорится, что на обучение V3 ушло менее 6 миллионов долларов. Они признают, что в эту стоимость не входят расходы на наём команды, проведение исследований, опробование различных идей и сбор данных. Но 6 миллионов долларов — это всё равно впечатляюще малая цифра для обучения модели, которая конкурирует с ведущими моделями ИИ, разработанными с гораздо большими затратами.
Снижение затрат произошло не благодаря одной волшебной кнопке. Это было сочетание множества разумных инженерных решений, включая использование меньшего количества битов для представления весов модели, инновации в архитектуре нейронной сети и снижение накладных расходов на обмен данными между графическими процессорами.
Интересно отметить, что из-за американских экспортных ограничений в отношении Китая команда DeepSeek не имела доступа к высокопроизводительным GPU, таким как Nvidia H100. Вместо этого они использовали графические процессоры Nvidia H800, которые Nvidia разработала как менее производительные, чтобы они соответствовали американским экспортным ограничениям. Работа с этим ограничением, похоже, позволила команде DeepSeek проявить ещё большую изобретательность.
DeepSeek также внедрила инновации, чтобы сделать вывод более дешёвым, снизив стоимость запуска модели. Более того, они выпустили модель под названием R1, которая сопоставима с моделью o1 от OpenAI в задачах рассуждения.
Они выложили в открытый доступ все веса моделей для V3 и R1. Любой желающий может скачать и доработать или настроить свои модели. Кроме того, DeepSeek выпустила свои модели под разрешительной лицензией MIT, которая позволяет другим использовать модели в личных, академических или коммерческих целях с минимальными ограничениями.
Обнуляя ожидания
DeepSeek кардинально изменила ландшафт больших моделей ИИ. Открытая весовая модель, обученная экономичным способом, теперь стоит в одном ряду с более дорогими и закрытыми моделями, требующими платной подписки.
Исследовательскому сообществу и фондовому рынку потребуется некоторое время, чтобы приспособиться к этой новой реальности.
Комментарии (7)
Fizikoleg
11.02.2025 16:29Точно ли, что Deepseek кардинально изменил рынок? Мне кажется, что прошло слишком мало времени для таких громких заголовков
Ostan
11.02.2025 16:29"Вода это водный раствор воды в воде, используется в качестве воды" - зачем такие статьи переводить и здесь публиковать? В хабе "Искусственный интеллект" такого шлака вываливается больше десятка в сутки.
Автор оригинальной статьи (и подобных) лично присутствовал и точно знает каким образом китайцы создали DeepSeek и сколько на него потратили? Есть версия, что это просто дистилляция с ChatGPT от OpenAI.
Hardcoin
11.02.2025 16:29Использовать другую модель для разметки - это не дистилляция. Плюс у них архитектура другая. Есть статьи, где они подробно описывают, сама модель в опенсорсе с частью кода. Есть удачные попытки других команд добавить ризонинг по схеме, которую описали дипсик. Если сюда добавить, что сами openAI не рассказали толком, как сделать рассуждающую модель и дипсику пришлось изобретать способ обучения самим, версия, которую вы озвучили, выглядит полной ерундой.
artalex
11.02.2025 16:29Вот здесь намнго лучше описано, как удалось добиться такой эффективности https://habr.com/ru/companies/airi/articles/879178/
ednersky
не совсем так, или совсем не так.
то есть алгебра, конечно, присутствует в ответе, но не в этом смысл.
что такое современный CPU? это 4-64 ядер, способных параллельно друг дружке выполнять вычисления (ну, может и больше ядер CPU есть - но это не принципиально, если и есть - не на много больше).
а что такое GPU? это тысячи (или уже десятки тысяч) ядер.
Да, более простых, но вот этой самой линейной алгебре сложные и не нужны.
то есть в вопросе "сделать много-много простых вычислений уровня
y=ax+b
" GPU за счёт параллельности уделывает CPU на несколько порядков.uranik
Почему тогда операционки не переделывают на работу с GPU, чтобы CPU разгрузить? Там же тоже полно простых операций.
ednersky
Хороший вопрос и на него есть несколько ответов.
Во-первых, эти процессоры очень простые (усечённый набор команд), они, например, не могут адресовать большие объёмы памяти (то есть заточены именно под вычисления). То есть вместе все эти 10 тыс процессоров адресуют допустим 10 гигабайт памяти, но у каждого регистр адреса небольшой.
Именно подобное упрощение и позволяет на такой же кристалл (по степени интеграции), как у центрального CPU запихать больше ядер.
Во-вторых у этих процессоров из-за упрощения отсутствуют средства поддержки операционной системы: виртуальная память, уровни изолляции и так далее.
В-третьих, здесь играет рояль ещё и шина данных между центральным CPU и GPU. Условно говоря GPU не может работать с произвольным набором данных из доступного диапазона RAM, она там отображается в окна: DMA и вот это вот всё - это где-то и про интерфейс с GPU тоде.
То есть, например хотим мы картинку перекрасить из цветного в чёрнобелый. 16 ядер основного CPU могут в 16 потоков сделать это условно говоря за 10 секунд.
а 1600 ядер GPU - получается за 0.1 секунду сделают. Но чтобы у 1600 ядер это случилось, нужно чтобы центральный CPU им задание подготовил, программу им загрузил, память отобразил, конвейер сообразил и так далее.
эти накладные расходы по подготовке GPU-вычислений достаточно большие и окупаются только тогда, когда потом GPU обрабатывает огромный табун одинаковых задачек. То есть, например, меняет цвета миллиона точек, вычисляет веса миллиона нейронов и так далее. А для задач вроде "следить за нажатиями кнопок" подходит фигово.