Китайский стартап представил модель искусственного интеллекта R1, соперничающую с технологиями OpenAI. Однако они сильно различаются.



DeepSeek заявляет, что их модель R1 особенно хороша в ответах на сложные вопросы, демонстрируя уровень, сопоставимый с моделью OpenAI o1, но при этом работая в разы дешевле. На данный момент приложение DeepSeek занимает первое место в рейтинге загрузок в американском App Store.

В среду OpenAI сообщила, что проводит расследование относительно того, обучала ли DeepSeek свой чат-бот, многократно запрашивая модели OpenAI.

Так же, как DeepSeek и OpenAI являются очень разными компаниями, их модели R1 и o1 также используют разные технологии. Рассмотрим пять ключевых сходств и различий между ними.

Как работает DeepSeek


DeepSeek сократила объёмы обработки данных, необходимые для обучения моделей, применяя как собственные разработки, так и методики, адаптированные от других китайских AI-компаний, работающих в условиях аналогичных ограничений, ранее сообщал The Wall Street Journal.

Помимо сокращения объёма обрабатываемых данных, что даёт значительную экономию времени и вычислительных мощностей, DeepSeek использует метод «Смеси экспертов» (mixture of experts, MoE). Этот подход, применяемый также другими AI-разработчиками, позволяет направлять разные запросы к специализированным «экспертам» внутри модели. Каждому отдельному «эксперту» требуется меньше обучения, что снижает нагрузку на чипы и повышает эффективность работы системы.

«Методы, которые они применили, не являются новыми, но их использование в таком масштабе и с такой уверенностью стало действительно новаторским», — заявил Люк Арригони, CEO Loti AI, компании, занимающейся AI-решениями в области интернет-приватности.

Подход китайской компании требует меньше вычислительных ресурсов и времени на этапе обработки запроса, но увеличивает их потребление во время формирования ответа. DeepSeek использует метод «Цепочки рассуждений» (Chain-of-Thought Reasoning, CoT), который позволяет модели решать сложные задачи поэтапно, шаг за шагом, поясняет Линь Цяо, CEO и сооснователь AI-стартапа Fireworks AI.

Модель o1 от OpenAI также использует этот метод, но не показывает пользователям внутренний процесс рассуждений, добавляет Цяо. Она отмечает, что ключевое отличие DeepSeek в том, что её модель не только демонстрирует ход рассуждений, но и может использовать эти данные для обучения более компактных AI-моделей.

Обе модели, o1 и R1 от DeepSeek, способны выполнять задачи, требующие рассуждения, например, писать бизнес-планы или создавать кроссворды.

Производительность


Исследователи DeepSeek утверждают, что сравнили модель R1 с ведущими AI-моделями OpenAI и обнаружили, что она показывает очень конкурентоспособные результаты. Среди тестов использовалась методика, разработанная OpenAI, в которой модели искусственного интеллекта необходимо самостоятельно выполнять задачи по программированию, например, исправление ошибок в коде.

R1 продемонстрировала производительность, сопоставимую с o1 от OpenAI, а также превзошла более раннюю версию o1-mini.

По словам Линь Цяо, члены open-source сообщества уже создали облегчённую версию R1, которая может работать на мобильных телефонах и планшетах.

Некоторые пользователи отметили, что навыки написания текстов и решения задач у R1 впечатляют, но она уступает o1 от OpenAI в отдельных видах задач.

В понедельник CEO OpenAI Сэм Альтман назвал R1 «впечатляющей моделью, особенно с учётом её стоимости», в посте на X (бывший Twitter). Он также заявил, что появление такого конкурента стимулирует OpenAI ускорить выпуск своих новых продуктов.

Стоимость


DeepSeek заявила, что достигла результатов, сопоставимых с OpenAI, но при значительно меньших затратах и без использования топовых чипов.

По некоторым оценкам, на обучение одной из ранних моделей DeepSeek потребовалось всего около $5 млн на закупку чипов. Однако аналитик Bernstein Research Стейси Расгон в своём отчёте обратила внимание на то, что эти оценки не учитывают затраты на исследования и эксперименты, необходимые для разработки модели.

Точные данные о вычислительных мощностях, использованных для обучения R1, пока неизвестны.

Для сравнения, OpenAI заявила, что обучение GPT-4 обошлось более чем в $100 млн, а будущие AI-модели могут превысить $1 млрд.

По разным оценкам, как публичным, так и закрытым, обучение следующей модели OpenAI, GPT-5, может занять около шести месяцев и стоить порядка $500 млн только на вычислительные мощности.

Конфиденциальность и безопасность


Пользователи последней флагманской модели DeepSeek, V3, заметили, что она отказывается отвечать на политически чувствительные вопросы о Китае и его лидере Си Цзиньпине. В некоторых случаях её ответы соответствуют официальной риторике Пекина, тогда как ChatGPT предоставляет альтернативные точки зрения, включая мнения критиков правительства.

Тем не менее, модель R1 доступна для свободного скачивания и использования, поэтому некоторые пользователи предпочитают разворачивать её на собственных серверах или серверах, расположенных в США. CEO стартапа Liner Люк Ким заявил, что компания рассматривает возможность использования R1, так как она является open-source и её можно легко заменять на другие AI-модели.

Для сравнения, OpenAI заявила, что разработала «новый подход к обучению безопасности», который заставляет модель o1 следовать корпоративным стандартам.

Компания также подчеркнула, что стремится предотвращать взлом защитных механизмов AI-моделей, заключив официальные соглашения с институтами безопасности ИИ в США и Великобритании.

Джейлбрейкинг AI подразумевает манипулирование моделью или попытки обойти её защитные ограничения.

Открытый код против проприетарных решений


DeepSeek выпустила «веса» (числовые параметры) своей модели R1, позволив пользователям свободно использовать, скачивать и модифицировать её. Однако компания не опубликовала датасет, использованный для обучения, из-за чего некоторые эксперты считают, что модель нельзя назвать полностью опенсорной.

Китайская компания также выпустила отчёт о процессе обучения модели, что, по мнению специалистов в области искусственного интеллекта, помогает разработчикам разобраться в новаторских решениях DeepSeek.

Релиз весов модели означает, что разработчики могут загружать её и использовать в своих проектах. Платформа Hugging Face, крупнейший хостинг AI-моделей с открытым исходным кодом, сообщила, что модели R1, созданные сообществом, были скачаны 3,2 миллиона раз.

В отличие от DeepSeek, o1 от OpenAI является проприетарной. Это означает, что пользователи и компании должны платить за доступ к модели и её возможностям.

Некоторые компании предпочитают проприетарные технологии, поскольку они прошли проверку создателей и включают встроенные механизмы кибербезопасности. Однако другие выбирают open-source решения, так как их проще кастомизировать и адаптировать под собственные нужды.

Комментарии (7)


  1. unwrecker
    30.01.2025 06:41

    Ну и кто же? Вы бы хоть сравнение провели, а то просто голые заявления владельцев.


  1. Giperoglif
    30.01.2025 06:41

    астрологи объявили неделю дипсика на хабре


  1. savostin
    30.01.2025 06:41

    Кто еще хочет хайпануть? Ну хоть бы новую информацию какую раскопали…


    1. stanukih
      30.01.2025 06:41

      Я хочу хайпануть.

      Я хотел написать статью, что это флешмоб. Но она куда-то после публикации на модерацию пропала и нет ее даже в черновиках...


  1. crackedmind
    30.01.2025 06:41

    Выглядит как статья написанная дипсиком, :) ничего нового так и не сказано


  1. leon-mbs
    30.01.2025 06:41

    какая разница. Очередной хайп коуруг очередного чатбота не более того


  1. muxa_ru
    30.01.2025 06:41

    Пользователи последней флагманской модели DeepSeek, V3, заметили, что она отказывается отвечать на политически чувствительные вопросы о Китае и его лидере Си Цзиньпине. В некоторых случаях её ответы соответствуют официальной риторике Пекина, тогда как ChatGPT предоставляет альтернативные точки зрения, включая мнения критиков правительства.

    Прям можно спросить на расовые и гендерные вопросы и ChatGPT прям ответит?