Китайский стартап представил модель искусственного интеллекта R1, соперничающую с технологиями OpenAI. Однако они сильно различаются.
DeepSeek заявляет, что их модель R1 особенно хороша в ответах на сложные вопросы, демонстрируя уровень, сопоставимый с моделью OpenAI o1, но при этом работая в разы дешевле. На данный момент приложение DeepSeek занимает первое место в рейтинге загрузок в американском App Store.
В среду OpenAI сообщила, что проводит расследование относительно того, обучала ли DeepSeek свой чат-бот, многократно запрашивая модели OpenAI.
Так же, как DeepSeek и OpenAI являются очень разными компаниями, их модели R1 и o1 также используют разные технологии. Рассмотрим пять ключевых сходств и различий между ними.
Как работает DeepSeek
DeepSeek сократила объёмы обработки данных, необходимые для обучения моделей, применяя как собственные разработки, так и методики, адаптированные от других китайских AI-компаний, работающих в условиях аналогичных ограничений, ранее сообщал The Wall Street Journal.
Помимо сокращения объёма обрабатываемых данных, что даёт значительную экономию времени и вычислительных мощностей, DeepSeek использует метод «Смеси экспертов» (mixture of experts, MoE). Этот подход, применяемый также другими AI-разработчиками, позволяет направлять разные запросы к специализированным «экспертам» внутри модели. Каждому отдельному «эксперту» требуется меньше обучения, что снижает нагрузку на чипы и повышает эффективность работы системы.
«Методы, которые они применили, не являются новыми, но их использование в таком масштабе и с такой уверенностью стало действительно новаторским», — заявил Люк Арригони, CEO Loti AI, компании, занимающейся AI-решениями в области интернет-приватности.
Подход китайской компании требует меньше вычислительных ресурсов и времени на этапе обработки запроса, но увеличивает их потребление во время формирования ответа. DeepSeek использует метод «Цепочки рассуждений» (Chain-of-Thought Reasoning, CoT), который позволяет модели решать сложные задачи поэтапно, шаг за шагом, поясняет Линь Цяо, CEO и сооснователь AI-стартапа Fireworks AI.
Модель o1 от OpenAI также использует этот метод, но не показывает пользователям внутренний процесс рассуждений, добавляет Цяо. Она отмечает, что ключевое отличие DeepSeek в том, что её модель не только демонстрирует ход рассуждений, но и может использовать эти данные для обучения более компактных AI-моделей.
Обе модели, o1 и R1 от DeepSeek, способны выполнять задачи, требующие рассуждения, например, писать бизнес-планы или создавать кроссворды.
Производительность
Исследователи DeepSeek утверждают, что сравнили модель R1 с ведущими AI-моделями OpenAI и обнаружили, что она показывает очень конкурентоспособные результаты. Среди тестов использовалась методика, разработанная OpenAI, в которой модели искусственного интеллекта необходимо самостоятельно выполнять задачи по программированию, например, исправление ошибок в коде.
R1 продемонстрировала производительность, сопоставимую с o1 от OpenAI, а также превзошла более раннюю версию o1-mini.
По словам Линь Цяо, члены open-source сообщества уже создали облегчённую версию R1, которая может работать на мобильных телефонах и планшетах.
Некоторые пользователи отметили, что навыки написания текстов и решения задач у R1 впечатляют, но она уступает o1 от OpenAI в отдельных видах задач.
В понедельник CEO OpenAI Сэм Альтман назвал R1 «впечатляющей моделью, особенно с учётом её стоимости», в посте на X (бывший Twitter). Он также заявил, что появление такого конкурента стимулирует OpenAI ускорить выпуск своих новых продуктов.
Стоимость
DeepSeek заявила, что достигла результатов, сопоставимых с OpenAI, но при значительно меньших затратах и без использования топовых чипов.
По некоторым оценкам, на обучение одной из ранних моделей DeepSeek потребовалось всего около $5 млн на закупку чипов. Однако аналитик Bernstein Research Стейси Расгон в своём отчёте обратила внимание на то, что эти оценки не учитывают затраты на исследования и эксперименты, необходимые для разработки модели.
Точные данные о вычислительных мощностях, использованных для обучения R1, пока неизвестны.
Для сравнения, OpenAI заявила, что обучение GPT-4 обошлось более чем в $100 млн, а будущие AI-модели могут превысить $1 млрд.
По разным оценкам, как публичным, так и закрытым, обучение следующей модели OpenAI, GPT-5, может занять около шести месяцев и стоить порядка $500 млн только на вычислительные мощности.
Конфиденциальность и безопасность
Пользователи последней флагманской модели DeepSeek, V3, заметили, что она отказывается отвечать на политически чувствительные вопросы о Китае и его лидере Си Цзиньпине. В некоторых случаях её ответы соответствуют официальной риторике Пекина, тогда как ChatGPT предоставляет альтернативные точки зрения, включая мнения критиков правительства.
Тем не менее, модель R1 доступна для свободного скачивания и использования, поэтому некоторые пользователи предпочитают разворачивать её на собственных серверах или серверах, расположенных в США. CEO стартапа Liner Люк Ким заявил, что компания рассматривает возможность использования R1, так как она является open-source и её можно легко заменять на другие AI-модели.
Для сравнения, OpenAI заявила, что разработала «новый подход к обучению безопасности», который заставляет модель o1 следовать корпоративным стандартам.
Компания также подчеркнула, что стремится предотвращать взлом защитных механизмов AI-моделей, заключив официальные соглашения с институтами безопасности ИИ в США и Великобритании.
Джейлбрейкинг AI подразумевает манипулирование моделью или попытки обойти её защитные ограничения.
Открытый код против проприетарных решений
DeepSeek выпустила «веса» (числовые параметры) своей модели R1, позволив пользователям свободно использовать, скачивать и модифицировать её. Однако компания не опубликовала датасет, использованный для обучения, из-за чего некоторые эксперты считают, что модель нельзя назвать полностью опенсорной.
Китайская компания также выпустила отчёт о процессе обучения модели, что, по мнению специалистов в области искусственного интеллекта, помогает разработчикам разобраться в новаторских решениях DeepSeek.
Релиз весов модели означает, что разработчики могут загружать её и использовать в своих проектах. Платформа Hugging Face, крупнейший хостинг AI-моделей с открытым исходным кодом, сообщила, что модели R1, созданные сообществом, были скачаны 3,2 миллиона раз.
В отличие от DeepSeek, o1 от OpenAI является проприетарной. Это означает, что пользователи и компании должны платить за доступ к модели и её возможностям.
Некоторые компании предпочитают проприетарные технологии, поскольку они прошли проверку создателей и включают встроенные механизмы кибербезопасности. Однако другие выбирают open-source решения, так как их проще кастомизировать и адаптировать под собственные нужды.
Комментарии (7)
crackedmind
30.01.2025 06:41Выглядит как статья написанная дипсиком, :) ничего нового так и не сказано
muxa_ru
30.01.2025 06:41Пользователи последней флагманской модели DeepSeek, V3, заметили, что она отказывается отвечать на политически чувствительные вопросы о Китае и его лидере Си Цзиньпине. В некоторых случаях её ответы соответствуют официальной риторике Пекина, тогда как ChatGPT предоставляет альтернативные точки зрения, включая мнения критиков правительства.
Прям можно спросить на расовые и гендерные вопросы и ChatGPT прям ответит?
unwrecker
Ну и кто же? Вы бы хоть сравнение провели, а то просто голые заявления владельцев.