R1-Zero важнее, чем R1
Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций.
Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики.
Такие нарративы важны, потому что они влияют на экономическую активность, например, на инвестиции, темы исследований, финансирование, геополитику и так далее. Например, в 2023-2024 годах в новые LLM-стартапы инвестировали примерно 20 миллиардов долларов. Для сравнения: в новые AGI-стартапы инвестировали всего около 200 миллионов долларов.
Мы создали в июне премию ARC 2024, чтобы привлечь внимание к ограничениям масштабирования LLM и повысить популярность полезного бенчмарка ARC-AGI-1 при движении в новом направлении, требующем от ИИ-систем адаптации к новым, неизвестным им задачам, а не полагаться только на запоминание.
На прошлой неделе DeepSeek опубликовала свои новые «рассуждающие» системы R1-Zero и R1, по данным ARC-AGI-1 сравнимые с системой OpenAI o1. R1-Zero, R1 и o1 (low compute) набирают примерно 15-20%. Для сравнения: GPT-4o
, пик развития масштабирования чистых LLM, набрала только 5%. Судя по реакции рынка США, общество тоже начинает понимать ограничения масштабирования чистых LLM. Однако большинство людей по-прежнему не осознаёт надвигающийся спрос на инференсы.
В декабре 2024 года OpenAI объявила о выпуске новой передовой системы o3, которую мы верифицировали. Она получила результат 76% в режиме low compute и 88% в режиме high compute. Система o3 демонстрирует первую практичную обобщённую реализацию компьютера, адаптирующегося к новым, неизвестным ему задачам.
Несмотря на то, что это стало важной новостью сферы технологий, прохождение o3 бенчмарка ARC-AGI-1 осталось практически незамеченным широкой прессой.
Это невероятно важный момент в сфере ИИ и computer science; такие системы требуют изучения. Но из-за закрытости o1/o3 мы вынуждены были опираться исключительно на предположения. Благодаря ARC-AGI-1, а теперь и опенсорсным (почти) R1-Zero и R1 мы можем расширить наше понимание. В частности, R1-Zero значительно важнее, чем R1.
«Почти», потому что DeepSeek не опубликовала воспроизводимый способ генерации весов её моделей с нуля
R1-Zero избавляет нас от необходимости участия человека
В нашем анализе o1 и o3 мы теоретически размышляли о том, как могут работать эти системы рассуждений. Основные мысли:
Генерация «цепочек рассуждений» (chain-of-thought, CoT) для предметной области задачи.
Разметка промежуточных этапов CoT с привлечением живых специалистов («supervised fine tuning», или SFT) и автоматизированных машин («обучение с подкреплением», или RL).
Обучение базовой модели с помощью (2).
Во время тестирования итеративная генерация инференсов из модели процесса.
Ниже показаны методики, использованные для итеративного сэмплирования, а также соответствующие показатели ARC-AGI-1:
Система |
ARC-AGI-1 |
Методика |
Среднее количество токенов |
Средние затраты |
---|---|---|---|---|
r1-zero |
14% |
Без SFT / без поиска |
11K |
$.11 |
r1 |
15.8% |
SFT / без поиска |
6K |
$.06 |
o1 (low) |
20.5% |
SFT / без поиска |
7K |
$.43 |
o1 (med) |
31% |
SFT / без поиска |
13K |
$.79 |
o1 (high) |
35% |
SFT / без поиска |
22K |
$1.31 |
o3 (low) |
75.7% |
SFT / поиск + сэмплирование |
335K |
$20 |
o3 (high) |
87.5% |
SFT / поиск + сэмплирование |
57M |
$3.4K |
Благодаря опубликованным исследованиям DeepSeek мы можем обосновать наши теоретические размышления. Самым важным выводом стало то, что повышенные степени адаптации к новизне (и надёжности) для LLM-систем рассуждений достигаются в трёх размерностях:
Добавление человеческой разметки (SFT) в обучение модели процесса CoT
Поиск CoT вместо линейного инференса (параллельный инференс CoT для каждого этапа)
Полное сэмплирование CoT (инференс по параллельным траекториям)
Узким местом для пункта (1) становится генерация данных людьми; это накладывает и ограничения на те предметные области, в которых системы рассуждений могут обеспечить наибольшую пользу. Например, для o1 категория профессиональной юриспруденции MMLU на удивление имеет показатели гораздо ниже, чем математика и логика.
Узким местом для пунктов (2) и (3) становится эффективность. o1 и o3 демонстрируют логарифмические улучшения в точности по бенчмаркам ARC-AGI-1, потому что они тратят больше вычислительных ресурсов (compute) инференса во время тестирования, однако различные способы траты этих ресурсов корректируют ось X кривой.
На мой взгляд, самый интересный поступок DeepSeek — отдельная публикация R1-Zero. R1-Zero — это модель, не использующая SFT, то есть пункт (1). Вместо него она полностью полагается на обучение с подкреплением.
R1-Zero и R1 демонстрируют высокую согласованность оценок по ARC-AGI-1, набрав 14% и 15%. Собственные опубликованные бенчмарки DeepSeeks тоже показывают высокую согласованность между R1-Zero и R1, например, для MATH AIME 2024 оценки составляют 71% и 76% (для сравнения: у базового DeepSeek V3 они составляли примерно 40%).
В своей научной статье авторы R1-Zero говорят следующее: «DeepSeek-R1-Zero сталкивается с такими трудностями, как плохая читаемость и смешение языков», что подтверждено онлайн. Однако при нашем тестировании R1-Zero на ARC-AGI-1 мы почти не нашли свидетельств непоследовательности: результаты схожи с результатами тестирования с предметными областями математики и кодинга, для которых выполнялось обучение системы с подкреплением.
Учитывая всё это, можно прийти к следующим выводам:
SFT (то есть разметка с участием живых специалистов) необязателен для точных и чётких рассуждений CoT в предметных областях, позволяющих выполнять строгую верификацию.
Процесс обучения R1-Zero способен создавать собственный внутренний язык предметной области (domain specific language, DSL) в пространстве токенов при помощи оптимизации RL.
SFT необходим для повышения обобщённости предметных областей рассуждений CoT.
Это вполне логично, ведь сам язык, по сути, является DSL рассуждений. Одни и те же «слова» можно изучить в одной предметной области и применить в другой, подобно программе. Решение с чистым RL пока не может обнаружить широкий общий вокабуляр; подозреваю, что это будет важной темой будущих исследований.
В конечном итоге, R1-Zero демонстрирует прототип потенциального режима масштабирования без необходимости участия человека, даже в самом получении данных обучения.
DeepSeek почти наверняка внимательно наблюдает за OpenAI o3. Важно понять, будет ли SFT в конечном итоге обязательным требованием для добавления поиска и сэмплирования CoT, или же можно создать гипотетический «R2-Zero», обладающий той же логарифмической сложностью относительно кривой масштабирования инференсов. Судя по результатам R1-Zero, могу предположить, что для прохождения ARC-AGI-1 в этой гипотетической масштабированной версии SFT не потребуется.
Доллары за надёжность
С точки зрения экономики в сфере ИИ происходят два важных изменения:
Теперь можно тратить больше денег, чтобы обеспечить повышенную точность и надёжность
Траты на обучение перетекают в траты на инференсы
Оба этих изменения приведут к огромному росту спроса на инференс, но ни одно из них не снизит спрос на большее количество вычислительных ресурсов. На самом деле, оба они увеличат этот спрос.
ИИ-системы рассуждений обещают гораздо большую выгоду, чем простое повышение точности в бенчмарках. Самая главная проблема, мешающая распространению ИИ-автоматизации (то есть спросу на инференс) — это надёжность. Я говорил с сотнями клиентов Zapier, пытающихся использовать ИИ-агентов в своём бизнесе, и отзывы их были практически одинаковыми: «Пока я им не доверяю, потому что они работают ненадёжно».
Ранее я заявлял, что прогресс в прохождении ARC-AGI приведёт к повышению надёжности. Проблема с LLM-агентами заключается в том, что для надёжной работы им требуется сильный контроль в локальной предметной области. Повышение способностей к обобщению требует возможности адаптироваться к неизвестным ранее ситуациям. Мы уже начинаем видеть доказательства того, что это мнение верно. Поэтому неудивительно, что многие компании уже внедряют агентов (Anthropic, OpenAI, Apple и так далее).
В ближайшее время агенты создадут существенный спрос на инференс из-за потребности в надёжности. В более широком смысле можно сказать, что разработчики могут выбрать потратить больше compute на повышение доверия пользователей к системе. Однако повышенная надёжность не означает стопроцентной точности; но стоит ожидать большей согласованности неточности. Это нормально, потому что в случае низкой точности пользователи и разработчики смогут более надёжно управлять поведением при помощи промтинга.
Задачи, которые раньше были невозможны для компьютеров, теперь имеют конкретную цену решения. А с ростом эффективности эта цена будет падать.
Инференс как обучение
Другое важное изменение происходит в сфере получения данных, передаваемых системам LLM для предварительного обучения. Раньше основная часть данных или покупалась, или скрейпилась, или синтетически генерировалась из готовых LLM (например, дистилляцией или аугментацией).
Системы рассуждений предоставляют новую возможность: генерацию «реальных» данных в противовес «синтетическим». В отрасли ИИ термин «синтетические данные» обозначает низкокачественные данные, которые обычно пропускаются через LLM с целью увеличения общего объёма данных обучения, но со всё меньшей отдачей.
Однако теперь, с появлением систем рассуждений и верификаторов, мы можем создавать совершенно новые достоверные данные для обучения. Это можно делать или офлайн, когда разработчик платит за создание данных, или во время инференса, когда платит конечный пользователь!
Это удивительный экономический сдвиг; он предполагает, что разработчикам ИИ-систем с наибольшим количеством платящих клиентов может потребоваться максимальная концентрация усилий. Эти клиенты платят за создание новых качественных данных... улучшающих модель... которая становится лучше и привлекательнее для пользователей... в общем, смысл вы поняли.
Если мы сможем преодолеть барьер необходимости для CoT живых специалистов и создадим крайне эффективную систему для генерации новых данных при помощи поиска/синтеза и верификации, то можем ожидать значительный приток compute в эти системы инференса, потому что они в буквальном смысле становятся лучше благодаря добавлению новых денег и сырых данных. Рано или поздно этот тип обучения ИИ полностью превзойдёт предварительное обучение на генерируемых людьми данных.
Заключение
Мы продолжим наблюдать корректировки рынка, когда станет очевиднее повышенный спрос на инференс. Эффективность ИИ-систем только простимулирует более широкое их использование, не только из-за парадокса Джевонса, но и потому, что с повышением эффективности становятся доступны новые методики обучения.
Благодаря открытости и воспроизводимости R1 всё больше людей и команд будет двигать прогресс в сфере CoT и поиска. Это позволит нам быстрее нащупать, где же находится передовой край исследований, и стимулирует волну инноваций, увеличивающих вероятность быстрой реализации AGI.
Многие люди уже сказали мне, что они планируют использовать системы в стиле R1 для ARC Prize 2025, и мне не терпится увидеть результаты.
То, что R1 открытая, принесёт большую пользу всему миру. DeepSeek двигает прогресс в науке.
Выражаем особую благодарность Tuhin и Abu из Baseten и Yuchen из Hyperbolic Labs за хостинг для нас r1-zero. Едва ли какие-то провайдеры хостят этот вариант модели, а его доступность важна для исследований.
Wwyn
Статья настолько сложна в прочтении, что я не осилил ее. Автор, напиши в комментарии, дипсик хорош или нет?