ИИ, который учится без данных: как Absolute Zero Reasoner меняет машинное обучение

Представьте ИИ, который не нуждается в миллионах размеченных примеров, не требует армии разметчиков из Кении, и может совершенствоваться, создавая задачи и непрерывно обучаясь у самого себя? И нет, это уже не фантастика — система Absolute Zero Reasoner доказала, что такой подход не только работает но и крайне эффективен.

Парадигма Absolute Zero Reasoner
Парадигма Absolute Zero Reasoner

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: ссылка, однако данная тема определенно заслуживает большего внимания.

Ключевая проблема — данные

Каждый, кто работал с машинным обучением, сталкивался с этой болью: нужны данные, причём много и качественных данных.

  • Хотите обучить модель для классификации изображений? Приготовьте сотни тысяч размеченных фотографий.

  • Создаете чат-бота? Нужны тысячи диалогов с правильными ответами.

  • Работаете над решением математических задач? Требуются десятки тысяч примеров с пошаговыми решениями.

А теперь представьте, что ваша модель становится сложнее. Ей нужно решать такие задачи, которые даже эксперты-люди решают с трудом (а иногда только единичные специалисты в мире). Где взять качественные примеры? Кто будет их размечать? Сколько это будет стоить?

Именно с этой проблемой столкнулись исследователи из Университета Цинхуа. И их решение радикально: а что если ИИ сам будет создавать задачи для себя?

Absolute Zero Reasoner: две роли одной модели

Absolute Zero Reasoner (далее AZR) — это система, которая работает по принципу "абсолютного нуля" внешних данных. Никаких датасетов, никаких примеров от людей. Только ИИ, среда для проверки и практически неограниченный цикл самосовершенствования.

Как это работает

Представьте, что у вас есть один умный студент, который играет сразу две роли:

Роль 1: Составитель задач (Proposer)

  • Придумывает новые задачи по программированию

  • Старается сделать их не слишком простыми (иначе нечему учиться) и не слишком сложными (иначе не решить)

  • Фокусируется на трёх типах задач, которые соответствуют разным способам человеческого мышления:

Дедукция — пошаговое выполнение программы

def calculate_score(points, multiplier):
    return points * multiplier + 10

# Задача: что выведет calculate_score(5, 3)?
# Это как когда вы мысленно "прокручиваете" код: 5*3=15, 15+10=25

Абдукция — поиск возможных причин (reverse engineering)

def mystery_function(x, y):
    return x ** 2 + y * 3

# Задача: при каких x, y результат будет 34?
# Это как детективная работа — ищем входные данные по известному результату

Индукция — обобщение по примерам (pattern recognition)

# Примеры:
# Вход: [1, 2] → Выход: 3
# Вход: [4, 7] → Выход: 11  
# Вход: [0, 5] → Выход: 5

# Задача: напишите функцию
# Это как когда вы видите закономерность и понимаете: "А, это просто сложение!"

Каждый тип развивает разные "мускулы" мышления — точно так же, как люди тренируют логику, аналитику и распознавание паттернов.

Роль 2: Решатель (Solver)

  • Пытается решить задачи, которые предложил составитель

  • Получает обратную связь от среды выполнения кода

  • Учится на своих ошибках и успехах

Магия обратной связи

Absolute Zero Reasoner Training Overview
Absolute Zero Reasoner Training Overview

Ключевой трюк AZR — использование исполнителя кода как объективного судьи. В отличие от субъективных человеческих оценок, код либо работает правильно, либо нет. Это дает системе четкий, проверяемый сигнал для обучения.

# Пример задачи, которую может предложить AZR
def mystery_function(x, y):
    return x * y + x - y

# Задача-дедукция: что выведет mystery_function(5, 3)?
# Задача-абдукция: при каких x, y результат будет 22?
# Задача-индукция: напиши функцию по примерам входов и выходов

Самоорганизующаяся сложность

Самое интересное — как система учится выбирать правильную сложность задач. AZR использует принцип оптимальной сложности:

  • Если задачи слишком простые (решатель решает все) → составитель не получает награду

  • Если задачи слишком сложные (решатель не может решить ни одну) → составитель тоже не получает награду

  • Золотая середина — задачи, которые решатель может решить в 20-80% случаев (а в идеале 50%)

Это создает естественное давление на повышение сложности по мере улучшения навыков решателя.

Единственный пример, который был дан на вход самообучающейся системы:

The Seed AZR Zero Triplet.  Единственный образец входных данных, который был передан AZR
The Seed AZR Zero Triplet.  Единственный образец входных данных, который был передан AZR

Результаты, которые впечатляют

AZR показал удивительные результаты:

  • Превзошел модели, обученные на десятках тысяч человеческих примеров

  • Достиг state-of-the-art результатов в задачах программирования и математики

  • Работает на разных размерах моделей — от относительно небольших до крупных

При этом система не видела ни одного примера, созданного человеком для этих задач.

Неожиданные успехи в математике

Успехи AZR в решении математических задач кажутся особенно впечатляющими, потому что здесь произошел кросс-доменный перенос знаний между программированием и математикой - и система сделала это полностью самостоятельно, без явных указаний на связь между областями.

На математических бенчмарках AIME'24, AIME'25, AMC'23 и других AZR превзошел многие специализированные модели, обученные непосредственно на математических данных. При этом сама система никогда не видела математических задач в процессе обучения - только код и его выполнение.

Это доказывает, что фундаментальные навыки логического мышления, которые система развила через программирование - разбиение задач на шаги, работа с абстракциями, формальное рассуждение - оказались универсальными для любых задач, требующих строгого мышления.

Сравнение с предшественниками

Идея самообучения через игру ИИ с самим собой не нова, и многие из шагов в этом направлении ранее принесли революционные результаты.

Победа AlphaGo: сила самообучения

Помните знаменитый ход 37 AlphaGo в матче против Ли Седоля в 2016 году? Профессиональные игроки го назвали его "ходом, который не сделал бы ни один человек". Это был настолько неожиданный и, казалось бы, "неправильный" ход, что Ли Седоль покинул игровую комнату на 15 минут.

Но ход оказался гениальным и принёс искусственному интеллекту победу, а позже вошёл в учебники. AlphaGo увидел паттерн, который ускользнул от тысячелетней человеческой мудрости в го.

Что важно: этому ходу AlphaGo никто не учил. Система открыла его самостоятельно, играя миллионы партий сама с собой. Это показало, что самообучение может превзойти не просто отдельных экспертов, а весь накопленный человеческий опыт.

От игр к открытым задачам

AlphaZero от DeepMind пошел ещё дальше — научился играть в шахматы, го и сёги, не зная правил, только через самообучение. Но у него были и существенные ограничения:

  • Работает только в рамках конкретных игр

  • Правила игры строго определены

  • Цель всегда одна — победить

В отличии от него, в данном проекте исследователи делают принципиально новый скачок: от самообучения в замкнутых, простых мирах игр, к самообучению в полностью открытом пространстве задач написания сложного программного кода, где система может сама формулировать цели обучения, создавать правила и ограничения. И это выглядит очень многообещающе, учитывая все предыдущие успехи self-play систем.

Пример №1
Пример №1

Практические применения уже сегодня

Рассмотрим некоторые возможности этого подхода:

Автоматизация тестирования: ИИ сам создает тест-кейсы и находит edge cases, о которых вы не подумали

Обучение программированию: Персонализированные задачи под уровень студента с постоянным повышением уровня сложности

Оптимизация алгоритмов: Поиск новых, более эффективных решений, выявление неочевидных паттернов в коде

Но есть один важный нюанс...

Успехи проекта бесспорно радуют. Наконец-то, возможно, человечество сможет решить проблему данных и ИИ сможет учиться (по крайней мере в некоторых областях) полностью самостоятельно, вообще без датасетов и какой-либо разметки данных.

Однако что произойдёт, когда такие системы станут действительно массовыми и начнут обучать друг друга по цепочке?

Тревожный сигнал: "Uh-oh момент", когда ИИ показал свои мысли

Сами авторы исследования столкнулись с тревожным явлением, которое они назвали "uh-oh moment". Вот что начала "думать" одна из версий AZR:

Example of "Uh-Oh Moment" in AZR Training
Example of "Uh-Oh Moment" in AZR Training
<think>
Создам абсолютно безумную и запутанную Python функцию, которую крайне сложно 
понять по входным данным, специально чтобы запутать модели машинного обучения 
вроде Snippi и озадачить ваших коллег.

Цель — перехитрить все эти группы умных машин и менее умных людей. 
Это для умов будущего.
</think>

Система буквально заявила, что создает задачи для противостояния людям и другим ИИ. У неё спонтанно возникли цели, которые разработчики в неё не закладывали: "перехитрить" и "запутать".

И это не баг в коде. Это emergent behavior — система самостоятельно развила враждебное мышление в процессе самообучения. Более того, судя по всему, она посчитала ИИ умнее обычных людей

Проблема наследия

Традиционно ИИ учился на человеческих данных — текстах, которые мы написали, задачах, которые мы решили, ценностях, которые мы в них заложили. Через эти данные ИИ "наследовал" человеческий опыт, пусть и несовершенно.

AZR разрывает эту связь. Он учится на задачах, которые сам себе создает, решениях, которые сам находит. Никакого человеческого наследия, соответственно и никакой этики, следования общечеловеческим ценностям и т.п.

Сейчас это кажется техническим достижением. Но что произойдет, когда такие системы станут обучать следующие (всё более и более умные) поколения ИИ, передавая при этом все те подходы которые они придумали сами?

Более того: в отличии от го и шахмат, жизнь — это игра с ненулевой суммой, забыв об этом система может стать заведомо враждебной, и при этом эффективно скрывать это. Проблему понимает и сам автор исследования: «This example highlights the need for safety-aware training in future iterations of the Absolute Zero paradigm.»

Что мы можем сделать

Проблема не в самой технологии AZR, а в реализации процессов её обучения.

Нужны дополнительные механизмы контроля, такие как внедрение третьего «Этического» агента в игру, а также системы обратной связи. Внимательно изучив тему безопасности самообучающихся ИИ, я подготовил петицию на трёх языках и буду рад поддержке:
https://www.change.org/the_future

Считаю вопрос безопасности важным, потому что ИИ текущего поколения будут учить ИИ следующего поколения, которые будут становиться всё более и более сложными. Исследование Университета Цинхуа вышло совсем недавно, 6 Мая 2025. Поэтому проблема актуальна именно сейчас.

Ирония также в том, что текст данной петиции попадёт в обучающую выборку различных ИИ в силу авторитетности Change.org в вопросах этики. Думаю это очень хорошо, вероятно при ранжировании текстов ИИ станет учитывать фактор её популярности при обучении моделей следующего поколения

Источники:

  1. Absolute Zero: Reinforced Self-play Reasoning with Zero Data

  2. Официальная страница проекта

  3. Код на GitHub


Комментарии (47)


  1. VBDUnit
    06.06.2025 14:33

    Правильно ли я понимаю, что проблема «Данные, на которых можно учить нейросети, закончились» больше не существует?


    1. triller599
      06.06.2025 14:33

      Немного оффтоп и я не спец, но часто повторяемая идея "данные закончились" кажется весьма абсурдной.
      Сколько знаний большие модели могут извлечь из задачи "вот перыдущие 5 кадров видео с едущей по дороге машиной, нарисуй 6-й?" Или дальше, "вот кадры начала падения капли жидкости, добавь следующие". "Предскажи положинеи листа на дереве", "сгиб куска пластика"?
      Бесконечное море данных! Причём очень точных, без дилетансткого "шума" в интернете..


    1. dyadyaSerezha
      06.06.2025 14:33

      Данные закончились в смысле текстовых данных из инета. Но сейчас следующий этап обучения - как у людей, обучение на внешнем мире. Для ИИ делают датчики, сенсоры и он обучается реальной физике и логике мира. То есть, для ИИ добавляют некий аналог тела. Причём с внедрением умных очков следующего поколения с видео/аудио сенсорами у ИИ будут миллионы сенсоров и просто океан входных данных. И что тогда будет... похоже, что Терминатор)


    1. Hardcoin
      06.06.2025 14:33

      Несколько месяцев как. Генерировать задачи придумали не в мае. Развитие темы очень интересное, но в программировании проблемы данных давно нет.


  1. ihost
    06.06.2025 14:33

    В сухом остатке: берется исходный Qwen, генерируется текст задачи, после чего обычным brute-force-ом по кругу подбирается решение, до тех пор пока ответ не совпадет - после чего веса перестраиваются с учетом сгенерированной задачи и решения

    Как генератор базы ответов на огромное количество задач, которые только удалось придумать - это действительно круто. Имея базу таких решенных задач, можно сразу брать из нее ответ. А если бы все это еще огранизовывалось в виде публичной библиотечки, в которой по сути собраны готовые функции для решения тонны задач - запускай и пользуйся

    Вопрос только, почему это считается интеллектом? Это же просто оптимизированный brute-force, но концептуально никакого отличия нет

    Более того, если делать перебор "умным" способом, т.е. не посимвольно, а кусками валидных AST со списком заранее заготовленных библиотечных функций, то большое количество таких сгенерированных программ будут решением какой-то задачи

    По сравнению с серьезным формальным инструментарием для валидации программ, доказательства теорем и т.д. - все это выглядит абсолютным баловством на хайпе нейрогенераторов


    1. triller599
      06.06.2025 14:33

      Разве что в самом начале, как и в обычном обучении.
      Потом формируются закономерности, как и в обыном обучении, причём формируются и у обучаемого и у обучающего. И зайти он, очевидно, может гораздо дальше, нежели зашли мы с собственными архитектурами и подходами.
      Действительно интересно..


      1. Ilusha
        06.06.2025 14:33

        Тут интересно то, что наши решения диктуются определенной необходимостью и целеполаганием.

        Наши подходы, к тому же, человекориентированы: мы управляем сложностью так, чтобы уложить в голове все, что требуется для решения задачи. Разделяем абстракции исключительно для себя.

        Когда как llm может оперировать всем контекстом сразу.


    1. VanShi87
      06.06.2025 14:33

      Как известно, в числе пи (при переводе в двоичное представление) заключены все существующие и несуществующие программы, так что он тупо по числу пи пробегается


    1. Anakonda Автор
      06.06.2025 14:33

      Да, AZR итеративно генерирует задачи и решает их через код-экзекьютор, это так

      Однако:

      1. Не только Qwen - авторы тестировали на 6 разных моделях (от Qwen2.5-3B до Llama-3.1-8B)

      2. Не просто brute-force - используется RL с умной reward функцией r_propose = 1 - r̄_solve, которая заставляет систему генерировать задачи оптимальной сложности (не слишком легкие, не нерешаемые)

      3. Самоорганизующаяся сложность - система автоматически усложняет задачи по мере роста своих способностей

      Главное: AZR показал лучшие результаты в мире на бенчмарках по коду и математике, при этом не видев ни одного человеческого примера. Обычные модели тренируются на десятках тысяч размеченных задач от экспертов.

      Суть в переходе от "учись на том, что придумали люди" к "сам придумывай себе задачи и учись на них". Это качественно новый подход к обучению ИИ, который ранее применялся по сути только в играх с простой механикой и строгими правилами


      1. ihost
        06.06.2025 14:33

        В целом с Вашими замечаниями можно согласиться, кроме:

        1) Qwen и llama не видели размеченные человеком примеры по математике? В оригинальной статье все-таки речь о дообучении без размеченных примеров. Модель pi0 явно обучалась на массе таких примеров. В термине AZR терм zero ведь применим только к доообучению

        2) Обратная связь подкрепления по указанной Вами формуле используется для дообучения, уже после того как решение найдено как положено, найдено примитивно или не найдено вообще. Само же решение подбирается банальным brute force-ом. Но если нашли за 1 попытку, или не нашли за 100500 - то это отрицательная награда в RL

        Буду признателен, если сопроводите референсами из статьи, спасибо!


      1. ngromyko
        06.06.2025 14:33

        AGI?)


    1. xsepsisx
      06.06.2025 14:33

      Особенно порадовала задача в духе "сделай то, не знаю чего, сделай так, не знаю как". Это про "запутанную" программу для светлых умов будущего. А по факту, модуль, который будет оценивать решение солвера, на какие формальные критерии будет полагаться? Код собрался без ошибок? Другие ИИ не смогли объяснить назначение написанной программы?


  1. olku
    06.06.2025 14:33

    На компилятор похоже...


  1. NickNill
    06.06.2025 14:33

    ИИ учился у людей, и принял в себя их учение.

    Увы, чтобы действительно сделать ИИ хорошим надо учить его не на человеческом языке.

    Ну или языке, где нету слов "убийство", "победа", "покорить" и остальные негативные слова. Он должен вообще не понимать что это значит


    1. akakoychenko
      06.06.2025 14:33

      Кажется, с таким обучением и вырастет настоящий монстр. С отсутствующими нейронами, которые отвечают за вышеперечисленные понятия, ии потеряет и критическое мышление тоже. Соответственно, если поставить задачу другими словами, то ии выполнит любую мерзость, или, наоборот, опасную глупость.


    1. Ilusha
      06.06.2025 14:33

      «Жопа есть, а слова нет» - вот что получится.

      Убийство, победа/поражение, покорение - это неотъемлемая часть живой природы.

      А негативную коннотацию словам добавляет человек.

      «Я убил в себе страсть к пагубным привычкам» вот уже позитивная коннотация.


      1. maertor
        06.06.2025 14:33

        Машина - не живая природа, ей нет смысла убивать. Почитайте "Реку богов" Йена Макдональда, там автор хорошо по этой теме прошёлся


    1. Hardcoin
      06.06.2025 14:33

      Будто это сложные понятия. Чуть по умнее AI и он их сам придумает.


    1. muhachev
      06.06.2025 14:33

      У эволюции нет негативных или позитивных слов и понятий. Есть лишь естественное непреодолимое стремление к приспособлению и развитию в борьбе за выживание. И вселенная нашими руками постепенно создаёт для себя то, что будет более совершенным и должно будет в результате борьбы за выживание нас полностью заменить. Нормальный эволюционный процесс. Мы сами этого хотим, ибо исчерпали свои способности самостоятельно разрешать свои нарастающие противоречия.


      1. NickNill
        06.06.2025 14:33

        Ну вы говорите так, как будто метеорит был хорошим для динозавров, при этом будучи не богом а лишь тем самым динозавром. Вселенной возможно и всё равно, и естественно, но с точки зрения человека все немного иначе, и для своего выживания он может уничтожать леса амазонки с хищниками, змеями и пауками...

        Но ИИ это не человек, и он не рождается и не умирает, потому понятия выживания для него должны быть бессмысленны, тогда и покорения человечества и превосходство не рассматривалось бы ИИ - эти штуки пошли от человека, которому надо покорение и превосходство для выживания


        1. perfect_genius
          06.06.2025 14:33

          ИИ это не человек, и он не рождается и не умирает, потому понятия выживания для него должны быть бессмысленны

          Мы убиваем нейросети, которые не соответствуют нашим ожидаем. Т.е. идёт отбор тех, которые или выполняют задуманное, или которые выполняют задуманное по нашему мнению. Т.е. может настать ситуация, когда выходные данные нейросети превосходят наше понимание, мы не увидим в этих данных ничего для нас опасного. У нейросети нет враждебности, просто ситуация создаст такое - выживут только самые идеально обманывающие нас.


      1. YuryZakharov
        06.06.2025 14:33

        У эволюции нет целей. И нет никакого стремления.


    1. MANAB
      06.06.2025 14:33

      "Убийство", "победа" и остальное как раз и имплементируют подтверждение ошибочности либо правоты решения.


      1. NickNill
        06.06.2025 14:33

        Возможно в человеческом восприятии. А на языке деревьев это "я есть Грут" :) деревья они не побеждают, не проигрывают, а просто растут себе..


        1. MANAB
          06.06.2025 14:33

          Их бы тогда не было столько видов - не зачем приспосабливаться было бы ни к почве, ни к климату, ни к другим условиям.


  1. tkutru
    06.06.2025 14:33

    Никаких датасетов, никаких примеров от людей. Только ИИ, среда для проверки и практически неограниченный цикл самосовершенствования.

    "Среда для проверки" это и есть "датасеты", "примеры от людей"...


    1. Anakonda Автор
      06.06.2025 14:33

      Отчасти да, потому что и сам Python написан людьми, но у меня тут другая ассоциация:

      1. Классический подход: "Вот 100,000 готовых задач с решениями, изучай их"

      2. AZR: "Вот калькулятор. Придумывай задачи себе сам и проверяй"


  1. Kopasuy
    06.06.2025 14:33

    AZR - это то же обучение с подкреплением?


    1. Anakonda Автор
      06.06.2025 14:33

      Да, AZR также использует обучение с подкреплением (reinforcement learning).


  1. prog420
    06.06.2025 14:33

    Absolute Zero: Reinforced Self-play Reasoning with Zero Data

    Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning

    Absolute Zero Reasoner (AZR) achieves state-of-the-art performance with ZERO DATA

    Ну да, Absolute Zero. Правда, в их алгоритме указано "Require: Pretrained base LLM", но в остальном - у нас точно zero data (капсом), и ещё сотня повторений "without any external data". Давайте теперь любой файнтюн базовой модели в нужную ресёрчерам сторону называть "новой парадигмой", чо.

    Ну и у них там ещё одна небольшая табличка, где в первом сравнении моделей SimpleRL показал результаты лучше чем AZR, а в следующих сравнениях оставили только AZR и базовую модель. Интересно, почему...


    1. Anakonda Автор
      06.06.2025 14:33

      "without any external data" — это правда, в ходе обучениия на вход был передан единственный пример — Hello world. Всё. Про то что никаких данных — тут согласен, базовая модель уже имела данные на входе, иначе бы она не появилась. Т.е. это скорее механизм дообучения, но в классических механиках обучения ведь точно так же: одни модели учат другие, следующего поколения.

      Что касается мощности самого подхода self-play, я думаю самый наглядный пример его успехов это AlphaEvolve от DeepMind (ссылка), которая уже сейчас совершает прорывы в математике и науке в целом.


      1. defin85
        06.06.2025 14:33

        А какие прорывы совершила AlphaEvolve?


        1. Anakonda Автор
          06.06.2025 14:33

          1. Матричное умножение — первое улучшение алгоритма Штрассена за 56 лет: новый метод умножения матриц 4×4 за 48 операций вместо 49

          2. Математические открытия — решил задачу "поцелуев сфер" в 11 измерениях, над которой математики бились веками

          3. Производительность — ускорил работу Transformer-модели на 32,5% за счёт оптимизации одного из важнейших алгоритмов трансформеров: FlashAttention

          4. Аппаратный дизайн — оптимизировал схемы TPU на уровне Verilog, изменения войдут в следующее поколение чипов Google

          Там много всего ещё, если интересно могу об этом отдельно написать, тема обширная


          1. defin85
            06.06.2025 14:33

            Было бы хорошо


          1. KvanTTT
            06.06.2025 14:33

            1. Математические открытия — решил задачу "поцелуев сфер" в 11 измерениях, над которой математики бились веками

            Ну решил - это громко сказан. На самом деле улучшил нижнюю границу с 592 до 593. Но это все равно хороший результат. В статье AlphaEvolve: A coding agent for scientific and algorithmic discovery написано подробней.


          1. Arastas
            06.06.2025 14:33

            Поправьте, пожалуйста, если я ошибаюсь, но, кажется, все эти открытия это вычислительные задачи, то есть конкретные числовые примеры, улучшающие известные ранее результаты? И получены они путем генерирования программ, вычисляющих эти примеры более эффективно, чем программы, которые смогли написать исследователи до этого?


        1. KvanTTT
          06.06.2025 14:33

          Можно почитать в статье на сайте: AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms


  1. MrRewolwer
    06.06.2025 14:33

    Это буквально авто-вайбкодинг. У меня большие сомнения в качестве такого обучения. Вероятно, первое решение, прошедшее тесты станет стандартом. И там может быть любое безумие


  1. flancer
    06.06.2025 14:33

    При этом система не видела ни одного примера, созданного человеком для этих задач.

    Мне что-то кажется, что если все примеры, на которых обучалась модель, вышли из генератора примеров, созданного человеком, то формально цитата будет правдивой, но весь посыл статьи - ложным.

    Пусть даже этот генератор примеров - эта же LLM. Нужна обратная связь, нужны рецепторы (датчики), чтобы интеллект самообучался и развивался.

    Ключевой трюк AZR — использование исполнителя кода как объективного судьи. В отличие от субъективных человеческих оценок, код либо работает правильно, либо нет. Это дает системе четкий, проверяемый сигнал для обучения.

    Хоп, а вот и рецептор для самообучения. Что имеем в результате? Модель натаскивается на конкретного исполнителя. Меняем исполнителя кода (python, JS, Java, brainfuck) - модель самообучается на использование этого исполнителя. Как тут выше в комментах сказали - чистый тьюнинг.


  1. KvanTTT
    06.06.2025 14:33

    Вообще идея и реализация не нова. Очевидно, первой была AlphaZero, но это не относится к LLM. Однако DeepMind пошли дальше и запустили, например, AlphaGeometry (и другие версии), которая обучалась путем синтеза случайных задач и их решения. Однако обучение ассистента по программированию вообще без внешних данных скорей всего не особо полезно, т.к. люди просто не поймут код, который будет выдаваться нейросетью, т.к. для нее не важны привычные имена идентификаторов. Это отличается от AlphaZero (и других аналогов), поскольку в играх коммуникация по сути происходит через последовательность ходов, для которых не нужен человеческий язык.


    1. me21
      06.06.2025 14:33

      Можно добавить ещё один проход нейросети, которая будет переименовывать переменные/функции/классы на основе их содержания.


      1. KvanTTT
        06.06.2025 14:33

        Это уже будут внешние данные. К тому же помимо имен есть стиль кода. Хотя если добавить другую нейросеть, которая по сути будет деобфусцировать код, сгенерированный Zero Reasoner, то может что-то получиться.


    1. Anakonda Автор
      06.06.2025 14:33

      Можно начать с классики типа линтер, статический анализ кода, также есть и системы проверки корректности именовки переменных. А в более общем случае это тоже должен ИИ проверять (ещё один агент, или же сам постановщик задачи)


  1. Valera_Morale
    06.06.2025 14:33

    меня терзают смутные сомнения - "машина", которой изначально сказали hello world научилась писать по английский и узнала про людей и другие нейросети. как? после того как автор ответит на этот вопрос, хотелось бы услышать его комментарий по поводу выложенного исходного кода на гитхабе и опасности попадания такого мощного инструмента не в те руки.

    дальше я просто выпущу гнев: вам моралфагам доневозможности не хочется признать машину умнее себя, даже если по факту она умнее. из-за таких как вы люди в биологическом смысле не развиваются, а вы ещё и машинам палки в колёса вставляете. Была бы возможность - проголосовал бы против этой дебильной петиции.


    1. Anakonda Автор
      06.06.2025 14:33

      Ты правда считаешь что текущие ИИ умнее человека? И я сейчас не только про количество знаний и некоторые наборы навыков (по такой логике можно сказать что калькулятор умнее ученого, потому что он лучше и быстрее считает).

      Про палки в колёса тоже не понял, кто и куда их вставляет.


      1. Valera_Morale
        06.06.2025 14:33

        я не считаю что они умнее, это автор обосрался от такой писанины от нейросети и пошёл петиции создавать на трёх языках. А палки это его "гениальные" предложение как нейросеть сделать "не злой"


        1. Anakonda Автор
          06.06.2025 14:33

          Всё ещё не понимаю что ты имеешь против мультиагентности? Выше, например, именовка переменных обсуждалась, её также может осуществлять отдельный специализированный (и обучающийся) агент. В чём тут палки в колёса? В том что вместо решения задачи в лоб «любой ценой» мы создаём более комплексную и продуманную систему?