START — опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены.

Зачем нужна START  

Современные ризонинг-модели впечатляюще круто решают даже очень сложные задачи. Однако они сталкиваются с двумя ключевыми проблемами: галлюцинациями и неспособностью выполнять точные вычисления. 

Пруфы: 

У Anthropic недавно вышло нашумевшее исследование, которое демонстрирует, что LLM вполне способны «обманывать», имитируя рассуждения и приходя к неверным выводам. 

Если попросить LLM решить сложную математическую задачу, она может выдать логически обоснованное, но неверное решение, просто потому что не умеет проверять свои шаги так, как это делает человек с калькулятором, интерпретатором кода или специализированным ПО под рукой. 

Особенно трудно моделям даются:  

  • многоэтапные вычисления: интегралы, комбинаторика, оптимизация и все такое прочее;

  • генерация и отладка кода: без реального исполнения модель не может найти синтаксические ошибки или логические недочеты;

  • анализ данных: например, проверка статистических гипотез требует точных расчетов, а не предположений. 

Идея START родилась на стыке двух направлений: 

  • Длинные цепочки рассуждений (Long CoT). Это тот же ризонинг, где модель декомпозирует задачу и пытается найти недочеты в решении, подражая когнитивным стратегиям человека.  

  • Ризонинг с инструментами (TIR). Это подход, когда LLM сама решает, когда ей нужно обратиться к внешним инструментам, например, исполнить код на Python для вычислений.  

Как устроена START

START — это LLM, способная при необходимости делегировать работу внешним инструментам. Главный ее прорыв — автогенерация обучающего датасета путем вызова инструментов без готовых примеров, просто через подсказки в процессе размышлений предобученной ризонинг-модели QwQ. 

Эти подсказки не случайны. Они вставляются после слов вроде Alternatively или Wait, где модель обычно начинает задумываться. После подсказок сгенерированный Python-код запускается, а результат встраивается в рассуждение. 

Например, для задачи «Найди сумму цифр числа 29!» модель сначала вычисляет факториал кодом, а потом анализирует ответ. 

После сбора сгенерированных ответов, которые в результате применения TIR дали лучший результат на существующих задачах, на них производится обучение модели START-0. Это не конечная модель, но она будет использована дальше для завершающего этапа. 

Хоть START-0 и научилась вызывать инструменты для решения задач, она все еще может делать это неоптимально. Rejection Sampling Fine-Tuning (RFT) помогает прийти к финальной версии обучающего датасета путем генерации разных вариантов размышлений над одной и той же задачей. После отбора лучших ответов на них обучается модель START.

Отличия START от GPT-4 и Gemini:

  • Узкая специализация: START заточена под задачи, в которых нужны вычисления или проверка кода, а не диалоги на общие темы. 

  • START является опенсорсным решением, в отличие от GPT-4 или Gemini, поскольку он основан на открытой модели QwQ. 

Какие инструменты доступны:

Пока только Python, но архитектура позволяет добавить что угодно: SQL для аналитики, WolframAlpha для символьных вычислений или даже API для работы с базами данных. 

Решая задачу «Найди аномалии в продажах» модель могла бы: 

  1. Сгенерировать SQL-запрос. 

  2. Получить данные. 

  3. Проанализировать их через Pandas. 

Как START научили думать, используя инструменты  

Обучение START напоминает тренировку стажера, которому подсказывают нужный инструментарий для решения задачи, закрепляют лучшие результаты, а потом просят повторить то же самое на других задачах. 

 

Этапы:  

  1. Сбор данных: 50 000 задач (математика, код, наука), включая олимпиадные задачи AIME и сложные вопросы GPQA. 

  2. Hint-infer: Исходная модель QwQ-32B генерировала решения, а исследователи вставляли подсказки в ключевые моменты. И сохраняли удачные примеры, где код помог решить задачу. 

  3. Hint-RFT: Генерировали несколько разных траекторий размышлений, лучшие траектории отбирали, очищали от повторов и дообучали на них модель.  

Результаты: 

  • На математике (AMC23) START показала 95% точности против 80% у базовой QwQ. 

  • В научных вопросах (GPQA) — 63.6%, что сопоставимо с топовыми закрытыми моделями. 

  • В генерации кода выигрыш тоже имеется (+5.9%), модель стала лучше находить баги через исполнение кода. 

Где START реально полезна

START проявит себя лучше всего в анализе данных, автоматической проверке гипотез через SQL и Python и генерации рабочих блоков кода. 

Пример из жизни: 

Представьте аналитика, который проверяет, почему вдруг упали продажи в ноябре. Вместо ручных запросов он мог бы спросить START, и та запросто нашла бы ответ: 

  1. Сгенерировала бы SQL для выгрузки данных. 

  2. Построила графики через matplotlib. 

  3. Нашла аномалии через статистику. 

  4. Сформировала полный отчет на основе полученных данных без привлечения агентов. 

Главное — скорость: 

Хотя исполнение кода добавляет задержку, START сокращает число необходимых для решения задачи итераций. Это особенно заметно при сравнении с агентными системами. Например, на некоторой математической задаче START дает ответ за один проход, а обычная LLM может несколько раз ошибиться в арифметике. 

Постскриптум: если хотите, можно то же самое, но за деньги

Кстати, относительно свежая o3 от OpenAI — это та же START, только коммерческая.

Главная фишка: новые модели натренировали использовать инструменты прямо во время ризонинга. Они могут не только искать в интернете, но и исполнять код и пользоваться другими инструментами. Модели мультимодальные и могут использовать это качество во время размышлений. 

По бенчмаркам это полный разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. И это неудивительно: на тренировку модели o3 ушло в 10 раз больше вычислительных ресурсов, чем на o1.

Комментарии (4)


  1. pnmv
    28.05.2025 09:55

    если эту статью сгенерировала не "START", даже не зовите меня на эту вечеринку. ;)

    раздел "пруфы", к сожалению, не соответствует предшествующему блоку ("зачем нужна START"). утверждения, в целом, верны, но они никак не обосновывают полезность конкретного инструмента.

    в целом же, появление подобного инструментария было ожидаемо и вполне очевидно. хотя, конечно, так хочется иметь на своем карманном калькуляторе калькуляторе "маленькую нейронную сеть, которая, без подкрепления, всё сама, и без перерасхода батареек, да ещё и не врала, при удовлетворительной точности"...


  1. SporDel
    28.05.2025 09:55

    Прекрасно. А где ссылки, где это все можно проверить?


    1. Safreliy Автор
      28.05.2025 09:55

      К сожалению, авторы оригинальной статьи ссылками не поделились, однако именно фрейморк START описан подробно и некоторые его реализации можно найти в open-source (в том числе и обученные модели):

      https://github.com/dongguanting/Tool-Star


  1. lil_master
    28.05.2025 09:55

    Например, для задачи «Найди сумму цифр числа 29!» модель сначала вычисляет факториал кодом, а потом анализирует ответ. 

    По-моему логичнее было бы сначала уточнить !, это восклицание или факториал, а потом уже вычислять