START — опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены.

Зачем нужна START
Современные ризонинг-модели впечатляюще круто решают даже очень сложные задачи. Однако они сталкиваются с двумя ключевыми проблемами: галлюцинациями и неспособностью выполнять точные вычисления.
Пруфы:
У Anthropic недавно вышло нашумевшее исследование, которое демонстрирует, что LLM вполне способны «обманывать», имитируя рассуждения и приходя к неверным выводам.
Если попросить LLM решить сложную математическую задачу, она может выдать логически обоснованное, но неверное решение, просто потому что не умеет проверять свои шаги так, как это делает человек с калькулятором, интерпретатором кода или специализированным ПО под рукой.
Особенно трудно моделям даются:
многоэтапные вычисления: интегралы, комбинаторика, оптимизация и все такое прочее;
генерация и отладка кода: без реального исполнения модель не может найти синтаксические ошибки или логические недочеты;
анализ данных: например, проверка статистических гипотез требует точных расчетов, а не предположений.
Идея START родилась на стыке двух направлений:
Длинные цепочки рассуждений (Long CoT). Это тот же ризонинг, где модель декомпозирует задачу и пытается найти недочеты в решении, подражая когнитивным стратегиям человека.
Ризонинг с инструментами (TIR). Это подход, когда LLM сама решает, когда ей нужно обратиться к внешним инструментам, например, исполнить код на Python для вычислений.
Как устроена START
START — это LLM, способная при необходимости делегировать работу внешним инструментам. Главный ее прорыв — автогенерация обучающего датасета путем вызова инструментов без готовых примеров, просто через подсказки в процессе размышлений предобученной ризонинг-модели QwQ.
Эти подсказки не случайны. Они вставляются после слов вроде Alternatively или Wait, где модель обычно начинает задумываться. После подсказок сгенерированный Python-код запускается, а результат встраивается в рассуждение.
Например, для задачи «Найди сумму цифр числа 29!» модель сначала вычисляет факториал кодом, а потом анализирует ответ.
После сбора сгенерированных ответов, которые в результате применения TIR дали лучший результат на существующих задачах, на них производится обучение модели START-0. Это не конечная модель, но она будет использована дальше для завершающего этапа.
Хоть START-0 и научилась вызывать инструменты для решения задач, она все еще может делать это неоптимально. Rejection Sampling Fine-Tuning (RFT) помогает прийти к финальной версии обучающего датасета путем генерации разных вариантов размышлений над одной и той же задачей. После отбора лучших ответов на них обучается модель START.
Отличия START от GPT-4 и Gemini:
Узкая специализация: START заточена под задачи, в которых нужны вычисления или проверка кода, а не диалоги на общие темы.
START является опенсорсным решением, в отличие от GPT-4 или Gemini, поскольку он основан на открытой модели QwQ.
Какие инструменты доступны:
Пока только Python, но архитектура позволяет добавить что угодно: SQL для аналитики, WolframAlpha для символьных вычислений или даже API для работы с базами данных.
Решая задачу «Найди аномалии в продажах» модель могла бы:
Сгенерировать SQL-запрос.
Получить данные.
Проанализировать их через Pandas.
Как START научили думать, используя инструменты
Обучение START напоминает тренировку стажера, которому подсказывают нужный инструментарий для решения задачи, закрепляют лучшие результаты, а потом просят повторить то же самое на других задачах.
Этапы:
Сбор данных: 50 000 задач (математика, код, наука), включая олимпиадные задачи AIME и сложные вопросы GPQA.
Hint-infer: Исходная модель QwQ-32B генерировала решения, а исследователи вставляли подсказки в ключевые моменты. И сохраняли удачные примеры, где код помог решить задачу.
Hint-RFT: Генерировали несколько разных траекторий размышлений, лучшие траектории отбирали, очищали от повторов и дообучали на них модель.
Результаты:
На математике (AMC23) START показала 95% точности против 80% у базовой QwQ.
В научных вопросах (GPQA) — 63.6%, что сопоставимо с топовыми закрытыми моделями.
В генерации кода выигрыш тоже имеется (+5.9%), модель стала лучше находить баги через исполнение кода.
Где START реально полезна
START проявит себя лучше всего в анализе данных, автоматической проверке гипотез через SQL и Python и генерации рабочих блоков кода.
Пример из жизни:
Представьте аналитика, который проверяет, почему вдруг упали продажи в ноябре. Вместо ручных запросов он мог бы спросить START, и та запросто нашла бы ответ:
Сгенерировала бы SQL для выгрузки данных.
Построила графики через matplotlib.
Нашла аномалии через статистику.
Сформировала полный отчет на основе полученных данных без привлечения агентов.
Главное — скорость:
Хотя исполнение кода добавляет задержку, START сокращает число необходимых для решения задачи итераций. Это особенно заметно при сравнении с агентными системами. Например, на некоторой математической задаче START дает ответ за один проход, а обычная LLM может несколько раз ошибиться в арифметике.
Постскриптум: если хотите, можно то же самое, но за деньги
Кстати, относительно свежая o3 от OpenAI — это та же START, только коммерческая.
Главная фишка: новые модели натренировали использовать инструменты прямо во время ризонинга. Они могут не только искать в интернете, но и исполнять код и пользоваться другими инструментами. Модели мультимодальные и могут использовать это качество во время размышлений.
По бенчмаркам это полный разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. И это неудивительно: на тренировку модели o3 ушло в 10 раз больше вычислительных ресурсов, чем на o1.
Комментарии (4)
SporDel
28.05.2025 09:55Прекрасно. А где ссылки, где это все можно проверить?
Safreliy Автор
28.05.2025 09:55К сожалению, авторы оригинальной статьи ссылками не поделились, однако именно фрейморк START описан подробно и некоторые его реализации можно найти в open-source (в том числе и обученные модели):
lil_master
28.05.2025 09:55Например, для задачи «Найди сумму цифр числа 29!» модель сначала вычисляет факториал кодом, а потом анализирует ответ.
По-моему логичнее было бы сначала уточнить !, это восклицание или факториал, а потом уже вычислять
pnmv
если эту статью сгенерировала не "START", даже не зовите меня на эту вечеринку. ;)
раздел "пруфы", к сожалению, не соответствует предшествующему блоку ("зачем нужна START"). утверждения, в целом, верны, но они никак не обосновывают полезность конкретного инструмента.
в целом же, появление подобного инструментария было ожидаемо и вполне очевидно. хотя, конечно, так хочется иметь на своем карманном калькуляторе калькуляторе "маленькую нейронную сеть, которая, без подкрепления, всё сама, и без перерасхода батареек, да ещё и не врала, при удовлетворительной точности"...