На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям / forpes.ru

Главная
На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям

На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям +10

28.05.2025 09:27

Safreliy 5 1300 Источник

START — опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены.

Зачем нужна START

Современные ризонинг-модели впечатляюще круто решают даже очень сложные задачи. Однако они сталкиваются с двумя ключевыми проблемами: галлюцинациями и неспособностью выполнять точные вычисления.

Пруфы:

У Anthropic недавно вышло нашумевшее исследование, которое демонстрирует, что LLM вполне способны «обманывать», имитируя рассуждения и приходя к неверным выводам.

Если попросить LLM решить сложную математическую задачу, она может выдать логически обоснованное, но неверное решение, просто потому что не умеет проверять свои шаги так, как это делает человек с калькулятором, интерпретатором кода или специализированным ПО под рукой.

Особенно трудно моделям даются:

многоэтапные вычисления: интегралы, комбинаторика, оптимизация и все такое прочее;
генерация и отладка кода: без реального исполнения модель не может найти синтаксические ошибки или логические недочеты;
анализ данных: например, проверка статистических гипотез требует точных расчетов, а не предположений.

Идея START родилась на стыке двух направлений:

Длинные цепочки рассуждений (Long CoT). Это тот же ризонинг, где модель декомпозирует задачу и пытается найти недочеты в решении, подражая когнитивным стратегиям человека.
Ризонинг с инструментами (TIR). Это подход, когда LLM сама решает, когда ей нужно обратиться к внешним инструментам, например, исполнить код на Python для вычислений.

Как устроена START

START — это LLM, способная при необходимости делегировать работу внешним инструментам. Главный ее прорыв — автогенерация обучающего датасета путем вызова инструментов без готовых примеров, просто через подсказки в процессе размышлений предобученной ризонинг-модели QwQ.

Эти подсказки не случайны. Они вставляются после слов вроде Alternatively или Wait, где модель обычно начинает задумываться. После подсказок сгенерированный Python-код запускается, а результат встраивается в рассуждение.

Например, для задачи «Найди сумму цифр числа 29!» модель сначала вычисляет факториал кодом, а потом анализирует ответ.

После сбора сгенерированных ответов, которые в результате применения TIR дали лучший результат на существующих задачах, на них производится обучение модели START-0. Это не конечная модель, но она будет использована дальше для завершающего этапа.

Хоть START-0 и научилась вызывать инструменты для решения задач, она все еще может делать это неоптимально. Rejection Sampling Fine-Tuning (RFT) помогает прийти к финальной версии обучающего датасета путем генерации разных вариантов размышлений над одной и той же задачей. После отбора лучших ответов на них обучается модель START.

Отличия START от GPT-4 и Gemini:

Узкая специализация: START заточена под задачи, в которых нужны вычисления или проверка кода, а не диалоги на общие темы.
START является опенсорсным решением, в отличие от GPT-4 или Gemini, поскольку он основан на открытой модели QwQ.

Какие инструменты доступны:

Пока только Python, но архитектура позволяет добавить что угодно: SQL для аналитики, WolframAlpha для символьных вычислений или даже API для работы с базами данных.

Решая задачу «Найди аномалии в продажах» модель могла бы:

Сгенерировать SQL-запрос.
Получить данные.
Проанализировать их через Pandas.

Как START научили думать, используя инструменты

Обучение START напоминает тренировку стажера, которому подсказывают нужный инструментарий для решения задачи, закрепляют лучшие результаты, а потом просят повторить то же самое на других задачах.

Этапы:

Сбор данных: 50 000 задач (математика, код, наука), включая олимпиадные задачи AIME и сложные вопросы GPQA.
Hint-infer: Исходная модель QwQ-32B генерировала решения, а исследователи вставляли подсказки в ключевые моменты. И сохраняли удачные примеры, где код помог решить задачу.
Hint-RFT: Генерировали несколько разных траекторий размышлений, лучшие траектории отбирали, очищали от повторов и дообучали на них модель.

Результаты:

На математике (AMC23) START показала 95% точности против 80% у базовой QwQ.
В научных вопросах (GPQA) — 63.6%, что сопоставимо с топовыми закрытыми моделями.
В генерации кода выигрыш тоже имеется (+5.9%), модель стала лучше находить баги через исполнение кода.

Где START реально полезна

START проявит себя лучше всего в анализе данных, автоматической проверке гипотез через SQL и Python и генерации рабочих блоков кода.

Пример из жизни:

Представьте аналитика, который проверяет, почему вдруг упали продажи в ноябре. Вместо ручных запросов он мог бы спросить START, и та запросто нашла бы ответ:

Сгенерировала бы SQL для выгрузки данных.
Построила графики через matplotlib.
Нашла аномалии через статистику.
Сформировала полный отчет на основе полученных данных без привлечения агентов.

Главное — скорость:

Хотя исполнение кода добавляет задержку, START сокращает число необходимых для решения задачи итераций. Это особенно заметно при сравнении с агентными системами. Например, на некоторой математической задаче START дает ответ за один проход, а обычная LLM может несколько раз ошибиться в арифметике.

Постскриптум: если хотите, можно то же самое, но за деньги

Кстати, относительно свежая o3 от OpenAI — это та же START, только коммерческая.

Главная фишка: новые модели натренировали использовать инструменты прямо во время ризонинга. Они могут не только искать в интернете, но и исполнять код и пользоваться другими инструментами. Модели мультимодальные и могут использовать это качество во время размышлений.

По бенчмаркам это полный разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. И это неудивительно: на тренировку модели o3 ушло в 10 раз больше вычислительных ресурсов, чем на o1.

Комментарии (5)

pnmv
28.05.2025 09:55
#28363380
если эту статью сгенерировала не "START", даже не зовите меня на эту вечеринку. ;)

раздел "пруфы", к сожалению, не соответствует предшествующему блоку ("зачем нужна START"). утверждения, в целом, верны, но они никак не обосновывают полезность конкретного инструмента.

в целом же, появление подобного инструментария было ожидаемо и вполне очевидно. хотя, конечно, так хочется иметь на своем карманном калькуляторе калькуляторе "маленькую нейронную сеть, которая, без подкрепления, всё сама, и без перерасхода батареек, да ещё и не врала, при удовлетворительной точности"...

SporDel
28.05.2025 09:55
#28363574
Прекрасно. А где ссылки, где это все можно проверить?
1. Safreliy Автор
  28.05.2025 09:55
  #28363624
  К сожалению, авторы оригинальной статьи ссылками не поделились, однако именно фрейморк START описан подробно и некоторые его реализации можно найти в open-source (в том числе и обученные модели):
  
  https://github.com/dongguanting/Tool-Star

lil_master
28.05.2025 09:55
#28366386
Например, для задачи «Найди сумму цифр числа 29!» модель сначала вычисляет факториал кодом, а потом анализирует ответ.

По-моему логичнее было бы сначала уточнить !, это восклицание или факториал, а потом уже вычислять
1. Sleuthhound
  28.05.2025 09:55
  #28373272
  Вот в том то и отличие человека от машины - он умеет думать!
  
  Человек поймет это предложение как восклицательное (восклицательный знак это просто символ конца предложения), ведь факториал - это произведение всех натуральных чисел от 1 до n, а тут написано НАЙДИ СУММУ.
  
  А вот что там вычислит нейросеть - это еще вопрос.

На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям +10

Зачем нужна START

Как устроена START

Как START научили думать, используя инструменты

Где START реально полезна

Постскриптум: если хотите, можно то же самое, но за деньги

Комментарии (5)

pnmv

SporDel

Safreliy Автор

lil_master

Sleuthhound