Автономная наука о данных — давняя мечта: от сырых таблиц и файлов до аккуратных графиков и связного аналитического отчета без постоянного участия человека. Большие языковые модели (LLM) продвинули нас вперед, но типичные workflow-агенты живут за счет заранее прописанных правил. Они хрупки: стоит задаче выйти за рамки — и все процессы сыпятся. В новой работе авторы предлагают другой путь: не внешние сценарии, а сама модель, обученная действовать и улучшать свои решения в живой среде.

DeepAnalyze-8B — первая сквозная агентная LLM для автономного анализа данных, охватывающая весь конвейер Data Science и открытые исследования данных.
DeepAnalyze-8B — первая сквозная агентная LLM для автономного анализа данных, охватывающая весь конвейер Data Science и открытые исследования данных.

Что предложили авторы

DeepAnalyze-8B — агентная LLM на 8 миллиардов параметров, которая закрывает весь цикл: подготовка данных, анализ, моделирование, визуализация, формирование отчетов и даже открытые исследования, где нет единственно верного ответа. Главная идея — встроить в модель две способности, без которых автономии не бывает: умение самостоятельно оркестрировать процесс (понимать задачу, планировать, выбирать действия) и умение адаптивно оптимизировать свои шаги, учитывая обратную связь среды.

Архитектура DeepAnalyze
Архитектура DeepAnalyze

Как работает модель

Взаимодействие с данными оформлено через пять простых действий, которыми модель управляет сама — без внешнего оркестратора:

  • <Analyze> — спланировать ход решения, рассуждать, проверять себя.

  • <Understand> — разобраться в содержимом источников: таблиц, БД, документов.

  • <Code> — сгенерировать Python‑код для анализа, подготовки и визуализации.

  • <Execute> — выполнить код и прочитать обратную связь среды.

  • <Answer> — выдать итоговый ответ или отчет.

Цепочка повторяется столько, сколько требуется. Когда возникает новая гипотеза, модель пишет код, запускает его, смотрит результаты и корректирует план. Это и есть автономная оркестрация плюс адаптивная оптимизация — вшитые в поведение самой модели.

Примеры DeepAnalyze-8B: на основе инструкций и источников данных модель автономно планирует, взаимодействует с данными и оптимизирует действия по обратной связи, завершая конвейер и открытые исследования.
Примеры DeepAnalyze-8B: на основе инструкций и источников данных модель автономно планирует, взаимодействует с данными и оптимизирует действия по обратной связи, завершая конвейер и открытые исследования.

Как обучали: от простого к сложному

Главная инженерная трудность — разреженные вознаграждения и нехватка длинных, реалистичных траекторий решения. Авторский рецепт состоит из двух частей.

Во‑первых, учебный план. Сначала модель прокачивают отдельные навыки (рассуждения, понимание таблиц, кодогенерация). Затем переводят на мультимодульный агентный режим с подкреплением: генерируй действия, исполняй код, получай оценку и учись корректировать поведение. Используется GRPO‑обучение с гибридным вознаграждением: формальные проверки плюс LLM‑оценщик качества отчетов, интеракций и финальных ответов.

Во‑вторых, синтез траекторий. Нужны хорошие примеры рассуждений и взаимодействия со средой:

  • Reasoning Trajectory Synthesis — дистиллируют и «доправляют» цепочки мыслей так, чтобы они систематически возвращались к данным, а не фантазировали поверх текста.

  • Interaction Trajectory Synthesis — генерируют мультитуровые эпизоды с ролями интервьювер, решатель и инспектор, фильтруют по фактическим изменениям среды и качеству шагов.

Схематическая диаграмма агентного обучения с подкреплением
Схематическая диаграмма агентного обучения с подкреплением
Синтез сценариев взаимодействия
Синтез сценариев взаимодействия

Чтобы это стало массовым, авторы собрали DataScience‑Instruct‑500K — около 500 тысяч примеров: от улучшенных рассуждений до интеракционных эпизодов для холодного старта и RL. Набор открыт.

Что показали тесты

Модель прогнали по 12 бенчмаркам — от классических задач кода и TableQA до сценариев полного конвейера и открытых исследований.

  • Полный конвейер (DataSciBench). DeepAnalyze‑8B стал лучшим среди открытых агентов и обогнал большинство проприетарных систем на основе готовых пайплайнов. Уступил только GPT‑4o. Важная деталь: без внешних фреймворков, вся оркестрация внутри модели.

  • Прикладные задачи (DSBench, DABStep). На смешанных форматах (CSV/JSON/Markdown) и особенно на сложных кейсах автономная стратегия стабильно выигрывает у ReAct‑подсказок и ручных сценариев.

  • Глубокие исследования (DABStep‑Research). На генерации отчетов уровня профессионального аналитика DeepAnalyze‑8B показывает устойчивое преимущество. Падения качества на открытых задачах нет — обучение в реальной среде и вознаграждение за отчет делают свое дело.

  • Связанные способности. На DS‑1000 (NumPy/Pandas/Matplotlib) и TableQA модель подтягивает узкие навыки: выше GPT‑4‑Turbo и GLM‑4.5 на кодогенерации и новый максимум на Reasoning‑Table.

Производительность на DSBench (анализ данных).
Производительность на DSBench (анализ данных).
Производительность на DABStep-Research.
Производительность на DABStep-Research.

Почему это важно

Работа аккуратно смещает акцент с мультиагентных конструкторов и ручных сценариев к агентным LLM, где поведение «зашито» в саму модель. Это экономит инженерные усилия, снижает зависимость от промтов, упрощает перенос между задачами и делает анализ данных более надежным. Дальше — масштабирование к экосистемам: обнаружение данных, управление и прозрачность, интеграция в корпоративные пайплайны. Открытые код, данные и методика обучения — важный вклад для ИИ-сообщества.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (1)


  1. Gerinos
    22.10.2025 20:48

    Интересно!