? Следуй за белым кроликом ?

? Telegram @TheWeeklyBrief — краткие обзоры и подкасты ???

? GitHub Pages — углублённый разбор статей, ныряем в кроличью нору ???

Предпосылки и мотивация

Большие языковые модели (БЯМ) продемонстрировали выдающиеся возможности в сложных задачах рассуждения, но достижение высокой точности часто требует генерации сотен или тысяч цепочек рассуждений с помощью таких методов, как самосогласованность с голосованием по большинству. Хотя этот подход "параллельного мышления" эффективен, он страдает от значительных вычислительных затрат и убывающей отдачи – иногда требуя 100 миллионов дополнительных токенов для скромного улучшения точности на 14% в сложных задачах, таких как AIME 2025.

Рисунок 1: Сравнение точности на AIME 2025, показывающее превосходную производительность DeepConf для различных размеров моделей, причем некоторые достигают почти идеальной точности (99,9% для GPT-OSS-120B).
Рисунок 1: Сравнение точности на AIME 2025, показывающее превосходную производительность DeepConf для различных размеров моделей, причем некоторые достигают почти идеальной точности (99,9% для GPT-OSS-120B).

Основная проблема заключается в том, что все цепочки рассуждений рассматриваются одинаково при голосовании по большинству, несмотря на то, что БЯМ естественным образом производят цепочки разного качества. Предыдущие подходы пытались использовать глобальные меры уверенности, рассчитанные после полной генерации цепочки, но эти методы не могут уловить локальные колебания рассуждений или обеспечить раннее прекращение низкокачественных путей.

Основная методология

Deep Think with Confidence (DeepConf) решает эти ограничения с помощью сложной системы измерения уверенности, которая работает на нескольких уровнях детализации:

Локальные метрики уверенности: вместо того чтобы полагаться на глобальные средние значения, DeepConf вводит несколько целевых мер уверенности:

  • Групповая уверенность: рассчитывается по скользящим окнам токенов (обычно 1024-2048 токенов) для сглаживания индивидуальных колебаний токенов.

  • Групповая уверенность нижних 10%: фокусируется на наиболее проблемных сегментах в цепочке.

  • Минимальная групповая уверенность: идентифицирует единственный наименее уверенный шаг рассуждения.

  • Уверенность в хвосте: оценивает надежность финальных шагов рассуждения.

Математическая основа использует уверенность токена, определяемую как:

C_i = -\frac{1}{k}\sum_{j=1}^{k} \log P_{\theta}(t_j^{(i)} | x, t_{<i})

где P_θ​ представляет предсказанную моделью вероятность для j-го наиболее вероятного токена в позиции i.

Детальный разбор мат.аппарата мы разобрали вот тут + несколько примеров программной реализации индикаторов уверенности вот тут.

DeepConf имеет несколько режимов работы:

Два режима работы: DeepConf работает как в автономной, так и в онлайн-конфигурациях:

Автономный режим: использует взвешенное по уверенности голосование по большинству с фильтрацией, сохраняя только верхние η процентов цепочек на основе оценок уверенности до агрегации.

Онлайн-режим: реализует раннюю остановку в реальном времени с использованием динамически калиброванных порогов. Система генерирует начальный набор цепочек для "разогрева", чтобы установить пороги остановки, затем прерывает новые цепочки, чья групповая уверенность падает ниже этого порога.

Ключевые технические инновации

Эффективность метода обусловлена несколькими техническими инновациями:

Динамическая калибровка порога: для онлайн-генерации DeepConf использует начальную фазу "разогрева" с небольшим набором трасс (обычно 16) для установления порогов уверенности, специфичных для проблемы. Этот адаптивный подход гарантирует, что критерии остановки калибруются в соответствии со сложностью каждой проблемы.

Взвешенная по уверенности агрегация: вместо простого голосования по большинству DeepConf взвешивает каждый ответ по его связанной уверенности трассы, отдавая приоритет ответам из более надежных путей рассуждений.

Адаптивное обнаружение консенсуса: система отслеживает силу консенсуса во время генерации, останавливаясь при достижении достаточного согласия среди высокоуверенных трасс, что дополнительно снижает вычислительные требования.

Экспериментальные результаты и производительность

DeepConf демонстрирует существенные улучшения по нескольким параметрам:

Рисунок 2: Сравнение количества токенов на AIME 2025, показывающее значительное сокращение вычислительных требований — до 84,7% для GPT-OSS-120B при сохранении превосходной точности.
Рисунок 2: Сравнение количества токенов на AIME 2025, показывающее значительное сокращение вычислительных требований — до 84,7% для GPT-OSS-120B при сохранении превосходной точности.

Повышение точности: в сложных тестах на математическое рассуждение (AIME 2024/2025, BRUMO25, HMMT25) DeepConf постоянно превосходит стандартное голосование большинством. Среди заметных достижений:

  • GPT-OSS-120B достигает 99,9% точности на AIME 2025 (по сравнению с 97,0% для стандартного голосования большинством)

  • DeepSeek-8B улучшает результат с 82,3% до 87,4% на AIME 2025

  • Последовательный прирост для моделей с размером от 8B до 120B параметров

Вычислительная эффективность: онлайн-варианты обеспечивают значительное сокращение токенов:

  • DeepConf-low: сокращение токенов на 43-84,7% с агрессивной ранней остановкой

  • DeepConf-high: сокращение токенов на 18-59% с консервативной остановкой

Рисунок 3: Компромиссы между эффективностью и точностью в различных бенчмарках, демонстрирующие, что варианты DeepConf стабильно достигают лучшей точности при меньших вычислительных ресурсах по сравнению со стандартным голосованием большинством.
Рисунок 3: Компромиссы между эффективностью и точностью в различных бенчмарках, демонстрирующие, что варианты DeepConf стабильно достигают лучшей точности при меньших вычислительных ресурсах по сравнению со стандартным голосованием большинством.

Анализ сигнала уверенности

Исследование предоставляет подробный анализ того, почему локальные меры уверенности превосходят глобальные:

Рисунок 4: Распределение средних показателей уверенности для правильных (зеленый) и неправильных (оранжевый) трассировок рассуждений, показывающее четкое разделение, которое позволяет эффективно фильтровать.
Рисунок 4: Распределение средних показателей уверенности для правильных (зеленый) и неправильных (оранжевый) трассировок рассуждений, показывающее четкое разделение, которое позволяет эффективно фильтровать.

Гистограммы показывают, что различные метрики уверенности обеспечивают различную степень разделения между правильными и неправильными трассировками. Нижние 10% Групповой Уверенности и Хвостовая Уверенность демонстрируют особенно сильную дискриминационную способность, объясняя их эффективность в процессе фильтрации.

Практическая реализация и масштабируемость

При разработке DeepConf приоритет отдавался практическому развертыванию:

  • Интеграция с фреймворками: метод не требует обучения модели или настройки гиперпараметров, что делает его сразу совместимым с существующими фреймворками для обслуживания LLM.

  • Широкая совместимость моделей: оценка на различных моделях с открытым исходным кодом (DeepSeek, Qwen, серия GPT-OSS) демонстрирует общую применимость за пределами конкретных архитектур.

  • Работа в реальном времени: способность онлайн-режима принимать решения о завершении во время генерации, а не после ее завершения, обеспечивает реальную экономию вычислительных ресурсов в производственных средах.

Значимость и влияние

Эта работа решает критическое узкое место в развертывании передовых систем рассуждений на основе LLM в масштабе. Одновременно повышая точность и снижая вычислительные требования, DeepConf делает сложные возможности рассуждений более доступными для практических применений.

Успех метода в использовании внутренних сигналов уверенности модели также расширяет наше понимание количественной оценки неопределенности LLM. Открытие того, что локальные, детальные меры уверенности превосходят глобальные агрегации, имеет более широкие последствия для безопасности и надежности ИИ.

Кроме того, существенное повышение эффективности (сокращение токенов до 84,7%) при сохранении или улучшении точности представляет собой значительный шаг к устойчивому развертыванию ИИ, что особенно важно, поскольку задачи рассуждений становятся все более сложными и требовательными к вычислительным ресурсам.

Исследование демонстрирует, что интеллектуальная фильтрация и динамические стратегии завершения могут изменить компромисс между эффективностью и точностью в рассуждениях LLM, переходя от подхода грубой силы генерации большего количества трасс к более сложным системам вывода, учитывающим уверенность.

Комментарии (2)


  1. titulusdesiderio
    14.09.2025 06:58

    У меня есть доступ и к DeepSeek и к OSS-120B
    Как мне этот метод применить?