? Следуй за белым кроликом ?
? Telegram @TheWeeklyBrief — краткие обзоры и подкасты ???
? GitHub Pages — углублённый разбор статей, ныряем в кроличью нору ???
Предпосылки и мотивация
Большие языковые модели (БЯМ) продемонстрировали выдающиеся возможности в сложных задачах рассуждения, но достижение высокой точности часто требует генерации сотен или тысяч цепочек рассуждений с помощью таких методов, как самосогласованность с голосованием по большинству. Хотя этот подход "параллельного мышления" эффективен, он страдает от значительных вычислительных затрат и убывающей отдачи – иногда требуя 100 миллионов дополнительных токенов для скромного улучшения точности на 14% в сложных задачах, таких как AIME 2025.

Основная проблема заключается в том, что все цепочки рассуждений рассматриваются одинаково при голосовании по большинству, несмотря на то, что БЯМ естественным образом производят цепочки разного качества. Предыдущие подходы пытались использовать глобальные меры уверенности, рассчитанные после полной генерации цепочки, но эти методы не могут уловить локальные колебания рассуждений или обеспечить раннее прекращение низкокачественных путей.
Основная методология
Deep Think with Confidence (DeepConf) решает эти ограничения с помощью сложной системы измерения уверенности, которая работает на нескольких уровнях детализации:
Локальные метрики уверенности: вместо того чтобы полагаться на глобальные средние значения, DeepConf вводит несколько целевых мер уверенности:
Групповая уверенность: рассчитывается по скользящим окнам токенов (обычно 1024-2048 токенов) для сглаживания индивидуальных колебаний токенов.
Групповая уверенность нижних 10%: фокусируется на наиболее проблемных сегментах в цепочке.
Минимальная групповая уверенность: идентифицирует единственный наименее уверенный шаг рассуждения.
Уверенность в хвосте: оценивает надежность финальных шагов рассуждения.
Математическая основа использует уверенность токена, определяемую как:
где представляет предсказанную моделью вероятность для
наиболее вероятного токена в позиции
.
Детальный разбор мат.аппарата мы разобрали вот тут + несколько примеров программной реализации индикаторов уверенности вот тут.
DeepConf имеет несколько режимов работы:
Два режима работы: DeepConf работает как в автономной, так и в онлайн-конфигурациях:
Автономный режим: использует взвешенное по уверенности голосование по большинству с фильтрацией, сохраняя только верхние η процентов цепочек на основе оценок уверенности до агрегации.
Онлайн-режим: реализует раннюю остановку в реальном времени с использованием динамически калиброванных порогов. Система генерирует начальный набор цепочек для "разогрева", чтобы установить пороги остановки, затем прерывает новые цепочки, чья групповая уверенность падает ниже этого порога.
Ключевые технические инновации
Эффективность метода обусловлена несколькими техническими инновациями:
Динамическая калибровка порога: для онлайн-генерации DeepConf использует начальную фазу "разогрева" с небольшим набором трасс (обычно 16) для установления порогов уверенности, специфичных для проблемы. Этот адаптивный подход гарантирует, что критерии остановки калибруются в соответствии со сложностью каждой проблемы.
Взвешенная по уверенности агрегация: вместо простого голосования по большинству DeepConf взвешивает каждый ответ по его связанной уверенности трассы, отдавая приоритет ответам из более надежных путей рассуждений.
Адаптивное обнаружение консенсуса: система отслеживает силу консенсуса во время генерации, останавливаясь при достижении достаточного согласия среди высокоуверенных трасс, что дополнительно снижает вычислительные требования.
Экспериментальные результаты и производительность
DeepConf демонстрирует существенные улучшения по нескольким параметрам:

Повышение точности: в сложных тестах на математическое рассуждение (AIME 2024/2025, BRUMO25, HMMT25) DeepConf постоянно превосходит стандартное голосование большинством. Среди заметных достижений:
GPT-OSS-120B достигает 99,9% точности на AIME 2025 (по сравнению с 97,0% для стандартного голосования большинством)
DeepSeek-8B улучшает результат с 82,3% до 87,4% на AIME 2025
Последовательный прирост для моделей с размером от 8B до 120B параметров
Вычислительная эффективность: онлайн-варианты обеспечивают значительное сокращение токенов:
DeepConf-low: сокращение токенов на 43-84,7% с агрессивной ранней остановкой
DeepConf-high: сокращение токенов на 18-59% с консервативной остановкой

Анализ сигнала уверенности
Исследование предоставляет подробный анализ того, почему локальные меры уверенности превосходят глобальные:

Гистограммы показывают, что различные метрики уверенности обеспечивают различную степень разделения между правильными и неправильными трассировками. Нижние 10% Групповой Уверенности и Хвостовая Уверенность демонстрируют особенно сильную дискриминационную способность, объясняя их эффективность в процессе фильтрации.
Практическая реализация и масштабируемость
При разработке DeepConf приоритет отдавался практическому развертыванию:
Интеграция с фреймворками: метод не требует обучения модели или настройки гиперпараметров, что делает его сразу совместимым с существующими фреймворками для обслуживания LLM.
Широкая совместимость моделей: оценка на различных моделях с открытым исходным кодом (DeepSeek, Qwen, серия GPT-OSS) демонстрирует общую применимость за пределами конкретных архитектур.
Работа в реальном времени: способность онлайн-режима принимать решения о завершении во время генерации, а не после ее завершения, обеспечивает реальную экономию вычислительных ресурсов в производственных средах.
Значимость и влияние
Эта работа решает критическое узкое место в развертывании передовых систем рассуждений на основе LLM в масштабе. Одновременно повышая точность и снижая вычислительные требования, DeepConf делает сложные возможности рассуждений более доступными для практических применений.
Успех метода в использовании внутренних сигналов уверенности модели также расширяет наше понимание количественной оценки неопределенности LLM. Открытие того, что локальные, детальные меры уверенности превосходят глобальные агрегации, имеет более широкие последствия для безопасности и надежности ИИ.
Кроме того, существенное повышение эффективности (сокращение токенов до 84,7%) при сохранении или улучшении точности представляет собой значительный шаг к устойчивому развертыванию ИИ, что особенно важно, поскольку задачи рассуждений становятся все более сложными и требовательными к вычислительным ресурсам.
Исследование демонстрирует, что интеллектуальная фильтрация и динамические стратегии завершения могут изменить компромисс между эффективностью и точностью в рассуждениях LLM, переходя от подхода грубой силы генерации большего количества трасс к более сложным системам вывода, учитывающим уверенность.
titulusdesiderio
У меня есть доступ и к DeepSeek и к OSS-120B
Как мне этот метод применить?
BadNickname
https://github.com/facebookresearch/deepconf