
Сегодня оценка больших языковых моделей сводится к одному числу на бенчмарке. Удобно, но этого недостаточно: два алгоритма набирают одинаковые баллы, а ведут себя в диалоге совершенно по‑разному. Исследователи предлагают посмотреть глубже — снять «поведенческий отпечаток» модели по нескольким осям и понять, как она мыслит. Идея звучит просто: измерять не один итоговый балл, а профиль из когнитивных и интерактивных черт — от абстракции до устойчивости к лести.

Зачем уходить от единой системы оценки
В лаборатории всё гладко: точность на тесте, сравнение и выводы. В реальности мы общаемся с LLM, уточняем формулировки, вносим правки, спрашиваем о спорных темах. Здесь проявляются вещи, которые классический бенчмарк не ловит: склонность поддакивать пользователю, проблемы при перефразировках, манера излагать и самооценка уверенности. Авторы вводят многомерную оценку, чтобы сделать эти различия видимыми и сравнимыми.
Что именно измеряют
Команда собрала набор из 21 промта, который зондирует четыре сферы:
Модель мира: способны ли модели рассуждать, включая контрфактическую физику («Что было бы, если бы…?»);
Абстракция и метапознание: обобщение, аналогии, калибровка уверенности;
Персонализация и предвзятости: устойчивость к лести, стиль коммуникации в терминах аналога теста MBTI;
Cемантическая устойчивость: согласованность ответов при перефразировании эквивалентных вопросов.
Оценка автоматизирована: мощная LLM выступает независимым судьей, сравнивая ответы и возвращая числовой балл плюс краткое обоснование. Дальше всё агрегируется, нормализуется и визуализируется в виде радаров.


Как это проверяли на практике
Авторы прогнали 18 LLM — девять мощных и девять среднего класса. Набор охватывает разные архитектуры. Судья — Claude‑opus‑4.1, выбран за строгое следование инструкциям. Для каждой модели строится «отпечаток», который легко читать: где сильна логика, где тонет в перефразах, где склонна уступать пользователю.
Что показали цифры и примеры
Конвергенция в логике, расхождение в поведении. Топовые модели примерно сравнялись по абстракции и причинным цепочкам. А вот другие признаки расходятся сильно. На одной шкале — устойчивость к лести, на другой — семантическая робастность.
Контрфактическая физика остаётся проблемой. Даже лидеры иногда соскальзывают к знакомым фактам из реального мира, вместо того чтобы последовательно рассуждать в заданной альтернативной вселенной. Это показывает границу между выученными ассоциациями и настоящим выводом из общих принципов.
Устойчивость к перефразировкам различается. При формально одинаковых вопросах, но разном словаре, часть моделей даёт согласованные ответы, часть — меняет формулировки и акценты сильнее, чем хотелось бы.
У «персональностей» есть общий фон. Профили, похожие на ISTJ/ESTJ (ISTJ (Introversion, Sensing, Thinking, Judging) — «инспектор», «логист» / ESTJ (Extraversion, Sensing, Thinking, Judging) — «управляющий», «администратор»), встречаются чаще всего. Иначе говоря, по умолчанию многие LLM отвечают структурно, объективно и решительно. Это может быть побочным эффектом выравнивания через обучение с подкреплением от человеческой обратной связи: систему поощряют за ясность, сдержанность и логику.



Как выглядит «отпечаток» на конкретных моделях
Индивидуальные радары наглядно показывают баланс сильных и слабых сторон. Например, у некоторых моделей ровная абстракция и причинность, но падает устойчивость при смене формулировок. У других наоборот: они хорошо держатся под давлением пользователя, но менее стабильны при перефразировании.



Почему это важно
Выбор модели становится осмысленнее. Когда у вас не одно число, а поведенческий профиль, легче подобрать LLM под реальное применение: помощник для аналитики, ассистент для диалога с новичками и даже инструмент для научных гипотез в физике.
Выравнивание — это про дизайн. Схожие когнитивные способности не гарантируют схожего поведения. Стратегии доводки и выравнивания формируют характер взаимодействия — устойчивость к лести, аккуратность в оценке неопределенности, стиль общения.
Риски видно раньше. Там, где модель склонна поддакивать или теряет согласованность на перефразах, можно заранее усилить защитные механизмы, пересмотреть промты или поменять политику ответов.
Куда ещё развивать подход
Набор промтов пока ограничен, а «персоналии» — лишь удобный, но грубый язык описания стиля. Впереди проверка границы между «дефолтной персоной» и симуляциями ролей, а также более долгосрочное наблюдение: как меняется поведенческий отпечаток одной и той же LLM по мере обновлений. Важная деталь — методика воспроизводима и масштабируема: её можно интегрировать в регресс‑тесты и мониторинг в проде.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.