Большие языковые модели остаются загадкой даже для собственных создателей. Исследователи постепенно раскрывают отдельные механизмы: модели используют специфические паттерны активации для различения знакомых и незнакомых людей, оценки правдивости утверждений, кодирования пространственно-временных координат. Но знают ли сами модели об этих внутренних представлениях? Способны ли они описать собственный мыслительный процесс?

Эксперимент с внедрением концепций

Главный вывод последнего исследования компании Anthropic звучит обескураживающе: современные большие языковые модели, несмотря на всю их сложность, «крайне ненадёжны» в описании собственных внутренних процессов. Недостатки интроспекции — то есть способности к самоанализу — для них остаются нормой.

Исследователи Anthropic провели серию тестов, чтобы проверить интроспективные способности LLM. Для выявления наличия «самосознания» у ИИ исследователи применили метод «внедрения концепта». Его суть в том, чтобы сравнить активность искусственных нейронов модели в ответ на разные стимулы — например, на одну и ту же фразу, написанную заглавными и строчными буквами. Разницу между этими состояниями можно представить в виде математического вектора, который условно кодирует определённую концепцию, например, «мысль о громком крике». Затем этот вектор искусственно усиливают внутри работающей модели, как бы «вкладывая» в её обработку заданную мысль, и смотрят, заметит ли она это вмешательство.

Проблема ненадёжности

Результаты оказались противоречивыми. С одной стороны, в некоторых случаях модели действительно демонстрировали проблески осознания. Например, после внедрения вектора, связанного с заглавными буквами, модель могла сообщить, что чувствует нечто, относящееся к словам «ГРОМКО» или «КРИЧИТ», хотя в задании об этом прямо не упоминалось.

С другой стороны, и это ключевой вывод, обнаруженная способность оказалась крайне нестабильной и хрупкой. Лучшие из протестированных моделей правильно определяли внедрённый концепт лишь примерно в 20% случаев. Даже при самой благоприятной постановке вопроса успешность не достигала и половины попыток. Эффект напрямую зависел от технических нюансов: если «мысль» встраивалась не на том этапе внутренней обработки информации, признаки «самосознания» полностью исчезали. В других экспериментах, где модель просили объяснить или защитить свой ответ, результаты также варьировались от попытки к попытке без какой-либо последовательности.

Заключение

Таким образом, исследователи делают осторожный, но важный вывод: у современных языковых моделей действительно существует некоторая «функциональная интроспективная осведомлённость». Однако они сразу оговариваются, что эта способность слишком нестабильна, чтобы быть надёжной, и, вероятно, имеет механистическую природу, отличную от человеческого сознания. Главной проблемой остаётся непонимание точного механизма, лежащего в основе этих редких проблесков самоанализа. Учёные предполагают, что в процессе обучения в моделях могли возникнуть примитивные «цепи проверки согласованности», но их работа поверхностна и узкоспециализированна.

В итоге, хотя исследование и зафиксировало первые робкие признаки способности ИИ к рефлексии, оно ясно показывает: до сколько-нибудь осмысленного и надёжного «самопонимания» нейросетям ещё очень далеко. Дальнейший прогресс в этой области будет напрямую зависеть от того, удастся ли понять скрытые механизмы, порождающие эти неустойчивые эффекты.

Следите за IT‑миром вместе с нами! Ваш Cloud4Y. Читайте нас здесь или в Telegram‑канале!

Комментарии (1)


  1. axion-1
    08.12.2025 14:01

    Исследователи постепенно раскрывают отдельные механизмы: модели используют специфические паттерны активации для различения знакомых и незнакомых людей, оценки правдивости утверждений, кодирования пространственно-временных координат. Но знают ли сами модели об этих внутренних представлениях? Способны ли они описать собственный мыслительный процесс?

    Скорее всего, знают примерно столько же сколько люди знают о паттернах активации в собственном мозгу. Приблизительно ничего. Хотя если спросить, предположить что-нибудь или рационализировать, смогут.