Многие языковые модели на промптах по умолчанию без особых модификаций оставляют в тексте шаблоны.

А ещё они посильно мимикрируют под человека: пишут гладко и убедительно. Редакторам, преподавателям и аналитикам это создаёт новую проблему: как понять, кто автор текста — человек или нейросеть?

AI-детекторы вроде бы есть, но чаще всего они выдают вердикт без объяснений, «я так чувствую». Но можно отреверсить этот процесс и понять, на чём модель попалась. Например, один из простых способов — параллельная генерация по началу блока. Если дальше текст очень предсказуем, то, вероятно, ваш промпт был не очень и модель спалится.

Но куда эффективнее оказалось искать другие закономерности.

Появление языковых моделей сделало генерацию текстов рутиной. Но там, где раньше алгоритмы выдавали сухие и топорные машинные фразы, современные LLM воспроизводят стилистику и ритм человеческой речи.

Ну, пытаются.

Модели любят пользоваться классическими риторическими приёмами, но порой перебарщивают. Например, параллелизм — когда повторяются одинаковые конструкции. Вместо простого «В магазине есть хлеб, молоко и сыр», модель может написать: «Здесь есть хлеб, здесь есть молоко, здесь есть сыр». Другой частый приём — антитеза, противопоставления в стиле «не просто, а», «не только, но»: «Это не просто фильм, а событие». Когда такой оборот встречается в тексте единожды или дважды — ок, почему бы и нет, но модели готовы подытоживать так каждый абзац.

Интересно, что влияние моделей на стиль не ограничивается только текстом. В академических выступлениях и подкастах после запуска ChatGPT резко выросло употребление слов, характерных для моделей — таких как delve, comprehend, swift и meticulous.

Каждая новая версия крупной LLM умеет чуть больше и чуть лучше. Вместе с ростом качества вырос и соблазн. Стало слишком легко выдавать машинный текст за свой. Домашки, дипломы, пресс-релизы, новостные заметки, посты в соцсетях — всё это генерируется за пару минут. Раньше списывание было более трудоёмким, надо было хотя бы найти и отрерайтить чужой текст.

Антиплагиат тут бессилен: модель не копирует, а создаёт условно оригинальный текст. Появился спрос на системы, которые могут определить, кто на самом деле автор — человек или машина.

Однако существующие решения, такие как GPTZero и классификаторы OpenAI, имеют свои ограничения и не всегда обеспечивают высокую точность.

Они опираются на комбинацию методов:

  • Статистические метрики вроде перплексии — это такие численные показатели, которые показывают, насколько текст для модели «ожидаемый» или «странный». Если модель легко угадывает, какое слово дальше, — метрика низкая. Если слова оказываются неожиданными, — метрика высокая.

  • Лингвистические эвристики — простые правила, например, «подсчитать, сколько в тексте сложных слов или повторов». Не очень эффективны для текущего поколения LLM.

  • Очень хорошо показал себя принцип вычленения признаков. Берут активации одного слова, затем суммируют активации всех признаков по всем словам. В итоге для каждого текста получается один вектор-отпечаток, который показывает, какие признаки в нём доминируют. Дальше они обучали стандартный, но эффективный классификатор XGBoost на этих отпечатках на базе заведомо человеческих и заведомо LLM-ных текстов. Детекторы на базе разреженных автоэнкодеров работают лучше, чем те, что используют «сырые» данные из нейросети. Это подтверждает, что SAE действительно находит что-то важное.

Для синтетики брали датасет COLING 2025 Shared Task, дополненный текстами от нескольких моделей — Gemma, GPT, LLaMA. Это нужно, чтобы признаки не были привязаны к одной архитектуре.

Есть и другие слабые места. Например, лёгкая обманчивость — достаточно перефразировать, заменить синонимы или чуть укоротить фразы, и многие детекторы теряют часть признаков, на которых они обучены, из-за чего падает точность классификации. Или зависимость от обучающих данных — если детектор учился на текстах GPT-3, то GPT-4 уже может пройти мимо него незамеченным.

Примеры

  • 3608. Текст содержит слишком сложные, вложенные и грамматически громоздкие предложения. Он может выглядеть «умнее» или «научнее», чем нужно. Активируется на числах, скобках, словах вроде neighborhood (соседство, окрестность) в научном контексте. При усилении этого признака модель начинает генерировать короткие, обрывистые предложения, а при ослаблении — неестественно запутанные.

  • 4645. Избыточная сложность подачи информации и безапелляционность. Текст подаётся как очень убедительный и авторитетный, даже если информация в нём спекулятивная или неточная. Нейросеть создаёт видимость «глубоких знаний», используя сложные формулировки для простых идей. Реагирует на фактические противоречия или когда модель пытается «блефовать», соединяя несвязанные факты.

  • 6587. Многословные вступления и перечисления. Этот признак отвечает за структурирование текста с помощью длинных введений и маркированных/нумерованных списков. Текст часто начинается с фраз «Во-первых...», «Для начала рассмотрим...» и т.д. Сильно активируется на номерах пунктов в списках и вводных словах.

  • 8264. Повторение мыслей. Нейросеть повторяет одну и ту же идею несколько раз, используя разные синонимы и формулировки. Это создаёт ощущение «переливания из пустого в порожнее». Активируется на длинных, общеупотребительных словах, которые типичны для стиля GPT.

  • 14161. Излишняя формальность. Текст написан в слишком формальном, канцелярском стиле, даже когда это неуместно (например, в неформальном отзыве).

  • 8689, специфично для GPT-семейства. Чрезмерное использование синонимов. Модель активно заменяет слова синонимами, что иногда делает текст неестественным и «вымученным». Это попытка избежать прямых повторений, но она сама по себе становится узнаваемым артефактом, и это легко считывается.

  • Для домена научных статей, 12390. Чрезмерно сложный синтаксис. Активируется на связующих конструкциях, типичных для академических текстов.

  • Для домена инструкций, 1416. Неуместные «философские» объяснения. Вместо того чтобы давать чёткие и простые инструкции, модель пускается в метафорические или абстрактные рассуждения. Экстремальные значения этого признака появляются, когда в тексте есть ошибки парсинга — пропущены формулы или символы.

  • 6513, специфичен для финансов. Избыточные объяснения за очевидными фактами. Модель добавляет ненужные детали и личные мнения к фактам, которые этого не требуют. Реагирует на фразы вроде I mean (я имею в виду), like (типа) и другие разговорные конструкции, выражающие мнение.

  • 14953, для медицины. Неуместный тон (инструкции во втором лице). Текст использует прямой, поучительный тон, обращаясь к читателю на «вы» или «ты» («Вы должны...», «Вам следует...»). Это часто встречается в медицинских или юридических инструкциях. При усилении этого признака модель начинает генерировать тексты, похожие на юридические консультации, независимо от исходного запроса.

  • Для домена reddit, 4560: спекулятивная причинность. Модель строит преувеличенные или необоснованные причинно-следственные связи. Это часто встречается в неформальных дискуссиях. Усиление этого признака приводит к появлению фраз вроде «Изобретение огня напрямую привело к современной цивилизации».

То есть такими категориями можно описать как просто плохие SEO-тексты, так и тексты, сгенерированные моделями. Но некоторые признаки очень характеры для конкретных моделей в конкретных доменах, а их сочетание уже позволяет составить отпечаток.

Исследователи также проверили устойчивость признаков к попыткам обмана. Простые трюки вроде замены слов на синонимы, перестановки частей предложения или добавления пробелов перед знаками препинания могут сбить многие классификаторы. В эксперименте с датасетом RAID (любыми нарративными атаками) выяснилось, что самые важные признаки классификатора почти не пересекаются с простыми ловушками. В то же время устойчивыми оказались признаки, связанные со структурой предложений, распределением длины фраз и частотой грамматических конструкций — изменить их можно только при серьёзной переработке текста.

В результате получился каталог почерков моделей, который можно использовать не только для детекции, но и для… ну, скажем, обратной инженерии стиля.

С его помощью можно выделять «твёрдые» сигнатуры, которые сложно скрыть, и одновременно выявлять уязвимые места, через которые машинный текст можно маскировать.

Детекция и управление стилем

Признаки, которые извлекает SAE, можно использовать не только для классификации текста, но и для прямого управления стилем генерации — так называемого feature steering. Проще говоря, модели можно задавать стиль: например, «убери длинные вступления, переходи сразу к делу» или «добавь больше разнообразия в словарный запас, но без фанатизма».

Технически это работает так: из автоэнкодера берут вектор признака и во время генерации добавляют его с определённым коэффициентом к скрытым состояниям модели. Это позволяет усиливать или подавлять конкретные стилистические черты. Например, при повышении активации одного признака растёт безапелляционность текста, а при снижении другого исчезают длинные вводные. Для понимания функций этих признаков использовали GPT-4 как интерпретатор — он анализировал сдвинутые тексты и помогал сопоставить признаки с их эффектами.

Такой подход открывает множество возможностей. Например, чтобы корпоративный бот звучал как живой человек, достаточно ослабить признаки, которые выдают модель. Можно усилить определённые маркеры, и тогда она будет говорить как занудный профессор, весёлый блогер или бюрократ. Также можно создавать адаптивные детекторы, которые настраиваются под конкретные типы текстов — научные статьи, новости или переписку в мессенджерах.

Почему это важно

Преподаватель может показать студенту конкретные языковые маркеры, а студент — оспорить их или исправить. Ну или честно признаться. Редактор может не просто сказать «текст писала нейросеть», а попросить автора переписать конкретные места — убрать повторы и сократить канцелярщину. Аналитик может быстрее находить и классифицировать сгенерированные новости, фейки и комментарии. Исследователь получает инструмент для анализа «мышления» LLM через доступ к её внутренним сигнатурам. То есть понимание того, какие именно внутренние признаки коррелируют со стилем текста, — шаг к созданию более управляемых и безопасных систем.

Однако у метода есть ограничения. Для работы требуется хранить и обрабатывать все активации модели, что плохо масштабируется на крупные LLM. Кроме того, слишком агрессивное вмешательство может исказить смысл текста.

Ирония в том, что технология, задуманная для борьбы с искусственным текстом, стала инструментом, который помогает делать генерацию более управляемой. А SAE, как оказалось, — отличный способ разобрать модель на части и кастомизировать под конкретную задачу.

Комментарии (0)