Эпоха больших языковых моделей (LLM, Large Language Model) снова и снова ставит перед нами вопрос о том, что отличает великую прозу от просто хорошей.

Отвечая на этот вопрос, обычно довольно расплывчато рассуждают о «стиле»: о неуловимом, мистическом качестве, которое свойственно таким людям, как Хемингуэй, Вулф или Вудхаус. Это — как один судья сказал о порнографии: мы узнаём её, когда видим. Мы способны узнать стиль текста, мы даже можем его сымитировать. Но можем ли мы его измерить? Можем ли мы создать для него производственную функцию?

Большинство современных LLM выдаёт хорошие тексты. Даже — грамотные. Но — тексты это стандартные. Стилистически безвкусные. И что — так будет всегда? Этот вопрос меня тревожит с тех самых пор, как я начал пользоваться LLM. Они созданы из слов, и при этом не могут как следует словами пользоваться. Почему мы не способны создать ИИ, который пишет хорошие тексты?

Тут совершенно естественным образом возникает такой вопрос: можем ли мы задать какие-то (или хоть какие-нибудь) количественно измеримые, эмпирические «сигнатуры» хороших текстов? Если это возможно — значит такие вот «характеристики» можно использовать для обучения моделей, которые смогут лучше писать. Так случилось, что этот вопрос завёл меня, так сказать, в кроличью нору, породив проект, который я называю Horace.

Я выдвинул гипотезу, в соответствии с которой, приближённо говоря, волшебство текстов, написанных людьми, уместно сравнивать не с понятием «статистическое среднее», а с понятием «дисперсия». Полагаю, эту мысль нельзя назвать строгим правилом, но она, как мне кажется, ближе к истине, чем альтернативные идеи. Магия человеческих текстов заключается в осознанном, целенаправленном отступлении от ожидаемого. Речь идёт о ритме (rhythm), о темпе (pace), о музыкальности (cadence) текста.

(Конечно, это — только начало. Среди характеристик текстов можно отметить выбор тем, сочетаний, сопоставлений, конструирование целостного произведения, отражающего фрактальную сложность мира. Но начнём мы именно с этого.)

У великой прозы есть одна замечательная особенность. Её авторы, так сказать, «ловят волну»: идут, в основном, понятными и предсказуемыми путями, целенаправленно создавая «всплески неожиданности», которые способны показать в новом свете некую сцену или идею, или даже открыть перед читателем целые новые миры. Это похоже на сердцебиение. Ровный ритм, а потом — внезапный скачок (новая мысль, яркая метафора, замысловато вывернутая фраза). Это очень похоже на музыку — на всех её уровнях.

Стиль — это очень просто: всё дело в ритме. Достаточно его найти, и больше не сможешь выбирать неподходящие слова.

? Вирджиния Вулф

Звучание языка — это то, с чего всё начинается. Для того чтобы проверить предложение, достаточно ответить на вопрос о том, хорошо ли оно звучит.

? Урсула Ле Гуин

Но «сердцебиение текста» — это не универсальный принцип, применимый ко всем авторам. Что тут говорить — даже разные тексты одного и того же автора «бьются» по-разному, а иногда, если текст достаточно длинный, в нём появляются разные «ритмы». Читатель просто узнаёт стиль, видя текст, и понимает, что перед ним — что-то из Вудхауса, или из Диккенса, или из Твена, даже если любой из этих текстов одинаково хорошо заставляет его кататься по полу от смеха.

Характеристики музыкальности текста, потока слов, можно измерить. Можно вычислить показатели распределения токенов (энтропию (entropy), ранг (rank), неожиданность появления токена (surprisal)), статистические показатели «музыкальности текста» (частоту появления пиков (spike rate), расстояния между пиками (inter-peak interval)), и даже связность текста (cohesion — то, насколько сильно меняется смысл от фрагмента к фрагменту).

Реальна ли эта «музыкальность текста»? Можно ли её обнаружить? С этого и начнём эксперименты. Для начала, как это обычно делается при проведения анализа такого рода, загрузим в систему большой корпус текстов, в данном случае — текстов классических литературных произведений. После этого вычислим статистические показатели, характеризующие эти тексты.

Связь энтропии и неожиданности появления токенов
Связь энтропии и неожиданности появления токенов

Ещё можно нарисовать диаграмму «изменения связности текста» («cohesion delta») для исследуемых авторов, которая позволит получить количественные показатели того, как они используют своими языковыми возможностями. Чем длиннее полоса на диаграмме — тем сильнее смешивание токенов воздействует на связность текста конкретного автора. Другими словами — стиль этого автора больше опирается на локальный порядок/непрерывность словесных конструкций (синтаксис, размер, рифма, повторяющиеся мотивы). Наша диаграмма позволяет выявить авторов, тексты которых демонстрируют наиболее сильную зависимость от последовательно организованной структуры слов, что отличается от их простой предсказуемости.

Авторы и показатель «изменения связности»
Авторы и показатель «изменения связности»

Это, конечно, восхитительный результат, так как, если можно анализировать тексты на уровне токенов — то, если нужно, можно расширить анализ и на другие измерения текстов. (Конечно, тогда всё будет несколько сложнее, но жизнь есть жизнь.)

Теперь — первый вопрос, достаточно простой: способна ли небольшая модель, имея в своём распоряжении лишь эти числовые данные, увидеть разницу между Эрнестом Хемингуэем и Пеламом Гренвиллом Вудхаусом?

Ответ на этот вопрос, как оказалось, положителен. Я обучил небольшой классификатор на этих «сигнатурах», и он смог с хорошей точностью определить автора переданного ему фрагмента текста.

Классификация текстов по авторам
Классификация текстов по авторам

Выше вы можете видеть «ведомость оценок» модели. Результаты позволяют говорить о том, что разные авторы на самом деле обладают уникальным «литературным почерком», характеристики которого поддаются измерению. Минималистичные, низкоэнтропийные предложения Хемингуэя формируют статистический профиль, отличающийся от профиля барочной, высокодисперсной прозы Фрэнсиса Скотта Фицджеральда.

После того, как мы подтвердили нашу основную гипотезу, пришло время присмотреться к деталям.

Вспомните своего любимого автора. Предположим — это Шекспир, Диккенс, или Хемингуэй. Текст этого автора, если построить на его основе временной ряд, отражающий неожиданность появления токена (surprisal), даст чёткий рисунок пиков (spike) и спадов (cooldown). И это справедливо не только для какого-то одного автора. То же самое можно наблюдать и у Йейтса, и у Эзопа.

Показатели неожиданности появления токена (surprisal) в разных произведениях разных авторов
Показатели неожиданности появления токена (surprisal) в разных произведениях разных авторов

Видите острые пики? Это — поэтические открытия, последствия неожиданного выбора слов, обороты речи, которые превращают текст в музыку. За пиками следуют «долины», где показатель «неожиданности» меньше, позволяющие читателю отдохнуть перед следующим взлётом. Как писал неподражаемый Дуглас Адамс:

[Ричард Макдафф] примерно после десяти лет работы, и правда, создал программу, способную принимать любые данные — курсы ценных бумаг, метеосводки — да что угодно — и превращать в музыку. И это была не просто мелодия, а нечто, обладающее глубиной и структурой, где форма данных отражалась в форме музыки.

Как бы там ни было, это остаётся справедливым при анализе текстов разных жанров. Для поэзии обычно характерны более плотно расположенные, более частые пики. Музыка прозы мягче и плавнее. Но, судя по всему, и там, и там, основная закономерность остаётся одной и той же.

Поэзия в стиле Эмили Дикинсон
Поэзия в стиле Эмили Дикинсон

А, кстати, зачем это всё?

Ну, в последние несколько лет в сфере ИИ главенствует парадигма масштабирования. Больше данных, больше параметров, больше вычислительной мощи. Это, без вопросов, просто потрясающе, но это означает, что мы используем одну и ту же модель и для программирования на C++, и для написания стихов. И — о чудо — модель хорошо справляется с задачей, результаты решения которой мы можем объективно оценить.

Но, если бы можно было как-то разложить на составные части нечто сложное, относящееся к человеческой деятельности, разве это было бы не здорово?

Построив систему сэмплирования текстов, учитывающую их «музыкальность», мы могли бы создавать с помощью ИИ тексты, обладающие определёнными стилистическими свойствами. Можно предложить модели: «Напиши параграф в стиле Хемингуэя, но мне нужен пик в виде неожиданного токена в третьем предложении со спадом длиной в 2 токена». Не думаю, что кто-то прямо так и будет формулировать подобные запросы, хотя и подозреваю, что что-то подобное вполне может появиться. Но главное тут в том, что благодаря этому модель можно обучить весьма прилично имитировать различные стили.

Текст в стиле Эрнеста Хемингуэя
Текст в стиле Эрнеста Хемингуэя

Разница между почти подходящим словом и подходящим словом такая же, как между светлячком и молнией.

? Марк Твен.

Главная сложность повышения качества текстов, которые пишут модели, заключается в том, что люди, когда речь идёт об оценке чего-то большого — ужасные судьи. Мы слишком часто даём более высокую оценку какой-нибудь бурде, в противовес чему-то, явно более качественному. Это вызывает определённые опасения. Вкус — это про маленькие, тщательно отобранные образцы, по определению ограниченные. Если бы можно было расширить это до более общих «сигнатур» произведений, мы, возможно, могли бы попытаться сформулировать и усвоить принципы литературного мастерства. Мы сравнили две модели — Qwen и GPT-2, чтобы исключить воздействие на результаты специфических странностей, характерных для разных моделей. Оказалось, что с помощью разных моделей можно систематически генерировать тексты, которые, по результатам измерений, стилистически близки к «сигнатурам» конкретных авторов.

Кстати, я вовсе не думаю, что всё это говорит нам о том, что искусство может быть сведено к математической формуле. Высокий показатель неожиданности появления токена не делает предложение качественным. Но, измеряя подобные показатели, мы можем найти путь к пониманию механики того, благодаря чему предложения получаются хорошими. Или мы, как минимум, сможем сообщить нашим системам предсказания токенов, нашим друзьям с другой планеты, что именно мы имеем в виду, о чём либо их прося.

Мы можем задаваться самыми разными вопросами. Например — какова оптимальная частота «неожиданных» токенов в захватывающем романе? Различается ли «спад энтропии» в сонете и в рассказе?

Не уверен в том, что мы сможем понять всё это настолько хорошо, чтобы сделать «машину для написания прозы», но это, определённо, один из способов научить наши модели лучше писать. Это — один из способов дать им указания на то, чему им нужно учиться. И если модели научатся писать качественную прозу, у нас будет возможность, давая им задания, подкручивать «скорость повествования» или задавать уровень «тематической связности» текста — совсем как при настройке уровня гравитации в симуляторе. Помню, 6 месяцев тому назад я попросил модель o1-pro написать мне целый роман. Ужасно получилось. Какие-то отдельные предложения вышли хорошо, где-то наблюдались удачные сюжетные ходы, но общая согласованность текста оставляла желать лучшего, в нём отсутствовали некоторые ключевые моменты, текст оказался совсем не «музыкальным».

В итоге — не думаю, что мы в ближайшее время увидим API, дающее доступ к «стилю-как-сервису», способное переписывать юридические документы с ясностью Джона Макфи. Я экспериментировал с крошечными моделями, имеющими 2,5 миллиарда параметров. Но, определённо, было бы очень здорово сделать так, чтобы LLM научились бы писать чуть лучше. Уверен — мы, если захотим, сможем в этой сфере добиться большего. У призрака в машине, как оказалось, бьётся сердце.

О, а приходите к нам работать? ? ?

Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.

Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.

Присоединяйтесь к нашей команде

Мы проводим соревнование по машинному обучению

Призовой фонд $13,600

Комментарии (2)


  1. LinkToOS
    04.11.2025 11:45

    Главная сложность повышения качества текстов, которые пишут модели, заключается в том, что люди, когда речь идёт об оценке чего-то большого — ужасные судьи. Мы слишком часто даём более более высокую оценку какой-нибудь бурде, в противовес чему-то, явно более качественному.

    Это написал автор который использует ИИ? Или это уже сам ИИ начал обвинять людей в том, что они не способны отличить качественное от бурды? ИИ уже надоело что его все критикуют, и он перешел в контратаку.

    Тут совершенно естественным образом возникает такой вопрос: можем ли мы задать какие-то (или хоть какие-нибудь) количественно измеримые, эмпирические «сигнатуры» хороших текстов?

    Хорошие тексты - это те которые вызывают позитивный отклик у читателя? Тогда для создания сигнатур нужно собирать фидбек от читателей. Миллионы людей читают статьи сгенерированные ИИ. Разработчики ИИ как-то учитывают реакцию и оценки читателей? Существует канал обратной связи?


  1. Ilyawolpert
    04.11.2025 11:45

    Вирджиния Вульф, Урсула Ле Гуин, кто это? Малограмотные бабцы....... После этого читать текст не стал. Автор не Читатель, автор писатель........ Куда катится Хабр? Где мои 14 ть лет и Химия и жизнь, где мои 25 ть лет и журнал Компьютерра? Где эти Авторы, которых перечитывал по нескольку раз.....