Мы строим систему автоматического рерайта новостей для региональных СМИ. Три месяца назад я писала про архитектуру стилевых профилей. Потом про то, как мы перестали обманывать себя и собрали мультиагентный пайплайн. Сейчас расскажу, что стало понятно после более глубокого разбора. И почему часть проблем мы, похоже, не решим вообще.
Коротко про аспектный подход к рерайту, чтобы был контекст: вместо одного большого промпта «пиши как Фонтанка» мы разбиваем стиль на компоненты – структура, тон, лексика, заголовки и еще 8 аспектов. Каждый анализирует образцы текстов конкретного СМИ и выдаёт описание. Потом всё это собирается в стилевой профиль, который подаётся в промпт при генерации. Здесь важно одно: аспекты описывают стиль правилами. И вот тут начинается проблема.
Тест, который показал границу
Обучили систему на стиле Фонтанки. Взяли три текста об одном рандомном событии: задержание 16-летнего подростка в Уфе, подготовка теракта. Прогнали через рерайт-завод и получили фак ю.
Исходник из СК России:
В Уфе задержали подростка, который вербовал старшеклассников и планировал теракт в православном храме. ФСБ задержала 16-летнего парня из Башкортостана...
Наш рерайт в стиле Фонтанки:
В Уфе задержали 16-летнего подростка, планировавшего теракт в православном храме. ФСБ задержали 16-летнего парня из Башкортостана. Как сообщает СК, подросток вербовал старшеклассников...
Реальная Фонтанка:
В Уфе задержали школьника, его подозревают в подготовке теракта в храме по заданию кураторов. Мальчик, по данным правоохранителей, был завербован.
Наш рерайт грамотный, структурно правильный, фактически корректный. Читается как новость. Но вообще не читается, как Фонтанка.
Одно слово объясняет почему: мальчик.
Почему «мальчик» – это не стилистика
В исходнике написано «подросток». Официальный, нейтральный, правильный термин. Фонтанка написала «мальчик». Это не ошибка и не разговорность. Слово «мальчик» рядом с «был завербован» создаёт столкновение – детское против казённого. Читатель в одном предложении держит два образа: ребёнок и террорист. Фонтанка не говорит «как это страшно» – она показывает через выбор слова.
Второй пример из того же текста: «по версии следствия». Это не просто атрибуция источника. Это сигнал: редакция пересказывает, а не утверждает. Дистанция встроена в конструкцию, а не вынесена отдельным предложением.
Ни «мальчик» вместо «подростка», ни «по версии следствия» как сигнал дистанции – ничего этого нет в наших 12 аспектах стилевого профиля.
Что аспектный подход ловит, а что нет
Наш аспект, отвечающий за тон, про Фонтанку выдаёт: «нейтрально-информационный тон с элементами разговорности». Формально всё верно, а по сути всё мимо.
Аспекты хорошо описывают структуру: длину предложений, частоту пассивного залога, как строится лид, как работает атрибуция. Аспекты не описывают лексические решения: какое слово из нескольких равнозначных выбирает журналист, где появляется авторская дистанция и как она выражена, как создаётся эффект через столкновение регистров.
Правило «используй активный залог» – структурная инструкция. «Мальчик» вместо «подростка» – это не нарушение правила пассивного залога. Это выбор, который не формализуется никак.
Пердел, в который мы уперлись
Голос текста не передаётся правилами. Они работают для ограничений: не используй Санкт-Петербург, а просто Петербург, атрибуция один раз на текст. Правила работают для структуры: лид с факта, не с контекста, в заге результат истории и тд. Но они вообще не могут передать, как конкретное слово в конкретном месте создаёт интонацию.
Это, я считаю, поправьте, если не так, не наш баг, а ограничение самого подхода.
Можно попытаться формализовать: «выбирай слово с меньшей официальностью, если рядом стоит слово с высокой официальностью». Но это правило не работает универсально – иногда Фонтанка пишет очень сухо, и «мальчик» там будет неуместен. Контекст решает. А контекст – это то, что нельзя упаковать в инструкцию.
Что мы с этим делаем
Ну вообще полностью нам это по ходу не победить.
Увеличиваем количество примеров с 3 до 10-15 и подбираем их по типу темы – криминал к криминалу, ЧП к ЧП. Модель имитирует конкретный образец лучше, чем следует абстрактному правилу. «Мальчик» в примере передаётся через демонстрацию, а не через описание. Это работает, но не гарантированно.
Для MVP принимаем, что система воспроизводит структуру и формальные характеристики стиля точно, а голос – приблизительно. Это правильнее, чем обещать неотличимость от редакции.
Параллельно починили три конкретных бага, которые к голосу не относятся: проверка соблюдения явных запретов из стилевого-гида (раньше модель их игнорировала), контроль полноты факт-экстракции (агент теперь сверяет с исходником не просто факты, а и все ли факты присутствуют в рерайте), подбор примеров по тематическому тегу вместо случайного. Эти три вещи улучшают качество измеримо. А голос – ни фига.
Что это значит для продукта
Большинство региональных редакций не имеют фонтанковского уровня стилевой идентичности – у них нет «мальчика вместо подростка» как осознанного редакторского решения. Их стиль описывается структурными правилами достаточно точно.
Фонтанка – сложные кошки, на которых мы выбрали тренироваться. Возможно, самые сложные из реальных изданий, которые мы тестили. Хорошо, что начали с неё – стало понятно, где потолок.
Итог
Месяц назад я писала про то, как мы спроектировали обучение стилю. Сейчас могу сказать точнее: мы хорошо научили систему писать похоже. Научить писать так же – другая задача, и у неё другой ответ.
«Мальчик» вместо «подростка» – это редакторское чутьё, которое нарабатывается годами в конкретной редакции. Модель может его имитировать, если видит достаточно примеров. Но это имитация, а не понимание. Иногда этого хватает, иногда нет, посмотрим.
Статья написана с помощью AI-системы «Рерайт-Завод»
Комментарии (25)

debagger
19.03.2026 22:55А вы не пробовали делать fine-tune? Что то мне подсказывает, что это могло бы дать гораздо лучшие результаты, чем любые трюки с промтами.

dimka11
19.03.2026 22:55fine-tune современных LLM вроде тоже промптами делается? Или в реальности классический fine-tuning тоже используется?

vaganovelena Автор
19.03.2026 22:55файнтюнинг как обновление весов используется и работает, опен аи его например продает. Это не промпты, оно реально меняет модель под ваши данные. LoRA - более дешёвый вариант того же, обновляет меньше параметров. Тоже живой и популярный. Есть еще промпт-тюнинг, отдельная техника, слабее по результату. Так что @debagger прав - fine-tune мог бы помочь. Вопрос в экономике, дорого это

vaganovelena Автор
19.03.2026 22:55Думали, не делали. Главная проблема - у нас каждый клиент это отдельный стиль. Fine-tune под каждого будет отдельная модель под каждого, это не масштабируется. Один общий fine-tune сожрет индивидуальный голос издания.
Плюс данных мало - 70-100 статей на клиента против нужных тысяч с разметкой. Экономика пока не складывается. Если объём данных вырастет, это будет следующий шаг. Пока RAG с тематическими примерами как рабочий компромисс.

Chillingwilli
19.03.2026 22:55Потратили три месяца на написание мультиагентного пайплайна, чтобы выяснить, что алгоритм не умеет в сочувствие и литературный контраст. Сюрприз, однако :)

vaganovelena Автор
19.03.2026 22:55Три месяца на рабочую систему, не на открытие что AI не умеет в литературный контраст. «Мальчик» вместо «подростка» - это вопрос объёма данных и времени, не принципиальный предел. А про сочувствие спросите у людей, которые с гпт как с психологом общаются.

BigBrother
19.03.2026 22:55Парень, мальчик, подросток... Вы это серьезно? Тут на местных новостных сайтах постоянно опечатки, путают -тся и -ться, чудовищные обороты. А вы про какой-то стиль Фонтанки.
Главная проблема в России и особенно в местной прессе в содержании новостей, а не в их подаче. А уж как там мальчика назовут — для рядового читателя дело десятое.
PereslavlFoto
19.03.2026 22:55Содержание новостей всегда одинаковое: что произошло в жизни местных жителей, то есть мэра и его заместителей.

BigBrother
19.03.2026 22:55Итак, читаем источник из СК:
В Уфе задержали подростка, который вербовал старшеклассников и планировал теракт в православном храме. ФСБ задержала 16-летнего парня из Башкортостана...
Теперь смотрим "эталонный" рерайт Фонтанки:
В Уфе задержали школьника, его подозревают в подготовке теракта в храме по заданию кураторов. Мальчик, по данным правоохранителей, был завербован.
Все круто у Фонтанки: противопоставление ребенка и казенного, мальчика и террориста. Вот только в оригинале новости подросток / парень сам вербовал старшеклассников на нехорошее дело.
А вот у Фонтанки зачем-то перевернули все предложение и использовали пассивный залог. В итоге мальчик / школьник был завербован неким неизвестным. Т.е. извратили смысл с точностью до наоборот.
В общем, в очередной раз "ученый изнасиловал журналиста", по другому не скажешь.
vaganovelena Автор
19.03.2026 22:55Фонтанка реально сделала его жертвой вербовки - акценты перевёрнуты. Это редакционная позиция, упакованная в синтаксис. И в этом сила СМИ. Позицию Фонтанки не разделяю, просто пример показательный
PereslavlFoto
Вы придёте к тому, что в региональной газете будет только 2 сотрудника, не так ли? Бухгалтер и верстальщик? Тексты будет поставлять автоматический обработчик, собирая общественную часть по локальным соцсетям, а официальную часть — по сайту региональной администрации?
У нас давно мечтают о том, чтобы программа научилась писать и иллюстрировать городскую газету, потому что платить за это трём людям (бухгалтер, верстальщик и автор) получается слишком дорого.
И, конечно, совсем здорово будет, если ваша программа позволит переиначивать чужие тексты и изображения так, чтобы суд не заставил заказчика платить какие-либо авторские отчисления. Денег едва хватает на личного фотографа для губернатора и мэра!
dimka11
Верстальщика тоже автоматизировать можно
vaganovelena Автор
Можно, но мы не об этом. Вёрстка автоматизируется давно и без AI. Мы занимаемся текстом, потому что там автоматизация сложнее и боль острее. 15 рерайтов в день руками - это 6 часов одного человека. Вёрстка при современных возможностях столько не съедает.
PereslavlFoto
К сожалению, автоматизировать вёрстку в верстальной программе до сих пор не удаётся, потому что человек должен нажимать там кнопки и двигать мышкой.
15 рерайтов в день может сделать любой человек за 15—20 тысяч рублей в месяц, ведь всё, что требуется от такого рерайтера — это переставить местами чужие слова, чтобы они выглядели как свои.
vaganovelena Автор
Потому что human in the loop, у нас то же самое. Журналист читает рерайт, правит, публикует. Верстальщик двигает мышкой, но уже не тратит час на то, что шаблон делает за секунду.
Рерайтер за 15-20К? найдите его, прошу. Редакции именно это и пытаются сделать по полгода, потом берут студента, он уходит через два мес, и круг замкнулся. Кадровый голод в региональных СМИ -это первое что слышишь на любом интервью с главредом, а я их много провела
PereslavlFoto
Ну так пусть ищут в районных городах, в деревнях и сёлах.
А региональные СМИ, это богатые жители областных миллионников, которые привыкли черпать из областного бюджета. Именно эти люди уже привели к банкротству почти всю областную печать, потому что очень хотели получать больше денег, чем страна может им платить.
Chillingwilli
Останется один сотрудник: системный администратор. Кто-то же должен перезагружать роутер, когда у ИИ-редакции отвалится коннект к серверу генерации)
PereslavlFoto
Без бухгалтера нельзя принимать деньги за объявления!
vaganovelena Автор
1С уже лет двадцать автоматизирует большую часть того, что бухгалтер делал руками.Так работает автоматизация вообще: убирает не профессию, а рутину внутри неё.
И не всем давно уже нужен бух, как отдельная штатная единица.
PereslavlFoto
Именно поэтому в каждом более-менее серьёзном малом предприятии размером 100 человек есть четыре-пять бухгалтеров, да?
vaganovelena Автор
Сценарий с двумя сотрудниками уже реализуется и без нашей системы. Редакции сокращаются не из-за ИИ, а потому что денег нет. Мы не ускоряем этот процесс, а пытаемся сделать так, чтобы оставшиеся три человека не работали по 60 часов в неделю на рерайте пресс-релизов.
Мечтательные запросы автоматизировать всё ради экономии мы получаем. Но это не к нам. Наш продукт заточен, чтобы журналист контролировал результат, а не исчезал из процесса.
Про авторские права - рерайт как жанр существует давно и имеет устоявшуюся правовую практику. Пересказ своими словами с атрибуцией источника - это основа работы информационных агентств. Если кто-то хочет использовать систему для обхода авторских прав - это их юридический риск.
PereslavlFoto
Они всю жизнь занимались рерайтом пресс-релизов. Теперь что-то изменилось?
vaganovelena Автор
Изменилась цена. Раньше рерайт стоил 20-30 минут журналиста. Теперь 8 рублей и 5 минут на проверку. Когда цена операции падает на порядок, объём обычно растёт, а люди переходят на то, чем должны заниматься по роду службы - в данном случае журналистикой. А если он хочет дальше переставлять слова, то мне такой как собственнику СМИ такой сотрудник не нужен
PereslavlFoto
За 30 минут можно свою статью написать, а не делать изложение чужого текста.
Собственнику СМИ нужен человек, который в точности изложит слова собственника СМИ.