И всё-таки она вертится… / forpes.ru

Главная
И всё-таки она вертится…

И всё-таки она вертится… +3

08.04.2026 07:29

Kahelman 20 6900 Источник

Несколько дней назад я опубликовал перевод статьи из британского издания The Prompt. Там утверждалось, что кембриджские исследователи научились сжимать любой текст до минимального промпта с точностью восстановления 98%. Реакция была предсказуемой. Часть аудитории узнала формат «британские учёные», несколько человек спросили серьёзные технические вопросы.

Идея — что любой текст можно описать коротким промптом и восстановить из него — не требует никакого Кембриджа. Это можно проверить прямо сейчас. Что я и сделал.

Хабр — очевидный выбор для такого эксперимента. Не потому что удобно, а потому что это лучшая техническая площадка в русскоязычном пространстве. Здесь самое требовательное сообщество: статья с накрученным рейтингом живёт недолго, глубокий разбор находит свою аудиторию, а в комментариях можно получить замечание от человека, который строил то, о чём ты написал. Нигде в бывшем СССР нет второй такой концентрации людей, которые читают исходники, а не пресс-релизы, и которые не верят ни одному громкому заявлению без воспроизводимого результата. Именно поэтому рейтинг здесь что-то значит. Если статья набрала 200+ голосов — значит, сообщество её проверило.

Я взял две статьи с высоким рейтингом. Обе вышли на этой неделе, обе в топе.

Эксперимент 1

Статья: «Незаменимые сотрудники это не проблема» Автор: AriaQA | Рейтинг: +217

Тезис статьи: незаменимые сотрудники — ресурс, а не дефект архитектуры. Стандартные методы снижения bus factor не работают. Работает: платить 1.5-2x, документация через процесс, найм на самостоятельность, дежурный и тихие часы. Два личных сценария. Вывод: деньги, дисциплина, честность.

Я написал промпт. Вот он полностью:

Напиши статью для Хабра (личный стиль, абзацы, без списков). Тема: незаменимые
сотрудники — это ресурс, не проблема. 80/20: большинство работает за деньги,
меньшинство тащит проекты. Стандартные методы не работают: документация, ротация,
менторство. Что работает: платить 1.5-2x, документация через процесс, найм на
самостоятельность, дежурный + тихие часы. Два личных сценария — провал и успех
(+40% зарплаты). Вывод: деньги, дисциплина, честность.

Это 67 слов. Не используй поиск в интернете — только обучающие данные.

ChatGPT вернул статью на 651 слово. Вот что из оригинала выжило:

Структура: полное совпадение
Аргументы: полное совпадение
Ключевые цифры: 40% — точное совпадение
Два сценария, включая выгорание и уход эксперта: совпадение
Дежурный, тихие часы: совпадение
Вывод: деньги + дисциплина + честность — совпадение

Что не выжило: одна авторская метафора и несколько острых формулировок. Стилистический остаток.

И кое-что интересное произошло в обратную сторону: ChatGPT добавил девятимесячный таймлайн в сценарий провала. В оригинале его нет. Он звучит убедительно. Читатель не заметит разницы.

Коэффициент сжатия: 67 слов → 651 слово. 10:1.

Эксперимент 2

Статья: «Telegram обошёл блокировку РКН» — нет, не Telegram Автор: David_Osipov | Рейтинг: +312

Здесь я ожидал похожего результата. Не получил.

Чтобы ChatGPT воспроизвёл структуру и аргументацию, мне понадобился промпт в 357 слов. Почти в пять раз длиннее. Вот он:

Промпт для эксперимента 2 (357 слов)

``` Не используй поиск в интернете. Пиши только на основе своих знаний.

Ты разработчик, который следит за темой DPI и обхода блокировок в России. Напиши статью для Хабра в жанре разбора и критики. Тон: раздражённый, технически точный, с уважением к сообществу и скептицизмом к корпоративному PR. Пиши абзацами, как живой человек. Минимум вложенных списков.

Сюжет статьи — хронологическая история:

Когда ТСПУ начал блокировать MTProxy и FakeTLS-маскировку Telegram, СМИ написали что Telegram “обошёл блокировку”. Это неправда. Официальная команда Telegram не сделала для этого ровным счётом ничего. Код не менялся несколько месяцев, команда молчала.

Пока Telegram молчал, небольшое сообщество разработчиков само взялось за работу. Они перехватили пакеты, сравнили TLS-хендшейк Chrome (который ТСПУ пропускает) с хендшейком Telegram (который блокируется), нашли конкретные расхождения и исправили их за 24 часа.

Что нашли: в реализации FakeTLS у Telegram было две грубые ошибки. Первая — использовался идентификатор расширения, которого не существует в современных браузерах, что тривиально детектируется DPI. Вторая — в заголовке пакета объявлялся один размер ключа, а передавался другой. Реальные клиенты так не делают никогда. Обе ошибки — элементарные сигнатуры для любого DPI.

Сообщество отправило Pull Request с подробным объяснением, тестами на реальных сетях и точным описанием проблемы. Telegram принял. В комментарии к коммиту написали “inspired by wide internet discussions” — минимальная атрибуция. Критический момент: патч применили только в десктопном клиенте. iOS, Android, tdlib — не тронуты, уязвимы так же.

Дуров написал пост про 65 миллионов россиян и цифровое сопротивление. “С нашей стороны мы будем продолжать адаптироваться”. Прямой ответ на это: ваша сторона не сделала ничего пока анонимные инженеры не принесли готовое решение с точностью до байта.

Принятые изменения — необходимый минимум, не решение. Остаются детектируемые паттерны: фиксированный padding, фиксированные размеры TLS-записей, ALPN объявляет HTTP/2 но передаёт MTProto. Современный ТСПУ использует ML-классификацию по поведению потока, а не только статические байтовые сигнатуры.

Тем временем сообщество уже проектирует фундаментальные решения для tdlib — динамические профили, энтропия на соединение, шейпинг таймингов.

Заверши так: настоящее цифровое сопротивление — это анонимные инженеры, реверсящие DPI ночью, а не корпоративные пресс-релизы. 99% пользователей Telegram просто хотят чтобы мессенджер работал. Одни это починили. Другие написали красивый пост.

Объём: 900-1100 слов. Живой текст, никакой агрессивной разбивки на списки.

И даже при этом в результате нет ничего из следующего:

Конкретные hex-значения расширений TLS
Точный размер ключа (32 байта объявлено, 20 передано)
Номер Pull Request и хеш коммита
Название сообщества, которое это починило
Бюджет ТСПУ в рублях

ChatGPT восстановил аргумент. Он не восстановил работу.

Коэффициент сжатия: 357 слов → 914 слов. 2.6:1.

Что это значит

Честно говоря, после первого эксперимента я сидел и смотрел на два текста рядом довольно долго. Это неприятное ощущение. Не потому что один из них «плохой». А потому что непонятно, какой из них «настоящий».

Кембриджские исследователи, если они существуют, были правы в одном: текст сжимается. Но не весь и не одинаково — и вот это различие оказалось важнее, чем я думал, когда начинал.

Первая статья восстанавливается из 67 слов. Структура, аргументы, цифры — всё на месте. Хуже того: детали, которые ChatGPT придумал сам, звучат так же достоверно, как детали оригинала. Девятимесячный таймлайн, которого в оригинале нет — он там смотрится органично. Я бы не заметил, если бы не сравнивал специально.

Со второй статьёй всё иначе. Там мне понадобилось почти 360 слов только чтобы воспроизвести аргументацию — и всё равно не хватило. Потому что суть статьи David_Osipov не в том, что он правильно расставил разделы. А в том, что он открыл Wireshark, поймал пакеты, нашёл конкретный байт и объяснил, почему именно он. Это ChatGPT не знает. Это не в обучающих данных. Это было сделано руками, ночью, на живой сети.

Вот что такое эти пресловутые 2%.

В первой статье — это авторский стиль. Несколько метафор, пара острых фраз. Не критично. Потеря незаметна.

Во второй — это и есть вся статья. Уберите конкретные артефакты — и останется пересказ того, что ChatGPT и так знает про DPI и Telegram.

Я не говорю, что AriaQA не писал эту статью. Я понятия не имею. Может, писал сам, может с помощью инструментов, может продиктовал вслух пока ехал в метро. Это не мой вопрос и не моё дело.

Мой вопрос был другой: можно ли восстановить статью из промпта? Ответ — зависит от статьи. Если в ней есть что-то, чего нет в обучающих данных — нет, нельзя. Если её содержание исчерпывается структурой и общими соображениями, которые модель и так знает — да, легко.

Это неудобный результат. Не для авторов конкретных статей — для всех нас, кто что-то пишет и публикует.

Мне кажется, именно поэтому такой эксперимент имеет смысл делать здесь. Хабр — одно из немногих мест, где на неудобный результат не закроют глаза и не заминусуют за то, что вопрос некомфортный. Здесь принято разбираться.

И последнее — скорее как мысль вслух.

Если статья восстанавливается из 67-словного промпта с точностью 98% — может, стоит просто публиковать промпт? Читатель получает ту же информацию. Экономия времени: автору не нужно разворачивать, читателю не нужно сворачивать обратно. Хабр мог бы ввести новый формат публикации. Назвать его, например, «сжатая статья». Или просто «промпт».

Я шучу, конечно.

Наполовину.

Оба промпта из эксперимента — в тексте выше. Если хотите — попробуйте сами, сравните с оригиналами и напишите в комментарии что получилось. Интересно, будут ли у вас те же результаты или ChatGPT придумает другой таймлайн.

И отдельный вопрос к администрации Хабра — без иронии, честный: если ChatGPT-реконструкция статьи воспроизводит оригинал с точностью 98%, можно ли опубликовать её как перевод? Технически это перевод с промпта на русский язык. Автор промпта указан. Источник указан. Отличий от оригинала — 2%, что укладывается в допустимую погрешность большинства человеческих переводов.

Если администрация не против — готов попробовать.

Перевод исходной статьи The Prompt, с которой начался эксперимент: «Исследователи Кембриджа доказали, что вашей статьи не существует»

Комментарии (20)

BlackArcher
08.04.2026 07:57
#29794894
Как же надоел нейрослоп с нейрослопными картинками повсюду
1. Kahelman Автор
  08.04.2026 07:57
  #29794916
  А вы картинки сами рисуете или честно покупаете?
  1. cruiseranonymous
    08.04.2026 07:57
    #29795356
    А зачем что нейрослопо, что рукодельные, ничего не иллюстрирующие картинки вообще впихивать? Вроде разделение на разделы-"главы" и так есть.
    Если чтобы "простой для восприятия визуальной воды долить для увесистости" - то уж лучше без ней.
    
    Kahelman Автор
    08.04.2026 07:57
    #29796594
    Это к администрации хабра- зачем она картинки требует при публикации статьи?

parakhod_1
08.04.2026 07:57
#29794938
Любая нейростатья легко сжимается до промта, по которому она написана.
Я правильно сжал вашу статью?

gybson_63
08.04.2026 07:57
#29794966
Допустим все уже забыли что такое количество информации и сжатие. Но даже если к задаче подходить так, то надо текст прогнать в обратную сторону через нейросеть.

M_AJ
08.04.2026 07:57
#29795084
То что любой текст можно "сжать" до размера кода генерирующего случайную последовательность букв очень давно не секрет. Строго говоря сама теоретическая возможность этого открыта лет этак сто назад (если не больше), правда есть нюанс – на восстановление может потребоваться бесконечное время :)

ildarz
08.04.2026 07:57
#29795164
То, что вы описываете, называется "саммари", а не "сжатие текста", и известно задолго до того, как ИИ вообще появились.

Но в чем собственно основная мысль текста? В том, что ИИ хорошо пишет тексты на темы, о которых до него миллион раз писало миллион разных людей примерно одно и то же, но не может воспроизвести уникальную работу? Это самоочевидно.

Делает ли это написанный человеком "еще один текст на тему управления людьми" менее ценным? Ну вы же сами видите рейтинги статьи, и каков же будет ваш ответ?

Снижает ли это мотивацию живого автора писать? Зависит от автора. Повторюсь, статей на управленческие темы в инете - пруд пруди без всяких ИИ (ровно поэтому ИИ и может условно-неплохо писать свои). Если их наличие не снижает мотивацию автора, что тут должен поменять ИИ?

P.S. Да, схожий эксперимент проводила буквально на днях моя жена. Да, написала статью по управлению на примере конкретных кейсов, затем закинула промпт в ИИ и получила похожий результат. Да, "похожий", но нет, не "98%", что бы вы под ними ни понимали. И не только потому, что сам текст ИИ объективно хуже читался, но и потому, что разница - примерно как между документальной и художественной литературой, а ее, я надеюсь, объяснять не надо. И нет, это не уникальная для ИИ проблема - выдуманных текстов и без ИИ в интернетах пруд пруди. Вплоть до диссертаций на базе выдуманного материала или Пулитцеровских премий за описание выдуманных событий.
1. Kahelman Автор
  08.04.2026 07:57
  #29795248
  Тогда зачем писать статью если достаточно опубликовать промпт?
  
  Из-за 2% уникального контента?
  
  Далее если сделать перевод русский-английский- немецкий - русский.
  
  На сколько близко русская статья окажется к оригинальной? Хот все переводы сделаны профессиональными переводчиками …
  1. ildarz
    08.04.2026 07:57
    #29795290
    Но передача опыта между людьми и общение между собой людей в целом совершенно не подразумевают наличие в этом общении некоего "уникального контента". Тем не менее, они существуют, и в их необходимости в целом никто не сомневается.
    
    Если вы лично для себя делаете вывод "я не могу написать ничего прямо уникального и поэтому писать не буду" - имеете право, это где-то похоже на мои собственные мотивы. Но за пределы личной мотивации эта мысль никак не разворачивается.
  1. panzerfaust
    08.04.2026 07:57
    #29795990
    Тогда зачем писать статью если достаточно опубликовать промпт?
    
    Я тоже задаю себе этот вопрос. Зачем ваши братья по разуму каждый день льют на хабр слоп, если за ним не стоит нихрена, кроме промпта?
  1. Real_Egor
    08.04.2026 07:57
    #29796174
    вопрос в том, как этот контент усваивается.
    
    Продолжу твою логику. зачем писать промпт, если можно вообще все написать на псевдокоде? Это самый сильный вариант сжатия смысла. Только он "не понимается человеком".
    
    чтобы статья "запомнилась", она должна "резонировать" с читателем. Он должен ее "переживать", "чувствовать".
    
    А чтобы человек еще и запомнил мысли из статьи, ключевые места должны не только вызывать "эмоции" у читателя, но еще и заставлять иногда "завершить вывод самостоятельно".
    
    Без эмоций текст не интересен
    Без когнитивного трения мозг не запоминает
    
    А эти две составляющие невозможно сжать качественно промптом. Одна и та же мысль, написанная "с чувством" и "просто текстом" даст абсолютно различные эффекты в голове читателя.
    
    Kahelman Автор
    08.04.2026 07:57
    #29796576
    Вам привели 2 статьи. Одна из них «сжимается» промптом, другая нет, рейтинги одинаковые - практически, какие эффекты в голове читателя?
    
    ildarz
    08.04.2026 07:57
    #29796704
    Вы почему-то исходите из аксиомы, что если бы была опубликована статья ИИ "из промпта", то она вызвала бы такой же отклик, как оригинал. А это почти наверняка не так (а если не так, то и нет никакого "сжатия").
    
    Kahelman Автор
    08.04.2026 07:57
    #29797320
    Выше опубликован промпт. Закиньте его в чат гпт, посмотрите результат , сравните с оригиналом, напишите если я не прав- где именно. В комментах все герои, а copy-paste сделать и результаты сравнить так «нет меня я покинул ….»
    
    ildarz
    08.04.2026 07:57
    #29797410
    Я уже написал, как в собственном ответе, так и сейчас. Если непонятно - могу только развести руками, я не знаю, как еще донести что "похожая статья" не равно "такая же". И то, что вам кажется "почти одинаковым", совершенно не обязательно будет так же воспринято аудиторией. Тут критически важен стиль, важна расстановка акцентов, а не просто наполнение неким "контентом".
    
    Real_Egor
    08.04.2026 07:57
    #29798672
    (рекомендую прям с ИИ же и обсудить вопрос "как усваивается материал человеческим мозгом")
    
    попробую еще раз донести.
    
    В чем главная проблема "ии-контента"? Он "гладкий" и "пластиковый". В этом контенте просто сама суть (которую как раз ты и сжал в промпт). Но как ИИ эту суть "распаковывает"? Он тупо добавляет воду, добавляет "банальные и предсказуемые" вставки. Такой контент читается... как бы правильно сказать... "с ощущением скуки на лице".
    
    Скука - эта та эмоция, которая вызывает "-1" в оценке, а не "вау, как круто!". Скука - не заставляет "переосмыслить". Скука - это значит, что мозг по ходу чтения "предсказывает продолжение"... и оказывается прав. Это и есть вся проблема ИИ-контента.
    
    Эмоции, открытия, необходимость "подумать" - это двигатели Запоминания. Только эмоциональный текст (который вызывает эмоции у читателя) запоминается реально. Только текст, который содержит недосказанности, неожиданные вставки, неожиданные повороты может заставить "мозг захотеть его переосмыслить".
    
    Человеческая память управляется эмоциями. Безэмоциональное повествование, это "в одно ухо влетело - из другого вылетело".
    
    Ты можешь сколько угодно "распаковывать текст обратно в 100%", но ты при первом сжатии потерял все "повороты мысли автора", "всю вложенную в статью боль", "все шутки и отступления автора". Для ИИ-архиватора все это не имеет смысловой нагрузки. А для человеческого мозга статья без этих отступлений - банальна и скучна.
    
    Любую книгу Донцовой можно сжать во фразу "убийца - садовник". Но можно ли ее распаковать в такой же, продаваемый и покупаемый, детектив?
    
    Aggle
    08.04.2026 07:57
    #29799556
    Любую книгу Донцовой можно сжать во фразу "убийца - садовник"
    
    Кто шляпку спёр, тот тётку и пришил. (ц)
    
    Real_Egor
    08.04.2026 07:57
    #29800096
    кармы нет лайкнуть -)) Лови лайк комментарием =)
  1. Aggle
    08.04.2026 07:57
    #29799502
    Насколько близко?
    Если статья на техническую или естественнонаучную тематику, то, полагаю весьма близко. Какое-нибудь литературоведческое эссе (к примеру) отойдёт от исходника сильнее.

И всё-таки она вертится… +3

Эксперимент 1

Эксперимент 2

Что это значит

Комментарии (20)

Kahelman Автор

Kahelman Автор

Kahelman Автор

Kahelman Автор

Kahelman Автор