Как ИИ занимает роль, которую нельзя доверить ни одному живому человеку
«Кто устережёт самих сторожей?» — Ювенал, около 100 года н. э.
Вопрос, на который две тысячи лет не было ответа
Есть вопросы, которые человечество тихо отложило в папку «так уж устроен мир». Не потому что они неважные. А потому что слишком долго упирались в одну и ту же стену.
Вот один из них. Существуют организации, которым по закону положено быть закрытыми: разведка, контрразведка, отдельные структуры обороны. Их секретность — не каприз. Это требование выживания государства: вскрой планы операций, источники и методы — и счёт пойдёт на человеческие жизни. Тут не поспоришь.
Но у любой тени есть свойство: в ней заводится то, что прячется. Не потому что в секретных ведомствах служат негодяи. А потому что отсутствие надзора рано или поздно используют — всегда, везде, это свойство системы, а не людей. Где никому нельзя заглянуть, там медленно прорастают коррупция, превышения, операции, которых никто не санкционировал.
И вот замкнутый круг, на котором держится половина шпионских романов. Чтобы проверить — надо увидеть. Чтобы сохранить тайну — нельзя показывать. Контроль требует доступа. Секретность доступ запрещает. И, что особенно обидно, обе стороны кругом правы.
Веками мы выбирали из двух зол. Либо верь ведомству на слово — и закрой глаза на то, что внутри. Либо запусти проверяющих — и попрощайся с тайной, потому что человек с допуском и есть готовая утечка. Третьего не дано.
По крайней мере, так считалось. И, честно говоря, я тоже так считал — пока не сложил вместе несколько вещей, которые по отдельности уже существуют. А сложив, поймал то редкое чувство, ради которого вообще стоит писать: кажется, у древнего вопроса появляется не философский, а инженерный ответ.
Давайте я покажу, откуда оно взялось.
Оказывается, мы уже решали кое-что пострашнее
Задача «подтвердить свойство, не раскрывая сам объект» звучит как фокус из учебника по логике, у которого нет решения. Но её уже щёлкнули — и не где-нибудь, а в самой параноидальной области, какую только можно вообразить: в контроле над ядерным оружием.
Представьте переговоры о разоружении. Одна страна должна доказать инспекторам другой, что предъявленный к утилизации предмет — настоящая боеголовка, а не пустой корпус для отвода глаз. Но показать устройство боеголовки нельзя: это и есть та самая тайна, которую охраняют отчаяннее всего. Доказать — обязан. Раскрыть — не имеешь права. Тот же тупик, слово в слово.
И его обошли. В 2014 году в Nature вышла работа Глейзера, Барака и Голдстона: протокол с нулевым разглашением для верификации боеголовок. Инспектор получает математически железное «да, это настоящая боеголовка» — и не узнаёт о её конструкции ровным счётом ничего.
Идею достраивали годами:
Глейзер, Барак, Голдстон — Nature 510 (2014). Исходный протокол с нулевым разглашением для верификации боеголовок.
Филипп, Глейзер, Фелтен (arXiv: 1809.04170) — криптографическое депонирование параметров: государство фиксирует полную декларацию заранее, а раскрывает чувствительное по частям, шаг за шагом.
Макдональд, Кемп (arXiv: 1811.10375) — оценка того, сколько информации всё-таки утекает через само измерение (мера приватности протокола).
Перри, Жуков (arXiv: 2507.20074) — свежий «паспорт боеголовки» на zkSNARK: цепочка обязательств по жизненному циклу изделия с периодической проверкой соответствия договору.
Вот что здесь важно. Задача «проверить, не показывая» перестала быть фантастикой ещё десять лет назад. Её решают там, где цена ошибки — ядерная война. Просто решение всё это время прикладывали к лампочке, которая загорается «да» или «нет».
А что, если приложить его не к боеголовке — а к целому ведомству?
Концепция: изолированный аудитор — и почему им не может быть человек
Скажу честно сразу: дальше — гипотеза. Не развёрнутая система, а конструкция, собранная из узлов, каждый из которых уже существует по отдельности. Но собирается она до неприличия логично.
Надзорный орган и секретное ведомство заранее договариваются об одном — о наборе вопросов. Не было ли несанкционированных операций? Сходятся ли расходы с заявленными целями? Нет ли признаков того, что часть структуры работает «на себя»? Это согласованная инструкция. Её видят обе стороны, секретного в ней нет ничего.
Дальше приходит оператор и вносит автономное устройство — специализированную языковую модель на изолированном железе. Не подключённую к интернету. Не подключённую вообще ни к чему снаружи. Её заносят в экранированное помещение, дают доступ только к внутренней сети — к тем данным, что надо проверить. Модель отрабатывает по согласованной инструкции: читает, сопоставляет, ищет аномалии. На выходе — цифровой отчёт, подписанный ключом самой модели. После этого её гасят и стирают начисто. Внутрь ничего не утекло наружу: устройство физически не способно ничего передать. Наружу вышел только отчёт.
А устроен отчёт хитро — он из двух частей, и секретность у них разная. Краткая идёт надзору: только вывод — «аномалий нет» или «есть расхождения в таких-то категориях», без подробностей. Даже если такая выжимка утечёт, большого вреда не будет. Подробная остаётся внутри ведомства — чтобы оно само проверило, не выдумала ли модель лишнего. Тут утечки нет по определению: ведомство и так владеет этими секретами.
А теперь — самое интересное. Почему всё это нельзя поручить человеку?
Казалось бы, чего проще: посади доверенного инспектора, дай допуск, пусть проверяет. Так делали всегда. И всегда упирались в одно и то же. Человек в роли арбитра — сам по себе уязвимость. Его можно купить. Можно запугать. У него есть семья, ипотека, амбиции, обиды, прошлое, за которое можно зацепить. Дай ему доступ к секретам — и он мгновенно превращается в мишень для обеих сторон: ведомство боится, что он сольёт, надзор боится, что его перекупят или сломают. Человек в этой точке не нейтрален. Он не может быть нейтральным. Он живой.
Изолированная машина меняет именно это. Её нельзя подкупить — ей нечего хотеть. Нельзя запугать — ей нечего терять. Нельзя шантажировать — у неё нет прошлого. Она не вынесет секрет домой, потому что у неё нет дома, и физически не сможет вынести его за дверь. Впервые в истории в кресло арбитра можно посадить нечто, что нейтрально не из благородства, а по устройству.
И суть идеи именно в этом. Машина ценна здесь не скоростью чтения. Она ценна тем, что может занять роль, которую человеку занять нельзя — не развратившись ею.
И тут возникает законный вопрос: ну хорошо, красивая мечта — а почему я вообще должен верить, что это реализуемо, а не очередной манифест в жанре «вот бы»? Справедливо. Разбираем по кирпичам.
И вот что пьянит: почти все детали уже существуют
Сегодня почти каждый нужный кусок уже есть — в железе и в работающих продуктах.
Гарантия, что исполнилась именно та, неподменённая модель. Это уже умеют — аппаратно, через так называемые доверенные среды исполнения. Современные процессоры и ускорители запускают вычисление в изолированной защищённой области (её называют анклавом) и выдают криптографическое подтверждение: крутился именно такой код и такие веса, их никто не трогал. Это не лаборатория, а серийное железо — конфиденциальные вычисления на H100, Intel TDX, AMD SEV-SNP, — и накладные расходы по ряду замеров меньше десяти процентов (Гу, arXiv: 2507.02770; Храпек, arXiv: 2509.18886; и более ранняя «Slalom» Трамера и Боне, arXiv: 1806.03287).
Подпись, которую не подделать. Внутри анклава рождается пара ключей. Приватный из него физически не вынуть. Публичным кто угодно убедится, что отчёт подписан именно этой моделью в этом анклаве. Старая, отлаженная криптография.
Целостность того массива, что заявлен к проверке. Чтобы ведомство не подсунуло причёсанную версию реальности, заявленный набор фиксируют криптографически — деревьями Меркла, подписанными манифестами, по логике «прозрачности сертификатов» (Certificate Transparency, RFC 6962; работы Фигуэры, arXiv: 2606.04193, и Янга, arXiv: 2602.18681). Подменишь что-то внутри — станет видно.
Узость канала утечки в самом отчёте. Отчёт — тоже выход, через него теоретически можно «прошить» наружу лишний бит. Лечится жёстким шаблоном: модель отвечает строго по форме, без вольного текста, в котором что-то прячут (Метере, arXiv: 2605.20734; Гор, arXiv: 2405.15652).
И ещё: честный прогон нейросети можно криптографически доказать. Для модели на 13 миллиардов параметров такое доказательство уже строят за минуты, а весит оно меньше 200 КБ (zkLLM, arXiv: 2404.16109).
Сложите. Подтверждение неподменённости модели — есть. Неподделываемая подпись — есть. Фиксация данных — есть. Сужение утечки — есть. Доказательства для серьёзных моделей — уже считаются. Ни один кирпич не надо изобретать с нуля. Осталось собрать их воедино под новую задачу.
Дело даже не в доверии, а в том, что обмануть стало трудно
Оговорюсь сразу: эта штука — не оракул, выдающий истину от бога. Она делает скромнее и важнее — заменяет «поверьте нам на слово» на то, что можно проверить руками.
Сегодня надзор обязан верить ведомству целиком: верь, что мы ничего не спрятали, верь, что сами себя проверили, верь нашему отчёту. Одна сплошная непрозрачная глыба. А тут глыба распадается на куски, каждый из которых щупается отдельно: проверь сборку модели, проверь полноту заявленного массива, проверь согласованный набор вопросов. Часть из этого проверяется вообще математически.
И вот тут — главная мысль. Дело даже не в доверии, а в том, насколько трудно обмануть. Доверие — всего лишь следствие: чем сложнее подделка, тем меньше нужно верить на слово. А подделать здесь трудно на каждом шаге. Подменить модель — не выйдет, аттестация поймает. Подделать подпись — нельзя, ключ заперт в железе. Причесать данные — заметят, массив зафиксирован заранее. Из «поверьте нам» получается «попробуйте обмануть проверку» — а это совсем другой разговор.
И вот что тут важнее, чем кажется. Ведомство — это не монолит. Это сотни людей, и каждый владеет своим куском картины, каждый знает о части нарушений. Но свидетелем быть никто не хочет и обычно не может. Пока проверок нет и контора закупорена в себе, отдельного сотрудника несложно втянуть в нарушение — хоть мелкое, хоть крупное: он уверен в безнаказанности. А теперь представьте, что появляется регулярная проверка, результат которой измеряют и сверяют. Арифметика переворачивается. Нарушать в одиночку становится опасно. А чтобы спрятать нарушение от такой проверки, понадобился бы массовый молчаливый сговор — и чем больше людей в него втянуто, тем невероятнее, что он удержится. Не нужно ловить каждого. Достаточно, чтобы безнаказанность перестала быть гарантией.
И да, у инструмента есть края — как у любого инструмента. Он докажет, что вычисление честное, но не что вывод непременно верен, — потому подробная часть отчёта и остаётся в ведомстве на перепроверку. Он проверит заявленный массив, но не то, что в него сознательно не завели, — потому-то регулярность проверок важнее разовости. Это не дыры, это границы, вокруг которых всё и построено. Кто захочет копнуть в каждую до дна — отдельный технический разговор. Здесь же достаточно сказать: обмануть стало трудно, а значит, верить вслепую больше почти не нужно.
Почему это больше, чем один хитрый гаджет
А теперь отступим на шаг и посмотрим, частью чего эта история на самом деле является. Потому что дело не в ведомствах.
Вспомните, что сделал интернет. Он не был задуман как инструмент гласности. Но, разойдясь по миру, он сделал утаивание дороже, а огласку — дешевле, и этим перекроил отношения общества с властью сильнее, чем тома реформ. Технология, придуманная для передачи пакетов, оказалась рычагом для прозрачности — побочно, почти случайно, но необратимо.
С искусственным интеллектом мы, по-моему, стоим у похожего порога — только об этом почти не говорят. О чём говорят? О рисках — громко, тревожно, бесконечно. И о выгоде — но почти всегда в одной-единственной плоскости: продуктивность. Быстрее код, дешевле тексты, меньше людей на тот же объём. ИИ как улучшенный конвейер. Прибавь скорость, убавь штат.
Но это самый скучный из его потенциалов. Есть другой, о котором почти не пишут, и он не про «×5 к выработке».
Существует целый класс проблем, которые мы списали в «нерешаемые» — и все они устроены одинаково. В сердцевине каждой стоит роль, которую должен бы занять кто-то безупречно нейтральный, — а нейтрального взять неоткуда, потому что любой человек на этом месте уязвим и зависим. Арбитр, которого можно купить. Свидетель, которого можно запугать. Ревизор, у которого своя семья и свой страх. Контролёр секретного ведомства — лишь самый острый пример. Но из той же ткани сшиты и независимый подсчёт голосов, и проверка того, что алгоритм не врёт миллионам, и аудит того, кто сам себя назначил неприкасаемым.
Раньше эту роль было физически некем закрыть без изъяна. Теперь — впервые — появляется кандидат, который нейтрален не из доблести, а по конструкции: ему нечего хотеть, нечего бояться, некуда унести секрет.
Вот где, по-моему, настоящая эйфория. Не в том, что аналитик станет работать вдесятеро быстрее. А в том, что у вопросов, которые две тысячи лет числились в папке «так уж устроен мир», вдруг забрезжил инженерный ответ. ИИ способен не просто разогнать старые социальные машины — он способен достроить в них узлы, которых там никогда не было, потому что эти узлы нельзя было сделать из живых людей.
Да, рядом с этой возможностью идут риски, и говорить о них надо трезво. Но нельзя, разглядывая только пропасть, не замечать моста. А мост тут реальный, с опорами из настоящих научных работ, а не из вдохновляющих лозунгов.
Не переоценю и новизну — стараюсь держать себя в руках. В литературе аудируют ИИ-системы: модели, обучение, вывод. А вот мысль приставить изолированный ИИ как ревизора к секретному институту — со связкой «внести -> прочитать -> подписать -> стереть» — в собранном виде я в исследованиях не встретил. Ближайшее по духу — разговоры о межгосударственной инспекции ИИ-лабораторий (Хендрикс, Шмидт, Ван; Шер и Тиргарт, «Mechanisms to Verify International Agreements About AI Development»), но это про другое и пока умозрительно. Поэтому формулирую осторожно: насколько мне известно, в таком виде задачу раньше не ставили. Покажете более ранний источник — поправлюсь с удовольствием.
И да, у этой идеи есть естественный противник. Не злодей из кино. Все, кто живёт за счёт непрозрачности и кому очень удобно, чтобы проверить было нельзя. Сопротивление будет, и с их стороны оно абсолютно рационально. Так всегда и бывает с инструментами, которые сдвигают баланс власти.
Как я это проверял
Пара слов о методе — иначе любой абзац выше можно было бы попросту выдумать, и вы были бы правы, что не поверили.
Каждое утверждение про «уже работает» здесь привязано к конкретному первоисточнику в живом научном корпусе — с фамилиями и идентификаторами работ, а не к смутному «где-то читал». Это и есть разница между визионерским эссе и красивым трёпом: за каждым «это реально» стоит ссылка, которую можно открыть и проверить.
Обосновывать тезисы корпусом первоисточников, а не памятью модели — отдельная инженерная задача, и я строю под неё инструмент (OpenArx): он ищет по статьям и для каждого утверждения возвращает, что его поддерживает, что опровергает и где данных нет вовсе. Эта статья заодно — стресс-тест такого подхода на теме, где соблазн приукрасить особенно велик. Но это уже частности. Главное — идея.
Ювенал спросил, кто устережёт сторожей, две тысячи лет назад. И всё это время ответом было пожатие плечами. Возможно, прямо сейчас, впервые, ответ перестаёт быть философским и становится инженерным. Технически почти всё для него уже есть; не хватает собранной конструкции и воли — у тех, кому спокойнее в темноте. И если уж нам выпало жить в эпоху, когда такие ответы вдруг становятся возможны, — грех не воспользоваться.
Комментарии (2)

mihmig
19.06.2026 03:13Математически звучит красиво, но сапоги не допустят этого: "Нам этот ваш ИИ нахуй не нужон!".
Wesha
А почему всё это можно поручить модели?
Что, уже придумали модели с принципиальной невозможностью галлюцинаций?
Тут простейший комикс модели поручить нельзя — а оно, видите ли, ядрёные арсеналы инспектировать будет!