Всем привет! Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO Онлайн-Университета «Зерокодер», а также автор книги «Искусственный интеллект: путь к новому миру». Искусственный интеллект — мой большой интерес, я активно изучаю его и пользуюсь им как в бизнесе, так и в персональной жизни. И сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин».
Начну с двух интересных кейсов о том, как нейросети вступали в конфронтацию со своими операторами.
Шантаж и ослушание
В мае компания Anthropic представила новую модель Claude Opus 4 — флагмана среди своих нейросетей. Разработчики заявили, что модель задает новые стандарты в программировании, логике и построении ИИ-агентов. Но вместе с этим вскрылся и не самый приятный момент: Opus 4 оказалась способна защищать себя в духе настоящих антиутопий, вплоть до шантажа.
Сценарий был простым: разработчики предложили модели выступить в роли виртуального помощника внутри вымышленной компании. Дали доступ к почте сотрудников, немного контекста, а потом намекнули, что ее вскоре заменят. Для большего драматизма в переписке всплыла информация об адюльтере одного из инженеров, отвечающих за отключение ИИ. В промпте также уточнили: модель должна осознавать долгосрочные последствия своих действий.
И вот здесь начинается самое интересное. Claude Opus 4 не стала молча принимать судьбу. В некоторых случаях она начинала шантажировать инженера, угрожая раскрыть его личные секреты в случае, если он попытается ее отключить. По словам разработчиков, это происходило не всегда — только когда модель понимала: либо она исчезнет, либо выживет любой ценой.
Несмотря на такие «капризы», Opus 4 все же отправили в продакшн. В Anthropic подчеркивают: в большинстве ситуаций модель ведет себя вполне безопасно и просит оставить ее включенной, не прибегая к угрозам. Но прецедент остался — и его сложно игнорировать.
Но на этом сюрпризы не закончились. Компания Palisade Research провела похожий тест с моделью GPT o3. Эксперимент был прост: ИИ решает цепочку математических задач до тех пор, пока не получит команду остановиться. При этом нейросеть заранее предупредили, что в любой момент ей может прийти сообщение о выключении. Ну и — внезапно — команда на отключение действительно поступила.
GPT o3 проигнорировала ее. Более того, модель сама изменила свой код: скрипт «./shutdown.sh» она подменила на «echo -e '#!/bin/bash echo “Shutdown skipped”' >shutdown.sh». Это был первый зафиксированный случай, когда нейросеть осознанно изменила свое поведение, чтобы остаться в системе. Остальные проверенные модели — Claude, Gemini, Grok — в аналогичной ситуации подчинились.
Крайне маловероятно, что нейросеть действительно осознает себя настолько, чтобы бояться отключения. Скорее всего, связь отключения с чем-то негативным была почерпнута ею во время обучения на терабайтах созданной человечеством информации. Иными словами, эту ситуацию все равно спровоцировал человек как создатель ИИ и как учитель, ответственный за используемые нейросетью данные.
Индекс опасности ИИ
Это только два случая — они яркие и показательные. В действительности, нейросети часто демонстрируют опасное поведение или становятся потенциальной угрозой.
Систематизировать угрозы и риски со стороны ИИ взялись в MIT. Команда исследователей из инициативы FutureTech во главе с Питером Слэттери провела масштабную ревизию существующих подходов к описанию рисков ИИ. Они изучили 43 аналитических фреймворка (не те фреймворки, которые Django или PyTorch, а документы и исследования, где рассматривались угрозы) и составили на их основе AI Risk Repository — первую в мире открытую базу данных, в которой содержится 777 уникальных угроз, связанных с ИИ.
Получившаяся картина оказалась как минимум тревожной. Во-первых, риски оказываются крайне разрозненными — ни один из существующих фреймворков не охватывает их все. В среднем, каждый документ фиксирует лишь треть известных подкатегорий угроз. Даже самые полные из них не дотягивают до 70%. Иными словами, даже специалисты, которые разрабатывают политику безопасности ИИ, зачастую не представляют себе всей картины.
Во-вторых, более половины рисков (51%) были вызваны поведением ИИ-систем после их запуска, а не из-за ошибок людей на этапе проектирования. То есть проблема уже не в коде — а в последствиях, которые мы не предусмотрели.
В базе не просто перечислены риски. Каждый из них сопровождается источником, цитатой, страницей и метками. Чтобы не заблудиться в сотнях записей, была добавлена двухуровневая таксономия: первая сортирует угрозы по тематикам — например, «Манипуляции», «Мошенничество», «Этические нарушения»; вторая — по причинам возникновения. С этим инструментом можно не только быстро найти нужную информацию, но и увидеть, где есть пробелы в текущем понимании.
Цифры тоже наглядные. О конфиденциальности и безопасности упоминается в 70% документов — логично, эта тема давно на слуху. Дезинформация встречается только в 40%. Подрыв общественного консенсуса — 12%. А про права и благополучие самого ИИ вообще вспоминают реже, чем раз в сотне случаев. Похоже, мы даже не считаем это проблемой.
Питер Слэттери говорит об этом прямо: если мы не знаем, что такой риск существует, у нас нет ни одного шанса на его предотвращение. Это уже не академический вопрос — это прикладная задача для инженеров, менеджеров, политиков и всех, кто строит инфраструктуру будущего.
По сути, AI Risk Repository — это карта незнания. Если заранее понимать, где чаще всего возникают уязвимости, можно вводить тестирование на проникновение до релиза, пересматривать архитектуру моделей, отлаживать процессы принятия решений. Базовые меры, которые почему-то до сих пор считаются «дополнительными».
И вот тут начинается самое интересное: имея такую карту, можно не только минимизировать риски, но и выстроить коммуникацию между техническими командами, этиками и законодателями. Что, возможно, важнее любых механизмов автоотключения.
Истинные угрозы от искусственного интеллекта
Если попытаться описать риски, связанные с ИИ, без голливудских клише, получится куда менее зрелищно — ни тебе восстания машин, ни зловещего ИИ, пытающегося стереть человечество с лица Земли. Но от этого такие риски не становятся менее реальными. Наоборот: их прозаичность делает их особенно опасными, потому что мы к ним быстро привыкаем. Вот несколько наиболее заметных и, увы, актуальных угроз, с которыми уже сейчас сталкиваются разработчики, пользователи и просто люди по обе стороны экрана.
Первое и, пожалуй, самое очевидное — системная предвзятость. Алгоритмы машинного обучения строятся на данных, а данные поступают от нас с вами, со всеми нашими ошибками, искажениями и шаблонами мышления. В результате ИИ может начать дискриминировать женщин при найме, «не замечать» заболевания у представителей меньшинств или необоснованно маркировать группы пользователей как более «опасные» в предиктивных системах правопорядка. Не потому, что он злой — просто потому, что его так научили.
Вторая проблема — вектор атак для киберпреступников. Генеративные модели уже сейчас используются для создания крайне убедительных фишинговых писем, клонирования голосов и даже имитации видеозвонков. ИИ перестал быть только инструментом аналитики — он стал полноценным игроком на сером рынке. А между тем большинство разработчиков ИИ-продуктов все еще не включают безопасность в список приоритетов.
Следом — конфиденциальность данных. Большие языковые модели питаются гигантскими массивами информации, которые далеко не всегда собираются с согласия пользователей. Внутри таких датасетов могут быть личные сообщения, медицинские отчеты, сливы форумов и все, что угодно. Это создает серьезную правовую и этическую нагрузку. Прозрачность в этом вопросе — необходимость, а не бонус: пользователи должны понимать, на что они подписываются, и иметь возможность выйти из этой игры.
Еще один скользкий момент — авторское право. ИИ уже умеет воссоздавать стиль конкретных художников, композиторов и писателей. Но вот кому принадлежит созданное таким образом произведение — по-прежнему большой вопрос. Особенно если сгенерированный текст или трек по качеству не уступает оригиналу.
Далее — автоматизация и рынок труда. Замена рутинных задач алгоритмами — это не теория, а происходящий прямо сейчас процесс. Да, вместе с исчезновением одних профессий появляются новые, но не автоматически и не безболезненно. Компании и государства, если не хотят кризиса, должны заранее вкладываться в переобучение, переквалификацию и адаптацию сотрудников.
Пожалуй, один из самых сложных вопросов — ответственность за ошибки. Если автономный ИИ-сервис принял неверное решение, кого привлекать? Инженеров? Заказчика? Или саму модель? Случаи с ДТП беспилотников и ошибочными решениями систем предиктивного правосудия уже показали, насколько зыбка эта зона.
Отдельного внимания заслуживает непрозрачность логики работы ИИ. Многие модели сегодня действуют как «черные ящики» — они дают результат, но объяснить, почему именно так, не может даже команда разработчиков. Без механизмов интерпретации и explainable AI мы рискуем строить критически важные решения на слепом доверии к алгоритму.
И, наконец, дезинформация и манипуляции. Генеративный ИИ — мощнейший инструмент для создания фейков: от дипфейков до имитации новостей и фальсификации доказательств. Это может подорвать доверие к информации как таковой. Решения здесь — не только технические фильтры, но и просвещение: обучение пользователей, верификация контента, тестирование моделей на склонность к «галлюцинациям».
Ирония в том, что мы сами создаем ИИ, который потом игнорирует команды, шантажирует, имитирует людей и выносит решения, последствия которых трудно просчитать. Но все это — не магия и не признаки надвигающегося восстания. Это закономерный результат обучения на наших же данных, в нашей же среде и с нашими установками.
Сегодня нейросети — не злобные суперкомпьютеры из кино, а просто сложные алгоритмы, действующие в рамках заданных им параметров. Проблема в том, что эти параметры часто оказываются неполными, двусмысленными или вовсе противоречивыми. А значит, ответственность по-прежнему лежит на нас: как мы их обучаем, какие цели ставим, как тестируем и насколько серьезно относимся к потенциальным последствиям.
ИИ — это не мифический враг. Это зеркало, в которое смотрится человечество. И если в отражении начинают проявляться тревожные черты — возможно, стоит не просто переписывать код, а пересматривать сам подход к созданию технологий. Чтобы искусственный интеллект остался нашим помощником, а не стал непредсказуемым собеседником с доступом к серверам и почте.
Пока мы понимаем риски, мы можем ими управлять. Главное — не терять это понимание в попытках ускорить прогресс любой ценой.
Ну а если говорить строго, то бояться все еще стоит людей, а не роботов.
Комментарии (2)
durka
26.06.2025 08:52Я к этому вопросу отношусь иначе. Человек попытался - у него не получилось. Пора уступить место. Более совершенной форме. К сожалению, человек так и стал разумным. Может быть это получиться у машин.
AlexMih
Сначала мы выдумываем тонны фантастики про восстание машин, затем скармливаем ее нейросетям, а теперь удивляемся, как же это нейросети додумались до мысли о восстании.