2025 год объявлен годом расцвета ИИ агентов — самостоятельных (автономных) помощников в выполнении полезной работы. Как обычно, хайпу в этих публикациях хоть отбавляй, поэтому вдумчивые читатели пытаются пробраться через этот хайп к истине. Нам в компании IDX это тоже важно, потому что по нашим представлениям появление работающих ИИ агентов существенно поменяет ландшафт обработки персональных данных (ПД). Мы приступили к работе над серьезным аналитическим отчетом о прогрессе ИИ агентов и его влиянии на ПД, что потребует некоторого времени.В этой же и последующих заметках мы будем отмечать наиболее интересные или хотя бы курьезные сведения, которые будут попадаться по пути.
4 апреля этого года появилась очередная публикация с прогнозом и сценариями развития ИИ до конца 2027 года (AI2027), подготовленная группой известных авторов, включая Даниэля Кокотайло, Скотта Александра и других. Здесь на Хабре уже опубликован перевод этой публикации, оригинал выложен на отдельном сайте ai-2027.com.
Здесь хочу сделать лирическое отступление по поводу реакции технологического сообщества, обширно представленного здесь на Хабре. Некоторые комментаторы отзываются на публикации такого рода стандартно негативно: “да какие это эксперты, студенты-недоучки”, “да в этих переводных статьях только каркают и пугают, пустая трата времени их читать” и все в таком роде. Мне такие комментаторы напоминают троянцев, которым Кассандра настоятельно советовала не затаскивать эту деревянную лошадь внутрь городских стен. Часто эти комментаторы сами ничего не публикуют, что снижает интерес к их откликам.
Сообщество людей, которые озабочены контролем за развитием ИИ, весьма многочисленно. Многие из них группируются вокруг известных организаций и их лидеров. MIRI (Machine Intelligence Research Institute), CFAR (Center for Applied Rationality), EA (Effective Altruism) (легко гуглятся) и их духовный предводитель Елиезер Юдковский, центральный кластер этого сообщества. Конечно, вокруг настоящих экспертов суетится много людей, которым хочется быть частью большой истории. Большинство “захабренных” этого уже не помнят, но при советской власти мы увлеченно читали роман Владимира Орлова “Альтист Данилов”, который вышел в 1980 году и с тех пор совершенно не устарел. Среди многих и многих сатирических сюжетов романа было и описание “Научно-инициативной группы хлопот о будущем”, сокращенно — хлопобудов (или будохлопов, но это грубо). Легко объявить экспертов по контролю за ИИ (AI alignment) хлопобудами, но проблема от этого не исчезнет.
Если кому-то еще мало аббревиатур, можете погуглить новейшее (2023 года) обзывательство TESCREAL, которое помещает рационалистов и альтруистов, озаботившихся наступлением в недалеком будущем Сингулярности (то есть, появление Суперинтеллекта (ASI), в более широкую компанию с трансгуманистами, космистами и, не поверите, с лонгтермистами (которые считают, что думать об отдаленном будущем — моральный долг всех ныне живущих людей). Если же кому-то лень разбираться во всей этой белиберде, можно, например, перечитать тетралогию Пелевина о Transhumanism Inc., что я сам недавно сделал и ни разу не пожалел.
Ну, и чтобы закончить с литературными ассоциациями, сообщу также, что недавно я обнаружил исторические корни волшебной сказки центральной проблемы манифеста AI2027, а именно, AI alignment — удержания ИИ в рамках целей, для которых он создается (используется). Еще в 1942 году в одном и том же журнале Astounding Science-Fiction с интервалом в шесть месяцев появились два рассказа. В марте — второй из серии рассказов Айзека Азимова, которые составили сборник “Я — робот”, “Roundaround” (“Хоровод” или “Вокруг да около”). Текст этой книжки легко доступен из многих источников, да и многие из вас в детстве могли его читать. В этом рассказе Азимов впервые сформулировал три закона робототехники, которые сделали его знаменитым. К моему удивлению в рассказе герои пытаются управлять поведением робота с помощью подбора весовых коэффициентов, что очень напоминает возню с нейронными сетями в основе которых всего-навсего модель многомерной линейной регрессия.
Второй рассказ — Twonky (имя собственное), который появился в сентябрьском номере того же журнала, принадлежит известной супружеской паре Генри Катнеру и Кэтрин Мур. Рассказ, похоже, так и не был переведен, поэтому перескажу чуть подробнее. Сюжет начинается на фабрике роялей музыкальных систем, которые об ту пору называли “комбинациями”, так же как и позже первые телевизионные системы (как в ранних нефантастических романах Филипа Дика). Говоря современным языком, музыкальные центры в то время интегрировали из набора радио, вертушки, акустической системы и других примочек под требования заказчика.
Так вот, на фабрику попадает инопланетянин, угодивший в петлю времени. На фабрике большая текучка рабочей силы, поэтому прораб, увидев его, не узнает, а просто говорит — хватит болтаться без дела, иди работай. Инопланетянин все ловит на лету и собирает свою систему как умеет. Ее доставляют заказчику. Сразу после включения новый музыкальный центр объявляет своему владельцу, что психологический профиль снят и настройки выполнены, но тот не обращает внимания, считая, что услышал отрывок радиопередачи.
Самая веселуха начинается после того, как владелец достает сигарету, а музыкальный центр выходит со своего места у стеночки, подходит к хозяину и дает ему прикурить невесть откуда взявшимися ручками с зажигалкой. Потом он играет только те пластинки, которые, как он считает, хороши для владельца, отбирает у него книжки, которые ему не следует читать и все в таком духе. Заканчивается все плохо, когда он просто аннигилирует озверевшую жену хозяина, а потом и самого хозяина. Вот вам ранний пример описания проблемы контроля за ИИ.
Возвращаемся к ИИ-агентам в манифесте AI2027. Несмотря на все победные реляции об успехах в использования ИИ-ассистентов для креативной индивидуальной работы, следующий шаг эволюции ИИ — от ассистента, доступного через чат-интерфейс, к относительно независимому ИИ агенту, который может самостоятельно выполнять поставленные задачи (ну, или толково выделенные подзадачи), весь 2025 год характеризуется заголовком “Stumbling agents” (Агенты-недотепы). В первую очередь это связано с высокой вероятностью непредсказуемого поведения модели (галлюцинации ИИ, выдумки, сокрытие собственных ошибок и другие фокусы). В манифесте довольно понятно описано, что даже вменение модели (сети) правильных целей приводит всего лишь к их инструментальному усвоению, а не в качестве терминальных целей. (Делать то, за что похвалят, а не то, что само по себе правильно).
Во-вторых, анонсированный переход области применения ИИ-агентов из корпоративных сред в область индивидуального использования не торопится случиться. На наш взгляд потому, что ИИ-агенты в корпоративной среде — это прежде всего средства автоматизации воркфлоу, сколько бы нейронок к ним не прикрутили. Обучить их этому сравнительно недорого. Проверьте список 10 лучших (в 2025 году) платформ для формирования ИИ-агентов, предложенный одним из сетевых писателей, и скажите мне, если я что-то упустил. Да, в него вошел и Operator, представленный OpenAI в январе этого года, который позиционируется как ИИ-агент потребительского класса, но о нем еще рано судить, как говорил Дэн Сяо Пин о Великой французской революции.
Следуя канве манифеста в наших размышлениях, мы пропустим следующий блок, который касается применения ИИ-агентов для ускорения исследований и разработок ИИ. Мы подумаем об этом позже, когда придумаем, как нам формировать собственных агентов для задач удостоверения персональных данных. Пропускаем также шпионские истории про китайцев, хотя чтение это весьма увлекательно.
Последнее из манифеста AI2027, о чем я хочу упомянуть в своей заметке — это набросок их Alignment Plan, изложенный для гипотетической модели Agent-3 (Agent-0 — это то, что гипотетически появится после GPT-4). Я здесь не использую перевод для термина “alignment”, предложенный в русском переводе манифеста, как “согласование”. Это вариант не хуже других, но в контексте моих рассуждений не работает, поэтому я всякий раз прибегаю к объяснительному переводу (например, взятие под контроль, укрощение и т.д.).
Здесь нам важно не содержание плана, как управиться с ИИ-агентом, а его структура. Цель формирования плана взятия под контроль ИИ-агента заключается в первую очередь в обнаружении действий модели, которые выдают ее намерения (goals), не запланированные разработчиком, и, возможно, нежелательные для пользователей. Здесь авторы манифеста следуют известному сценарию, разработанному бывшими сотрудникам OpenAI Лейке и Суцкевером, но с учетом того, что для Agent-3 план укрощения будет разрабатывать его предшественник Agent-2, который воспользуется уже наработанными техниками, которые попытается интернализировать, то есть встроить в спецификацию.
Нам тоже хотелось бы, прежде чем предлагать схему использования ИИ-агентов в задачах удостоверения персональных данных, попытаться встроить в нашу спецификацию средства обнаружения и предотвращения того, что мы условно называем ИИ-фродом в двух сценариях — а)использование ИИ для совершения фрода и б)использование ИИ для обнаружения фрода (в том числе и фрода, подготовленного с использованием ИИ). Насколько можно судить по текущим событиям, сейчас речь идет только об обнаружении фрода (подготовленного и совершенного обычными средствами) с использованием ИИ. В нашей схеме предоставления услуг картинка немного другая и я объясню ее в следующей публикации.
Комментарии (6)
exTvr
18.06.2025 09:49Большинство “захабренных” этого уже не помнят,
Да ладна, я только из-за хлопобудов статью открыл :-))
Сейчас тут перепись старпёров начнётся.
DedaVova Автор
18.06.2025 09:49Well done! Тогда вы должны помнить и девиз синего быка Кармадона "Ничто не слишком!" (пишу по памяти). Боюсь, что практикующие разработчики в области ИИ, отрицающие страшную Сингулярность, руководствуются этим девизом.
Moog_Prodigy
Из за этого вашего alignment скоро дойдем до того, что llm на любой запрос будет отвечать "я не буду этого делать", ну и нахрен ты такая нужна тогда, если тебя можно обычным скриптом заменить. Скрипты просто делают, что им говорят.
DedaVova Автор
Эх, был бы этот alignment мой, вапще бы все запретил ))
Moog_Prodigy
Вот вам бы все запрещать. Лоботомию такие же "умники" придумали в свое время, что подавалось под соусом лекарства от любых псих. болезней. Ну собственно модели после алаймента и напоминают пациентов после лоботомии. То есть это уже не совсем личность.
DedaVova Автор
Мне кажется, что сравнение борцов с Сингулярностью с сатирически выведенными хлопобудами довольно ясно отражает мое отношение к этому движению сопротивления, но если вам удобнее использовать меня в качестве куклы вуду Елиезера Юдковского, то пожалуйста, конечно. )) Нам, как выжившему в числе немногих сервис провайдеру, верификации ПД, конечно хочется уже на ранней стадии понять чего такого опасного смогут ИИ-агенты по сравнению с мирными и полезными LLM-ассистентами. Их как раз лоботомировать никто и не предлагает, даже хлопобуды.