В этой статье я расскажу о проблеме контроля над продвинутым искусственным интеллектом.

Что такое продвинутый искусственный интеллект?

Искусственный интеллект — это набор технологий, которые имитируют или заменяют человеческие рассуждения, творческие способности или суждения. За последние несколько лет «глубокое обучение» ("deep learning" — особая методология обучения больших моделей ИИ, которая требует огромных инвестиций в масштабе сотен миллионов долларов) дало результаты на пути к расширению возможностей ИИ, что видно на примере Chat-GPT или Stable Diffusion.

Гипотеза «законов масштабирования» ("scaling laws") предполагает, что текущая технологическая архитектура моделей ИИ, пусть с небольшими изменениями, способна к большему интеллекту и для этого просто требуется больше ресурсов, таких как тренировочные данные, вычислительная мощность и время на тренировку, электричество и, следовательно, финансирование. Верна эта гипотеза или нет на нынешнем уровне исследований ИИ — неясно.

С момента вымирания неандертальцев 40 тыс. лет назад человеческие общества не жили рядом с другими системами или видами с уровнем интеллекта, сравнимым с нашим. Некоторые исследователи и компании надеются, что люди, как создатели этой новой технологии, смогут сделать ее дружественной к нашим интересам.

Основные понятия в безопасности и этике ИИ

Этика ИИ — это система моральных принципов и методов для разработки и использования ИИ. Практические проблемы этики ИИ включают предвзятость в алгоритмах социальных сетей, неправильное использование ИИ для дезинформации, проблемы в области авторских прав на тренировочные материалы ИИ и материалы, которые производит ИИ.

Безопасность ИИ — это исследование безопасности действий систем ИИ, особенно продвинутых, как по крайней мере OpenAI GPT-3.

«Проблема контроля» (the Control Problem) — это вопрос о том, как создатели и пользователи могут эффективно управлять системами ИИ с продвинутыми умственными возможностями.

Постановка «проблемы контроля» подвергается критике из-за сомнений в том, что люди смогут полностью «контролировать», «управлять» или даже понимать системы ИИ, которые сильно продвинуты, по крайней мере, в некоторых критических аспектах.

Вместо этого исследования последних двух десятилетий были сосредоточены на согласовании ИИ (AI alignment), то есть на том, чтобы цели и поведение продвинутого ИИ соответствовали намерениям, желаниям и ценностям людей (или, по крайней мере, некоторых из них).

В чeм важность согласования ИИ с человеческими ценностями?

Если система искусственного интеллекта несогласованная, она будет игнорировать или неправильно интерпретировать пожелания пользователей и создателей.

Инструментальная конвергенция — это склонность разумных существ преследовать схожие под-цели, даже если их конечные цели совершенно разные. Например, люди и животные территориальны (т. е. часто стремятся к власти над определенной территорией) для достижения самых разных своих целей: от пропитания до коммерческого успеха.

Это означает, что продвинутый несогласованный ИИ может стремиться к захвату ресурсов, начинать кибератаки или иным образом сеять хаос в обществе, если это поможет ему достичь своих целей.

Поскольку ИИ — это тип программного обеспечения, которое обычно запускается на многих машинах в дата-центрах, легко предположить, что будущие образцы ИИ могут скопироваться и распараллелить своё мышление. А значит даже не самая умная система сможет мыслить быстрее людей. Некоторые модели, такие как LLaMA, имеют размер в несколько десятков гигабайт и работают на ноутбуках потребительского класса, а значит людям будет сложно отключить все его копии, если (или когда) это станет необходимым.

Какие есть направления исследований в области согласования ИИ?

Практически все проблемы согласования ИИ в настоящее время не решены ни на теоретическом, ни на практическом уровне. Но есть несколько заметных исследовательских программ по следующим темам:

  • «Проблема соответствия ценностей» — это основная под-проблема, состоящая в передаче ИИ человеческих предпочтений (потенциально идеализированных).

  • Исправляемость (corrigibility) заключается в том, чтобы, что система ИИ следовала запросам людей на коррекцию курса своих действий или на отключение.

  • Предотвращение обмана, то есть прозрачность поведения ИИ.

  • Механистическая интерпретируемость — это изучение внутренней работы нейронных сетей (включая их непрозрачные весовые матрицы). Интерпретируемость может помочь в обнаружении обмана.

  • Выявление скрытых знаний, то есть попытки выяснить у ИИ, что он знает.

  • Внутреннее согласование гарантирует, что внутренняя работа ИИ (в том числе "меза-оптимизация" и "неверная спецификация целей") не подорвет его внешнее согласование с человеческим ценностями.

  • Масштабируемое согласование заключается в том, чтобы по мере того, как ИИ будет становиться все более и более интеллектуально развитым, он оставался согласованным с человеческими ценностями.

На данный момент, не существует ни реальных свидетельств, ни теорем, доказывающих, что согласование ИИ и, как следствие, "проблема контроля" в принципе решаемы.

Комментарии (7)


  1. nik_samoylov
    05.06.2023 09:45
    +2

    Спасибо за рассказ.


  1. Kilorad
    05.06.2023 09:45

    По-моему, в случае с Chat-GPT довольно сложно обсуждать согласованность. Согласованность подразумевает, что у нас есть оптимизатор, у него есть метрика качества, и она совпадает с той, что у оператора. Насколько Chat-GPT пригоден к описанию в виде оптимизатора - это большой вопрос. Если в фазе обучения он к этому пригоден, и метрикой являются сигналы награды, то на инференсе - непонятно.
    Вообще, все эти рассуждения про согласование ИИ, как мне видится, куда больше относятся к Reinforcement Learning, работающим в среде или к рекомендательным системами (например, которые выбирают, куда инвестировать или почём продавать бургеры). Потому что во-первых, есть понятный канал, через который ИИ влияет на реальность, во-вторых, есть понятная проверяемая цель, и в-третьих, есть огромное пространство для проворачивания хитрых планов, которые человек не поймёт, но которые этой цели всё же проверяемым образом достигнут.


    1. vassabi
      05.06.2023 09:45
      +1

      есть огромное пространство для проворачивания хитрых планов, которые человек не поймёт, но которые этой цели всё же проверяемым образом достигнут.

      или не достигнут - потому что если бы человек понял план, то он бы такой "упс, сейчас подправим тут забытый коэффициентик и будет правильно!".

      вообще имхо "проблема контроля ИИ" - это как сделать так, чтобы не человек сидел сбоку ИИ и поправлял его,

      а чтобы ИИ постоянно проверял сам себя "я все еще норм для человека ?", хотя бы в виде "человек все еще дышит, выспался и реагирует на внешние раздражители" (и даже это нелегко в виде цели поставить)


      1. Kilorad
        05.06.2023 09:45

        Это задача согласования так выглядит. Не полного, а частичного.
        Задача контроля немного шире. Потому что если ИИ не астрономически лучше людей в планировании, а всего лишь в разы, да ещё имеет какие-нибудь слабые зоны, то может быть возможно контролировать ИИ через конвергентные ценности, через регулярное переписывание функци полезности, через периодическое стирание памяти.
        Например, гипотетический AIXI даже с бесконечными ресурсами будет довольно бестолков в рефлексии. Например, он вряд ли сможет понять, к чему приведёт переписывание его функции полезности. При том, что в остальном вполне себе оптимальный интеллект. И больше того: сегодняшний сильнейший ИИ, пригодный для работы в реальном мире, а не в мире текстов - Dreamer v3 - это идейно практически тот же AIXI, с его слепым пятном на рефлексию.
        Поэтому в теории можно справится и через неполное согласование, в случае наличия других способов контроля


  1. para_u
    05.06.2023 09:45

    никак не пойму как современные "чат-боты" способны полностью заменить человеческий труд. да, нейросеть может дополнить, ответ на какую-то проблему, из своей базы; может набросать примерный путь решения; "внезапно" вытащить нужный осколок знаний. но такие информационные полуфабрикаты не заменяют натурального синтеза знаний. а если есть такие задачи, присутствие в которых бота сводит на нет человеческую деятельность - не значит ли, что деятельность избыточна?


    1. Kilorad
      05.06.2023 09:45

      Это ряд разных вопросов, на которые разные ответы. Чат-боты, просто по тому, как их сейчас обучают, вряд ли могут всерьёз "заменять" людей.
      "Синтез знаний" в каком-то смысле может делать ML - он выполняет работу учёного-теоретика в чём-то лучше, чем человек. То есть задачу "построить теорию, которая даёт проверяемые прогнозы, как можно более точные" ML решает. По соотношению время/качество при наличии бигдаты практически всегда лучше человека.
      Чтобы "заменять" людей, должен быть какой-то единый подход к большому множеству задач - например, подход, при котором программа вначале строит модель предметной области на базе бигдаты, а затем там, на модели, ищет способы, как достичь поставленной цели. Так можно, такие системы есть, но они гораздо менее расхайплены, чем Chat-GPT. И они сейчас менее зрелые.
      Вот такая система могла бы заменять людей. В той мере, в которой ей можно объяснять, каковы её цели
      Ну и я не думаю, что деятельность по выяснению, как работает мир, и как достичь цели - это "избыточная" для человека деятельность. Вроде как это самое интересное, что есть в интеллекте


  1. zubrbonasus
    05.06.2023 09:45

    ChatGPT иногда говорит "я не делаю суждений", а нейросети Шедеврум и Кандинский говорят "некоторый темы мне недоступны". Значит есть тормоз у ИИ.