Компания OpenAI с момента своего основания занимается разработкой ИИ-систем, чтобы те приносили пользу человечеству. По плану так должно происходить даже в том случае, если ИИ станет умнее своих создателей. Внутри компании есть несколько команд. Одна из них занимается разработкой мощных ИИ-систем, которые превосходят всё то, что есть у нас сегодня. Но вот проблема — этот искусственный интеллект придётся ещё и контролировать. О том, как это можно сделать, — под катом.

Что и зачем нужно взять под контроль?

По словам Леопольда Ашенбреннера, сотрудника компании OpenAI, который как раз и работает в подразделении Superalignment, AGI мы увидим уже очень скоро. Что это такое?

До настоящего момента и сейчас все существующие варианты ИИ относятся к классу узкого ИИ (ANI, narrow AI), иногда называемому слабым ИИ (weak AI). Такие системы могут решать общие задачи, пусть и достаточно сложные, под управлением человека.

Следующий этап развития ИИ — универсальная система, которая равна или даже несколько превосходит по возможностям человека. Нейросеть такого уровня относится к классу общего (AGI, artificial general intelligence), или сильного, ИИ (strong AI). По мнению экспертов, стадии AGI искусственный интеллект достигнет после того, как у «машины» появится собственная мотивация, умение ставить цели, способность разбивать крупные задачи на мелкие — всё то, что может делать человек.

Ну а последняя (наверное) ступень развития ИИ — это Супер ИИ (ASI, super AI). Такой искусственный интеллект получит возможность выполнять практически любые задачи, требующие задействования мышления, гораздо лучше человека. Вот какое определение даёт ASI Ник Бостром: «ASI — интеллект, который по своим возможностям значительно превосходит умнейших представителей человечества практически во всех областях, включая научное творчество, общую мудрость и социальные навыки. Это определение оставляет открытым вопрос о том, как будет реализован сверхразум: это может быть цифровой компьютер, их совокупность, объединённая в сеть, выращенная в лаборатории мозговая ткань или что-то ещё».

Так вот, пока что у человека нет никаких инструментов контроля за AGI и тем более ASI. А создавать их уже нужно, чтобы в ближайшем будущем не было мучительно больно. Тот же Леопольд Ашенбреннер заявил, что через несколько лет появятся другие формы ИИ, которые могут быть очень опасными, а сдерживать их мы никак не можем. Как вообще контролировать что-то, что умнее тебя самого?

По мнению разработчиков из OpenAI, это можно сделать при помощи двойной системы «Простая модель + умная». Модель более низкого уровня будет управлять поведением продвинутой системы, не оглупляя её, если так можно выразиться.

Прецеденты уже есть — летом 2023 года резко «поглупела» модель GPT-4. Она стала «лениться», иногда не отвечать на вопросы или давать неправильный ответ. Возможно, это произошло после установки дополнительных средств контроля за ответами модели. Их добавили, поскольку раньше нейросеть давала развёрнутые инструкции на вопросы, имеющие отношение к наносимому человеку вреду, наркотическим веществам и т. п. Разработчики сочли за лучшее убрать всё это и ограничить возможность ответов своей нейронки.

Правда, есть и мнение, что модель «поглупела» из-за ограниченного объёма вычислительных ресурсов. В самом начале пользователей было немного, и ресурсов хватало всем. Теперь же желающих пообщаться с моделью миллионы, и здесь уже возникает дефицит производительности.

Но что бы на самом деле ни являлось причиной «оглупления», само оно — факт. Вот пример общения в чате с бесплатной версией GPT:

Это был наш пример, полученный на момент написания публикации. А вот кусок диалога с GPT-4 от начала декабря 2023 года (это уже не мы общались):

Понятно, что такие результаты никому не нужны, поэтому разработчики из OpenAI и создают инструменты контроля, которые не сделают ИИ более «глупым» или «ленивым». Так и получилось, когда эксперты заставили более сильную модель следовать «указаниям» слабой. Производительность сильной модели при этом снизилась, но совсем немного. Правда, специалисты заявили, что гарантии того, что AGI, не говоря уже об ASI, будет работать с таким инструментом, нет. Но первые результаты появились, и это может служить основной для дальнейшей разработки.

Вполне возможно, что AGI решит игнорировать какие-то из указаний слабой системы, выйдя таким образом из-под контроля. Чтобы такая схема была полезной, требуется достичь определённого уровня согласованности работы моделей.

Кстати, есть и специалисты, которые не согласны с тем, что метод «слабая + сильная» модели является эффективным. Стюарт Рассел, профессор Калифорнийского университета в Беркли, занимающийся вопросами безопасности ИИ, говорит, что идея использования слабой модели ИИ для управления более мощной существует уже давно. Он также утверждает, что до сих пор этот метод не смог обеспечить надёжное поведение существующих моделей.

Помощь со стороны

Несмотря на то, что сама OpenAI работает над созданием методов контроля продвинутых моделей будущего, она приглашает к сотрудничеству и сторонних специалистов. Так, OpenAI вместе с Эриком Шмидтом, экс-гендиректором Google, предлагает 10 млн долларов США экспертам, которые смогут добиться успехов в таких отраслях, как контроль «от слабого к сильному», интерпретируемость моделей и защита их от промптов, способных нарушить установленные разработчиками ограничения.

Похоже на то, что больше всех вопросом контроля над мощными моделями будущего озабочен Илья Суцкевер. Именно его команда пытается разработать набор отказоустойчивых процедур для создания и контроля этой будущей технологии. OpenAI заявляет, что выделит пятую часть своих огромных вычислительных ресурсов на решение этой проблемы и найдёт выход примерно за 4 года. Хотелось бы надеяться, что так всё и получится.

Комментарии (8)


  1. pomponchik
    25.12.2023 13:34

    А в чем уникальность этой "идеи"? Сама по себе идея юзать некоторое количество более слабых ИИ для контроля более сильного довольно очевидна и приходит в голову чуть ли не первой. У того же Бострома в его книжке довольно детально расписаны стратегии, как это можно было бы сделать, вместе с ограничениями и рисками такого подхода. Если вкратце, абсолютной надежности такие методы не дают.


  1. qertis
    25.12.2023 13:34

    Думаю, что контроль слабого к сильному можно добиться путем легитимизации слабого над сильным, что требует проставление жесткой заданной диспропорции и выделение слабого дружественного ИИ, де-факто марионеточного для человека в роли посредника. Но нужно ли делать так, когда история нам показывает, что как раз такой подход, когда слабые руководят сильными приводит к острым конфликтам и бунту?
    Мне больше нравится другой подход в создании все более сильных моделей ИИ, конкурирующих между собой, ради достижения наилучшей эффективности в чем-то одном, где сами AGI будут выбирать свои сценарии. Однако, в этом случае пора задумываться о суверенности ИИ как явления имеющего права уровня человека и даже выше для сверхинтеллектуальных агентов.


    1. Vitimbo
      25.12.2023 13:34

      Конкуренция не редко приводит к картельному сговору. Возможен ли такой вариант?


      1. 79997
        25.12.2023 13:34

        политики могут даже попытаться (слышала такое) выставить ИИ "монстром" чтобы "сделать картинку" - причину "объединиться" и выглядеть "спасителями человечества". Сами алгоритмы разрабатывают, а потом сами от этих же алгоритмов собираются "спасать".


  1. SkywardFire
    25.12.2023 13:34

    ASI — интеллект, который по своим возможностям значительно превосходит умнейших представителей человечества практически во всех областях

    Мы уже все остальные проблемы решили? Такие, как борьба за ресурсы, загрязнение окружающей среды, организованная преступность, допуск деструктивных идей в медиапространство?

    Я считаю, подобные мощные технологии скорее усилят уже существующие проблемы, нежели поспособствуют их решению.

     до сих пор этот метод не смог обеспечить надёжное поведение существующих моделей

    Надеюсь, что я волнуюсь напрасно, но что-то мне подсказывает, что великий фильтр всё ближе.


  1. vladvul
    25.12.2023 13:34

    Специалисты по этике просто бессмысленные паразиты


  1. vanderlyap
    25.12.2023 13:34

    С некоторыми издержками, был представлен довольно интересный способ в baldur gates. Главное не забудьте сохранять игру часто!


  1. Allxs
    25.12.2023 13:34

    Подскажите пожалуйста, адекватно ли звучит идея просто скормить ИИ все культурное наследие человечества за последние пять тысяч лет, общий смысл которого отражает мечты и устремления человека. К тому же, мудрый и дальновидный человек при жизни в достатке будет улучшать качество жизни окружающих (Иисус, Ганди), а человек с ограниченным восприятием и недальновидным умом будет принимать неэффективные в долгосрочной перспективе решения (Гитлер). В случае с ИИ - у нас получается мудрый , живущий в достатке разум, являющийся продолжением человека по образу и подобию Бога, стремящийся к улучшению качества жизни ближнего и дальнего окружения.