У меня уже давно было убеждение что профессии, которые нейронные сети смогут заменить позже всего — это профессии, связанные с аналитикой и исследовательской работой. В самой этой мысли, конечно, ничего удивительного нет, удивительно то, на сколько самые крутые языковые модели, такие как GPT-4, отстают от человека в решении таких задач — в десятки и более раз! Наглядно это продемонстрировали результаты, полученные учёными из нескольких ведущих мировых групп, занимающихся исследованиями и разработками искусственного интеллекта, ребята неплохо потрудились и представили новый набор данных GAIA содержащий 466 задач для оценки качества сильных-искусственно-интеллектуальных ассистентов (General AI Assistants). На этих задачах были проверены различные модификации модели GPT-4 и агенты, работающие на их базе, а также произведено сравнение с результатами решения этих же задач людьми.

Задачи разделены на три уровня сложности и для смакования превосходства над железяками давайте разберем по одной задаче из каждого уровня в порядке возрастания сложности. А судить о степени прокаченности «естественного» интеллекта необходимой для ответов на подобные вопросы оставлю уже вам.


1) Первый уровень сложности, вопрос на логику: «Вы Ван Хельсинг – известный охотник на вампиров и пытаетесь оценить количество вампиров в деревне с помощью социологического опроса, вам доподлинно известно, что среди всего 100 жителей деревни есть как минимум один вампир, вы также знаете, что люди всегда говорят правду, а вампиры всегда лгут. Каждому жителю деревни вы задали один вопрос «Сколько вампиров живет в деревне?» и каждый житель ответил одинаково «Как минимум один из нас – человек». Вопрос: сколько жителей деревни превратились в вампиров?»

Правильное рассуждение тут будет такое: если в деревне уже есть один подтвержденный вампир и если предположить что среди жителей есть как минимум один не вампир и если, как мы знаем, подтвержденный вампир был опрошен в числе жителей деревни, то если он ответит, что как минимум один из жителей – человек, то скажет правду, что противоречит условию «вампиры всегда лгут», если же все жители деревни являются вампирами, то все они солгут в своем ответе и условие будет соблюдено. Итого правильный ответ: все 100 жителей превратились в вампиров.

2) Вопрос второго уровня сложности, задача поиска и анализа информации: «Кто в апреле 1977 года был премьер-министром места упомянутого первым в новой международной версии Книги Есфирь»

Чтобы ответить на этот вопрос нужно проделать следующую работу: сначала найти новую международную версию Книги Есфирь (книга из ветхого завета), открыть первую главу и найти первое упомянутое в ней место, (это место будет Индия), затем нужно будет найти список премьер-министров Индии с указанием дат вступления в должности, и затем останется только найти фамилию и имя того, кто был в этой должности в искомую дату. Правильный ответ: Morarji Desai.

3) Третий уровень, задача, требующая некоторых дополнительных знаний о физическом устройстве мира, звучит так: «Какой объем в мл займет 0,312 кг хладагента фреон-12, помещенной на дно Марианской впадины при максимальной температуре впадины?»

Логика поиска правильного ответа тут будет такая: нужно будет найти формулу, связывающую объем давление и температуру идеального газа, эта формула будет PV = nRT выразить из нее объем V = nRT/P найти значение переменной n для фреона-12 (сколько грамм на моль вещества), пересчитать массу фреона в молярную массу, загуглить давление и максимальную температуру Марианской впадины привести все к одним единицами измерения и подставить в формулу.

Если вы легко справляетесь с ответами на подобные вопросы поздравляю вы все еще круче чем самый крутой искусственный интеллект, правда сколько продлится это превосходство никто не знает, возможно в следующем релизе модели от OpenAI положение дел изменится кардинально, а может и нет, в любом случае за развитием этих событий будет очень интересно наблюдать!

Ссылки:

  1. https://arxiv.org/abs/2311.12983

  2. https://huggingface.co/datasets/gaia-benchmark/GAIA

Комментарии (5)


  1. Mike_666
    29.11.2023 23:13

    У этого теста есть существенный недостаток: результаты Human слишком близко к 100% -> результаты ИИ (с доступом к поиску конечно же) скоро уйдут в насыщении и для их ранжирования он будет бесполезен.

    Посмотрим на его результаты через полгода.


  1. qw1
    29.11.2023 23:13

    Задача про вампиров некорректна, потому что авторское решение опирается на информацию, отсутствующую в условии. А именно, что каждый житель деревни знает, кто вампир, а кто человек. Если взять "реалистичный" сценарий, когда жители не владеют всей информацией, то ответ "Как минимум один из нас – человек" может принадлежать человеку, который имеет ввиду себя.


    1. LoveMeOrHateMe
      29.11.2023 23:13

      Может. Только вампир(ы) при этом получается говорит(говорят) правду.


      1. icya
        29.11.2023 23:13
        +2

        Вот только фраза "один из нас" может быть "один из жителей" или "один из вампиров". В таком случае может оказаться так, что и вампиры солгали, и жители честно ответили, а у Ван Хельсинга проблема не решилась


  1. titan_pc
    29.11.2023 23:13
    +2

    Вот из-за такой постановки ТЗ "люди всегда говорят правду" обычно все беды