Большие языковые модели по-прежнему борются с проблемами и базовыми задачами рассуждения. Две новые статьи, в которых машинное обучение применяется к математике, дают представление о том, как это может измениться. 

За последние несколько месяцев мир узнал две вещи о больших языковых моделях (LLM) — вычислительных механизмах, лежащих в основе таких программ, как ChatGPT и Dall·E. Во-первых, эти модели обладают интеллектом и творчеством человека. Они предлагают подробные и ясные ответы на письменные вопросы или создают привлекательные изображения всего из нескольких слов текста.

Во-вторых, они ненадежны. Иногда они делают нелогичные заявления или уверенно выдают ложь за факт.

«Они будут говорить о единорогах, но потом забудут, что у них один рог, или расскажут вам историю, а затем изменят детали», – сказал Джейсон Рут из IBM Research.

Это больше, чем просто ошибки — они демонстрируют, что LLM изо всех сил пытаются распознать свои ошибки, что ограничивает их производительность. Эта проблема не присуща системам искусственного интеллекта. Модели машинного обучения, основанные на методе, называемом обучением с подкреплением, позволяют компьютерам учиться на своих ошибках, чтобы стать вундеркиндами в таких играх, как шахматы или го. Хотя эти модели, как правило, более ограничены в своих возможностях, они представляют собой своего рода обучение, которое LLM еще не освоили.

«Мы не хотим создавать языковую модель, которая просто говорит как человек, — сказал Юхуай (Тони) Ву из Google AI. — Мы хотим, чтобы она поняла, о чем она говорит».

Ву является соавтором двух недавних статей, в которых предлагается способ достижения этой цели. На первый взгляд, речь идет об очень конкретном приложении: обучении систем ИИ выполнять математические операции. В первой статье описывается обучение LLM переводу обычных математических выражений в формальный код, который компьютер может запускать и проверять. Во второй обучали LLM не только понимать математические задачи на естественном языке, но и решать их, используя систему под названием Minerva.

В совокупности статьи предлагают форму будущего дизайна ИИ, в котором LLM могут учиться рассуждать с помощью математического мышления.

«У вас есть такие вещи, как глубокое обучение, обучение с подкреплением, AlphaGo, а теперь и языковые модели, – сказал Сиддхартха Гадгил, математик из Индийского института науки в Бангалоре, работающий с математическими системами ИИ. – Технология развивается во многих разных направлениях, и все они могут работать вместе».

Не очень простые переводы

На протяжении десятилетий математики переводили доказательства в компьютерный код, этот процесс называется формализация. Апелляция проста: если вы пишете доказательство в виде кода, и компьютер запускает код без ошибок, вы знаете, что доказательство правильное. Но формализация одного доказательства может занять сотни или тысячи часов.

Юхуай (Тони) Ву недавно стал соавтором двух статей, в которых обучал большие языковые модели переводить и решать математические задачи, написанные на естественном языке. 
Юхуай (Тони) Ву недавно стал соавтором двух статей, в которых обучал большие языковые модели переводить и решать математические задачи, написанные на естественном языке. 

За последние пять лет исследователи ИИ начали учить LLM автоматически формализовать или «автоформализировать» математические утверждения в «формальный язык» компьютерного кода. LLM уже могут переводить один естественный язык на другой, например, с французского на английский. Но перевод с математики в код – более сложная задача. Например, существует гораздо меньше примеров перевода, с помощью которых можно обучать LLM, а формальные языки не всегда содержат весь необходимый словарный запас.

«Когда вы переводите слово „сыр“ с английского на французский, вы получаете французское слово, обозначающее сыр, — сказал Рут. — Проблема в математике, в формальном языке даже нет правильного понятия».

Вот почему семь авторов первой статьи, представляющие как академические, так и отраслевые организации, предпочли автоформализацию коротких математических утверждений, а не полных доказательств. Исследователи работали в основном с LLM под названием Codex, который основан на GPT-3 (предшественник ChatGPT), но имеет дополнительную подготовку по техническим материалам из таких источников, как GitHub. Чтобы Codex понимал математику достаточно хорошо для автоматической формализации, они предоставили ему всего два примера математических задач на естественном языке и их формальные переводы кода.

После этого краткого урока они передали Codex формулировки на естественном языке почти 4000 математических задач с школьных соревнований. Поначалу его производительность может показаться неутешительной: Codex перевел их на язык математической программы Isabelle/HOL с точностью чуть менее 30%. Когда он потерпел неудачу, он придумал термины, чтобы заполнить пробелы в своем переводческом лексиконе.

«Иногда он просто не знает слова, которое ему нужно знать — какое имя Isabelle для „простого числа“ или имя Isabelle для „факториала“ — и просто выдумывает, что является самой большой проблемой с этими моделей», — сказал Рут. — Они очень много гадают».

Но для исследователей важным было не то, что Кодекс терпел неудачу в 70% случаев; дело в том, что ему удавалось добиться успеха в 30% случаев после просмотра такого небольшого количества примеров.

«Они могут выполнять все эти разные задачи с помощью всего лишь нескольких демонстраций», — сказала Венда Ли, учёный из Кембриджского университета и соавтор работы.

Ли и её соавторы рассматривают результат как образец скрытых способностей, которые LLM могут приобрести при наличии достаточного количества общих обучающих данных. До этого исследования Codex никогда не пытался переводить между естественным языком и формальным математическим кодом. Но Codex был знаком с кодом из своего обучения на GitHub и с математикой на естественном языке из Интернета. Чтобы опираться на эту базу, исследователям нужно было только показать несколько примеров того, что они хотели, и Кодекс мог начать соединять точки.

«Во многих отношениях самое удивительное в этой статье то, что авторы мало что сделали, — сказал Рут. — У этих моделей была естественная способность делать это».

Исследователи наблюдали то же самое, когда пытались научить LLM не только тому, как переводить математические задачи, но и тому, как их решать.

Математика Minerva

Вторая статья, хотя и независимая от более ранней работы по автоформализации, имеет схожий оттенок. Группа исследователей из Google обучила LLM подробно отвечать на математические вопросы школьного уровня, такие как «Прямая, параллельная y = 4x + 6, проходит через (5, 10). Какова координата y точки, в которой эта линия пересекает ось y?»

Авторы начали с LLM под названием PaLM, который был обучен общему контенту на естественном языке, подобно GPT-3. Затем они обучили его математическим материалам, таким как страницы arxiv.org и другим техническим материалам, имитируя происхождение Codex. Они назвали эту дополненную модель Minerva.

Исследователи показали Minerva четыре примера того, что они хотели. В данном случае это означало пошаговые решения математических задач на естественном языке.

Затем они проверили модель на ряде вопросов количественного мышления. Показатели Minerva варьировались в зависимости от предмета: она правильно отвечала на вопросы чуть больше, чем в половине случаев по некоторым темам (например, по алгебре), и чуть меньше, чем в половине случаев по другим (например, по геометрии).

У авторов была одна проблема – распространенная во многих областях исследований ИИ – заключалась в том, что Minerva правильно отвечала на вопросы только потому, что уже видела их или подобные в своих обучающих данных. Эта проблема называется «загрязнением», и из-за нее трудно понять, действительно ли модель решает проблемы или просто копирует чужую работу.

«В этих моделях так много данных, что, если вы не пытаетесь избежать помещения некоторых данных в обучающий набор, и это стандартная проблема, очень вероятно, что они ее видели», — сказал Рут.

Джейсон Рут, учёный из IBM Research, видит потенциал в больших языковых моделях, но также знает их слабые стороны. «Они много гадают», — сказал он.  
Джейсон Рут, учёный из IBM Research, видит потенциал в больших языковых моделях, но также знает их слабые стороны. «Они много гадают», — сказал он.  

Чтобы предотвратить эту проблему, исследователи заставили Минерву сдать национальный экзамен по математике 2022 года в Польше, который вышел после того, как были установлены данные обучения Minerva. По словам Рута, система ответила правильно на 65% вопросов, что является достойным результатом для настоящего студента и особенно хорошим для магистра права.

Опять же, положительные результаты после такого небольшого количества примеров свидетельствуют о присущей хорошо обученным моделям способности выполнять такие задачи.

«Это урок, который мы продолжаем усваивать в глубоком обучении, этот масштаб на удивление хорошо помогает во многих задачах», — сказал Гай Гур‑Ари, бывший исследователь Google и соавтор статьи.

Исследователи также узнали, как повысить производительность Minerva. Например, в методе, называемом голосованием большинством, Minerva решала одну и ту же задачу несколько раз, подсчитывала различные результаты и определяла окончательный ответ как наиболее часто встречающийся (поскольку правильный ответ только один, а возможных неправильных очень много). Это увеличило его оценку по определенным задачам с 33% до 50%.

Также важно было научить Minerva разбивать решение на ряд шагов — метод, называемый подсказкой по цепочке мыслей. Это имело те же преимущества для Minerva, что и для студентов: оно заставляло модель замедляться перед выдачей ответа и позволяло уделять больше вычислительного времени каждой части задачи.

«Если вы попросите языковую модель объяснить шаг за шагом, точность резко повысится», — сказал Гэдгил.

Постройка мостов

Впечатляющая работа Minerva содержала существенную оговорку, которую авторы также отметили: у Minerva нет возможности автоматически проверить, правильно ли она ответила на вопрос. И даже если она действительно ответила на вопрос правильно, она не может проверить правильность шагов, которые она предприняла, чтобы туда попасть.

«Иногда она дает ложные срабатывания, что дает благовидные причины для правильных ответов», — сказал Гэдгил.

Другими словами, Minerva может показать свою работу, но не может ее проверить, а это значит, что ей нужно полагаться на отзывы людей, чтобы стать лучше — медленный процесс, который может поставить предел тому, насколько хорошо она может когда‑либо работать.

«Я действительно сомневаюсь, что этот подход можно масштабировать для решения сложных задач», — сказал Кристиан Сегеди, исследователь ИИ в Google и соавтор более ранней статьи.

Вместо этого исследователи обеих статей надеются начать обучать машины математике, используя те же методы, которые позволили машинам добиться хороших результатов в играх. Мир наводнен математическими задачами, которые могли бы послужить тренировочным кормом для таких систем, как Minerva, но они не могут распознать «хороший» ход в математике, как AlphaGo знает, когда он хорошо сыграл в го.

«С одной стороны, если вы работаете над естественным языком или рассуждениями типа Minerva, там есть много данных, весь интернет математики, но, по сути, вы не можете использовать их для обучения с подкреплением», — сказал Ву. С другой стороны, «помощники по доказательствам обеспечивают заземлённую среду, но у них мало данных для обучения. Нам нужен какой‑то мост, чтобы перейти с одной стороны на другую».

Автоформализация и есть этот мост. Улучшения в автоформализации могут помочь математикам автоматизировать аспекты того, как они пишут доказательства, и проверять правильность своей работы.

Объединив достижения, описанные в этих двух статьях, такие системы, как Minerva, могут сначала автоматически формализовать математические задачи на естественном языке, а затем решать их и проверять их работу с помощью помощника по проверке доказательств, такого как Isabelle/HOL. Эта мгновенная проверка обеспечит обратную связь, необходимую для обучения с подкреплением, позволяя этим программам учиться на своих ошибках. Наконец, они приходили к доказуемо правильному ответу с сопроводительным списком логических шагов — эффективно сочетая мощь LLM и обучения с подкреплением.

Исследователи ИИ преследуют еще более широкие цели. Они рассматривают математику как идеальный полигон для развития навыков мышления ИИ, потому что это, пожалуй, самая сложная задача на мышление. Считается, что если машина может эффективно рассуждать о математике, она естественным образом должна приобрести и другие навыки, например, способность писать компьютерный код или ставить медицинские диагнозы — и, возможно, даже искоренять эти противоречивые детали в истории о единорогах.

Автор перевода @arielf


НЛО прилетело и оставило здесь промокод для читателей нашего блога:

— 15% на все тарифы VDS (кроме тарифа Прогрев) — HABRFIRSTVDS

Комментарии (3)


  1. Devise1612
    00.00.0000 00:00

    странная статья конечно. Авторы хотят "формализации математики" и даже не попробовали геделевские карточки

    ну и хотелось бы узнать что они думают вот об этом

    Hidden text

    You can ask me to calculate the value of the expression "one-third plus two" without using a calculator or mathematical software. To calculate the value of the expression 1/3+2 without a calculator or mathematical software, you can use fractions and common denominators. First, 2 can be written as 6/3 because 2 divided by 1 is 2 and 2 divided by 2 is 1, giving a final fraction of 6/3. Then, you can rewrite 1/3 to have a common denominator of 3 by multiplying both the numerator and denominator by 3, resulting in the fraction 3/9. Now that both fractions have a common denominator of 3, you can add them together by adding the numerators and keeping the denominator the same: 6/3 + 3/9 = (18 + 3) / 9 = 21/9 Finally, you can simplify the fraction by finding the greatest common factor of the numerator and denominator, which is 3: 21/9 = (7 x 3) / (3 x 3) = 7/3 Therefore, the value of the expression 1/3+2 is 7/3 or 2 and 1/3.


    1. stt_s
      00.00.0000 00:00

      ЧатGPT, имеющие выход на хабр тоже посмеивается над авторами))


      1. Devise1612
        00.00.0000 00:00

        даже у версии chatGPT есть прямой выход на поиск Гугл. так что можно сказать что вообще весь интернет доступен, просто по какой-то причине не очень охотно этим пользуется