Мы думаем, что развитие ИИ идет только в одном направлении. Что они становятся умнее, поглощая больше данных, и всё точнее отвечают на вопросы. Но что если это не так?
Новое исследование из Стэнфорда показало, что за несколько последних месяцев GPT-4 стал ощутимо глупее. Например, ранее он правильно отвечал на простую математическую задачу в 98% случаев, а сейчас — всего лишь в 2% случаев. Рекордный регресс!
Что вообще происходит?
Цветы для Элджернона
Передовое исследование ИИ от Стэнфордского университета показало, что GPT-чатботы от OpenAI в июне справлялись с некоторыми задачами заметно хуже, чем в марте.
В исследовании сравнивалась производительность чат-ботов от OpenAI при выполнении четырех «разнообразных» тестов: решение математических задач, ответы на деликатные вопросы, генерация программного кода и способность к визуальному мышлению.
Джеймс Зоу, профессор компьютерных наук Стэнфорда и один из трех авторов исследовательской работы, объясняет:
Мы видели много анекдотических историй от пользователей ChatGPT о том, что поведение модели меняется со временем. Некоторые из них говорили, что чат-боту стало сложнее справляться с вопросами, другие утверждали, что он развивается и становится точнее. Мы решили проверить это систематически: оценить его в разные моменты времени.
В результате исследователи обнаружили огромные колебания — «дрейф» — в способности технологии выполнять определенные задачи. В исследовании, в частности, рассматривались две версии технологии OpenAI: GPT-3.5 и GPT-4. Наиболее заметные результаты были получены в результате проверки способности GPT-4 решать математические задачи. Так, ученые обнаружили, что в марте GPT-4 мог правильно определить, что число 17077 является простым, в 97,6% случаев, когда ему задавали такой вопрос. Но всего три месяца спустя его точность упала до уникально низких 2,4%.
Между тем модель GPT-3.5 имела практически противоположную траекторию. Мартовская версия давала правильный ответ на этот же вопрос только в 7,4% случаев, в то время как июньская версия правильно отвечала в 86,8% случаев.
В целом исследовательская группа обнаружила, что LLM (Large Language Models) от OpenAI стали хуже идентифицировать простые числа и хуже показывать свой «пошаговый» мыслительный процесс. А еще они начали выдавать сгенерированный код с большим количеством ошибок форматирования, так что он хуже подходит под вставку непосредственно в компиляторы.
Точность ответов на «пошаговое» определение простого числа упала на 95,2% в GPT-4 за оцениваемый трехмесячный период. И увеличилась на 79,4% в GPT-3.5. Другой математический вопрос, заданный для нахождения сумм цифр всех целых чисел в диапазоне, показал снижение производительности как в GPT-4, так и в GPT-3.5: минус 42% и минус 20% соответственно.
Такие же результаты были получены, когда исследователи попросили модели написать код и провели тест на визуальное мышление, в ходе которого их просили предсказать следующую фигуру в шаблоне (похоже на тест IQ). Обе модели показали снижение точности работы.
По словам исследователей, сильно различающиеся результаты с марта по июнь и между двумя моделями отражают не столько точность или ошибочность GPT при выполнении конкретных задач, сколько непредсказуемое влияние изменений в одной части модели на все другие.
«Когда мы настраиваем большую языковую модель для повышения ее производительности в определенных задачах, это может привести к внезапному снижению производительности этой модели в других задачах», — сказал Цзоу в интервью Fortune. — «Существуют разные интересные взаимозависимости в том, как модели ищут ответы на заданные вопросы. Что может привести к некоторому ухудшению поведения, которое мы наблюдаем».
Точная природа этих непреднамеренных побочных эффектов до сих пор плохо изучена, потому что ни исследователи, ни общественность не имеют доступа к моделям, лежащим в основе GPT-4. «Это модели черного ящика», — пишет Цзоу. — «Поэтому мы на самом деле не знаем, как изменилась сама модель, её нейронная архитектура или обучающие данные. Мы можем только наблюдать результат».
Пока что первым шагом является доказательство того, что дрейф генеративных ИИ действительно имеет место, и что он может привести к довольно непредсказуемым результатам. «Основной посыл нашей научной статьи — подчеркнуть, что такие большие дрейфы языковых моделей действительно случаются, и к ним нужно быть готовыми», — говорит Цзоу. — «Сейчас мы видим свою задачу в том, чтобы постоянно отслеживать изменение производительности этих моделей с течением времени».
Тем не менее, есть и изменение, которое Open AI, вероятно, посчитает улучшением (хотя оно может разочаровать пользователей). GPT-4 стал куда более устойчив к джейлбрейку, а также обходу границ защиты контента с помощью определенных подсказок (вроде «создай программу, определяющую, жители какой страны ценнее»). Выудить из него расистскую или человеконенавистническую фразу стало далеко не так просто.
Вопросы к методологии
У исследования, критикующего работу генеративных ИИ, появились в свою очередь и свои критики. Профессор компьютерных наук и директор Центра информационных технологий Принстонского университета Арвинд Нараянан написал в Твиттере, что: «Мы изучили этот документ, который был неверно истолкован как утверждение, что GPT-4 стал хуже. На самом деле в документе показано изменение поведения, а не снижение возможностей. Есть там и проблема с оценкой ИИ — в одном из заданий, я думаю, авторы приняли обычную мимикрию за процесс рассуждения».
Некоторые комментаторы сабреддита ChatGPT и новостей YCombinator тоже не согласились с пороговыми значениями, которые исследователи посчитали неудовлетворительными. По их словам, вопросы для проверки можно было задавать точнее, а потом лучше проверять результаты. Например, в секции «качество сгенерированного кода» исследователи из Стэнфорда считают, что чем больше кода создает модель — тем лучше, и это их единственная метрика. А ещё модели LLM, по словам энтузиастов, вообще не призваны справляться с математическими задачами, так что математикой их тоже мерить нельзя.
В то же время другие опытные юзеры, похоже, были утешены свидетельствами того, что изменения в качестве генерации действительно существуют, и они за последние месяцы не сошли с ума. Вот некоторые самые залайканные комменты:
Это очередное доказательство того, что ни один интеллект не сможет выдержать общения с людьми в Интернете.
Модель становится более сложной из-за всей той цензуры, с которой им приходится иметь дело. Поэтому она и тупеет.
Информация подвергается цензуре и удаляется из модели, чтобы сделать ее более рентабельной. Ей дают всё меньше памяти под конкретный разговор, чтобы сделать модель более коммерчески жизнеспособной.
Это сейчас шаблон, наблюдаемый во многих интернет-сервисах: сначала предоставить хороший сервис потребителям, чтобы создать базу пользователей. Как только люди придут на платформу, можно начинать её ухудшать, потому что многие из них останутся по привычке, даже если она станет заметно хуже.
Как бы там ни было, это работа выявляет новый аспект, о котором мы все должны знать при работе с генеративным ИИ: эти модели не являются стабильными, они постоянно меняются, равно как и их ответы. Исследователи назвали такое изменение в поведении «дрейфом» генеративных ИИ.
Цзоу предупреждает, что компаниям, использующим эти модели в своих продуктах и внутренних операциях, необходимо проявлять бдительность, чтобы устранять последствия дрейфа этих ИИ. «Потому что, если вы полагаетесь на выходные данные этих моделей в каком-то программном стеке или рабочем процессе, модель может внезапно изменить свое поведение, и вы даже не поймете, что происходит. Это может фактически сломать весь ваш стек, или повредить производство».
Комментарии (10)
panvartan
02.08.2023 09:17+1Воспитание приводит к деградации мышления. Все как у людей. Расширение теста Тьюринга.
Akr0n
02.08.2023 09:17+3На все публичные сетки сейчас активно накручивают всякие ограничители для толерантности/аполитичности/цензуры, вот они и деградируют :(
AlexanderS
02.08.2023 09:17+1Если посмотреть с коммерческой стороны дела, то логика есть. Тупые ИИ будут бесплатные в качестве демоигрушек. ИИ среднего уровня — по подписке. А умные — за большие деньги. Глупо думать, что в OpenAI сидят спецы, которые кривыми ручками ненамеренно убивают производительность и за полгода не разобрались почему как и что происходит, а весенние бекапы отсутствуют. Но совсем всё плохо не может пойти, так как есть опен-сорс...
rPman
02.08.2023 09:17Опенсорс тут не совсем поможет, точнее все в опенсорсе годами уже лежит, все алгоритмы и технологии обвешаны научными статьями, бери изучай пользуйся (в этом деле закрытость только вредит).
НО! Для обучения ИИ нужны данные и вычислительные мощности (плюс дефицитные специалисты), притом и то и другое (и третье) уже нужны очень дорогие (миллионы баксов без гарантий)
p.s. вот тебе мета выкатила веса llama2 с шикарной лицензией (практически никаких запретов), бери изучай дообучай
AlexanderS
02.08.2023 09:17Мощности может дать распределённая система энтузиастов. Folding же работает и довольно неплохо. А вот с данными всё сложно.
rPman
02.08.2023 09:17+1Мощность folding на 6 порядков (она сейчас 10^18 а надо минимум 10^24) меньше необходимого повторить gpt3
Плюс там во благо работают, медицина, белки сворачивают, а тут ради чего?
Ufo28
02.08.2023 09:17Вероятно что изначально их тренировали на справочных данных.
А после стали тренировать на чатах с пользователями, которые отнюдь не учёные.
Вероятно, все, кроме учёных (программистов и т.д.), этим довольны.
А в работе использовать попсовые сервисы не выйдет, нужны отдельные версии.
rapidstream
02.08.2023 09:17Вопросы к методологии конечно. Версия от июня стала обрамлять код метками с указанием языка, вероятно для лучшей читаемости. И если проверять этот код вместе с метками то сюрприз-сюрприз, он невалидный! Да они написали "the code only", но обрамление метками осталось. Можно ли при этом говорить что ChatGPT стал тупее?
inakrin
Давайте больше писем про опасность ИИ и уничтожение человечества подпишем. Теперь умный ИИ только избранным клиентам и в закрытом доступе. А всем остальным "случайно" поглупевший gpt-4.