Путь к созданию современных передовых систем искусственного интеллекта был в большей степени связан с созданием более крупных систем, чем с совершением научных прорывов.
На протяжении большей части истории искусственного интеллекта (ИИ) многие исследователи ожидали, что для создания действительно эффективных систем потребуется длинная серия научных прорывов: революционные алгоритмы, глубокое понимание человеческого познания или фундаментальные достижения в нашем понимании мозга. Хотя научные достижения сыграли свою роль, недавний прогресс ИИ выявил неожиданное понимание: многие из недавних улучшений возможностей ИИ произошли просто за счет масштабирования существующих систем ИИ.
Здесь масштабирование означает развертывание большей вычислительной мощности, использование более крупных наборов данных и построение более крупных моделей. Этот подход работает на удивление хорошо до сих пор. Всего несколько лет назад современные системы ИИ с трудом справлялись с такими базовыми задачами, как подсчет. Сегодня они могут решать сложные математические задачи, писать программное обеспечение, создавать чрезвычайно реалистичные изображения и видео, а также обсуждать академические темы.
Что такое масштабирование в моделях ИИ?
Что означает масштабирование в ИИ. Масштабирование заключается в увеличении трех основных вещей во время обучения, которые обычно должны расти вместе:
Объем данных, используемых для обучения ИИ;
Размер модели, измеряемый в «параметрах»;
Вычислительные ресурсы, часто называемые «вычислениями» в ИИ.
Идея проста, но эффективна: более крупные системы ИИ, обученные на большем количестве данных и использующие больше вычислительных ресурсов, как правило, работают лучше . Даже без существенных изменений в алгоритмах этот подход часто приводит к лучшей производительности во многих задачах.
Вот еще одна причина, по которой это важно: по мере того, как исследователи масштабируют эти системы ИИ, они не только совершенствуются в задачах, которым их обучали, но иногда могут привести к тому, что они разовьют новые способности, которых у них не было в меньших масштабах. Например, языковые модели изначально испытывали трудности с простыми арифметическими тестами, такими как сложение трехзначных чисел, но более крупные модели могли легко с ними справляться, как только достигали определенного размера. Переход не был плавным, постепенным улучшением, а более резким скачком возможностей.
Этот резкий скачок возможностей, а не устойчивое улучшение, может вызывать беспокойство. Например, если модели внезапно начнут проявлять неожиданное и потенциально опасное поведение просто в результате увеличения, предвидеть и контролировать это будет сложнее.
Поэтому отслеживание этих показателей становится важным.
Каковы три компонента масштабирования моделей ИИ?
Данные: масштабирование обучающих данных
Один из способов рассматривать сегодняшние модели ИИ — рассматривать их как очень сложные системы распознавания образов. Они работают, выявляя и обучаясь на статистических закономерностях в тексте, изображениях или других данных, на которых они обучаются. Чем больше данных имеет модель, тем больше она может узнать о нюансах и сложностях области знаний, в которой она предназначена для работы.
В 1950 году Клод Шеннон построил один из самых ранних примеров «ИИ»: роботизированную мышь по имени Тесей, которая могла «запоминать» свой путь через лабиринт с помощью простых релейных цепей. Каждая стена, на которую натыкался Тесей, становилась точкой данных, что позволяло ему выучить правильный маршрут. Общее количество стен или точек данных составило 40. Вы можете найти эту точку данных на диаграмме; она первая.
В то время как Тесей хранил простые двоичные состояния в релейных схемах, современные системы ИИ используют обширные нейронные сети, которые могут изучать гораздо более сложные закономерности и взаимосвязи и, таким образом, обрабатывать миллиарды точек данных.
Все последние известные модели ИИ — особенно крупные, самые современные — опираются на огромные объемы обучающих данных. С осью Y, отображенной в логарифмическом масштабе, диаграмма показывает, что данные, используемые для обучения моделей ИИ, выросли экспоненциально. От 40 точек данных для Theseus до триллионов точек данных для крупнейших современных систем чуть более чем за семь десятилетий.
С 2010 года данные по обучению удваивались примерно каждые девять-десять месяцев. Вы можете увидеть этот быстрый рост на графике, показанном фиолетовой линией, простирающейся от начала 2010 года до октября 2024 года, последней точки данных.
В частности, наборы данных, используемые для обучения больших языковых моделей, демонстрируют еще более быстрый темп роста, увеличившись в размере втрое каждый год с 2010 года . Большие языковые модели обрабатывают текст, разбивая его на токены — основные единицы, которые модель может кодировать и понимать. Токен не соответствует напрямую одному слову, но в среднем три английских слова соответствуют примерно четырем токенам.
По оценкам, GPT-2, выпущенный в 2019 году, был обучен на 4 миллиардах токенов, что примерно эквивалентно 3 миллиардам слов. Для сравнения, по состоянию на сентябрь 2024 года английская Википедия содержала около 4,6 миллиарда слов. Для сравнения, GPT-4, выпущенный в 2023 году, был обучен на почти 13 триллионах токенов, или около 9,75 триллиона слов. Это означает, что данные обучения GPT-4 были эквивалентны более чем в 2000 раз большему объему текста всей английской Википедии.
Поскольку мы используем больше данных для обучения систем ИИ, в конечном итоге у нас могут закончиться высококачественные материалы, созданные человеком, такие как книги, статьи и исследовательские работы. Некоторые исследователи предсказывают, что мы можем исчерпать полезные учебные материалы в течение следующих нескольких десятилетий. Хотя сами модели ИИ могут генерировать огромные объемы данных, обучение ИИ на материалах, созданных машиной, может создать проблемы, сделав модели менее точными и более повторяющимися.
Параметры: увеличение размера модели
Увеличение объема обучающих данных позволяет моделям ИИ обучаться на гораздо большем объеме информации, чем когда-либо прежде. Однако для того, чтобы улавливать закономерности в этих данных и эффективно обучаться, моделям нужны так называемые «параметры». Параметры немного похожи на ручки, которые можно настраивать, чтобы улучшить то, как модель обрабатывает информацию и делает прогнозы. По мере роста объема обучающих данных моделям требуется больше возможностей для захвата всех деталей обучающих данных. Это означает, что для более крупных наборов данных обычно требуется, чтобы у моделей было больше параметров для эффективного обучения.
Ранние нейронные сети имели сотни или тысячи параметров. Благодаря своей простой схеме обучения лабиринту Тесей был моделью всего с 40 параметрами — эквивалентно количеству стен, с которыми он столкнулся. Современные крупные модели, такие как GPT-3, могут похвастаться 175 миллиардами параметров. Хотя сырое число может показаться большим, это примерно соответствует 700 ГБ, если хранить его на диске, что легко поддается обработке на современных компьютерах.
На диаграмме показано, как количество параметров в моделях ИИ резко возросло с течением времени. С 2010 года количество параметров моделей ИИ примерно удваивалось каждый год. Наибольшее расчетное количество параметров, зарегистрированных Epoch, составляет 1,6 триллиона в модели QMoE.
Хотя более крупные модели ИИ могут делать больше, они также сталкиваются с некоторыми проблемами. Одна из основных проблем называется «переобучение». Это происходит, когда ИИ становится «слишком оптимизированным» для обработки конкретных данных, на которых он был обучен, но испытывает трудности с новыми данными. Чтобы бороться с этим, исследователи используют две стратегии: внедрение специализированных методов для более обобщенного обучения и расширение объема и разнообразия данных обучения.
Вычисления: масштабирование вычислительных ресурсов
По мере того, как модели ИИ растут в данных и параметрах, им требуется экспоненциально больше вычислительных ресурсов. Эти ресурсы, обычно называемые «вычислениями» в исследованиях ИИ, обычно измеряются в общем количестве операций с плавающей точкой («FLOP»), где каждая FLOP представляет собой одно арифметическое вычисление, например, сложение или умножение.
Вычислительные потребности в обучении ИИ со временем кардинально изменились. При скромном количестве данных и параметров ранние модели могли обучаться за часы на простом оборудовании. Сегодняшние самые продвинутые модели требуют сотен дней непрерывных вычислений, даже с десятками тысяч специализированных компьютеров.
На диаграмме показано, что вычисления, используемые для обучения каждой модели ИИ (показаны на вертикальной оси), постоянно и экспоненциально увеличивались за последние несколько десятилетий. С 1950 по 2010 год вычисления удваивались примерно каждые два года. Однако с 2010 года этот рост резко ускорился, теперь удваиваясь примерно каждые шесть месяцев, при этом самая интенсивная по вычислительным ресурсам модель достигла 50 миллиардов петафлопс.
Чтобы представить этот масштаб в перспективе, одна высокопроизводительная видеокарта, такая как NVIDIA GeForce RTX 3090, широко используемая в исследованиях в области искусственного интеллекта, работая на полной мощности в течение целого года, выполнила бы всего 1,1 миллиона петафлоп вычислений . 50 миллиардов петафлоп — это примерно в 45 455 раз больше.
Достижение вычислений такого масштаба требует больших энергетических и аппаратных инвестиций. Обучение некоторых из последних моделей оценивается в сумму до 40 миллионов долларов , что делает его доступным только для хорошо финансируемых организаций.
Вычисления, данные и параметры имеют тенденцию масштабироваться одновременно
Вычисления, данные и параметры тесно взаимосвязаны, когда речь идет о масштабировании моделей ИИ. Когда модели ИИ обучаются на большем количестве данных, есть больше вещей, которые нужно изучить. Чтобы справиться с растущей сложностью данных, моделям ИИ, следовательно, требуется больше параметров для обучения на различных особенностях данных. Добавление большего количества параметров в модель означает, что ей требуются больше вычислительных ресурсов во время обучения.
Эта взаимозависимость означает, что данные, параметры и вычисления должны расти одновременно. Сегодняшние крупнейшие публичные наборы данных примерно в десять раз больше, чем то, что большинство моделей ИИ в настоящее время используют, некоторые содержат сотни триллионов слов. Но без достаточных вычислений и параметров модели ИИ пока не могут использовать их для обучения.
Какие выводы мы можем сделать из этих тенденций для будущего ИИ?
Компании ищут крупные инвестиции для разработки и масштабирования своих моделей ИИ, уделяя все больше внимания генеративным технологиям ИИ . В то же время ключевое оборудование, используемое для обучения — графические процессоры — становится намного дешевле и мощнее, а вычислительная скорость удваивается примерно каждые 2,5 года на каждый потраченный доллар. Некоторые организации теперь также используют больше вычислительных ресурсов не только для обучения моделей ИИ, но и во время вывода — фазы, когда модели генерируют ответы, — как показано на последней модели o1 OpenAI .
Эти разработки могут помочь создавать более сложные технологии ИИ быстрее и дешевле. По мере того, как компании инвестируют больше денег и необходимое оборудование улучшается, мы можем увидеть значительные улучшения в том, что может делать ИИ, включая потенциально неожиданные новые возможности.
Хорошего дня! заходите на тг канал https://t.me/TradPhronesis
_______
См. также пост: «Как изобрели современный искусственный интеллект. История изнутри»