Я распечатал доклад, стараясь не поломать авторскую речь и мысль. Но всё таки доклад не читался, а произносился по памяти и слайдам, поэтому несколько слов убрал или заменил. Доклад на полчаса, выложу в двух частях.

Представление - Доктор физико-математических наук, профессор РАН, генеральный директор института AIRI, декан факультета искусственного интеллекта МГУ Иван Оселедец с докладом «Успехи и проблемы больших языковых моделей».

Дальше говорит Оселедец.

Да, всем доброе утро. На самом деле у меня будет такое, с одной стороны, рассказ действительно об успехах, некоторые анонсы нашего института, и в конце я немножко порассуждаю о проблемах, которых много, и над чем, собственно, мы думаем, над чем работаем, какие были получены в этом году результаты. В целом, на самом деле, институт и наши сотрудники неплохо поработали в этом году. У нас мы считали 93 статьи на конференции, то есть больше, чем все остальные центры которые этим занимаются что приятно, но конечно статьи не является самой целью, у нас довольно много практических историй.

Если переходить к докладу, то недавно вышло интервью Андрея Карпаты. Очень интересный, кто не видел, посмотрите. Полтора часа, и не суммаризация . Много интересных мыслей. Одна из мыслей, за которую я так зацепился, которая была не очень очевидна.

Иногда говорят, что языковые модели просто запоминают. Мы долго-долго объясняли, как работают языковые модели, что есть этап предобучения, мы сгружаем все данные из интернета и обучаем модель. Наконец-то general public, если говорить по-английски, обыватели поняли это, это хорошо. Но, с другой стороны, поняли все равно многие неправильно.

И стали появляться такие сообщения, что вообще, смотрите, языковая модель, она обучается в основном на Реддите и Википедии. Ну как она может быть вообще искусственным интеллектом? Ясно, что она просто запоминает всякий мусор и вам его воспроизводит в поиске. Такое мнение, на самом деле, встречается довольно часто.

И теперь, после того, как мы объяснили, как это все работает, надо будет объяснять, что вы все неправильно поняли. На самом деле языковая модель берет действительно огромное количество текстов. Если мы говорим просто про текст, если мы добавим туда картинки и видео, объем вырастет еще больше, но это порядка 100-300 терабайт, то есть это сотни терабайт. Если вы посмотрите даже на большие модели, которые сейчас выходят, то есть модели, в которых триллионы параметров.

Гигачат, который выложили вчера в открытый доступ, флагманская модель, это 70 миллиардов. То есть на самом деле весь мир сейчас где-то вокруг 20-30-70 миллиардов. Есть модели, такие бегемотики, в которых сотни гигабайт, сотни миллиардов параметров. Но все-таки фактически что происходит? Вы на вход им даете 300 терабайт параметров. ну или там 300 триллионов токенов, на выходе получаете 20 миллиардов параметров.

То есть на самом деле это колоссальное сжатие, довольно такой шумный выбор, если вы возьмете какой-нибудь случайный кусочек текста из предобучения, даже после всей очистки, вы на самом деле не поймете действительно, как эти модели учатся, но вот они на самом деле занимаются таким огромным колоссальным сжатием.

И если мы опять же говорим об успехах, то, наверное, основным успехом является то, что сообщество, исследователи и компании поняли, что есть достаточно понятный путь масштабирования. То есть как нам системно улучшать качество работы таких моделей?

То есть мы собираем больше данных, чистим данные, доразмечаем данные, запускаем новое обучение и под это выпускается новое железо мы можем делать это все более и более эффективно - возникает новый алгоритм и я про это пару слов скажу.

То есть это такое одновременное развитие, но это все в общем-то масштабирование одной архитектуры трансформеров, которая оказалась ну такой успешной хотя у нее действительно есть проблемы, я про это сегодня поговорю и в общем-то много разных аналогий можно приводить.

Ну вот такая вот наверное самая радикальная что ли аналогия, это аналогия с дирижаблями. То есть когда стали строить дирижабли, в какой-то момент поняли, что их можно масштабировать, то есть сделать больше и тяжелее, и тогда они перевозят больше народу, становятся более эффективными, а потом в какой-то момент придумали самолеты, и дирижабли стали неактуальны.

Сейчас кажется, что мы хорошо научились масштабировать трансформеры, и в ближайшие несколько лет этот тренд точно будет продолжаться. Но уже, опять же, если посмотреть на исследования и на тренды, все пытаются придумать то, что называется next-gen AI, а как все-таки нужно, имея тот огромный опыт, который мы накопили с большими языковыми моделями, использовать уже для создания трендов, чего-то более быстрого, более компактного и так далее.

Я тоже про это рассуждаю. Если кто не в курсе, примерные цифры, как это все происходит. Не сразу запускается обучение супербольшой модели. Сначала делаются тысячи экспериментов на маленьких моделях. Порядка трех миллиардов. Если кто хочет обучать своей модели, вам нужно как минимум 512 карточек для 3D-моделей и сидеть, мучиться с ними.

Дальше масштабирование написано на слайде. Но, в общем, понятно, что речь идет о том, что это тысяча GPU, и, в общем-то, надо сделать огромное количество экспериментов на первом шаге для того, чтобы уже все-таки перевести в такое большое предобучение, которое занимает месяцы. Это то, где мы есть сейчас, и каких-то, на самом деле, больших альтернатив пока не придумано, опять же, хотя все думают. То есть, если было бы просто, кто-нибудь напридумывал и выполнял.

Опять, успехи связаны как раз с тем, что все закупили очень много карточек, кто смог. Ну, вот здесь (на слайдах) показаны США, Китай и Европа. Это все оценки по порядку величин, потому что точных цифр мы не знаем, особенно в Китае. Но я думаю, что они близки к реальными, то есть цифры в Америке.

Есть открытые данные, то есть OpenAI – это миллион граф-карт (графических карт). В Китае это точно сотни тысяч граф-карт. В Европе сейчас самый большой кластер – порядка 30 тысяч граф-карт. То есть в целом подход, что давайте купим больше железа, соберем больше данных, он пока прекрасно работает, и те, у кого есть ресурсы, все этим пользуются. Для развития как раз фундаментальных моделей. При этом очень важно, что это не только развитие.

Появилось огромное количество относительно маленьких или каких-то более важных алгоритмических улучшений, то есть улучшенный оптимизатор. Здесь написано «Леон София», конечно, важно сказать про «Мион», который стал таким важным оптимизатором для многих современных моделей, плюс 15-20%.

Flash Attention, когда появилось, ускорил и обучение Inference. И всякие штуки, связанные с оптимизацией, коммуникаций. И, конечно же, Mixture of Experts. Это все архитектурные улучшения, которые оставляют нас в парадигме трансформеров, но ускоряют на 10%, на 20%.

И вот если вы, например, просто посмотрите на стоимость одного токена, то она за год почти, ну чуть-чуть больше, она упала порядка 10 раз. То есть если стоимость токена падает в 10 раз, это означает, что мы можем осуществлять inference в 10 раз быстрее. То есть алгоритмы тоже развиваются. Казалось бы, почему если алгоритмы развиваются и тоже ускоряют, зачем закупается такое количество GPU? Оказывается, что вот этот первый шаг, тысяча разных экспериментов по разным архитектурам, вы можете делать просто этих экспериментов больше.

То есть у вас не один дорогостоящий запуск, в котором вы пытаетесь обучить свою модель, а вы сначала перебираете тысячу вариантов на маленьком масштабе, потом уже масштабируете это в супербольшой запуск. То есть пока количество вариантов, которые нам еще предстоит перебрать, оно сильно больше тех вычислительных ресурсов, которые у нас есть.

Опять же, хочется, конечно, чтобы мы не использовали супербольшого числа GPU и придумать какую-нибудь замечательную идею. Опять же, идеи такие появляются. То есть та же самая работа DeepSeek, которая сделала доступным технологии ризенинга, сильно прокачала всю эту историю. А это, на секундочку напомню, это 2025 год, этот год — февраль. Окажется, что это было настолько давно, что уже прошло огромное количество времени.

Одно из направлений развития больших языковых моделей – это скейлинг, алгоритмические улучшения как на уровне математики, так и на уровне низкоуровневых оптимизаций. Там много где можно выиграть. И закупка нового железа. Это одно из направлений. Приближает ли это нас к созданию сильного искусственного интеллекта?

На мой взгляд, абсолютно нет. То есть вот эта история, связанная с большими притрейнами, она в некотором смысле насыщается. Надо сделать какой-нибудь аловерды, наверное, к началу сегодняшнего дня. Была совершенно замечательная сессия, связанная с обсуждений.

Там были ребята, которые в Олимпиадах участвовали. Вот сейчас мы примерно находимся на уровне того, что делаем из больших моделей, языковых моделей, олимпиадников. Они быстро умеют решать задачи, у которых известно решение.

То есть мы учим их на бенчмарках. Вот, кстати, поэтому, так как я никогда не участвовал в математических олимпиадах, я немножко как-то злословлю в этот момент. Мне кажется, это очень важно. То есть олимпиадное движение очень полезно, но спорт высоких достижений не имеет отношения к здоровью нации. То же самое олимпиадное движение не имеет отношения к науке, потому что олимпиадные задачи – это те задачи, которые кто-то уже решил.

Их можно решить за два часа. Ну, или за пять часов, или сколько там дают. А научная задача — это которая, скорее всего, решения не имеет в большинстве случаев, и которую нужно решать долго. Так вот, мне кажется, как бы вот путь — это путь не только наш, это путь, который достаточно известными китайскими учёными пропагандируют, что путь к сильному искусственному интеллекту или суперинтеллекту решит через попытки создания систем, решающих те задачи, которые, первое, очень важны, для экономики, для человечества.

Второе, мы не знаем, как решать. Ну вот здесь приведены некоторые примеры. Это, в первую очередь, медицина, поиск новых материалов, это лекарства. Это, на самом деле, задачи, связанные с дизайном, с проектированием. Кто имеет дело со стройкой, с ремонтом, понимает, что это очень сложная задача. И когда ты берешь действительно сложные задачи и пытаешься условно чат GPT, гигачат что-то спросить, он тебе быстро дает правдоподобный ответ, который, скорее всего, абсолютно бессмысленный.

И здесь возникает вопрос: а что делать? Как, например, этот вопрос решали в медицине? В медицине решали его достаточно просто: давайте соберем все учебники, давайте соберем все экзаменационные вопросы и научим эти модели сдавать экзамены. То есть, Гигачат прекрасно прошел медицинские экзамены, сдал специальности. Означает ли это, что такие системы могут быть работать врачом? Ответ — нет.

Почему? Потому что экзаменационные вопросы не имеют никакого отношения к сложной реальной практике, которая представляет собой действительно такой резонинг, клиническое мышление, а таких данных, если они есть, это не миллионы примеров, это просто десятки, сотни примеров. Мы на самом деле над этим активно работаем, у нас есть достаточно прикольные результаты на эту тему.

Это примерно половина доклада, выложу и вторую часть. Слайдов не нашёл, да они в общем то мало чего добавляют к тексту.

Комментарии (0)