Привет, Хабр! Меня зовут Руслан Гримов, я Head of ML в проекте idSport в компании Friflex. Мы разрабатываем продукты для оцифровки спорта и используем компьютерное зрение, чтобы организовывать трансляции партий на шахматных турнирах, а также распознавать и записывать интересные моменты в бильярде и футболе.
LLM-агенты связаны с моей работой скорее косвенно, но я вижу в них огромный потенциал и для развития наших продуктов, и для множества других задач. В этой статье собрал десять ярких моментов из истории LLM-агентов. Надеюсь, они помогут понять, какой впечатляющий путь проделали эти системы, и просто вас развлекут.
Как писал Пелевин, «в сущности, функция LLM – это доведенное до немыслимого совершенства автозаполнение. LLM не думает. Она тренируется на огромном корпусе созданных прежде текстов «…» и на этой основе предсказывает, как будет расти и развиваться новая последовательность слов, и как она, вероятней всего, развиваться не будет… Это похоже на процесс формирования юного члена общества на основе ежедневно поступающих вербальных инструкций, подзатыльников и наблюдения за тем, кому дают еду, а кому нет».
Это определение большой языковой модели (LLM) вольное, но довольно точное. LLM — это нейронная сеть, обученная на большом объеме текста. Она может анализировать, понимать и генерировать тексты на естественном языке, использовать обширные базы данных и понимать контекст.
Как развивалась идея о том, что машину можно научить понимать и создавать текст, как будто это пишет человек, расскажу дальше.
1957: Фрэнк Розэнблатт создает перцептрон
Первая попытка научить машину самостоятельно обучаться
В середине прошлого века американский ученый Розэнблатт увлеченно изучал человеческий мозг. Он мечтал создать искусственную модель, которая могла бы имитировать его способность обучаться и распознавать паттерны.
«Рассказы о машинах, обладающих человеческими качествами, давно захватили научную фантастику. Но мы собираемся стать свидетелями рождения такой машины — машины, способной воспринимать, распознавать и идентифицировать свое окружение без обучения или контроля со стороны человека», — писал Розэнблатт в 1958.
Свои идеи ученый изложил в работе «Принцип перцептрона». Перцептроном он назвал устройство, которое моделировало процесс человеческого восприятия. Это была простая модель искусственной нейронной сети. В 1960 году Розэнблат показал, как она работает, на первом в истории нейрокомпьютере «Марк-1».
У этого устройства был своеобразный глаз — матрица фоточувствительных элементов. «Марк-1» умел распознавать некоторые английские буквы и геометрические формы, которые Розэнблатт показывал ему на карточках или на бумаге. Кроме того, компьютер мог изменять весовые коэффициенты связей, чтобы улучшать распознавание после обратной связи о результате.
Конечно, возможности «Марк-1» были весьма скромными. Например, если буквы были частично закрыты или их размер отличался от образцов, по которым обучался компьютер, машина их не узнавала. Но все равно это было значительное достижение для своего времени. Оно заложило основу для дальнейших исследований в области нейронных сетей и искусственного интеллекта.
1965: Джозеф Вайценбаум создает Элизу
Первая система обработки естественного языка
Пока Розэнблатт разрабатывал перцептрон, другой американский ученый, Джозеф Вайценбаум, работал над программой Элиза. Элиза была простым чат-ботом. Она анализировала предложения, которые вводил пользователь, и находила ключевые слова.
Затем Элиза формировала ответы с помощью шаблонов. Программа работала на основе заранее запрограммированных скриптов, которые определяли правила обработки фраз и реакции на них. Самым известным скриптом был DOCTOR. Он пародировал работу психотерапевта в стиле Карла Роджерса.
Часто программа переформулировала фразы собеседника в виде вопросов. Например, если пользователь вводил: «Мне грустно», Элиза могла ответить: «Почему вы думаете, что вам грустно?».
Сам Вайзенбаум хотел показать на Элизе, что общение у людей и машин скорее поверхностное. Но многие действительно чувствовали связь с программой, хотя она была очень простой, и воспринимали ее как интеллектуального собеседника.
Вопросы этики и технологий настолько захватили исследователя, что он написал целую книгу «Сила компьютера и человеческий разум: от суждения к вычислению» — о том, что компьютер не должен заменять человеческое суждение и интеллект.
Элиза даже не была настоящим искусственным интеллектом. Она не понимала смысл вопросов и не могла учиться на своем опыте. Но программа показала, что компьютер может участвовать в осмысленных диалогах на естественном языке.
1970: Марвин Минский и Сеймур Паперт публикуют книгу «Перцептроны»
Начинается «зима искусственного интеллекта»
Профессор Массачусетского технологического Марвин Минский относился к идеям Розенблатта скептически. Ученые периодически публично и горячо спорили о жизнеспособности перцептрона на конференциях. Розенблатт считал, что может научить компьютеры понимать язык, а Минский говорил, что у перцептрона для этого слишком простые функции.
Одними спорами все не ограничилось. Минский вместе с Папертом исследовали математические свойства перцептрона и показали, что он не способен решать целый ряд задач, связанных с инвариантным представлением. Например, читать буквы или цифры, которые по-разному расположены на странице.
Их книга «Перцетроны» вышла в 1970. После публикации интерес к исследованию нейросетей упал настолько, что семидесятые стали называть «зимой искусственного интеллекта». Переместился не только научный интерес, но и субсидии американских правительственных организаций — к радости последователей символьного подхода.
1986: Дэвид Румельхарт и Джеффри Хинтон предложили метод обратного распространения ошибки
Интерес к нейросетям возрождается
Критика перцептрона привела не только к «зиме искусственного интеллекта»: исследователи стали искать более мощные модели. На смену однослойному перцептрону Розэнблатта пришел многослойный.
В статье Learning representations by back-propagating errors («Обучение представлений с помощью обратного распространения ошибки») Румельхарт и Хинтон показали, что многослойный перцептрон справляется с задачами, которые были не под силу его однослойному предшественнику. Например, с XOR.
ХОR — это логическая операция, которая дает значение истина (или 1), если входные значения различаются, и ложь (или 0), если оба входных значения одинаковы.
Таблица истинности для XOR выглядит так:
Вход: 0, 0 → Выход: 0
Вход: 0, 1 → Выход: 1
Вход: 1, 0 → Выход: 1
Вход: 1, 1 → Выход: 0
Однослойный перцептрон мог решать только линейные задачи, а в ХОR данные нельзя разделить по линейному признаку. Многослойный решал ХОR и другие подобные задачи. В том числе, благодаря методу обратного распространения, который предложили Румельхарт и Хинтон.
Метод состоял в том, чтобы итеративно корректировать веса нейронных связей сети и двигаться в этом направлении до тех пор, пока ошибка не станет достаточно маленькой.
Математический аппарат метода обратного распространения ошибки довольно прост. Но он позволил нейронным сетям обучаться на данных значительно сложнее и разнообразнее, чем раньше.
1997: IBM Deep Blue побеждает чемпиона мира по шахматам Гарри Каспарова
Машина смогла превзойти человека в сложной задаче
Шахматы долгое время оставались областью, где царил человеческий интеллект. Пока в 1997 году суперкомпьютер Deep Blue не обыграл Гарри Каспарова.
Это был второй матч машины с действующим чемпионом мира. В первом Deep Blue проиграл.
Исторический матч состоял из шести партий и проходил в Нью-Йорке. Первая партия завершилась победой Каспарова. Во второй шахматист сдался, а третья, четвертая и пятая закончились вничью. Шестая партия продолжалась всего 19 ходов: Каспаров неудачно разыграл дебют, получил плохую позицию и быстро проиграл.
Победа Deep Blue показала, что машины могут превзойти человека в интеллектуально сложных задачах, а еще продемонстрировала возможности машинного обучения и анализа больших данных. Это событие стало источником вдохновения для дальнейших исследований искусственного интеллекта.
Кстати, Каспаров сомневался, что матч был честным: программа играла с перепадами и выбирала нехарактерные ходы. Но мошенничество IBM не было доказано.
2007: IBM представила систему Watson
Она обрабатывала естественный язык и отвечала на вопросы в формате викторины.
Watson еще не был LLM-агентом в современном понимании. Но его архитектура уже включала в себя различные методы анализа и обработки естественного языка. Например, компьютер делил текст на отдельные слова и фразы, а затем преобразовывал их в токены.
Еще Watson умел строить синтаксическое дерево предложения, определять значение и контекст слов и фраз и устанавливать, к какой части речи относится каждое слово.
В 2011 году компьютер отправился на телевикторину Jeopardy и обыграл двух лучших игроков в истории шоу — Кена Дженнингса и Раста Колемана. После этого Watson нашел применение в других отраслях, от финансов до медицины.
2017: инженеры Google описали архитектуру Transformer
Transformer радикально изменила подход к обработке естественного языка и NLP
Ашиш Васвани и его коллеги опубликовали культовую статью Attention Is All You Need (Внимание — все, что вам нужно) и рассказали в ней про архитектуру нейронной сети под названием Transformer.
Раньше преобразованием последовательностей обычно занимались рекуррентные нейросети. Transformer основывалась только на механизмах внимания без рекурсии и сверток. Подробнее об этой архитектуре можно почитать в статье «Как обучают GPT».
О значении Transformer в истории LLM-агентов можно говорить много. Но достаточно будет, что сегодня это доминирующая архитектура нейронных сетей для NLP.
2018: OpenAI представила GPT-1
Архитектура Transformer доказала свою жизнеспособность
GPT-1 — первая в своем роде модель генеративноного предобученного Transformer. Как она работала, Алек Редфорд и его коллеги Open AI описали в статье Improving Language Understanding by Generative Pre-Training («Улучшаем понимание естественного языка с помощью генеративного предварительного обучения»).
В ней исследователи рассказали, что:
Проще обучать модели на неаннотированных данных — без меток, тегов и другой дополнительной информации. Такие тексты гораздо доступнее и их больше, чем аннотированных и предназначенных для определенных задач.
Если предварительно обучать модель на разнообразном корпусе неаннотированного текста, она сможет значительно лучше понимать естественный язык, отвечать на вопросы, оценивать семантическую близость и выполнять другие подобные задачи.
Архитектура Transformer помогает модели лучше справляться с долгосрочными зависимостями в тексте.
Универсальная модель превосходит модели с архитектурой, адаптированной для каждой задачи, и обученные дискриминативным методом (это подход, который фокусируется на различиях классов данных).
Интересно, что методика не исключала дискриминативный метод полностью, а предлагала использовать его уже после предварительного обучения.
Модель GPT-1 была значительным прорывом в области обработки естественного языка. Но у нее все еще было достаточно много ограничений. Например, на длинных отрезках текста GPT-1 могла терять первоначальный контекст. К тому же, периодически она вставляла в текст неверные данные и факты.
2019: Появилась VL-BERT
Модель научилась обрабатывать информацию как из текста, так и из изображений
VL-BERT — одна из первых мультимодальных LLM-моделей. Она интересна тем, что предварительно обучается на масштабных визуально-лингвистических. Это позволяет ей синтезировать информацию из области интереса в изображении и связанные текстовые описания, чтобы сформировать обоснование выбора ответа. То есть, она не только распознает, что на изображении, но и связывает это с текстом.
VL-BERT также может:
– Описать детали изображения. Например, ее можно спросить «Какой цвет у машины?» или «Что делает человек на фотографии?».
– Локализовать объект на изображении. Например, ее можно попросить найти «собаку, которая играет», и она найдет.
VL-BERT внесла значительный вклад в мультимодальное распознавание и обработку. Кстати, у модели открытый исходный код. Его можно посмотреть на Github.
2020: OpenAI представила GPT-3
Модель научилась генерировать тексты, как человек.
GPT-3 показала, что увеличение размера модели может значительно улучшить качество текста, который она генерирует. Модель отличалась универсальностью. Она умела как выполнять машинный перевод, так и писать код. Поэтому круг применения у нее был значительно шире, чем у предшественниц.
Кроме того, у GPT-3 достаточно простой API. Это делает ее доступной для широкого круга пользователей.
Winograde — тест для измерения способности моделей к пониманию языка на основе общего знания и логического мышления; Hellaswag — датасет для проверки способности предсказывать законченность сценариев в реальных ситуациях
Модель GPT-3 развивалась, и в результате появился ChatGPT. Это версия модели, которая обучалась не только на текстах из интернета, но и на диалоговых данных. Если до появления ChatGPT языковые модели все еще по большей части были объектом теоретических исследований, то теперь их стали широко применять на практике.
Следующие несколько лет рост исследований и разработок в области LLM был по-настоящему взрывным. Масштабы и возможности моделей расширялись, как и области их применения. Интересных релизов было столько, что сложно понять, какие из них войдут в историю.
Например, 13 мая OpenAI представила ChatGPT-4 Omni. Слово Omni, которая переводится как «все», «всеобщий» или «всеобъемлющий», указывает на мультимодальность модели. GPT-4o воспринимает голос, текст и визуальные образы.
Модель может отреагировать на голосовой запрос всего за 232 миллисекунды, а в среднем отвечает за 320 миллисекунд. Это можно сравнить со временем реакции человека в разговоре.
LLM-агенты из моделей для работы с текстом превратились в супермодели. Они работают и с текстом, и с картинками, и со звуком. Их алгоритмы распознают и интерпретируют визуальные данные, понимают и синтезируют аудио, интегрируют текст с изображениями и аудио.