Термин «искусственный интеллект» постепенно перебрался из фантастики в маркетинг, а сейчас все больше входит в лексикон технических специалистов. Сегодня считается, что будущий полноценный ИИ невозможен без машинного обучения. И за последний год мы приблизились к нему благодаря новым версиям моделей-трансформеров — GPT, в том числе линейке ChatGPT.

Обложку к этой статье тоже нарисовала нейросеть, именно так она видит себя
Обложку к этой статье тоже нарисовала нейросеть, именно так она видит себя

Меня зовут Сергей Загоруйко, я занимаюсь фундаментальными исследованиями искусственного интеллекта в МТС и руковожу группой, в которой есть направления по обработке естественного языка (NLP) и компьютерному зрению. Мы пишем научные статьи, регистрируем патенты, организуем соревнования по машинному обучению и участвуем в подобных соревнованиях самостоятельно. 

До этого я работал в отделениях беспилотных автомобилей Toyota, а еще ранее — в подобном подразделении компании Lyft, это агрегатор такси в Северной Америке. Там мы экспериментировали с применением трансформеров в разных частях стека беспилотников: от компьютерного зрения до управления. В этой статье я расскажу о том, как сейчас обстоят дела в мире беспилотных автомобилей и искусственного интеллекта в целом, а в конце вас ждет приглашение на мое выступление на конференции True Tech Day, которая пройдет 31 марта 2023 года.

Самое интересное в машинном обучении

Прошедший год был особенно успешен с точки зрения использования больших языковых моделей машинного обучения для управления роботами. Я говорю о мультимодальных трансформерах. К ним относится семейство GPT — generative pre-trained transformers, генеративные предварительно обученные трансформеры. Модели GPT сегодня знакомы большинству из нас по бойким чат-ботам, умело имитирующим переписку со здоровым человеком, и даже умудрившимся сдавать экзамены по программе MBA, на право работать врачом, по общим университетским программам, а еще выпускные в юридической и бизнес-школе. Судя по тенденциям, ChatGPT уже по плечу далеко не только это.

Более того, если вы далеки от темы машинного обучения, то можете и не догадываться, что диалоговые GPT-модели на самом деле способны работать и с изображениями, и со звуком. А значит, могут применяться в беспилотных автомобилях. Ведь для создания безопасной системы управления автомобилем без участия человека необходимо постоянно собирать и анализировать информацию об окружающем машину пространстве, чтобы прогнозировать траектории движения соседних объектов и выстраивать безопасную траекторию и скорость собственного движения. И модели с большой ёмкостью (high capacity), к которым относятся GPT, выглядят очень перспективно.

Модели большой емкости — алгоритмы, обученные на огромных массивах данных из интернета, с десятками и сотнями миллиардов параметров.

Сегодня в беспилотных автомобилях используются модели на пару порядков меньше, и, вероятно, это один из ключевых факторов, до сих пор не позволяющих выпустить беспилотники на дороги. Конечно, на вычислительных мощностях машины полноценный GPT не запустить, но с помощью методов квантования можно сжимать трансформеры, чтобы они стали по плечу автомобильным процессорам.

Почему в городах всё ещё нет беспилотных автомобилей? 

Самое сложное в создании беспилотных автомобилей — это автоматизация управления, так называемая задача long tail, хвост распределения. Есть разные подходы к ее решению. Самый распространенный — ручное описание возможных ситуаций на дороге и сценариев поведения беспилотника. Но таким образом можно описать лишь базовый набор инструкций, который подходит для 99% ситуаций на дороге.

Вся сложность создания действительно безопасного беспилотника заключается в оставшемся 1%. На дороге может произойти что угодно. Например, в Бразилии есть капибары, которые очень часто выбегают на дорогу. Чтобы беспилотник адекватно отработал в такой нештатной ситуации, он должен быть способен в реальном времени ее проанализировать и выработать подходящее поведение, не описанное ни в одном правиле.

Создать такие обобщающие алгоритмы очень непросто. И я считаю, что новые трансформеры помогут совершить рывок в решении этой задачи. Они очень хороши в запоминании и обобщении новых, незнакомых для них ситуаций — это называют подходом Zero-shot. Например, когда мы обучаем модель просто распознавать языки, а потом просим перевести какой-то текст с английского на русский, и она это сделает, хотя ее никто этому не учил.

Нейросети вместо программистов

Нас все чаще пугают, что скоро программисты останутся без работы, потому что вместо них код будут писать нейросети. Один из джуниоров как-то совершенно серьезно мне сказал, что ему пора бы менять профессию, потому что мидлом он стать не успеет — вместо него на Go будет кодить машина. Я считаю, что в ближайшие 10 лет алгоритмы не вытеснят программистов, а станут их незаменимым помощником, взяв на себя написание рутинного кода. Человек же будет контролировать результат и писать код в задачах, которые неподвластны нейросетям. То есть от программистов будет требоваться не просто умение писать код, а его глубокое понимание: быстрый анализ и оценка. Возможно, появится новый подтип профессии — оператор нейросетей. 

Китайцы и прогресс

Недавно появилась новость, что китайцы запускают свою большую нейросеть, способную генерировать и текст, и изображения. В последние годы в этой стране появились разработки, которые уже буквально наступают на пятки лучшим технологиям Кремниевой долины. Например, после выхода ChatGPT в Поднебесной за считанные месяцы выпустили версию, поддерживающую китайский язык.

Впрочем, уже сейчас авторы больших нейросетей идут к тому, чтобы их разработки изначально работали с самыми популярными языками планеты, а не только с английским и родным для разработчиков. Даже сегодня возможности нейросетей по переключению между языками очень впечатляют: можно написать треть приложения на английском, треть на русском, треть на французском, и алгоритм всё это корректно обработает. Вот только на каком языке он ответит — это не детерминировано.

Будущее машинного обучения

Понадобится какое-то время, чтобы полностью реализовать потенциал диалоговых систем. Например, научить их генерировать качественное видео. То есть когда-то нейросетевые технологии из экзотической игрушки превратятся в часть нашей повседневной жизни, как автозамена слов в вашем смартфоне. Например, они будут помогать составлять документы, это требуется в очень многих профессиях. 

Еще одно интересное направление — это персонализация диалоговых систем: создание персональных помощников, которые смогут использовать в работе не только данные из интернета, но и личную информацию конкретного человека: его переписку, документы, записи и так далее.

Не исключено, что технологии машинного обучения расширят и возможности поисковиков. Однако применение тех же трансформеров усложняется с увеличением количеством поисковых запросов. Чтобы обрабатывать все запросы при помощи таких систем, нужны энергоресурсы и вычислительные мощности на несколько порядков больше, чем сегодня используют для поисковиков. Полагаю, что появятся специализированные мощные поисковики на основе машинного обучения, но они будут доступны не всем, либо станут платными. 

Рано или поздно нейросетевые сервисы, которые сегодня доступны всем желающим, сделают платными, урезав возможности бесплатных версий, ведь разработка и поддержание таких систем обходятся недешево. Возникает соблазн пиратства, как это происходит с большинством программных продуктов. К примеру, с созданной в Facebook (Meta признана в России экстремисткой организацией и запрещена на территории страны. Принадлежащие ей социальные сети Facebook и Instagram заблокированы в России) нейросетью LLAMA произошла занятная история: разработчики открыли к ней доступ по заявкам, в которых нужно описывать, для чего тебе нужна эта нейросеть, а они решают, стоит ли ею с тобой делиться. Но буквально через пару дней в репозиторий на GitHub кто-то отправил pull request с торрентом, содержащим все веса LLAMA, под предлогом «чтобы быстрее скачивалось» — несколько десятков гигабайт. 

Поучительна и история коммерциализации DALL-E, нейросети для генерирования изображений. Авторы предлагают доступ к ней по подписке, но параллельно существует движение Open source, люди и компании обучают решения, которые можно разворачивать на своих мощностях и никому не платить. 

Я смотрю достаточно оптимистично на тему коммерциализации нейросетей. Например, когда вышла Stable Diffusion, которая позволила генерировать изображения на порядок дешевле благодаря возможности использовать свои видеокарты. Для пользователей это было совершенно открытое, доступное решение. Скорее всего, на рынке возникнет конкуренция между компании, которая окажется выгодна обычным пользователям — мы получим больше бесплатных или очень дешёвых сервисов машинного обучения.

Приходите послушать нас на конференции True Tech Day

31 марта состоится крупнейшая в России IT‑конференция — True Tech Day, которую организует МТС. Теме ИИ посвящен отдельный трек, на котором я расскажу о трансформерах в беспилотных автомобилях. Компанию мне составят спикеры с вот какими докладами:

Никита Семенов, директор по исследованиям, МТС, «Большие языковые модели: риски и ответственность»

Александр Паркин, руководитель исследовательских проектов, Vision Labs, «Какие бывают deepfake‑лица и как их детектировать»

Александр Панченко, Сколтех, Monolingual and Cross‑lingual text detoxification

Александр Чигорин, директор по исследования, Vision Labs, «Генерация изображений и видео — достижения за год»

Сергей Колюбин, руководитель лаборатории «Биомехатроники и энергоэффективной роботетехники» ИТМО, «Робастный метро‑семантический SLAM для работы в динамических средах»

Дмитрий Ватолин, глава лаборатории МГУ, «Компрессия видео»

Андрей Савченко, Сбер ИИ, НИУ ВШЭ, «Эмоциональный интеллект: распознавание вовлеченности и выражений лиц по видео»

А на основном треке конференции выступит Иван Филь, руководитель лаборатории геймификации Сбера, с рассказом о искусственном интеллекте и аватарах.

Поучаствовать в конференции можно онлайн. Это бесплатно, достаточно зарегистрироваться на сайте. Там же вы найдете подробную программу всех 7 треков конференции и расписание выступлений. До встречи!

Комментарии (2)


  1. Sonichka
    00.00.0000 00:00
    +1

    Сингулярность наступает


  1. Perfect1918
    00.00.0000 00:00

    Если алгоритмы смогут выполнять половину работы программистов, это приведет к сокращению спроса на рынке труда на примерно ту же половину. Со временем занятость должна выровняться за счет увеличения емкости и перепрофилирования, но переходный период может быть весьма и весьма бурным.