Оптические нейронные сети, использующие фотоны вместо электронов, имеют преимущества перед традиционными системами. Но они также сталкиваются и с серьезными препятствиями.
Закон Мура уже работает весьма быстро. Он утверждает, что примерно каждые два года число транзисторов в компьютерных чипах увеличивается в два раза, и это приводит к значительному скачку скорости и эффективности. Но потребности в вычислениях в эпоху глубокого обучения растут ещё быстрее — темпами, которые, вероятно, могут меняться. Международное энергетическое агентство прогнозирует, что в 2026 году искусственный интеллект будет потреблять в 10 раз больше энергии, чем в 2023 году, и что центры обработки данных в этом году будут потреблять столько же энергии, сколько вся Япония. «Объем вычислительной мощности, необходимой ИИ, удваивается каждые три месяца», — сказал Ник Харрис, основатель и генеральный директор компании по производству компьютерного оборудования Lightmatter, — гораздо быстрее, чем предсказывает закон Мура. «Это уничтожит компании и разрушит экономику».
Один из наиболее многообещающих путей развития предполагает обработку информации не с помощью старых добрых электронов, которые доминируют в компьютерных технологиях более 50 лет, а с использованием потока фотонов, крошечных квантов света. Недавние результаты показывают, что для некоторых вычислительных задач, фундаментальных для современного искусственного интеллекта, «оптические компьютеры» на базе света могут иметь преимущество.
Развитие оптических вычислений «открывает путь к прорывам в областях, требующих высокоскоростной и высокоэффективной обработки, таких как искусственный интеллект», — сказала физик Кембриджского университета Наталья Берлофф.
Оптимальная оптика
Теоретически у света много привлекательных потенциальных преимуществ. Во-первых, оптические сигналы могут нести больше информации, чем электрические, — они имеют большую полосу пропускания. Оптические частоты также намного выше электрических, поэтому оптические системы могут выполнять больше вычислительных операций за меньшее время и с меньшей задержкой.
И тут возникает проблема с эффективностью. В дополнение к экологическим и экономическим издержкам, связанным с относительно расточительными электронными чипами, они также настолько сильно нагреваются, что лишь небольшая часть транзисторов может быть активна в любой момент времени. Теоретически оптические компьютеры могут выполнять больше операций одновременно, обрабатывая больше данных и потребляя меньше энергии. «Если бы мы могли использовать эти преимущества, — сказал Гордон Ветцштейн, инженер из Стэнфордского университета, — это открыло бы много новых возможностей».
Видя потенциальные преимущества, исследователи уже давно пытаются использовать свет для искусственного интеллекта — области, требующей больших вычислительных мощностей. Например, в 1980-х и 1990-х годах исследователи использовали оптические системы для создания одних из первых нейронных сетей. Деметри Псалтис и двое его коллег из Калифорнийского технологического института создали умную систему распознавания лиц, используя одну из первых оптических нейронных сетей (ONN). Они сохранили изображения субъекта (одного из исследователей) в виде голограмм в фоторефрактивном кристалле. Исследователи использовали голограммы для обучения ONN, который затем мог распознавать новые изображения исследователя и отличать его от коллег.
Но у света есть и недостатки. Важно отметить, что фотоны, как правило, не взаимодействуют друг с другом, поэтому одному входному сигналу нелегко управлять другим сигналом, что и является сутью того, что делают обычные транзисторы. Транзисторы также работают исключительно хорошо. Сейчас они миллиардами устанавливаются на чипах размером с монету, являясь результатом десятилетий постепенных улучшений.
Но в последние годы исследователи нашли лучшее применение оптическим вычислениям: умножение матриц.
Немного оптической математики
Процесс умножения матриц или массивов чисел лежит в основе множества сложных вычислений. В частности, в нейронных сетях умножение матриц является фундаментальным шагом как в обучении сетей на старых данных, так и в обработке новых данных в обученных сетях. И свет может быть лучшим средством для умножения матриц, чем электричество.
Этот подход к вычислениям с использованием искусственного интеллекта получил широкое распространение в 2017 году, когда группа под руководством Дирка Энглунда и Марина Солячича из Массачусетского технологического института описала, как создать оптическую нейронную сеть, построенную на кремниевом чипе. Исследователи закодировали различные величины, которые они хотели умножить, в лучи света, а затем отправили лучи через ряд компонент, которые изменили фазу луча — то, как колеблются его световые волны — причём каждое изменение фазы представляло собой шаг умножения. Многократно разделяя лучи, изменяя их фазу и рекомбинируя их, они смогли заставить свет эффективно выполнять матричное умножение. На конце чипа исследователи разместили фотодетекторы, которые измеряли световые лучи и выдавали результат.
Исследователи научили своё экспериментальное устройство распознавать произнесённые гласные, что является стандартной задачей для нейронных сетей. Благодаря преимуществам света оно могло делать это быстрее и эффективнее, чем электронное устройство.
Исследование «катализировало массовое возобновление интереса к ONN», — сказал Питер МакМахон, эксперт по фотонике из Корнелльского университета. «Оно оказало огромное влияние».
Яркие идеи
С момента публикации этой статьи в 2017 году в этой области наблюдается устойчивый прогресс, поскольку различные исследователи придумали новые виды оптических компьютеров. Энглунд и несколько его коллег недавно представили новую оптическую сеть, которую они назвали HITOP, сочетающую в себе множество достижений. Самое главное — она направлена на увеличение производительности вычислений во времени, пространстве и длине волны. Зайджун Чэн, бывший постдок Массачусетского технологического института, сейчас работающий в Университете Южной Калифорнии, сказал, что это помогает HITOP преодолеть один из недостатков оптических нейронных сетей: для передачи данных из электронных компонент в оптические и наоборот требуется значительная энергия. Но, по словам Чэня, упаковка информации в трёх измерениях света позволяет быстрее передавать больше данных через ONN и распределять затраты энергии на множество вычислений. Это снижает стоимость каждого вычисления. Исследователи сообщили, что HITOP может запускать модели машинного обучения в 25 000 раз большие, чем предыдущие ONN на базе чипов.
Система всё ещё далека от своих электронных предшественников; HITOP выполняет около 1 триллиона операций в секунду, тогда как сложные чипы Nvidia могут обрабатывать в 300 раз больше данных, говорит Чэн, который надеется масштабировать технологию, чтобы сделать ее более конкурентоспособной. Но эффективность оптического чипа впечатляет. «Выигрыш здесь в том, что мы снизили потребление энергии в 1000 раз», — сказал Чэн.
Другие группы создали оптические компьютеры с иными преимуществами. В прошлом году команда Пенсильванского университета описала новый вид ONN, который предлагает необычайную гибкость. Эта система на основе чипа направляет луч лазера на часть полупроводника, составляющего электронный чип, что изменяет оптические свойства полупроводника. Лазер эффективно прокладывает путь для оптического сигнала — и, следовательно, выполняет вычисления. Это позволяет исследователям легко переконфигурировать работу системы. Что резко отличает его от большинства других систем на базе чипов, оптических и электрических, где маршрут тщательно прокладывается на заводе-изготовителе и его очень трудно изменить.
«Мы имеем нечто невероятно простое», — сказал Тяньвэй Ву, ведущий автор исследования. «Мы можем перепрограммировать его, изменяя лазерные схемы на лету». Исследователи использовали систему для создания нейронной сети, которая успешно различала гласные звуки.
Большинству фотонных систем необходимо пройти обучение до их установки в чипы, поскольку обучение обязательно включает в себя перенастройку соединений. Но поскольку эта система легко переконфигурируется, исследователи обучили модель после ее установки на полупроводник. Теперь они планируют увеличить размер чипа и кодировать больше информации разными цветами (частотами) света, что должно увеличить объём данных, которые он может обрабатывать.
Этот прогресс даже Псалтис, создавший систему распознавания лиц в 90-х годах, считает впечатляющим. «Наши самые смелые мечты 40 лет назад были очень скромными по сравнению с тем, что произошло на самом деле».
Первые лучи света
Хотя оптические вычисления быстро развивались за последние несколько лет, они ещё далеки от вытеснения электронных чипов, которые управляют нейронными сетями за пределами лабораторий. В статьях сообщается, что фотонные системы работают лучше, чем электронные, но обычно они используют небольшие модели, использующие старые сетевые конструкции и небольшие рабочие нагрузки. И многие из сообщаемых цифр о фотонном превосходстве не отражают всей работы, говорит Бхавин Шастри из Королевского университета в Онтарио. «Очень сложно сравнивать фотонику и электронику напрямую», — сказал он. «Например, когда они используют лазеры, они на самом деле не говорят об энергии, необходимой для питания лазеров».
Лабораторные системы необходимо масштабировать, прежде чем они смогут продемонстрировать конкурентные преимущества. «Насколько больших успехов вам нужно добиться, чтобы одержать победу?» — спросил МакМахон. Ответ: исключительно больших. Вот почему никто не может сравниться с Nvidia, чьи чипы сегодня используются во многих самых передовых системах искусственного интеллекта. По пути учёным предстоит решить огромный список инженерных проблем, которые электроника решала десятилетиями. «У электроники есть большое преимущество», — сказал МакМахон.
Некоторые исследователи считают, что системы искусственного интеллекта на основе ONN сначала найдут успех в специализированных приложениях, где они предоставят уникальные преимущества. Шастри сказал, что одним из многообещающих применений является противодействие помехам между различными беспроводными сетями, такими как вышки сотовой связи 5G и радиолокационные высотомеры, которые помогают самолетам ориентироваться. В начале 2024 года Шастри и несколько его коллег создали ONN, которая может сортировать различные каналы и выделять интересующий сигнал в режиме реального времени и с задержкой обработки менее 15 пикосекунд (15 триллионных долей секунды). Это менее одной тысячной доли времени, которое потребуется электронной системе, и менее 1/70 её мощности.
Но МакМахон сказал, что грандиозная идея — оптическая нейронная сеть, которая может превзойти электронные системы общего использования — по-прежнему заслуживает реализации. В прошлом году его группа провела моделирование, показавшее, что в течение десятилетия достаточно большая оптическая система может сделать некоторые модели искусственного интеллекта более чем в 1000 раз эффективнее, чем будущие электронные системы. «Многие компании сейчас изо всех сил пытаются увеличить эффективность в полтора раза. Увеличение эффективности в тысячу раз — было бы потрясающе», — сказал он. «Это, возможно, проект на 10 лет — если он окажется успешным».
Автор перевода @arielf
НЛО прилетело и оставило здесь промокод для читателей нашего блога:
-15% на заказ любого VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.
ValeriyPushkarev
Бред какой:
1) нокиа уже представила свой фотонный чип-убийцу (правда, с лазерами в каждом слое) - не жизнеспособно. (https://www.bell-labs.com/institute/blog/bell-labs-prize-winner-devises-image-recognition-technology-powered-light/)
2) есть еще Light-On - или светим на сложный объект своим вектором, получаем значительное уменьшение размерности (стартап погорел)
3) Пассивные вычисления на некогерентных источниках волн (нафига эти сложные лазеры?) уже давно описаны (и отправлены в cas)
Правда, КНР вместе с остальными похоже смотрит научную фантастику - и вот, не успели привести в порядок диету после пандемии - уже падают ракеты
https://github.com/ValeriyAndreevichPushkarev/ShadowZone
Вкратце - каждую цифру можно закодировать различным световым потоком. Световые потоки складываются. Одной сумме соответствует 1 значение функции.
Ацп\фотодиоды (доступные в продаже) давно работают на 10-100 Ghz и со световыми потоками в uW (и запас в 100 остается). Светодиоды тоже (см. Li-Fi :) )
Здравствуйте, вычисления с Branching factor 100k.
(увы, функциональный анализ)
Wizard_of_light
Там в фотонике есть много вкусного - перемножение матриц, фурье-преобразование и свёртка, скорость выполнения которых определяется только временем пролёта света от излучателя через кодирующие слои к приёмнику. Но габариты всей этой радости всегда получались, так скажем, не микроэлектронными. Причём принципиально - размеры элементарного приёмника с приличной эффективностью преобразования должны превышать длину волны излучения, добро пожаловать обратно в мир технологических норм 500 нм. Плюс быстродействующие источники-приёмники более-менее есть, а вот с быстродействующими транспарантами проблема - жидкокристаллические или микромеханические работают в лучшем случае на тысячах герц, а высокоскоростные на эффектах Керра или Поккельса - опять-таки далеко не микроэлектронных габаритов. Для предварительно тренированных нейросетей, у которых веса на неизменных транспарантах прошиты, последнее неактуально, но первое вполне.
ValeriyPushkarev
Увы, в предложенной схеме и транспаранты не нужны.
В Bell Labs от них отказались вообще (все разбито по слоям, программная настройка весов, но там вроде лазеры, ФСУ, когерентность).
500 nm - не столь критично, все равно пресловутый Frontier (по LinPack) выходит размером с кирпич.
Почему-то в фотонике все помешаны на лазерах и фазах (а это еще менее удобно, через сколько нарушается когерентность, метр?) - в производстве это еще менее практично. Видимо, не читают о возможностях современной элементной базы.
Wizard_of_light
Не, лазеры это удобно - узкий спектр, поляризация и возможность получения псевдоточечного источника прямо из коробки. А когерентность... Если там матрица излучателей, то с взаимной когерентностью обычно всё равно проблема.