Мейнфрейм IBM z16 во время лабораторных тестов в 2022 г, источник
Приложения ИИ находят применение в бизнесе. Но есть проблема: корпоративные данные и документация представляют коммерческую тайну. Их нельзя передавать на сторону, тем более в облачную систему машинного обучения. Кроме того, что сама передача небезопасна, так ещё и публичная модель будет обучаться на наших секретах, а потом помогать конкурентам.
В общем, у коммерческих компаний остаётся один вариант: поднимать собственный сервер или вычислительный кластер с ИИ. Таким образом, из эпохи облачных вычислений мы возвращаемся к старому доброму самохостингу, только сейчас это самохостинг GPU, серверы и мейнфреймы.
При этом и рынок дата-центров переживает второе рождение, количество ЦОДов, которые сдаются в эксплуатацию, удвоилось по сравнению с 2022 годом. Запускаются и новые облака, специально для ИИ-вычислений. Одновременно растёт спрос и на «частные» мейнфреймы, которые можно установить на своём хостинге, даже в офисе. И на самодельные вычислительные кластеры.
Например, интернет-стартап Gumlet, который оказывает услуги по хостингу, стримингу и редактирования фото и видео, ушёл из облака и поднял свой GPU-кластер для транскодирования видео (картинки по-прежнему обрабатываются на CPU), что позволило сэкономить тысячи долларов.
Для сравнения, один сервер (AMD 5700x, 64 ГБ DDR4, 512 ГБ NVMe SSD, Nvidia RTX4000 ADA SFF GPU) обошёлся в $2300, в то время как аренда такого сервера на AWS стоит $703 в месяц.
Многие другие компании тоже сэкономили миллионы долларов, когда ушли из облака на самохостинг.
▍ Частные мейнфреймы
Как сообщается, многие компании и без всякого ИИ полагались на собственные частные дата-центры и мейнфреймы. Они ещё не успели переехать в облако: банки, крупные страховые, финансовые, телекоммуникационные и авиакомпании. Теперь же они стали первыми заказчиками специализированных ИИ-мейнфреймов, чтобы добавить их в собственный парк.
Для некоторых заказчиков переход в облако вообще не вариант, если для них критически важна скорость выполнения транзакций — когда каждая миллисекунда имеет значение. Например, банки выявляют фродовые транзакции за миллисекунды в реальном времени. Или компания высокочастотного трейдинга, для которой одна миллисекунда разницы во времени покупки или продажи на бирже отличает прибыль от убытка.
10 миллисекунд торговли акциями корпорации Merck, визуализация медленнее реального времени в 40 000 раз, источник
Высокочастотные трейдеры даже свои дата-центры располагают физически как можно ближе к биржевому ЦОДу, и прокладывают оптоволокно по максимально короткому пути, потому что скорость света имеет значение.
С точки зрения производительности всем очевидно, что эффективнее поставить ИИ-систему туда, где лежат данные, а не копировать данные на удалённый ЦОД, где стоит ИИ. Поэтому и производители в последнее время отмечают рост продаж. У IBM в 2024 году продажи мейнфреймов выросли на 6%.
По статистике IDC, в 2022 году около 55% корпоративных данных хранилось в публичных облаках, а к 2027 году эта доля вырастет до 71%. Но спрос на самохостинг никогда не исчезнет, пока остаются актуальными вопросы безопасности и производительности. Кроме того, разница между частными дата-центрами и публичными облаками постепенно стирается: они становятся похожи друг на друга по аппаратной архитектуре и ПО.
▍ Новое железо
Для вышеупомянутой системы z16 компания IBM выпустила новые CPU Telum II, для ИИ-мейнфреймов IBM z16. Как отмечается, на этом CPU и новых мейнфреймах можно запускать любые современные LLM, такие как ChatGPT.
Telum II не похож ни на один серверный процессор. В нём всего восемь ядер, но они работают на высокой частоте 5,5 ГГц и снабжены 360 МБ кэша на кристалле. Также на чипе расположен DPU для ускорения ввода-вывода и встроенный AI-ускоритель. Telum II производится по техпроцессу Samsung 5 нм.
В производительности системы важную роль играет скорость и объём кэша. Здесь IBM применила необычное решение, разместив на кристалле аж десять модулей L2 по 36 МБ, итого 360 МБ. Для сравнения, кэш L3 в настольных и серверных процессорах Zen 3 от AMD обычно составляет 32 МБ.
<img src=«habrastorage.org/webt/xu/wg/6a/xuwg6aifjxor4wczod6hwzq8hfo.png» align=«center>Зелёный — кэш L2, красный — виртуальный L3
Восемь кэшей L2 у Telum II подключены к ядрам, ещё один — к DPU, а последний, десятый, ни к чему не подключён.
Ещё одна интересная деталь — отдельные кэши L2 на этой микросхеме совместно формируют «виртуальный кэш L3»). Согласно патенту IBM, у каждого L2 есть «метрика насыщения» в зависимости от того, насколько часто ядро записывает туда данные. Когда L2 выбивает строку кэша, чтобы освободить место для входящих данных, эта выбитая строка переходит в другой L2 с более низкой метрикой насыщения.
Система объединённого пула виртуальной памяти действует не только в рамках микросхемы, но и всего мейнфрейма в целом. Именно так организован виртуальный кэш L4 на основе кэшей L3 в «процессорном комплексе» CPC (Central Processor Complex) для z16.
Интересная деталь: в комплекте с этой системой IBM предлагает даже ИИ-помощника в программировании WatsonX, (аналог Github Copilot и др.), который среди прочего поможет клиенту переписать кодовую базу с Cobol на Java.
WatsonX
IBM z16 — это система с хранилищем на 40 ТБ, специализированными ИИ-процессорами и стоимостью до $1 млн. Мейнфрейм в полной сборке весит около 820 кг.
IBM — главный производитель мейнфреймов в мире с рыночной долей более 96%. Конкуренты NEC, Fujitsu и Hitachi далеко позади. По статистике самой IBM, 90% крупнейших банков и 80% крупнейших авиакомпаний по-прежнему используют мейнфреймы в качестве основной платформы. Мировой рынок таких систем в 2023 году оценивался в $3,05 млрд.
В ближайшее время на этом рынке явно грядут изменения: всё больше компаний проявляют интерес к использованию моделей ИИ, причём хотят делать это на собственном железе и на самохостинге. Вариантов тут много: например, недавно мы рассказывали про локальные облачные серверы 0xide, которые хоть и работают в облаке, но устанавливаются на местах в офисе клиента.
Корпорации Microsoft и Meta недавно представили новую серверную архитектуру Mount Diablo, спроектированную для AI-вычислений, где стойки с блоками питания отделены от вычислительных блоков.
В традиционных вычислительных системах плотность мощности в стойке обычно не превышает 20 кВт, а в системах ИИ она возрастает до сотен кВт. Чтобы адаптироваться к этим изменениям, пришлось оптимизировать все уровни инфраструктуры. В данном случае — разделить единую стойку на серверную и силовую, каждая из которых оптимизирована для выполнения своей основной функции. Это позволяет в том числе поместить в одну стойку на 35% больше ИИ-ускорителей.
▍ Домашний сервер
Современные серверы можно устанавливать не только в серверных комнатах в офисе, но и дома. Некоторые производители даже предлагают выполнить интерьер в виде серверных стоек. В таком интерьере компьютерное железо вполне органично будет смотреться посреди выдвижных ящиков, обуви и одежды:
Такие стеллажи чем-то напоминают модульную систему полок или знаменитый LackRack, серверную стойку из столика Ikea:
Оказывается, по счастливой случайности габариты этих столиков идеально совпадают с габаритами стандартных серверных юнитов.
Существует AnythingLLM, llamafile, Ollama, GPT4All и другие десктопные оболочки для запуска ИИ локально на своём компьютере.
На макбуке с 64 ГБ оперативной памяти запускается Llama 3.3 70B. А ведь это новейшая модель класса GPT-4.
В общем, поднять на фирме собственный вычислительный кластер для ИИ-вычислений — вполне реальная задача. Самые маленькие LLM запускаются на ноутбуках. Например, есть агент для автодополнения кода Twinny, плагин для Visual Studio Code, аналог GitHub Copilot, но только полностью локальный и на 100% приватный.
Вот другие системы ИИ, разработанные специально для самохостинга:
-
Khoj,
-
LocalAI,
-
llama.cpp,
- … см. также сообщество /r/LocalLLaMA/.
Всё это можно установить на домашнем сервере.
▍ ИИ и вопрос доверия
Открытым остаётся вопрос доверия ИИ: насколько мы можем верить, что ИИ-агент действует именно в наших интересах, а не в своих собственных? Например, анализ ИИ-девушек с точки зрения безопасности показал тревожные знаки: оказалось, что девушки собирают приватную информацию о парнях и отправляют на удалённый сервер. Замечены также случаи саботажа программного кода со стороны ИИ-помощников.
Уже доказано, что ИИ врёт убедительнее человека. А у человечества и так с этим проблемы: уровень доверия в обществе ко всем институтам упал до минимального уровня, а это повышает стоимость социальных транзакций и мешает экономическому развитию.
Доверие общества к разным американским институтам в 2018−2021 гг
Повсеместное использование LLM может усугубить ситуацию.
Дипфейки и дезинформация и так уже стали нормой. ИИ вдобавок открывает возможности для массовой слежки.
Учёные сейчас изучают, как поведение людей меняется в присутствии вездесущих ИИ-помощников. Есть интересные эффекты. Например, в одном из опытов игрокам-людям предлагали онлайн-игру, в которой нужно было найти и нажать на цель для запуска анимации, в то время как на самом деле алгоритм запускал анимацию до нажатия игроком. Анимация основывалась на истории прошлых движений игроков и на начале их текущего движения руки. Учёные использовали моделирование с помощью машинного обучения, чтобы определить, как игроки вычисляют своё ощущение власти над анимацией. И в итоге они обнаружили, что менее чем за час игроки адаптировались к новому ощущению, будто они действительно управляют анимацией, хотя та появляется до нажатия на кнопку.
Учёные считают, что результаты этих исследований помогут в будущем адаптировать системы ИИ к человеческой психике. Алгоритмы позволят создать такие механики, чтобы человек всегда сохранял чувство контроля над ситуацией, даже если действия запрограммированы и происходят заранее. Это отчасти опасное изобретение, тем более в определённых условиях людям приятнее комфортная ложь, чем горькая правда. То есть человек словно заранее запрограммирован на то, чтобы быть обманутым.
Есть методы, как обучить ИИ обману, а в даркнете продаются нелегальные версии LLM, обученные конкретно на создание вредоносного кода (FraudGPT, WormGPT и др.). Поэтому вопрос доверия ИИ остаётся открытым.
© 2024 ООО «МТ ФИНАНС»
Telegram-канал со скидками, розыгрышами призов и новостями IT ?
Moog_Prodigy
С эпохой развития ИИ у меня такое ощущение, что как будто все вернулось куда-то в 70-80 года, когда мейнфреймы занимали гигантские залы, а их память и возможности на тот момент казались совершенно ошеломляющими. История как будто сделала виток, и теперь у нас вместо греющихся ламп - раскаленные видеокарты и нейроускорители, потребляющие как утюги, вместо реле теперь шумят мощные кулеры на 20 тыс оборотов (еще неизвестно что лучше), и в сумме потребление как исчислялось сотнями киловатт тогда, так и сейчас. Стоимость машин не отстает, людей, разбирающихся во всей этой ИИ кухне - относительно мало - как мало раньше было обычных программистов. А вот задачи, решаемые сегодня, в те года казались фантастикой. Хотяя...
Кто сейчас вспомнит систему "Поэт"?
Единственное отличие от тех времен: это возможность заиметь дома\в организации маленький но уже суперкомпьютер по цене не как крыло от боинга.