Apple проиграла ИИ-гонку? Или выиграла ту, о которой никто не говорит? / forpes.ru

Главная
Apple проиграла ИИ-гонку? Или выиграла ту, о которой никто не говорит?

Apple проиграла ИИ-гонку? Или выиграла ту, о которой никто не говорит? +5

23.03.2026 15:26

cognitronn 30 7800 Источник

Все сейчас говорят об ИИ-гонке. Или об ИИ-пузыре и о том, когда он лопнет.

GPU от NVIDIA, дата-центры на миллиарды долларов, гигантские тренировочные прогоны. OpenAI, Google, Claude, Microsoft.

Весь мир технологий наблюдает, как ИИ-гиганты выясняют, кто построит модель покрупнее.

Об Apple говорят редко. А если говорят — в основном негативно. «Apple уже проиграла ИИ-гонку». Siri — посмешище. Никаких реальных ИИ-функций. Никакого реального рывка — только сделка с Google, чтобы Gemini в итоге питал Siri. Которая, конечно, снова отложена.

И всё? Серьёзно?

Apple стала неактуальной, потому что не строит кластеры из H100 и не тренирует базовые модели? Просто компания, выпускающая хорошие ноутбуки, классные планшеты и дорогие телефоны?

Думаю, мы упускаем кое-что важное. Apple не играет в ту же игру, что все остальные. Они не вливают миллиарды в ИИ, как Meta, Google, Microsoft или Amazon. Не в том же смысле.

Пока NVIDIA строила всё больше и больше — Apple строила всё меньше и меньше. И эта разница может на самом деле значить больше, чем кто-либо осознаёт.

Автобус

Начнём с фундаментальной архитектурной проблемы, касающейся чипов. И NVIDIA.

Дело не в сырой вычислительной мощности. Дело в передаче данных через память. По сути — в шинах.

В традиционных компьютерных архитектурах — тех, на которых сегодня работает большинство ИИ-нагрузок, — у вас отдельные пулы памяти для CPU и GPU.

Каждый раз, когда вы запускаете запрос на инференс, данные должны физически перемещаться по шине из памяти CPU в память GPU и обратно.

Это трата энергии. И это потолок производительности, который не исправить дополнительными ядрами GPU.

Это как ездить на автобусе из здания в здание. Чтобы перенести свои вещи.

Apple решила это несколько лет назад собственными чипами. Унифицированная архитектура памяти. Разделение устранено полностью.

То есть они больше не ездят на автобусе из здания в здание. Всё — в одном здании.

Кстати, пока одни спорят, нужен ли облачный GPU или хватит локального чипа, — доступ к лучшим моделям уже есть прямо сейчас. BotHub собирает ведущие нейросети — GPT-4, Claude 3 и другие — в одном интерфейсе. Тестируйте, сравнивайте, решайте свои задачи — с любого устройства, хоть с того самого Mac на вашем столе.

Для доступа не требуется VPN, можно использовать российскую карту.

По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Что на самом деле означает унифицированная память

Чипы серии M размещают CPU, GPU и Neural Engine на одном кристалле с общим доступом к памяти.

Никакого копирования данных между пулами памяти. Всё читает и пишет в одну и ту же быструю унифицированную память.

Это фундаментально меняет то, что возможно на одном устройстве.

Mac Studio с чипом серии M может локально запустить довольно крупную языковую модель на несколько миллиардов параметров.

Достаточный размер для множества практических задач.

Это молниеносно быстро? Нет. Облачный инференс на H100 безусловно быстрее.

Но… для большинства реальных сценариев использования — вам действительно нужна та скорость? И во сколько она вам обходится?

Neural Engine

Большинство людей на базовом уровне понимают, что делают CPU и GPU, но о Neural Engine говорят недостаточно. А именно он — ключ к тому, почему эти чипы так хорошо работают для ИИ.

CPU — универсал. Может делать всё, но обрабатывает задачи по одной. GPU запускает тысячи простых операций параллельно. Но у ИИ-инференса очень конкретная работа: умножение матриц. Миллионы операций «умножить и сложить», снова и снова.

Neural Engine создан специально для этого. Он не пытается быть гибким. Он оптимизирован для тензорных операций. Neural Engine в M4 выполняет 38 триллионов операций в секунду. M5 встраивает нейронные ускорители непосредственно в каждое ядро GPU.

Это другой подход.

Математика

GPU NVIDIA H100 для дата-центров потребляет более 700 ватт под нагрузкой. Mac Studio с M4 Ultra?

Значительно меньше.

И его можно поставить на любой стол. Где угодно.

Если вы запускаете непрерывный инференс — edge-развёртывание, автоматизация бэк-офиса, обработка в реальном времени — эта разница в энергопотреблении быстро накапливается за месяцы.

M4 может использовать 400 джоулей на одну задачу инференса. Облачный GPU — в 10 раз больше за ту же работу. За год непрерывной эксплуатации это очень большие деньги.

Так что Apple на самом деле выиграла?

Вернёмся к исходному тезису: Apple проигрывает ИИ-гонку.

Правда? Или они решают совершенно другую задачу?

Они не построили крупнейший дата-центр. Не создали конкурента H100. Зато они помогли решить проблему инференса для edge и локального развёртывания. Построили архитектуру, где память не становится узким местом, где нейронные нагрузки — приоритет первого класса, и где модель, которая обычно требует облачной инфраструктуры, может работать локально на оборудовании, которое у вас уже есть.

ИИ-индустрия постоянно твердит: чтобы быть серьёзным игроком, нужны облачные GPU, арендованные по часам.

Чипы Apple серии M говорят: это не всегда так. Для множества реальных, а не гипотетических сценариев — реально развёрнутых систем — локальный инференс на унифицированной архитектуре памяти имеет огромный смысл. И экономически, и технически.

Другая гонка, другой победитель

Apple Silicon не заменит каждую GPU-нагрузку, разумеется.

Обучение крупных моделей по-прежнему требует массивных кластеров. Обслуживание миллионов пользователей одновременно — не этот сценарий. Дата-центры никуда не денутся.

Но для инференса Apple построила нечто иное.

Самая мощная ИИ-инфраструктура для вашего конкретного сценария, возможно, стоит у вас на столе. Это не проигрыш в гонке. Это участие в совершенно другой гонке.

Суть

Apple не обогнала NVIDIA. И не обогнала Google.

Они решили другую задачу: сделать ИИ-инференс практичным, эффективным и экономичным на стороне пользователя.

Унифицированная архитектура памяти может оказаться именно тем, что реально важно для развёртывания ИИ-систем, имеющих экономический смысл для людей и бизнеса.

Локальный ИИ. Просто и относительно недорого.

Apple не нужны собственные ИИ-модели или дата-центры для этого. Только их чипы и оборудование.

Комментарии (30)

RoasterToaster
23.03.2026 16:02
#29711518
Какая то бесконечная спираль Mainframe vs PC
1. NeoCode
  23.03.2026 16:02
  #29711626
  И хорошо что она есть)
  
  Мне идея PC больше нравится, чем отдавать все свои данные куда-то на подконтрольный чужому дяде сервер, доступ к которому может быть ещё и забанен со стороны гос цензоров как "здесь" так и "там"...
  1. RoasterToaster
    23.03.2026 16:02
    #29711672
    Ну могу вас успокоить, в PC все ваши данные тоже у дяди
    
    riv9231
    23.03.2026 16:02
    #29719662
    Это, видимо, касается Microsoft, который незаметно для многих пользователей зашифровал их данные на дисках. Я имею в виду автоматически включившийся после обновления bitlocker - у него даже название как у вируса *locker.

Ded_Banzai
23.03.2026 16:02
#29711706
Apple решила это несколько лет назад собственными чипами. Унифицированная архитектура памяти. Разделение устранено полностью.

Смартфоны из прошлого передают привет. Прорывная технология дцатилетней давности. Интегрированные видеоядра рядом с ними машут ладошками.

TigerClaw
23.03.2026 16:02
#29711732
Пост ни о чем исключительно ради рекламных ссылок.

SlavikF
23.03.2026 16:02
#29711742
Скорость объединённой памяти на Маках: 200-400 GBps, только на Ultra может достигать 800 GBps.

NVIDIA: от 1 TBps на старой RTX 3090 до 1.8 TBps на RTX 6000. А у моделей для дата-центров - десятки TBps.

Но самая большая проблема у Маков - они тормозные в обработке промптов, потому что у них не хватает мощности GPU/neural процессора для этого. Может у M5 с этим и станет получше, но пока - для программирования вообще не вариант, для каждого запроса надо ждать минуты пока промпт "переварится".
1. Politura
  23.03.2026 16:02
  #29712000
  Новые макбуки с M5 Max уже хорошо: память 614 GBps, prompt processing в 3 раза выше, чем на M4, может уже и нормально для кодинговых агентов.
  Правда на макбуках есть еще проблемы: MLX версии работают раза в полтора быстрее, чем gguf через llama-cpp, но у них для mlx не работает кэш, так что приходится выбирать: либо медленнее генерация, либо ждешь когда длинный контекст обработается снова и снова и снова по каждому чиху от модели. Но, по идее, пофиксят со временем.
  
  Ну и в целом, весь макбук М5 Макс 128Гб стоит $5500 и блок питания у него на 178 ватт, а RTX 6000 одна только видео стоит $10к+ и жрет сильно больше. За цену М5 Макс 128Гб ничего лучше сейчас не соберешь для моделей на 120B.

ivankudryavtsev
23.03.2026 16:02
#29711964
У Nvidia есть Jetson с унифицированной памятью и кучей ASIC-ов + CPU вокруг. Ну и Grace Hopper/Blackwell недалеко ушел. Свет клином на X86 + PCIE не сошелся.
1. Politura
  23.03.2026 16:02
  #29712432
  За исключением Jetson Thor (который примерно то-же самое, что и DGX Spark), все Jetson имеют смешной размер памяти, недостаточный чтоб запускать вменяемые модели.
  У Jetson Thor и DGX Spark 128Гб, но мизерный memory bandwidth: 273 GBps, так что генерация токенов там сильно медленнее чем на макбуках, а жрет электричества больше. И цена $4300.
  Где можно купить Grace Hopper ввиде отдельного компа и как он выглядит? :)
  Blackwell это видюшки.
  1. ivankudryavtsev
    23.03.2026 16:02
    #29712528
    Проблема в том, что ваш комментарий к моему вообще отношения не имеет. Я лишь прокомментировал слова автора о том что «пока те… а вот эти…».
    
    По сути ваших «претензий»:
    
    Jetson - целевое устройство для роботов и смартгородов. Зачем вы приплели сюда большие модели?
    
    Grace Blackwell, это не видюшка, а SOC.
    
    Если сильно прям хотите: NVIDIA DGX Spark, можно и кластер из двух.
    
    Politura
    23.03.2026 16:02
    #29712568
    Так вся статья про запуск больших моделей, ну и в целом, персональный интерес. :)
    
    Про DGX Spark я написал в том комментарии на который вы отвечаете: к сожалению его запороли слишком маленьким memory bandwidth. Сам чип очень хороший и шустрый, но из-за памяти - генерация токенов медленная. Долго на него смотрел, облизывался, была-бы память раза в два быстрее, взял-бы. А теперь, с выходом M5 он уже не имеет смысла. Разве что жадный Хуанг разблочит им память, чтоб быстрее была.

Kenya-West
23.03.2026 16:02
#29712414
Вердикт после слабой аргументации статьи: да, Apple с треском проиграла ИИ-гонку, и напоследок попыталась усилить хотя бы то направление, где у неё осталось преимущество - потребительская электроника. Ну, поздравим её с этим. И с релизом макбука с 8 ГБ оперативки :)
1. ivankudryavtsev
  23.03.2026 16:02
  #29712546
  Зависит от точки зрения. Рынок носимой электроники как бы побольше многих.
  1. coresky
    23.03.2026 16:02
    #29714936
    Да, apple может стать первой кто создаст носимый девайс с низким энергопотреблением, как в фильме "Она", где мужик весь день напролет болтал со своим телефоном. Это влияние может стать очень большим. Технологии уже есть, чтобы сделать это, но наверно из-за гонки, ИИ развивается по пути наименьшего сопротивления, немного модифицируя старые чипы для дата-центров. Важнее победа в AGI а не низкое энергопотребление.
1. Gasnopf
  23.03.2026 16:02
  #29718944
  Ну за 8 гигов им точно полагается отдельный котел в аду для маркетологов

ssj100
23.03.2026 16:02
#29712650
Мда, винегрет из ИИ Nvidia и автобусов М чипов....

А так статья выстроена в стиле жалкие оправдания, и похоже на то что эта хорошая мина при плохой игре.
1. Politura
  23.03.2026 16:02
  #29712692
  Вся статья - некий индус захотел о чем-то написать на медиуме и попросил ИИ сгенерировать текст. А BotHub по привычке опять перевели медиум.
  
  Эпл никакого отношения к статье не имеет и не оправдывается нигде, тихо рубит себе бабло.

DoubleSwap
23.03.2026 16:02
#29713286
Скорее тут не "проиграла или выиграла", а про разные слои рынка. Apple явно про то, как ИИ работает у пользователя, а не как он обучается и это может выстрелить позже..
1. Gasnopf
  23.03.2026 16:02
  #29718934
  Они окучивают нишу инференса, пока остальные жгут электричество в дата-центрах)

serp2002
23.03.2026 16:02
#29713568
>>GPU NVIDIA H100 для дата-центров потребляет более 700 ватт под нагрузкой. Mac Studio с >>M4 Ultra? Значительно меньше.

И это вы называете математикой? Сравнили энергопотребление?

С таким же успехом можно сравнить боинг 787 и тойоту приус, по вашей логике приус победит потому что расход топлива ниже.
1. falmer
  23.03.2026 16:02
  #29716814
  Частично, такое сравнение оправдано. Если нужно ехать семье из четырёх человек между двумя городами на 10 км, то Toyota Prius победит. Не могу попасть к автору в голову, но рискну предположить, что контекст именно о стоимости затрачиваемых ресурсов относительно задачи. Если под задачу хватит локального Mac на M4, то не нужно городить H100 в облаках.

oalisevich
23.03.2026 16:02
#29716978
5коп. Не знаб насчет ИИ от эппл. но то что они захватывают рынок снизу это да. Причем если еще 5 лет назад - это был типа премиум сегмент, то судя по всему они там уже успокоились и переходят вниз на мелких потребителей )). А это значит что они на пути контроля "последней мили" в сфере устройств. Также как например Маск идет в сторону контроля "последней мили" интернета. и также как affyu контролирует поледную милю аппликаций. Ну почти... )) и это все под одной юрисдикцией. ))

Gasnopf
23.03.2026 16:02
#29718928
Я кстати помню, как про чипы М-серии говорили, что это просто разогнанный айфон. А теперь на них сетки крутят без воя кулеров и счетов за облака
1. alexmasyukov
  23.03.2026 16:02
  #29719080
  На своем Macbook Pro M4 Pro 48гб, гоняю Gemma-3-12b модель на 12 миллиардов, выдает 45 токенов в секунду. Она же на 4 миллиарда выдает уже 85 токенов в секунду. Она же на 1 млд выдает 270 токенов в секунду.
  Памяти ест 2-7гб.
  Использую ее для личных приложений.
  Плюс в памяти висят суммарно на 1гб - 3 whisper модели для транскибации голоса, я не пишу промпты руками и ответы в чатах. Тоже собственное приложение.
  Так что эту нишу локальных моделей Apple занимает очень прилично, так как М чипы усоряют их +70% к производительности на выдачу токенов, благодаря Neural Engine чипам.
  1. riv9231
    23.03.2026 16:02
    #29719684
    Было бы здорово сравнить ваши результаты с условной парой rtx3090. По тому, что 85 токенов в секунду здорово, но сколько было бы, если запустить тоже самое на GPU?
    
    По моим наблюдениям, положиться на модель в программирвании можно когда там милиардов 200 параметров. Тут в любом случае узким местом будут канала памяти.
    
    Damnt
    23.03.2026 16:02
    #29723384
    Посчитать легко, делим пропускную способность видеопамяти одной RTX 3090 (936 GB/s) на число миллиардов параметров модели (4b или 12b):
    
    936 / 4 = 234 токена/с (по факту ~200 т/с)
    
    936 / 12 = 78 токенов/c (по факту ~70 т/с)
    
    Ну и не забываем, что надо ещё где-то контекст хранить - тут уже требования к объему VRAM, но хз как считать.
    
    nidalee
    23.03.2026 16:02
    #29724912
    Зависит от модели. У меня на 395+ со 128 гигами - gpt-oss-120b - 52 т\с. glm-4.7-flash-bf16 - 23 т\c. А вот какой-нибудь devstral2 уже шикарные 3 т\с. :)
    
    Зато при большом желании лезет даже что-то вроде Qwen3-235B-Q3_K_XL UD.
    
    alexmasyukov
    23.03.2026 16:02
    #29727092
    Верно, я не использую локальные модели для разработки, для этого у меня Claude Code за 100$. Ничего серьезного для программирования не запустить даже на 130гб памяти. 256гб mac mini ultra стоит уже 5к$.

riv9231
23.03.2026 16:02
#29719674
Интегрировали gpu в процессор и оптимизировали для умножения матриц. Как-то не чувствуется прорыва. Прорыв был-бы, если они процессор, пусть и простенький, только для матричных умножений, встроили прямо в чипы памяти. А так, узкое место в виде линий между процессором и чипами памяти и размера кэшей процессора остаётся.