Бьюсь об заклад, что ПК в вашем офисе вряд ли потянут большие языковые модели (LLM).

Сегодня большинство пользователей взаимодействуют с LLM через браузеры, а более технически подкованные используют программный интерфейс или командную строку. Но и в том, и другом случае запросы отправляются в дата-центр, где размещается и работает модель. И такая схема работает прекрасно, до поры до времени. Аварийное отключение дата-центра может лишить вас доступа к модели на несколько часов. Кроме того, некоторые пользователи не желают отправлять личные данные какой-то неизвестной сущности.

В этом свете локальное выполнение модели обеспечивает ряд значительных преимуществ: ниже задержка, более глубокое понимание ваших конкретных задач и конфиденциальность за счёт сохранения личных данных на своей машине.

Тем не менее на среднем годовалом ноутбуке вы вряд ли сможете запустить хоть одну полезную ИИ модель. Такой бук обычно оснащён CPU с четырьмя-восемью ядрами, встроенной графикой и 16 ГБ RAM. Дискретного GPU или нейронного процессора (NPU) в нём, скорее всего, не будет. Ясное дело, что такой конфиг не подходит для работы с LLM.

И даже новые передовые ноутбуки, которые зачастую имеют NPU и GPU, тоже могут испытывать в таких задачах сложности. Самые крупные ИИ-модели содержат более триллиона параметров, которые требуют сотен гигабайт памяти. Есть и более скромные версии таких моделей, и они тоже показывают неплохие результаты, но им недостаёт рассуждающих способностей, присущих старшим собратьям, которых способны потянуть лишь специализированные дата-центры.

И ситуация становится ещё хуже, если учесть другие функции ИИ, расширяющие способности ИИ-агентов. Малые языковые модели (SLM), которые выполняются на локальных устройствах, либо урезают эти функции, либо полностью их исключают. Генерацию изображений и видео тоже сложно выполнять локально на ноутбуках, и до недавнего времени такие возможности были доступны только на продвинутых десктопных ПК.

Всё это создаёт сложности для внедрения ИИ.

Чтобы сделать локальное выполнение моделей ИИ возможным, необходим апгрейд аппаратной и программной составляющей ноутбуков. И здесь мы подходим к сдвигу в проектировании этих устройств, который даст инженерам возможность пересмотреть структуру ПК, отказавшись от пережитков прошлого.

Появление NPU

Самым очевидным способом прокачки ПК под работу с ИИ является дополнение CPU мощным собратом — NPU.

NPU — это специализированная микросхема, созданная для обработки операций матричного умножения, лежащих в основе большинства моделей ИИ. Эти матричные операции эффективно распараллеливаются, в связи с чем GPU (которые намного лучше справляются с параллельным выполнением задач, чем CPU) стали предпочтительным выбором для дата-центров ИИ.

Тем не менее NPU, которые создаются конкретно под обработку этих матричных операций, — и никаких других задач вроде 3D-графики — оказываются ещё эффективнее GPU. И это очень важно для ускорения ИИ на портативных потребительских устройствах. NPU также лучше GPU справляются с арифметикой пониженной точности. Модели ИИ используют такую арифметику для снижения вычислительной нагрузки и нагрузки на память, что актуально для портативных девайсов вроде ноутбуков.

Трансформация ноутбуков под работу с LLM

Сегодня ваш ноутбук вряд ли достаточно экипирован для запуска больших языковых моделей. Но в будущих моделях такая возможность появится. В погоне за идеей локального выполнения LLM инженеры портативных устройств переосмысливают многие аспекты современного дизайна, и начинают вносить в него изменения.

1. Добавление NPU. В ноутбуки начинают внедрять нейронные процессоры (Neural processing units, NPU) — специализированные ускорители, на которых большие языковые модели и прочие ИИ-агенты выполняются быстрее, чем на CPU и GPU.

2. Расширение и ускорение памяти. Самые масштабные языковые модели требуют сотен гигабайт памяти. Для их размещения и быстрого обмена данными с процессорами в ноутбуки устанавливают больше памяти, отличающейся повышенной скоростью.

3. Согласование памяти. В большинстве ноутбуков сегодня используется разделённая архитектура памяти, где есть отдельный пул для обслуживания задач GPU. И такая структура имела смысл на момент своей разработки. Тогда GPU требовался более быстрый доступ к памяти, чем могла обеспечить общая шина. Теперь же для удовлетворения аппетита ИИ к данным разработчики ноутбуков переосмысливают это решение и объединяют пулы памяти, используя высокоскоростные интерконнекторы.

4. Комбинирование микросхем на одном кристалле. Чтобы сократить путь данных до пулов памяти, все процессоры — CPU, GPU и NPU — теперь объединяют на одной микросхеме. Это помогает им связываться друг с другом и памятью, но затрудняет обслуживание.

5. Управление питанием. Когда модели ИИ лежат в основе постоянно действующих сервисов вроде Microsoft Windows Recall или Windows Search, они испытывают высокие нагрузки. Энергоэффективные NPU позволяют ноутбукам использовать эти модели более экономично.

«При использовании NPU вся структура фактически выстраивается вокруг тензоров [многомерных массивов чисел], — сказал Стивен Батиш, технический специалист Microsoft. — NPU намного больше подходят для такой нагрузки, поэтому мы переходим от CPU, способных обрабатывать три триллиона операций в секунду [TOPS], к NPU» в микросхемах Qualcomm Snapdragon X, которые отвечают за функциональность Microsoft Copilot+. Сюда же относится функция Windows Recall, которая с помощью ИИ воссоздаёт историю использования компьютера на основе скриншотов, и Windows Photos Generative erase, удаляющая фон или конкретные объекты с изображения.

И хотя Qualcomm стала первой выпускать NPU для ноутбуков c Windows, вскоре в эту нишу влились и другие известные производители, такие как AMD и Intel. В результате среди компаний возникла гонка за количеством TOPS, и производительность NPU стремительно пошла вверх.

В 2023 году, ещё до появления Qualcomm Snapdragon X, нейронные процессоры от AMD встречались редко и обеспечивали где-то 10 TOPS. Сегодня же AMD и Intel предлагают NPU, которые могут тягаться со Snapdragon и достигают уже от 40 до 50 TOPS.

Готовящийся к выходу Dell Pro Max Plau AI PC будет оснащён AI 100 NPU от Qualcomm, обещающим производительность до 350 TOPS, то есть в 35 раз выше лучших NPU, которые были доступны ещё пару лет назад. И если такой тренд роста мощности продолжится, то ещё через пару лет можно ожидать NPU, обеспечивающие тысячи TOPS.

А сколько TOPS нужно для использования эталонных моделей с тысячами миллионов параметров? Никто точно не знает. На современном потребительском железе использовать их не получается, поэтому реальные тесты не проводились. Но всё указывает на то, что такие возможности уже не за горами. Кроме всего этого, LLM — это не единственная ниша, для которой подходят NPU. Винеш Сукумар, глава подразделения ИИ и отдела по управлению продуктами МО в Qualcomm, говорит, что одним из сложных направлений, в которых требуются NPU или передовые GPU, является генерация и редактирование изображений инструментами ИИ.  

Сбалансированные микросхемы для повышения эффективности ИИ

Более быстрые NPU будут обрабатывать больше токенов в секунду, что, в свою очередь, обеспечит более плавный и быстрый отклик моделей. Но решение задачи по запуску ИИ на локальном железе заключается не только во внедрении более мощных NPU.

Майк Кларк, инженер из AMD, говорит, что компании, которые проектируют микросхемы для ускорения ИИ на ПК, не могут делать все ставки на NPU, отчасти потому, что ИИ не заменяет собой традиционную функциональность и задачи ПК, а лишь дополняет их.

«Нам нужно обеспечить низкую задержку, эффективную обработку меньших типов данных и ветвление кода — то есть оптимально реализовывать все традиционные рабочие нагрузки, от этого не отвернёшься. Но при этом мы хотим обеспечить и эффективный ИИ». — говорит Кларк. Он также отметил, что «CPU используется для подготовки данных» к обработке ИИ, а значит, слабый CPU может стать узким местом.

NPU также должны либо конкурировать с GPU за выполнение задач, либо действовать с ними в тандеме. В ПК это часто подразумевает работу с передовыми видеокартами от AMD или Nvidia, имеющими большой объём памяти. В спецификации Nvidia GeForce RTX 5090 указано, что производительность этих карточек в задачах ИИ может достигать 3 352 TOPS, что затыкает за пояс даже Qualcomm AI 100.

Но здесь есть серьёзный подвох — питание. Несмотря на всю мощность RTX 5090, она одна кушает до 575 Вт. Мобильные версии для ноутбуков экономичней, но всё равно требуют 175 Вт, что будет высаживать батарею довольно быстро.

Саймон Нг, продакт-менеджер по направлению ИИ, говорит, что «NPU просто будет делать всё намного эффективнее при меньших энергозатратах». Ракеш Анигунди, директор по управлению продукцией Ryzen AI в AMD, согласен с этим видением. Он добавляет, что энергоэффективность особенно важна, так как рабочие процессы ИИ выполняются дольше, чем другие требовательные задачи вроде кодирования видео или рендеринга графики. «Длительность их выполнения будет намного дольше. Взять, к примеру, личного ИИ-ассистента, который может быть активен постоянно и ожидать ваших команд». — говорит он.

Эти соперничающие приоритеты означают, что разработчикам микросхем и проектировщикам ПК под задачи ИИ потребуется принимать трудные решения при размещении нескольких процессоров и обеспечении достаточного питания, особенно в системах, которые предполагают автономность, например, ноутбуках.

«Нам нужно очень вдумчиво подойти к проектированию систем на кристалле, чтобы более крупные SoC отвечали всем нашим требованиям, умещаясь в тонкие и легковесные корпуса». — сказал Махеш Шубрамони, старший инженер-проектировщик в AMD.

Важность памяти для ИИ

Размещение NPU на одном кристалле с CPU и GPU повысит среднюю производительность ПК в задачах ИИ, но это не единственное кардинальное изменение архитектуры ПК, которое потребуется внести. Есть ещё один, возможно, даже более фундаментальный аспект — память.

В большинстве современных ПК используется раздельная архитектура памяти, опирающаяся на решения дизайна, принятые ещё 25 лет назад. Тогда ограничения скорости шины привели к тому, что GPU (и другим дискретным платам, которые могут требовать высоких скоростей памяти) пришлось отказаться от использования системной памяти ПК, задействуя собственную. В результате у мощных ПК обычно есть два пула памяти — системная и графическая, которые работают независимо.

И для ИИ это создаёт проблему. Модели требуют огромных объёмов памяти, и для работы должны загружаться в неё целиком. Традиционная архитектура ПК, в которой используется два пула памяти, препятствует этому.

«Если я использую дискретную видеокарту, это подразумевает отдельную подсистему памяти, — пояснил Джо Макри, вице-президент и технический директор AMD. — Когда я хочу обменяться данными между СPU и GPU, мне нужно взять данные из системной памяти, передать их по шине PCI Express, поместить в память GPU, выполнить необходимую обработку и потом проделать обратный путь».

Макри сказал, что это повышает энергозатраты и ведёт к замедлению пользовательского опыта.

Решением выступает объединённая архитектура памяти, которая позволит всем компонентам системы быстро обращаться к единому пулу по общей шине. Наиболее известным примером такой архитектуры является собственная микросхема Apple. Но в большинстве современных ПК такое решение пока встречается редко.

AMD следует за трендом в сфере ноутбуков. В своём выступлении на CES (Consumer Electronics Show) 2025 года компания объявила о запуске новой линейки APU, Ryzen AI Max, ориентированной на передовые ноутбуки.

Ryzen AI Max на одном кристалле объединяет CPU Ryzen, GPU Radeon и NPU со скоростью 50 TOPS, а также использует единый пул памяти. Благодаря этому, CPU, GPU и NPU могут обращаться к 128 ГБ системной RAM, распределяемой между ними. В AMD верят, что это идеальная стратегия организации памяти и оптимизации быстродействия потребительских ПК. «Размещение всех компонентов под единой системой теплоотведения упростит управление кривой энергопотребления». — сказал Шубрамони.

Система Ryzen AI Max уже используется в нескольких ноутбуках, включая HP Zbook Ultra G1a и Asus ROG Flow Z13. Она также лежит в основе Framework Desktop и нескольких мини-настольных ПК от менее известных брендов, таких как GMKtec EVO-X2 AI mini PC.

В игру также вступают компании Intel и Nvidia, хоть и слегка неожиданным образом. В сентябре эти некогда конкурирующие производители объявили о заключении союза для продажи микросхем, объединяющих в себе ядра Intel CPU и ядра Nvidia GPU. И хотя детали их соглашения пока неизвестны, архитектура этого чипа наверняка также будет включать единую систему памяти и Intel NPU.

Если подобным микросхемам удастся надёжно закрепиться на рынке, это существенно повлияет на будущую архитектуру ПК. Они обеспечивают доступ к более обширным пулам памяти и объединяют на одном кристалле CPU, GPU и NPU, позволяя их тщательный мониторинг и контроль. Все эти факторы должны привести к своевременному делегированию задач ИИ более подходящему оборудованию.

К сожалению, всё это также усложнит апгрейд и ремонт ПК, поскольку на таких микросхемах CPU, GPU, NPU и вся система памяти будут объединяться в единый, физически неделимый пакет на материнской плате. Такое решение идёт вразрез с традиционной архитектурой ПК, где CPU, GPU и память размещаются отдельно.

В погоне за ИИ Microsoft переписывает Windows

MacOS имеет хорошую репутацию за свой привлекательный и интуитивный пользовательский интерфейс, и микросхемы Apple Silicon используют объединённую систему памяти, которая хорошо подойдёт для ИИ. Однако GPU этой компании уступают своим аналогам для ПК. Да и инструменты ИИ для разработчиков у Apple не такие популярные.

Крисси Кремерс, соосновательница маркетинговой фирмы Aigency Amsterdam, ориентированной на использование ИИ, в одном интервью призналась мне, что хоть она лично и предпочитает macOS, её компания не использует компьютеры Apple для задач ИИ.

«GPU в моём настольном Mac с трудом вывозит наш рабочий процесс ИИ, хотя компьютер у меня не старый. Хотелось бы, чтобы компания активнее развивала это направление, ведь их устройства всегда были инструментом для творчества».

Laptop beneath glass dome shaped like human head on striped orange and blue background.
Dan Page

Такое положение дел оставляет окно возможности для конкурентов, продукция которых может стать штатным выбором для расширения ПК возможностями ИИ — и в Microsoft это понимают.

На конференции разработчиков Microsoft Build 2024 года компания представила свой новый продукт Copilot+ PC. Запуск этого ПК не обошёлся без проблем, в частности, связанных с топорным релизом его ключевой функции, Windows Recall, которая при помощи ИИ помогает пользователям выполнять поиск среди всего, что они видели или слышали на своём ПК. Но всё же это событие стало успешным в том, что подтолкнуло индустрию персональных компьютеров в сторону NPU, так как и AMD, и Intel в конце того же года выпустили для ноутбуков новые микросхемы с обновлёнными нейропроцессорами.

На Build 2025 компания также анонсировала Windows’ AI Foundry Local, «программный стэк среды выполнения», который включает каталог популярных опенсорсных LLM. В этом каталоге есть как собственные модели Microsoft, так и тысячи открытых моделей от Alibaba, DeepSeek, Meta, Mistral AI, Nvidia, OpenAI, Stability AI, xAI и других компаний.

После того, как вы выбрали и применили какую-либо модель в приложении, Windows начинает выполнять задачи ИИ на локальном оборудовании через среду выполнения Windows ML, которая автоматически направляет эти задачи CPU, GPU или NPU в зависимости от того, какой из компонентов для них больше подходит.

AI Foundry также предоставляет API для локального извлечения информации и низкоранговой адаптации (Low-rank Adaptation, LoRA) — продвинутых возможностей, которые позволяют разработчикам настраивать доступные для модели данные и то, как она отвечает. В Microsoft также анонсировали внедрение поддержки семантического поиска и поисково-дополненной генерации (Retrieval Augmented Generation, RAG) на устройствах — функций, которые помогут разработчикам создавать ИИ-инструменты, использующие конкретную, доступную в системе информацию.

«AI Foundry — это про разумность, про использование всех доступных процессоров, про эффективность и приоритизацию рабочих нагрузок между CPU, NPU и прочих компонентов. Здесь кроются огромные возможности и потенциал к улучшению». — сказал Батиш.

Цель — реализация AGI на ПК

Стремительная эволюция аппаратных устройств с поддержкой ИИ демонстрирует не просто поэтапное развитие — она говорит о приближающемся сдвиге в индустрии персональных компьютеров, который может заменить отжившую свой век традиционную архитектуру, выстроенную в 80-х, 90-х и ранних 00-х.

Комбинация всё более мощных NPU, единой системы памяти и изощрённых техник программной оптимизации восполняет разрыв в вычислительных мощностях между локальным и облачным ИИ со скоростью, которая удивляет даже инсайдеров индустрии, таких как Батиш.

Эта тенденция толкает разработчиков микросхем к созданию более интегрированных решений, которые объединяют CPU, GPU и NPU на одном кристалле, а также используют единую подсистему памяти — даже для передовых ноутбуков и настольных ПК. По словам старшего инженера AMD Махеша Шубрамони, их цель сделать так, чтобы пользователи «имели в своих руках миниатюрную рабочую станцию — будь то для задач ИИ или требовательных вычислений. Вам больше не придётся обращаться за этим к облачным решениям».

И хотя столь масштабное изменение не произойдёт в одночасье, уже ясно, что многие игроки индустрии нацелены на трансформирование привычных нам компьютеров в оптимизированные под работу с ИИ. Винеш Сукумар из Qualcomm считает, что даже бюджетные ноутбуки должны стремиться к AGI точно так же, как к нему стремятся дата-центры.

«Я хочу, чтобы на устройствах Qualcomm мог работать полноценный искусственный интеллект. Именно к этому мы уверенно идём».

 

Комментарии (16)


  1. Viktor-T
    04.01.2026 13:54

    Скоро можно будет купить NPU M.2 в ноутбук дешевле внешней GPU сравнимой производительности?


    1. Viktor-T
      04.01.2026 13:54

      Сам спросил, сам ответил:

      Geniatech AIM M2 раз два

      AI CORE X и Hailo-8 M.2 2280

      M.2 AI Inference Acceleration card

      Но вопросы по производительности в сравнении даже с бюджетными дискретками.


      1. longtolik
        04.01.2026 13:54

        Пробовал HAILO 8. У него 26 TOPs, с камерой и видео работает хорошо, недавно его приспособили для Whisper, но с LLM он вообще не работает. Видимо, производители не могут это сделать, а сторонние разработчики не владеют описанием достаточно подробно.


        1. Viktor-T
          04.01.2026 13:54

          Расскажите, пожалуйста, как Вы его использовали? OpenCV? Конвертировали YOLO в .hef? 


  1. borey
    04.01.2026 13:54

    В целом уже сейчас можно использовать для рабочих задач LLM на Apple Silicon M4. Самый бюджетный MacBook Air M4/16Gb тянет 14B модель (Cogito V1 14B) с контекстом окном 8К на ollama.


    1. Bardakan
      04.01.2026 13:54

      как она по скорости и качеству для кодинга, если подключить в какой-нибудь Cursor?


      1. thethee
        04.01.2026 13:54

        Никак примерно. Gpt-3.5 помните? Вот примерно на том же уровне. В качестве автокомплита можно, бойлерплейт напишет, но надо перепроверять. Все ещё ускоряет работу в плане нажатия клавиш, но отзывчивость не на gpu, а на npu/m2 будет не такой хорошей и может начать раздражать, особенно если привыкли уже к хорошему


      1. borey
        04.01.2026 13:54

        Для кодинга слабовато. Для повседневных задач, агентов - нормально.


      1. funca
        04.01.2026 13:54

        Это пока для исследователей и энтузиастов, кто готов мириться с лагами системы пока модель считает свои токены.


      1. werymag
        04.01.2026 13:54

        А как к курсору можно подключать локальные LLM? Или только через веб интерфейс?


      1. swap2bin
        04.01.2026 13:54

        на моём macbook air m2 тестил deepseek r1 на 8b параметров и это неплохой локальный гугл. Код тоже способен генерировать, но писать прям полноценный код не получится, и да npu там вроде не используется (ollama.cpp), чисто мощности GPU. Есть один проект под asahi Linux, которые зареверсили npu для маков, но это скорее экспериментальный проект и подключить туда какой то pytorch не получится, либо придётся самим модифицировать исходники, чтобы оно заработало. С другими npu ситуация ещё сложнее так, что сейчас используют только GPU, а npu только поставщик софта в ноутбук, а остальным доступ дают ограниченный, либо вообще не развитый и там почти нереально что то полезное запустить.


  1. Bardakan
    04.01.2026 13:54

    В итоге понятно, что ничего не понятно. Напихивают больше памяти, добавляют некие npu, apple "припаивает" память к процу, а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.

    Ryzen AI Max на одном кристалле объединяет CPU Ryzen, GPU Radeon и NPU со скоростью 50 TOPS, а также использует единый пул памяти. Благодаря этому, CPU, GPU и NPU могут обращаться к 128 ГБ системной RAM, распределяемой между ними. В AMD верят, что это идеальная стратегия организации памяти и оптимизации быстродействия потребительских ПК.

    новейший ryzen ai max используется в gpd win 5. Вы на полном серьезе считаете, что в карманной приставке будет какая-то мощь, способная потянуть ИИ? Ну загрузите вы какую-нибудь большую модель в 128гб, а дальше что? Отдача 1-2 токена в секунду?


    1. Shannon
      04.01.2026 13:54

      а по скорости все равно выигрывают nvidia видеокарты, причем даже не самые свежие.
      новейший ryzen ai max используется в gpd win 5. Вы на полном серьезе считаете, что в карманной приставке будет какая-то мощь, способная потянуть ИИ? Ну загрузите вы какую-нибудь большую модель в 128гб, а дальше что? Отдача 1-2 токена в секунду?

      Размер устройства не имеет значения, имеет значение количество каналов памяти и тип памяти.

      Скорость генерации LLM линейно зависит от скорости памяти, в GPU используют быструю GDDR6X и DDR7 и широкую шину памяти, получая скорость 1 Тб/c на 4090. В Ryzen AI Max+ 365, как и в NVIDIA DGX Spark, используется DDR5 и всего 4 канала памяти, скорость памяти 256 Гб/с. Для сравнения у 4060ti всего 288 Гб/с, что немногим больше.

      Смотря на какой архитектуре модель: Dense или MoE. Новый Devstral 2 123B сделан как Dense, там будет 3 t/s, но многие переходят на MoE, поэтому там будет скорость намного выше.

      Ryzen AI Max+ выдает 50 t/s на GPT-OSS-120B, это очень комфортная скорость для работы, и на 128Гб можно запустить более качественные модели, вроде GLM-4.5-Air или MiniMax-M2.1 230B, скорость будет в районе 25-30 t/s.

      Подробнее про MoE модели: Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM


      1. Alexey2005
        04.01.2026 13:54

        Собственно, основную проблему быстродействия локальных ИИ можно сформулировать так:

        1. Скорость моделей лимитируется в первую очередь памятью, её надо много и она должна быть быстрой

        2. Много быстрой памяти - это дорого, особенно сейчас, когда на волне нейро-хайпа все производственные линии законтрактованы толстосумами на 5 лет вперёд.

        Так что увы - в ближайшие годы можно не ожидать устройства, способного гонять нормальные модели, за сумму менее $5000.


  1. gen_dalf
    04.01.2026 13:54

    Единственный выход это создание моделей для распределённой обработки. Горизонтальное масштабирование гораздо гибче и удобнее, чем вертикальное наращивание ресурсов, которое после определённого предела начинает стоить как самолёт.


    1. Alexey2005
      04.01.2026 13:54

      Современные трансформерные модели и так масштабируются и параллелятся практически идеально. Их без проблем можно распределить на любое количество GPU/CPU, а веса поделить между разными видами памяти (RAM/VRAM).

      Проблема в том, что быстрая память - это дорогая память, и поэтому нет особой разницы, распаяны эти дорогие чипы на одной большой плате или на 10 маленьких, цена всё равно будет даже не кусаться, а буквально рвать в клочья. Причём по мере надувания ИИ-пузыря спрос на такую память только растёт, как и цена.