В апреле 2025 года компания Tenstorrent начала принимать заказы на PCIe-карты Blackhole и Wormhole (на фото). Ускорители TPU на открытой архитектуре RISC-V с 28−32 ГБ видеопамяти предназначены непосредственно для разработчиков, которые желают запускать LLM на домашнем ПК или небольшом DIY-сервере. Это реальная альтернатива в сегменте, где пока доминирует Nvidia.

Во главе Tenstorrent стоит легендарный инженер Джим Келлер, ветеран Intel и AMD, создатель микроархитектуры AMD Zen и соавтор x86-64.

Благодаря радикальной открытости своих решений Tenstorrent уже привлекла небольшую армию фанатов среди LLM-энтузиастов.

Появление мощных LLM с открытыми весами типа Llama, Qwen, Mixtral и QwQ стимулировало спрос на производительное оборудование для сборки DIY-серверов. Энтузиасты уделяют приоритетное внимание объёму VRAM и пропускной способности памяти. Это важно для приемлемой скорости инференса (токены в секунду). Типичная конфигурация домашнего сервера включает несколько бэушных GPU от Nvidia, таких как RTX 3090, см. «Быстрый и экономичный инференс в прикладных задачах».

Карты Tenstorrent ориентированы именно на эту высококонкурентную нишу, где главный параметр — соотношение цены и производительности.

Для предварительного заказа доступны карты Blackhole p100a, p150a и p150b, а также Wormhole n150d и n300d.

Технические характеристики карт Blackhole:

Технические характеристики карт Wormhole:

Tenstorrent подчёркивает открытый подход с использованием свободного ПО, предлагая кастомный форк популярного сервера инференса vLLM, который поддерживает такие модели, как Llama, Qwen, Mistral, Mixtral и Falcon. Документация и руководство по установке — в разделе для разработчиков.

Для локального инференса LLM, особенно генерации токенов, решающее значение имеет пропускная способность памяти. Именно она определяет, насколько быстро работает модель. Посмотрим, как выглядят карты Tenstorrent в сравнении предложениями Nvidia, учитывая рекомендованную розничную цену и текущие рыночные цены, источник:

Сравнение Tenstorrent Blackhole и Nvidia RTX

Характеристика

Tenstorrent p100a

Tenstorrent p150a

Nvidia RTX 3090 (б/у)

Nvidia RTX 4090

Nvidia RTX 5090

VRAM

28 ГБ GDDR6

32 ГБ GDDR6

24 ГБ GDDR6X

24 ГБ GDDR6X

32 ГБ GDDR7

Пропускная способность (BW)

448 ГБ/с

512 ГБ/с

936 ГБ/с

1008 ГБ/с

1790 ГБ/с

Питание (TBP)

300 Вт

300 Вт

350 Вт

450 Вт

575 Вт

Цена (текущая)

$999

$1399

$1000

~$3000

~$3300

Цена (MSRP)

$999

$1399

$1499

$1599

$1999

$/ГБ VRAM (текущая)

~$35,68

~$43,72

~$41,67

~$125,00

~$103,13

$/(ГБ/с) BW (текущая)

~$2,23

~$2,73

~$1,07

~$2,98

~$1,84

Интерфейс

PCIe

PCIe

PCIe

PCIe

PCIe

Сравнение Tenstorrent Wormhole и Nvidia RTX

Характеристика

Tenstorrent n150d

Tenstorrent n300d

Nvidia RTX 3090 (б/у)

Nvidia RTX 4090

VRAM

12 ГБ GDDR6

24 ГБ GDDR6

24 ГБ GDDR6X

24 ГБ GDDR6X

Пропускная способность (BW)

288 ГБ/с

576 ГБ/с

936 ГБ/с

1008 ГБ/с

Питание (TBP)

160 Вт

300 Вт

~350 Вт

~450 Вт

Цена (текущая)

$1099

$1449

~$1000

~$3000

Цена (MSRP)

$1099

$1449

$1499

$1599

$/ГБ VRAM (текущая)

~$91,58

~$60,38

~$41,67

~$125,00

$/(ГБ/с) BW (текущая)

~$3,82

~$2,52

~$1,07

~$2,98

Интерфейс

PCIe

PCIe

PCIe

PCIe

Как видим, объём памяти 28−32 ГБ у топовых моделей превышает 24-гигабайтный лимит RTX 3090 и 4090. Это позволяет использовать более крупные модели и более высокую точность без необходимости установки нескольких GPU.

Карта p150a по объёму VRAM (32 ГБ) равняется гораздо более дорогой RTX 5090.

С точки зрения соотношения цена/ГБ, карты Blackhole выглядят привлекательно по сравнению с текущими ценами Nvidia.

Главной проблемой этих карт остаётся дефицит пропускной способности. На обеих картах Blackhole она примерно вдвое ниже, чем у RTX 3090. На Wormhole пропускную способность немного больше, но всё же значительно отстаёт от 3090.

Преимуществом Tenstorrent является более высокая вычислительная способность (в TFLOPS), но она не компенсирует пропускную способность в плане скорости генерации токенов.

Другое уникальное преимущество Tenstorrent — порты QSFP-DD на p150a (800G) и n300d/n150d (200G) для высокоскоростных межсоединений, что позволяет масштабировать несколько карт и обойти стандартные ограничения пропускной способности PCIe в больших кластерах.

Мост Warp 100 ($56 и $84) на два и три слота для соединения карт Wormhole
Мост Warp 100 ($56 и $84) на два и три слота для соединения карт Wormhole
Кабель QSFP-DD 400G за $68
Кабель QSFP-DD 400G за $68

Схема соединения ускорителей:

Таким образом, систему можно масштабировать от небольшой рабочей станции с несколькими картами до серверных стоек Galaxy Wormhole Server в сетке 8×32 ускорителей с интерконнектом:

У Nvidia есть интерконнект NVLink, но он дорогой или недоступен на потребительских картах. А здесь всё доступно.

Система Tenstorrent Galaxy из 32 чипов Wormhole в mesh-сети
Система Tenstorrent Galaxy из 32 чипов Wormhole в mesh-сети

Теперь Tenstorrent работает над созданием всё более крупных кластеров для обучения моделей. На данный момент построен кластер из шести Backhole Galaxy (192 чипа), в течение следующих шести месяцев появятся более крупные. Конечная цель — система из 16-ти серверов Galaxy, ещё 16 для коммутации и ещё 16 в качестве «оптимизатора».

В такой архитектуре можно в любой момент отключить любой узел — и кластер продолжит работать.

Самая большая версия будет работать на двух миллионах ядер RISC-V, все вместе параллельно под управлением одной программы. «Мы собираемся построить безумно большие компьютеры, — говорит Джим Келлер. — Это действительно весело».

Железо для ИИ. Особый путь

Джим Келлер — легендарный инженер в микроэлектронной промышленности, ветеран Intel и AMD, а также Apple и Tesla. «Что ни сделает Nvidia — мы сделаем наоборот», — говорит он.

Джим Келлер. Фото: Tenstorrent
Джим Келлер. Фото: Tenstorrent

Его миссия — делать железо для ИИ. На двери офиса Келлера в Санта-Кларе висит доска, на которой он написал большими буквами: «Мы победим!», а рядом — список моделей LLM, которые работают на Blackhole.

Tenstorrent не только пользуется преимуществами экосистемы Open Source, но и вносит свой вклад: «Мы вкладываемся в компилятор [RISC-V]», — говорит Келлер. — Наши патчи в LLVM повысили производительность компилятора на 10 %. Операционная система, драйверы, наборы инструментов — всё становится лучше. Я доволен, RISC-V отлично проявляет себя, мы приняли правильное решение — и собираемся на этом заработать».

Келлер сказал, что в долгосрочной перспективе RISC-V победит архитектуры набора команд, которые не поддерживают настройку в достаточной степени: «Генерация с помощью ИИ сделает код гораздо более параллельным и изменит архитектуру CPU, — считает он. — Другие архитектуры не позволяют это контролировать, в отличие от RISC-V».

В настоящее время у Tenstorrent есть европейские офисы в Сербии, Германии и Польше, планируется также офис на Кипре, который будет работать с местными университетами, использующими компьютеры Tenstorrent. Испания — ещё одно вероятное место для открытия офиса в будущем, учитывая наличие в стране талантливых специалистов по RISC-V и поддержку со стороны правительства, говорит Келлер.

В Японии Tenstorrent сотрудничает с фабрикой по производству микроэлектроники Rapidus. Уже запущена пилотная линия по производству ASIC по технологическому процессу 2 нм.

RISC-V: свободный мир

Свободное ПО изменило мир. Везде, где появляется опенсорс, совершается технологическая революция. Мы это видели на примере целого ряда ключевых технологий: весь интернет работает на открытом ПО, отрасль ИИ базируется на открытых фреймворках. Даже популярные проприетарные продукты невозможно представить без открытых технологий, на которых они базируются. Так, создание macOS было бы невозможным без Unix, а Netflix — без FFmpeg.

Опенсорс везде, а в мире аппаратного обеспечения есть его аналог — открытая архитектура. Вот как раз RISC-V — это эквивалент Linux в мире ИИ.

Архитектура RISC-V была разработана в 2010 году в Калифорнийском университете Беркли как бесплатный открытый стандарт, альтернативный проприетарным архитектурам, таким как Intel x86 и ARM.

Её открытость предполагает возможность глубокой модификации всеми желающими, что особенно привлекательно для приложений ИИ и серверного железа. В итоге RISC-V получил невероятное распространение: от крупных корпораций как Google, до маленьких стартапов как Tenstorrent — все создают микросхемы TPU на архитектуре RISC-V.

Такие TPU могут составить реальную конкуренцию GPU при сборке серверов для локального хостинга LLM. Как и в других приложениях самохостинга, локальная LLM на своём сервере даёт ряд преимуществ перед облачными серверами. Самое главное — это контроль над данными. Это критическое требование для компаний, которые не могут себе позволить передавать проприетарный код и другие данные в публичный сервис.

Кроме информационной безопасности, самохостинг LLM позволяет сэкономить деньги на платных подписках.

Архитектура RISC-V в перспективе поможет в будущем открыть весь стек ИИ: от аппаратного обеспечения до конечных моделей и приложений. Репозиторий Tenstorrent на Github
содержит подробные сведения об аппаратном обеспечении и программах, которые разрабатывает компания.

На диаграмме фиолетовым показан программный стек Tenstorrent, в контексте общего стека ИИ. Здесь TT-LLK — это среда для программирования одиночных TPU (написание ядер), TT-Metalium — низкоуровневая среда выполнения, которая координирует работу чипов, TT-NN — библиотека операций и API, а TT-Forge — новый компилятор MLIR. Всё это лежит в репозитории, открыто для изучения, использования и модификаций.

Будущее локального инференса

Таким образом, не только большие корпорации имеют возможность проектировать и продавать аппаратные AI-ускорители. Это может делать даже небольшой стартап, особенно во главе с талантливым инженером, и придерживаясь открытой архитектуры.

Локальные LLM становятся доступнее. Всё больше компаний инвестируют в генеративные нейросети, включая запуск корпоративных вычислительных кластеров и серверов LLM для локального инференса. Более того, подобные решения доступны и для отдельных пользователей, DIY-энтузиастов LLM, а также предпринимателей, которые имеют возможность поднять полноценный бэкенд для AI-приложений. Карта

Выход PCIe-карт Blackhole и Wormhole — долгожданное начало конкуренции на этом рынке. Например, Blackhole p150a стала первой в мире, которая преодолела барьер 24 ГБ VRAM по цене ниже $1500, что является значительным достижением. К сожалению, для типичных рабочих нагрузок LLM желательно ещё увеличить пропускную способность памяти. Но начало положено.

Tenstorrent уже анонсировала модель Blackhole p300 с 64 ГБ VRAM и пропускной способностью 1 ТБ/с (на плате два чипа Blackhole по 512 ГБ/с с быстрым интерконнектом), это уже гораздо более сбалансированный вариант. Дальше — больше:

Келлер верит, что в следующие 5−10 лет архитектура RISC-V станет повсеместно использоваться в дата-центрах, особенно для научных вычислений и суперкомпьютеров.

© 2025 ООО «МТ ФИНАНС»

Комментарии (31)


  1. Moog_Prodigy
    02.07.2025 13:15

    На реддите пишут что там ПО еще очень сырое. И даже в США эти карты хрендостаниум. Только в каких-то аукционах.


    1. BelerafonL
      02.07.2025 13:15

      самодовайбкодится


  1. Snownoch
    02.07.2025 13:15

    кто объединит ячейку памяти хотя бы 16 bit с вычислителем тензоров и придумает теплоотвод, создаст по-настоящему крутое устройство ИИ


    1. kenomimi
      02.07.2025 13:15

      тогда уже лучше сразу на аналоговую сетку закладыватся :) минимум тепла, мнгновенное вычисление вне зависимости от размера модели... Правда, программируемые резисторы и конденсаторы в нанометрах делать не научились пока что.


      1. Snownoch
        02.07.2025 13:15

        да, похоже, возвращаемся к аналоговым вычислениям

        а если еще сделать вычислитель перемножающий за один цикл...


        1. Maccimo
          02.07.2025 13:15

          На лампах нужно делать, на лампах!


          1. riv9231
            02.07.2025 13:15

            Между прочим, были лампы, которые с помощью свойств электронного луча и сложной системы электродов автоматически вычисляли дифференциальные уравнения с погрешностью до 1%. Тогда это называлось ИИ и использовалось в системах автоматизированного управления. Не смог найти сейчас описания, но я точно помню как нам показывали их в качестве предельного развития мысли развития электровакуумных устройств.


            1. roverseti
              02.07.2025 13:15

              http://www.155la3.ru/lf_9p.htm Спасибо за сообщение, Восхитительная лампа.


      1. ren_hoek
        02.07.2025 13:15

        Мгновенное вычисление на аналоговых вычислителях? Разве что при очень быстрых ОУ. Операции сложнее суммирования та еще головная боль, особенно если нужна точность.


        1. Aelliari
          02.07.2025 13:15

          Наверное 2-4 бита точности для операции умножения должны быть реальны. Ну, для тех задач где такой точности достаточно. При чем без какой-то адовой схемотехники. Но вот рост точности свыше 4 бит…


  1. 4external
    02.07.2025 13:15

    $nvda сливать или ещё рано?


    1. Snownoch
      02.07.2025 13:15

      не, рано. 32Гб версия более чем в 3 раза медленнее nvidia, а дешевле только в 2. странная затея тогда


      1. 4external
        02.07.2025 13:15

        спасибо!


  1. antivoland
    02.07.2025 13:15

    биток уже майнили?)


  1. riv9231
    02.07.2025 13:15

    В таблицы было бы интересно добавить ещё одно перспективное на бу-рынке изделие - AMD instinct mi50 32GB - эта версия сейчас в РФ с доставкой из Китая стоит в районе 17000-18000 руб.

    deepseek сказал что по fp8 и пропускной способности памяти она примерно эквивалентна RTX3090, но, заботливо предупредил deepseek, что софт сырой, вероятно, потребуется эксперименты, в чем я не сомневаюсь.

    Пока удел нищебродов типа меня только бу ускорители AMD из Китая. Я заказал пару, скоро будет ясно, можно ли на них deepseek запустить )


    1. StasTukalo
      02.07.2025 13:15

      Напишите, как запустите. Очень интересно.


      1. slavap
        02.07.2025 13:15

        У меня четыре mi50 32gb в сервере - нормально крутятся, deepseek 70b Q6 или Q8 идёт от 7 до 12 t/s в зависимости от того, что использовать llama, vLLM, ollama, ... Но чудес ждать не стоит, карты старые и довольно медленные.


        1. BelerafonL
          02.07.2025 13:15

          Поговорил с o3, говорит что карты старые, поддержка давно закончена, и для работы с ними надо старые драйвера, и не будут работать новые фишки ускорения вычислений. Придётся остаться на старых драйверах и библиотеках. А новых дешевых карт на 32Gb не делают. Вот его TL;DR

          — MI50 32 GB: 90 % лотов — Radeon VII с наклейкой. Проверяйте PCI ID (0x66A1) и объём. Работает только на ROCm ≤ 6.3, скорость ~2 ток/с на Llama‑70B Q6. Брать стоит, если устроит цена ≤ 20 k ₽ и готовы прошивать/охлаждать.

          — MI100 32 GB: новый «sweet‑spot». 750–850 USD, ROCm поддержка ещё жива, ~3–4 ток/с. Пассивный радиатор, но беспроблемней MI50.

          — Tesla V100 32 GB PCIe: CUDA 12.x, 600–900 USD. Чуть быстрее MI100 благодаря Tensor Cores, зато памяти впритык.

          — Свежих «нищебродских» 32 GB нет: W6800/W7800 стоят 1,3–2,5 k USD, RTX 5000 Ada ~4 k USD. Дешевле только древние MI/V‑серии.

          — Склеить две 16 GB‑карты можно (--tensor-parallel-size 2 в vLLM), но PCIe съест выгоду: прирост < 30 %, а сложностей × 2. Без NVLink это вариант «поместить модель любой ценой», не «ускорить».

          Итого: либо берём один честный 32 GB HBM (MI100 / V100) и живём спокойно, либо готовимся к танцам с двумя 16 GB и скорости уровня одной карты. Чудес дешевле пока не завезли.


          1. slavap
            02.07.2025 13:15

            Ты не с о3 говори, а со мной, у меня оно есть и работает :-) А o3 хрень несёт.

            1. На 70b q6 будет от 7 до 12 t/s - зависит от движка.

            2. ROCm 6.3.4 и 6.4.0 c минимальным хаком https://github.com/ROCm/ROCm/issues/4625

            3. Свежая Radeon 9700 AI с 32gb

            4. PCIe ничего не съест если карты стоят на честных 4.0 x16, e.g. EPYC server.

            5. MI100 это конечно же не 3-4t/s а гораздо быстрее.


        1. StasTukalo
          02.07.2025 13:15

          Спасибо! Блин, да, слабенько. Надеялся что будет круче. Пока 3090 и а5000 наше всё, но памяти уже сильно не хватает..


          1. slavap
            02.07.2025 13:15

            Надо минимум две 3090 чтобы deepseek 70b q4 запустить, а q6 - уже пролёт. И две 3090 будут стоить под две тысячи баксов. За эти деньги две mi100 отличный вариант.


            1. StasTukalo
              02.07.2025 13:15

              Ну не под две- скорее 1100-1300 долларов- бу 3090 сейчас на авито огромный выбор по 40-50тр. Но речь не о мелких моделях, а о нормальных на 700 млрд параметров. И вот для них не хватает памяти даже на риге с 8шт 3090/А5000.. Хочется карты с 32гб, а лучше больше- но ценник прям резко взлетает. Я поэтому и навелся на Tenstorrent p150a- у ней 32 Гб. Но чудес такого рода небывает)) Да, ну и интерконнект у них радует..


    1. Sap_ru
      02.07.2025 13:15

      Говорят, что 100% mi 32 Gb из Китая, это подделки (radeon VII с переклеенными наклейками?).

      Я, кстати, не знаю, почему это плохо, ведь это по сути одно и то же. Но люди на форумах, говорят, что так.


      1. riv9231
        02.07.2025 13:15

        Сами китайцы говорят, что перешили firmware на радеоновскую, т.к. продают её именно как игровую карту. Они, по слухам, даже кладут mini-hdmi - hdmi переходник в комплект, но по другим слухам, он не работает, даже несмотря на замену прошивки.

        Я так понял, можно перешить назад.


        1. Sap_ru
          02.07.2025 13:15

          На форумах говорили, что видео не работает и есть второстепенные проблемы с динамическим управлением питанием. Но перешить можно только программатором.


  1. Sap_ru
    02.07.2025 13:15

    Как-то сомнительно. Есть большие вопросы по стоимости и реальной производителности.


    1. Gugic
      02.07.2025 13:15

      Железки не шибко частые, но все же существуют, лично работал и с вормхолами и с блэкхолами.

      Цифры можно посмотреть тут, например - https://github.com/tenstorrent/tt-metal

      Ничего выдающегося в целом, но какая-никакая альтернатива нвидии и есть неочевидные бонусы в виде очень дешевого интерконнекта


      1. 4external
        02.07.2025 13:15

        но какая-никакая альтернатива нвидии

        а можете, чуть подробнее раскрыть в чем альтернатива?


        1. 4p4
          02.07.2025 13:15

          Альтернатива инвесторам, многие считают, что в НВ поздно вкладываться, а тут если ТТ достанется от Старгейтов и прочих триллионов то они могут сказочно взлететь через несколько итераций архитектуры.


      1. Sap_ru
        02.07.2025 13:15

        Казалось бы да, но оно же проигрывает в произовдительности-за-доллар? Тогда какой смысл брать что-то, что глючит, хуже поддерживается и при этом выходит дороже?!


        1. Gugic
          02.07.2025 13:15

          Проигрывает чему именно?

          3090 и 4090 которых больше не делают?
          5090 сейчас продаются по ~3k долларов, за эти деньги можно взять два p150, у вас будет в два раза больше памяти и в два раза меньше memory bandwidth. Не совсем честное сравнение получается.

          А если смотреть, например, на рабочих лошадок прошлого поколения - H100 (80gb), которые уходят по 25-30к за штуку, то тут уже совсем другая математика получается, особенно если учесть дешевый интерконнект на тенсторренте (QSFP прмо на плате)