В мире ИИ часто ищут нестандартные пути, пытаясь оптимизировать стоимость вычислений.

Одна из таких идей — использование массива потребительских устройств, например смартфонов, для замены дорогостоящих серверных ускорителей. На первый взгляд, арифметика кажется убедительной: сложил мощности — и получил аналог.

Но так ли это на практике? В этой статье мы детально разберем, почему прямое сравнение пиковой производительности в TFLOPS вводит в заблуждение и какие ключевые факторы — от архитектурных особенностей до инфраструктурных издержек — делают альтернативу неподходящей.

Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и начать к работе с нейросетями прямо сейчас.


Недавно мне попалась статья под названием «По ту сторону мощности», где утверждалось, будто 67 iPhone могут сравниться с одним Nvidia H100. На первый взгляд, арифметика кажется убедительной: каждый iPhone выдает примерно 1 TFLOPS, значит, вместе они дают 67 TFLOPS. А это уже вроде как приближается к 494 TFLOPS у H100. Но как я покажу дальше, такая логика слишком упрощает картину и на деле не выдерживает критики.

«По ту сторону мощности»

По ту сторону мощности

В стремительном мире ИИ и распределённых вычислений на первых полосах обычно оказывается грубая сила железа. Газеты и блоги пестрят заголовками про гигантские GPU вроде NVIDIA H100, которые поднимают планку благодаря астрономическому числу терафлопсов. Но что если связка из 67 обычных устройств смогла бы показать сопоставимые результаты в ряде задач? И речь тут вовсе не о суперкомпьютерах, а, например, о смартфонах вроде iPhone 6S.

На первый взгляд, это звучит фантастически. Ведь каждый из таких телефонов выжимает максимум 0,3–1 терафлопса операций с плавающей запятой. Умножьте это на 67 — и получите от 20 до 67 терафлопс. Цифры почти вровень с базовой FP32-производительностью H100, которая колеблется от 51 до 67 терафлопс. Но тут дело куда глубже, чем сухая арифметика.

Исследования и тесты показывают: настоящая магия кроется в оптимизациях. Они позволяют этим маломощным устройствам достигать тех же результатов, что и H100, работая лишь на 5–10% от своих возможностей. Экономия электроэнергии и ресурсов — колоссальная. Особенно это заметно на стадии инференса, когда обученная модель генерирует данные по цепочке.

В следующих разделах мы шаг за шагом разберём, почему это утверждение не фантазия, а прочный факт и как оптимизации переворачивают уравнение, выводя разговор за пределы одних лишь терафлопсов.

Разбираем базовый уровень железа

Для начала нужны конкретные цифры. Устройства вроде iPhone 6S используют чипы с умеренной вычислительной мощностью — от 0,3 до 1 терафлопса в задачах с плавающей запятой (и это данные реальных бенчмарков). Объединив 67 таких телефонов в распределённую сеть, мы получаем суммарную мощь, сопоставимую с H100 в FP32-режиме. Разница в том, что H100 предназначен для дата‑центров: он блистает в задачах с огромным потоком данных, но при этом прожорлив — до 700 ватт. А каждый смартфон под нагрузкой потребляет лишь 5–10 ватт. Уже один этот факт делает распределённую схему энергоэффективной.

Но терафлопсы — лишь верхушка айсберга. Как показывают тесты вроде MLPerf, реальная эффективность ИИ зависит не от количества мощности, а от того, насколько умно система ею распоряжается. Здесь и начинается разговор о программной изобретательности.

Роль оптимизаций: как выровнять шансы

Современные нейросети изобилуют балластом — особенно большие языковые модели. Миллиарды параметров, многие из которых избыточны или чрезмерно точны для реальной практики. Поэтому оптимизация — ключ. Она убирает лишнее, не жертвуя качеством, и позволяет скромному железу выполнять задачи, которые раньше казались уделом топовых GPU.

Так, квантование (quantization) снижает разрядность весов модели: с 32 бит до 8, а иногда и до 4. Размер модели уменьшается на 75–80%, вычислительные потребности — ещё резче. Потери точности при этом обычно не превышают 2%. На практике это значит: устройство вовсе не обязано работать на пределе. Ему хватает лишь крошечной доли мощности, чтобы справляться с инференсом, экономя ресурсы и продлевая жизнь батарее.

Здесь же в дело вступает прореживание (pruning). Оно выявляет и удаляет ненужные связи в нейросети. Исследования показывают, что можно смело вычеркнуть 30–50% параметров, почти не меняя итог.

Дополняет это дистилляция (distillation): компактная «модель‑ученица» перенимает знания у громоздкой «учительницы». В результате размер уменьшается в 4–10 раз и модель прекрасно чувствует себя на «краевых» устройствах — смартфонах и планшетах.

Сложив эти техники вместе, мы получаем резкое снижение требований к железу. Кластер оптимизированных устройств больше не обязан соперничать с H100 «терафлопс в терафлопс». Он достигает эффективности и сопоставимых результатов с куда меньшими усилиями.

Но и это не предел. На сцену выходят иерархические модели рассуждений (hierarchical reasoning model, HRM) — прорыв 2025 года в области мозгоподобного ИИ. Простая двухуровневая структура с «быстрым» и «медленным» модулями позволяет достигать глубины рассуждений при всего 27 млн параметров. Это в тысячу раз меньше, чем у многих гигантов. Более того, HRM обходит титанов вроде OpenAI o3-mini на сложных задачах — и делает это, имея лишь тысячу обучающих примеров. Повторяющаяся архитектура даёт вычислительную глубину почти без лишних затрат.

В распределённых системах такие оптимизации позволяют компактным устройствам брать на себя сложный инференс, не требуя гигантской энергии.

Почему именно инференс получает наибольшую выгоду

Инференс — настоящий «сладкий кусок» во всей этой истории. В отличие от обучения, где приходится тратить чудовищные ресурсы на постоянное обновление весов, инференс — это всего лишь прогон готовой модели на новых данных. Он легче распараллеливается и куда менее прожорлив в энергопотреблении.

Прорывы 2025 года показали: задержки удалось снизить до 40%, и всё это благодаря аппаратным настройкам под мобильные процессоры. Итог — внушительная экономия энергии. В распределённых сетях, где узлы образуют федеративную паутину устройств, каждый берёт на себя кусочек общей задачи. И даже работая на минимуме, такие узлы вместе выдают производительность, сопоставимую с топовым GPU.

Исследования компактных ИИ лишь подтверждают: сочетание прореживания, квантования и дистилляции рождает модели, которые сохраняют высокий уровень качества, требуя при этом крошечных ресурсов. Например, оптимизированные конвейеры инференса позволяют сократить время обработки на 80% — и это на самых разных платформах.

Широкий контекст: исследования и эффективность

Эта перспектива перекликается с работами о предобучении в условиях «бесконечных вычислений». В них показано, что использование ансамблей и регуляризации повышает эффективность данных более чем в 5 раз; и даже подключив дистилляцию, в таком методе можно сохранить до 83% исходной пользы.

Если перенести это в распределённый мир, выходит, что маломощные системы бьют грубую силу по эффективности «на ватт». H100 сжирает до 700 Вт на задачу. А 67 оптимизированных смартфонов, работающих частично, обходятся всего в 30–60 Вт при схожих результатах.

Специализированные чипы для инференса подтверждают этот тренд. Некоторые умудряются выдавать колоссальное число операций в секунду, довольствуясь всего 4 Вт. А если учесть прогнозы: к 2029 году ИИ будет потреблять до 1,5% всей мировой электроэнергии, то ставка на оптимизации — это не только здравый смысл, но и жизненно важное условие устойчивого будущего.

В итоге тезис о том, что 67 устройств способны сравниться с одним H100, держится на сплетении двух нитей — объединении железа и изобретательности софта. Терафлопсы задают фундамент, но именно оптимизации раскрывают настоящий потенциал. Они показывают: в мире ИИ эффективность куда ценнее простой силы.

? https://supergeniuschronicles.substack.com/p/beyond‑raw‑power

Оптимизации

Оптимизации должны работать симметрично: какие приёмы применяются к iPhone, те же стоит использовать и для H100, если мы хотим честного сравнения. Будь то квантизация или платформенные твики — всё это можно внедрить и там и там. Но почти всегда подобные ухищрения связаны с издержками.

Квантизация

Что же такое квантизация? Это сжатие весов модели, которое уменьшает её размер, но снижает точность вычислений. Смысл в том, чтобы найти баланс между точностью и качеством ради большей эффективности и скорости. Проще всего сравнить со сжатием картинки: детали теряются безвозвратно, но изображение в целом остаётся узнаваемым.

  • Полная точность (FP32): 32 бита на параметр — максимальное качество, но и максимальный объём.

  • Половинная точность (FP16): 16 бит — стандарт в потребительских решениях для инференса (например, llama.cpp✶, Ollama).

  • Низкобитная квантизация (Q2–Q8): от 2 до 8 бит — модели меньше, загружаются быстрее, но точность ощутимо падает.

Квантизация неизбежно снижает точность больших языковых моделей. Это ограничивает их применение и вынуждает перепроверять результаты, чтобы сохранить качество. Правда, существуют умные методы, вроде тех, что предлагает Unsloth: они позволяют смягчить потери, хотя полностью их устранить всё равно нельзя.

Важно и то, что iPhone и Mac не поддерживают оптимизации FP4/8/16 BF16. Да, они выигрывают за счёт уменьшенного объёма модели в памяти и на диске, но сами GPU там продолжают работать в FP32 — потребляют те же ресурсы и тратят то же время. А вот H100 умеет использовать эти режимы: например, в FP16 он достигает 989 TFLOPS, а в FP8 и вовсе 1979 TFLOPS.

Механизмы внимания

У iPhone и Mac отсутствует нативная поддержка FlashAttention, хотя есть схожие, но менее эффективные варианты. К примеру, в PyTorch встроен механизм Scaled Dot Product Attention (SPDA), который экономит ресурсы, но всё же требует больше, чем FlashAttention. Последний не только даёт более качественный результат, но и требует меньше GPU‑ресурсов на Nvidia CUDA при запуске одной и той же модели. Правда, стоит понимать: любой механизм внимания по самой своей природе слегка снижает качество вывода, ведь он решает, что учитывать, а что игнорировать. Этот компромисс вполне оправдан — ведь скорость генерации токенов возрастает многократно, а потери в качестве минимальны.

Существуют прототипы FlashAttention для Apple Silicon на базе Metal Performance Shaders (MPS), например:

  • Universal‑metal‑flash‑attention с поддержкой Python (и других языков). Основной упор сделан на генерацию изображений.

  • Metal‑flash‑attention, разработанный Филипом Тернером. Там есть только Swift‑биндинги (нельзя использовать напрямую из других языков) и тоже акцент на генерацию картинок.

Та же модель + разное железо = разное качество

Многих удивляет, что одна и та же языковая модель на разных устройствах выдаёт разные результаты. И это правда: та же самая LLM на другой прошивке (не говоря уже о железе) может заметно отличаться по точности. Иногда несовпадение почти незаметно, а иногда модель начинает работать совсем иначе. Вот свежий пример:

Распределённые нейросети

Допустим, мы отложили в сторону саму математическую задачу — разделить модель на 67 кусков. Тут появляется другая проблема: в распределённой системе разделение нейросети по устройствам неизбежно увеличивает задержку на каждом слое, из‑за чего падает скорость генерации токенов. Для сглаживания узких мест потребуется дорогое сетевое оборудование, что ещё сильнее удорожает проект. Другими словами, нельзя просто взять 67 iPhone, умножить их по 1 TFLOPS и получить «как будто 67 TFLOPS». Буква S в TFLOPS означает секунды, а сеть резко замедляет обработку.

Если это не экспериментальный proof of concept, а реальное бизнес‑решение, придётся учитывать отказы устройств, резервирование, дополнительные расходы на железо и рост TCO. А ведь H100 сам по себе уже относится к топовому серверному уровню.

Для наглядности: представим маленькую нейросеть и разделим её пополам по горизонтали. Каждый нейрон в слое соединён с каждым в соседних слоях (на картинке ниже слои показаны вертикальными колонками). Разрежем такой «мозг» пополам — и мы получаем узкое место: связь между двумя половинами. Как только одна часть заканчивает вычисления, ей приходится ждать, пока вторая дойдёт до конца, прежде чем перейти к следующему слою. И так повторяется на каждом слое, при каждом запросе пользователя. А полноценные промышленные модели могут содержать по 50 слоёв и больше.

Схема нейросети из пяти слоёв: слева вход, справа выход, между ними три скрытых слоя
Схема нейросети из пяти слоёв: слева вход, справа выход, между ними три скрытых слоя

Сама идея распределённых систем на потребительском железе мне не кажется сомнительной — крупные игроки, включая Nvidia, уже внедряют подобные подходы для масштабных дата‑центров и корпоративных задач. Это нужно не только для моделей, которые не помещаются в один H100, но и для тех, что выходят за пределы целого дата‑центра, как при обучении гигантских сетей. Так что сама концепция распределённости — вполне здравая, но сравнение с кучкой смартфонов тут не выдерживает серьёзности.

Многопоточность

Настоящая сила Nvidia H100 раскрывается в её способности работать с тысячами потоков одновременно. Чтобы приблизиться к этому уровню параллельности, пришлось бы увеличить количество iPhone не в десятки, а в тысячи раз.

H100 оснащена 44 потоковыми мультипроцессорами, и каждая способна задействовать до 2048 параллельных потоков, в сумме это около 294 тысяч потоков. Карта обрабатывает батчи размером от 512 до 2048 выборок — то есть может одновременно обслуживать тысячи пользователей. У iPhone же пределы куда скромнее: он справляется лишь с одним‑двумя образцами за раз (и то в зависимости от размера модели).

Цена

Стоимость H100 держится на уровне около 30 000 $. Делим на 67 и получаем ~447,76 $. Но попробуй‑ка найти iPhone по такой цене — нереально. Да и как мы уже выяснили, чтобы сравняться с H100, понадобилось бы не 67 телефонов, а значительно больше. С другой стороны, H100 — это серверная карта, её не вставишь в домашний компьютер.

Энергопотребление

Да, у Nvidia есть куда расти по части энергоэффективности. Их карты прожорливы, и это факт. Но попытка компенсировать мощность за счёт сотен iPhone приведёт лишь к ещё более чудовищному потреблению энергии. И надо помнить: инференс — это лишь часть картины. Модели ещё нужно обучать, а для этого требуется железо покруче любого смартфона.

Настоящая угроза

По моему мнению, куда серьёзнее для Nvidia выглядит BitNet. Эта архитектура требует в разы меньше ресурсов, чтобы добиться сопоставимого качества языковых моделей. Ей не нужны сложные операции с плавающей точкой и специализированные ASIC‑чипы. BitNet можно использовать как для инференса, так и для обучения нативных моделей.

На сентябрь 2025 года максимальный размер такой модели достигает 2B. Цифра вроде скромная, но её точность сопоставима с обычными 2B‑моделями на плавающей точке, при этом BitNet требует гораздо меньше памяти, дискового пространства, энергии и, главное, процессорных ресурсов. Эффективность настолько высока, что модель можно запустить даже на CPU, обходясь без умножений с плавающей точкой и ограничиваясь битовыми операциями вроде сложения целых чисел и смены знака.


Это небольшое исследование началось с любопытства, а закончилось твердой уверенностью. Каждая H100 — это не просто «железка», а результат колоссальной работы тысяч инженеров, решивших проблемы, о которых при использовании iPhone можно даже не догадываться.

Я закрыл для себя этот вопрос и извлек из урока простую истину: правильный инструмент не просто ускоряет работу, он делает ее вообще возможной. И для задач AI таким инструментом сегодня является H100, а не коробка со смартфонами.

Llama — проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Комментарии (7)


  1. bolk
    27.09.2025 19:05

    H100 — это серверная карта, её не вставишь в домашний компьютер.

    Что мешает-то, кроме стоимости?


    1. DirectoriX
      27.09.2025 19:05

      Отчасти - нетривиальная система охлаждения


      1. bolk
        27.09.2025 19:05

        Ничего нетривиального — один высокооборотистый мелкий вентилятор на стяжках ставим в щель, больше ничего не надо.


  1. softi
    27.09.2025 19:05

    Почему триллион перфокарт не заменят 1Гбайт оперативки? :)


    1. TimID
      27.09.2025 19:05

      Может потому, что Перфокарта - это аналог HDD в лучшем случае, а никак не Оперативного Запоминающего Устройства


      1. krote
        27.09.2025 19:05

        так и в статье зачем то взяты смартфоны, которые никак не видеокарты. Уже бы сравнивали с потребительскими видеокартами тогда.


  1. krote
    27.09.2025 19:05

    Зачем сравнивать разные никак не конкурирующие устройства? Это все равно что сравнить самосвал с велосипедами.