Привет, Хабр! Я Идрис Юсупов, занимаюсь направлением искусственного интеллекта в AutoFAQ. Мы делаем омниканальную платформу на базе ИИ для поддержки клиентов и сотрудников.

Недавно я решил проверить, какие видеокарты выбрать для генеративного ИИ. Почему это важно? Потому что для компаний вопрос выбора железа всегда болезненный. Оно должно помогать решать задачи и при этом оставаться в разумных рамках по стоимости.

Материал будет полезен ИТ-директорам, архитекторам решений и инженерам, которые выбирают видеокарты для запуска генеративного ИИ в корпоративной инфраструктуре. В статье расскажу, где хватает проверенных карт, а где уже стоит смотреть на новое поколение вроде Blackwell. Под катом — цифры, метрики и выводы.


Почему выбор вычислительной инфраструктуры стал ключевым вопросом

Ещё недавно компании, которые планировали внедрение генеративного ИИ, шли по привычному пути. Если нужен был цифровой помощник в корпоративном периметре, я тоже смотрел бы в сторону проверенных серверных решений. NVIDIA A100 или H100 считались стандартом: стабильные, предсказуемые, с достаточной производительностью для больших моделей.

Но радость от такого «понятного выбора» быстро упиралась в цену. Конфигурация с одной картой обходилась примерно в 4–4,5 млн рублей, и для многих организаций это становилось непреодолимым барьером на старте.

Ситуация изменилась. На рынке появились альтернативы: модифицированные игровые карты RTX 4090 с 48 ГБ видеопамяти, совершенно новые решения на архитектуре Blackwell и подходы вроде горизонтального масштабирования. Я решил проверить эти варианты на практике и разобраться, какие из них дают лучший баланс между скоростью, стабильностью и стоимостью.

В первую очередь меня интересовали три кандидата, которые отражают разные подходы: проверенные серверные решения, более доступные массовые карты и новое поколение. Ниже я подробно расскажу про каждый из них.

Теоретически LLM можно запускать и без GPU, но в реальных условиях это приводит к критическому падению производительности. Для клиентского сервиса, HR или IT-поддержки такой сценарий просто неприемлем.

Кандидаты для тестов и роль Blackwell

В какой-то момент я понял, что ограничиться проверкой «классики» вроде A100 и 4090 будет недостаточно. На рынке появился новый игрок — видеокарты на архитектуре Blackwell, и пройти мимо него было нельзя.

Почему это важно? Blackwell открывает то, что раньше было недоступно, а именно — поддержку форматов вычислений FP4 и FP6. Это значит, что на одной карте можно запускать большие модели, которые просто не помещаются в A100 или 4090. Для примера: модель gpt-oss-120B в FP4 спокойно загружается на Blackwell, так как там имеется аппаратная поддержка FP4/NVFP4, что идеально под MXFP4-веса gpt-oss. Иными словами, если раньше внедрение таких моделей требовало сложной и дорогой инфраструктуры, то Blackwell позволяет делать это быстрее, компактнее и с меньшими затратами.

Но я понимал, что сосредоточиться только на Blackwell было бы неправильно. Для бизнеса важно видеть не только самые новые решения, но и варианты, которые можно купить и внедрить прямо сейчас. Поэтому в тесты я включил ещё две конфигурации. A100 — как эталонное серверное решение, которое долгие годы считалось стандартом в корпоративных внедрениях. Связка из двух модифицированных RTX 4090 по 48 GB VRAM — как противоположный полюс и более доступный вариант, который часто используют для пилотных проектов и экспериментов.

Как я строил тесты

Когда я подошёл к экспериментам, встал вопрос: как построить тесты, чтобы условия были максимально близки к реальной работе? Сухие синтетические бенчмарки не показывают, с чем компании сталкиваются каждый день.

Я выделил два ключевых параметра.

Первый — длина контекста. Это объём текста в токенах, на который модель опирается при генерации ответа. Для примера: слово «клиент» может быть одним токеном, а «персонализированный» — двумя или тремя. Чем больше контекст, тем больше информации учитывает модель, но тем выше нагрузка на инфраструктуру. В реальной поддержке это значит более точные ответы, но и рост требований к оборудованию и бюджету.

Второй параметр — нагрузка на систему. Я варьировал количество одновременных диалогов и число запросов в минуту, чтобы смоделировать работу ассистента в пиковые часы. Качество ответов принимал за константу: стабильно хорошее, подходящее для клиентской и внутренней поддержки.

Такой подход позволил проверить не только «чистую скорость» видеокарт, но и то, как они ведут себя в реальных сценариях. Я смотрел, выдерживают ли они нагрузку, не растёт ли время отклика и остаётся ли система удобной для пользователей.

Для теста я выбрал свежий файнтюн Qwen3-32B от Т-Банка. Он интересен тем, что доступен в двух вариантах — стандартном и с Eagle-декодером, который ускоряет генерацию ответов. В реальных сценариях время отклика критично, поэтому мы сосредоточились именно на втором варианте.

В итоге я сравнил три конфигурации (цены актуальны на сентябрь 2025 года, средний срез среди поставщиков):

  • NVIDIA A100 80 ГБ - 2 500 000 руб.

  • связка 2×RTX 4090 по 48 ГБ (итого 96 ГБ) - 375 000 руб. каждая (750 000 руб. всего)

  • NVIDIA RTX PRO 6000 Blackwell Workstation Edition (96 ГБ) - 1 200 000 руб.

Что получилось в итоге

Я протестировал GPU на внутреннем бенчмарке, который измеряет end-to-end задержку системы с учётом накладных расходов (например, structured outputs в JSON). При использовании контекста в 8192 и 16384 токенов преимущество RTX PRO 6000 Blackwell очевидно — он обгоняет A100 и 4090 примерно в 1.2–1.6 раза.

Параллельные запросы

В отдельном тесте я проверил масштабируемость под высокой нагрузкой с помощью sglang.bench_serving. Здесь специальные оптимизации не использовались, зато число параллельных запросов было сильно увеличено. На графиках (ось X — число параллельных запросов, ось Y — время ответа в секундах) видно:

  • RTX PRO 6000 сохраняет низкое время отклика даже при высокой нагрузке и выходит в явные лидеры;

  • 2×4090 держатся на втором месте и показывают очень достойный результат за свою стоимость;

  • A100 остаётся стабильным, но заметно проигрывает в скорости при росте числа запросов.

Что выбрать прямо сейчас

Тесты показали, что на рынке больше нет единственного правильного варианта и каждая конфигурация имеет свою логику.

  • Если бюджет ограничен, самым разумным выбором будет связка 2×RTX 4090, которая обеспечивает производительность на уровне A100 и при этом обходится в разы дешевле.

  • Если на первом месте скорость отклика и возможность запускать действительно большие модели, то очевидное преимущество у Blackwell RTX PRO 6000.

  • A100 сегодня занимает промежуточное положение, остаётся надёжным и предсказуемым, но уже не лидирует ни по цене, ни по производительности.

Главный вывод заключается в том, что при внимательном выборе конфигурации можно сократить затраты на внедрение генеративного ИИ в корпоративный периметр в два–три раза, сохранив стабильность и качество работы ассистента.

Эта статья открывает серию экспериментов нашей команды. В следующем материале сравним разные системы RAG и разберём, как выбранная архитектура поиска влияет на скорость и качество ответов. После этого перейдём к тестам числовых форматов вычислений FP8 и FP4, чтобы показать, насколько можно ускорить генерацию и как сокращение точности отражается на качестве работы моделей.

Комментарии (0)