Публикации с тегом инференс / forpes.ru

Публикации с тегом инференс

vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями +4

Compute crunch пришёл: как считать экономику LLM в 2026 +7

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры +14

TurboQuant. Новый алгоритм сжатия от Google +12

Конец эпохи вероятностного ИИ: почему гонка за GPU от Nvidia — это архитектурный тупик -4

Линейка HighFreq или как выжать из облака максимум для инференса, ML и других высоких нагрузок +40

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты +46

Что нового в NVIDIA Rubin CPX — платформе для AI, представленной на AI Infra Summit +5

Архитектура LPU и будущее AI без задержек +2

Как приручить LLM: подбор инфраструктуры для инференса. Часть 1 +43

LLM-инференс в 20 раз быстрее, чем на GPU! Как подключить агента-кодера с CLINE и Cerebras -2

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций +3

Сравнение двух СнК одного тех. процесса с точки зрения инференса нейронных сетей +2

Что же такое TPU +83

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса +25

«
1
2
3
»

Страница 1 из 3