Как оптимизировать LLM-инференс в 2026 году +18 22.06.2026 15:40 sir-off 2 GPGPU Блог компании Cloud.ru Машинное обучение Параллельное программирование DevOps Искусственный интеллект
Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах +11 12.05.2026 08:01 Ser_no 1 Блог компании Битрикс24 Искусственный интеллект Машинное обучение
KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов +4 10.04.2026 11:21 YUNGC0DE 0 Машинное обучение Искусственный интеллект
Погоди переезжать на дешёвую модель: считаем effective cost с учётом кэша +20 10.03.2026 08:00 Ser_no 0 Искусственный интеллект Блог компании Битрикс24