Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster +13 14.05.2025 08:00 Myskat_90 0 Блог компании Флант Блог компании Московский кредитный банк Искусственный интеллект DevOps IT-инфраструктура