Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster +23 14.05.2025 08:00 Myskat_90 1 Блог компании Флант Блог компании Московский кредитный банк Искусственный интеллект DevOps IT-инфраструктура