LLM Inside: выжимаем максимум из Decoder Attention на GPU +39 10.03.2026 07:01 b1tway 1 Блог компании Яндекс Машинное обучение Высоконагруженные системы Серверная оптимизация GPGPU