
Протестировали нейросети и показали, в чём разница между разными моделями видеокарт — не только AI/ML-инженеры должны понимать, что скрывается за TFLOPS, и в чём их разница.
Как сравнить?
Мы будем сравнивать производительность видеокарт с точки зрения конечного пользователя: время выполнения одинаковой задачи.
Пример №1
Задача — распознать запись разговора (speech to text) для дальнейшего анализа.
В качество стенда: 8 Гбайт видеопамяти NVIDIA L4 и NVIDIA A16, профиль 8Q.
ПО: Нейросетевая модель Whisper от openai.

Преимущественно тестируем модель turbo, на ней производительность выше на 46% на NVIDIA L4, в сравнении с NVIDIA A16. На моделях large-v2/v3 время обработки дольше при идентичном результате распознавания на тестовых записях.
<irony>
Можно было бы сказать: зачем вообще нам NVIDIA A16, если L4 априори быстрее/мощнее? (выбираем нужное для себя)
AI/ML-инженер скажет: чудаки, а если был бы faster-whisper или XXX, то результат был бы выше, а если бы взяли NVIDIA L40S...
</irony>
Да, всегда можно взять и что-то оптимизировать, например, faster-whisper позволяет обработать аудио на модели Turbo за 12 секунд.
Публичные платформы?
Зачем whisper и видеокарты?
Пример №1 это был вовсе не пример, а кейс компании, которой требовалось распознавать речь и далее её анализировать.
Изначально компания с помощью публичных сервисов организовывала speech-to-text, один из был SpeechKit, но результат на их записях был плачевный, более 45% ошибок.
Благодаря смене сервиса распознавания речи, а не оптимизации модели, удалось снизить количество ошибок до 29%. Нашли себе золотую середину.
Следующий этап — анализ
Компания привлекла нас как провайдеров площадки для тестирования анализа полученного текста с использованием GPU
Мы решили добавить кроме ресурсов ещё и свою инженерную экспертизу для анализа конечного решения вопроса клиента.
По опыту, распознавание и анализ текста — это именно последовательные задачи, мы не можем отвечать за конечный результат, если не знаем исходные данные: как текст был получен и как обрабатывался.
Запросили полную информацию у клиента и решили проверить распознавание текста лично. За отсутствием в тот момент фантазии просто зачитали в микрофон информацию с нашего сайта mClouds.ru.
Результаты проверили на модели, использованной клиентом, whisper на WER (word error rate). Пример кода:
from jiwer import wer
original = "Всем привет! Это mclouds ru, mclouds.ru. ..."
whisper = "Всем привет! Это mclouds.ru. ..."
yandex = "Всем привет, это м Клаудс ру м Клаудс. ру! ..."
error = wer(original, whisper)
print(f'{error:.2%} WER for whisper turbo model')
error = wer(original, yandex)
print(f'{error:.2%} WER for xednay speechkit')
13.95% WER for whisper turbo model
70.92% WER for xednay speechkit
К чему пришли
Здравый смысл — нет универсальной таблетки
Тематика и стиль текста на записи напрямую влияет на выбор целевой модели распознавания текста
Разные видеокарты могут отрабатывать по-разному на разных входных данных
Существуют разные реализации и модели для транскрибации аудио в текст, оригинал не всегда быстрее и качественнее
Кстати, 5-го августа будем проводить вебинар по теме GPU в облаке с примерами использования, можете зарегистрироваться и послушать о кейсах использования GPU, ведь GPU не только разработчикам нужна. Раскроем тему статьи подробнее.