Нейросети, видеокарты и здравый смысл / forpes.ru

Главная
Нейросети, видеокарты и здравый смысл

Нейросети, видеокарты и здравый смысл +9

29.07.2025 06:32

haumea 0 2600 Источник

Протестировали ~~нейросети~~ и показали, в чём разница между разными моделями видеокарт — не только AI/ML-инженеры должны понимать, что скрывается за TFLOPS, и в чём их разница.

Как сравнить?

Мы будем сравнивать производительность видеокарт с точки зрения конечного пользователя: время выполнения одинаковой задачи.

Пример №1

Задача — распознать запись разговора (speech to text) для дальнейшего анализа.

В качество стенда: 8 Гбайт видеопамяти NVIDIA L4 и NVIDIA A16, профиль 8Q.

ПО: Нейросетевая модель Whisper от openai.

Время обработки с учётом загрузки модели, транскрибации и сохранением обработанных данных.

Преимущественно тестируем модель turbo, на ней производительность выше на 46% на NVIDIA L4, в сравнении с NVIDIA A16. На моделях large-v2/v3 время обработки дольше при идентичном результате распознавания на тестовых записях.

<irony>

Можно было бы сказать: зачем вообще нам NVIDIA A16, если L4 априори быстрее/мощнее? (выбираем нужное для себя)

AI/ML-инженер скажет: чудаки, а если был бы faster-whisper или XXX, то результат был бы выше, а если бы взяли NVIDIA L40S...

</irony>

Да, всегда можно взять и что-то оптимизировать, например, faster-whisper позволяет обработать аудио на модели Turbo за 12 секунд.

Публичные платформы?

Зачем whisper и видеокарты?

Пример №1 это был вовсе не пример, а кейс компании, которой требовалось распознавать речь и далее её анализировать.

Изначально компания с помощью публичных сервисов организовывала speech-to-text, один из был SpeechKit, но результат на их записях был плачевный, более 45% ошибок.

Благодаря смене сервиса распознавания речи, а не оптимизации модели, удалось снизить количество ошибок до 29%. Нашли себе золотую середину.

Следующий этап — анализ

Компания привлекла нас как провайдеров площадки для тестирования анализа полученного текста с использованием GPU

Мы решили добавить кроме ресурсов ещё и свою инженерную экспертизу для анализа конечного решения вопроса клиента.

По опыту, распознавание и анализ текста — это именно последовательные задачи, мы не можем отвечать за конечный результат, если не знаем исходные данные: как текст был получен и как обрабатывался.

Запросили полную информацию у клиента и решили проверить распознавание текста лично. За отсутствием в тот момент фантазии просто зачитали в микрофон информацию с нашего сайта mClouds.ru.

Результаты проверили на модели, использованной клиентом, whisper на WER (word error rate). Пример кода:

from jiwer import wer

original = "Всем привет! Это mclouds ru, mclouds.ru. ..."
whisper = "Всем привет! Это mclouds.ru. ..."
yandex = "Всем привет, это м Клаудс ру м Клаудс. ру! ..."

error = wer(original, whisper)
print(f'{error:.2%} WER for whisper turbo model')

error = wer(original, yandex)
print(f'{error:.2%} WER for xednay speechkit')

13.95% WER for whisper turbo model
70.92% WER for xednay speechkit

К чему пришли

Здравый смысл — нет универсальной таблетки
Тематика и стиль текста на записи напрямую влияет на выбор целевой модели распознавания текста
Разные видеокарты могут отрабатывать по-разному на разных входных данных
Существуют разные реализации и модели для транскрибации аудио в текст, оригинал не всегда быстрее и качественнее

Кстати, 5-го августа будем проводить вебинар по теме GPU в облаке с примерами использования, можете зарегистрироваться и послушать о кейсах использования GPU, ведь GPU не только разработчикам нужна. Раскроем тему статьи подробнее.