
Команда Alibaba Cloud выпустила Qwen3-ASR-Toolkit — открытый инструмент для транскрипции аудио- и видеофайлов любой длительности. Решение построено на базе модели Qwen3-ASR (ранее Qwen3-ASR-Flash) и устраняет ключевую проблему большинства API для распознавания речи — ограничение по длительности файла.
Чем Qwen3-ASR-Toolkit отличается от конкурентов
Техническая основа
Qwen3-ASR-Toolkit использует мультимодальную архитектуру Qwen3-Omni, обученную на десятках миллионов часов аудиоданных. Модель поддерживает 11 языков: английский, китайский, русский, японский и другие, эффективно работает с различными акцентами и автоматически фильтрует фоновый шум.
По результатам бенчмарков на Common Voice и LibriSpeech, модель превосходит по точности Gemini 2.5 Pro и другие популярные решения для распознавания речи.
Решение проблемы длительности
API версия Qwen3-ASR имеет жёсткое ограничение — 3 минуты на запрос. Для часовых подкастов или длинных лекций это критично. Toolkit обходит лимит через интеллектуальное разделение:
Voice Activity Detection (VAD) находит естественные паузы в речи
Файл разбивается на сегменты без обрезки слов посередине предложений
Сегменты обрабатываются параллельно (по умолчанию 4 потока, до 8+)
Результаты склеиваются в единый текст
Универсальность форматов
Поддерживаются все популярные форматы через FFmpeg:
Видео: MP4, MOV, MKV
Аудио: MP3, WAV, M4A
Инструмент автоматически приводит звук к требуемому формату 16 кГц моно, независимо от исходной частоты дискретизации или количества каналов.
Установка и настройка
Требования
Python 3.8+
FFmpeg (для обработки медиафайлов)
API-ключ DashScope от Alibaba Cloud
Установка FFmpeg
# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg
# macOS (с Homebrew)
brew install ffmpeg
# Windows: скачать с https://ffmpeg.org/download.html
Установка Qwen3-ASR-Toolkit
# Установка из PyPI
pip install qwen3-asr-toolkit
# Или из исходников
git clone https://github.com/QwenLM/Qwen3-ASR-Toolkit.git
cd Qwen3-ASR-Toolkit
pip install .
Получение API-ключа
Зарегистрируйтесь в DashScope Console
Создайте API-ключ
Установите переменную окружения:
# Linux/macOS
export DASHSCOPE_API_KEY=your_key_here
# Windows
set DASHSCOPE_API_KEY=your_key_here
Использование
Базовый пример
# Простая транскрипция
qwen3-asr -i "/path/to/lecture.mp4"
# С указанием ключа в команде
qwen3-asr -i "/path/to/podcast.wav" -key "your_api_key"
Оптимизация производительности
# Увеличение количества потоков до 8
qwen3-asr -i "/path/to/meeting.m4a" -j 8
# Подробный вывод для отладки
qwen3-asr -i "/path/to/conference.mp3" -v
# Комбинирование параметров
qwen3-asr -i "/path/to/longfile.wav" -j 8 -v
Программное использование
from qwen3_asr_toolkit import transcribe_file
result = transcribe_file(
input_path="/path/to/audio.mp3",
api_key="your_key",
num_threads=4,
verbose=True
)
print(result)
Технические детали
Архитектура обработки
Извлечение аудио: FFmpeg конвертирует входной файл
Ресэмплинг: приведение к 16 кГц моно через
ffmpeg -i input -ar 16000 -ac 1 output.wav
VAD-сегментация: определение пауз длиннее 0.5-1 сек для разбивки
Параллельная обработка:
concurrent.futures.ThreadPoolExecutor
с настраиваемым количеством потоковСклеивание результатов: формирование финального текста с таймстампами
Производительность
На тестовом оборудовании (Core i7, 16 ГБ RAM):
30-минутный MP3: 2-3 минуты обработки при 4 потоках
Точность на русском языке: ~95% (зависит от качества записи)
Поддержка акцентов: от московского до региональных диалектов
Ограничения
Требует интернет-соединения (облачное API)
Нет кэширования результатов
Зависит от квот DashScope (бесплатные лимиты проверяйте в консоли)
Практические сценарии применения
Для журналистов и исследователей
Транскрипция интервью и пресс-конференций
Обработка архивных записей
Создание субтитров для видеоматериалов
Для разработчиков
Интеграция в системы автоматизации
Создание голосовых ботов и ассистентов
Обработка пользовательского контента
Для образования
Транскрипция лекций и семинаров
Создание текстовых версий учебных материалов
Поддержка людей с нарушениями слуха
Альтернативы и сравнение
Решение |
Лимит времени |
Языки |
Цена |
Качество (RU) |
---|---|---|---|---|
Qwen3-ASR-Toolkit |
Нет |
11 |
Бесплатно* |
95% |
OpenAI Whisper |
Нет |
99+ |
Локально |
90-93% |
Google Speech-to-Text |
10 часов |
125+ |
$0.006/мин |
92-95% |
Яндекс SpeechKit |
30 сек (API) |
12 |
₽1.20/мин |
96-98% |
*Бесплатно в рамках квот DashScope
Заключение
Qwen3-ASR-Toolkit демонстрирует подход Alibaba к демократизации ИИ-технологий через открытые инструменты. Для русскоязычных пользователей это особенно ценно — модель качественно обрабатывает речь с различными акцентами и не требует дополнительного обучения.
Инструмент идеально подходит для задач, где нужна быстрая и точная транскрипция без ограничений по длительности. Единственное требование — стабильное интернет-соединение для обращений к API.
*Результаты могут варьироваться в зависимости от условий записи и акцента спикеров.
fosihas
Зарегистрируйтесь в DashScope Console
еще тут квест на получение АЙ-ди