
Meta представила новую многоязычную систему автоматического распознавания речи (ASR), поддерживающую свыше 1600 языков. Для сравнения — открытая модель Whisper от OpenAI распознает лишь 99.
Более того, архитектура Omnilingual ASR позволяет разработчикам самостоятельно расширять поддержку — фактически до тысяч языков. Благодаря механизму «zero-shot» обучения в контексте (in-context learning) пользователю достаточно предоставить несколько примеров аудио и текста на новом языке во время работы модели, чтобы она смогла распознавать дальнейшие фразы без дополнительного обучения.
Дисклеймер: это вольная адаптция текста издания Venture Bear. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.
Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.
Таким образом, потенциал системы охватывает более 5400 языков — практически все, для которых существует письменность. Это переход от статичных возможностей модели к гибкой платформе, которую могут адаптировать сами сообщества. 1600 языков — это официально обученный набор, но фактический потенциал модели намного шире: она способна обобщать данные и обучаться «на лету».
И самое важное — Meta открыла Omnilingual ASR под лицензией Apache 2.0, без ограничений и платных корпоративных условий, как это было с предыдущими релизами LLaMA. Исследователи и разработчики теперь могут использовать, адаптировать и внедрять модель бесплатно, в том числе в коммерческих проектах.
Новый комплект моделей, опубликованный 10 ноября на сайте Meta, в GitHub и на платформе Hugging Face, включает:
семейство моделей распознавания речи;
многоязычную модель представления аудио с 7 миллиардами параметров;
корпус записей более чем на 350 малоресурсных языках.
Все ресурсы доступны по открытым лицензиям, и модели работают из коробки в режиме «речь в текст».
Meta заявила в X (бывший Twitter): «Открывая эти модели и датасеты, мы стремимся разрушить языковые барьеры, расширить цифровой доступ и дать сообществам по всему миру новые инструменты».
Система для преобразования речи в текст
В основе Omnilingual ASR — преобразование устной речи в письменный текст. Модель предназначена для голосовых ассистентов, систем транскрибации, субтитров, цифровых архивов и инструментов доступности для языков с ограниченными ресурсами.
В отличие от ранних систем, которым требовались гигантские объемы размеченных данных, Omnilingual ASR содержит вариант с нулевым обучением — zero-shot. Он способен распознавать язык, которого модель никогда не «видела», используя всего несколько примеров аудио и текста. Это резко снижает порог для добавления новых и исчезающих языков, избавляя от необходимости собирать большие корпуса.
Архитектура и семейство моделей
Omnilingual ASR включает несколько линеек, обученных на 4,3 миллионах часов аудио на 1600+ языках:
wav2vec 2.0 — самообучающиеся модели представления речи (300 млн–7 млрд параметров);
CTC-модели — для эффективной супервизируемой транскрибации;
LLM-ASR — объединяют аудиоэнкодер и текстовый декодер на базе Transformer, обеспечивая точность уровня SOTA;
LLM-ZeroShot ASR — позволяет адаптироваться к новым языкам на этапе инференса.
Все модели построены по принципу «энкодер–декодер»: исходный аудиосигнал переводится в языконезависимое представление, а затем преобразуется в текст.
Почему масштаб имеет значение
Whisper и аналогичные модели хорошо работают с глобальными языками, но слабо охватывают редкие и региональные. Whisper поддерживает 99 языков, а Meta предлагает:
прямую поддержку более 1600 языков;
возможность расширения до 5400+ через in-context learning;
точность распознавания с ошибкой менее 10% для 78% языков.
Более 500 языков, по данным Meta, ранее не были представлены ни в одной ASR-модели. Это открывает новые возможности для сообществ, чьи языки традиционно остаются за пределами цифрового пространства.
Контекст: стратегия Meta в 2025 году и уроки Llama 4
Релиз Omnilingual ASR стал поворотным моментом в стратегии искусственного интеллекта Meta. После неудачного запуска Llama 4 в апреле 2025 года, получившего смешанные и в целом негативные отзывы, компания столкнулась с падением доверия и замедлением внедрения своих ИИ-продуктов в бизнес-среде.
После этого Марк Цукерберг назначил Александра Вана, сооснователя Scale AI, на должность Chief AI Officer и начал масштабный набор исследователей с рекордными компенсациями.
Omnilingual ASR стал символом «перезапуска» стратегии. Meta вернулась к своей сильной стороне — многоязычному ИИ, выпустив открытую, гибкую платформу с минимальными барьерами для исследователей и локальных сообществ.
Модель не только демонстрирует инженерную компетенцию компании, но и задает новый стандарт прозрачности: открытые лицензии, воспроизводимые протоколы обучения и публичные наборы данных.
Эта стратегия укладывается в обновленную концепцию Meta — «персональный суперинтеллект» и отказ от «метавселенной» в пользу фундаментальных AI-разработок.
Сообщество и сбор данных
Для достижения такого масштаба Meta объединилась с исследователями и локальными организациями в Африке, Азии и других регионах, создав корпус Omnilingual ASR Corpus — 3350 часов речи на 348 малоресурсных языках.
В проекте участвовали:
African Next Voices (Maseno University, University of Pretoria, Data Science Nigeria, при поддержке Gates Foundation);
Mozilla Common Voice (через Open Multilingual Speech Fund);
Lanfrica / NaijaVoices, собравшие данные по 11 африканским языкам.
Речь записывалась в естественных условиях, на живые темы — от обсуждения семьи до дружбы. Расшифровка велась с учетом локальных алфавитов и орфографических стандартов.
Производительность и оборудование
Крупнейшая модель omniASR_LLM_7B требует около 17 ГБ видеопамяти и подходит для мощных GPU.
Младшие модели (300M–1B) работают на менее производительных устройствах в режиме реального времени.
Тесты показали:
точность выше 90% для 95% высоко- и среднересурсных языков;
точность выше 90% для 36% малоресурсных языков;
устойчивость к шуму и новым областям применения.
Zero-shot версия omniASR_LLM_7B_ZS позволяет транскрибировать новые языки, если предоставить несколько аудио-примеров с текстом.
Доступ и инструменты
Все модели и наборы данных распространяются под открытыми лицензиями:
Apache 2.0 — для моделей и кода;
CC-BY 4.0 — для корпуса на Hugging Face.
Установка через PyPI:
pip install omnilingual-asr
Meta также предоставляет интеграцию с HuggingFace, готовые пайплайны для инференса и управление языковыми кодами.
Пример вывода списка языков:
from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs
print(len(supported_langs))
print(supported_langs)
Значение для бизнеса
Для компаний, работающих на многоязычных рынках, Omnilingual ASR снимает барьер внедрения систем распознавания речи.
Теперь вместо платных API с ограниченным числом языков можно использовать открытый стек, поддерживающий более 1600 языков из коробки и расширяемый до тысяч других.
Это особенно важно для секторов вроде клиентской поддержки, транскрибации, образования, гражданских сервисов и инклюзии, где локальные языки имеют стратегическое значение.
Omnilingual ASR знаменует сдвиг в парадигме ASR — от закрытых облачных решений к открытому сообществу, где каждая культура может добавить свой голос в цифровое пространство.
*Meta признана в России экстремистской организацией и запрещена
Комментарии (4)

Aelliari
11.11.2025 15:02Эх, меня снова начинает душить жаба при одновременно возникающем желании купить новую видеокарту
Bardakan
у вас часть ссылок нерабочие, в частности видимо ссылка на оригинал.
А касательно темы - есть ли возможность попробовать ее, не разбираясь в питоне? А то постоянно проблемы с тем, чтобы настроить его окружение на пк
madballer34 Автор
Сссылки поправили, спасибо! А что касается питона, то кажется, что все-таки стоит разобраться, хотя бы при помощи языковых моделей.
saege5b
https://huggingface.co/spaces/facebook/omniasr-transcriptions
Палочкой потыкать можно тут. Правда, надо ловить момент, когда очередь освободится :(
По ограничениям: