Meta представила новую многоязычную систему автоматического распознавания речи (ASR), поддерживающую свыше 1600 языков. Для сравнения — открытая модель Whisper от OpenAI распознает лишь 99.

Более того, архитектура Omnilingual ASR позволяет разработчикам самостоятельно расширять поддержку — фактически до тысяч языков. Благодаря механизму «zero-shot» обучения в контексте (in-context learning) пользователю достаточно предоставить несколько примеров аудио и текста на новом языке во время работы модели, чтобы она смогла распознавать дальнейшие фразы без дополнительного обучения.

Дисклеймер: это вольная адаптция текста издания Venture Bear. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.

Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.

Таким образом, потенциал системы охватывает более 5400 языков — практически все, для которых существует письменность. Это переход от статичных возможностей модели к гибкой платформе, которую могут адаптировать сами сообщества. 1600 языков — это официально обученный набор, но фактический потенциал модели намного шире: она способна обобщать данные и обучаться «на лету».

И самое важное — Meta открыла Omnilingual ASR под лицензией Apache 2.0, без ограничений и платных корпоративных условий, как это было с предыдущими релизами LLaMA. Исследователи и разработчики теперь могут использовать, адаптировать и внедрять модель бесплатно, в том числе в коммерческих проектах.

Новый комплект моделей, опубликованный 10 ноября на сайте Meta, в GitHub и на платформе Hugging Face, включает:

  • семейство моделей распознавания речи;

  • многоязычную модель представления аудио с 7 миллиардами параметров;

  • корпус записей более чем на 350 малоресурсных языках.

Все ресурсы доступны по открытым лицензиям, и модели работают из коробки в режиме «речь в текст».

Meta заявила в X (бывший Twitter): «Открывая эти модели и датасеты, мы стремимся разрушить языковые барьеры, расширить цифровой доступ и дать сообществам по всему миру новые инструменты».

Система для преобразования речи в текст

В основе Omnilingual ASR — преобразование устной речи в письменный текст. Модель предназначена для голосовых ассистентов, систем транскрибации, субтитров, цифровых архивов и инструментов доступности для языков с ограниченными ресурсами.

В отличие от ранних систем, которым требовались гигантские объемы размеченных данных, Omnilingual ASR содержит вариант с нулевым обучением — zero-shot. Он способен распознавать язык, которого модель никогда не «видела», используя всего несколько примеров аудио и текста. Это резко снижает порог для добавления новых и исчезающих языков, избавляя от необходимости собирать большие корпуса.

Архитектура и семейство моделей

Omnilingual ASR включает несколько линеек, обученных на 4,3 миллионах часов аудио на 1600+ языках:

  • wav2vec 2.0 — самообучающиеся модели представления речи (300 млн–7 млрд параметров);

  • CTC-модели — для эффективной супервизируемой транскрибации;

  • LLM-ASR — объединяют аудиоэнкодер и текстовый декодер на базе Transformer, обеспечивая точность уровня SOTA;

  • LLM-ZeroShot ASR — позволяет адаптироваться к новым языкам на этапе инференса.

Все модели построены по принципу «энкодер–декодер»: исходный аудиосигнал переводится в языконезависимое представление, а затем преобразуется в текст.

Почему масштаб имеет значение

Whisper и аналогичные модели хорошо работают с глобальными языками, но слабо охватывают редкие и региональные. Whisper поддерживает 99 языков, а Meta предлагает:

  • прямую поддержку более 1600 языков;

  • возможность расширения до 5400+ через in-context learning;

  • точность распознавания с ошибкой менее 10% для 78% языков.

Более 500 языков, по данным Meta, ранее не были представлены ни в одной ASR-модели. Это открывает новые возможности для сообществ, чьи языки традиционно остаются за пределами цифрового пространства.

Контекст: стратегия Meta в 2025 году и уроки Llama 4

Релиз Omnilingual ASR стал поворотным моментом в стратегии искусственного интеллекта Meta. После неудачного запуска Llama 4 в апреле 2025 года, получившего смешанные и в целом негативные отзывы, компания столкнулась с падением доверия и замедлением внедрения своих ИИ-продуктов в бизнес-среде.

После этого Марк Цукерберг назначил Александра Вана, сооснователя Scale AI, на должность Chief AI Officer и начал масштабный набор исследователей с рекордными компенсациями.

Omnilingual ASR стал символом «перезапуска» стратегии. Meta вернулась к своей сильной стороне — многоязычному ИИ, выпустив открытую, гибкую платформу с минимальными барьерами для исследователей и локальных сообществ.

Модель не только демонстрирует инженерную компетенцию компании, но и задает новый стандарт прозрачности: открытые лицензии, воспроизводимые протоколы обучения и публичные наборы данных.

Эта стратегия укладывается в обновленную концепцию Meta — «персональный суперинтеллект» и отказ от «метавселенной» в пользу фундаментальных AI-разработок.

Сообщество и сбор данных

Для достижения такого масштаба Meta объединилась с исследователями и локальными организациями в Африке, Азии и других регионах, создав корпус Omnilingual ASR Corpus — 3350 часов речи на 348 малоресурсных языках.

В проекте участвовали:

  • African Next Voices (Maseno University, University of Pretoria, Data Science Nigeria, при поддержке Gates Foundation);

  • Mozilla Common Voice (через Open Multilingual Speech Fund);

  • Lanfrica / NaijaVoices, собравшие данные по 11 африканским языкам.

Речь записывалась в естественных условиях, на живые темы — от обсуждения семьи до дружбы. Расшифровка велась с учетом локальных алфавитов и орфографических стандартов.

Производительность и оборудование

Крупнейшая модель omniASR_LLM_7B требует около 17 ГБ видеопамяти и подходит для мощных GPU.
Младшие модели (300M–1B) работают на менее производительных устройствах в режиме реального времени.

Тесты показали:

  • точность выше 90% для 95% высоко- и среднересурсных языков;

  • точность выше 90% для 36% малоресурсных языков;

  • устойчивость к шуму и новым областям применения.

Zero-shot версия omniASR_LLM_7B_ZS позволяет транскрибировать новые языки, если предоставить несколько аудио-примеров с текстом.

Доступ и инструменты

Все модели и наборы данных распространяются под открытыми лицензиями:

  • Apache 2.0 — для моделей и кода;

  • CC-BY 4.0 — для корпуса на Hugging Face.

Установка через PyPI:

pip install omnilingual-asr

Meta также предоставляет интеграцию с HuggingFace, готовые пайплайны для инференса и управление языковыми кодами.

Пример вывода списка языков:

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

print(len(supported_langs))
print(supported_langs)

Значение для бизнеса

Для компаний, работающих на многоязычных рынках, Omnilingual ASR снимает барьер внедрения систем распознавания речи.

Теперь вместо платных API с ограниченным числом языков можно использовать открытый стек, поддерживающий более 1600 языков из коробки и расширяемый до тысяч других.

Это особенно важно для секторов вроде клиентской поддержки, транскрибации, образования, гражданских сервисов и инклюзии, где локальные языки имеют стратегическое значение.

Omnilingual ASR знаменует сдвиг в парадигме ASR — от закрытых облачных решений к открытому сообществу, где каждая культура может добавить свой голос в цифровое пространство.

*Meta признана в России экстремистской организацией и запрещена

Комментарии (4)


  1. Bardakan
    11.11.2025 15:02

    у вас часть ссылок нерабочие, в частности видимо ссылка на оригинал.
    А касательно темы - есть ли возможность попробовать ее, не разбираясь в питоне? А то постоянно проблемы с тем, чтобы настроить его окружение на пк


    1. madballer34 Автор
      11.11.2025 15:02

      Сссылки поправили, спасибо! А что касается питона, то кажется, что все-таки стоит разобраться, хотя бы при помощи языковых моделей.


    1. saege5b
      11.11.2025 15:02

      https://huggingface.co/spaces/facebook/omniasr-transcriptions

      Палочкой потыкать можно тут. Правда, надо ловить момент, когда очередь освободится :(

      По ограничениям:

      For Best Results

      Duration: 3 seconds to 3 minutes

      File size: Under 100MB

      Quality: Clear speech, minimal background noise

      Too short: insufficient context for model accuracy

      Too long/large: may exceed server resources


  1. Aelliari
    11.11.2025 15:02

    Эх, меня снова начинает душить жаба при одновременно возникающем желании купить новую видеокарту