В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large language models). Описана необходимость создания подобных средств обучения в России в условиях ограниченного доступа к зарубежным языковым сервисам, а также обозначена актуальность проблемы формирования разговорных навыков вне языковой среды. Автором представлен алгоритм функционирования тренажёра, включающий распознавание речи, генерацию ответов, синтез голоса и анализ выполнения учебных задач. В качестве важного достоинства тренажера отмечена его мультиязычная направленность и гибкость настройки под имеющиеся компьютерные средства. Дополнительно рассматривается потенциал интеграции речевого тренажера в образовательный процесс российских вузов на основе отечественных больших языковых моделей (YandexGPT, GigaChat) для создания автономных интерактивных речевых систем обучения иностранным языкам.
Появление и развитие речевых компьютерных тренажеров
Стремительное развитие искусственного интеллекта (ИИ) привело к появлению и массовому распространению генеративных нейросетей, ставших активно использоваться в образовании в качестве инструмента для решения профессиональных задач. Такие технологии применяются для разработки нового учебного материала, включающего тексты, изображения, музыку, видео, диалоги, а также выступают основой функционирования языковых онлайн-сервисов. Данные ИИ-инструменты способны взять на себя некоторые функции преподавателя, в том числе по организации учебной практики обучающихся на основе их учебного взаимодействия; контроля сформированности языковых навыков и развития иноязычных речевых умений обучающихся.
На сегодняшний день всё больше изучающих иностранные языки открывают для себя интерактивные онлайн-тренажеры – приложения, где можно учить язык через речевые упражнения. Программы по своей специфики схожи с компьютерными чат-ботами, к основным преимуществам которых относится: повышение мотивации к изучению иностранного языка, возможность улучшить иноязычные речевые умения, доступность для обучающихся независимо от места их расположения и времени, снижение уровня тревожности при взаимодействии с машиной. Обучение через данные программы основано на языковом взаимодействии с нейросетями, которые в максимальной степени помогают пользователю воспроизвести диалог, таким образом, как его вы вел носитель языка. В ходе такой коммуникации отрабатываются конкретные речевые ситуации типичные для изучающих иностранный язык при нахождении за рубежом, в ходе их практической отработки тренажер исправляет совершаемые ошибки и обеспечивает дальнейший учебный прогресс.
Основное преимущество данных ИИ-тренажеров по сравнению с традиционными средствами обучения заключается в возможности формирования навыков разговорной речи вне языковой среды. Необходимо отметить, что развитие у обучающихся навыков устной коммуникации с носителями языка на этапе обучения всегда оставалась одной из наиболее сложно решаемых задач для российских специализированных языковых вузов, и в лингводидактике в целом. Так, успешное формирование речевых навыков требует соблюдения двух важных ключевых условий: полноценное языковое взаимодействие с носителем языка и грамотное методическое сопровождение процесса коммуникации. При этом достаточно сложно достичь одновременно двух условий для формирования у обучающихся речевых навыков вследствие следующих противоречий:
преподаватели имеют необходимый опыт и владеют коммуникативной методикой обучения, но при этом не являются носителями иностранного языка и не могут обеспечить максимальную реалистичность ведения диалога;
носители иностранных языков, которые проживают на территории России или с которыми можно общаться онлайн через Интернет в свою очередь осуществляют эффективное коммуникативное взаимодействие с обучающимся, но не владеют основами лингводидактики.
Адаптированные речевые тренажеры в случае внедрения их в образовательный процесс высших учебных заведений лингвистического профиля смогли бы более эффективно решать проблему формирования речевых навыков в рамках программ обучения на основе действующих федеральных государственных стандартов по различным специальностям.
Однако, несмотря на доступность в России большого количества разноплановых онлайн-сервисов для изучения иностранных языков, наиболее эффективные и успешные интерактивные речевые сервисы, например, Gliglish, SpeakPal, Praktika и SmallTalk2Me, принадлежат иностранным компаниям. Соответственно, в условиях блокировки доступа на некоторые западные Интернет-ресурсы и ограничений на перевод денежных средств для оплаты услуг, российские образовательные учреждения и изучающие иностранные языки в частности располагают ограниченными возможностями в вопросах использования таких интерактивных речевых платформ для практики навыков ведения разговорной речи.
Но даже в условиях санкционных и технологических ограничений со стороны западных стран в России есть всё, чтобы строить автономные решения: открытые языки программирования (Python/C++), библиотечная экосистема, зрелые открытые стеки по ASR/TTS, а также отечественные LLM (YandexGPT, Gigachat).
На сегодняшний день крупнейшие российские IT-разработчики в большей мере ориентированы на оптимизацию задач, связанных с решением автоматизации процессов консультирования с помощью компьютерных ассистентов, использованием голосовых чат-ботов для сбора информации от клиентов, внедрением речевых тренажеров по тренингам продаж и подготовкой операторов и т.д. К примеру, среди российских компаний, предоставляющих подобные услуги, можно выделить «Tomoru» (разработка голосовых роботов с естественным звучанием для тренингов по найму, продажам и технической поддержке) и ZIAX (создание чат-ботов и голосовых ассистентов для реализации сложных сценариев общения с клиентами).
Свою очередь использование интерактивных речевых тренажеров, адоптированных под потребности российской аудитории, могло бы более эффективно решать проблему формирования навыков разговорной речи в сфере образования в ходе языковой подготовки в учебных учреждениях.
LLM – как основа генеративного ИИ
Существующие сервисы по развитию навыков разговорной речи и поддержанию диалогов с клиентами основаны на применении больших языковых моделей, которые являются основой генеративного искусственного интеллекта. Данные модели представляют собой мощный инструмент для обработки, анализа и генерации текстовых массивов на естественном языке, обладают широкой функциональностью и могут решать множество задач в лингводидактике – моделирование диалогов с носителями языка, отработка грамматических упражнений, аудирование, изучение новой лексики, оценка качества перевода текстов и т.д. В ходе разработки речевого тренажера хорошие результаты по генерации диалогов показали иностранные мультиязычные модели Qwen, Llama и Gemma, которые продемонстрировали высокую реалистичность ведения диалога, эффективность и адаптивность к разным языковым ситуациям.
Российские модели YandexGPT и Gigachat также поддерживают несколько европейских языков и могут применяться в качестве основы для создания сервиса по ведению диалога. Используя данные модели, вполне возможно повторить имеющиеся функции в западных языковых речевых сервисах: моделирование реальных диалоговых сценариев, исправление ошибок, предоставление подсказок по оптимальному построению фразы, закрепление на практике новой лексики, отслеживание изменение прогресса и т.д.
Что такое GolosAI?
В результате осмысления автором статьи проблемы формирования разговорных умений и навыков вне языковой среды при помощи компьютерных средств на базе ИИ был разработан речевой тренажер GolosAI. С технической точки зрения алгоритм функционирования тренажера является следующим: распознавание речи пользователя и ее перевод в текст для последующей обработки; текстовая генерация ответа с помощью подключаемых больших языковых моделей; озвучивание готовых реплик для обучающегося, анализ выполнения учебных задач.
Разработанный экспериментальный тренажер поддерживает обучение на английском, немецком, французском, испанском и русском языках, может работать полностью автономно офлайн или в гибридном режиме с внешними LLM. При использовании тренажера для изучения нескольких иностранных языков целесообразно использовать многоязычные модели, например, Gemma, Qwen и YandexGPT, которые продемонстрировали устойчивость к моделироваию речевых ситуаций на разных языках и адекватные реакции на реплики пользователей. По результатам апробации тренажера выявлен эмпирический порог минимального уровня параметров больших языковых моделей, так для естественного ведения диалога и адекватного речевого реагирования достаточно 3-4 млрд. параметров. При этом более крупные модели еще лучше удерживают контекст и повышают уместность ответов в профессионально-ориентированных ситуациях – автором через облачные провайдеры (www.cloud.ru или Yandex Cloud) для тренажера подключалась внешняя модель Qwen3-Next-80B-A3B-Instruct с объёмом 80 млрд параметров.
Техническая архитектура и алгоритм работы тренажера
Пайплайн общения в GolosAI выглядит так:
1. Аудио-вход. Микрофонный поток уходит на распознавание после того, как пользователь отпускает кнопку «Запись».
2. ASR (распознавание). Основной движок – faster-whisper (CTranslate2) с локальной моделью (small/medium/large-v2/-v3) в формате CT2-каталога. На слабых машинах можно переключиться на менее затратный Vosk
3. Диалоговая логика и LLM. Вопрос/реплика обучающегося вместе с контекстом (историей диалога в скользящем окне) идут в выбранную LLM. Поддерживаются локальные OpenAI-совместимые эндпоинты (например, LM Studio) или внешние API (в том числе сервисы Cloud.ru, Yandex Cloud). Пользователь может выставить необходимые параметры генерации (temperature, max tokens, frequency penalty, presence penalty, «окно истории»).
4. TTS (озвучивание). Используется Piper с регулировкой length_scale (скорость речи) и пауз между предложениями. На Windows Piper и FFmpeg запускаются в «тихом» режиме (без всплывающих консолей).
5. Оценка целей и отчёт. Для формирования итогового отчёта по речевой ситуации используется упрощённый промпт на LLM, включающий только цели без анализа грамматики. На вход LLM подается: список целей {id, title} (читаемые названия целей для пользователя и соотнесенные по id для машины), нумерованный список реплик ученика (реплики собеседника используются только для валидации (met=true/false) и итоговой оценки выполнения целей).
Интерфейс и фронтенд тренажера
Основное окно тренажера, где непосредственно осуществляется моделирование речевой ситуации, спроектировано таким образом, чтобы объединить грамотное методическое сопровождение и динамику общения в одном образовательном пространстве (рисунок 1).

После выбор языка и речевой ситуации в поле диалога появляются три опорные области – «Цели», «Пояснения» и «Материалы», которые являются вспомогательными дидактическими элементами программы обучения (рисунок 2).

Окно «Цели» предназначено для предварительного оценивания выполнения речевых задач через цветовые индикаторы («огоньки»), работающие как быстрый контекстный детектор «на лету». При обнаружении в реплике обучающегося свидетельства о намерении выполнить действие индикатор автоматически окрашивается в зелёный цвет, что даёт видимую обратную связь успешного выполнения одной из целей в ходе ведения диалога. Во время диалога каждая цель сопоставляется с текущей репликой студента на основе ключевых слов, простой семантической эвристики на уровне намерения и сопоставления с оригиналом количественных и временных параметров (количество, даты, свойство объектов). «Огоньки» помогают обучающемуся «держать курс» на цели, но не заменяют финальную проверку результата взаимодействия. На заключительном шаге LLM осуществляет разбор всего диалога целиком по строгой спецификации отчёта: модель ищет краткую цитату-доказательство (evidence) в реплике обучающегося и заносит её в цели (goals_report) вместе с номером реплики (goal_id). Если полноценной цитаты, удовлетворяющей ограничениям цели, не найдено, цель в отчёте получает met=false – даже если в ходе разговора «огонёк» успел загореться зелёным.
В свою очередь окно «Пояснения» содержит лаконичные подсказки – слова и фразы по теме с переводом, устойчивые выражения и опорные формулы для конкретной языковой ситуации, позволяя более успешно выполнить коммуникативную задачу и усвоить необходимую тематическую лексику.
Окно «Материалы» предназначено для загрузки учебных пособий, наглядных материалов и изображений в формате pdf и jpg, необходимых для обеспечения реалистичности языковой ситуации (добавление прайс-листов, анкет, документов, схем, карт и т.д.). Добавить такое окно позволила идея с QLabel-панелью: это интерактивный боковой виджет, который выезжает рядом с диалогом и держится в поле зрения пользователя. В него помещаются реалистичные дополнения к сценарию в виде картинки — меню ресторана, прайс-лист, схема метро, отрывок анкеты, карта заселения. Мы рендерим их прямо в QLabel, поддержка PDF-страниц осуществляется через превью). Важно, что панель находится в одном визуальном контуре с диалогом: ученик не «прыгает» по окнам, а буквально смотрит на стойку ресепшн или меню» и говорит — это резко повышает правдоподобие сцены и качество реплик. Такой «физический реквизит» внутри интерфейса заставляет речь опираться на предметную реальность: появляются числительные, наименования, уточняющие вопросы, и диалог становится заметно ближе к живой ситуации. На рисунке 3 дополнительная панель материалы в виде QLabel используется для отображения изображения меню ресторана при выполнении учебной речевой ситуации «Заказ в ресторане».

Необходимо отметить, что помимо голосового взаимодействия с нейросетью, в программе предусмотрена возможность вести коммуникацию с помощью текста: обучающийся вводит реплики в текстовое поле, а программа при соответствующих настройках не озвучивает ответ собеседника и выводит его в панель диалога.
По завершении система формирует формализованный отчёт, который включает анализ с указанием выполненных и невыполненных целей с привязкой к репликам обучающегося и краткими цитатами-свидетельствами, а также сводку сильных и слабых сторон взаимодействия (рисунки 4,5).


Тренажер GolosAI отличается максимальной программной гибкостью – настройки позволяют гибко адаптировать программу в зависимости от технических характеристик компьютерной техники, на которой планируется обучение. Предусматривается полностью автономное функционирование программы без доступа к сети Интернет или гибридный режим с подключаемой внешней большой языковой моделью через внешнее облако.
Автономная конфигурация тренажера применяет локальные компоненты распознавания и синтеза речи, а также развернутую на компьютере языковую модель. Настройки программы включают параметры генерации ответов нейросети (креативность, ограничение длины фраз, частотность использования наиболее вероятных слов, контекст истории), что позволяет преподавателю адаптировать поведение собеседника под методические цели языкового курса и конкретную профессиональную роль обучающегося.
Помимо вкладки «Настройки» панель управления тренажера в верхней части основного окна дополняют вкладки «Конструктор» и «Статистика», предназначенные для проектирования реалистичных языковых ситуаций и анализа результатов обучения.
Вкладка «Конструктор» является рабочим пространством преподавателя-методиста. Основная идея компоновки заданий основана на унификации всех речевых ситуаций в единой базе – создаётся один универсальный мультиязычный блок заданий на русском языке. «Промпт» для языковой модели также составляется на русском языке: это задание, где описано, какие цели надо отслеживать и какие свидетельства (цитаты из реплик обучающегося) считать достаточными для выполнения (рисунок 6).

Где применять тренажер помимо изучения языка
Тренажер GolosAI можно использовать не только в вузах для обучению иностранным языкам. Курсы речевой практики легко собрать под: менеджеров по продажам (квалификация лида, работа с возражениями, апсейл); психологов/консультантов (невербальные сигналы, активное слушание, прояснение запроса); сервис/гостеприимство (чек-ин, бронирование); техподдержку (сбор данных, диагностика). Под такие задачи удобно добавлять 10-секундные видео-подсказки в «Материалы», чтобы «завести» контекст или мягко указать на недостающую цель — это заметно повышает естественность сцены.
Таким образом, преимущества потенциального использования тренажера GolosAI в языковой подготовке российских вузов или в ходе индивидуального обучения выражаются в сочетании реалистичности ведения диалога (свободная речь и естественная реакция нейросети на реплики обучающегося) и сильного методического ядра программы: индикаторы целей, встроенные подсказки и материалы, строгий итоговый отчёт с привязкой к репликам обучающегося. Тренажер технически разработан так, чтобы одинаково уверенно функционировать как в автономном (для вузов, которым важна автономность и приватность), так и в гибридном режиме (когда нужна «тяжёлая», но высокопроизводительная LLM из облака). Унификация промптов «Конструктора» под русский язык в отличие от английского уменьшает для методиста издержки разработки курсов, позволяя проектировать унифицированную базу под любые языки и не обладать навыками программирования. Если можно описать тренажер GolosAI одной формулой, то это будет выглядеть так: методика + инженерия = управляемый живой диалог, который можно воспроизвести, измерить и масштабировать под разные технические требования, языки и задачи.
Тренажер размещен в репозитории: https://gitverse.ru/ilia1406/Golos, там же представлены примеры реализованных учебных диалогов.
P.S. Попрошу читателей не судить строго с точки зрения программирования - экспериментальный проект GolosAI вырос методом проб и ошибок в формате «вайб-кодинга» — быстрых итераций, когда педагогическая идея мгновенно через ИИ превращается в рабочий прототип за счёт связки живого наброска интерфейса и методики преподавания иностранных языков. По основной специальности я преподаватель испанского и английского языков.