OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime, которая объединяет распознавание речи, генерацию текста и синтез голоса в одном API. Важно и то, что использование стало заметно дешевле, а цены на аудио-токены снижены на 20%.

Эти изменения могут серьёзно повлиять на разработку голосовых ассистентов, контакт-центров, систем перевода и любых приложений, где важна работа с речью в реальном времени.

От preview к продакшн

До этого момента OpenAI предлагала только предварительную версию — gpt-4o-realtime-preview. Она позволяла разработчикам протестировать возможности, но для продакшн-сценариев подходила ограниченно: были как технические ограничения, так и нестабильное ценообразование.

Теперь ситуация изменилась: gpt-realtime - это полноценный продукт, поддерживаемый инфраструктурой OpenAI и интегрируемый в коммерческие решения.

Фактически, компания закрыла разрыв между классическим пайплайном из трёх сервисов (STT, LLM и TTS) и одной моделью, которая решает все задачи end-to-end.

Новое ценообразование

Один из самых обсуждаемых пунктов анонса — снижение цен.

  • $32 за 1M входных аудио-токенов (около 2900 рублей).

  • $64 за 1M выходных токенов (около 5800 рублей).

  • Для кэшированных входов — всего $0.40 за 1M (около 36 рублей).

Снижение на 20% по сравнению с предыдущей версией делает продукт конкурентоспособным даже для стартапов с ограниченным бюджетом. Для сравнения, многие коммерческие STT и TTS-сервисы обходятся дороже и требуют дополнительной инфраструктуры.

Контроль над контекстом

Ещё одна важная часть обновления — гибкое управление контекстом.

Долгие диалоги с голосовым ассистентом приводят к тому, что количество токенов растёт в геометрической прогрессии. Теперь у разработчиков есть инструменты:

  • обрезать сразу несколько реплик из истории,

  • задавать умные лимиты на количество токенов,

  • управлять хранением контекста по своим правилам.

Результат очевиден: снижение расходов без потери качества. Особенно это актуально для приложений техподдержки, где разговор с клиентом может длиться десятки минут.

Новые возможности API

OpenAI добавила несколько возможностей, которых не хватало разработчикам:

  • Удалённые MCP - подключение внешних модулей для расширения функциональности.

  • Поддержка изображений - теперь модель может работать мультимодально.

  • SIP-звонки - API поддерживает телефонные вызовы по стандартному протоколу.

  • Повторное использование промптов - позволяет экономить токены и сохранять стабильный стиль диалога.

Все эти нововведения упрощают интеграцию в реальные сценарии, где требуется гибкость и масштабируемость.

Пример интеграции

Чтобы лучше понять, как это работает, достаточно взглянуть на базовый пример.

Пример на Node.js

import WebSocket from "ws";

const ws = new WebSocket("wss://api.openai.com/v1/realtime?model=gpt-realtime", {
  headers: {
    "Authorization": `Bearer ${process.env.OPENAI_API_KEY}`,
    "OpenAI-Beta": "realtime=v1"
  }
});

ws.on("open", () => {
  console.log("Connected to Realtime API");
  // Пример: отправляем аудио или текст для обработки
  ws.send(JSON.stringify({
    type: "input_audio_buffer.append",
    audio: "<base64-encoded-audio>"
  }));
  ws.send(JSON.stringify({ type: "input_audio_buffer.commit" }));
});

ws.on("message", (msg) => {
  console.log("Response:", msg.toString());
});

Даже в минимальной конфигурации API можно подключить к веб-приложению или голосовому боту. В отличие от старого пайплайна, разработчику не нужно вручную связывать STT, LLM и TTS.

Сценарии применения

Realtime API открывает новые возможности:

  • Голосовые ассистенты - от умных колонок до корпоративных чат-ботов.

  • Автоматизация поддержки - сокращение времени ответа и снижение нагрузки на операторов.

  • Синхронный перевод - в том числе в мультиязычных конференциях.

  • Игры и развлечения - персонажи, которые говорят естественным голосом.

  • Образование - интерактивные обучающие системы с «живым» общением.

Сравнение с альтернативами

Сегодня на рынке присутствует множество решений: Google Speech API, Amazon Transcribe, Microsoft Azure Speech. Однако все они решают только часть задачи — распознавание или синтез речи.

Подход OpenAI отличается: одна модель для всего процесса. Это означает:

  • меньше точек отказа;

  • меньше задержки;

  • проще интеграция.

Для разработчиков это особенно важно, так как можно быстрее запускать продукт в продакшн.

Перспективы

Ожидается, что OpenAI продолжит развивать Realtime API в сторону мультимодальности (например, работа с видео) и добавит SDK для мобильных платформ.

Снижение цен и открытая документация уже делают технологию доступной как для крупных компаний, так и для небольших команд.

Выводы

Выход Realtime API из беты — событие, которое можно считать поворотным для рынка голосовых технологий. Теперь разработчики получили инструмент, позволяющий строить полноценные голосовые приложения с минимальными затратами времени и ресурсов.

Полезные ссылки по теме

Комментарии (3)


  1. KonstantinTokar
    29.08.2025 07:02

    Что такое аудиотокен? Внятного объяснения я не нашёл, в документации определения не нашёл. Вопрос к ChatGPT даёт очень разные оценки в разных контекстах, например

    - OpenAI в документации даёт оценку: 1 минута аудио ≈ 300 000 аудиотокенов (примерно, зависит от кодека и качества).
    -служба поддержки: 600 аудиотокенов/мин на входе (речь пользователя).
    1200 аудиотокенов/мин на выходе (синтез речи модели).


    То есть хотелось бы определённости.


  1. BReal
    29.08.2025 07:02

    Из РФ работает? Можно по SIP подключить арендованный РФ-номер телефона?


  1. LazyGatto
    29.08.2025 07:02

    Для информации, кстати. Без внесения данных для оплаты - Playground не работает.
    "You'll need to set up billing before you can use the playground."