Notebookcheck Logo

OpenAI запускает три новые модели API аудио в реальном времени, включая GPT-Realtime-2

GPT-Realtime-2 от OpenAI приносит рассуждения класса GPT-5 живым голосовым агентам, запускаясь вместе с двумя дополнительными аудиомоделями реального времени через API OpenAI.
ⓘ Openai.com
GPT-Realtime-2 от OpenAI приносит рассуждения класса GPT-5 живым голосовым агентам, запускаясь вместе с двумя дополнительными аудиомоделями реального времени через API OpenAI.
OpenAI запустил GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper через свой Realtime API, который теперь общедоступен для производственных голосовых агентов.

OpenAI запустил три новые аудиомодели реального времени через свой API, продвигая голосовой ИИ от базового взаимодействия "вопрос-ответ" к агентам, которые могут слушать, рассуждать, переводить и действовать в рамках одного живого разговора. Этот релиз также знаменует выход Realtime API из бета-версии, впервые делая его общедоступным для использования в производстве.

В центре релиза - GPT-Realtime-2, первая голосовая модель OpenAI, построенная на основе рассуждений класса GPT-5. В отличие от пошаговой архитектуры, на которую опирается большинство голосовых систем, GPT-Realtime-2 обрабатывает аудио в непрерывном потоке, что позволяет ей интерпретировать речь по мере ее возникновения и реагировать на нее без разрывов, вызванных отдельными этапами транскрипции и синтеза. Модель поддерживает контекстное окно размером 128 КБ, по сравнению с 32 КБ в предыдущей версии, что делает более длительные голосовые сессии и сложные многоступенчатые агентские потоки практичными без использования внешних лесов памяти.

Что может GPT-Realtime-2

Модель построена специально для того, что OpenAI называет "агентским поведением" во время голосовых вызовов. Преамбулы позволяют говорить "Дай-ка я проверю" или "Одну минутку" во время выполнения вызовов инструментов, чтобы пользователи не оставались в бездействии. Параллельные вызовы инструментов позволяют одновременно выполнять несколько внутренних запросов и сообщать, какой из них находится в процессе выполнения. Более сильное поведение при восстановлении означает, что он обрабатывает сбои вслух, а не замирает на середине разговора. Регулировка тона позволяет ему переключаться между стилями в зависимости от контекста: более размеренный для звонков в службу поддержки и более бодрый для подтверждений.

GPT-Realtime-2 на 15,2% превосходит GPT-Realtime-1.5 в Big Bench Audio, эталонном тесте OpenAI на умение рассуждать об аудио, и на 13,8% в Audio Multichallenger на умение следовать инструкциям. В реальных испытаниях Zillow сообщает о повышении на 26 пунктов коэффициента успешности звонков в самом сложном состязательном бенчмарке: с 69% до 95% после быстрой оптимизации на GPT-Realtime-2. Цена модели составляет $32 за миллион входных аудиотокенов и $64 за миллион выходных аудиотокенов, а также $0,40 за миллион кэшированных входных токенов.

GPT-Realtime-Translate и GPT-Realtime-Whisper

Вторая модель, GPT-Realtime-Translateэто специализированная система перевода живой речи. Она непрерывно обрабатывает входной разговорный текст и выводит перевод в режиме реального времени, не требуя от говорящих делать паузы или заканчивать предложения. Модель поддерживает более 70 входных языков и 13 выходных языков, ориентированных на поддержку клиентов, образование, живые мероприятия и трансграничные продажи. Компания BolnaAI, разрабатывающая голосовой ИИ для индийских языковых рынков, сообщает о снижении количества ошибок в словах на хинди, тамильском и телугу на 12,5% по сравнению с предыдущим подходом к переводу. Цена GPT-Realtime-Translate составляет $0,034 за минуту обработки звука.

GPT-Realtime-Whisper - это третья модель, расширяющая широко распространенную технологию распознавания речи Whisper от OpenAI до потоковой системы. Если оригинальный Whisper был создан для транскрибирования после записи, то эта версия создает субтитры в реальном времени, когда речь произносится. Сферы применения включают живые собрания, документацию в зале суда, транскрипцию в новостях и инструменты доступности для слабослышащих пользователей. Это самая доступная из трех моделей по цене $0,017 за минуту. Все три модели доступны уже сейчас через API OpenAI и игровую площадку для разработчиков.

Запуск также добавляет поддержку MCP-серверов, возможность ввода изображений и интеграцию с SIP-телефонными звонками в Realtime API, расширяя спектр корпоративной телефонии и агентских рабочих процессов, которые разработчики могут создавать, не покидая API.

Пространство инструментов искусственного интеллекта также привлекает злоумышленников, стремящихся использовать интерес к новым продуктам. Вчера Notebookcheck сообщил о поддельном сайте Claude AI который продвигал бэкдор Beagle Windows через спонсируемые Google результаты поиска с помощью троянизированного установщика Claude-Pro Relay.

Источник(и)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
Darryl Linington, 2026-05- 9 (Update: 2026-05- 9)