OpenAI / ChatGPT / Codex / 公式ブログ / 2025/08/28 / 重要

OpenAI 2025年8月28日の公式発表解説: gpt-realtime と Realtime API 更新

公式ブログ原文

公式ブログ原文: Introducing gpt-realtime and Realtime API updates

OpenAI は 2025年8月28日、より高度な speech-to-speech model である gpt-realtime と、MCP server support、image input、SIP phone calling support などを含む Realtime API 更新を発表しました。

要点

gpt-realtime により音声から音声へのリアルタイムAI体験が強化
Realtime API に MCP server support、画像入力、SIP電話対応などが追加
音声エージェント、コールセンター、マルチモーダル業務アプリに影響
開発者は遅延、通話品質、権限、ログ、コストを評価したい

今回のブログ記事で語られていること

gpt-realtime と Realtime API の更新は、OpenAIがリアルタイム対話型AIを本格的なアプリケーション基盤へ進めていることを示します。speech-to-speech model は、音声をテキストへ変換してから応答するだけでなく、より自然な会話体験を目指すものです。人間との会話では、遅延、割り込み、相づち、感情のニュアンス、聞き返しが体験品質を左右します。gpt-realtime は、音声AIエージェントや会話型アプリにとって重要な更新です。

Realtime API の新機能も実務影響が大きいです。MCP server support は、外部ツールやシステム連携を整理しやすくする可能性があります。image input は、音声だけでなく視覚情報を含むマルチモーダルな対話を可能にします。SIP phone calling support は、既存の電話網やコールセンター基盤との接続に関係し、顧客対応、予約、本人確認、サポート自動化などで使いやすくなる可能性があります。

ただし、リアルタイム音声AIは運用リスクも大きい領域です。誤認識、誤案内、個人情報の取り扱い、通話録音、同意、本人確認、エスカレーション、外部ツール操作の権限を慎重に設計する必要があります。開発者は、単にデモが動くかではなく、本番環境での遅延、コスト、失敗時対応、監査ログ、規制対応を確認すべきです。

関係するチーム

音声AI、コールセンター、CX、業務自動化の開発チーム
APIプラットフォーム、MCP連携、SRE、セキュリティ
法務、プライバシー、コンプライアンス、通話運用担当

実務で確認したいこと

通話品質、遅延、聞き返し、割り込みを実シナリオで評価する
SIP連携時の録音、同意、本人確認、エスカレーションを設計する
MCPや外部ツールの権限、ログ、失敗時挙動を確認する

結局、今回のブログ記事をどう読むべきか

gpt-realtime と Realtime API 更新は、音声AIを本番業務へ近づける重要な発表です。導入時は会話体験だけでなく、通話運用、権限、監査をセットで設計する必要があります。