OpenAI / ChatGPT / Codex / 公式ブログ / 2025/08/28 / 重要
OpenAI 2025年8月28日の公式発表解説: gpt-realtime と Realtime API 更新
公式ブログ原文
OpenAI は 2025年8月28日、より高度な speech-to-speech model である gpt-realtime と、MCP server support、image input、SIP phone calling support などを含む Realtime API 更新を発表しました。
要点
- gpt-realtime により音声から音声へのリアルタイムAI体験が強化
- Realtime API に MCP server support、画像入力、SIP電話対応などが追加
- 音声エージェント、コールセンター、マルチモーダル業務アプリに影響
- 開発者は遅延、通話品質、権限、ログ、コストを評価したい
今回のブログ記事で語られていること
gpt-realtime と Realtime API の更新は、OpenAIがリアルタイム対話型AIを本格的なアプリケーション基盤へ進めていることを示します。speech-to-speech model は、音声をテキストへ変換してから応答するだけでなく、より自然な会話体験を目指すものです。人間との会話では、遅延、割り込み、相づち、感情のニュアンス、聞き返しが体験品質を左右します。gpt-realtime は、音声AIエージェントや会話型アプリにとって重要な更新です。
Realtime API の新機能も実務影響が大きいです。MCP server support は、外部ツールやシステム連携を整理しやすくする可能性があります。image input は、音声だけでなく視覚情報を含むマルチモーダルな対話を可能にします。SIP phone calling support は、既存の電話網やコールセンター基盤との接続に関係し、顧客対応、予約、本人確認、サポート自動化などで使いやすくなる可能性があります。
ただし、リアルタイム音声AIは運用リスクも大きい領域です。誤認識、誤案内、個人情報の取り扱い、通話録音、同意、本人確認、エスカレーション、外部ツール操作の権限を慎重に設計する必要があります。開発者は、単にデモが動くかではなく、本番環境での遅延、コスト、失敗時対応、監査ログ、規制対応を確認すべきです。
関係するチーム
- 音声AI、コールセンター、CX、業務自動化の開発チーム
- APIプラットフォーム、MCP連携、SRE、セキュリティ
- 法務、プライバシー、コンプライアンス、通話運用担当
実務で確認したいこと
- 通話品質、遅延、聞き返し、割り込みを実シナリオで評価する
- SIP連携時の録音、同意、本人確認、エスカレーションを設計する
- MCPや外部ツールの権限、ログ、失敗時挙動を確認する
結局、今回のブログ記事をどう読むべきか
gpt-realtime と Realtime API 更新は、音声AIを本番業務へ近づける重要な発表です。導入時は会話体験だけでなく、通話運用、権限、監査をセットで設計する必要があります。