OpenAI / ChatGPT / Codex のロゴ

OpenAI / ChatGPT / Codex / 公式ブログ / 2026/05/07 / 重要

OpenAI 2026年5月7日の公式発表解説: Realtime API の新しい音声モデル

AIdeveloperworkflow

公式ブログ原文

OpenAI は 2026年5月7日、Realtime API 向けの新しい音声モデル群を発表しました。音声エージェント、リアルタイム翻訳、低遅延の文字起こしを、単なる入出力機能ではなく業務アプリのインターフェースとして広げる発表です。

要点

  • GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper が Realtime API で提供される
  • GPT-Realtime-2 は GPT-5-class reasoning、128K context、parallel tool calls、adjustable reasoning effort を前面に出している
  • 翻訳モデルは 70以上の入力言語から 13の出力言語へリアルタイム音声翻訳する用途を想定している
  • streaming speech-to-text は、会議、字幕、サポート、音声エージェントの低遅延 transcription に関係する
  • 価格、EU data residency、enterprise privacy commitments も発表内で明示されている

今回のブログ記事で語られていること

今回の OpenAI 発表は、音声 AI を「人が話すと返事をする機能」から、業務システムや顧客接点を操作するインターフェースへ進める内容です。記事では、開発者が Realtime API で使える3つのモデルとして、会話しながら推論し行動する GPT-Realtime-2、複数言語の会話をリアルタイムに翻訳する GPT-Realtime-Translate、話している最中に文字起こしを返す GPT-Realtime-Whisper が説明されています。音声の自然さだけでなく、会話の流れを保つ、ツールを呼ぶ、ユーザーの訂正に対応する、業務用語を保持する、といった運用上の課題に踏み込んでいる点が重要です。

GPT-Realtime-2 では、parallel tool calls、tool transparency、preambles、stronger recovery behavior、longer context などが紹介されています。これは、音声エージェントが「少々お待ちください」と言いながらカレンダーや注文情報を確認し、複数の外部ツールを並行して使い、失敗したときも会話を壊さず復帰するための部品です。Zillow、Priceline、Intercom などの例も示されており、音声が customer support、travel、real estate、healthcare、employee workflow に入り込む前提で語られています。

翻訳モデルの説明では、単語を置き換えるだけでなく、話者の速度に追従し、地域差や専門用語を扱い、顧客対応や教育、イベント、メディアのような live multilingual experience を支えることが焦点です。文字起こしモデルは、会議の字幕、授業、放送、サポート通話、営業や採用のフォローアップなど、会話が終わる前にテキストを業務フローへ渡す用途に関係します。つまり今回の発表は、voice input / output の追加ではなく、音声を起点にした agentic workflow の基盤を広げるものとして読むべきです。

価格面では、GPT-Realtime-2 の audio input / output token 価格、Translate と Whisper の分単位価格が示されています。加えて、Realtime API の safeguards、AI であることを end user に明確にする必要、EU Data Residency、enterprise privacy commitments への言及もあります。音声エージェントは個人情報や会話内容を扱いやすいため、開発チームはレイテンシや品質だけでなく、録音、保存、同意、監査、データ所在地、ツール実行権限を一体で確認する必要があります。

背景にあるテーマ

OpenAI は、音声を検索やチャットの補助ではなく、アプリケーション操作、顧客対応、翻訳、会議処理の前面に置こうとしています。特に GPT-Realtime-2 の tool calling と長い context は、音声エージェントが外部システムに触れる前提を強めています。

今回のブログ記事が関係する人

  • Realtime API で voice agent を作る開発者
  • コンタクトセンター、予約、旅行、金融、医療などの顧客接点を設計するプロダクトチーム
  • 多言語サポートや live event translation を検討するグローバル業務チーム
  • 音声データの保存、同意、監査、プライバシーを管理するセキュリティ・法務・ガバナンス担当

どう読むと価値があるか

今回の発表は、音声モデルのベンチマークだけを見るより、自社の「話しながら仕事を進める」場面に当てはめて読むと価値があります。ユーザーが途中で言い直す、本人確認が必要になる、複数システムを横断する、専門用語を誤認識すると事故になる、といった現実の運用条件で評価する必要があります。

実務へのつながり

まずは、音声エージェントに任せたいタスクを、情報提供、予約・変更、データ入力、翻訳、文字起こし、ツール実行に分けて評価します。次に、音声ログと tool call の監査、ユーザー同意、fallback、人への引き継ぎを設計します。価格が分単位または音声 token 単位になるため、長時間セッションや待ち時間が多いワークフローではコスト試算も必要です。

結局、今回のブログ記事をどう読むべきか

Realtime API の新音声モデルは、音声 AI を本番業務に近づける発表です。試す価値は高い一方で、導入判断は声の自然さだけでは足りません。会話中の推論、ツール実行、翻訳品質、文字起こし遅延、プライバシー、監査まで含めて、業務フローとして成立するかを検証するべきです。