OpenAI、GPT-5級推論搭載の音声AI「GPT-Realtime-2」発表
音声エージェントにGPT-5クラスの推論能力をもたらす新モデル。リアルタイム翻訳・音声認識も同時リリース。

GPT-5級の推論能力を音声に実装
OpenAIが発表したGPT-Realtime-2は、同社初のGPT-5クラスの推論機能を持つ音声モデルとして注目を集めている。コンテキストウィンドウは従来の32Kから128Kトークンに大幅拡張され、より長く複雑な会話を記憶できるようになった。 開発者は推論強度を5段階(minimal、low、medium、high、xhigh)で調整可能で、シンプルなリクエストには低レイテンシーの「low」設定を、複雑なタスクには高性能な「xhigh」設定を選択できる。モデルは障害発生時により適切に回復し、医療専門用語や固有名詞の理解も向上している。
3つの音声モデルを同時リリース
OpenAIは今回、GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3つのリアルタイム音声モデルをAPI経由で提供開始した。 GPT-Realtime-Translateは70以上の入力言語から13の出力言語への話者と同じペースでのリアルタイム翻訳を、GPT-Realtime-Whisperはストリーミング音声テキスト変換を提供する。料金体系は、GPT-Realtime-2が音声入力100万トークンあたり32ドル、音声出力100万トークンあたり64ドル、翻訳機能が1分あたり0.034ドル、音声認識が1分あたり0.017ドルとなっている。
POINT
ベンチマークテストでは、GPT-Realtime-2(high設定)がBig Bench Audioで96.6%の精度を記録し、前モデルの81.4%から大幅に向上。Audio MultiChallengeでは48.5%の合格率を達成している。
AITAKE編集部の見方
GPT-Realtime-2の登場は、音声AIの発展において画期的な転換点となる可能性が高い。Google Gemini Liveとの競争が激化する中、OpenAIは高度な推論能力による差別化を図り、より自然で長時間の対話体験に焦点を当てている戦略が見て取れる。 カスタマーサービス分野では、リアルタイムでクエリを解決する音声エージェントの展開により、待ち時間の短縮と顧客満足度の向上が期待される。日本企業にとっても、多言語対応や高度な推論機能を活用した新たなサービス開発の機会が広がるだろう。ただし、導入コストや技術的な統合の複雑さを慎重に検討する必要がある。
Source: OpenAI