OpenAI、GPT-5.4をリリース 初の人間超え75%コンピュータ操作精度を達成
GPT-5.4はOSWorld-Verifiedベンチマークで75%のスコアを記録し、人間平均の72%を初めて上回った。100万トークンの文脈窓とネイティブコンピュータ使用機能により、AIエージェントの新時代が始まる。

史上初、人間を上回るコンピュータ操作精度を実現
3月5日にリリースされたOpenAIの最新フラッグシップモデルGPT-5.4は、OSWorld-Verifiedベンチマークで75.0%の成功率を記録し、人間のパフォーマンス72.4%を上回った。これは汎用AIモデルとしては初めて人間を超えるデスクトップタスク実行能力を実現した歴史的な瞬間だ。 GPT-5.4はCodexとAPIで初のネイティブな最先端コンピュータ使用機能を搭載し、100万トークンのコンテキストをサポートすることで、エージェントが長時間にわたってタスクを計画、実行、検証できるようになった。スクリーンショットから座標を解析し、マウスやキーボードコマンドを直接発行できるため、従来のAPI統合が困難だったレガシーシステムでも動作する。
精度向上と多機能性を両立した総合モデル
GPT-5.4はGPT-5.2と比較して虚偽の主張が33%減少し、全体的なエラーを含む応答が18%削減された。これはAIモデルの最大の課題の一つだったハルシネーション問題の大幅な改善を意味する。 GDPvalベンチマークでは、44の職業にわたる知識労働タスクで業界専門家との比較において83.0%で一致または上回る結果を示し、GPT-5.2の70.9%から大幅に向上した。プログラミング、プレゼンテーション作成、スプレッドシート分析など、従来は専門モデルが必要だった領域を単一のモデルで処理できるようになった。
POINT
GPT-5.4は75%のOSWorldスコアで初めて人間の平均パフォーマンス(72%)を上回り、100万トークンのコンテキスト窓により、デスクトップ自動化の新時代を切り開いた
価格設定と競合モデルとの位置関係
APIの価格設定は標準版で入力250万トークンあたり2.50ドル、出力1500万トークンあたり15ドルからスタートし、プレミアムなGPT-5.4 Pro版は3000万トークン/18000万トークンで提供される。 Claude Opus 4.6と比較すると、出力トークンのコストは約40%で、同等のパフォーマンスを実現しながら大規模運用時の経済性を大幅に改善した。ただし、SWE-benchや複数ファイルリファクタリングではClaude Opus 4.6が依然としてリードし、純粋なコーディング作業ではGPT-5.3 Codexの方が高速で安価という住み分けも存在する。
AITAKE編集部の見方
GPT-5.4のリリースは、AIの発展における重要な転換点を示している。75%というOSWorldスコアは単なる数値以上の意味を持ち、AIが「対話ツール」から「実行可能な自律システム」へと進化したことを象徴している。 特に注目すべきは、従来のRPAツールが必要だったデスクトップ自動化を、APIの存在しないレガシーシステムでも実現できる点だ。これは日本企業の多くが抱える古いシステムとの統合問題を解決する可能性がある。ただし、75%の成功率は「人間の監視下での補助自動化」レベルであり、完全自動化には至っていない点も認識しておく必要がある。 コスト面でもClaude Opus 4.6の約40%という価格設定は、企業導入の大きな後押しとなりそうだ。日本のAI導入を検討している企業にとって、GPT-5.4は本格的な業務自動化の第一歩として最適な選択肢になるだろう。
Source: TechCrunch