Anthropic、Claude Mythos発表も公開せず—史上最強AIが脅威で封印
SWE-bench Verifiedで93.9%、GPQA Diamondで94.6%を記録した最強AIモデル「Claude Mythos」が、サイバーセキュリティリスクを理由に公開見送り。限定50組織のみアクセス可能。

史上最高性能のAIモデル、しかし公開は見送り
AnthropicがClaude Mythos Previewを発表し、SWE-bench Verifiedで93.9%という史上最高のスコアを記録した。これは実世界のソフトウェアエンジニアリングタスクの評価において、100問中94問を正解する能力を示している。さらにGPQA Diamondでは94.6%、CyberGymでは83.1%を達成し、あらゆるベンチマークで記録を更新した。 しかし、Anthropicはこのモデルを一般公開しないと発表した。同社はClaude Mythosが「文字通り公開するには強力すぎる」と述べている。テスト段階で、Mythosは主要なオペレーティングシステムとWebブラウザで数千のゼロデイ脆弱性を発見し、多くが重要度「クリティカル」に分類された。
POINT
Anthropicのエンジニアは「正式なセキュリティトレーニングを受けていない」状態でも、Mythosに「リモートコード実行脆弱性を一晩で見つける」よう依頼でき、「翌朝には完全に動作するエクスプロイト」を入手できた。
プロジェクト・グラスウィング:防御的セキュリティ連合
Anthropicは一般公開の代わりに「プロジェクト・グラスウィング」を立ち上げ、AWS、Apple、Microsoft、Google、CrowdStrike、Palo Alto Networksなどの技術企業連合を結成した。約40の追加組織にもアクセスが許可されている。この取り組みは「世界の最も重要なソフトウェアを保護し、サイバー攻撃者より先んじるために業界が採用すべき実践に備える」ことを目的としている。 Microsoft、Cisco等のパートナー企業は、「リスクを早期に特定し軽減し、セキュリティと開発ソリューションを強化して顧客とMicrosoftをより良く保護できる」と評価している。Anthropic自身の推定では、同様の能力を持つモデルが他のAI研究所から6〜18ヶ月以内に登場する可能性があり、OpenAIも同等の能力を持つモデルを開発中と報じられている。
ベンチマーク性能の圧倒的進歩
SWE-benchの歴史を振り返ると、2025年初頭には最高のモデルでも約50%のスコアだった。Opus 4.6の80.8%からMythosの93.9%への跳躍は、単一世代での最大の改善を示している。93.9%の解決率は、大規模なコードベースからの実際のGitHub問題に対して、20回中19回正しく解決することを意味する。 英国AI安全研究所の評価では、Mythosはエキスパートレベルのタスクで73%の成功率を示し、複雑なサイバー攻撃シミュレーション「The Last Ones」を完全に解決した初のモデルとなった。83%のケースで初回試行で脆弱性を再現し、動作するエクスプロイトを開発できた。
AITAKE編集部の見方
Claude Mythosの発表は、AI開発における新たな転換点を示している。これまでAI企業は性能向上を競ってきたが、今回Anthropicは「強力すぎるため公開しない」という前例のない判断を下した。これは責任あるAI開発の新基準となる可能性がある。 一方で、限定的なアクセスによる「クローズドエコシステム」の形成は、AI技術の民主化という観点から懸念もある。プロジェクト・グラスウィングに参加できない中小企業や開発者が、将来的にセキュリティ面で不利になるリスクも指摘されている。日本企業もこの動向を注視し、サイバーセキュリティ戦略の見直しを検討すべきタイミングである。
Source: Security Week