マイクロソフト、独自AI3モデルでOpenAI・Googleに挑戦
音声認識、音声生成、画像生成の3つの基礎モデルを発表。自社開発でOpenAI依存からの脱却を加速し、エンタープライズ市場での競争力強化を図る

マイクロソフトが3つの独自AIモデルを発表
マイクロソフトは木曜日、音声文字起こしシステム、音声生成エンジン、画像生成モデルの3つの基礎AIモデルを社内で完全に開発したと発表しました。これは、3兆ドル規模のソフトウェア大手がOpenAI、Google、その他の先端AI研究所と直接競合する意図を示す最も具体的な証拠となっています。 MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2の3つのモデルは、Microsoft FoundryとMAI Playgroundを通じて即座に利用可能になりました。これらのモデルは、エンタープライズAIにおいて最も商業的価値の高い3つのモダリティ、音声からテキストへの変換、リアルな人間の音声生成、画像作成をカバーしています。
業界最高水準の性能を実現
MAI-Transcribe-1は、マイクロソフトの製品利用上位25言語において、業界標準のFLEURSベンチマークで最低の平均単語誤認識率3.8%を達成しました。マイクロソフトのベンチマークによると、全25言語でOpenAIのWhisper-large-v3を、25言語中22言語でGoogleのGemini 3.1 Flashを上回る性能を示しています。 MAI-Voice-1は1秒で60秒の自然な音声を生成でき、数秒の音声サンプルからカスタム音声を作成できます。MAI-Image-2は、Arena.aiリーダーボードでトップ3にデビューし、前身モデルより2倍高速な生成時間を実現しています。
POINT
マイクロソフトの新AIモデル群は、OpenAI依存から脱却し独自のマルチモーダルAIスタックを構築する戦略的転換点を示している
積極的な価格設定でOpenAI・Googleに対抗
価格設定では、MAI-Transcribe-1が1時間あたり0.36米ドルから、MAI-Voice-1が100万文字あたり22米ドルからとなっています。マイクロソフトは、これらのモデルがGoogleやOpenAIのモデルよりも安価であることを強調しています。注目すべきは、MAI-Transcribe-1がわずか10人のチームで開発されたことです。 2025年9月の契約見直しにより、マイクロソフトは2032年までOpenAIが構築するすべての技術へのライセンス権を保持する一方で、競合モデルの構築自由を獲得しました。これにより、パートナーシップを維持しながら独自の技術開発を推進する戦略が可能になりました。
AITAKE編集部の見方
マイクロソフトのこの動きは、AI業界の力学を根本的に変える可能性があります。OpenAIとの密接なパートナーシップを維持しながら、独自のマルチモーダルAI能力を構築することで、競争優位性を確保しようとしています。特に注目すべきは、エンタープライズ向けの統合プラットフォームとしての強みを活かし、「十分に良い」性能と優れた価格競争力でシェア獲得を狙っている点です。これは、GoogleやOpenAIが技術的優位性を追求する中で、実用性と経済性を重視した差別化戦略と言えるでしょう。日本のAI活用においても、コストパフォーマンスを重視する企業にとって魅力的な選択肢となる可能性があります。
Source: VentureBeat