マイクロソフト、3つの新AI MAIモデルを発表—OpenAIとGoogleに挑戦
音声認識、音声合成、画像生成の3つのモデルを自社開発し、競合他社より低価格で提供。6ヶ月前に設立した超知能チームの初の成果。

3つのマルチモーダルAIモデルを同時リリース
マイクロソフトは4月2日、MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2の3つの新AIモデルをMicrosoft FoundryとMAI Playgroundで即座に利用可能にすると発表しました。これらは企業向けAIで最も商業価値の高い3つのモダリティ—音声からテキストへの変換、リアルな人間の音声生成、画像作成をカバーします。 特に音声認識モデルのMAI-Transcribe-1は、25言語のFLEURSベンチマークにおいて最低のワードエラーレートを達成し、Scribe v2、Whisper-large-V3、GPT-Transcribe、Gemini 3.1 Flash-Liteを上回る性能を示しています。MAI-Voice-1は、単一のGPUで1秒以内に60秒間の音声を生成できる高速音声生成モデルとして注目されています。
積極的な価格戦略で競合に対抗
価格戦略について、MAI-Voice-1は100万文字あたり22ドル、MAI-Image-2は入力トークン100万あたり5ドルに設定され、「どのハイパースケーラーより最安値になる」とSuleymanは明言しました。MAI-Transcribe-1は1時間あたり0.36ドルから利用可能で、従来のMicrosoft Azure Fastサービスより2.5倍高速な処理を実現しています。 この価格設定は戦略的な意味を持ちます。マイクロソフトは巨大な企業顧客基盤でモデル開発コストを償却できる一方、投資家が求めるAI支出からの収益創出という課題にも応えるものです。実際、マイクロソフト株は今年約17%下落しており、収益性への圧力が高まっています。
POINT
MAI-Transcribe-1は25言語で業界最低のワードエラーレートを達成し、OpenAIのWhisperやGoogleのGeminiを性能で上回りながら、競合より大幅に低価格で提供される。
6ヶ月前設立の超知能チームが開発
これらのモデルは、MustafaがCEOを務めるマイクロソフトAIの超知能チーム(MAI Superintelligence team)が2025年11月に設立してから初めて公開リリースした成果です。このチームは、Suleymanが6ヶ月前に「AI自給自足」の追求を目的として結成したものです。 戦略的な背景として重要なのは、2025年9月の再交渉まで、マイクロソフトのOpenAIとの元のパートナーシップ契約が同社の独立した汎用AI開発を契約上禁じていたことです。修正された覚書により、マイクロソフトは2032年までOpenAIが構築するすべてのものに対するライセンス権を保持し、2500億ドルの新しいAzureクラウド事業コミットメントを獲得し、重要なことに競合モデルを構築する自由を獲得しました。
AITAKE編集部の見方
今回のマイクロソフトの発表は、AI業界の勢力図を大きく変える可能性を秘めています。特に注目すべきは、技術的優位性と価格競争力を同時に実現している点です。MAI-Transcribe-1の性能はOpenAIやGoogleの既存モデルを上回りながら、価格は大幅に安価に設定されています。 一方で、OpenAIとの複雑な関係性も見逃せません。130億ドルの投資パートナーでありながら直接的な競合となるこの状況は、両社の今後の関係に微妙な影響を与える可能性があります。マイクロソフトが自社AI技術の「自給自足」を目指す中で、OpenAI依存からの脱却がどこまで進むかが今後の焦点となるでしょう。
Source: VentureBeat