Microsoft、OpenAI対抗の独自AIモデル3種を一般公開
音声認識、音声合成、画像生成分野でマイクロソフトが自社開発モデルを投入。従来比50%のコスト削減と競合を大きく上回る精度を実現。

3つのAIモデルを同時発表
マイクロソフトは4月2日、音声認識モデル「MAI-Transcribe-1」、音声合成モデル「MAI-Voice-1」、画像生成モデル「MAI-Image-2」の3つのAIモデルを発表した。これらのモデルはMicrosoft FoundryとMAI Playgroundを通じて利用可能となる。 特に注目されるのがMAI-Transcribe-1で、25言語でFLEURSベンチマークにおいて平均3.8%という業界最低の単語エラー率を記録し、OpenAIのWhisper-large-v3やGoogleのGemini 3.1 Flashを全言語で上回る精度を実現した。また、従来のMicrosoft Azure Fastと比較して2.5倍の高速バッチ処理を可能にしている。
コスト競争力を重視した価格設定
マイクロソフトは今回のモデルで意図的にコスト競争を仕掛けており、MAI-Voice-1は100万文字あたり22ドル、MAI-Image-2は100万入力トークンあたり5ドルという「あらゆるハイパースケーラーの中で最も安価」な価格設定を発表した。MAI-Transcribe-1は1時間あたり0.36ドルで提供される。 MAI-Voice-1は1秒で60秒の自然な音声を生成でき、わずか数秒の音声サンプルからカスタム音声の作成も可能。MAI-Image-2はArena.aiリーダーボードでトップ3にランクインし、前世代と比較して2倍以上の生成速度を実現している。
POINT
マイクロソフトの独自AIモデルは、OpenAIやGoogleの競合製品に対し精度で上回りながら、コストを最大50%削減。企業向けAI市場での競争激化が鮮明に。
OpenAIとの関係は継続しつつ独立路線へ
この発表は、マイクロソフトがOpenAIとのパートナーシップを超えて独自のAI能力を拡大し、GoogleやAmazonとの競争で「AI自給自足」を追求する取り組みの一環。同社はOpenAIとの130億ドルを超える投資と多年パートナーシップを維持しながらも、最近の契約再交渉により独立したAI研究を可能にした。 これらのモデルは既にCopilot、Bing、PowerPoint、Azure Speechといったマイクロソフトの自社製品で活用されている。今回の発表は、スレイマンCEOが6カ月前に設立したマイクロソフトの超知能チームからの最初の成果となる。
AITAKE編集部の見方
マイクロソフトの今回の発表は、AI業界の競争構造に大きな変化をもたらす可能性がある。特に企業向けAI市場において、OpenAIへの依存度を下げながら独自の技術スタックを構築する同社の戦略は注目に値する。 価格競争力を前面に出した今回のアプローチは、AI導入コストに敏感な企業顧客にとって魅力的であり、他社も価格見直しを余儀なくされる可能性が高い。また、25言語対応の音声認識や高速音声合成など、実用性の高い機能に特化している点も企業ユーザーのニーズに適合している。 一方で、OpenAIとの複雑な関係性をどう維持していくかが今後の注目点となりそうだ。競争と協力の両立という難しいバランスを、マイクロソフトがどう取っていくかが業界全体の動向を左右するだろう。
Source: GeekWire