「拡散モデル」で推論を高速化する：Inception Labs『Mercury 2』が突きつける、自己回帰型LLMの限界と新アーキテクチャの台頭

2026年、大規模言語モデル（LLM）の進化は、単なるパラメータ数の増大やコンテキストウィンドウの拡大を超え、「アーキテクチャの根本的な転換」という新たな局面を迎えています。その中心にいるのが、Inception Labsが発表した最新モデル『Mercury 2』です。

これまで、ChatGPT（OpenAI）やGemini（Google）に代表される主要なLLMは、次の単語を一つずつ予測する「自己回帰（Autoregressive: AR）」モデルが主流でした。しかし、Mercury 2はこの常識を覆し、画像生成AIの基盤技術である「拡散モデル（Diffusion Models）」をテキスト推論に適用することで、圧倒的な推論速度と高度な思考能力の両立を実現しました。本稿では、2025年後半から2026年初頭にかけてAI界隈に衝撃を与えたこの技術の深淵に迫ります。

1. ニュースの概要：Mercury 2の登場と背景

Inception Labsは、2025年11月に「Mercury 2: The fastest reasoning LLM, powered by diffusion」と題したブログ記事を公開し、同社のフラッグシップモデルであるMercury 2の詳細を明らかにしました。2026年2月現在、このモデルは開発者コミュニティの間で「推論コストと速度のトレードオフを解消する決定打」として再注目されています。

Mercury 2の最大の特徴は、従来のLLMが抱えていた「推論時の計算コストの増大」と「逐次処理によるレイテンシ」という2つの大きな壁を、拡散モデルという全く異なるアプローチで突破した点にあります。OpenAIのo1シリーズに代表される「推論時コンピュート（Test-time Compute）」を重視する流れの中で、Mercury 2は「いかに効率的に、かつ高速に思考プロセスを完結させるか」という問いに対して、アーキテクチャレベルでの回答を提示しました。

2. 技術的な詳細：なぜ「拡散」が「推論」を速くするのか

Mercury 2の革新性を理解するためには、従来の自己回帰型（AR）モデルとの比較が不可欠です。

自己回帰型（AR）モデルの限界

ARモデルは、テキストを左から右へと1トークンずつ生成します。このプロセスは「逐次的」であり、1000トークンの回答を生成するには1000回のステップが必要です。特に高度な推論（Reasoning）を行う際、モデルが内部で「思考の連鎖（Chain of Thought）」を展開しようとすると、生成されるトークン数が増え、結果としてユーザーが回答を受け取るまでの待ち時間が膨大になるという課題がありました。

Mercury 2：拡散ベースのテキスト生成

これに対し、Mercury 2が採用した拡散モデルのアプローチは、「ノイズから一度に全体の構造を浮き上がらせる」手法です。画像生成AI（Stable Diffusionなど）がノイズから高精細な画像を生成するように、Mercury 2は回答全体の「概念的な構造」を並列的に洗練させていきます。

並列デコーディング: 1トークンずつ順番に生成するのではなく、複数のトークンや文脈の断片を同時に最適化します。これにより、ARモデルと比較して圧倒的なスループットを実現しています。
階層的推論: Mercury 2は、まず高レベルの「推論計画」を拡散プロセスで構築し、その後に詳細なテキストへと具体化します。これにより、論理的な一貫性を保ちながら、不要な思考のループを抑制することに成功しました。
適応的計算量: 問題の難易度に応じて、拡散のステップ数（デノイジングの回数）を調整することが可能です。簡単な質問には数ステップで即答し、複雑な数学的証明にはステップ数を増やして深く思考するという柔軟な運用が可能になりました。

Inception Labsのベンチマークによれば、Mercury 2は数学やコーディングなどの推論タスクにおいて、既存のARベースの最高峰モデルと同等以上の精度を維持しつつ、生成速度において最大10倍から20倍の高速化を達成したと報告されています。

3. 考察：ポジティブな展望 vs 懸念される課題

Mercury 2がもたらすパラダイムシフトは、AI開発の現場にどのような影響を与えるのでしょうか。多角的な視点から考察します。

ポジティブな側面：リアルタイム推論時代の幕開け

最大のメリットは、「思考するAI」のリアルタイム化です。これまで、複雑な論理構築を必要とするタスク（高度なデバッグ、戦略立案、リアルタイム翻訳など）では、AIの回答を待つ数秒から数十秒のタイムラグがUXを損なっていました。Mercury 2はこの壁を取り払い、人間とAIが「思考のスピード」で対話することを可能にします。

また、計算効率の向上は、インフラコストの劇的な削減を意味します。同じハードウェアリソースでより多くのリクエストを処理できるため、エンタープライズ領域での大規模導入が加速するでしょう。これは、「LLMの推論時コンピュート設計」において、開発者が考慮すべき新たな最適化の選択肢となります。

懸念点と技術的課題：拡散モデル特有の脆さ

一方で、手放しでの称賛には慎重さも必要です。拡散モデルをテキストという離散的なデータに適用する場合、「厳密な文法構造の維持」が課題となります。画像であればピクセルの微細なズレは許容されますが、プログラミングコードや法的文書では、1トークンの誤りが致命的になります。

また、学習データの質と量に対する要求もARモデルとは異なります。拡散プロセスを通じて「正しい推論の軌跡」を学習させるには、極めて高度に構造化されたデータセットが必要であり、Inception Labsがどのようにこのデータバイアスを回避し、汎用性を確保しているかは、今後のサードパーティによる検証が待たれるところです。

さらに、既存のAIエコシステム（LangChainや各種エージェントフレームワーク）は、トークンがストリーミングされることを前提に設計されています。Mercury 2のような「一括生成に近い」出力形式に対応するためには、AWSが採用を進めるMCP（Model Context Protocol）のような標準化プロトコル側での対応も求められるでしょう。

4. まとめ：2026年、アーキテクチャの多様化が加速する

Inception LabsのMercury 2は、自己回帰型モデルが支配的だったLLMの世界に「拡散モデル」という強力な楔を打ち込みました。これは単なる一企業の成功にとどまらず、AIアーキテクチャが「1つの正解」から「用途に応じた最適化」へと多様化していくプロセスの象徴と言えます。

GoogleのGemini 3.1 Proが示すような「コンテキストの巨大化と自律性の強化」という方向性と、Mercury 2が示す「推論プロセスの高速化と効率化」という方向性。これらが融合することで、2026年後半には、エンジニアはもはや「コードを書く人」ではなく、これら多様な特性を持つAIを適材適所で指揮する「オーケストレーター」としての役割をより強く求められるようになるでしょう。

AI Watchでは、今後もMercury 2の実装事例や、他社から登場するであろう「非AR型LLM」の動向を注視し、最前線の情報をお届けしていきます。

関連記事：

参考文献

Mercury 2: The fastest reasoning LLM, powered by diffusion - Inception Labs