「話すAI」から「実行するAI」へ：Google GeminiがUber・DoorDash等の自動操作に対応し、スマホOSの在り方を再定義する

2026年2月25日（現地時間）、GoogleはモバイルAIの歴史を塗り替える決定的な一歩を踏み出しました。これまで「調べ物」や「文章作成」のパートナーだったAIアシスタント「Gemini」が、ついにユーザーに代わってアプリを操作し、実世界のサービスを完結させる「AIエージェント」へと進化したのです。

最新のPixel 10や、同日に発表されたSamsung Galaxy S26シリーズにおいて、GeminiはUberでの配車予約やDoorDashでの食事注文といった、複雑なマルチステップのタスクを自律的に実行可能になりました。これは、AppleがSiriで目指しながらも完全には到達できていない「OSレベルでのインテリジェントな自動操作」を、GoogleとSamsungが先行して実現したことを意味します。

本記事では、テックブログ「AI Watch」として、この衝撃的なニュースの技術的背景から、私たちの生活やスマホOSの未来に与える影響までを深く掘り下げます。

1. ニュースの概要：Geminiが「実行」の権限を手に入れた日

2026年2月25日、Googleおよび主要パートナー各社から、Geminiの新機能に関する一連の発表がありました。今回のアップデートの核心は、GeminiがAndroid OSの深い階層で動作し、サードパーティ製アプリを直接、あるいはAPIを介して制御できるようになった点にあります。

具体的には、ユーザーが「空港まで一番安い車種でUberを呼んで」や「DoorDashでいつものタイ料理を注文して」と話しかけるだけで、Geminiが裏側でアプリを起動し、目的地を入力し、価格を比較し、最終的な決済画面（あるいは設定によっては決済そのもの）までを自動で進めます。

これまでも、特定のアプリと連携する機能は存在しましたが、それらは限定的な「ショートカット」に過ぎませんでした。今回のアップデートは、Geminiが画面上の情報を理解し、人間と同じように複数のステップを判断しながら進める「推論型エージェント」へと脱皮したことを示しています。これは、先日発表された「Gemini 3.1 Pro」で培われた圧倒的な推論能力が、モバイルデバイスに最適化された形で実装された結果と言えるでしょう。

2. 技術的な詳細：なぜ「自動操作」が可能になったのか

今回の機能実現には、主に3つの技術的ブレイクスルーが寄与しています。

マルチモーダル推論と「推論時コンピュート」の最適化

Geminiは、画面に表示されている内容をリアルタイムで解析するマルチモーダル能力を備えています。従来のAPI連携だけでなく、APIが公開されていないアプリであっても、画面上のボタンやテキストを認識して「どこをタップすべきか」を判断します。ここで重要になるのが、推論時コンピュートの最適化です。スマホという限られたリソース内で、複雑な判断を遅延なく行うために、オンデバイス処理とクラウド処理をシームレスに切り替える高度なアーキテクチャが採用されています。

Android Intentの拡張と「Agentic Workflow」

Googleは、Android OSのアプリ間連携の仕組み（Intent）をAIエージェント向けに拡張しました。これにより、アプリ側が「AIによる操作」を前提としたインターフェースを提供できるようになり、より確実な操作が可能になっています。TechCrunchの報道によれば、これは単一のコマンド実行ではなく、状況に応じてステップを修正する「マルチステップ・オートメーション」を実現しています。

Model Context Protocol (MCP) 的なアプローチ

公式には明言されていませんが、今回の連携強化は、業界で標準化が進む「モデルとデータの接続プロトコル」の影響を強く受けていると考えられます。例えば、AWSが採用したMCPのように、AIが外部ツールやデータベースにアクセスするための標準化が進んだことで、UberやDoorDashといった外部サービスとの統合コストが劇的に下がったことが背景にあります。

3. 考察：利便性の極致か、プライバシーの終焉か

この進化は、私たちのデジタルライフを劇的に変える可能性を秘めていますが、同時に深い懸念も生じさせています。

ポジティブな側面：究極のアクセシビリティと効率化

認知負荷の激減： 「アプリを探す」「メニューを辿る」という作業が消失します。特に、複雑なUIを持つアプリの操作が困難な高齢者や障害を持つ人々にとって、この「声による実行」は真のバリアフリーを実現します。
「アプデ疲れ」からの解放： アプリのUIが変わるたびに操作方法を覚える必要がなくなります。ユーザーは「目的」を伝えるだけでよく、UIの変更はGeminiが吸収してくれます。

懸念点：セキュリティ、プライバシー、そして市場支配

誤操作と責任の所在： AIが誤って高額な注文を確定してしまった場合、責任はGoogleにあるのか、アプリ業者にあるのか、あるいは確認を怠ったユーザーにあるのか。現状、法的・規約的な整備は追いついていません。
「画面の占有」とプライバシー： Geminiが常に画面の内容を監視し、操作を代行するということは、究極のキーロガー（操作記録機）をOSレベルで受け入れることを意味します。Googleはこのデータを広告やモデルのトレーニングに利用しないと明言していますが、ユーザーの心理的抵抗は根強いでしょう。
プラットフォーマーの独占： Googleがすべてのサービスの「入り口」となることで、特定のアプリが優先的に推奨される（例：LyftよりUberを優先する）といった、不当な市場操作のリスクが生じます。

これらの変化により、エンジニアの役割も劇的に変化しています。かつてはUIを構築することが主眼でしたが、これからは「AIを指揮する人」として、AIが解釈しやすいサービス設計（Agent-friendly Design）を行うことが求められるようになるでしょう。

4. まとめ：スマホOSの終焉と「エージェントOS」の誕生

今回のGoogle Geminiの進化は、単なる「便利な新機能」ではありません。それは、1940年代から続く「人間がコンピュータの言語（あるいはGUI）に合わせて操作する」というパラダイムの終焉を告げるものです。

Pixel 10やGalaxy S26は、もはや「アプリを実行する板」ではなく、私たちの意図を汲み取って実世界を動かす「パーソナル・エージェントの器」へと変貌しました。AppleがSiriの刷新に苦戦する中、GoogleはAndroidというオープンなエコシステムと、DeepMind由来の強力なAIモデルを融合させることで、次世代のコンピューティングにおける主導権を握ったと言えます。

私たちは今、AI Watchが開設当初から予測していた「AIが道具からパートナーへ変わる瞬間」を目の当たりにしています。今後、この機能が日本を含むグローバルでどのように展開され、法規制やユーザーの習慣とどう折り合いをつけていくのか。AI Watchでは引き続き、この「実行するAI」の最前線を追い続けていきます。

「話すAI」から「実行するAI」へ：Google GeminiがUber・DoorDash等の自動操作に対応し、スマホOSの在り方を再定義する

1. ニュースの概要：Geminiが「実行」の権限を手に入れた日

2. 技術的な詳細：なぜ「自動操作」が可能になったのか

マルチモーダル推論と「推論時コンピュート」の最適化

Android Intentの拡張と「Agentic Workflow」

Model Context Protocol (MCP) 的なアプローチ

3. 考察：利便性の極致か、プライバシーの終焉か

ポジティブな側面：究極のアクセシビリティと効率化

懸念点：セキュリティ、プライバシー、そして市場支配

4. まとめ：スマホOSの終焉と「エージェントOS」の誕生

参考文献

関連記事

OpenAIによるメディア企業『TBPN』買収の衝撃：IPOを前に加速する「情報空間の囲い込み」と幹部刷新の全貌

Anthropic、4億ドルでバイオテック企業を買収：AIラボから『AI創薬』の実践者へ。生命科学の垂直統合と、Claudeが示す『機能的感情』の衝撃

AIインフラの「脱・再エネ」加速：MetaとGoogleが巨大ガス発電所の自社建設へ、電力網の限界を突破する『自給自足』の衝撃