次の時代は「現実世界にAIが降りてくる」シバタナオキが語る“フィジカルAI”の捉え方
生成AIがテキストや画像を生み出す時代は、もう序章にすぎない。
次にやってくるのは、AIが現実空間そのものを理解し、動かす時代だ。
話題の書『アフターAI 世界の一流には見えている生成AIの未来地図』(日経BP)は、生成AIがもたらす社会変化を10章にわたって解き明かす一冊だ。
第7章では、生成AIがデジタルのバーチャル空間から物理空間(実空間)へと活躍の場を広げている「フィジカルAI(物理AI)」のトレンド、特にモビリティ(自動運転)やロボット産業にもたらす変化、そしてそれが日本のもづくり産業に与える影響について解説されている。
本記事では、その冒頭約6000字の部分を紹介していく。
『アフターAI』著者
シバタナオキ(@shibataism)
元・楽天株式会社執行役員(当時最年少)、東京大学工学系研究科助教、スタンフォード大学客員研究員。東京大学工学系研究科博士課程修了(工学博士、技術経営学専攻)。著書に『MBAより簡単で英語より大切な決算を読む習慣』『テクノロジーの地政学』(日経BP)がある
エージェントAIの次に来る「フィジカルAI」
ここでは、モビリティとロボットに焦点を当てて、アフターAIの世界を見通していきます。
2025年のCESで最も多くの来場者を集めたNVIDIAのジェンスン・フアン社長兼CEOの基調講演では、AIのトレンドを4段階に分けて説明していました。
最初が「認知するAI(パーセプションAI)」で認識や予測が可能になりました。その次に「生成AI(ジェネレーティブAI)」が登場して物事の理解が進み、3段階目の「エージェントAI」で自律的な判断やエージェント同士の協働が可能になりました。その先の4段階目が、「物理AI(フィジカルAI)」だというトレンドです。
フィジカルAIは、物理空間の中にAIを適合させていくことで、デジタルのバーチャル空間からAIの活躍の範囲を広げることができます。
すでにロボットは工場の様々なところに使われていますし、自動運転車も制限付きながら登場しています。こうした物理空間におけるモビリティやロボットといった実在に対して、AIが大きな変化をもたらす時代がやってきているのです。
多量の学習をバーチャル空間で実現物理空間の中でAIを動かしていくとなると、どのように現実空間をキャプチャーして、バーチャル空間の中で学習させるかが大切なポイントになり
ます。
現在では、様々なAIモデルを組み合わせて使うことで、テキストを入力するだけで現実空間をバーチャル空間でシミュレーションできるようになっています。
リアルタイム最適化を実現するフィジカルAI 参照:NVIDIA CEO Jensen Huang Keynote at CES 2025
ロボットがどのように現実空間を見てどう動いているかとか、このような周辺環境の中で自動運転車が走っているかということを、まるでリアルの世界にいるように再現できるのです。
すなわち、リアルの世界で実験などしなくても、バーチャル空間で大量のシミュレーションを繰り返すことによって学習を進めることができます。
例えばNVIDIAは、オムニバースという産業用デジタルツインを実現するためのアプリケーション開発プラットフォームを提供しています。
3Dで動くバーチャル空間を作っていたわけです。この空間をリアルの世界のデジタルツインとして拡張していけば、リアルの世界を再現したバーチャル空間の中でAIがトレーニングを続けられるようになります。
リアルの世界では100万回、1000万時間といった膨大な手間が必要なトレーニングが、バーチャル空間ならば短時間で繰り返し行えるのです。
自動運転のAIのトレーニングでは、様々な路面環境のデータが必要です。雨の日や雪の日になるとデータは少なくなりますし、例えば路上にクマが飛び出したといったような例外ケースはデータを収集することすら難しくなります。
AIによって拡張されたバーチャル空間ならば、多様な例外ケースもシミュレーションして学習データとして利用できます。
ロボットでも同様です。ロボットが認知している世界を1つ作って、AIによる拡張でバリエーションを増やしていくことで、多様なパターンの例外がある学習を進めて汎用モデルを作ることができます。
バーチャル空間に拡大するリーズニングモデル
生成AIの登場と進化によって、こうした物理空間のモデル化はどのように変化しているので
しょうか。これまでもバーチャル空間の上で物理空間をシミュレーションすることはできました。
ところが、生成AIの登場によって、物理空間の現象も含めて再現する「ワールドモデル」と呼ばれる空間モデルが実用レベルへと向上しました。オープンAIのo1以降、リーズニングモデルが注目されています。AIをある程度トレーニングした後、バーチャル空間や実空間から得られる新たな情報を用いて、リーズニングモデルを継続的に強化学習することでスケーリングが可能になっています。
ここでは、まず物理空間の情報を元にシミュレーション空間を作って、その中で何万、何百万というパターンで学習を繰り返します。
次に、その空間の中で自動車やロボットがどう動くべきかというリーズニングモデルを作ります。さらに作ったリーズニングモデルをエッジAIとして実際の自動車やロボットに実装して物理空間で稼働させます。
物理空間の稼働からまたデータが取得できて学習に使われるという循環が生まれます。この循環のサイクルを短くすることで、リアルタイムに対応できるようになっていくのです。
例えば、実際の工場の中を考えます。自動ロボットは、コンピューターの中に再現されたバーチャル空間の中でシミュレーションしながら動いています。それを現実空間に反映させるわけです。
実際に稼働しているとき、自動ロボットはカメラなどを通じて工場の変化の情報を取得しています。そうした現実空間の最新情報を使ってバーチャル空間に安全なコピーの空間を作り、リーズニングモデルを使って無限シナリオパターンのシミュレーションを繰り返し、最適な配送や最適な実装を選択して実行していきます。
物理空間のルールが再現できるワールドモデル
こうしたAIはモビリティ領域、とりわけ自動運転に応用できます。安全走行を達成するには、刻々と変化する道路状況に即応しなければなりません。
人間の運転でも同様ですが、自動運転ではAIが単独で変化を捉え、判断を下す必要があります。従来は、時間軸を加えた四次元マップ(4-Dmap)上のシミュレーション空間で最適経路を学習してきました。
しかし、ワールドモデルを使えば、極端にトリッキーな道路状況さえ人工的に生成できます。極めて稀な例外ケースも網羅的に学習できるため、現実空間でも人間以上に事故を起こさない自動運転車の開発が加速します。
ワールドモデルの実現は未来のことだと考える人は多いでしょう。しかし、2024年ごろか
ら実現の兆しは顕在化してきています。例えば、2024年12月に一般に公開されたオープン
AIの動画生成AIのSoraでは、テキストを入力するだけで立体空間の中を動いてるような
CGを体験できるようになっています。
オープンAIは、動画の研究を進める中でワールドモデルが実装されたと表明しています。生成AIにおけるワールドモデルとは、AIが立体空間の動画を長時間学習していくうちに、物理空間のルールがAIモデルに実装されることを示します。
動画の繰り返しの学習から、光の反射であったり、重力による揺れだったりという自然現象を学習・再現できるようになるのです。物理空間のルールを実装して再現できるAIモデルは、物理空間の未来を予測することもできるようになります。
AIに実装されたワールドモデルの能力を使えば、物理空間の計画をしたり、自動運転を実現したりすることが可能です。
ワールドモデルは、テスラやオープンAIなどの海外企業だけが獲得している能力ではありません。日本でも「完全自動運転」の実現を目指す企業は、ワールドモデルの実装を開始して
います。世界中で静かに、しかし着実に競争が始まっています。
モビリティとロボットの最先端はどうなっているか
実際に自動運転が可能な自動車を提供しているテスラの取り組みも見てみましょう。テスラではFSD(フルセルフドライビング)などの自動運転技術を提供しています。自動運転の分類では、ドライバーの監視下で運転支援をするレベル2に分類されるのですが、レベル2の中では高度な機能を提供しています。FSDの実現は、もともとはルールベースの機械学習が用いられていました。
30万行ほどもあるコードのプログラムにより、動いていたのです。ところが、テスラは2023年の夏に、このプログラムをニューラルネットワークベースのものに置き換えています。これにより2桁ほどもコードを減らすことに成功しています。
物理空間の中の物体がAIによって動いていくようになる1つの究極の姿が、ロボットでしょ
う。2025年のCESでNVIDIAは、同社のチップを使って12社ほどが汎用型のヒューマノイド(人間型)ロボットを作っていると発表しました。これまでヒューマノイドロボットは、
人間のように様々な状況に応じて適切な動きをすることが難しかったわけです。
しかし、生成AIにより現実空間をバーチャル空間に再現することで、数千回、数万パターンに及ぶ多彩なシチュエーションを学習することができます。多くの状況に適応した動きが実現できるようになってきていまさらに、アップルのビジョンプロのような入力ツールを使えば、人間のエキスパートの動作や行動などを立体空間の中で学習していくことも可能です。
そうなると、人間が実際の視界の中でどのように操作しているかを1回覚えさせたら、生成AIがバリエーションをたくさん作ってさらに学習することができます。環境や例外処理のバリエーションを豊富に作れます。
さらにロボットから見た視界や触覚がどうなるかのフィードバックシミュレーションも実現できます。あっと言う間に、汎用ロボットが人間の専門家のやっていることを再現できるような世界が来てしまうのです。
スペシフィックからジェネラルへのシフトに乗る
日本は産業ロボットで強みを持っていると言われています。確かに、現在ではまだ世界の
50%のシェアを占めています。
一方で、これは特定用途に限ったスペシフィックなロボットの世界での強みとも言えます。
今後、ジェネラルな動作に対応できる汎用ロボットが登場してきたらどうなるでしょうか。
日本は、スペシフィックな時代にはものづくりで高い適性を示します。パソコンも携帯電話も、スペシフィックな時代には高いシェアを持っていたことを覚えている人も多いでしょう。
しかし、この強みがジェネラルになると一転します。IBMのAT互換機が市場に広まった後、アップルのiPhoneに代表されるスマートフォンが登場した後、日本のメーカーがどうなったでしょうか。ロボットの世界でも、汎用ロボットが広く使われるようになったら、
同じことが起こらないとも限りません。
誰もがロボットを作れるようになったら、誰もが自動運転の自動車を作れるようになったら、ハードウエアでは儲からなくなります。スペシフィックなものづくりに長けた日本はどうしていったらいいでしょう。
今後を見通す1つの解がテスラから示されています。テスラは2027年に米国でロボタクシーの運用を始める予定です。ロボタクシーのポイントは、テスラの所有者が自分で自動車を利用しないときに、自動運転タクシーとして稼いでくれることです。
同社CEOのイーロン・マスク氏は、自動運転タクシーとして3年ほど運用すれば、テスラの購入の元手を回収できるといいます。
テスラを持っていれば、減価償却などを考えることなく、収益のほうが上回っていくという姿です。さらに、テスラ自体についても、テスラが世界で一番事故を起こさない自動車になることで、自動車の販売で儲けなくても自動車保険で収益が上がるようになるとも言及しています。
実際、グーグル傘下のウェイモが公開している比較ベンチマークでは、人間のドライバーは
100万マイルに6回の事故を起こす確率で運転していますが、ウェイモでは100万マイルに
2・2回の事故を起こす確率で運転しており、すでに人間のドライバーよりも事故率が低いと言います。
AIの活用が進む現代において、ビジネスモデルは従来の「フラウンカーブ型」から「スマイ
ルカーブ型」へと大きく変化しています。フラウンカーブ型とは、主に製造・大量生産・流通といった中間工程に収益の中心が置かれるもので、従来の製造業が典型です。
しかし、ICTやAIを活用するビジネスでは、研究開発(R&D)などの前工程や、データ活用・サービス提供などの後工程に高い付加価値が生まれるスマイルカーブ型へと移行しています。
特にAIの活用は、初期段階の技術開発による性能の差が競争優位を生み、またサービス展開や利用データによる継続的価値創出を可能にします。価値の重心がモノから知へと移行している変化を、モビリティやロボットの領域でも捉えることが求められます。
強化学習で革命が起こる
スタートアップについて紹介する前に、AIの進化が、モビリティやロボットでどのような現
在地にあるかを確認していきましょう。
縦軸に、「囲碁」「LLM」「自動運転」「ロボット」という用途を示しました。横軸にはAIの進化の過程として、「ルールベース」「事前学習(プレトレーニング)」「RL(強化学習、リインフォースメントラーニング)革命」を並べています。
AIは、ルールベースから事前学習へ進化し、その後に強化学習による革命があるという流れです。
囲碁は、プロ棋士の打ち手を事前に学習させたアルファGoが登場して、プロ棋士に勝つような状況になりました。その後、囲碁の打ち手は学習させず、囲碁のルールだけを教えてAI同士が対決して学習する強化学習を使ったアルファゼロが登場しました。
アルファゼロは学習を始めて4日目に最強の棋士が絶対に勝てない段階まで到達してしまいました。AIが勝手に学習してどんどん賢くなっていくわけです。
LLMの世界では、GPTが登場する前にルールベースのチャットボットなどがありました。
これが事前学習のGPTにより大きく性能を高めました。現在では、リーズニングができるようになったオープンAI o1やディープシークにより、さらに賢くなっています。
ただし、まだ学習プロセスの大半をトレーニングフェーズに費やしていますから、事前学習の範疇です。
ところがオープンAIのo3の登場で、強化学習によってどんどん学習ができるようになってきました。推論しながらどんどん賢くなっていくので、RL革命を起こして将来的なAGI(汎用人工知能)に近づいていくのではないかと思います。
一方で、モビリティ・ロボットの世界で最も進んでいる自動車の自動運転については、テスラのFSDでもバージョン11以前はルールベースの機械学習を使っていました。「一時停止のサインがあったら止まる」といったルールをたくさん記述してあったのです。
これがFSDバージョン12以降はAIが学習するようになりました。自動運転中にドライバーが自動運転を停止してブレーキを踏むといった事態が、以前のバージョンから大幅に5~6倍改善されたといいます。
次に来るのはロボタクシーと言われています。ここでは人間が一切運転に関わらないので、そのためにはRL革命が起こる必要があると考えています。RL革命につながる取り組みが進んでいるのが自動運転の世界ということになります。
自動車以外のロボットに関しては、自動運転よりも少し時間が遅れているというのが実感です。
ルールベースのRPA(ロボティクスプロセスオートメーション)は古くからありました。現在はRPAと言ってもLLMをフル活用した変化が起こっているところです。多くのスタートアップは、この事前学習の世界のところで頑張っています。
さらに図の右側のRL革命につながるスタートアップは、ロボットの世界ではもう少し後になって登場すると考えています。
■この続きはぜひ書籍で!
書籍ではこのあと、「モビリティとロボットの分野で注目のスタートアップを5社の紹介」と、「AI活用が先行している自動運転」を中心に、モビリティとロボットの分野のアフターAIを見通しています。
【書籍紹介】
アフターAI 世界の一流には見えている生成AIの未来地図
生成AI時代の「ビジネス実装」が、この一冊で見える
生成AIは、もはやバズワードの時代を越え、実装の巧拙が企業価値を左右する段階へと突入しました。著者のシバタナオキ氏は、投資家としてシリコンバレーを中心に1000社超の生成AIスタートアップを精査し、数十社へ投資してきました。さらに本書には、日本企業の現場で生成AI導入に取り組むトップランナーたちの生の声が収録されています。
>>>詳しくはこちら
RELATED関連記事
JOB BOARD編集部オススメ求人特集
RANKING人気記事ランキング
t-wadaが説く、今あえて“自分の手”でコードを書く理由「バイブコーディングは、エンジニアのためのものではない」
Ruby父 まつもとゆきひろ「出社させたがるのは、マネジャーの怠慢でしかない」
今のAIは限界? 日本発“第三のAI”の可能性をAI研究者・鹿子木宏明が提唱する理由
「人員増・組織拡大は継続の方針」アクセンチュア新社長・濱岡大が見据える“変革のプラットフォーマー”への道筋
メルカリ・ハヤカワ五味が感じた生成AI推進を阻む三つの壁「個人で世界を変えようとしなくていい」
タグ