「知能とは何か」解明近づく？東大教授・AI研究者松尾豊さんに聞くディープラーニングの先端動向

2020.09.08 ITニュース

2015年7月以来５年ぶり２度目となる、東京大学大学院工学系研究科教授で日本ディープラーニング協会理事長の松尾豊さんのインタビューをお届けする。

エンジニアtypeでは今年７月にも、AIテクノロジー企業ABEJA主催のオンラインイベント「DX2020」で行われたABEJA岡田陽介代表との対談「With/Afterコロナ時代におけるDXとAI」をレポートしている。

＞＞【松尾豊×ABEJA岡田陽介対談】日本企業でDX、AI活用が進まない５つの理由とその処方箋

この記事では「日本企業でDXが進まない理由とその解決策」にテーマを絞るべく割愛したが、講演の中でディープラーニング研究の今を問われた松尾教授は「画像認識系の技術がだいぶ成熟して、アプリケーションもだいぶ出てきた。世の中には”出切った”雰囲気さえ出ている。ところが今（アカデミア方面では）かなり面白いことが起きている」として、最先端の研究動向を一部紹介していた。

そこで今回改めてお時間をいただき、ディープラーニングの世界で今どんな「面白いこと」が起きているのか、それは私たちの生活やエンジニアの仕事に今後どのような影響をもたらすのかを伺った。

東京大学大学院工学系研究科教授　松尾豊さん（@ymatsuo）

1997年東京大学工学部電子情報工学科卒業。2002年同大学院博士課程修了。博士（工学）。同年より、産業技術総合研究所研究員。05年8月よりスタンフォード大学客員研究員を経て、07年より、東京大学大学院工学系研究科総合研究機構／知の構造化センター／技術経営戦略学専攻准教授。14年より、東京大学大学院工学系研究科技術経営戦略学専攻グローバル消費インテリジェンス寄付講座共同代表・特任准教授。19年より、東京大学大学院工学系研究科人工物工学研究センター／技術経営戦略学専攻教授。専門分野は、人工知能、深層学習、ウェブマイニング。人工知能学会からは論文賞（02年）、創立20周年記念事業賞（06年）、現場イノベーション賞（11年）、功労賞（13年）の各賞を受賞。人工知能学会では学生編集委員、編集委員を経て、10年から副編集委員長、12年から編集委員長・理事。14年から18年まで倫理委員長。17年より日本ディープラーニング協会理事長。19年よりソフトバンクグループ社外取締役。松尾研発スタートアップACESなどの技術顧問を務める

実装進む画像認識。アカデミアではディープラーニングと記号処理の融合が議論される

――前回インタビューをさせていただいた2015年からの５年間で、ディープラーニング技術の実用はどこまで進んでいますか？

顔認証、医療の画像診断といった領域でどんどん実用例が出てきていて、最近だとコロナ禍における体温測定時の人の検知にも使われています。他にもインフラの点検、食肉加工、製造業の外観検査、店舗内の顧客の移動分析など、さまざまな領域に広がってきています。これら多くは画像認識を使ったものですが、他方、自然言語処理の関係としても、Eコマースの商品説明の下書きを書く、広告を自動生成するといった例があります。

――実装を担うエンジニアの数もかなり増えてきていますか？

ディープラーニングを使える人の絶対数はすごく増えました。研究の場面でもごく普通に使われるようになっています。TensorFlow、Keras、Pytorchなどのフレームワークが充実してきたため、すごく使いやすくなりました。もはやディープラーニングを使うかどうかという話ではなく、何にどう使うのか、他のテクノロジーと組み合わせてどのように業務を効率化し、どんな付加価値を出していくのかというフェーズに入ってきています。

―― 先日行われた「DX2020」の講演では、「ディープラーニングに関して出切った感が漂っているが、水面下で非常に面白いことが起きている」とおっしゃっていました。

産業面とアカデミア方面とで少し別の動きになっています。先ほども触れたように、産業面で活用されているのは主に画像認識の技術です。そこの応用がこの５年で急速に進みました。また、ハードウエアが関わる分、少し時間はかかるかもしれないですが、今後はロボット系の応用も増えてくるでしょう。そして、こうしたディープラーニングの技術をきっかけにして、業務全体、業界全体のDXをどう進めていくかということが産業上の重要なポイントになります。

一方、アカデミアでは、ディープラーニングと記号処理の融合、さらに言えば人間の思考との対比を考えるような方向でいろいろな動きが出ています。

――詳しく伺いたいです。

一つトピックとして重要なのは、GPT-3の登場です。GPT-3は人工知能を研究する非営利組織OpenAIが公開した文章生成言語モデルの最新版です。

これまでにもBERT、GPT、GPT-2といった言語モデルがありましたが、このGPT-3は自然言語処理のさまざまなタスクを驚くほどの精度でこなしてしまいます。ブログの記事を書くことも、プログラムのコードを書くこともできます。信じられないようなことが次々できてしまうということで、英語圏で今ものすごく盛り上がっています。

ただ、すでに実用フェーズにある画像認識にしても、GPT-3にしても、技術としてはたしかにすごいのですが、人間の知能とは少し離れたものになっています。

――どういうことですか？

人間の知能はシステム１とシステム２の二つのシステムから構成されるという考え方があります。これは、ノーベル経済学賞を受賞した行動経済学者ダニエル・カーネマンが2011年に出版した一般向け書籍『ファスト＆スロー』でよく知られるところになりました。そして、昨年のNeurIPS2019でのYoshua Bengio先生の招待講演がまさに、”From System 1 Deep Learning to System 2 Deep Learning”です。

これまでのディープラーニングはこのうちシステム１に該当するような、非常に直感的・瞬間的・反射的な思考の形態を表現していました。これから考えないといけないのはシステム２の、より熟考型の論理的・言語的な思考の方です。このあたりの技術がディープラーニングで実現できるようになってくると、人間の思考とは何か、言語で考えるとはどういうことかといった理解が大きく進むと思います。

――先ほどのGPT-3がシステム２に関わっているということではないのですか？

はい、システム２の動きなのですが、システム２だけなのです。一方、画像認識はシステム１だけ。人間にはその両方があり、二つのシステムが相互に影響しています。画像的なものも扱えるし、体を上手に動かすことも、言語を扱うこともできる。この両方が密接に関連しているのです。

――つまり、二つ両方を持って初めて人間的と言えるのであって、片方だけでは人間の知能とはかけ離れているという話になってしまう？

そうです。ですが、そもそも人間の知能がどういうものなのかがまだ分かっていません。言葉を喋らなくても上手に日常生活を送っている人はいるわけで、認識をするとか行動をするということと言葉の処理とがどう関係しているのかは、脳科学でも明確には分かっていないし、人工知能の分野でも分かっていません。

この辺りはシンボルグラウンディング問題などと呼ばれて昔から難所であるとされてきました。そこが解決すると、いよいよ見えてくるものがあるかもしれないということです。

人間の知能とは何か。解明のカギを握る技術「世界モデル」

――講演の中ではそのカギになるものとして深層生成モデル、シミュレーション、世界モデルといったキーワードを挙げていました。それぞれどう関わるのでしょうか？

人間は世界のシミュレーターを持っています。だからボールを投げたら何が起こるか、ガラスのコップを落としたら何が起こるかといったことが、実際にやらなくても分かるのです。子どもにはそれが分からないから「そんなことをやったらコップが割れるよ」と言われてもやってしまう。

子どもには分からなかったことが大人になぜ分かるのかと言えば、過去の経験から学習し、モデルを獲得していくからです。そのモデルを使ってシミュレートできるから近い将来のことが見えるのです。今のところ、ディープラーニングに同じことはできません。ですからそれをつくろうというのが世界モデルと呼ばれる技術です。

例えば目の前にあるのがコップであれば、押せば押しただけコップは動きますよね。ですが、同じように砂を押しても砂全体が動くわけではなく、砂の一部だけが動く。水だったら押しても全然動かない。こうしたことをわれわれは当たり前に扱っていますが、それは誰かに教えられたからではなく、自らの経験を通じて学んでいるのです。

世界モデルをつくるには、それと同じことをAIやロボットにも学習させる必要があります。ひたすら押したり引いたり、それも１万回、10万回とやらなくてはなりません。シミュレーターでの試行も併せて行う必要があります。

――深層生成モデルというのは？

世界モデルの中で使われることが多いのが深層生成モデルと呼ばれる技術です。例えばわれわれは「紫の救急車がありました」と言われると、頭の中に一応は「紫の救急車」というものが思い浮かびます。実際には見たことがないはずなのに思い浮かぶというのは、頭の中（深層）でデータを生成しているということです。

そうしたデータの生成過程自体をモデル化したものを深層生成モデルと呼びます。画像認識分野における有名なものにはVAE（Variational Auto Encoder）、GAN（Generative Adversarial Networks）などがあります。

そうしたものを使いながらカウンターファクチュアル（反実仮想。実際にはないことを仮想していく技術）なことを想像できるようになると、人間の大人がするように上手に行動できるようになります。例えば障害物をどけて道の向こう側に行きたいと思ったときに、ダンボール箱であれば押しのけて問題ないけれども、ガラスの飾り物だったらまずいといった判断ができるようになります。ロボットが日常生活や工場の中でのさまざまなタスクを行う上では、これが極めて重要です。

――なるほど。

また、先ほどの紫の救急車の例から分かる通り、これができると言葉の理解ができるようになります。言葉をベースに頭の中で想像ができるようになるのです。われわれが文章の意味や相手の言っていることを理解している時には、おそらく頭の中に像を描いています。そのイメージができた時にわれわれは「ああ、分かった」と言う。イメージを動かしながら相手の話を聞いているのです。

大人になると抽象的な話が多くなるので形のあるイメージではなくなっているのですが、それでもイメージらしきものは描いています。言葉の意味を理解するというのは結局、世界モデルをシミュレーターとして回し、頭の中にイメージをつくっていくことなのだと言えるでしょう。

そうすると、先ほどの「上手に行動する」ということと「言葉の意味を理解する」ということは、どちらも世界モデルという同じ技術を使っていることになります。人間の赤ちゃんも、いろいろと自分で行動ができるようになってくると一方でお母さんの言っている言葉の理解もできるようになります。世界モデルをちゃんと持っていることと、それが言葉によって適切に引き起こされることがすごく大事だということです。

先ほどのGPT-3などにはそういう機能はありません。ですから、本当の意味で人間がしているような意味理解はしていないのではと考えられるわけです。もっともGPTはGPTで、中で何が起こっているのか誰にも分からないくらい大きなモデルで学習しており、しかもtransformerの性質上、アルゴリズム的な挙動も学習できるはずですから、そちらはそちらで非常に面白いのですが。

――講演では岡ノ谷一夫先生が提唱する「歌から言語が生まれた」可能性にも言及していました。この話はどう接続しますか？

以前ある人が「人工知能はインスタントラーメンとは違うことが分かった」とおっしゃっていて、一見、変な例えなのですが、よく聞いてみるとなるほどなと思いました。インスタントラーメンというのは、ラーメンというものをわれわれ自身がすでに知っていて、それをインスタントにしたもののことですよね。ところが人工知能の場合は、われわれが知能というものをあらかじめ分かっているわけではありません。分からないままに、それを人工でつくろうとしているのです。

ですから人工知能に関しては、つくろうとしているものが何なのかを知らないという問題と、どうつくるかという問題、この二つの難しい問題があるわけです。前者の「知能とは何か」という問題には昔から脳科学者も心理学者も哲学者もさまざまな方法でアプローチしてきました。人工知能の研究者もそれをやろうとしているという意味では同じですが、同時につくろうともしているのです。

先ほどの世界モデルの話には、知能とは何かという話と、それをどうつくるかという話の両方が混ざっています。もしも世界モデルのような仕組みにより言葉を理解するAIをつくることができたら、おそらくは人間の知能の仕組み、少なくとも言葉を理解する仕組みはこういう風にできているのではないかということが言えるようになるでしょう。

ただ、現時点では人間の知能とは何かというのが謎なので、われわれとしてもそれをいろいろな側面から説明する必要があります。岡ノ谷先生のやられている研究は、「音楽から言葉ができたのではないか」ということをおっしゃられており、私はアルゴリズム的に言っても、近い説明はできるのではと思っています。より正確に言うと、離散的な記号の予測に正解することを好むプライア（事前知識）が入ったことの副作用が、音楽を好むようになったということだと思います。先の講演ではこうした文脈で先生の研究を引用させていただきました。

AIがコードを書く時代。エンジニアに求められるのは「共感力」

――５年ほど前にアカデミアで盛り上がっていた画像認識技術が今、実装レベルで盛り上がっているというお話でした。今後、今日伺ったような言葉の意味理解に関する研究が進むと、どんな可能性が広がりますか？

言葉の意味理解ができると、おそらくいろいろなタスクができるようになります。事務作業は全般的に「調整しておいて」「これをやっておいて」など言葉を使って行うものなので、全て自動化できる可能性があります。こうしたインタビューや原稿の編集などもできるようになるでしょう。

また、インターフェースとしてもiPhoneのSiriやAmazonのEchoといったAIアシスタントと今以上にちゃんとした会話が成立するようになり、本当のコンシェルジュっぽくなっていきます。もちろんすごく便利になりますし、購買行動なども自分で検索するのではなくAIアシスタントに勧められたものを買うといった形に大きく変わる可能性があります。

このように言葉の意味理解ができるようになることのインパクトはものすごく大きいと考えています。スマホやインターネットの登場と同じかそれ以上に大きな変化が起こるのではないでしょうか。

――いつごろ現実になりますか？

そこは非常に難しいです。というのも、GPT-3のようなもののタスクの精度が上がっていくことで徐々にそうなるのか、あるいはまったく違う方式である瞬間にいきなり「できました」となるのかさえ現時点では分かりませんから。

ただ、僕の予想では５〜10年後。僕はもともと「2030年ごろまでに言葉の意味理解までいく」と言ってきました。その想定から大きくは変わっていないと思っています。

――そうなった時にエンジニアの役割はどうなりますか。人工知能がコードも書いてくれるとなると、よく言われるように仕事がなくなることにもつながりませんか？

最近『ディープメディスン』という本の書評を書いたのですが、冒頭にもお話しした通り、医療の世界ではAIを用いた画像診断がかなり進んでおり、すでに人間の医師よりも精度が高くなってきています。

未来の医療のあり方を描いたこの本は、「自動でできることを自動でやることによる一番のメリットは、医師が患者と向き合うことに時間を使えることだ」と言っています。現状は病院へ行っても、お医者さんは電子カルテの入力作業などに忙しそうで、ほとんどこちらと向き合ってくれないじゃないですか。でも、そこをAIが担ってくれれば、医師は患者と向き合うことに専念できます。データを使うこと、ディープラーニングを使うこと、そして医師と患者とのディープな共感を生み出すことがこれからの医療なのではないかと、著者は結論付けています。

エンジニアに関しても同じことが言えるでしょう。自動でできる部分は自動化していいのです。ただ、共感するとか寄り添ってあげる、聞き出してあげるといったところは人間の得意な部分ですし、また人間にやってほしいと思う部分でもあるでしょう。ですから、同じ職業だったとしても付加価値の構造が変わってくることはあるのではないでしょうか。

――そこが苦手だと感じるエンジニアも多いかもしれませんね。

たしかにそうですね。ですが、基本的に今のエンジニアの数が余ることはないので、そこは心配しなくてもいいのではないでしょうか。社会全体がAIとかデジタルの方向に進み続ければ、開発する人が余ることは基本的にはない。業界自体は発展し続けるはずです。

――流れに乗って必要とされる知識を身に付けていけば、当分の間は仕事に困らないと。では、ディープラーニングなどの先端技術をキャッチアップするために、最低限ウオッチしておくといいものがあれば教えてください。

基本的にはグーグルの「Brain Team」と「DeepMind」、フェイスブックのAIリサーチ「FAIR」、UCバークレーとスタンフォードあたりを見ておけばいいと思います。学会でいうと、ICLR, NeurIPS, CVPRなど。オンラインの講義のコンテンツもたくさんあります。また、今後はディープラーニング単独というよりもいろいろな技術と組み合わせていくことがますます大事になっていくと思うので、エンジニアの方は自分がこれまで培ってきた技術とディープラーニングの組み合わせで、いろいろなビジネスの場面でどう役立つのかと考えてみるのがいいのではないでしょうか。

取材・文／鈴木陸夫

Xをフォローしよう

エンジニアtype をフォロー

この記事をシェア