「知能とは何か」解明近づく?東大教授・AI研究者松尾豊さんに聞くディープラーニングの先端動向
2015年7月以来5年ぶり2度目となる、東京大学大学院工学系研究科教授で日本ディープラーニング協会理事長の松尾豊さんのインタビューをお届けする。
エンジニアtypeでは今年7月にも、AIテクノロジー企業ABEJA主催のオンラインイベント「DX2020」で行われたABEJA岡田陽介代表との対談「With/Afterコロナ時代におけるDXとAI」をレポートしている。
>>【松尾豊×ABEJA岡田陽介対談】日本企業でDX、AI活用が進まない5つの理由とその処方箋
この記事では「日本企業でDXが進まない理由とその解決策」にテーマを絞るべく割愛したが、講演の中でディープラーニング研究の今を問われた松尾教授は「画像認識系の技術がだいぶ成熟して、アプリケーションもだいぶ出てきた。世の中には”出切った”雰囲気さえ出ている。ところが今(アカデミア方面では)かなり面白いことが起きている」として、最先端の研究動向を一部紹介していた。
そこで今回改めてお時間をいただき、ディープラーニングの世界で今どんな「面白いこと」が起きているのか、それは私たちの生活やエンジニアの仕事に今後どのような影響をもたらすのかを伺った。
実装進む画像認識。アカデミアではディープラーニングと記号処理の融合が議論される
顔認証、医療の画像診断といった領域でどんどん実用例が出てきていて、最近だとコロナ禍における体温測定時の人の検知にも使われています。他にもインフラの点検、食肉加工、製造業の外観検査、店舗内の顧客の移動分析など、さまざまな領域に広がってきています。これら多くは画像認識を使ったものですが、他方、自然言語処理の関係としても、Eコマースの商品説明の下書きを書く、広告を自動生成するといった例があります。
ディープラーニングを使える人の絶対数はすごく増えました。研究の場面でもごく普通に使われるようになっています。TensorFlow、Keras、Pytorchなどのフレームワークが充実してきたため、すごく使いやすくなりました。もはやディープラーニングを使うかどうかという話ではなく、何にどう使うのか、他のテクノロジーと組み合わせてどのように業務を効率化し、どんな付加価値を出していくのかというフェーズに入ってきています。
産業面とアカデミア方面とで少し別の動きになっています。先ほども触れたように、産業面で活用されているのは主に画像認識の技術です。そこの応用がこの5年で急速に進みました。また、ハードウエアが関わる分、少し時間はかかるかもしれないですが、今後はロボット系の応用も増えてくるでしょう。そして、こうしたディープラーニングの技術をきっかけにして、業務全体、業界全体のDXをどう進めていくかということが産業上の重要なポイントになります。
一方、アカデミアでは、ディープラーニングと記号処理の融合、さらに言えば人間の思考との対比を考えるような方向でいろいろな動きが出ています。
一つトピックとして重要なのは、GPT-3の登場です。GPT-3は人工知能を研究する非営利組織OpenAIが公開した文章生成言語モデルの最新版です。
これまでにもBERT、GPT、GPT-2といった言語モデルがありましたが、このGPT-3は自然言語処理のさまざまなタスクを驚くほどの精度でこなしてしまいます。ブログの記事を書くことも、プログラムのコードを書くこともできます。信じられないようなことが次々できてしまうということで、英語圏で今ものすごく盛り上がっています。
ただ、すでに実用フェーズにある画像認識にしても、GPT-3にしても、技術としてはたしかにすごいのですが、人間の知能とは少し離れたものになっています。
人間の知能はシステム1とシステム2の二つのシステムから構成されるという考え方があります。これは、ノーベル経済学賞を受賞した行動経済学者ダニエル・カーネマンが2011年に出版した一般向け書籍『ファスト&スロー』でよく知られるところになりました。そして、昨年のNeurIPS2019でのYoshua Bengio先生の招待講演がまさに、”From System 1 Deep Learning to System 2 Deep Learning”です。
これまでのディープラーニングはこのうちシステム1に該当するような、非常に直感的・瞬間的・反射的な思考の形態を表現していました。これから考えないといけないのはシステム2の、より熟考型の論理的・言語的な思考の方です。このあたりの技術がディープラーニングで実現できるようになってくると、人間の思考とは何か、言語で考えるとはどういうことかといった理解が大きく進むと思います。
はい、システム2の動きなのですが、システム2だけなのです。一方、画像認識はシステム1だけ。人間にはその両方があり、二つのシステムが相互に影響しています。画像的なものも扱えるし、体を上手に動かすことも、言語を扱うこともできる。この両方が密接に関連しているのです。
そうです。ですが、そもそも人間の知能がどういうものなのかがまだ分かっていません。言葉を喋らなくても上手に日常生活を送っている人はいるわけで、認識をするとか行動をするということと言葉の処理とがどう関係しているのかは、脳科学でも明確には分かっていないし、人工知能の分野でも分かっていません。
この辺りはシンボルグラウンディング問題などと呼ばれて昔から難所であるとされてきました。そこが解決すると、いよいよ見えてくるものがあるかもしれないということです。
人間の知能とは何か。解明のカギを握る技術「世界モデル」
人間は世界のシミュレーターを持っています。だからボールを投げたら何が起こるか、ガラスのコップを落としたら何が起こるかといったことが、実際にやらなくても分かるのです。子どもにはそれが分からないから「そんなことをやったらコップが割れるよ」と言われてもやってしまう。
子どもには分からなかったことが大人になぜ分かるのかと言えば、過去の経験から学習し、モデルを獲得していくからです。そのモデルを使ってシミュレートできるから近い将来のことが見えるのです。今のところ、ディープラーニングに同じことはできません。ですからそれをつくろうというのが世界モデルと呼ばれる技術です。
例えば目の前にあるのがコップであれば、押せば押しただけコップは動きますよね。ですが、同じように砂を押しても砂全体が動くわけではなく、砂の一部だけが動く。水だったら押しても全然動かない。こうしたことをわれわれは当たり前に扱っていますが、それは誰かに教えられたからではなく、自らの経験を通じて学んでいるのです。
世界モデルをつくるには、それと同じことをAIやロボットにも学習させる必要があります。ひたすら押したり引いたり、それも1万回、10万回とやらなくてはなりません。シミュレーターでの試行も併せて行う必要があります。
世界モデルの中で使われることが多いのが深層生成モデルと呼ばれる技術です。例えばわれわれは「紫の救急車がありました」と言われると、頭の中に一応は「紫の救急車」というものが思い浮かびます。実際には見たことがないはずなのに思い浮かぶというのは、頭の中(深層)でデータを生成しているということです。
そうしたデータの生成過程自体をモデル化したものを深層生成モデルと呼びます。画像認識分野における有名なものにはVAE(Variational Auto Encoder)、GAN(Generative Adversarial Networks)などがあります。
そうしたものを使いながらカウンターファクチュアル(反実仮想。実際にはないことを仮想していく技術)なことを想像できるようになると、人間の大人がするように上手に行動できるようになります。例えば障害物をどけて道の向こう側に行きたいと思ったときに、ダンボール箱であれば押しのけて問題ないけれども、ガラスの飾り物だったらまずいといった判断ができるようになります。ロボットが日常生活や工場の中でのさまざまなタスクを行う上では、これが極めて重要です。
また、先ほどの紫の救急車の例から分かる通り、これができると言葉の理解ができるようになります。言葉をベースに頭の中で想像ができるようになるのです。われわれが文章の意味や相手の言っていることを理解している時には、おそらく頭の中に像を描いています。そのイメージができた時にわれわれは「ああ、分かった」と言う。イメージを動かしながら相手の話を聞いているのです。
大人になると抽象的な話が多くなるので形のあるイメージではなくなっているのですが、それでもイメージらしきものは描いています。言葉の意味を理解するというのは結局、世界モデルをシミュレーターとして回し、頭の中にイメージをつくっていくことなのだと言えるでしょう。
そうすると、先ほどの「上手に行動する」ということと「言葉の意味を理解する」ということは、どちらも世界モデルという同じ技術を使っていることになります。人間の赤ちゃんも、いろいろと自分で行動ができるようになってくると一方でお母さんの言っている言葉の理解もできるようになります。世界モデルをちゃんと持っていることと、それが言葉によって適切に引き起こされることがすごく大事だということです。
先ほどのGPT-3などにはそういう機能はありません。ですから、本当の意味で人間がしているような意味理解はしていないのではと考えられるわけです。もっともGPTはGPTで、中で何が起こっているのか誰にも分からないくらい大きなモデルで学習しており、しかもtransformerの性質上、アルゴリズム的な挙動も学習できるはずですから、そちらはそちらで非常に面白いのですが。
以前ある人が「人工知能はインスタントラーメンとは違うことが分かった」とおっしゃっていて、一見、変な例えなのですが、よく聞いてみるとなるほどなと思いました。インスタントラーメンというのは、ラーメンというものをわれわれ自身がすでに知っていて、それをインスタントにしたもののことですよね。ところが人工知能の場合は、われわれが知能というものをあらかじめ分かっているわけではありません。分からないままに、それを人工でつくろうとしているのです。
ですから人工知能に関しては、つくろうとしているものが何なのかを知らないという問題と、どうつくるかという問題、この二つの難しい問題があるわけです。前者の「知能とは何か」という問題には昔から脳科学者も心理学者も哲学者もさまざまな方法でアプローチしてきました。人工知能の研究者もそれをやろうとしているという意味では同じですが、同時につくろうともしているのです。
先ほどの世界モデルの話には、知能とは何かという話と、それをどうつくるかという話の両方が混ざっています。もしも世界モデルのような仕組みにより言葉を理解するAIをつくることができたら、おそらくは人間の知能の仕組み、少なくとも言葉を理解する仕組みはこういう風にできているのではないかということが言えるようになるでしょう。
ただ、現時点では人間の知能とは何かというのが謎なので、われわれとしてもそれをいろいろな側面から説明する必要があります。岡ノ谷先生のやられている研究は、「音楽から言葉ができたのではないか」ということをおっしゃられており、私はアルゴリズム的に言っても、近い説明はできるのではと思っています。より正確に言うと、離散的な記号の予測に正解することを好むプライア(事前知識)が入ったことの副作用が、音楽を好むようになったということだと思います。先の講演ではこうした文脈で先生の研究を引用させていただきました。
AIがコードを書く時代。エンジニアに求められるのは「共感力」
言葉の意味理解ができると、おそらくいろいろなタスクができるようになります。事務作業は全般的に「調整しておいて」「これをやっておいて」など言葉を使って行うものなので、全て自動化できる可能性があります。こうしたインタビューや原稿の編集などもできるようになるでしょう。
また、インターフェースとしてもiPhoneのSiriやAmazonのEchoといったAIアシスタントと今以上にちゃんとした会話が成立するようになり、本当のコンシェルジュっぽくなっていきます。もちろんすごく便利になりますし、購買行動なども自分で検索するのではなくAIアシスタントに勧められたものを買うといった形に大きく変わる可能性があります。
このように言葉の意味理解ができるようになることのインパクトはものすごく大きいと考えています。スマホやインターネットの登場と同じかそれ以上に大きな変化が起こるのではないでしょうか。
そこは非常に難しいです。というのも、GPT-3のようなもののタスクの精度が上がっていくことで徐々にそうなるのか、あるいはまったく違う方式である瞬間にいきなり「できました」となるのかさえ現時点では分かりませんから。
ただ、僕の予想では5〜10年後。僕はもともと「2030年ごろまでに言葉の意味理解までいく」と言ってきました。その想定から大きくは変わっていないと思っています。
最近『ディープメディスン』という本の書評を書いたのですが、冒頭にもお話しした通り、医療の世界ではAIを用いた画像診断がかなり進んでおり、すでに人間の医師よりも精度が高くなってきています。
未来の医療のあり方を描いたこの本は、「自動でできることを自動でやることによる一番のメリットは、医師が患者と向き合うことに時間を使えることだ」と言っています。現状は病院へ行っても、お医者さんは電子カルテの入力作業などに忙しそうで、ほとんどこちらと向き合ってくれないじゃないですか。でも、そこをAIが担ってくれれば、医師は患者と向き合うことに専念できます。データを使うこと、ディープラーニングを使うこと、そして医師と患者とのディープな共感を生み出すことがこれからの医療なのではないかと、著者は結論付けています。
エンジニアに関しても同じことが言えるでしょう。自動でできる部分は自動化していいのです。ただ、共感するとか寄り添ってあげる、聞き出してあげるといったところは人間の得意な部分ですし、また人間にやってほしいと思う部分でもあるでしょう。ですから、同じ職業だったとしても付加価値の構造が変わってくることはあるのではないでしょうか。
たしかにそうですね。ですが、基本的に今のエンジニアの数が余ることはないので、そこは心配しなくてもいいのではないでしょうか。社会全体がAIとかデジタルの方向に進み続ければ、開発する人が余ることは基本的にはない。業界自体は発展し続けるはずです。
基本的にはグーグルの「Brain Team」と「DeepMind」、フェイスブックのAIリサーチ「FAIR」、UCバークレーとスタンフォードあたりを見ておけばいいと思います。学会でいうと、ICLR, NeurIPS, CVPRなど。オンラインの講義のコンテンツもたくさんあります。また、今後はディープラーニング単独というよりもいろいろな技術と組み合わせていくことがますます大事になっていくと思うので、エンジニアの方は自分がこれまで培ってきた技術とディープラーニングの組み合わせで、いろいろなビジネスの場面でどう役立つのかと考えてみるのがいいのではないでしょうか。
取材・文/鈴木陸夫
RELATED関連記事
RANKING人気記事ランキング
米国優位が揺らぐ?ひろゆき「CPUの進化でGPU神話って崩壊しません?」【AI研究者・今井翔太が回答】
NEW!
表面的なテクニックより「基礎基本の重要性」に気付かされた一冊【Node.js 日本ユーザーグループ代表・古川陽介】
AWS認定資格10種類を一覧で解説! 難易度や費用、おすすめの学習方法も
正論モンスター化に要注意!ぎくしゃくしない「ミスの指摘」のコツ【澤円「コミュ力おばけ」への道】
社会で成功するゲーマーに、ひろゆきが聞く「現実世界を攻略できないゲーマーに足りないものって何すか?」
JOB BOARD編集部オススメ求人特集
タグ