エンジニアtype - エンジニアのシゴト人生を考えるWebマガジン
  • TOP
  • キーパーソン
  • 旬ネタ
  • コラボ
  • ノウハウ
  • 女子部
  • キャリア

[連載:西田 宗千佳⑩] 『Siri』、『しゃべってコンシェル』…音声認識はネット連携で花開く

タグ : Apple, NTTドコモ, Siri, UI, Web, しゃべってコンシェルジュ, ジャーナリスト, ハードウエア, 業界有名人, 西田宗千佳, 開発, 音声認識 公開

 
ジャーナリスト・西田 宗千佳のデジMONO先端研
先読み(3)西田氏_100px.jpg

IT・家電ジャーナリスト
西田 宗千佳 [@mnishi41]

「電気かデジタルが流れるもの全般」を守備範囲に執筆活動を続ける気鋭のフリージャーナリスト。主要日刊紙や経済誌、MONO系雑誌にあまねく寄稿し、書籍の執筆も多数。最近は電子書籍関連の著書が多い。近著は『形なきモノを売る時代-タブレット・スマートフォンが変える勝ち組、負け組』(ビジネスファミ通刊/税込1500円)など

2012年3月8日。iPhoneファンは、目を覚ますと、自分のiPhone 4Sにプレゼントが届けられていることに気付いた。『Siri』が、ついに日本でも使えるようになっていたからだ。

3月のiOSアップデートに合わせて発表された、音声認識『Siri』の日本語版

3月のiOSアップデートに合わせて発表された、音声認識『Siri』の日本語版

Siriは、音声を使ってiPhoneを操作する機能。2011年10月に発表されたiPhone 4Sから導入されたものである。音を使って、さまざまな操作をするための機能である。当初は英語・フランス語などには対応していたものの、日本語には未対応だった。それがようやく、3月から可能になったのである。

Siriでできることはかなり広い。「明日の天気は?」と聞けば、天気予報を表示する。口述で簡単なメールを書いて、そのまま送ることもできる。日本ではまだ無理だが、アメリカでは、これから行く先の渋滞情報を確認したり、そこでレストランを探したり、といったこともできる。

一つ一つは、スマートフォンなら簡単にできる、特別なことではない。だが、それらを「しゃべるだけ」で実行できるところが違う。決まったしゃべり方でないと認識されないわけでも、自分を認識させるために何度も声を覚えさせなければいけないわけでもない。ただ普通にしゃべればいいのだ。返答も、画面に出る表示だけでなく、合成された「声」でなされる。

もちろん、まだまだ完璧ではない。認識してくれない言葉・文章も多いし、返答だって不自然なことはある。しかし、自分がしゃべったことの多くがそのまま「命令」として認識され、文章にもなっていく様は、多くの人に新鮮な驚きを与えることだろう。事実、一足先に使えるようになっていたアメリカでは、街角などでSiriを使う人々の姿を見かけることも珍しくない。

なぜこのようなことができているのか? 実のところ、音声を認識することだけで言えば、アップルの魔法でも何でもなく、どんな機器でもある程度の水準で可能になっている。それどころか、もう6、7年も前から、日本の携帯電話では声での文字入力などが実現されている。

グーグル、ドコモ……広がりを見せる「声のインターフェース」

特にスマートフォン向けとしては、Androidにも音声認識によって検索する機能が組みこまれており、こちらもかなりの認識精度を誇る。検索キーワードの入力やメールなどの単文であれば、驚くほどきちんと認識してくれる。しかも、誰がしゃべったかを問わない。

DocomoからリリースされたAndroidスマホ用の『しゃべってコンシェル』の評判は上々だ

DocomoからリリースされたAndroidスマホ用の『しゃべってコンシェル』の評判は上々だ

日本からも優れたサービスが生まれている。NTTドコモの『しゃべってコンシェル』という機能だ。同社のスマートフォン向けに、Siri日本版がスタートする直前の3月1日前から展開していた。

しかも実のところ、できることはSiriに勝る。Siri日本版は、まだ経路検索・地点検索に対応していないが、しゃべってコンシェルは対応している。レシピ情報も教えてくれるし、オススメの本も教えてくれる。

なぜこのようなサービスが続々生まれているのか? その裏にあるのは「ネット連携」の力だ。

現在の音声認識では、「DSR(分散型音声認識)」というアプローチが採用されている。DSRでは、機器の側だけでは声から音声の特徴量だけを取り出し、そこから意味や言葉を見つけ出すのはネットの向こうにあるサーバが行っている。こうすると、機器側にはさほど演算力がなくても、かなりの精度で音声認識を実現できる。

サーバ側でどのような処理をするかは、もちろんサービスによって異なる。例えば、グーグルのサービスで変換精度が高いのは、同社が大量のネット検索キーワードのデータベースを持っており、そこから同音異義語・音が似ている語をピックアップ、検索頻度や単語の前後の文脈から、正しいと思うものを呼び出す、という形を採っている。対象となるデータベースの種類やロジックは多少異なるが、『グーグル日本語入力』に近い手法と言っていい。

Siriなどほかの音声入力でも、データベースの種類・手法は異なっていても、似たような技術を使っていることに違いはない。

ではその上で、サービスの質はどう変わるのだろうか?

どんなDBとつながるかで、サービスの幅は無限に広がる

重要なのは、音声を認識した上でテキストに変換し、さらにそこから「どのようなネットサービスにつなぐか」という部分にあたる。

しゃべってコンシェルは、NTTドコモが同社スマートフォン向けに提供しているWebサービス・ポータル『dメニュー』と連携している。音声から生成したテキストをベースにネット検索し、ヒットした情報をそれらしく見せている……。これが、しゃべってコンシェルの秘密である。

Siriとの間で機能の差があるのは、Siriがまだ日本では地点情報や店舗情報などのネットデータベースに接続されていないからである。逆に言えば、ネット側にデータベースさえ用意されれば、さまざまなサービスを声で呼び出し、利用することは難しくない。

NTTドコモは、しゃべってコンシェルで『dメニュー』に対する顧客動線を作ろうとしている。メニューをたどってコンテンツを探してもらったり、検索エンジンからコンテンツを見つけてもらうのは重要な方法だが、情報が多様化した現在、それではリーチできない顧客も増えている。「音声」という使いやすい手法を導入することで、シンプルにコンテンツへたどり着く導線を作り、利用を活性化したい、と考えているのだ。

この手法を使うと、サービス構築側が選んだネットサービスへ、顧客を一意に誘導しやすい。「言葉では検索されにくいが、声では検索されやすい生活サービス」を見つけて、そこへの導線として活用する方法を模索すれば、大きなビジネスにつながる。

一方、アップルの発想はちょっと違う。Siriのユーザーインターフェースを、あくまで機器の差別化に使う、という考え方をしている。だから、例えば「愛してる」といったキーワードに対するウィットに富んだ回答をネット上に大量に用意し、ふとした瞬間に「この機器は人間味がある」と思わせるよう、仕掛けをしている。ネット連携だから、こういう部分の情報を追加・更新していくのも簡単だ。

ネットありきで生まれるユーザーインターフェースの新しい形。それが、今の「音声認識」であるのだ。

撮影/芳地博之(人物のみ)




人気のタグ
業界有名人 スタートアップ 開発 SE 転職 エンジニア Web プログラマー スキルアップ ソーシャル アプリ シリコンバレー 起業 プログラミング キャリア スマートフォン Android SIer 技術者 えふしん クラウド UI btrax スペシャリスト Webサービス アプリ開発 Twitter Apple ギーク CTO Facebook デザイン IoT Brandon K. Hill Google SNS ツイキャス 英語 モイめし 世良耕太 IT 30代 赤松洋介 採用 コーディング 20代 村上福之 勉強会 プロジェクトマネジメント UX Ruby 中島聡 法林浩之 ITイベント Webエンジニア 五十嵐悠紀 モノづくり ひがやすを LINE 受託開発 ビッグデータ ウエアラブル IT業界 ドワンゴ ロボット MAKERS ハードウエア コミュニケーション インフラ Webアプリ 女性 SI ゲーム ソーシャルゲーム iPhone 女性技術者 高須正和 イノベーション トヨタ マイクロソフト 自動車 tips 研究者 ノウハウ システム プラットフォーム 息抜き イベント チームラボ 和田卓人 メイカームーブメント 教育 エンジン ソニー UI/UX 開発者 iOS オープンソース グローバル Java サイバーエージェント 女子会 メーカー 家入一真 ソフトウェア 増井雄一郎 スーパーギーク コミュニティ IPA ニュース 40代 GitHub 日産 TDD テスト駆動開発 グーグル 音楽 モバイル PHP ソフトウエア TechLION

タグ一覧を見る