現在、AI技術が発展している中、特に注目を集めている技術が音声認識AIです。Microsoft社の「Cortana」、Google社の「Google Assistant」、Amazon社の「Amazon Alexa」、Apple社の「Siri」など世界中の大企業が音声認識人工知能に多くの資金を投資しています。
そんな中、2016年に開発が公表されたのが音声認識AI「Viv」(ヴィヴ/ビブ)です。実際の技術を視聴できるデモンストレーションが実施され、Siriをはるかに越えた新しい技術として大きな注目を集めました。
この記事では、新しい音声認識AI「Viv」(ヴィヴ/ビブ)の概要、「Siri」と「Viv」の違い、公開されたデモンストレーションの内容、Vivの登場で明確になった音声認識AIの可能性について解説します。
音声認識AI「Viv」とは
2016年のスタートアップイベントTechCrunch DisruptでSiriを超える新しい音声アシスタント「Viv」(ヴィヴ/ビブ)のデモンストレーションが公開されました。Viv(ヴィヴ/ビブ)は、AppleのSiriを開発したDag Kittlaus氏らが新たに開発した音声認識AIで、一般的な音声アシスタントをはるかに超えた技術が搭載されています。
もともとDag Kittlaus氏らによって開発されたSiriは、さまざまなサービスと連携してデータの収集や商品の購入、飲食店の予約が可能な音声アシスタントでした。しかし、2010年にAppleに買収され、現在のSiriのような複雑な問いに関する回答はWeb検索で解決するシステムに変更されています。
そのためViv(ヴィヴ/ビブ)は、以前Siriへの導入が予定されていた技術を生かして、*サードパーティーアプリやサービスとの連携機能を搭載することにより、音声のみで商品の購入やレストランの予約、タクシーの利用、友人への送金などを可能としました。
また、「ダイナミック・プログラム・ジェネレーション」と呼ばれる独自でプログラムコードを書いて学習できるシステムを導入しているので複雑な質問を投げかけられても、Viv(ヴィヴ/ビブ)自体が言語を解析して適切な回答を見つけ出すことができます。
今までの音声アシスタントでは、質問に対する回答のプログラムコードをエンジニアが入力してAIに対応させていました。自動で言語を解読して回答を導くことができるViv(ヴィヴ/ビブ)では、複雑な質問にも柔軟に対応することが可能であり、AIとの会話でのストレスを軽減させます。
サードパーティーのアプリやサービス
Viv(ヴィヴ/ビブ)を開発したViv labs,inc.以外の企業やデベロッパーが作成したアプリやサービスのこと。
2016年に開発が公表されたViv(ヴィヴ/ビブ)ですが、同年10月に韓国最大手のサムスン電子に買収されており、以後の続報は今のところありません。
「Viv」と「Siri」の違い
前述のとおりAppleのSiriの開発者であるDag Kittlaus氏らが新しく立ち上げた音声認識AIがViv(ヴィヴ/ビブ)です。同一の開発者が携わった2つの音声認識AIですが、システムの内容は大きく異なります。ここでは、「Siri」と「Viv」(ヴィヴ/ビブ)の違いを具体的に解説します。
連携可能アプリの数
Siriは、連携可能アプリが制限されています。そのため音声認識AIで質問をすべて解決することはできず、詳しい部分はWeb検索に誘導されます。たとえば、「明日都内のホテルを予約したい」とSiriに尋ねると、「Web検索でこちらが見つかりました。」という表示が出てきてその先は自力で調べていかなければなりません。
一方Viv(ヴィヴ/ビブ)では、サードパーティーアプリとの連携が可能です。つまり、Web検索に遷移することなく質問解決のためのアプリへと導いてくれます。たとえば、「明日都内のホテルを予約したい」とViv(ヴィヴ/ビブ)に伝えると、連携アプリであるHotels.comに遷移して候補が表示されます。その後ワンタッチ、もしくは音声のみで予約を取ることができます。
会話内容の記憶力
Siriは、質問に対する回答を出すと質問内容を忘れてしまう仕組みです。たとえば、「今日の天気は?」と質問すると回答が返ってきます。その後、「明日は?」とだけ質問すると天気に関する回答は返ってきません。これは、1つの問題に解決すると記憶がリセットされるためです。
一方、Viv(ヴィヴ/ビブ)は、会話内容が記憶されています。同じように、「今日の天気は?」と話しかけると、天気の情報が表示されます。その後、「明日は?」と質問するだけで、明日の天気に関する情報が表示されます。このように、1つ前の質問内容を記憶していることによりスムーズな会話を実現させます。
複雑な質問への対応
Siriは「今日の天気は?」などのかんたんな質問には答えることができます。しかし、「明後日の午後3時以降の東京の天気は?」のような複雑な質問には答えることができません。
一方、Viv(ヴィヴ/ビブ)では、「ダイナミック・プラグラム・ジェネレーション」というシステムを導入してることにより、「明後日の午後3時以降の東京の天気は?」にも正確に回答することができます。システム内では、利用者のリクエストをViv(ヴィヴ/ビブ)自体が解析し要望に応じたプログラムを自動で生成してます。そのため、Siriでは回答できないような複雑な質問への対応を可能にしました。
「Viv」の利用可能範囲
2016年のTechCrunch Disruptで披露されたViv(ヴィヴ/ビブ)のデモンストレーションでは、利用可能範囲の一部が明らかになりました。以下がデモンストレーションの内容です。
質問内容
「3つ前の木曜日のシアトルの天気は雨でしたか?」
Viv(ヴィヴ/ビブ)の回答
「はい、4月21日の木曜日の天気は雨でした」
質問内容
「明後日午後5時以降、ゴールデンゲートブリッジの近くの気温は21度より高くなりそうですか?」
Viv(ヴィヴ/ビブ)の回答
「いいえ、それほど気温は上がりません」
Viv(ヴィヴ/ビブ)は、「ダイナミック・プログラム・ジェネレーション」というViv(ヴィヴ/ビブ)自体がコードを書いてプログラムを生成するシステムを導入しているため、一般的な音声認識AIでは回答が難しい、複雑な質問でもふさわしい回答を導き出すことができます。
質問内容
「昨夜の飲み代20ドルをアダムに送金してください」
Viv(ヴィヴ/ビブ)の回答
送金ツールVenmoを開き、送金ボタンを表示。最終確認のワンタップで送金完了
質問内容
「事務所からマディソンスクエアガーデンまで6人乗りの車を用意していほしい」
Viv(ヴィヴ/ビブ)の回答
Uberアプリ内の地図が表示され、ドライバーを選択することができる
Viv(ヴィヴ/ビブ)は、サードパーティーアプリと連携が可能であるため、質問の解決に必要な情報を連携アプリから入手し、ほとんど音声のみで送金や送迎車の選択をすることができます。
質問内容①
「母の誕生日に花を贈りたい」
Viv(ヴィヴ/ビブ)の回答①
さまざまな花の候補や値段が表示
質問内容②
「チューリップはありますか?」
Viv(ヴィヴ/ビブ)の回答②
チューリップの候補や値段、購入ボタンが表示される
Viv(ヴィヴ/ビブ)は、以前の会話内容を記憶しているため、1度回答した内容に関係する異なる質問でもスムーズに回答することができます。
質問内容
「週末にパームスプリング近くで良い部屋のあるホテルを予約したい」
Viv(ヴィヴ/ビブ)の回答
ホテル予約サイトHotels.comに遷移し候補を表示
「デラックスルーム」という問いかけに反応して自動で予約
Viv(ヴィヴ/ビブ)は、サードパーティーアプリと連携が可能であるため、Hotels.com内から候補を出すことができ、画面タッチはせずとも音声のみでホテルの部屋を予約することが可能です。
Vivの登場で明確になった音声認識AIの可能性
2016年に登場したViv(ヴィヴ/ビブ)ですが、同年10月に韓国最大のテクノロジー企業サムスン電子に買収されており、以後の続報は今のところありません。しかし、今回紹介したViv(ヴィヴ/ビブ)の登場は、「Google Assistant」、「Amazon Alexa」などの音声アシスタントに比べて大きな可能性を秘めています。
たとえば、Google Assistantを使って提供するGoogle Duplexというサービスがあります。Google Duplexとは、Google Assistantがユーザーの代わりに店舗に電話をかけて予約を取ってくれるサービスです。現在は、アメリカを中心に利用されているGoogle Duplexですが、おもに「ここから1㎞以内のラーメン屋さん教えて」などの比較的かんたんな質問にしか返答できません。(参照:Google Duplexのより詳しい解説記事はこちら)
しかし、Viv(ヴィヴ/ビブ)のように複雑な質問でもAIが自動で言語を解釈して、柔軟な対応ができるようになったらどうでしょうか。「ここから電車で1時間以内で東京タワーとスカイツリーの両方が見れる30階以上のホテルを予約して」という具体的な要望にも応えることができます。
Viv(ヴィヴ/ビブ)のように柔軟な対応が可能となる音声認識AIの開発が進み、Google AssistantやAmazon Alexaの機能が進化することにより、音声認識だけを利用した予約受付も可能となるかもしれません。
まとめ
本記事では、2016年に公表されて、大きな注目を集めた音声認識AI「Viv」(ヴィヴ/ビブ)を解説しました。残念ながら、2016年10月にサムスン電子に買収されて以降、情報は公開されていません。
しかし、Viv(ヴィヴ/ビブ)の技術発表は、今後の音声認識AIの発展に大きな期待を抱かせる結果となりました。近い将来、利用者の複雑な要求にもAIが自動で対応して予約受付や商品購入などが可能になるかもしれません。