JPWO2018055898A1

JPWO2018055898A1 - 情報処理装置、及び情報処理方法

Info

Publication number: JPWO2018055898A1
Application number: JP2018540661A
Authority: JP
Inventors: 淳也小野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-09-23
Filing date: 2017-07-21
Publication date: 2019-07-11
Anticipated expiration: 2037-07-21
Also published as: EP3518095A4; WO2018055898A1; CN109716285A; JP6904361B2; EP3518095A1; US20190163438A1; US10976998B2

Abstract

情報処理装置、及び情報処理方法を提供する。
発話を受け付けたマイクロフォンの位置情報を取得する取得部と、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、を備える、情報処理装置。

Description

本開示は、情報処理装置、及び情報処理方法に関する。

ユーザによる発話に対して、応答を生成し、生成した応答を、発話を行ったユーザに対して提示する技術が開示されている（例えば特許文献１等参照）。

特表２０１６−５０２１９２号公報

ユーザが望む応答を得るためには、例えば応答を制御するための応答制御情報を含む発話をユーザが行うことが考えられる。しかし、発話に応答制御情報を含めると、発話文が複雑となり、ユーザにかかる負荷が増加する恐れがある。

そこで、本開示では、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能な、新規かつ改良された情報処理装置、及び情報処理方法を提案する。

本開示によれば、発話を受け付けたマイクロフォンの位置情報を取得する取得部と、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、を備える、情報処理装置が提供される。

本開示によれば、発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、前記応答情報に基づいて処理を行う処理部と、を備える情報処理装置が提供される。

また、本開示によれば、発話を受け付けたマイクロフォンの位置情報を取得することと、プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、を含む、情報処理方法が提供される。

また、本開示によれば、発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、プロセッサが、前記応答情報に基づいて処理を行うことと、を含む、情報処理方法が提供される。

以上説明したように本開示によれば、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能である。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理装置１の概要を説明するための説明図である。同実施形態に係る情報処理装置１の概要を説明するための説明図である。同実施形態に係る情報処理装置１の概要を説明するための説明図である。同実施形態に係る情報処理装置１の構成例を示すブロック図である。同実施形態に係るによる情報処理装置１の処理の流れの一例を示すフローチャート図である。応用例１を説明するための説明図である。応用例１を説明するための説明図である。応用例１を説明するための説明図である。応用例１を説明するための説明図である。応用例２を説明するための説明図である。応用例３に係る情報処理システムの構成を示す説明図である。同応用例に係るクライアント端末２の構成例を示すブロック図である。同応用例に係るサーバ３の構成例を示すブロック図である。同応用例係るクライアント端末２の送信データの一例を示す説明図である。同応用例における解析パターンを示す情報をＪＳＯＮ形式で表した一例を示す説明図である。同応用例における音声データの値の一例を示す説明図である。同応用例に係るクライアント端末２の受信データ示す説明図である。応用例４に係るクライアント端末２−２の構成例を示すブロック図である。同応用例に係るサーバ３−２の構成例を示すブロック図である。ハードウェア構成例を示す説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
＜＜１．はじめに＞＞
＜１−１．背景＞
＜１−２．概要＞
＜＜２．構成例＞＞
＜２−１．全体構成＞
＜２−２．制御部の詳細＞
＜＜３．動作例＞＞
＜３−１．処理の流れ＞
＜３−２．応答制御の具体例＞
＜＜４．応用例＞＞
＜４−１．応用例１＞
＜４−２．応用例２＞
＜４−３．応用例３＞
＜４−４．応用例４＞
＜＜５．ハードウェア構成例＞＞
＜＜６．むすび＞＞

＜＜１．はじめに＞＞
＜１−１．背景＞
本開示の一実施形態に係る情報処理装置についての説明にあたり、まず本開示の一実施形態に係る情報処理装置の創作に至った背景を説明する。

近年、ユーザが身体に装着して使用することを目的とした、いわゆるウェアラブルデバイスと呼ばれている機器が登場しつつある。ウェアラブルデバイスには、例えばメガネ型、腕時計型、ネックバンド型、などの様々な形態のデバイスがあるが、このようなウェアラブルデバイスは画面が小さい、または画面を備えていない場合が多い。従って、ユーザがこのようなウェアラブルデバイスへ入力を行う場合、画面を直接操作するのではなく、デバイスに向かって話しかける（発話する）ことで入力を行うことが想定される。また、音声以外の入力機能を備えたウェアラブルデバイスであっても、ユーザが運転中や料理中等、手の利用が困難である場合には、発話による入力が有効であろう。

また、画面が小さい、または画面を備えていないデバイスによる応答は、例えば音声による応答が考えられる。音声による応答において、例えば詳細な情報を提示するためには長い時間が必要となり得るため、ユーザによっては概要のみの応答を望む場合もある一方、長い時間を要したとしても詳細な情報を含む応答を望む場合もある。

このように、ユーザが望む応答を得るためには、例えば応答を制御するための応答制御情報を含む発話（例えば、「明日の天気について詳しく教えて」等）をユーザが行うことが考えられる。しかし、発話に応答制御情報を含めると、発話文がより複雑となるため、音声認識や意味解析において誤りが発生する可能性が高まると共に、ユーザにかかる負荷が増加し得る。

そこで、本件開示者は、上記事情を一着眼点にして本実施形態を創作するに至った。本実施形態によれば、発話文を複雑化させることなく、ユーザの望む応答を行うことが可能である。以下、このような効果を有する本開示の一実施形態の概要について図１〜図３を参照して説明を行う。

＜１−２．概要＞
以下では、本開示の一実施形態に係る情報処理装置の概要について説明する。なお、本実施形態に係る情報処理装置の詳細については図４を参照して後述する。

図１〜３は、本実施形態に係る情報処理装置１の概要を説明するための説明図である。図１に示すように、情報処理装置１は、例えばネックバンド型のウェアラブルデバイスであり、ユーザＵ１の首に掛けられている。また、情報処理装置１は、ユーザＵ１から見て右側に設けられた右マイクロフォンＭＲ１と、ユーザＵ１から見て左側に設けられた左マイクロフォンＭＬ１とを有し、ユーザＵ１の音声を集音して発話を取得する。

ここで、ユーザＵ１は、例えば図２に示すように、左マイクロフォンＭＬ１に向かって発話することも可能であるし、図３に示すように、右マイクロフォンＭＲ１に向かって発話することも可能である。本実施形態に係る情報処理装置１は、上記のようなユーザＵ１による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行う。

例えば、図２に示す例と図３に示す例とにおいて、ユーザＵ１が同一の発話を行ったとしても、情報処理装置１は、図２に示す例と図３に示す例とにおいて異なる応答を出力し得る。

例えば、情報処理装置１は、図２に示す例における応答よりも、図３に示す例における応答の方が、ユーザＵ１に提示される情報の情報量が多くなる（詳細になる）ように、応答制御を行ってもよい。なお、情報処理装置１による応答制御は係る例に限定されず、後に応答制御の多様な例を説明する。

また、図１〜図３では情報処理装置１がネックバンド型のウェアラブルデバイスである例を示したが、本技術に係る情報処理装置は係る例に限定されない。本技術の他の装置例については、本技術の応用例として後述する。

以上、本実施形態に係る情報処理装置１の概要を説明した。本実施形態による情報処理装置１によれば、発話を受け付けたマイクロフォンの位置情報に基づいて応答を制御することで、例えばユーザの発話が同一であっても、多様な応答を行うことが可能である。したがって、発話文を複雑化させることなく、ユーザの望む応答を行うことが可能である。以下、このような効果を実現するための情報処理装置１の詳細な構成について、図４を参照して説明する。

＜＜２．構成例＞＞
図４は、本開示の一実施形態に係る情報処理装置１の構成例を示すブロック図である。図４に示すように、本実施形態に係る情報処理装置１は、制御部１０、入力部２０、出力部３０、通信部４０、及び記憶部５０を備える。以下、情報処理装置１の全体構成を説明した後に、制御部１０について詳細に説明する。

＜２−１．全体構成＞
制御部１０は、情報処理装置１の各構成を制御する。例えば、制御部１０は、入力部２０から入力されるユーザの発話に基づいて、出力部３０を制御し、ユーザの発話に対する応答を出力させる。なお、制御部１０の詳細な構成については後述する。

入力部２０は、ユーザの入力を受け付けるためのものであり、本実施形態では、ユーザからの発話を受け付けるためのものとして情報処理装置１に設けられている。本実施形態に係る入力部２０は、ユーザの音声を集音する複数のマイクロフォンを含み、例えば図１〜図３に示した右マイクロフォンＭＲ１と、左マイクロフォンＭＬ１を含んでもよい。また、入力部２０は、３以上のマイクロフォンを含んでもよく、係る場合には、後述するビームフォーミング処理の精度が向上し得る。

なお、入力部２０は、マイクロフォンに限定されず、例えばカメラやデプスセンサなどを含んでもよい。入力部２０は、ユーザの入力操作によって生成されたデータを制御部１０に送る。

出力部３０は、制御部１０の制御に従って出力を行う。本実施形態では、出力部３０は、ユーザの発話に対する応答を出力する。出力部３０は、例えば、音声を出力するスピーカ、文字、画像その他の視覚情報を表示するディスプレイ、光を出力するランプ、振動を出力する振動デバイス等を含んで実現されてもよい。

通信部４０は、他の装置との間で情報の通信を行う。例えば、通信部４０は、制御部１０の制御に基づいて他の装置との間で情報を通信することで、他の装置から、ユーザの発話に対する応答の基になる情報を取得することができる。

記憶部５０は、情報処理装置１の各構成が機能するためのプログラムやパラメータを記憶する。また、記憶部５０は、図４に示すように、一般知識ＤＢ５２、ユーザ知識ＤＢ５４、及び発話履歴ＤＢ５６を記憶する。一般知識ＤＢ５２は、一般的な知識をグラフ構造化したデータベースである。また、ユーザ知識ＤＢ５４は、ユーザに関するユーザ固有の知識をグラフ構造化したデータベースである。また、発話履歴ＤＢ５６は、ユーザの発話履歴をグラフ構造化したデータベースである。一般知識ＤＢ５２、ユーザ知識ＤＢ５４、及び発話履歴ＤＢ５６は、後述するように制御部１０に参照され、また制御部１０により更新されてもよい。

＜２−２．制御部の詳細＞
以上、本実施形態に係る情報処理装置１の全体構成例を説明した。続いて、情報処理装置１が備える制御部１０の機能構成をより詳細に説明する。

本実施形態に係る制御部１０は、図４に示すように、発話検出部１１０、話者認識部１２０、応答制御部１３０、発話解析部１４０、及び出力制御部１５０としての機能を有する。

（発話検出部）
発話検出部１１０は、ユーザが入力部２０に対して発話されたことを検出する。そして発話検出部１１０は、ユーザが発話したことを検出すると、その発話の内容をテキストに変換し、発話テキストを抽出する。また発話検出部１１０は、ユーザが発話したことを検出すると、その発話の区間の音声を後段の話者認識部１２０へ出力する。また、発話検出部１１０は、テキストに変換された発話の内容（発話テキスト）を、応答制御部１３０へ送る。

発話検出部１１０は、図４に示したように、信号処理部１１２、及び音声認識部１１４を含んで構成される。

信号処理部１１２は、音声認識の精度の向上のために、入力部２０から送られてくる音声データに対する信号処理を実行する。信号処理部１１２は、例えばファーフィールドでの音声認識の精度を向上させるために、音声データから雑音や残響を除去する信号処理を行う。

音声認識部１１４は、信号処理部１１２で信号処理を行った音声データに対して、ユーザが発話したことを受け付ける処理と、音声認識処理を行い発話をテキストに変換する。

例えば、音声認識部１１４は、ユーザが発話したことを受け付けて、ユーザの発話区間を検出する。このようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、音声認識の精度を向上させることができる。またこのようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、音声認識の処理期間を限定し、省電力化を実現できる。

また、音声認識部１１４は、検出されたユーザの発話区間において、音声認識処理を実行して、音声（発話）をテキストに変換する。音声からテキストへの変換処理は、特定の処理に限定されるものではない。

（話者認識部）
話者認識部１２０は、入力部２０に対して発話した話者を特定する。また、本実施形態に係る話者認識部１２０は、発話を受け付けたマイクロフォンの位置情報を取得する取得部としても機能する。

話者認識部１２０は、図４に示したように、ビームフォーミング部１２２と、マイクロフォン特定部１２４と、話者識別部１２６と、を含んで構成される。

ビームフォーミング部１２２は、入力部２０として設けられている複数のマイクロフォンによるビームフォーミングで得られる位相差から、発話された方向を特定する。

マイクロフォン特定部１２４は、ビームフォーミング部１２２により特定された発話された方向、及び音声のボリュームから、発話を受け付けたマイクロフォンを特定することで、発話を受け付けたマイクロフォンの位置情報を取得する。

本実施形態において、図１を参照して説明したように情報処理装置１はユーザから見て右側に設けられた右マイクロフォンＭＲ１と、ユーザから見て左側に設けられた左マイクロフォンＭＬ１とを有する。例えば、マイクロフォン特定部１２４は、発話を受け付けたマイクロフォンが右マイクロフォンＭＲ１であると特定された場合、右を示す位置情報を取得してもよい。また、マイクロフォン特定部１２４は、発話を受け付けたマイクロフォンが左マイクロフォンＭＬ１であると特定された場合、左を示す位置情報を取得してもよい。

なお、マイクロフォン特定部１２４が取得する位置情報は、情報処理装置１が有するマイクロフォンと一対一で対応していなくてもよい。例えば、図１に示した例のように、ユーザＵ１が右マイクロフォンＭＲ１と左マイクロフォンＭＬ１の中央に向かって発話した場合、マイクロフォン特定部１２４は、中央を示す位置情報を取得してもよい。

話者識別部１２６は、発話した人物(話者)が誰であるかを特定する処理を実行する。話者識別部１２６は、例えば、ビームフォーミング部１２２によって特定された発話方向にいる人物（話者）を、入力部２０として設けられているカメラで撮像された画像に対する顔認識処理によって特定する。また話者識別部１２６は、例えば、発話の音声を解析して、音声波形に基づいて、発話した人物が誰であるかを特定してもよい。なお、話者識別部１２６は、発話した人物を特定するために、記憶部５０に記憶されるユーザ知識ＤＢ５４へ問い合わせ、ユーザ知識ＤＢ５４に格納される人物のプロファイル情報を取得してもよい。また、話者識別部１２６は、特定された発話した人物のプロファイル情報をユーザ知識ＤＢ５４から取得して、応答制御部１３０へ提供してもよい。

（応答制御部）
応答制御部１３０は、ユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御する。例えば、応答制御部１３０は、発話に対する応答に係る応答情報を生成することで応答を制御し、応答情報を出力制御部１５０へ送る。また、応答制御部１３０は、発話テキストと、後述する発話解析パターンを示す情報を発話解析部１４０へ送る。

応答制御部１３０は、図４に示したように、解析パターン制御部１３２と、応答生成部１３４と、を含んで構成される。

解析パターン制御部１３２は、発話を受け付けたマイクロフォンの位置情報に基づいて、後述する発話解析部１４０による発話解析パターンを制御する。本実施形態に係る解析パターン制御部１３２は、発話を受け付けたマイクロフォンの位置情報に基づいて、解析パターンの適用有無を判定し、適用する発話解析パターンを示す情報を発話解析部１４０に送る。なお、発話解析パターンについては後述するが、例えば、解析パターン制御部１３２が適用の判定を行う発話解析パターンは、ドメイン補完、スロット補完、個人化であってもよい。

上記のように、解析パターン制御部１３２が発話を受け付けたマイクロフォンの位置情報に基づいて発話解析パターンを制御することにより、後述する応答生成部１３４により生成される応答情報が異なるため、応答を制御し得る。

応答生成部１３４は、発話解析部１４０による発話の解析結果と、マイクロフォンの位置情報に基づいて、発話に対する応答に係る応答情報を生成することで、応答を制御する。また、応答生成部１３４は、話者認識部１２０により特定された話者に応じて、応答情報を生成することで、応答を制御してもよい。なお、応答生成部１３４は、例えば記憶部５０に記憶されるデータベースから取得した情報、または通信部４０を介して不図示の他の装置から取得した情報等に基づいて、応答情報を生成してもよい。

応答情報は、例えばユーザへ音声、または表示等により提示されるテキスト情報を含んでもよい。また、応答情報は、音響データや画像データ等、ユーザへ提示されるデータ形式に変換済みの情報を含んでもよい。また、応答情報は、後述する出力制御部１５０が出力タイミングを決定するための所定の条件の情報を含んでもよく、係る場合、応答生成部１３４は応答の出力タイミングを制御し得る。また、応答情報は、応答のモーダル（テキストの音声読み上げ、テキスト表示、画像表示等、ユーザへ応答を提示する方法）を示す情報を含んでもよい。

なお、応答制御部１３０による応答制御の例については、後述する。

（発話解析部）
発話解析部１４０は、発話検出部１１０が検出した発話の内容を解析する。発話解析部１４０は、言語解析、意味解析等によって発話検出部１１０が検出した発話の内容を解析する。そして発話解析部１４０は、発話検出部１１０が検出した発話の内容を解析した結果、その発話の内容が質問文であれば、記憶部５０に記憶されるデータベースへ問い合わせを行い、必要な情報を取得する。また、発話解析部１４０は、発話の解析結果を応答制御部１３０へ送る。

発話解析部１４０は、図４に示したように、言語解析部１４２と及び意図理解部１４４と、を含んで構成される。

言語解析部１４２は、発話検出部１１０が変換した発話テキストの構造を解析する。言語解析部１４２は、発話テキストの構造を解析することで、例えば、ユーザによる発話の内容が質問であるか否かを判定することが出来る。

意図理解部１４４は、発話検出部１１０が変換した発話テキストを解析して、ドメイン（動作命令）、スロット（付属情報）を表現した意味フレーム（テーブル構造）を生成する。本実施形態において、ドメインは、例えば情報処理装置１が実行するアプリケーションのカテゴリ（例えば天気アプリケーション、スケジュールアプリケーション等）に相当する。また、本実施形態において、スロットはアプリケーションに渡されるパラメータに相当する。

例えば、「明日のＴＵＬの天気を教えて」という発話テキストの解析により生成される意味フレームは下記に示す表１のようになる。表１に示す例では、ドメインとして「天気情報の確認（Weather-Check）」が入り、日時スロットに「明日」、場所スロットに「ＴＵＬ」が入る。

また、意図理解部１４４は、発話検出部１１０が変換した発話テキストに含まれる曖昧な表現を解釈して、ユーザによる発話の意図を解釈し、情報の正規化を行う。例えば、意図理解部１４４は、記憶部５０に記憶されるデータベースへ問い合わせることで、曖昧な表現を解釈する。

表２は、表１に示した意味フレームを意図理解部１４４が正規化することで得られる意味フレームの例を示す表である。日付表現が「明日」では処理し難いため、意図理解部１４４は、時刻表現に正規化を行ってもよい。また、場所表現が「ＴＵＬ」では曖昧性があるため、意図理解部１４４は、記憶部５０に記憶される一般知識ＤＢ５２へ問い合わせることで、「東京ユニバーサルランド」に正規化する。

また、意図理解部１４４は、応答制御部１３０から提供される解析パターンを示す情報に応じて、発話テキストを解析してもよい。例えば、意図理解部１４４は、解析パターンを示す情報として、ドメイン補完を示す情報が提供された場合、意味フレームにおけるドメインを以前の発話から補完（引き継ぎ）してもよい。また、意図理解部１４４は、解析パターンを示す情報として、スロット補完を示す情報が提供された場合、意味フレームにおけるスロットを以前の発話から補完してもよい。なお、意図理解部１４４は、記憶部５０に記憶される発話履歴ＤＢ５６に格納される発話の履歴に基づいて、上記の補完を行ってもよい。

上記のように、ドメイン、またはスロットを以前の発話から補完することにより、例えば一回の発話テキストに必要な情報が含まれず、分割して発話された場合に、情報を補完することが可能となる。

また、意図理解部１４４は、解析パターンを示す情報として、個人化の適用を示す情報が提供された場合、ユーザ（例えば話者）に最適化した解析を行ってもよい。例えば、意図理解部１４４は、解析パターンを示す情報として、個人化適用を示す情報が提供された場合、記憶部５０に記憶されるユーザ知識ＤＢ５４へ問い合わせを行い、ユーザのプロファイル情報を取得して、ユーザのプロファイル情報に基づく意味フレームの正規化を行ってもよい。

係る構成によれば、ユーザに最適化された解析結果が応答制御部１３０へ提供され、応答制御部１３０によるユーザに最適化された応答情報の生成が可能となる。

情報処理装置１が、発話を受け付けたマイクロフォンの位置情報に基づく解析パターンで発話解析を行う上記機能を有することで、ユーザはマイクロフォンの選択により、発話テキストに含まれていない情報をも情報処理装置１に提供することが可能となる。

（出力制御部）
出力制御部１５０は、出力部３０による出力を制御する。例えば、出力制御部１５０は、応答制御部１３０から提供される応答情報に基づいて、応答を出力させる。また、出力制御部１５０は、応答の出力タイミングを制御してもよい。

また、出力制御部１５０は、発話を受け付けたマイクロフォンの位置情報をユーザへフィードバックするように出力部３０を制御してもよい。例えば、出力制御部１５０の制御により、発話を受け付けたマイクロフォンの位置情報に応じた位置から、光、音、振動等が出力されてもよい。係る構成により、ユーザ(話者)は、発話を受け付けたマイクロフォンが、自身の意図通りに特定されているか否かを確認することが可能である。

出力制御部１５０は、図４に示したように、トリガ判定部１５２と及び音声合成部１５４と、を含んで構成される。

トリガ判定部１５２は、応答の出力のタイミングについての判定を行う。本実施形態に係る情報処理装置１は、応答の出力をリアルタイムに行うモードと、所定の条件を満たした時点で応答を出力するモードの２種類のモードを備える。応答の出力をリアルタイムに行うモードのことをリアルタイムモードとも称し、所定の条件を満たした時点で応答を出力するモードのことをブックマークモードとも称する。トリガ判定部１５２が使用する所定の条件は、例えば出力中のコンテンツが所定の状態になったことであってもよく、また例えば所定の時間になったことであってもよい。

出力中のコンテンツの所定の状態としては、例えばコンテンツが終了したタイミングであってもよく、コンテンツがテレビ番組であればコマーシャルになったタイミングであってもよい。コンテンツが終了したタイミングは、コンテンツが最後まで再生されたタイミングと、ユーザが明示的にコンテンツの再生を終了したタイミングの両方が含まれうる。上記所定の時間には、コンテンツの終了時間から相対的に経過した時間と、コンテンツの終了とは無関係な時間の両方が含まれうる。なお、所定の時間になったことを条件に応答を出力する場合、コンテンツが出力されていない状態であることが、トリガ判定部１５２が使用する所定の条件に加えられていてもよい。

また、トリガ判定部１５２が使用する所定の条件は上記に限定されず、アプリケーション、情報処理装置１、または他の装置が所定の状態になったことであってもよい。例えば、所定の状態は、所定のアプリケーションが終了したことや、情報処理装置１が電源オフになる準備状態となること等であってもよい。また、後述するように本技術が自動車に適用される場合、所定の状態は、自動車のエンジンが切られたことや、ブレーキを踏んで止まったこと、ナビゲーションが終了したこと等であってもよい。

上述したように、応答の出力のタイミングを制御することで、例えば、ユーザが現在行っている行動を妨げることなく、ユーザにとってより望ましいタイミングで応答を出力することが可能となる。

音声合成部１５４は、応答情報に音声読み上げ用のテキスト情報が含まれる場合に、テキスト情報を音声データに変換する。

以上、本実施形態による情報処理装置１の構成について具体的に説明した。なお、図４に示す情報処理装置１の構成は一例であって、本実施形態はこれに限定されない。例えば、本実施形態による制御部１０の各機能は、通信部４０を介して接続される他の情報処理装置が有してもよい。係る例については、応用例として後述する。

＜＜３．動作例＞＞
続いて、本実施形態による情報処理装置１の動作例について説明する。以下では、まず図５を参照して、処理の流れについて説明した後、本実施形態に係る応答制御の具体例について説明する。

＜３−１．処理の流れ＞
図５は、本実施形態による情報処理装置１の処理の流れの一例を示すフローチャート図である。図５に示すように、まず発話検出部１１０が発話の検出を行い、発話文（発話テキスト）を抽出する（Ｓ１０２）。

続いて、ビームフォーミング部１２２ビームフォーミング処理を行い、発話された方向を特定する（Ｓ１０４）。さらに、マイクロフォン特定部１２４が、ステップＳ１０４において特定された発話された方向、及び音声のボリュームから、発話を受け付けたマイクロフォンを特定し、発話を受け付けたマイクロフォンの位置情報を取得する（Ｓ１０６）。続いて、話者識別部１２６が、発話した人物(話者)が誰であるかを特定する（Ｓ１０８）。

続いて、出力制御部１５０の制御により、発話を受け付けたマイクロフォンの位置情報がユーザへフィードバックされる（Ｓ１１０）。

続いて、解析パターン制御部１３２が、発話を受け付けたマイクロフォンの位置情報に基づいて、発話解析における解析パターンを判定する（Ｓ１１２）。発話解析部１４０は、ステップＳ１１２により判定された解析パターンで、発話文（発話テキスト）の解析を行って意味フレームを取得する。

続いて、応答生成部１３４が、発話の解析結果（意味フレーム）と、発話を受け付けたマイクロフォンの位置情報に基づいて、応答情報を生成する（Ｓ１１６）。さらに、出力制御部１５０が、応答情報に基づいて、応答を出力させる出力制御を行う（Ｓ１１８）。

＜３−２．応答制御の具体例＞
以上、本実施形態に係る情報処理装置１の処理の流れの一例を説明した。続いて、上述した応答制御部１３０による応答制御の具体例について説明する。以下では、例として、発話を受け付けたマイクロフォンの位置情報（以下発話位置と呼ぶ場合がある）が、主に「左」または「右」である場合について説明する。

（情報量）
応答制御部１３０は発話位置に基づいて、応答に含まれる情報量を制御してもよい。例えば、応答制御部１３０は発話位置が「左」である場合より、「右」である場合の方が、応答に含まれる情報量が多くなるように、応答情報を生成してもよい。また、ユーザが迷わないように、全てのアプリケーション・サービスにおいても、上記の発話位置と情報量の関係が一貫するように応答が制御されることが望ましい。

なお、文化圏にもよるが、情報が左から右へ流れると、人間は知覚しているため、発話位置が「左」である場合より、「右」である場合の方が情報量が多いことは、人間の知覚とも一致する。

例えば、応答制御部１３０は発話位置に基づいて、情報の深さ（詳しさ）を制御してもよい。以下に天気アプリケーションでの例と、ニュースアプリケーションでの例を説明する。

例えば、ユーザが「明日の東京の天気を教えて」と発話した場合、発話位置が「左」であれば最小限の情報（晴れ／曇り／雨、程度）を含む応答情報が生成され、発話位置が「右」であれば最小限の情報に加えてより詳細な情報（最高／最低気温、夜から晴れる等）を含む応答情報が生成されてもよい。例えば、発話位置が「左」であれば、「明日の東京の天気は、晴れです。」という応答が出力されてもよい。また、発話位置が「右」であれば、「明日の東京の天気は、最高気温30℃、最低気温20℃、夜から雨模様です。」という応答が出力されてもよい。

また、ユーザが「西織圭のニュースを教えて」と発話した場合、発話位置が「左」であればより少ない情報を含む応答情報が生成され、発話位置が「右」であればより詳細な情報を含む応答情報が生成されてもよい。例えば、発話位置が「左」であれば、「西織、４回戦はカロチッビと激突。」という応答が出力されてもよい。また、発話位置が「右」であれば、「テニスの全米オープン第６日、西織は４回戦進出を果たし、カロチッビと激突。」という応答が出力されてもよい。

また、応答制御部１３０は発話位置に基づいて、情報の範囲（長さ）を制御してもよい。以下に音楽アプリケーションでの例を説明する。

例えば、ユーザが楽曲の再生を求める発話を行った場合、発話位置が「左」であれば試聴感覚の短い音声データ（例えば楽曲のさび部分のみ）を含む応答情報が生成され、発話位置が「右」であれば楽曲全体の音声データを含む応答情報が生成されてもよい。なお、楽曲が再生される前に、情報の範囲に関する応答（例えば「さび部分のみ再生します」、「フル再生します」等）が出力されてもよい。

（時間方向と連動）
応答制御部１３０は発話位置に対して応答に係る時間方向が対応するように、応答を制御してもよい。例えば、応答制御部１３０は発話位置が「左」である場合に過去の情報、「中央」である場合に現在の情報、「右」である場合に未来の情報が含まれるように、応答情報を生成してもよい。また、ユーザが迷わないように、全てのアプリケーション・サービスにおいても、上記の発話位置と時間方向の関係が一貫するように応答が制御されることが望ましい。

なお、文化圏にもよるが、情報が左から右へ流れると、人間は知覚しているため、発話位置が「左」である場合より、「右」である場合の方が時間的に後（未来）であることは、人間の知覚とも一致する。

以下にスケジュールアプリケーションでの例を説明する。

例えば、ユーザが「子供の予定を見せて」と発話した場合、発話位置が「左」であれば過去のスケジュールを含む応答情報が生成され、発話位置が「右」であれば未来のスケジュールを含む応答情報が生成されてもよい。なお、時刻の基準は発話が行われた時刻（現在時刻）であってもよい。なお、係る例において、応答の出力はディスプレイ等への表示であってもよい。

また、過去の情報を応答として出力する場合、過去の時点で得られたデータ（例えば写真、動画、音声のデータ等）が利用可能である。そこで、例えばユーザが「子供の運動会を見せて」と発話した場合、発話位置が「左」であれば、過去の運動会での写真データ、動画データ等が応答情報に含まれてもよい。また、発話位置が「右」であれば未来のスケジュールを含む応答情報が生成されてもよい。係る例では、発話位置に応じて、ドメイン（上記例ではアプリケーションの種類）が異なってもよい。

（空間と連動）
応答制御部１３０は発話位置と応答に係る空間が対応するように、応答を制御してもよい。例えば、応答制御部１３０は発話位置が「左」である場合に空間の左側の情報、「中央」である場合に空間の中央の情報、「右」である場合に空間の右側の情報が含まれるように、応答情報を生成してもよい。なお、空間における方向は、例えばユーザの正面を起点にした方向であってもよい。

以下に地図アプリケーションでの例を説明する。

例えば、ユーザが「この近くのコンビニを探して」と発話した場合、発話位置が「左」であれば左側の探索結果を含む応答情報が生成され、発話位置が「右」であれば左側の探索結果を含む応答情報が生成されてもよい。

（出力タイミング）
応答制御部１３０は発話位置に応じて応答の出力タイミングを制御してもよい。例えば、発話位置が「左」であればリアルタイムで応答が出力され、発話位置が「右」であれば、所定の条件を満たした時点で応答が出力されるように応答の出力タイミングが制御されてもよい。係る場合、応答制御部１３０は出力タイミングに係るモード（リアルタイムモード、またはブックマークモード）の情報、及び所定の条件を含む応答情報を生成することで、出力タイミングを制御してもよい。以下にリマインダアプリケーションでの例と、カメラアプリケーションでの例を説明する。

例えば、ユーザが「父に電話する」と発話した場合、発話位置が「左」であればリアルタイムに電話がかけられ、発話位置が「右」であれば、発話内容がＴＯＤＯリストに追加され、所定の条件が満たされた時点でＴＯＤＯがリマインド(通知出力)されるように、応答の出力タイミングが制御されてもよい。なお、係る場合、応答の出力タイミングに関する音声（例えば「ＸＸＸさんに電話します」、「ＴＯＤＯに追加しました」等）が出力されてもよい。なお、係る例において、ユーザ知識ＤＢ５４に格納されるユーザのプロファイル情報に基づいて、ユーザの父が「ＸＸＸ」であることが特定されて、電話がかけられてもよい。

また、出力タイミングが制御される場合、ユーザ知識ＤＢ５４に格納されるユーザのプロファイル情報に基づいて、過去の複数のユーザの応答についての情報を含む応答情報が生成されてもよい。

例えば、一人目のユーザが「右」の発話位置で「牛乳を買う」と発話し、さらに、一人目のユーザとは家族である二人目のユーザが「右」の発話位置で「お米を買う」と発話した場合、各々の発話内容が各々のＴＯＤＯリストに追加される。さらに、いずれかのユーザが「家族のＴＯＤＯリストを見せて」と発話した場合、ユーザ知識ＤＢ５４に格納されるユーザのプロファイル情報に基づいて、「買うものは牛乳、お米になります」という応答が出力されてもよい。

また、ユーザが「写真を撮って」と発話した場合、発話位置が「左」であればリアルタイムに写真が撮影され、発話位置が「右」であれば、所定時間後に、タイマー撮影が行われてもよい。また、発話位置が「左」である場合より、発話位置が「右」である場合の方が長い所定時間の後にタイマー撮影が行われてもよい。なお、係る場合、撮影タイミングに関する音声（例えば「３秒後に撮影します」、「１０秒後に撮影します」等）が出力されてもよい。

（付加情報）
応答制御部１３０は発話位置に応じて、応答情報に付加情報を追加するか否かを決定して、応答を制御してもよい。以下に、音楽アプリケーションでの例を説明する。

例えば、付加情報は、曖昧な表現を含む発話に対する応答に係る理由の情報を含んでもよい。例えば、応答制御部１３０は発話位置が「左」である場合に応答の理由を含まない応答情報を生成し、「右」である場合に応答の理由が含まれる応答情報を生成してもよい。

例えば、ユーザが曖昧な表現を含む楽曲の再生を求める発話（曲名を含まずアーティスト名を含む発話等）を行った場合、応答制御部１３０は発話位置が「左」であれば楽曲選択の理由を含まない応答情報を生成し、発話位置が「右」であれば楽曲選択の理由が含まれる応答情報を生成してもよい。例えば、発話位置が「右」である場合、「再生回数が多いＸＸＸです」、「あなたの好きな曲です」等の応答が出力されてもよい。

また、応答情報に追加される付加情報は、応答に関する補足情報（うんちく)であってもよい。ユーザが楽曲の再生を求める発話を行った場合、例えば、応答制御部１３０は発話位置が「左」である場合にうんちくを含まない応答情報を生成し、「右」である場合にうんちくが含まれる応答情報を生成してもよい。例えば、発話位置が「右」である場合、「この曲は音楽ランキングで１位を獲得しました。」等の応答が出力されてもよい。

（探索範囲）
応答制御部１３０は発話位置に応じて、応答に係る探索範囲を制御してもよい。以下に、地図アプリケーションでの例を説明する。

例えば、ユーザが「レストランを探して」と発話した場合、発話位置が「左」であれば狭い探索範囲(例えば半径１ｋｍ以内)での探索結果を含む応答情報を生成し、発話位置が「右」であれば広い探索範囲(例えば半径５ｋｍ以内)での探索結果を含む応答情報が生成されてもよい。なお、係る場合、探索範囲に関する応答（例えば「半径１ｍ以内探します」、「半径５ｍ以内探します」等）が出力されてもよい。また、探索範囲の広さ（探索に係る半径の値）は、例えばユーザの行動状態（自動車、徒歩等）に基づいて決定されてもよい。

（所定機能）
応答制御部１３０は、発話位置に応じた所定の機能に基づいて応答を制御してもよい。所定の機能は、例えばアプリケーションごとに割り当てられた機能、またはユーザが割り当てた機能であってもよい。

例えば、応答制御部１３０は、音楽アプリケーションにおいて、発話位置が「左」であればループ再生が行われるような応答情報を生成し、発話位置が「右」であればシャッフル再生が行われるような応答情報を生成してもよい。多様な機能が割り当てられることで、発話位置の選択がショートカット機能としての役割を果たし得る。

（ドメイン補完）
応答制御部１３０は、発話解析部１４０による発話解析パターンとして、ドメイン補完を適用するか否かを判定してもよい。例えば、応答制御部１３０は発話位置が「左」である場合に、ドメイン補完の適用を示す情報を解析パターンとして発話解析部１４０に提供してもよい。

例えば、ユーザが「明日の東京の天気を教えて」と発話した後に、「大崎について教えて」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、ドメイン（この例では「天気情報の確認」）が補完され、例えば「明日の大崎の天気は晴れです。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、ドメインが補完されず、ドメインが用語解析に強制的に切り替わり、例えば「大崎は東京都品川区の地名で、大崎地域内である。」といった応答が出力される。

（スロット補完）
応答制御部１３０は、発話解析部１４０による発話解析パターンとして、スロット補完を適用するか否かを判定してもよい。例えば、応答制御部１３０は発話位置が「左」である場合に、スロット補完の適用を示す情報を解析パターンとして発話解析部１４０に提供してもよい。

例えば、ユーザが「明日の東京の天気は？」と発話した後に、「予定は？」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、日時スロット（この例では「明日」）が補完され、例えば「明日の予定ＸＸＸです。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、スロットが補完されず、いつの予定であるかが不明であるため、例えば「いつですか？」といった日時の情報を求める応答が出力される。さらに、上記に続けてユーザが「明後日の天気は？」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、場所スロット（この例では「東京」）が補完され、例えば「明後日の東京の天気は雨です。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、スロットが補完されず、どこの天気であるかが不明であるため、例えば「どこですか？」といった場所の情報を求める応答が出力される。

（個人化）
応答制御部１３０は、発話解析部１４０による発話解析パターンとして、個人化を適用するか否かを判定してもよい。例えば、応答制御部１３０は発話位置が「右」である場合に、個人化の適用を示す情報を解析パターンとして発話解析部１４０に提供してもよい。

例えば、複数のアーティストが該当し得るアーティスト名を含む楽曲の再生を求める発話を行った場合、発話位置が「左」であれば個人化が適用されず、一般知識に基づいて解析が行われて、例えば該当するアーティストの中で最も人気のあるアーティストの楽曲が再生されてもよい。また、係る場合に、発話位置が「右」であれば個人化が適用されて解析が行われて、例えばユーザ（話者）の興味、再生履歴などに基づいて選択されたアーティストの楽曲が再生されてもよい。

以上、本実施形態に係る情報処理装置１による応答制御の例を具体的に説明した。なお、上記の応答制御は一例であって、本実施形態に係る情報処理装置１はこれに限定されず、多様な応答制御を行い得る。

＜＜４．応用例＞＞
以上、本開示の一実施形態の構成例、及び動作例について説明した。続いて、本開示の実施形態のいくつかの応用例を説明する。

＜４−１．応用例１＞
上記実施形態では、本技術がネックバンド型のウェアラブルデバイスに適用される例を説明したが、本技術は係る例に限定されない。応用例１として、本技術が自動車（車両の一例）に搭載される車載デバイスに適用される例を説明する。

図６〜図９は、応用例１を説明するための説明図である。図６に示すように、自動車７は、進行方向に対して左側に設けられた左マイクロフォンＭＬ２、及び進行方向に対して右側に設けられた右マイクロフォンＭＲ２を有し、自動車７の運転席にはユーザＵ２、助手席にはユーザＵ３が座っている。

運転席に座るユーザＵ２は図６に示すように、左マイクロフォンＭＬ２に向かって発話することも可能であるし、図７に示すように、右マイクロフォンＭＲ２に向かって発話することも可能である。また、同様に助手席に座るユーザＵ３は、図８に示すように、左マイクロフォンＭＬ２に向かって発話することも可能であるし、図９に示すように、右マイクロフォンＭＲ２に向かって発話することも可能である。

したがって、上述した実施形態と同様に、本応用例に係る車載デバイスは、ユーザＵ２、Ｕ３による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行うことが可能である。

また、話者の座る座席とマイクロフォンの位置は固定されるため、予めマイクロフォンから各座席への方向を設計することで、本応用例に係る車載デバイスは、話者の座る座席が運転席であるか助手席であるかを判断することも可能である。係る場合、車載デバイスは、話者に係る情報（例えば話者の座席）に応じて、応答の出力に係るモーダルを制御してもよい。なお、モーダルの情報は、応答情報に含まれてもよい。

表３は、話者に応じたモーダルの制御例を示す表である。例えば、話者の座席が運転席である場合、運転の妨げとならないように、音声による応答のみが出力されてもよい。また、話者の座席が助手席である場合、音声による応答に加え、テキストでの応答が追加されてもよい。テキストでの応答は、例えば車載デバイスのディスプレイに表示されることで行われてもよいし、話者の保有する情報端末（例えばスマートフォン等）へテキストが送信されて、当該情報端末に表示されることで行われてもよい。

＜４−２．応用例２＞
また、本技術は、家庭に置かれる家庭用デバイス（コンテンツ再生デバイス、ロボット等）に適用されてもよい。以下では、応用例２として、本技術が家庭用デバイスに適用される例を説明する。

図１０は、応用例２を説明するための説明図である。図１０に示すように、家庭用デバイス８は、マイクロフォンＭ１〜Ｍ８を有する。また、家庭のユーザＵ４、及びユーザＵ５は、自由な方向、距離から発話することが可能である。

上述した実施形態と同様に、本応用例に係る家庭用デバイス８は、ユーザＵ２、Ｕ３による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行うことが可能である。

家庭用デバイス８は、発話を受け付けたマイクロフォンをマイクロフォンＭ１〜Ｍ８の中から特定し、当該マイクロフォンが基準位置Ｐよりも左側にあるか右側にあるかに応じて、位置情報を取得してもよい。例えば、図１０に示す例では、ユーザＵ４による発話に係る位置情報は「右」であり、ユーザＵ５による発話に係る位置情報は「左」である。なお、家庭用デバイス８は、「左」、「右」よりも細かな範囲の位置情報を取得してもよく、係る場合には、基準位置がより多数設定されてもよい。

＜４−３．応用例３＞
また、上記実施形態では、１の装置に図４を参照して説明した各機能が備えられる例を説明したが、本技術は係る例に限定されない。以下では、応用例３として、複数の装置が連携することで、上述したような効果が実現される例を説明する。

図１１は、本応用例に係る情報処理システムの構成を示す説明図である。図１１に示すように、本応用例に係る情報処理システムは、クライアント端末２、サーバ３、通信網５を有する。

クライアント端末２は、例えば、図１〜図３を参照して説明したネックバンド型ウェアラブルデバイスや、図６〜図９を参照して説明した車載デバイス、図１０を参照して説明した家庭用デバイス等であってもよい。

図１２は、クライアント端末２の構成例を示すブロック図である。図１２に示すように、本応用例に係るクライアント端末２は、制御部１０−２、入力部２０、出力部３０、及び通信部４０を備える情報処理装置である。なお、図１２に示す構成のうち、図４に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。

図１２に示す制御部１０−２は、クライアント端末２の各構成を制御する。本応用例に係る制御部１０−２は、図１２に示すように、発話検出部１１０−２、話者認識部１２０、応答制御部１３０−２、及び出力制御部１５０−２としての機能を有する。

図１２に示すように、発話検出部１１０−２は、図４を参照して説明した発話検出部１１０の機能の内、信号処理部１１２としての機能を有し、音声認識部１１４としての機能を有しなくてもよい。また、発話検出部１１０−２は、信号処理部１１２で信号処理を行った音声データ（発話音声）を、通信部４０を介してサーバ３に送信させる。

応答制御部１３０−２は、図４を参照して説明した応答制御部１３０と同様にユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御するが、情報の入出力先が応答制御部１３０と一部異なる。応答制御部１３０−２は、図１２に示したように、解析パターン制御部１３６と、応答生成部１３８と、を含んで構成される。

解析パターン制御部１３６は、図４を参照して説明した解析パターン制御部１３２と同様に、発話解析パターンを制御する。発話解析はサーバ３で行われるため、本応用例に係る解析パターン制御部１３６は、サーバ３へ送信可能な形式で解析パターンを示す情報を生成してもよい。

応答生成部１３８は、図４を参照して説明した応答生成部１３４と同様に、応答情報を生成する。本応用例に係る応答生成部１３８は、サーバ３から通信部４０を介して取得した発話の解析結果と、マイクロフォンの位置情報に基づいて、発話に対する応答に係る応答情報を生成することで、応答を制御する。なお、生成された応答情報は、サーバ３、及び出力制御部１５０−２へ送られる。したがって、本応用例に係る応答生成部１３８は、サーバ３へ送信可能な形式で応答情報が生成してもよい。

出力制御部１５０−２は、図４を参照して説明した出力制御部１５０と同様に、出力部３０による出力を制御する。また、図１２に示すように、出力制御部１５０−２は、図４を参照して説明した出力制御部１５０の機能の内、トリガ判定部１５２としての機能を有し、音声合成部３５４としての機能を有しなくてもよい。

図１３は、サーバ３の構成例を示すブロック図である。図１３に示すように、本応用例に係るサーバ３は、制御部３１０、通信部３４０、及び記憶部５０を備える情報処理装置である。なお、図１２に示す構成のうち、図４に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。

制御部３１０は、サーバ３の各構成を制御する。本応用例に係る制御部３１０は、図１３に示すように、発話解析部１４０、音声認識部３１４、及び音声合成部３５４としての機能を有する。

音声認識部３１４は、通信部３４０を介してクライアント端末２から受信した音声データ（発話音声）に対して、音声認識処理を行い発話をテキストに変換する。

音声合成部３５４は、通信部３４０を介してクライアント端末２から受信した応答情報に音声読み上げ用のテキスト情報が含まれる場合に、テキスト情報を音声データに変換する。なお、変換された音声データは、通信部３４０を介してクライアント端末２へ送信される。

通信部３４０は、他の装置との間で情報の通信を行う。

通信網５は、通信網５に接続されている装置、またはシステムから送信される情報の有線、または無線の伝送路である。例えば、通信網５は、インターネット、電話回線網、衛星通信網等の公衆回線網や、Ethernet（登録商標）を含む各種のＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等を含んでもよい。また、通信網５は、ＩＰ−ＶＰＮ（Internet Protocol-Virtual Private Network）等の専用回線網を含んでもよい。

図１１に示すように、クライアント端末２とサーバ３は通信網５を介して相互に接続され、通信を行うことが可能である。以下にクライアント端末２とサーバ３との間の通信の一例を説明する。なお、以下の例では、ユーザが発話位置「左」において「子供の予定を見せて」と発話した場合の例を説明する。また、係る例において、応答制御部１３０−２により判定された解析パターンは、ドメイン補完の適用あり、スロット補完の適用あり、個人化の適用ありの設定になっていた場合を想定する。

まず、クライアント端末２からサーバ３へは解析パターンを示す情報と音声データ（バイナリデータ）と、が送信される。図１４は、送信されるデータの一例を示す説明図である。図１４において、送信データは、「multipart_boundary」の文字列により区切られている。

なお、図１４に示す通信例は説明を容易にするため、発話開始から発話終了までの音声データをまとめて送信する場合を示しているが、音声データは逐次送信されてもよい。発話の音声データをすべて取得してから送信すると、ユーザの発話が終わってから送信することになり、遅延につながるため、逐次音声認識として、ユーザの発話中に音声データを分割して送信して、逐次的に音声認識を行ってもよい。その場合は常にクライアント端末２からサーバ３へのセッションは発話開始の音声データから発話終了の音声データまで張られている。

図１５は、解析パターンを示す情報をＪＳＯＮ形式で表した一例を示す説明図である。図１５において、Domainタグの値が1の場合は、ドメイン補完の適用ありを示し、0の場合は補完の適用なしを示す。また、Slotタグの値が1の場合は、スロット補完の適用ありを示し、0の場合は補完の適用なしを示す。また、Personalizationタグの値が1の場合は、個人化の適用ありを示し、0の場合は個人化の適用なしを示す。

図１６は、音声データの値の一例を示す説明図である。図１６に示すように、音声データは16進数のバリナリコードであってもよい。

また、サーバ３による音声認識と発話解析が行われた後、発話解析結果として意味フレームがクライアント端末２へ送信される。図１７は、クライアント端末２の受信データ示す説明図である。図１７では、意味フレームがＪＳＯＮ形式で表現されている。表４は、図１７におけるＪＳＯＮタグの説明を示す表である。

なお、図１７、表４において、SubjectがＮＯＮＥであることは、当該発話には件名の情報が含まれていないことを意味する。また、図１７、表４において、DateValueがＮＯＮＥであることは、当該発話には具体的な日時の情報が含まれていないことを意味する。

また、クライアント端末２の応答生成部１３８が発話の解析結果に基づいて生成した応答情報は、サーバ３へ送信され、サーバ３の音声合成部３５４により音声データに変換され、クライアント端末２へ返送される。

クライアント端末２からサーバ３へ送信される応答情報をＪＳＯＮ形式で表現すると、例えば以下のようになる。

{ "ResponceText": "太郎の予定はXXX"} }

また、クライアント端末２がサーバ３から受信する音声データは、音声合成の音声フォーマットに沿ったバリナリデータであってもよい。

なお、クライアント端末２が音声合成部を備える場合には応答情報、及び音声データの通信は不要である。

＜４−４．応用例４＞
本技術を複数の装置を有する情報システムに適用した場合の構成例は上記応用例３に限定されない。以下では、応用例４として、他の構成例を説明する。本応用例では、応答制御がサーバにより行われる点において応用例３と異なり、他の点においては上述した実施形態、及び応用例３と実質的に同様であるため、異なる点について主に説明を行い、実質的に同様な点については適宜説明を省略する。なお、以下に説明するクライアント端末２−２、及びサーバ３−２は、図１１を参照して説明したクライアント端末２、及びサーバ３と同様に、通信網５を介して相互に接続され、通信を行うことが可能であるとする。

図１８は、本応用例に係るクライアント端末２−２の構成例を示すブロック図である。図１８に示すように、本応用例に係るクライアント端末２−２は、制御部１０−３、入力部２０、出力部３０、及び通信部４０を備える情報処理装置である。なお、図１８に示す構成のうち、図４、図１２に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。

本応用例に係る制御部１０−３は、クライアント端末２−２の各構成を制御する。本応用例に係る制御部１０−３は、図１８に示すように、発話検出部１１０−２、話者認識部１２０−２、及び出力制御部１５０−３としての機能を有し、応答制御部としての機能を有しなくてもよい。

そのため、本応用例に係る話者認識部１２０−２は、通信部４０を介して、発話を受け付けたマイクロフォンの位置情報、及び話者の情報をサーバ３−２へ送信させる点で、図４に示した話者認識部１２０と異なる。

また、本応用例に係る出力制御部１５０−３（処理部の一例）は、通信部４０を介してサーバ３−２から受信した応答情報に基づいて、応答の出力制御処理を行う点で図４に示した出力制御部１５０と異なる。

図１９は、本応用例に係るサーバ３−２の構成例を示すブロック図である。図１９に示すように本応用例に係るサーバ３−２は、制御部３１０−２、通信部３４０、及び記憶部５０を備える情報処理装置である。なお、図１９に示す構成のうち、図４、図１３に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。

制御部３１０−２は、サーバ３−２の各構成を制御する。本応用例に係る制御部３１０−２は、図１９に示すように、発話解析部１４０、音声認識部３１４、及び応答制御部３３０としての機能を有する。制御部３１０−２は、応答制御部３３０を有するため、通信部３４０を介して、発話を受け付けたマイクロフォンの位置情報をクライアント端末２から受信（取得）する取得部としても機能する。

応答制御部３３０は、図１２を参照して説明した応答制御部１３０−２と同様にユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御する。本応用例に係る応答制御部３３０は、クライアント端末２から受信した発話を受け付けたマイクロフォンの位置情報に基づいて、応答を制御する点で、図１２に示した応答制御部１３０−２と異なる。また、本応用例に係る応答制御部３３０は、生成した応答情報をクライアント端末２へ送信させる点で図１２に示した応答制御部１３０−２と異なる。なお、サーバ３−２が音声合成部を備える場合には、サーバ３−２からクライアント端末２−２へ送信される応答情報は、音声データであってもよい。

以上、説明したように、本応用例によれば、クライアント端末２−２が応答制御機能を有していなくても、発話を受け付けたマイクロフォンの位置情報に基づく応答が可能となる。

＜＜５．ハードウェア構成例＞＞
以上、本開示の実施形態を説明した。最後に、図２０を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図２０は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図２０に示す情報処理装置９００は、例えば、図４、図１２、図１３、図１８、図１９にそれぞれ示した情報処理装置１、クライアント端末２、２−２、サーバ３、３−２を実現し得る。本実施形態に係る情報処理装置１、クライアント端末２、２−２、サーバ３、３−２による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図２０に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１、通信装置９１３、及びセンサ９１５を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、制御部１０、１０−２、１０−３、３１０、３１０−２を形成し得る。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置９０６は、例えば入力部２０を形成し得る。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置９０７は、例えば出力部３０を形成し得る。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。上記ストレージ装置９０８は、例えば、記憶部５０を形成し得る。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１３は、例えば、通信部４０、３４０を形成し得る。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜＜６．むすび＞＞
以上、説明したように、本開示の実施形態によれば、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態における各ステップは、必ずしもフローチャート図として記載された順序に沿って時系列に処理される必要はない。例えば、上記実施形態の処理における各ステップは、フローチャート図として記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
発話を受け付けたマイクロフォンの位置情報を取得する取得部と、
前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、
を備える、情報処理装置。
（２）
前記応答制御部は、前記位置情報に基づいて、前記発話の解析パターンを制御し、前記発話の解析結果に基づいて、前記応答を制御する、前記（１）に記載の情報処理装置。
（３）
前記応答制御部は、前記位置情報に基づいて、前記解析パターンの適用有無を判定することで、前記発話の解析パターンを制御する、前記（２）に記載の情報処理装置。
（４）
前記解析パターンは、ドメイン補完、スロット補完、個人化のうち、少なくともいずれか一つを含む、前記（３）に記載の情報処理装置。
（５）
前記応答制御部は、前記位置情報に基づいて、前記応答に含まれる情報量を制御する、前記（１）〜（４）のいずれか一項に記載の情報処理装置。
（６）
前記応答制御部は、前記位置情報と、応答に係る時間方向とが対応するように、前記応答を制御する、前記（１）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記応答制御部は、前記位置情報が左である場合に、前記応答に含まれる情報より、前記位置情報が右である場合に、前記応答に含まれる情報の方がより未来の情報であるように、前記応答を制御する、前記（６）に記載の情報処理装置。
（８）
前記応答制御部は、前記位置情報と、応答に係る空間とが対応するように、前記応答を制御する、前記（１）〜（７）のいずれか一項に記載の情報処理装置。
（９）
前記応答制御部は、前記位置情報に基づいて、前記応答の出力タイミングを制御する、前記（１）〜（８）のいずれか一項に記載の情報処理装置。
（１０）
前記応答制御部は、前記位置情報に基づいて、前記応答に付加情報を追加するか否かを決定する、前記（１）〜（９）のいずれか一項に記載の情報処理装置。
（１１）
前記付加情報は、前記応答に係る理由の情報、または前記応答に係る補足情報を含む、前記（１０）に記載の情報処理装置。
（１２）
前記応答制御部は、前記位置情報に基づいて、前記応答に係る探索範囲を制御する、前記（１）〜（１１）のいずれか一項に記載の情報処理装置。
（１３）
前記応答制御部は、前記位置情報に応じた所定の機能に基づいて、前記応答を制御する、前記（１）〜（１２）のいずれか一項に記載の情報処理装置。
（１４）
前記応答制御部は、さらに前記発話の話者に係る情報に基づいて、前記応答を制御する、前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、
前記応答情報に基づいて処理を行う処理部と、
を備える情報処理装置。
（１６）
発話を受け付けたマイクロフォンの位置情報を取得することと、
プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、
を含む、情報処理方法。
（１７）
発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、
プロセッサが、前記応答情報に基づいて処理を行うことと、
を含む、情報処理方法。

１情報処理装置
２クライアント端末
３サーバ
５通信網
７自動車
８家庭用デバイス
１０制御部
２０入力部
３０出力部
４０通信部
５０記憶部
１１０発話検出部
１１２信号処理部
１１４音声認識部
１２０話者認識部
１２２ビームフォーミング部
１２４マイクロフォン特定部
１２６話者識別部
１３０応答制御部
１３２解析パターン制御部
１３４応答生成部
１３６解析パターン制御部
１３８応答生成部
１４０発話解析部
１４２言語解析部
１４４意図理解部
１５０出力制御部
１５２トリガ判定部
１５４音声合成部
３１０制御部
３１４音声認識部
３３０応答制御部
３４０通信部
３５４音声合成部

Claims

発話を受け付けたマイクロフォンの位置情報を取得する取得部と、
前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、
を備える、情報処理装置。
前記応答制御部は、前記位置情報に基づいて、前記発話の解析パターンを制御し、前記発話の解析結果に基づいて、前記応答を制御する、請求項１に記載の情報処理装置。
前記応答制御部は、前記位置情報に基づいて、前記解析パターンの適用有無を判定することで、前記発話の解析パターンを制御する、請求項２に記載の情報処理装置。
前記解析パターンは、ドメイン補完、スロット補完、個人化のうち、少なくともいずれか一つを含む、請求項３に記載の情報処理装置。
前記応答制御部は、前記位置情報に基づいて、前記応答に含まれる情報量を制御する、請求項１に記載の情報処理装置。
前記応答制御部は、前記位置情報と、応答に係る時間方向とが対応するように、前記応答を制御する、請求項１に記載の情報処理装置。
前記応答制御部は、前記位置情報が左である場合に、前記応答に含まれる情報より、前記位置情報が右である場合に、前記応答に含まれる情報の方がより未来の情報であるように、前記応答を制御する、請求項６に記載の情報処理装置。
前記応答制御部は、前記位置情報と、応答に係る空間とが対応するように、前記応答を制御する、請求項１に記載の情報処理装置。
前記応答制御部は、前記位置情報に基づいて、前記応答の出力タイミングを制御する、請求項１に記載の情報処理装置。
前記応答制御部は、前記位置情報に基づいて、前記応答に付加情報を追加するか否かを決定する、請求項１に記載の情報処理装置。
前記付加情報は、前記応答に係る理由の情報、または前記応答に係る補足情報を含む、請求項１０に記載の情報処理装置。
前記応答制御部は、前記位置情報に基づいて、前記応答に係る探索範囲を制御する、請求項１に記載の情報処理装置。
前記応答制御部は、前記位置情報に応じた所定の機能に基づいて、前記応答を制御する、請求項１に記載の情報処理装置。
前記応答制御部は、さらに前記発話の話者に係る情報に基づいて、前記応答を制御する、請求項１に記載の情報処理装置。
発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、
前記応答情報に基づいて処理を行う処理部と、
を備える情報処理装置。
発話を受け付けたマイクロフォンの位置情報を取得することと、
プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、
を含む、情報処理方法。
発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、
プロセッサが、前記応答情報に基づいて処理を行うことと、
を含む、情報処理方法。