WO2019181218A1

WO2019181218A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Info

Publication number: WO2019181218A1
Application number: PCT/JP2019/003032
Authority: WO
Inventors: 山田　敬一
Original assignee: ソニー株式会社
Priority date: 2018-03-19
Filing date: 2019-01-29
Publication date: 2019-09-26
Also published as: US20210020179A1

Abstract

画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理を実現する装置、方法を提供する。ユーザ発話に対する音声認識処理を実行する音声処理部を有し、音声処理部は、ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有する。音源方向・音声区間決定部、および音声認識部は、ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、ユーザ発話に対する音源方向と音声区間の決定処理と音声認識処理を実行する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

　昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識装置の利用が増大している。
　この音声認識装置においては、マイクを介して入力するユーザ発話の解析を行い、解析結果に応じた処理を行う。

　例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
　システム発話＝「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
　音声認識装置は、このようなシステム発話を出力する。

　一般的な音声認識装置では、周囲の環境音等のノイズレベルが相対的に大きい場合には、正しく認識することが困難になる。
　ノイズ低減のために、特定方向の音のみを選択するビームフォーミング処理や、反響音を識別して反響音を削減するエコーキャンセル処理等を利用してノイズ低減を行ない、ユーザ発話音声を選択的に入力させて音声認識を行うことで認識性能の低下をある程度、軽減することが可能となる。

　なお、ノイズの影響を低減させ精度の高い音声認識を可能とする構成を開示した従来技術として、例えば特許文献１（特開２０１４－１５３６６３号公報）がある。
　しかし、このような処理を行ってもノイズの影響が大きい場合は、正確な音声認識ができない場合がある。

　また、音声認識装置の中には、全てのユーザ発話の音声認識を行わず、装置に対する呼びかけ等、予め規定された「起動ワード」の検出に応じて、音声認識を開始する構成を有するものもある。

　すなわち、ユーザが音声入力を行う際、ユーザは、まず、初めに予め規定された「起動ワード」を発話する。
　音声認識装置は、この「起動ワード」の入力検出に応じて音声入力待ち受け状態に移行する。この状態移行後に、音声認識装置は、ユーザ発話の音声認識を開始する。

　しかし、このような装置では、ユーザは、本来のユーザ要求に対応する発話以外に、起動ワードの発声を事前に行うことが必要となる。音声認識装置は、起動ワードの入力後、音声認識を開始するが、その後、一定時間経過すると、また音声認識機能をオフ（スリープモード）にしてしまう。従って、ユーザは音声認識機能がオフになる度に、起動ワードの発声を行うことが必要となる。ユーザが起動ワードを知らない、あるいは忘れた場合には、音声認識機能を使えないという問題もある。

特開２０１４－１５３６６３号公報特開２０１２－００３３２６号公報

　本件は、例えば上記問題点に鑑みてなされたものであり、音声解析に併せて画像解析を実行することで、ノイズ音の多い環境下においても、目的とするユーザの発話を正確に判断して精度の高い音声認識を実現する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
　前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
　前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
　前記音源方向・音声区間決定部は、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理装置にある。

　さらに、本開示の第２の側面は、
　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部と、
　ユーザ画像を入力する画像入力部を有し、
　前記データ処理サーバは、
　前記ユーザ端末から受信する前記ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
　前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
　前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
　前記音源方向・音声区間決定部は、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理システムにある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
　音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップは、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行するステップである情報処理方法にある。

　さらに、本開示の第４の側面は、
　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末において、
　ユーザ発話を入力する音声入力処理と、
　ユーザ画像を入力する画像入力処理を実行し、
　前記データ処理サーバにおいて、
　音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
　音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
　前記データ処理サーバは、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　音源方向・音声区間決定部に、ユーザ発話の音源方向と音声区間を決定する処理を実行させる音源方向・音声区間決定ステップと、
　音声認識部に、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行させる音声認識ステップを実行させ、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
　具体的には、例えば、ユーザ発話に対する音声認識処理を実行する音声処理部を有し、音声処理部は、ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有する。音源方向・音声区間決定部、および音声認識部は、ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、ユーザ発話に対する音源方向と音声区間の決定処理と音声認識処理を実行する。
　これらの構成により、画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ユーザ発話に基づく応答や処理を行う情報処理装置の例について説明する図である。情報処理装置の構成例と利用例について説明する図である。情報処理装置の具体的な構成例について説明する図である。情報処理装置の構成例について説明する図である。情報処理装置の画像処理部と音声処理部の構成例について説明する図である。音声に基づく音源方向推定処理について説明する図である。音声に基づく音源方向推定処理について説明する図である。音声を利用した音声認識処理のシーケンスについて説明するフローチャートを示す図である。画像と音声を利用した音源方向、音声区間検出処理のシーケンスについて説明するフローチャートを示す図である。情報処理装置の表示情報の具体例について説明する図である。情報処理装置の表示情報の具体例について説明する図である。情報処理装置の表示情報の具体例について説明する図である。画像と音声を利用した音源方向、音声区間検出処理のシーケンスについて説明するフローチャートを示す図である。画像と音声を利用した音声区間検出処理の一例について説明する図である。画像と音声を利用した音源方向推定処理の一例について説明する図である。情報処理装置の表示情報の具体例について説明する図である。情報処理装置の表示情報の具体例について説明する図である。情報処理システムの構成例について説明する図である。情報処理装置のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．情報処理装置の実行する処理の概要について
　２．情報処理装置の構成例について
　３．画像処理部と音声処理部の詳細構成と処理について
　４．画像情報と音声情報を適用した音源方向、音声区間の決定処理シーケンスについて
　５．音声と画像の双方から得られた音源方向と音声区間の各情報を用いた処理例について
　６．情報処理装置の周囲に複数の発話者がいる環境での処理例について
　７．情報処理装置、および情報処理システムの構成例について
　８．情報処理装置のハードウェア構成例について
　９．本開示の構成のまとめ

　　［１．情報処理装置の実行する処理の概要について］
　まず、図１以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。

　図１は、発話者１の発するユーザ発話を認識して応答を行う情報処理装置１０の一処理例を示す図である。
　情報処理装置１０は、発話者１のユーザ発話、例えば、
　ユーザ発話＝「大阪の明日、午後の天気を教えて」
　このユーザ発話の音声認識処理を実行する。

　さらに、情報処理装置１０は、ユーザ発話の音声認識結果に基づく処理を実行する。
　図１に示す例では、ユーザ発話＝「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して、生成した応答をスピーカー１４を介して出力する。
　図１に示す例では、情報処理装置１０は、天気情報を示す画像表示を行うとともに、以下のシステム応答を行っている。
　システム応答＝「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
　情報処理装置１０は、音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を実行して上記のシステム応答を生成して出力する。

　情報処理装置１０は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
　図１に示す情報処理装置１０は、カメラ１１、マイク１２、表示部１３、スピーカー１４を有しており、音声入出力と画像入出力が可能な構成を有する。

　カメラ１１は、例えば、ほぼ周囲３６０°の画像を撮影可能な全方位カメラである。また、マイク１２は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
　表示部１３は、図に示す例ではプロジェクタ型の表示部を用いた例を示している。ただし、表示部１３は、ディスプレイ型の表示部としてもよいし、あるいは情報処理装置１９に接続されたＴＶ、ＰＣ等の表示部に表示情報を出力する構成としてもよい、

　図１に示す情報処理装置１０は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
　本開示の情報処理装置１０は、図２に示すように、エージェント機器１０ａに限らず、スマホ１０ｂやＰＣ１０ｃ等、あるいは公共の場所に設置されたサイネージ機器のような様々な装置形態とすることが可能である。

　情報処理装置１０は、発話者１の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図２に示すテレビ、エアコン等の外部機器３０の制御も実行する。
　例えばユーザ発話が「テレビのチャンネルを１に変えて」、あるいは「エアコンの設定温度を２０度にして」といった要求である場合、情報処理装置１０は、このユーザ発話の音声認識結果に基づいて、外部機器３０に対して制御信号（Ｗｉ－Ｆｉ、赤外光など）を出力して、ユーザ発話に従った制御を実行する。

　なお、情報処理装置１０は、ネットワークを介してサーバ２０と接続され、サーバ２０から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。

　　［２．情報処理装置の構成例について］
　次に、図３を参照して、情報処理装置の具体的な構成例について説明する。
　図３は、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置１０の一構成例を示す図である。

　図３に示すように、情報処理装置１０は、入力部１１０、出力部１２０、データ処理部１３０を有する。
　なお、データ処理部１３０は、情報処理装置１０内に構成することも可能であるが、情報処理装置１０内に構成せず、外部サーバのデータ処理部を利用してもよい。サーバを利用した構成の場合、情報処理装置１０は、入力部１１０から入力した入力データを、ネットワークを介してサーバに送信し、サーバのデータ処理部１３０の処理結果を受信して、出力部１２０を介して出力する。

　次に、図３に示す情報処理装置１０の構成要素について説明する。
　入力部１１０は、画像入力部（カメラ）１１１、音声入力部（マイク）１１２を有する。
　出力部１２０は、音声出力部（スピーカー）１２１、画像出力部（表示部）１２２を有する。
　情報処理装置１０は、最低限、これらの構成要素を有する。

　画像入力部（カメラ）１１１は、図１に示す情報処理装置１０のカメラ１１に対応する。例えば、ほぼ周囲３６０°の画像を撮影可能な全方位カメラである。
　音声入力部（マイク）１１２は、図１に示す情報処理装置１０のマイク１２に対応する。音声入力部（マイク）１１２は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。

　音声出力部（スピーカー）１２１は、図１に示す情報処理装置１０のスピーカー１４に対応する。
　画像出力部（表示部）１２２は、図１に示す情報処理装置１０の表示部１３に対応する。例えば、プロジェクタ等によって構成可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。

　データ処理部１３０は、前述したように情報処理装置１０、または情報処理装置１０と通信可能なサーバのいずれかに構成される。
　データ処理部１３０は、入力データ処理部１４０、出力情報生成部１８０、記憶部１９０を有する。

　入力データ処理部１４０は、画像処理部１５０と、音声処理部１６０を有する。
　出力情報生成部１８０は、出力音声生成部１８１、表示情報生成部１８２を有する。

　ユーザの発話音声はマイクなどの音声入力部１１２に入力される。
　音声入力部（マイク）１１２は、入力したユーザ発話音声を音声処理部１６０に入力する。
　なお、画像処理部１５０と、音声処理部１６０の構成と処理については、図５以下を参照して、後段で詳細に説明するので、ここでは簡略化して説明する。

　音声処理部１６０は、例えばＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
　さらに、テキストデータに対する発話意味解析処理を実行する。
　音声処理部１６０は、例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能を有し、テキストデータからユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。

　具体例について説明する。例えば以下のユーザ発話が入力されたとする。
　ユーザ発話＝明日の大阪の午後の天気を教えて
　このユーザ発話の、
　意図（インテント）は、天気を知りたいであり、
　実体情報（エンティティ）は、大阪、明日、午後、これらのワードである。

　ユーザ発話から、意図（インテント）と、実体情報（エンティティ）を正確に推定、取得することができれば、情報処理装置１０は、ユーザ発話に対する正確な処理を行うことができる。
　例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。

　音声処理部１６０によって取得されたユーザ発話解析情報は、記憶部１９０に格納されるとともに、出力情報生成部１８０に出力される。

　画像入力部１１１は、発話ユーザおよびその周囲の画像を撮影して、画像処理部１５０に入力する。
　画像処理部１５０は、発話ユーザの顔の表情やユーザの行動、視線情報、発話ユーザの周囲情報等の解析を行い、この解析結果を記憶部１９０に格納するとともに、出力情報生成部１８０に出力する。
　なお、前述したように、画像処理部１５０と、音声処理部１６０の詳細構成と処理については、後段において、図５以下を参照して説明する。

　記憶部１９０には、ユーザ発話の内容や、ユーザ発話に基づく学習データや、画像出力部（表示部）１２２に出力する表示用データ等が格納される。

　出力情報生成部１８０は、出力音声生成部１８１、表示情報生成部１８２を有する。
　出力音声生成部１８１は、音声処理部１６０の解析結果であるユーザ発話解析情報に基づいて、ユーザに対するシステム発話を生成する。
　出力音声生成部１８１の生成した応答音声情報は、スピーカー等の音声出力部１２１を介して出力される。

　表示情報生成部１８２は、ユーザに対するシステム発話に関するテキスト情報や、その他の提示情報を表示する。
　例えばユーザが世界地図を見せてというユーザ発話を行った場合、世界地図を表示する。
　世界地図は、例えばサービス提供サーバから取得可能である。

　なお、情報処理装置１０は、ユーザ発話に対する処理実行機能も有する。
　例えば、
　ユーザ発話＝音楽を再生して
　ユーザ発話＝面白い動画を見せて
　このような発話である場合、情報処理装置１０は、ユーザ発話に対する処理、すなわち音楽再生処理や、動画再生処理を行う。
　図３には示していないが、情報処理装置１０は、このような様々な処理実行機能も有する。

　図４は、情報処理装置１０の外観構成例を示す図である。
　画像入力部（カメラ）１１１は、ほぼ周囲３６０°の画像を撮影可能な全方位カメラである。
　音声入力部（マイク）１１２は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
　音声出力部（スピーカー）１２１は、スピーカーによって構成されている。
　画像出力部（表示部）１２２は、例えば、プロジェクタ画像の投光部である。ただしこれは一例であり、情報処理装置１０にＬＣＤ等の表示部を設定する構成としてもよいし、外部のテレビの表示部を利用して画像表示を行う構成としてもよい。

　　［３．画像処理部と音声処理部の詳細構成と処理について］
　次に、図５以下を参照して、画像処理部１５０と音声処理部１６０の詳細構成と処理について説明する。

　本開示の情報処理装置１０は、画像から得られる様々な認識結果を適宜利用することによって、音声のみを用いる場合では対応が困難な条件下における音声認識を可能にした構成を有する。
　例えば、音声から得られる情報と、画像から得られる情報の具体例（種類）は、以下の通りである。
　（Ａ）音声から得られる情報
　（ａ１）音声区間情報（音声区間の開始時刻と終了時刻から成る情報）
　（ａ２）音源方向推定情報
　（Ｖ）画像から得られる情報
　（ｖ１）顔領域情報
　（ｖ２）顔識別情報
　（ｖ３）顔方向推定情報
　（ｖ４）視線方向推定情報
　（ｖ５）口唇動作による音声区間検出情報

　画像処理部１５０と音声処理部１６０は、これらの情報を検出し、検出情報を利用して高精度な音声認識を行う。
　図５は、画像処理部１５０、音声処理部１６０の詳細構成を示すブロック図である。

　図５に示す画像処理部１５０は、画像入力部１１１から、カメラ撮影画像を入力する。なお、入力画像は動画像である。
　また、図５に示す音声処理部１６０は、音声入力部１１２から音声情報を入力する。
　なお、前述したように、音声入力部１１２は、音源方向を特定可能な複数のマイクから構成されるマイクロフォン・アレイである。音声入力部１１２は、マイクロフォン・アレイを構成する各マイクからマイクの取得音を入力する。

　音声処理部１６０の音声入力部１１２の取得音は、複数の異なる位置に配置された複数のマイクの取得音である。音源方向推定部１６１は、この複数マイクの取得音に基づいて音源方向を推定する。

　音源方向推定処理について、図６を参照して説明する。
　例えば図６に示すように、異なる位置に配置した複数のマイクロフォン１～４からなるマイクロフォン・アレイ２０１が、特定方向にある音源２０２からの音を取得する。マイクロフォン・アレイ２０１の各マイクに対する音源２０２からの音の到達時間は少しずつ、ずれることになる。図に示す例では、マイクロフォン１に時間ｔ６で到達した音は、マイクロフォン４には時間ｔ７で到達する。

　このように、各マイクロフォンは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなり、各マイクロフォンの取得した音声信号の位相差を解析することで、音源方向を求めることができる。

　なお、本実施例において、音源方向は、図６に示すようにマイクロフォン・アレイのマイクロフォン配列方向に対する垂直ライン２０３となす角度θによって示すものとする。すなわち、図６に示す垂直方向ライン２０３に対する角度θを音源方向θ２０４とする。

　音声処理部１６０の音源方向推定部１６１は、このように、マイクロフォン・アレイからの音を入力する音声入力部１１２を介して入力する複数の異なる位置に配置された複数のマイクの取得音に基づいて、音源方向を推定する。

　図５に示す音声処理部１６０の音声区間検出部１６２は、音源方向推定部１６１によって推定された特定の音源方向からの音声開始時間と音声終了時間を判定する。
　この処理に際しては、マイクロフォン・アレイを構成する複数のマイクロフォンによって取得された位相差を持つ特定音源方向からの入力音の各々に対して、位相差に応じた遅延を付与して、各マイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。

　この処理によって目的音の強調処理が実行される。すなわち、この観測信号総和処理によって特定音源方向の音のみが強調され、その他の周囲の環境音の音レベルを低減させることが可能となる。

　音声区間検出部１６２は、このように複数のマイクロフォンの観測信号の加算信号を用いて、音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。

　これら、音声処理部１６０の音源方向推定部１６１と音声区間検出部１６２の処理によって、例えば、図７に示すような解析データを取得することができる。
　図７に示す解析データは以下の通りである。
　音源方向＝０．４０ｒａｄｉａｎ
　音声区間（開始時刻）＝５．３４ｓｅｃ
　音声区間（終了時刻）＝６．８０ｓｅｃ

　音源方向（θ）は、図６を参照して説明したように、マイクロフォン・アレイのマイク配列方向に対する垂直ラインとなす角度（θ）である。
　音声区間は、音源方向からの音声の発話区間の開始時刻と終了時刻を示す情報である。
　図７に示す例では、
　発話開始を示す音声開始時刻が５．３４ｓｅｃ、
　発話終了を示す音声終了時刻が、６．８０ｓｅｃ、
　である。なお、測定開始時刻を０とした設定である。

　音声信号のみを利用した音声認識処理は従来から利用されている。すなわち、図５に示す画像処理部１５０を利用せず、音声処理部１６０のみを利用した音声認識処理を実行するシステムは従来から存在する。
　本開示の構成における特徴の１つである画像処理部１５０を利用した音声認識処理の説明の前に、まず、この音声処理部１６０のみを利用した一般的な音声認識処理シーケンスについて、図８に示すフローチャートを参照して説明する。

　まず、ステップＳ１０１において、音源方向を推定する。
　この処理は、図５に示す音源方向推定部１６１において実行される処理であり、例えば、先に図６を参照して説明した処理に従って実行する処理である。

　次に、ステップＳ１０２において、音声区間を検出する。この処理は、図５に示す音声区間検出部１６２の実行する処理である。
　前述したように、音声区間検出部１６２は、マイクロフォン・アレイを構成する複数のマイクロフォンによって取得された位相差を持つ特定音源方向からの入力音の各々に対して、位相差に応じた遅延を付与して、各マイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。この処理によって目的音の強調信号を取得し、強調信号の音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。

　次に、ステップＳ１０３において、音源波形を抽出する。この処理は、図５に示す音源抽出部１６４の処理となる。
　なお、図６に示すフローは、音声のみを利用した音声認識処理例であり、図３に示す画像処理部１５０からの入力信号を利用した音源方向・音声区間決定部１６３の処理は省略した例である。

　音声信号のみを利用した処理の場合、図５に示す音声処理部１６０の音源抽出部１６４は、図５に示す音声処理部１６０の音源方向推定部１６１の推定した音源方向と、音声区間検出部１６２の検出した音声区間情報のみを利用して、音源抽出処理を実行する。

　音源抽出部１６４は、図８に示すステップＳ１０３の音源波形抽出処理を実行する。この音源波形は、音源方向推定部１６１の推定した音源方向と、音声区間検出部１６２の検出した音声区間情報に基づいて選択された音声信号を解析対象として周波数レベルの変化等を解析する処理であり、音声認識処理において従来から行われている処理である。

　次に、ステップＳ１０４において、音声認識処理を実行する。この処理は、図５に示す音声認識部１３５において実行する処理である。
　音声認識部１３５は、予め登録された様々な発話における周波数変化パターンを登録した辞書データを有する。音声認識部１３５はこの辞書データを利用し、音源抽出部１６４が取得音に基づいて解析した取得音の周波数変化パターン等を辞書データと照合し、一致度の高い辞書登録データを選択する。音声認識部１６５は、選択した辞書データに登録された言葉を発話内容として判定する。

　具体的には、例えば先に説明したように、ＡＳＲ機能により、音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行して、テキストデータからユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。

　マイクロフォンを利用して取得した音声のみを利用した音声認識を行なう場合のシーケンスは、ほぼこの図８に示すフローに従った処理となる。
　しかし、音声のみを利用した処理においては、音源方向の判定や音声区間の解析精度に限界がある。特に目的とする音以外のノイズ（環境音）のレベルが高い場合、音源方向や音声区間の判定精度が低下してしまい、結果として十分な音声認識処理が行えなくなるという問題がある。

　本開示の構成は、このような問題を解決するため、図５に示すように画像処理部１５０を設け、画像処理部１５０において取得した情報を音声処理部１６０内の音源方向・音声区間決定部１６３に出力する構成としている。

　音源方向・音声区間決定部１６３は、音声処理部１６０の音源方向推定部１６１の推定した音源方向情報と、音声区間検出部１６２の検出した音声区間情報に加え、画像処理部１５０の解析情報を利用して、音源方向と音声区間を決定する処理を行なう。
　このように、本開示の音声認識装置では、音声のみならず、画像解析結果を利用して音源方向と音声区間を決定することで、精度の高い音源方向と音声区間を判定することを可能とし、結果として、高精度な音声認識を実現する。

　以下、図５に示す音声認識装置の画像処理部１５０を利用した音声認識処理について説明する。

　本開示の音声認識装置における画像処理部１５０は、画像入力部（カメラ）１１１のカメラ撮影画像を入力し、入力画像を顔領域検出部１５１に出力する。
　なお、画像入力部（カメラ）１１１は動画像を撮影し、連続した撮影された画像フレームを順次出力する。

　図５に示す顔領域検出部１５１は、入力画像の各画像フレームから人の顔領域を検出する。この領域検出処理は、既存の技術を利用して実行可能な処理である。

　例えば、顔領域検出部１５１は、予め登録された顔の特徴を示す形状データや輝度データからなる顔パターン情報を保持する。顔領域検出部１５１は、この顔パターン情報を参照情報として、画像フレーム中の画像領域から登録パターンに類似した領域を検出する処理を実行して、画像中の顔領域を検出する。

　顔領域検出部１５１の顔領域検出情報は、各画像フレームの画像情報とともに、顔識別部１５２と、顔方向推定部１５３と、口唇領域検出部１５５に入力される。
　顔識別部１５２は、顔領域検出部１５１の検出した画像フレーム中の顔領域に含まれる顔が、だれの顔であるかを識別する。顔識別部１５２は、各ユーザの顔画像情報を格納したユーザ情報ＤＢ１５２ｂの登録情報と、撮影画像情報を比較して、画像フレーム中の顔領域の顔が、だれの顔であるかを識別する
　顔識別部１５２が生成した、だれの顔であるかを示す顔識別情報１７１は、出力情報生成部１８０に出力される。

　顔方向推定部１５３は、顔領域検出部１５１の検出した画像フレーム中の顔領域に含まれる顔が、どの方向を向いているかを判定する。
　顔方向推定部１５３は、顔領域検出部１５１の検出した顔領域から、目の位置や口の位置など、顔の各パーツの位置を判定し、これらの顔パーツの位置関係に基づいて、顔の向いている方向を推定する。
　さらに、顔方向推定部１５３の推定した顔方向推定情報が視線方向推定部１５４に出力される。
　視線方向推定部１５４は、顔方向推定部１５３の推定した顔方向推定情報に基づいて、顔領域に含まれる顔の視線方向を推定する。

　顔方向推定部１５３の推定した顔方向情報、または視線方向推定部１５４の推定した視線方向情報の少なくともいずれか、あるいは両者の情報からなる顔／視線方向情報１７２は、音源方向・音声区間決定部１６３に出力される。

　なお、視線方向推定部１５４を省略し、顔方向情報のみを生成して音源方向・音声区間決定部１６３に出力する構成としてもよい。また、視線方向推定部１５４の生成した視線方向情報のみを音源方向・音声区間決定部１６３に出力する構成としてもよい。

　口唇領域検出部１５５は、顔領域検出部１５１の検出した各画像フレーム中の顔領域に含まれる顔の中の口の領域、すなわち口唇領域を検出する。例えば予めメモリに登録された口唇形状パターンを参照情報として、顔領域検出部１５１の検出した画像フレーム中の顔領域から、登録パターンに類似した領域を口唇領域として検出する。

　口唇領域検出部１５５の検出した口唇領域情報は、口唇動作ベース音声区間検出部１５６に出力される。
　口唇動作ベース音声区間検出部１５６は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間（音声区間開始時間）と、発話を終了した時間（音声区間終了時間）を判定する。この判定情報を、口唇動作ベース音声区間検出情報１７３として、音源方向・音声区間決定部１６３に出力する。

　なお、口唇動作に基づく発話区間の解析処理については、例えば特許文献２（特開２０１２－００３３２６号公報）に記載されており、口唇動作ベース音声区間検出部１５６は、例えばこの特許文献２（特開２０１２－００３３２６号公報）に記載された処理を行なって発話区間を判定する。

　　［４．画像情報と音声情報を適用した音源方向、音声区間の決定処理シーケンスについて］
　次に、図９に示すフローチャートを参照して本開示の音声認識装置の実行する音源方向と音声区間の決定処理シーケンスについて説明する。
　この図９に示す処理は、図５に示す画像処理部１５０と音声処理部１６０を有する音声認識装置が実行する処理である。
　なお、この処理は、例えばプログラム実行機能を持つＣＰＵ等を有するデータ処理部の制御の下で図１２に示すフローに従った処理シーケンスを記録したプログラムをメモリから読み出して実行することが可能である。

　図９に示す処理フローに示す各ステップの処理について、順次説明する。
　（ステップＳ２０１）
　ステップＳ２０１、Ｓ２１１、Ｓ２２１、Ｓ２３１、これらの４つの処理は、並列に実行される。あるいは、短時間ごとのシーケンシャル処理として繰り返し実行される。
　まず、ステップＳ２０１において、画像入力部１１１から入力するカメラ撮影画像からの顔検出と顔識別処理を実行する。
　この処理は、図５に示す画像処理部１５０の顔領域検出部１５１と、顔識別部１５２の実行する処理である。
　顔領域検出部１５１は、予め登録された顔の特徴を示す形状データや輝度データからなる顔パターン情報に基づいて、画像中の顔領域を検出する。顔識別部１５２は、各ユーザの顔画像情報を格納したユーザ情報ＤＢ１５２ｂの登録情報と、撮影画像情報を比較して、画像フレーム中の顔領域の顔が、だれの顔であるかを識別する

　なお、画像入力部１１１から入力するカメラ撮影画像に複数の顔領域が含まれる場合は、それら複数の顔領域単位で顔識別処理を実行する。

　　（ステップＳ２０２）
　ステップＳ２０２では、ステップＳ２０１のカメラ撮影画像からの顔検出と顔識別処理に成功したか否かを判定する。
　顔識別処理に成功し、カメラ撮影画像に含まれる顔領域の顔が誰の顔かが特定できた場合は、ステップＳ２０３に進む。
　一方、顔識別処理に失敗し、カメラ撮影画像に含まれる顔領域の顔が誰の顔かが特定できなかった場合は、スタートに戻る。
　なお、画像入力部１１１から入力するカメラ撮影画像に複数の顔領域が含まれる場合は、１つでも顔識別に成功した場合は成功と判定する。

　　（ステップＳ２０３）
　ステップＳ２０２において、顔識別処理に成功し、カメラ撮影画像に含まれる顔領域の顔が誰の顔かが特定できたと判定した場合は、ステップＳ２０３に進む。

　ステップＳ２０３では、特定できたユーザ単位のユーザ対応キャラクタ画像を、画像出力部１２２を介して表示部に表示する。
　この処理は、図５に示す顔識別部１５２の出力情報である顔識別情報１７１を出力情報生成部１８０に出力することで実行される。
　出力情報生成部１８０の表示情報生成部１８２は、特定できたユーザ単位のユーザ対応キャラクタ画像を、画像出力部１２２を介して表示部に表示する。

　具体的な画像表示例について、図１０を参照して説明する。図１０には情報処理装置１０の画像出力部１２２によって表示される表示画像（プロジェクション画像）２５０を示している。図１０には以下の各状態における表示画像を示している。
　（１）初期状態
　（２）ステップＳ２０３の処理の実行状態
　（３）ステップＳ２１３の処理の実行状態

　（１）初期状態では、表示画像には何も表示されていない。
　（２）ステップＳ２０３の処理の実行状態では、キャラクタ画像２５１が表示されている。このキャラクタ画像２５１は、カメラ撮影画像から識別された識別ユーザ２５２に対応づけられたキャラクタの画像である。
　このキャラクタ対応付け処理は、予めユーザが実行することができる。
　あるいは、情報処理装置が、予め保持する複数のキャラクタ画像を識別ユーザ単位で自動的に対応付けて自動登録する構成としてもよい。登録情報は、情報処理装置１０の記憶部１９０に保持される。

　図に示す識別ユーザ２５２は、表示画像に自分に対応付けられたキャラクタ画像２５１が表示されたことで自分が情報処理装置１０によって検出され、かつ誰であるかの識別がなされたことを知ることができる。
　なお、図１０に示すキャラクタの表示処理は、出力情報生成部１８０の表示情報生成部１８２の制御によって行われる。
　（３）ステップＳ２１３の処理の実行状態の画像については、後段で説明する。

　なお、本実施例では、ユーザ対応のキャラクタ画像を表示する例として説明するが、表示画像は、キャラクタ画像に限らず、ユーザ対応画像であることが識別可能なユーザ対応特定画像であればよい。

　　（ステップＳ２１１）
　次に、図９に示すフローのステップＳ２１１の処理について説明する。
　ステップＳ２１１において、顔方向または視線方向を推定する。この処理は、図５に示す画像処理部１５０の顔方向推定部１５３と視線方向推定部１５４の実行する処理であり、図５に示す顔／視線方向情報１７２の生成処理に相当する。

　顔方向推定部１５３と視線方向推定部１５４は、例えば、顔領域に含まれる顔パーツの位置関係に基づいて顔の向きを判定し、顔の向きの方向を視線方向と判定する。
　これらの判定処理によって生成された顔方向または視線方向の少なくともいずれかの情報を含む顔／視線方向情報１７２が、音源方向・音声区間決定部１６３に出力される。

　　（ステップＳ２１２）
　ステップＳ２１１における顔方向または視線方向の推定が終了すると、次に、ステップＳ２１２において、ユーザの顔、または視線方向が、表示されたキャラクタ画像表示領域を向いているか否かを判定する。

　ユーザの顔、または視線方向が、表示画像中のキャラクタ画像表示領域を向いている場合、ステップＳ２１３に進む。
　一方、ユーザの顔、または視線方向が、表示画像のキャラクタ画像表示領域を向いていない場合、スタートに戻る。

　　（ステップＳ２１３）
　ステップＳ２１２において、ユーザの顔、または視線方向が、表示画像のキャラクタ画像表示領域を向いている場合、ステップＳ２１３に進む。
　ステップＳ２１３において、表示画像内のキャラクタ画像の表示態様を変更する処理を行う。
　この処理は、出力情報生成部１８０の表示情報生成部１８２の制御によって行われる。

　具体例について、図１０を参照して説明する。
　図１０（３）に示す画像が、ステップＳ２１３の処理の実行状態に対応する画像である。
　図１０（３）に示す表示画像には、図１０（２）に示すキャラクタ画像２５１の表示態様が変更された画像、すなわちキャラクタ画像の回りに円が追加されている。これはキャラクタ画像とユーザとの対話が可能であることを識別ユーザ２５２に示す画像であり、対話許容状態キャラクタ画像２５３である。

　識別ユーザ２５２は、図１０（２）に示すキャラクタ画像２５１の表示が、図１０（３）に示す対話許容状態キャラクタ画像２５３に変更されたことで、対話が可能な状態に移行したことを知ることができる。
　この表示変更は、具体的には、情報処理装置１０において、音声認識処理が実行可能な状態への移行完了と同期して実行される。

　　（ステップＳ２２１）
　次に、図９に示すフローのステップＳ２２１の処理について説明する。
　ステップＳ２２１において、口唇動作に基づく音源方向と音声区間の検出処理を行なう。
　この処理は、図５に示す画像処理部１５０の口唇動作ベース音声区間検出部１５６において実行される口唇動作ベース音声区間検出情報１７３の生成処理に相当する。

　先に説明したように、口唇動作ベース音声区間検出部１５６は、口唇領域の動きに基づいて、発話区間を推定する。すなわち、口の動きに基づいて、発話を開始した時間（音声区間開始時間）と、発話を終了した時間（音声区間終了時間）を判定する。この判定情報を、口唇動作ベース音声区間検出情報１７３として、音源方向・音声区間決定部１６３に出力する。また、音源方向については、口唇動作を検出したユーザの顔画像の顔の向きや、口領域の位置等に基づいて決定する。例えば顔の向きや、口の方向を音源方向と判定する。

　　（ステップＳ２３１）
　ステップＳ２３１では、音声情報に基づく音源方向と音声区間の検出処理を行なう。
　この処理は、図５に示す音声処理部１６０の音源方向推定部１６１と、音声区間検出部１６２の実行する処理であり、先に図６～図８を参照して説明した音声のみに基づく音源方向と音声区間の検出処理に相当する。

　先に図６を参照して説明したように、異なる位置に配置した複数のマイクロフォン１～４からなるマイクロフォン・アレイ２０１により、音源２０２からの音を取得する。各マイクロフォンは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなり、各マイクロフォンの取得した音声信号の位相差を解析することで、音源方向を求める。

　音声区間検出部１６２は、音源方向推定部１６１によって推定された特定の音源方向からの音声開始時間と音声終了時間を判定する。この処理に際しては、マイクロフォン・アレイを構成する複数のマイクロフォンの取得音の位相を揃えて各観測信号を総和する処理を行なう。音声区間検出部１６２は、このように複数のマイクロフォンの観測信号の加算信号を用いて、音声レベルの立ち上がり位置を音声区間開始時間と判定し、音声レベルの立下り位置を音声区間終了時間とする音声区間判定処理を行なう。

　　（ステップＳ２４１）
　ステップＳ２４１では、音源方向と音声区間が決定されたか否かを判定する。
　この処理は、図５に示す音声処理部１６０の音源方向・音声区間決定部１６３が実行する処理である。

　音源方向・音声区間決定部１６３は、ステップＳ２１２において、ユーザがキャラクタ画像を見ていることが確認された場合に、音源方向と音声区間が決定できるか否かの判定処理を実行する。
　すなわち、ユーザがキャラクタ画像を見ている場合にのみ、音源方向と音声区間の決定処理を行い、その後、決定した音源方向と音声区間の音声に対する音声認識処理を実行する。ユーザがキャラクタ画像を見ていない場合には、音源方向と音声区間の決定処理を行わず、その後の音声認識処理も実行しない。

　ユーザがキャラクタ画像を見ていることが確認された場合、音源方向・音声区間決定部１６３は、ステップＳ２２１における口唇動作からの音源方向と音声区間の検出結果と、ステップＳ２３１における音声に基づく音源方向と音声区間の検出結果、これら２つの検出結果を用いて、音源方向と音声区間を決定することができるか否かを判定する。

　ステップＳ２２１では、画像情報（口唇動作）から音源方向と音声区間の検出を行うが、音源方向と音声区間のいずれか一方のみの検出に成功する場合がある。
　同様に、ステップＳ２３１でも、音声情報から音源方向と音声区間の検出を行うが、音源方向と音声区間のいずれか一方のみの検出に成功する場合がある。
　音源方向・音声区間決定部１６３は、ステップＳ２４１において、これらステップＳ２２１と、ステップＳ２３１における検出結果を組み合わせて、音源方向と音声区間が決定できるか否かを検証して、決定できる場合は決定する。

　ステップＳ２２１と、ステップＳ２３１における検出結果を組み合わせて、音源方向と音声区間が決定した場合は、このフローに従った処理、すなわち、音源方向と音声区間の決定処理は終了する。
　ステップＳ２２１と、ステップＳ２３１における検出結果を組み合わせても、音源方向と音声区間が決定できないと判定した場合は、スタートに戻り、処理を繰り返す。

　このステップＳ２４１において、音源方向・音声区間決定部１６３が音源方向と音声区間を決定した場合に限り、続いて音源抽出部１６４における音源抽出処理と、音声認識部１６５における音声認識処理が行われる。
　これらの処理は、音源方向・音声区間決定部１６３が決定した音源方向と音声区間の音声に対する処理として実行される。

　音源抽出部１６４は、音源方向・音声区間決定部１６３が決定した音源方向と、音声区間情報に基づいて選択された音声信号を解析対象として周波数レベルの変化等を解析する処理であり、音声認識処理において従来から行われている処理である。
　次に、音声認識部１３５は、予め登録された様々な発話における周波数変化パターンを登録した辞書データを利用し、音源抽出部１６４が取得音に基づいて解析した取得音の周波数変化パターン等を辞書データと照合し、一致度の高い辞書登録データを選択する。音声認識部１６５は、選択した辞書データに登録された言葉を発話内容として判定する。

　上述したように、本開示の情報処理装置１０は、ユーザがキャラクタ画像を見ていることが確認された場合に、音源方向・音声区間決定部１６３における音源方向・音声区間決定処理が実行され、決定した音源方向と音声区間の音声に対する音声認識が行われる。
　すなわち、ユーザと情報処理装置１０間の対話は、ユーザと、表示部に表示されるキャラクタ画像との対話を行うように実行される。

　具体例を図１１に示す。
　図１１には、先に図１０（３）を参照して説明したと同様の表示画像を示している。
　表示画像には、識別ユーザ２５２が見ている対話許容状態キャラクタ画像２５３が表示されている。
　表示されるキャラクタ画像は、識別ユーザ２５２に対応して予め規定されたユーザ対応のキャラクタ画像である。また、識別ユーザ２５２がキャラクタ画像を見ていることが検出されている間は、キャラクタ画像とユーザとの対話が可能であることを示す表示態様（図に示す例ではキャラクタの周囲に円を表示）に設定されたキャラクタ画像が表示される。

　識別ユーザ２５２は、対話許容状態キャラクタ画像２５３を見て、キャラクタ画像とユーザとの対話が可能であることを知り、発話を実行する。例えば以下のユーザ発話を実行する。
　ユーザ発話＝「明日の天気を教えて」
　情報処理装置１０は、このユーザ発話に対する音声認識結果に基づく応答、例えば天気情報提供アプリケーションの実行によって得られた天気情報を表示する処理や、天気情報の音声出力等を実行する。

　なお、前述したように、表示部に表示されるキャラクタ画像は、各ユーザに予め対応付けられたキャラクタ画像であり、複数の登録ユーザが存在する場合、各登録ユーザに異なるキャラクタ画像が対応付けられる。

　図１２に複数の登録ユーザが存在する場合の表示例を示す。図１２には、情報処理装置１０によって識別された２人のユーザ、識別ユーザＡ２６１、識別ユーザＢ２７１がいる例である。
　この場合、表示部には、各ユーザ対応のキャラクタ画像が表示される。

　図１２に示す例は、識別ユーザＡが、ユーザＡに対応付けられたキャラクタ画像を見ている状態であり、識別ユーザＢは、ユーザＢに対応付けられたキャラクタ画像を見ていない状態である。
　この場合、ユーザＡに対応付けられたキャラクタ画像は、識別ユーザＡ対応対話許容状態キャラクタ画像２６２として表示される。一方、ユーザＢに対応付けられたキャラクタ画像は、識別ユーザＢ対応キャラクタ画像２７２として表示される。

　このように、本開示の情報処理装置１０は、情報処理装置１０によって識別されたユーザが、表示情報として表示されたキャラクタ画像を見ている場合に、その識別ユーザを音源方向と決定し、その音源方向からの音声に絞り込んだ音声認識を実行する構成としたので、他の方向からのノイズを効率的に排除し、高精度な音声認識を行うことが可能となる。

　また、ユーザも表示情報として表示されたキャラクタ画像との対話を行う形で、情報処理装置１０との対話を行うことが可能となり、実世界に近いスタイルで自然な対話を行うことが可能となる。

　　［５．音声と画像の双方から得られた音源方向と音声区間の各情報を用いた処理例について］
　図９に示すフローチャートを参照して説明した処理では、ステップＳ２４１において、以下の処理を実行していた。
　ステップＳ２２１の画像情報（口唇動作）からの音源方向と音声区間の検出処理結果と、ステップＳ２３１の音声情報からの音源方向と音声区間の検出処理結果を組み合わせて、音源方向と音声区間が決定できるか否かを検証し、決定できる場合は決定するという処理を行っていた。

　図１２に示すフローにおいては、このステップＳ２４１の処理の前に、ステップＳ２４０の処理を実行する。ステップＳ２４０の処理について説明する。

　　（ステップＳ２４０）
　ステップＳ２４０では、音声認識処理に利用する最終的な音源方向と音声区間の決定処理を実行する。この処理は、図５に示す音声処理部１６０の音源方向・音声区間決定部１６３が実行する処理である。

　音源方向・音声区間決定部１６３は、以下の条件が満足された場合に、音源方向と音声区間の決定処理を実行する。
　（条件１）ステップＳ２１２において、ユーザがキャラクタ画像を見ていることが確認された。
　（条件２）ステップＳ２２１における口唇動作からの音源方向と音声区間の検出結果と、ステップＳ２３１における音声に基づく音源方向と音声区間の検出結果、これらの検出結果が入力された。
　これら２つの条件が満足された場合に、音源方向・音声区間決定部１６３は、ステップＳ２２１における口唇動作からの音源方向と音声区間の検出結果と、ステップＳ２３１における音声に基づく音源方向と音声区間の検出結果、これら２つの検出結果を用いて、音源方向と音声区間を決定する。

　この決定処理においては、例えば、２つの検出結果のうちいずれかを選択、あるいは２つの検出結果の中間値、または平均値を採用、あるいは、予め規定した重みを用いた重み付け平均を算出する等の処理が可能である。なお、この決定処理に機械学習を用いる構成としてもよい。

　このステップＳ２４０において実行する最終的な音声区間の決定処理の具体例について、図１４を参照して説明する。
　図１４には、以下の各図を示している。
　（Ａ）音声から取得される音声区間
　（Ｂ）画像（口唇動作）から得られる音声区間
　（Ｃ）最終的な音声区間

　図１４（Ａ）に示す音声から得られた音声区間では、周囲の環境音（例えば、テレビの音や、掃除機による音等）に影響されて、ユーザ発話に対応した実際の音声を含めて、それよりも時間的に長めの音声区間が抽出されている。
　この音声から得られた音声区間に対して、図１４（Ｂ）に示す画像（口唇動作）から得られた音声区間は、音声から得られた音声区間に含まれ、且つそれよりも短い区間となっている。
　このような場合、音声ベースの音声区間検出情報と、画像ベースの音声区間情報から、より短い音声区間情報を選択して、これを最終的に決定された音声区間（図１４（Ｃ））とする。

　図１５は、ステップＳ２４０において実行する最終的な音源方向の決定処理の具体例について説明する図である。
　図１５には、図１５（Ａ）として情報処理装置１０の画像入力部（カメラ）１１１の撮影画像を示している。
　さらに、図１５（Ｂ）として、情報処理装置１０と、音源となるユーザの位置関係を示す上から見た図を示している。

　（Ａ）カメラ画像から顔領域が検出されており、画像処理部１５０は、この顔領域の画像や口唇領域画像に基づいて音源方向を検出する。
　この画像の解析処理によって得られる音源方向を示すベクトルが、図１５（Ｂ）のベクトルＶである。

　一方、音声処理部１６０の音源方向推定部１６１は、先に図６を参照して説明したように、異なる位置に配置した複数のマイクロフォン１～４からなるマイクロフォン・アレイ２０１により、音源２０２からの音を取得する。各マイクロフォンは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなり、各マイクロフォンの取得した音声信号の位相差を解析することで、音源方向を求める。
　この音声の解析処理によって得られる音源方向を示すベクトルが、図１５（Ｂ）のベクトルＡである。

　音声から得られる音源方向は、マイクロフォン・アレイを利用した方向推定技術の性能に依存することになり、画像から得られる音源方向（位置情報）に比べて、方向解像度や推定性能の面で必ずしも十分ではない場合がある。
　図１５に示す例では、画像から得られる音源方向（位置情報）と比較して、音声から得られた音源方向が推定性能的に若干誤っている（ずれている）場合を示している。
　このように、画像から得られる音源方向と、音声から得られる音源方向に差がある場合は、画像から得られる音源方向を最終的な音源方向として決定する。

　図５に示す音声処理部１６０の音源方向・音声区間決定部１６３は、
　ステップＳ２２１における口唇動作からの音源方向と音声区間の検出結果と、
　ステップＳ２３１における音声に基づく音源方向と音声区間の検出結果、
　これらの２種類の検出結果が入力された場合、
　図１４、図１５を参照して説明した処理により、最終的な音源方向と音声区間を決定する。
　図１２に示すフローのステップＳ２４０では、このような処理を実行する。

　ステップＳ２４０における最終的な音源方向と音声区間の決定処理の後、ステップＳ２４１に進む。
　ステップＳ２４１では、音源方向と音声区間が決定されたか否かを判定し、決定された場合に限り、続いて音源抽出部１６４における音源抽出処理と、音声認識部１６５における音声認識処理が行われる。

　上述したように、本開示の情報処理装置１０は、ユーザがキャラクタ画像を見ていることが確認された場合に、音源方向・音声区間決定部１６３における音源方向・音声区間決定処理が実行され、この決定情報に対応する音声データを抽出して音声認識を行う。この処理により、ユーザ発話を選択的に抽出した高精度な音声認識が実現される。
　さらに、ユーザと情報処理装置１０間の対話は、ユーザと、表示部に表示されるキャラクタ画像との対話を行うように実行される。

　　［６．情報処理装置の周囲に複数の発話者がいる環境での処理例について］
　次に、情報処理装置の周囲に複数の発話者がいる環境での処理例について説明する。
　図１６、図１７を参照して、情報処理装置１０の周囲に複数の発話者がいる環境での処理例について説明する。

　図１６、図１７には、時間ｔ１～ｔ４の時系列順の状態を示している。
　まず、図１６（１）時間ｔ１の状態は、情報処理装置１０の画像処理部１５０の顔識別部１５２の処理によってユーザＡ３０１、ユーザＢ３０２の識別が実行され、表示部に各ユーザ対応のキャラクタ画像、すなわち、ユーザＡ対応キャラクタ画像３１１、ユーザＢ対応キャラクタ画像３１２が表示された状態を示している。
　この状態で、ユーザＡ３０１とユーザＢ３０２は以下の会話を行っている。
　ユーザＡからユーザＢに対する発話＝明日の日曜、ピクニックに行こうか
　ユーザＢからユーザＡに対する発話＝明日は天気、大丈夫？

　次に、図１６（２）時間ｔ２において、ユーザＡ３０１が、表示情報として表示されたユーザＡ対応キャラクタ画像３１１に対して以下の問いかけを行っている
　ユーザＡ発話＝明日の天気を教えて
　情報処理装置１０は、このユーザ発話の音声認識を行い、音声認識結果に基づいて、天気予報情報を表示する処理を行う。
　なお、ユーザＡ対応キャラクタ画像３１１は、ユーザＡが見ていることの検出に応じて、表示態様が変更（周囲にサークルを描画）されている。
　ユーザＢ３０２は、表示された天気予報情報を見て、ユーザＡ３０１に対して以下の発話を行っている。
　ユーザＢからユーザＡに対する発話＝残念、明日は雨だね？

　次に、図１７（３）時間ｔ３の状態は、ユーザＡ３０１がユーザＡ対応キャラクタ画像３１１から目をそらしてユーザＢ３０２を見て会話を行っている状態である。
　なお、ユーザＡ対応キャラクタ画像３１１は、ユーザＡが見ていないことの検出に応じて、表示態様が変更（周囲のサークルを削除）されている。
　この状態で、ユーザＡ３０１とユーザＢ３０２は以下の会話を行っている。
　ユーザＡからユーザＢに対する発話＝じゃあ、別の日はどう
　ユーザＢからユーザＡに対する発話＝いつが空いてたかなあ？

　次に、図１７（４）時間ｔ４において、ユーザＢ３０２が、表示情報として表示されたユーザＢ対応キャラクタ画像３１２に対して以下の問いかけを行っている
　ユーザＢ発話＝今月の予定を見せて
　情報処理装置１０は、このユーザ発話の音声認識を行い、音声認識結果に基づいて、カレンダー情報を表示する処理を行う。
　なお、ユーザＢ対応キャラクタ画像３１２は、ユーザＢが見ていることの検出に応じて、表示態様が変更（周囲にサークルを描画）されている。

　図１６（１）や図１７（３）の状態は、ユ－ザＡ，Ｂ間で普通の会話を行っており、その際には、各ユーザは、キャラクタ画像を見つめずに発話を行っている。この場合、情報処理装置１０は、これらのユーザ発話を音声認識対象としない。
　すなわち、これらの状態は、例えば図９のフローのステップＳ２１２の判定がＮｏとなり、音源方向、音声区間の決定処理が実行されず、その後の音声認識処理も実行されない状態である。

　一方、図１６（２）や図１７（４）の状態では、ユーザが画面内の各ユーザ対応キャラクタ画像を見ながら発話を行っており、この場合、情報処理装置１０は、これらのユーザ発話を音声認識対象として音声認識を行い、その認識結果に応じた処理を実行する。
　これらの状態は、例えば図９のフローのステップＳ２１２の判定がＹｅｓとなり、音源方向、音声区間の決定処理が実行され、その後の音声認識処理が実行される状態に想到する。

　このように本開示の情報処理装置は、ユーザ間の発話と、ユーザが情報処理装置に向けて行った発話（＝キャラクタ画像を見て実行した発話）を明確に区別して、処理を行うことができる。

　なお、上述した実施例では、ユーザがユーザに対応付けられたキャラクタ画像領域を見ている場合に限り、情報処理装置が音声認識を実行するという実施例を説明したが、例えば、その他、以下のような設定としてもよい。
　（１）ユーザが表示画像領域全体のいずれかの領域を見ている場合に、情報処理装置１０が音声認識を実行する。
　（２）ユーザが表示領域全体のいずれかの領域、あるいは情報処理装置１０を見ている場合に、情報処理装置１０が音声認識を実行する。

　なお、この設定は、情報処理装置１０において実行するアプリケーション単位で切り替える構成としてもよいし、ユーザが自由に設定できる構成としてもよい。

　　［７．情報処理装置、および情報処理システムの構成例について］
　本開示の情報処理装置１０の実行する処理について説明したが、図３に示す情報処理装置１０の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやＰＣ等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。

　図１８にシステム構成例を示す。
　図１８（１）情報処理システム構成例１は、図３に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやＰＣ、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置４１０内に構成した例である。
　ユーザ端末に相当する情報処理装置４１０は、例えば応答文生成時に外部サービスを利用する場合にのみ、サービス提供サーバ４２０と通信を実行する。

　サービス提供サーバ４２０は、例えば音楽提供サーバ、映画等のコンテンツ提供サーバ、ゲームサーバ、天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する処理の実行や応答生成に必要となる情報を提供可能なサーバ群によって構成される。

　一方、図１８（２）情報処理システム構成例２は、図３に示す情報処理装置の機能の一部をユーザの所有するスマホやＰＣ、エージェント機器等のユーザ端末である情報処理装置４１０内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ４６０において実行する構成としたシステム例である。

　例えば、図３に示す装置中の入力部１１０、出力部１２０のみをユーザ端末側の情報処理装置４１０側に設け、その他の機能をすべてサーバ側で実行するといった構成等が可能である。
　なお、ユーザ端末側の機能と、サーバ側の機能の機能分割態様は、様々な異なる設定が可能であり、また、１つの機能を双方で実行する構成も可能である。

　　［８．情報処理装置のハードウェア構成例について］
　次に、図１９を参照して、情報処理装置のハードウェア構成例について説明する。
　図１９を参照して説明するハードウェアは、先に図３を参照して説明した情報処理装置のハードウェア構成例であり、また、図１８を参照して説明したデータ処理サーバ４６０を構成する情報処理装置のハードウェア構成の一例である。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）５０２、または記憶部５０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）５０３には、ＣＰＵ５０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４により相互に接続されている。

　ＣＰＵ５０１はバス５０４を介して入出力インタフェース５０５に接続され、入出力インタフェース５０５には、各種スイッチ、キーボード、マウス、マイクロフォン、センサーなどよりなる入力部５０６、ディスプレイ、スピーカーなどよりなる出力部５０７が接続されている。ＣＰＵ５０１は、入力部５０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部５０７に出力する。

　入出力インタフェース５０５に接続されている記憶部５０８は、例えばハードディスク等からなり、ＣＰＵ５０１が実行するプログラムや各種のデータを記憶する。通信部５０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース５０５に接続されているドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア５１１を駆動し、データの記録あるいは読み取りを実行する。

　　［９．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
　前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
　前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
　前記音源方向・音声区間決定部は、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理装置。

　（２）　前記音声認識部は、
　前記ユーザ発話を実行したユーザが前記特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音声認識処理を実行する（１）に記載の情報処理装置。

　（３）　前記情報処理装置は、
　カメラ撮影画像を入力し、入力画像に基づいてユーザが前記特定領域を見ているか否かを判定する画像処理部を有する（１）または（２）に記載の情報処理装置。

　（４）　前記情報処理装置は、
　カメラ撮影画像を入力し、入力画像に基づいて撮影画像に含まれるユーザの識別処理を実行する画像処理部と、
　前記画像処理部において識別されたユーザ対応の画像を前記特定領域に表示する表示情報生成部を有する（１）～（３）いずれかに記載の情報処理装置。

　（５）　前記表示情報生成部は、
　前記特定領域に表示するユーザ対応画像を、前記ユーザが前記特定領域を見ているか否かに応じて変更する（４）に記載の情報処理装置。

　（６）　前記特定領域は、
　前記情報処理装置の出力画像に含まれるキャラクタ画像領域である（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記キャラクタ画像領域に表示されるキャラクタ画像は、各ユーザ対応のキャラクタ画像である（６）に記載の情報処理装置。

　（８）　前記特定領域は、
　前記情報処理装置の出力画像の画像領域である（１）～（５）いずれかに記載の情報処理装置。

　（９）　前記特定領域は、
　前記情報処理装置の装置領域である（１）～（５）いずれかに記載の情報処理装置。

　（１０）　前記音源方向・音声区間決定部は、
　入力音声に基づく音源方向と音声区間の検出結果と、
　入力画像に基づく音源方向と音声区間の検出結果の２つの検出結果を入力して、前記ユーザ発話の音源方向と音声区間を決定する（１）～（９）いずれかに記載の情報処理装置。

　（１１）　入力音声に基づく音源方向と音声区間の検出結果は、マイクロフォン・アレイによって取得された音声信号の解析結果から得られる情報である（１０）に記載の情報処理装置。

　（１２）　入力画像に基づく音源方向と音声区間の検出結果は、カメラ撮影画像に含まれるユーザの顔方向と、口唇動作の解析結果から得られる情報である（１０）または（１０）に記載の情報処理装置。

　（１３）　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部と、
　ユーザ画像を入力する画像入力部を有し、
　前記データ処理サーバは、
　前記ユーザ端末から受信する前記ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
　前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
　前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
　前記音源方向・音声区間決定部は、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理システム。

　（１４）　情報処理装置において実行する情報処理方法であり、
　音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
　音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップは、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行するステップである情報処理方法。

　（１５）　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末において、
　ユーザ発話を入力する音声入力処理と、
　ユーザ画像を入力する画像入力処理を実行し、
　前記データ処理サーバにおいて、
　音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
　音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
　前記データ処理サーバは、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行する情報処理方法。

　（１６）　情報処理装置において情報処理を実行させるプログラムであり、
　音源方向・音声区間決定部に、ユーザ発話の音源方向と音声区間を決定する処理を実行させる音源方向・音声区間決定ステップと、
　音声認識部に、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行させる音声認識ステップを実行させ、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。
　具体的には、例えば、ユーザ発話に対する音声認識処理を実行する音声処理部を有し、音声処理部は、ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有する。音源方向・音声区間決定部、および音声認識部は、ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、ユーザ発話に対する音源方向と音声区間の決定処理と音声認識処理を実行する。
　これらの構成により、画像と音声を適用した音源方向と音声区間の解析に基づく精度の高い音声認識処理が実現される。

　　１０　情報処理装置
　　１１　カメラ
　　１２　マイク
　　１３　表示部
　　１４　スピーカー
　　２０　サーバ
　　３０　外部機器
　１１０　入力部
　１１１　音声入力部
　１１２　画像入力部
　１２０　出力部
　１２１　音声出力部
　１２２　画像出力部
　１３０　データ処理部
　１４０　入力データ解析部
　１５０　画像処理部
　１６０　音声処理部
　１５１　顔領域検出部
　１５２　顔識別部
　１５３　顔方向推定部
　１５４　視線方向推定部
　１５５　口唇領域検出部
　１６１　音源方向推定部
　１６２　音声区間検出部
　１６３　音源方向・音声区間決定部
　１６４　音源抽出部
　１６５　音声認識部
　１７１　顔識別情報
　１７２　顔／視線方向情報
　１７３　口唇動作ベース音声区間検出情報
　１８０　出力情報生成部
　１８１　出力音声生成部
　１８２　表示情報生成部
　１９０　記憶部
　４１０　情報処理装置
　４２０　サービス提供サーバ
　４６０　データ処理サーバ
　５０１　ＣＰＵ
　５０２　ＲＯＭ
　５０３　ＲＡＭ
　５０４　バス
　５０５　入出力インタフェース
　５０６　入力部
　５０７　出力部
　５０８　記憶部
　５０９　通信部
　５１０　ドライブ
　５１１　リムーバブルメディア

Claims

　ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
　前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
　前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
　前記音源方向・音声区間決定部は、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理装置。
　前記音声認識部は、
　前記ユーザ発話を実行したユーザが前記特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音声認識処理を実行する請求項１に記載の情報処理装置。
　前記情報処理装置は、
　カメラ撮影画像を入力し、入力画像に基づいてユーザが前記特定領域を見ているか否かを判定する画像処理部を有する請求項１に記載の情報処理装置。
　前記情報処理装置は、
　カメラ撮影画像を入力し、入力画像に基づいて撮影画像に含まれるユーザの識別処理を実行する画像処理部と、
　前記画像処理部において識別されたユーザ対応の画像を前記特定領域に表示する表示情報生成部を有する請求項１に記載の情報処理装置。
　前記表示情報生成部は、
　前記特定領域に表示するユーザ対応画像を、前記ユーザが前記特定領域を見ているか否かに応じて変更する請求項４に記載の情報処理装置。
　前記特定領域は、
　前記情報処理装置の出力画像に含まれるキャラクタ画像領域である請求項１に記載の情報処理装置。
　前記キャラクタ画像領域に表示されるキャラクタ画像は、各ユーザ対応のキャラクタ画像である請求項６に記載の情報処理装置。
　前記特定領域は、
　前記情報処理装置の出力画像の画像領域である請求項１に記載の情報処理装置。
　前記特定領域は、
　前記情報処理装置の装置領域である請求項１に記載の情報処理装置。
　前記音源方向・音声区間決定部は、
　入力音声に基づく音源方向と音声区間の検出結果と、
　入力画像に基づく音源方向と音声区間の検出結果の２つの検出結果を入力して、前記ユーザ発話の音源方向と音声区間を決定する請求項１に記載の情報処理装置。
　入力音声に基づく音源方向と音声区間の検出結果は、マイクロフォン・アレイによって取得された音声信号の解析結果から得られる情報である請求項１０に記載の情報処理装置。
　入力画像に基づく音源方向と音声区間の検出結果は、カメラ撮影画像に含まれるユーザの顔方向と、口唇動作の解析結果から得られる情報である請求項１０に記載の情報処理装置。
　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部と、
　ユーザ画像を入力する画像入力部を有し、
　前記データ処理サーバは、
　前記ユーザ端末から受信する前記ユーザ発話に対する音声認識処理を実行する音声処理部を有し、
　前記音声処理部は、前記ユーザ発話の音源方向と音声区間を決定する音源方向・音声区間決定部と、
　前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識部を有し、
　前記音源方向・音声区間決定部は、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として、前記ユーザ発話に対する音源方向と音声区間の決定処理を実行する情報処理システム。
　情報処理装置において実行する情報処理方法であり、
　音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
　音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップは、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行するステップである情報処理方法。
　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末において、
　ユーザ発話を入力する音声入力処理と、
　ユーザ画像を入力する画像入力処理を実行し、
　前記データ処理サーバにおいて、
　音源方向・音声区間決定部が、ユーザ発話の音源方向と音声区間を決定する処理を実行する音源方向・音声区間決定ステップと、
　音声認識部が、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行する音声認識ステップを実行し、
　前記データ処理サーバは、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　音源方向・音声区間決定部に、ユーザ発話の音源方向と音声区間を決定する処理を実行させる音源方向・音声区間決定ステップと、
　音声認識部に、前記音源方向・音声区間決定部の決定した音源方向と音声区間の音声データを対象とした音声認識処理を実行させる音声認識ステップを実行させ、
　前記音源方向・音声区間決定ステップ、および前記音声認識ステップを、
　前記ユーザ発話を実行したユーザが予め規定した特定領域を見ていると判定されたことを条件として実行させるプログラム。