WO2016088410A1

WO2016088410A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2016088410A1
Application number: PCT/JP2015/073488
Authority: WO
Inventors: 祐平滝; 真一河野; 邦仁澤井
Original assignee: ソニー株式会社
Priority date: 2014-12-02
Filing date: 2015-08-21
Publication date: 2016-06-09
Also published as: EP3229128A4; US20180150279A1; US10642575B2; CN107148614B; JPWO2016088410A1; CN107148614A; JP6627775B2; EP3229128A1

Abstract

　音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術を提供する。　入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させる、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　近年、ユーザによって発せられた音声を入力音声として受け付け、入力音声に対して音声認識を行うことによって入力音声から文字列を認識する技術が存在する。例えば、入力音声に対して音声認識を行うモードが開始されたことをユーザに把握させる技術が開示されている（例えば、特許文献１参照）。

特開２０１３－２５６０５号公報

　しかし、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術が提供されることが望まれる。

　本開示によれば、入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させる、情報処理装置が提供される。

　本開示によれば、入力音声に基づいてユーザ発話音量を判定することと、表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させることを含む、情報処理方法が提供される。

　本開示によれば、コンピュータを、入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させる、情報処理装置として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理システムの機能構成例を示すブロック図である。表示部によって表示される画面の例を示す図である。第１の動きオブジェクトの表示開始を説明するための図である。認識可能音量について説明するための図である。認識可能音量について説明するための図である。認識可能音量について説明するための図である。表示部によって表示される画面の他の例を示す図である。第２の動きオブジェクトの表示開始を説明するための図である情報処理システムの動作の流れの例を示すフローチャートである。情報処理システムの動作の流れの例を示すフローチャートである。表示部による表示形態の変形例１を示す図である。表示部による表示形態の変形例２を示す図である。表示部による表示形態の変形例３を示す図である。表示部による表示形態の変形例４を示す図である。表示部による表示形態の変形例５を示す図である。情報処理システムのハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の実施形態
　　１．１．システム構成例
　　１．２．機能構成例
　　１．３．第１の動きオブジェクトの表示
　　１．４．認識可能音量の設定
　　１．５．第２の動きオブジェクトの表示
　　１．６．動作例
　　１．７．表示形態の変形例
　　１．８．ハードウェア構成例
　２．むすび

　＜１．本開示の実施形態＞
　［１．１．システム構成例］
　まず、図面を参照しながら本開示の実施形態に係る情報処理システム１０の構成例について説明する。図１は、本開示の実施形態に係る情報処理システム１０の構成例を示す図である。図１に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、音声入力部１２０と、表示部１３０とを備える。情報処理システム１０は、ユーザＵ（以下、単に「ユーザ」とも言う。）によって発せられた音声に対して音声認識を行うことが可能である。

　画像入力部１１０は、画像を入力する機能を有する。図１に示した例では、画像入力部１１０は、テーブルＴｂｌに埋め込まれた２つのカメラを含んでいる。しかし、画像入力部１１０に含まれるカメラの数は１以上であれば特に限定されない。かかる場合、画像入力部１１０に含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

　操作入力部１１５は、ユーザＵの操作を入力する機能を有する。図１に示した例では、操作入力部１１５は、テーブルＴｂｌの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作入力部１１５に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部１１５はユーザＵの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

　表示部１３０は、テーブルＴｂｌに画面を表示する機能を有する。図１に示した例では、表示部１３０は、テーブルＴｂｌの上方に天井から吊り下げられている。しかし、表示部１３０が設けられる位置は特に限定されない。また、典型的には、表示部１３０は、テーブルＴｂｌの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

　なお、本明細書では、テーブルＴｂｌの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、表示部１３０が表示面を有する場合には、画面の表示面は、表示部１３０が有する表示面であってもよい。

　音声入力部１２０は、音声を入力する機能を有する。図１に示した例では、音声入力部１２０は、テーブルＴｂｌの上方に存在する３つのマイクとテーブルＴｂｌの上面に存在する３つのマイクとの合計６つのマイクを含んでいる。しかし、音声入力部１２０に含まれるマイクの数は１以上であれば特に限定されない。かかる場合、音声入力部１２０に含まれる１以上のマイクそれぞれが設けられる位置も特に限定されない。ただし、音声入力部１２０が、複数のマイクを含んでいれば、複数のマイクそれぞれに入力された音声に基づいて音源方向が推定され得る。また、音声入力部１２０が指向性を有するマイクを含んでいれば、指向性を有するマイクに入力された音声に基づいて音源方向が推定され得る。

　以上、本開示の実施形態に係る情報処理システム１０の構成例について説明した。

　［１．２．機能構成例］
　続いて、本開示の実施形態に係る情報処理システム１０の機能構成例について説明する。図２は、本開示の実施形態に係る情報処理システム１０の機能構成例を示すブロック図である。図２に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、音声入力部１２０と、表示部１３０と、情報処理装置１４０（以下、「制御部１４０」とも言う。）と、を備える。

　情報処理装置１４０は、情報処理システム１０の各部の制御を実行する。例えば、情報処理装置１４０は、表示部１３０から出力する情報を生成する。また、例えば、情報処理装置１４０は、画像入力部１１０、操作入力部１１５および音声入力部１２０それぞれが入力した情報を、表示部１３０から出力する情報に反映させる。図２に示したように、情報処理装置１４０は、入力画像取得部１４１と、入力音声取得部１４２と、操作検出部１４３と、判定部１４４と、音声認識部１４５と、表示制御部１４６とを備える。これらの各機能ブロックについての詳細は、後に説明する。

　なお、情報処理装置１４０は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

　以上、本開示の実施形態に係る情報処理システム１０の機能構成例について説明した。

　［１．３．第１の動きオブジェクトの表示］
　まず、音声認識開始オブジェクト（不図示）を選択する操作が操作検出部１４３によって検出されると、音声認識部１４５によって入力音声に対する音声認識が開始される。図３は、表示部１３０によって表示される画面の例を示す図である。図３を参照すると、表示制御部１４６は、音声認識キャンセル操作オブジェクトＢｕ１と音声認識終了操作オブジェクトＢｕ２と表示オブジェクトＳｂとを表示させている。音声認識キャンセル操作オブジェクトＢｕ１は、音声認識を取り消す操作の入力を受け付けるためのオブジェクトである。音声認識終了操作オブジェクトＢｕ２は、音声認識を終了する操作の入力を受け付けるためのオブジェクトである。

　表示オブジェクトＳｂは、ユーザに視認可能なオブジェクトであれば特に限定されない。例えば、表示オブジェクトＳｂは、静止しているオブジェクトであってもよいし、動きのあるオブジェクトであってもよい。音声認識が開始されると、判定部１４４は、入力音声に基づいてユーザＵによる発話音量を判定する。ここで、ユーザ発話音量の判定手法は特に限定されない。例えば、判定部１４４は、ユーザによる発話音声の音源方向Ｄｕを推定し、ユーザによる発話音声の音源方向Ｄｕから入力される音量をユーザ発話音量として判定してよい。なお、ユーザによる発話音声の音源方向Ｄｕの推定手法も特に限定されない。

　例えば、判定部１４４は、音声入力部１２０によって閾値を超える大きさの音量で入力された音声の到来方向をユーザによる発話音声の音源方向Ｄｕとして推定してもよい。また、判定部１４４は、閾値を超える大きさの音量で入力された音声の到来方向が複数あった場合には、複数の到来方向のうち最初に閾値を超える大きさの音量で入力された音声の到来方向をユーザによる発話音声の音源方向Ｄｕとして推定してもよいし、複数の到来方向のうち音声による音声認識開始オブジェクト（不図示）を選択する操作を行ったユーザの指方向（例えば、指先から指の根元への方向）に一致または類似する１の到来方向をユーザによる発話音声の音源方向Ｄｕとして推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

　また、例えば、判定部１４４は、音声入力部１２０によって最も大きな音量で入力された音声の到来方向をユーザによる発話音声の音源方向Ｄｕとして推定してもよい。あるいは、判定部１４４は、音声認識開始オブジェクト（不図示）を選択する操作を行ったユーザの指方向に一致または類似する１の到来方向をユーザによる発話音声の音源方向Ｄｕとして推定してもよい。このとき、判定部１４４は、ユーザによる発話音声の音源方向以外の方向から音声入力部１２０に入力された音声をノイズとして判定し、ユーザによる発話音声の音源方向Ｄｕ以外の方向から音声入力部１２０に入力された音量をノイズ音量として判定してよい。

　そして、表示制御部１４６は、音声認識部１４５による音声認識が可能な音量（以下、「認識可能音量」とも言う。）をユーザ発話音量が超えている場合に、表示オブジェクトＳｂに向かって移動する第１の動きオブジェクトＭｕを表示部１３０に表示させればよい。そうすれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能となる。また、表示制御部１４６は、ユーザによる発話音声の音源方向Ｄｕに基づいて第１の動きオブジェクトＭｕを表示部１３０に表示させてもよい。そうすれば、自分自身の発話音量が音声認識可能な音量を超えているか否かをユーザにより確実に把握させることが可能となる。

　具体的には、表示制御部１４６は、ユーザによる発話音声の音源方向Ｄｕとは逆向きに第１の動きオブジェクトＭｕを表示オブジェクトＳｂに向かって移動させるとよい。図３に示した例では、ユーザの近隣に次々と出現した円形状のオブジェクトが、ユーザによる発話音声の音源方向Ｄｕとは逆向きに移動し、表示オブジェクトＳｂに到達すると消失する場合を想定しているが、第１の動きオブジェクトＭｕの動きは、かかる例に限定されない。例えば、表示制御部１４６は、入力音声に応じた所定の情報に基づいて第１の動きオブジェクトＭｕに関するパラメータを制御してよい。このときに用いられる入力音声は、ユーザによる発話音声の音源方向からの入力音声であるとよい。例えば、第１の動きオブジェクトに関するパラメータは、第１の動きオブジェクトＭｕのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含んでもよい。

　また、入力音声に応じた所定の情報は、ユーザ発話音量、入力音声の周波数、認識文字列の取得速度、入力音声から抽出される特徴量および入力音声から識別されるユーザのうち、少なくともいずれか一つを含んでもよい。例えば、表示制御部１４６は、認識文字列の取得速度が高くなるほど、第１の動きオブジェクトＭｕの移動速度を高くしてもよい。また、表示制御部１４６は、認識文字列の取得速度が所定の速度を超えた場合には、第１の動きオブジェクトＭｕに所定の動き（例えば、表示オブジェクトＳｂに弾かれるような動き）を与えることによって音声認識が困難な状況をユーザに把握させてもよい。

　なお、音声認識部１４５は、ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得するのがよい。そうすれば、音声入力部１２０によって入力された音声に対して直接的に音声認識が行われる場合と比較して、ノイズの少ない音声に対して音声認識が行われるため、音声認識の精度が向上することが期待される。また、表示制御部１４６は、認識文字列を表示部１３０に表示させるのがよい。そうすれば、音声認識によって得られた認識文字列をユーザに把握させることが可能となる。

　第１の動きオブジェクトＭｕの表示開始についてさらに説明する。図４は、第１の動きオブジェクトＭｕの表示開始を説明するための図である。図４に示すように、ノイズ音量およびユーザ発話音量が時間とともに変化した場合を想定する。図４に示したように、表示制御部１４６は、ユーザ発話音量が認識可能音量V_ableを超えた時点（あるいは、ユーザ発話音量が認識可能音量V_ableと等しくなった時点）において、第１の動きオブジェクトＭｕを表示部１３０に表示させ始めてよい。

　［１．４．認識可能音量の設定］
　続いて、認識可能音量について詳細に説明する。上記した認識可能音量は、常に一定とは限らずにノイズ音量に基づいて変化することが考えられる。図５～図７は、認識可能音量について説明するための図である。例えば、図５に示すように、ノイズ音量平均値N_aveが所定の下限値（以下、「ノイズ音量下限値」とも言う。）N_minを下回る場合、認識可能音量V_ableは変化しないと考えられる。そこで、判定部１４４は、ノイズ音量平均値N_aveがノイズ音量下限値N_minを下回る場合、認識可能音量V_ableに規定値V_able_minを設定してよい。なお、ノイズ音量平均値N_aveの代わりにノイズ音量自体が用いられてもよい。

　一方、例えば、図６に示すように、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合、認識可能音量V_ableはノイズ音量平均値N_aveに応じて変化すると考えられる。そこで、判定部１４４は、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合、認識可能音量V_ableに、ノイズ音量平均値N_aveに応じた音量（図６に示した例では、ノイズ音量平均値N_aveをV_ratio倍して得られる値）を設定してよい。なお、ノイズ音量平均値N_aveの代わりにノイズ音量自体が用いられてもよい。

　図５および図６に示した例に基づいて、ノイズ音量平均値N_aveと認識可能音量V_ableとの関係を図示すると、図７に示す通りとなる。図７を参照すると、ノイズ音量平均値N_aveがノイズ音量下限値N_minを下回る場合には、認識可能音量V_ableに規定値V_able_minが設定されるが、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合には、認識可能音量V_ableにノイズ音量平均値N_aveをV_ratio倍して得られる値が設定されることが把握される。しかし、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合における認識可能音量V_ableの変化は、線形的な変化でなくてもよい。

　なお、ノイズ音量平均値N_aveとノイズ音量下限値N_minとが等しい場合は、認識可能音量V_ableに規定値V_able_minが設定されてもよいし、認識可能音量V_ableに、ノイズ音量平均値N_aveに応じた音量が設定されてもよい。また、規定値V_able_min、ノイズ音量下限値N_min、V_ratioなどの値は、音声認識を行う製品の使用環境、ユースケースなどに応じて事前に設定されてもよいし、音声認識開始時などに行われるソフトウェアアップデートなどにより動的に更新されてもよい。

　［１．５．第２の動きオブジェクトの表示］
　上記のようにして第１の動きオブジェクトＭｕが表示されれば、音声認識が可能な音量で発話がなされていることをユーザに把握させることが可能となる。一方、音声認識が可能な音量で発話がなされていたとしても、ノイズによって音声認識が妨害される可能性もある。そこで、ノイズの存在をユーザに把握させることが有効である。図８は、表示部１３０によって表示される画面の他の例を示す図である。図８を参照すると、ノイズ音源Ｎｓ１、Ｎｓ２が存在している。ここでは、ノイズ音源が２つ存在する場合を説明するが、ノイズ音源の数は限定されない。

　なお、図８においては、ノイズ音源Ｎｓ１、Ｎｓ２の例として、ユーザＵとは別の２人の人物が示されているが、ノイズ音源の種類は人物以外の生物であってもよいし、生物以外（例えば、人工物など）であってもよい。かかる状況において、判定部１４４は、入力音声に基づいてノイズ音量を判定する。ここで、ノイズ音量の判定手法は特に限定されない。例えば、判定部１４４は、ノイズ音源方向Ｄｎ１、Ｄｎ２を推定し、ノイズ音源方向Ｄｎ１、Ｄｎ２から入力される音量をノイズ音量として判定してよい。なお、ノイズ音源方向Ｄｎ１、Ｄｎ２の推定手法も特に限定されない。

　例えば、判定部１４４は、閾値を超える大きさの音量で入力された音声の到来方向が複数あった場合には、複数の到来方向のうち２番目以降に閾値を超える大きさの音量で入力された音声の到来方向をノイズ音源方向Ｄｎ１、Ｄｎ２として推定してもよい。あるいは、例えば、判定部１４４は、音声入力部１２０によって２番目以降に大きな音量で入力された音声の到来方向をノイズ音源方向Ｄｎ１、Ｄｎ２として推定してもよい。

　そして、表示制御部１４６は、ノイズ音量が音声認識可能音量を超えている場合に、第１の動きオブジェクトＭｕとは異なる第２の動きオブジェクトＭｎ１、Ｍｎ２を表示部１３０に表示させてよい。そうすれば、認識可能音量を超える音量を発するノイズが存在するか否かをユーザＵに把握させることが可能となる。また、表示制御部１４６は、ノイズ音源方向に基づいて第２の動きオブジェクトＭｎ１、Ｍｎ２を表示部１３０に表示させてもよい。そうすれば、認識可能音量を超える音量を発するノイズ音源の方向をユーザに把握させることが可能となる。

　また、表示制御部１４６は、第２の動きオブジェクトＭｎ１、Ｍｎ２を、表示オブジェクトＳｂへの移動がブロックされるように移動させてもよい。例えば、図８に示すように、表示制御部１４６は、第２の動きオブジェクトＭｎ１、Ｍｎ２を、所定の範囲の外側には出ないように移動させてもよい。そうすれば、ユーザによる発話音声の音源方向からの入力音声に対して音声認識が行われている場合に、ノイズ音源方向Ｄｎ１、Ｄｎ２から発せられた音声に対する音声認識がなされていないことをより直感的にユーザに把握させることが可能となる。

　図９は、第２の動きオブジェクトＭｎ１、Ｍｎ２の表示開始を説明するための図である。図９に示すように、ノイズ音源Ｎｓ１から発せられる第１のノイズ音量、ノイズ音源Ｎｓ２から発せられる第２のノイズ音量およびユーザＵによる発話音量が時間とともに変化した場合を想定する。このとき、表示制御部１４６は、第１のノイズ音量が認識可能音量V_ableを超えた時点（あるいは、第１のノイズ音量が認識可能音量V_ableと等しくなった時点）において、第２の動きオブジェクトＭｎ１を表示部１３０に表示させてよい。また、表示制御部１４６は、第２のノイズ音量が認識可能音量V_ableを超えた時点（あるいは、第２のノイズ音量が認識可能音量V_ableと等しくなった時点）において、第２の動きオブジェクトＭｎ２を表示部１３０に表示させてよい。第１の動きオブジェクトＭｕの表示開始については既に説明した通りである。

　［１．６．動作例］
　続いて、本開示の実施形態に係る情報処理システム１０の動作の流れについて説明する。図１０Ａおよび図１０Ｂは、本開示の実施形態に係る情報処理システム１０の動作の流れの例を示すフローチャートである。なお、図１０Ａおよび図１０Ｂのフローチャートは、本開示の実施形態に係る情報処理システム１０の動作の流れの例に過ぎないため、本開示の実施形態に係る情報処理システム１０の動作の流れは、図１０Ａおよび図１０Ｂのフローチャートに示された例に限定されない。

　まず、入力画像取得部１４１は、画像入力部１１０によって入力された入力画像を取得する（Ｓ１１）。また、入力音声取得部１４２は、音声入力部１２０によって入力された入力音声を取得する（Ｓ１２）。続いて、情報処理装置１４０は、入力画像および入力音声に基づいてユーザ発話音声の音源方向を特定不可能である場合には（Ｓ１３において「Ｎｏ」）、Ｓ１１およびＳ１２に動作を移行させるが、入力画像および入力音声に基づいてユーザ発話音声の音源方向を特定可能である場合には（Ｓ１３において「Ｙｅｓ」）、Ｓ１４に動作を移行させる。

　続いて、判定部１４４は、ユーザ発話音声の音源方向とユーザ発話音量とを判定し（Ｓ１４）、ノイズ音源の方向とノイズ音量とを判定する（Ｓ１５）。続いて、判定部１４４は、ノイズ音量がノイズ音量下限値N_minを上回る場合（Ｓ１６において「Ｎｏ」）、認識可能音量V_ableにノイズ音量平均値N_aveをV_ratio倍して得られる値を設定して（Ｓ１７）、Ｓ１９に動作を移行させる。一方、判定部１４４は、ノイズ音量がノイズ音量下限値N_minを下回る場合（Ｓ１６において「Ｙｅｓ」）、認識可能音量V_ableに規定値V_able_minを設定して（Ｓ１８）、Ｓ１９に動作を移行させる。

　続いて、情報処理装置１４０は、ユーザ発話音量が認識可能音量V_ableを上回る場合（Ｓ１９において「Ｎｏ」）、Ｓ２４に動作を移行させる。一方、音声認識部１４５は、ユーザ発話音量が認識可能音量V_ableを上回る場合（Ｓ１９において「Ｙｅｓ」）、入力音声から音声認識を行う。このとき、音声認識部１４５は、ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うのがよい。

　続いて、表示制御部１４６は、ユーザ発話音声の音源方向に応じた第１の動きオブジェクトＭｕを表示部１３０に表示させる（Ｓ２１）。そして、表示制御部１４６は、認識可能音量V_ableを上回るノイズ音量を発するノイズ音源が存在する場合には（Ｓ２２において「Ｙｅｓ」）、ノイズ音源の方向に応じた第２の動きオブジェクトを表示部１３０に表示させ（Ｓ２３）、動作をＳ１３に移行させる。一方、情報処理装置１４０は、認識可能音量V_ableを上回るノイズ音量を発するノイズ音源が存在しない場合には（Ｓ２２において「Ｎｏ」）、Ｓ２４に動作を移行させる。Ｓ２４に動作が移行されると、情報処理装置１４０は、次時間単位の入力画像および入力音声を入力画像取得部１４１および入力音声取得部１４２に取得させ（Ｓ２４）、動作をＳ１３に移行させる。

　［１．７．表示形態の変形例］
　上記においては、表示部１３０がテーブルＴｂｌの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、表示部１３０による表示形態は、かかる例に限定されない。以下では、表示部１３０による表示形態の変形例について説明する。図１１は、表示部１３０による表示形態の変形例１を示す図である。図１１に示すように、情報処理システム１０が携帯端末である場合に、表示部１３０は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。

　また、図１２は、表示部１３０による表示形態の変形例２を示す図である。図１２に示すように、情報処理システム１０がテレビジョン受像機を含んでいる場合に、表示部１３０は、テレビジョン受像機に備わっていてもよい。このとき、図１２に示すように、表示制御部１４６は、ユーザＵによる発話音声の音源方向に基づいて第１の動きオブジェクトＭｕを表示部１３０に表示させ、ノイズ音源Ｎｓの方向に基づいて第２の動きオブジェクトＭｎを表示部１３０に表示させてもよい。

　図１３は、表示部１３０による表示形態の変形例３を示す図である。図１３に示すように、表示部１３０は、ヘッドマウントディスプレイであってもよい。かかる場合、図１３に示すように、表示制御部１４６は、ヘッドマウントディスプレイが有するカメラによる撮像画像から表示オブジェクトＳｂに対応する物体Ｏｂを認識した場合に、表示オブジェクトＳｂを表示部１３０に表示させてもよい。例えば、表示制御部１４６は、物体Ｏｂの３次元位置および姿勢を認識し、認識した３次元位置および姿勢に従って表示オブジェクトＳｂをＡＲ（augmented reality）空間に配置してよい。

　第１の動きオブジェクトＭｕも、物体Ｏｂの３次元位置に基づいて移動されてよい。例えば、表示制御部１４６は、ユーザ発話音量が音声認識可能音量を超えている場合に、物体Ｏｂの３次元位置に向けて第１の動きオブジェクトＭｕをＡＲ空間において移動させることによって、第１の動きオブジェクトＭｕが手前から奥に移動するように表示してもよい。なお、図１３に示した例では、ユーザＵの口がユーザによる発話音声の音源方向として推定されているため、ユーザの口の近隣から第１の動きオブジェクトＭｕが出現し、表示オブジェクトＳｂに移動している。

　また、図１３に示した例では、物体Ｏｂは照明器具であり、表示オブジェクトＳｂが表示されている状態で音声認識がなされると、情報処理装置１４０は、音声認識により得られた認識文字列に応じた動作（例えば、照明器具の電源ＯＮとＯＦＦとの間の切り替え）を物体Ｏｂに実行させることを想定している。しかし、物体Ｏｂは照明器具以外のいかなる物体であってよい。

　図１４は、表示部１３０による表示形態の変形例４を示す図である。図１４に示すように、情報処理システム１０が３次元立体視ディスプレイを含んでいる場合に、表示部１３０は、３次元立体視ディスプレイに備わっていてもよい。かかる場合、図１４に示すように、表示制御部１４６は、ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って表示オブジェクトＳｂに向かって移動する第１の動きオブジェクトＭｕを表示させてもよい。手前から奥に移動するような表現は、ユーザＵの左右眼の視差を利用することによって実現され得る。

　図１４に示した例では、ユーザＵに立体視用メガネＬを着用させることによって手前から奥に移動するような表現を実現しているが、ユーザＵに立体視用メガネＬを着用させない裸眼立体視により手前から奥に移動するような表現を実現してもよい。例えば、図１４に示すように、複数のオブジェクト（例えば、アプリケーションウィンドウなど）Ｇ１～Ｇ８が表示部１３０によって表示されている場合であっても、オブジェクトＧ１に表示されている表示オブジェクトＳｂの奥行きに第１の動きオブジェクトＭｕの移動先の奥行きを合わせることによって、オブジェクトＧ１において音声認識が利用されていることをユーザＵに把握させやすくなる。

　図１５は、表示部１３０による表示形態の変形例５を示す図である。図１５に示すように、表示制御部１４６は、仮想オブジェクトＶｒを表示部１３０に表示させ、仮想オブジェクトＶｒに含まれる所定のオブジェクトを表示オブジェクトＳｂとして表示部１３０に表示させてもよい。図１５に示した例では、仮想オブジェクトＶｒがゲームコントローラＣｒに対応しているが、仮想オブジェクトＶｒはゲームコントローラＣｒ以外の物体に対応していてもよい。また、図１５に示した例では、所定のオブジェクトがゲームコントローラＣｒに含まれるマイクＭｃに対応しているが、所定のオブジェクトは、マイクＭｃに限定されない。

　このようにして仮想オブジェクトＶｒおよび表示オブジェクトＳｂが表示されれば、ユーザＵは、表示部１３０によって表示されている第１の動きオブジェクトＭｕの移動先を見ることによって、自らの発話音声がどこに入力されるのかを容易に把握することが可能となる。また、このようにして仮想オブジェクトＶｒおよび表示オブジェクトＳｂが表示されれば、誤った位置（例えば、表示部１３０の位置）に向けて発話を行ってしまうといったユーザＵの行為を防止することが可能となる。

　［１．８．ハードウェア構成例］
　次に、図１６を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成について説明する。図１６は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。

　図１６に示すように、情報処理システム１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

　出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

　ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

　通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　撮像装置９３３は、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　以上、情報処理システム１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

　＜２．むすび＞
　以上説明したように、本開示の実施形態によれば、入力音声に基づいてユーザ発話音量を判定する判定部１４４と、表示オブジェクトＳｂが表示部１３０によって表示されるように表示部１３０を制御する表示制御部１４６と、を備え、表示制御部１４６は、ユーザ発話音量が音声認識可能音量を超えている場合に、表示オブジェクトＳｂに向かって移動する第１の動きオブジェクトを表示部１３０に表示させる、情報処理装置１４０が提供される。

　かかる構成によれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能となる。例えば、音声認識が正しく行われない場合にユーザは、発話をどのように変化させればよいかを把握することが可能となる。また、その結果に基づいてユーザの発話が変化すれば、音声認識の成功率が向上することが期待される。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記においては、表示部１３０による表示形態の変形例を説明したが、表示部１３０による表示形態は、上記した例に限定されない。例えば、表示部１３０は、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、表示部１３０は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、表示部１３０は、ヘルスケア分野において利用されるディスプレイであってもよい。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理システム１０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　また、表示制御部１４６は、表示部１３０に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を表示部１３０に出力することで、当該表示内容が表示部１３０に表示されるように表示部１３０を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

　具体的な一例として、情報処理装置１４０を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＳＧＭＬ（Ｓｔａｎｄａｒｄ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＸＭＬ（Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

　なお、上述した情報処理システム１０の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０、操作入力部１１５および音声入力部１２０と表示部１３０と情報処理装置１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０、操作入力部１１５および音声入力部１２０と表示部１３０とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　入力音声に基づいてユーザ発話音量を判定する判定部と、
　表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
　前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させる、
　情報処理装置。
（２）
　前記判定部は、ユーザによる発話音声の音源方向を判定し、
　前記表示制御部は、前記ユーザによる発話音声の音源方向に基づいて前記第１の動きオブジェクトを前記表示部に表示させる、
　前記（１）に記載の情報処理装置。
（３）
　前記情報処理装置は、前記ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得する音声認識部を備える、
　前記（２）に記載の情報処理装置。
（４）
　前記表示制御部は、前記認識文字列を前記表示部に表示させる、
　前記（３）に記載の情報処理装置。
（５）
　前記判定部は、前記入力音声に基づいてノイズ音量を判定し、
　前記表示制御部は、前記ノイズ音量が前記音声認識可能音量を超えている場合に、前記第１の動きオブジェクトとは異なる第２の動きオブジェクトを前記表示部に表示させる、
　前記（１）～（４）のいずれか一項に記載の情報処理装置。
（６）
　前記判定部は、ノイズ音源方向を判定し、
　前記表示制御部は、前記ノイズ音源方向に基づいて前記第２の動きオブジェクトを前記表示部に表示させる、
　前記（５）に記載の情報処理装置。
（７）
　前記第２の動きオブジェクトは、前記表示オブジェクトへの移動がブロックされるように移動する、
　前記（６）に記載の情報処理装置。
（８）
　前記表示制御部は、前記入力音声に応じた所定の情報に基づいて前記第１の動きオブジェクトに関するパラメータを制御する、
　前記（１）～（７）のいずれか一項に記載の情報処理装置。
（９）
　前記第１の動きオブジェクトに関するパラメータは、前記第１の動きオブジェクトのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含む、
　前記（８）に記載の情報処理装置。
（１０）
　前記入力音声に応じた所定の情報は、前記ユーザ発話音量、前記入力音声の周波数、認識文字列の取得速度、前記入力音声から抽出される特徴量および前記入力音声から識別されるユーザのうち、少なくともいずれか一つを含む、
　前記（８）または（９）に記載の情報処理装置。
（１１）
　前記判定部は、閾値を超える大きさの音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
　前記（２）に記載の情報処理装置。
（１２）
　前記判定部は、最も大きな音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
　前記（２）に記載の情報処理装置。
（１３）
　前記判定部は、指先から指の根元への方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
　前記（２）に記載の情報処理装置。
（１４）
　前記判定部は、前記ノイズ音量が下限値を下回る場合には、前記音声認識可能音量に規定値を設定する、
　前記（６）に記載の情報処理装置。
（１５）
　前記判定部は、前記ノイズ音量が下限値を上回る場合には、前記音声認識可能音量に前記ノイズ音量の平均値に応じた音量または前記ノイズ音量に応じた音量を設定する、
　前記（６）に記載の情報処理装置。
（１６）
　前記表示制御部は、前記表示オブジェクトに対応する物体を撮像画像から認識した場合に、前記表示オブジェクトを前記表示部に表示させる、
　前記（１）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って前記表示オブジェクトに向かって移動する前記第１の動きオブジェクトを前記表示部に表示させる、
　前記（１）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　前記表示制御部は、仮想オブジェクトを前記表示部に表示させ、前記仮想オブジェクトに含まれる所定のオブジェクトを前記表示オブジェクトとして前記表示部に表示させる、
　前記（１）～（１７）のいずれか一項に記載の情報処理装置。
（１９）
　入力音声に基づいてユーザ発話音量を判定することと、
　表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、
　前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させることを含む、
　情報処理方法。
（２０）
　コンピュータを、
　入力音声に基づいてユーザ発話音量を判定する判定部と、
　表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
　前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させる、
　情報処理装置として機能させるためのプログラム。

　１０　　情報処理システム
　１１０　画像入力部
　１１５　操作入力部
　１２０　音声入力部
　１３０　表示部
　１４０　情報処理装置（制御部）
　１４１　入力画像取得部
　１４２　入力音声取得部
　１４３　操作検出部
　１４４　判定部
　１４５　音声認識部
　１４６　表示制御部
　Ｍｕ　　第１の動きオブジェクト
　Ｍｎ、Ｍｎ１、Ｍｎ２　第２の動きオブジェクト
　Ｎｓ、Ｎｓ２、Ｎｓ１　ノイズ音源
　Ｄｕ　　ユーザによる発話音声の音源方向
　Ｄｎ、Ｄｎ１、Ｄｎ２　ノイズ音源方向
　Ｓｂ　　表示オブジェクト

Claims

　入力音声に基づいてユーザ発話音量を判定する判定部と、
　表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
　前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させる、
　情報処理装置。
　前記判定部は、ユーザによる発話音声の音源方向を判定し、
　前記表示制御部は、前記ユーザによる発話音声の音源方向に基づいて前記第１の動きオブジェクトを前記表示部に表示させる、
　請求項１に記載の情報処理装置。
　前記情報処理装置は、前記ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得する音声認識部を備える、
　請求項２に記載の情報処理装置。
　前記表示制御部は、前記認識文字列を前記表示部に表示させる、
　請求項３に記載の情報処理装置。
　前記判定部は、前記入力音声に基づいてノイズ音量を判定し、
　前記表示制御部は、前記ノイズ音量が前記音声認識可能音量を超えている場合に、前記第１の動きオブジェクトとは異なる第２の動きオブジェクトを前記表示部に表示させる、
　請求項１に記載の情報処理装置。
　前記判定部は、ノイズ音源方向を判定し、
　前記表示制御部は、前記ノイズ音源方向に基づいて前記第２の動きオブジェクトを前記表示部に表示させる、
　請求項５に記載の情報処理装置。
　前記第２の動きオブジェクトは、前記表示オブジェクトへの移動がブロックされるように移動する、
　請求項６に記載の情報処理装置。
　前記表示制御部は、前記入力音声に応じた所定の情報に基づいて前記第１の動きオブジェクトに関するパラメータを制御する、
　請求項１に記載の情報処理装置。
　前記第１の動きオブジェクトに関するパラメータは、前記第１の動きオブジェクトのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含む、
　請求項８に記載の情報処理装置。
　前記入力音声に応じた所定の情報は、前記ユーザ発話音量、前記入力音声の周波数、認識文字列の取得速度、前記入力音声から抽出される特徴量および前記入力音声から識別されるユーザのうち、少なくともいずれか一つを含む、
　請求項８に記載の情報処理装置。
　前記判定部は、閾値を超える大きさの音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
　請求項２に記載の情報処理装置。
　前記判定部は、最も大きな音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
　請求項２に記載の情報処理装置。
　前記判定部は、指先から指の根元への方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
　請求項２に記載の情報処理装置。
　前記判定部は、前記ノイズ音量が下限値を下回る場合には、前記音声認識可能音量に規定値を設定する、
　請求項６に記載の情報処理装置。
　前記判定部は、前記ノイズ音量が下限値を上回る場合には、前記音声認識可能音量に前記ノイズ音量の平均値に応じた音量または前記ノイズ音量に応じた音量を設定する、
　請求項６に記載の情報処理装置。
　前記表示制御部は、前記表示オブジェクトに対応する物体を撮像画像から認識した場合に、前記表示オブジェクトを前記表示部に表示させる、
　請求項１に記載の情報処理装置。
　前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って前記表示オブジェクトに向かって移動する前記第１の動きオブジェクトを前記表示部に表示させる、
　請求項１に記載の情報処理装置。
　前記表示制御部は、仮想オブジェクトを前記表示部に表示させ、前記仮想オブジェクトに含まれる所定のオブジェクトを前記表示オブジェクトとして前記表示部に表示させる、
　請求項１に記載の情報処理装置。
　入力音声に基づいてユーザ発話音量を判定することと、
　表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、
　前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させることを含む、
　情報処理方法。
　コンピュータを、
　入力音声に基づいてユーザ発話音量を判定する判定部と、
　表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
　前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第１の動きオブジェクトを前記表示部に表示させる、
　情報処理装置として機能させるためのプログラム。