JPWO2016103809A1

JPWO2016103809A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JPWO2016103809A1
Application number: JP2016565964A
Authority: JP
Inventors: 真一河野; 祐平滝; 澁谷　崇; 崇澁谷
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-12-25
Filing date: 2015-09-15
Publication date: 2017-10-05
Anticipated expiration: 2035-09-15
Also published as: EP3239976A4; US20170345423A1; JP6772839B2; US10720154B2; WO2016103809A1; EP3239976A1; CN107112018A

Abstract

【課題】集音データに対する音声認識の精度を向上させることが可能な技術が提供される。【解決手段】集音データを取得する集音データ取得部と、少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させる出力制御部と、を備える、情報処理装置が提供される。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。

近年、マイクロフォンによって集音されたデータ（以下、単に「集音データ」とも言う。）を取得し、集音データに対して音声認識を行うことによって文字列を認識する技術が存在する。例えば、音声認識のための文脈音響モデルを構築する手法の例が開示されている（例えば、特許文献１参照）。

特開２００１−１９５０８４号公報

しかし、集音データに対する音声認識の精度を向上させることが可能な技術が提供されることが望まれる。

本開示によれば、集音データを取得する集音データ取得部と、少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させる出力制御部と、を備える、情報処理装置が提供される。

本開示によれば、集音データを取得することと、少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させることと、を含む、情報処理方法が提供される。

本開示によれば、コンピュータを、集音データを取得する集音データ取得部と、少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させる出力制御部と、を備える情報処理装置として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、集音データに対する音声認識の精度を向上させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理システムの機能構成例を示すブロック図である。初期画面の表示から音声認識される集音データの終端が決まるまでにおいて出力部１３０によって表示される画面遷移の例を示す図である。初期画面の表示から音声認識される集音データの終端が決まるまでにおいて出力部１３０によって表示される画面遷移の例を示す図である。集音データの量が許容範囲の下限値より小さい場合における表示例を示す図である集音データの量が許容範囲の下限値より大きい場合、かつ、集音データの量が許容範囲の上限値より小さい場合における表示例を示す図である。集音データの量が許容範囲の上限値より大きい場合における表示例を示す図である。無音区間が検出された場合における表示例を示す図である。音声認識が成功した場合における表示例を示す図である。音声認識が失敗した場合における表示例を示す図である。集音データの量が許容範囲の下限値より小さい場合における他の表示例を示す図である。集音データの量が許容範囲の下限値より大きい場合、かつ、集音データの量が許容範囲の上限値より小さい場合における他の表示例を示す図である。集音データの量が許容範囲の上限値より大きい場合における他の表示例を示す図である。本開示の実施形態に係る情報処理システムの全体的な動作の流れの例を示すフローチャートである。ノイズ量に応じて許容範囲の下限値および上限値を更新する動作の流れの例を示すフローチャートである。各種ＤＢの構成例を示す図である。無音区間検出のための閾値を更新する動作の流れの例を示すフローチャートである。起動ワード音声認識による文区切り判断フローの詳細を示すフローチャートである。音声認識の途中結果に基づいて文区切り単語が発話されたか否かを判断する動作の流れの例を示すフローチャートである。音声認識の適性判断の変形例に係る動作の流れについて説明する。出力部による表示形態の変形例を示す図である。情報処理システムのハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
１．本開示の実施形態
１．１．システム構成例
１．２．機能構成例
１．３．情報処理システムの機能詳細
１．４．音声認識の適性判断の変形例
１．５．表示形態の変形例
１．６．ハードウェア構成例
２．むすび

＜１．本開示の実施形態＞
［１．１．システム構成例］
まず、図面を参照しながら本開示の実施形態に係る情報処理システム１０の構成例について説明する。図１は、本開示の実施形態に係る情報処理システム１０の構成例を示す図である。図１に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０とを備える。情報処理システム１０は、ユーザＵ（以下、単に「ユーザ」とも言う。）によって発せられた音声に対して音声認識を行うことが可能である。なお、以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。

画像入力部１１０は、画像を入力する機能を有する。図１に示した例では、画像入力部１１０は、テーブルＴｂｌに埋め込まれた２つのカメラを含んでいる。しかし、画像入力部１１０に含まれるカメラの数は１以上であれば特に限定されない。かかる場合、画像入力部１１０に含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

操作入力部１１５は、ユーザＵの操作を入力する機能を有する。図１に示した例では、操作入力部１１５は、テーブルＴｂｌの上方に存在する天井から吊り下げられた１つのカメラを含んでいる。しかし、操作入力部１１５に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部１１５はユーザＵの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

出力部１３０は、テーブルＴｂｌに画面を表示する機能を有する。図１に示した例では、出力部１３０は、テーブルＴｂｌの上方に天井から吊り下げられている。しかし、出力部１３０が設けられる位置は特に限定されない。また、典型的には、出力部１３０は、テーブルＴｂｌの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

なお、本明細書では、テーブルＴｂｌの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルＴｂｌの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、出力部１３０が表示面を有する場合には、画面の表示面は、出力部１３０が有する表示面であってもよい。

集音部１２０は、集音する機能を有する。図１に示した例では、集音部１２０は、テーブルＴｂｌの上方に存在する３つのマイクロフォンとテーブルＴｂｌの上面に存在する３つのマイクロフォンとの合計６つのマイクロフォンを含んでいる。しかし、集音部１２０に含まれるマイクロフォンの数は１以上であれば特に限定されない。かかる場合、集音部１２０に含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

ただし、集音部１２０が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された集音データに基づいて音の到来方向が推定され得る。また、集音部１２０が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された集音データに基づいて音の到来方向が推定され得る。

以上、本開示の実施形態に係る情報処理システム１０の構成例について説明した。

［１．２．機能構成例］
続いて、本開示の実施形態に係る情報処理システム１０の機能構成例について説明する。図２は、本開示の実施形態に係る情報処理システム１０の機能構成例を示すブロック図である。図２に示したように、本開示の実施形態に係る情報処理システム１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０と、情報処理装置１４０（以下、「制御部１４０」とも言う。）と、を備える。

情報処理装置１４０は、情報処理システム１０の各部の制御を実行する。例えば、情報処理装置１４０は、出力部１３０から出力する情報を生成する。また、例えば、情報処理装置１４０は、画像入力部１１０、操作入力部１１５および集音部１２０それぞれが入力した情報を、出力部１３０から出力する情報に反映させる。図２に示したように、情報処理装置１４０は、入力画像取得部１４１と、集音データ取得部１４２と、操作検出部１４３と、認識制御部１４４と、音声認識部１４５と、出力制御部１４６とを備える。これらの各機能ブロックについての詳細は、後に説明する。

なお、情報処理装置１４０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

以上、本開示の実施形態に係る情報処理システム１０の機能構成例について説明した。

［１．３．情報処理システムの機能詳細］
続いて、本開示の実施形態に係る情報処理システム１０の機能詳細について説明する。本開示の実施形態においては、集音部１２０によって集音された集音データを集音データ取得部１４２が取得し、出力制御部１４６が、少なくとも集音データの状態が音声認識に適した状態であるか否かを出力部１３０に出力させる。かかる構成によれば、ユーザは集音データの状態が音声認識に適した状態であるか否かを把握することによって発話を調整することができるため、集音データに対する音声認識の精度を向上させることが可能となる。

集音データの状態が音声認識に適した状態としては、様々な状態が想定される。一例として、集音データの量が所定の許容範囲内である場合に、集音データの状態が音声認識に適した状態であると言える。そこで、出力制御部１４６が、集音データの量が所定の許容範囲内であるか否かを集音データの状態が音声認識に適した状態であるか否かとして出力部１３０に出力させる例について説明する。

ここで、集音データの量は特に限定されない。例えば、集音データの量は、集音データの時間的な長さを含んでもよい。また、集音データの量は、集音データから抽出される音素の数を含んでもよい。また、集音データの量は、集音データのうち音声らしい区間の時間的な長さを含んでもよい。集音データの量は、音声認識される単位（より詳細には、まとめて音声認識される１または複数の集音データの始端から終端までの累積量）であってよい。

図３および図４は、初期画面の表示から音声認識される集音データの終端が決まるまでにおいて出力部１３０によって表示される画面遷移の例を示す図である。図３を参照すると、出力制御部１４６は、初期画面Ｇ１０−１を表示させている。初期画面Ｇ１０−１には、音声認識を開始させるための音声認識開始操作オブジェクトＧ１４、音声認識によって得られた文字列（以下、「認識文字列」とも言う。）の表示欄である認識文字列表示欄Ｇ１１が含まれる。

また、初期画面Ｇ１０−１には、認識文字列を全部削除するための全削除操作オブジェクトＧ１２、認識文字列を確定するための確定操作オブジェクトＧ１３が含まれる。また、初期画面Ｇ１０−１には、認識文字列におけるカーソル位置を前に戻すための移動操作オブジェクトＧ１５、認識文字列におけるカーソル位置を後ろに進めるための移動操作オブジェクトＧ１６、カーソル位置の文字または単語を削除するための削除操作オブジェクトＧ１７が含まれる。

まず、画面Ｇ１０−２に示すように、ユーザが音声認識開始操作オブジェクトＧ１４を選択する操作を行い、音声認識開始操作オブジェクトＧ１４を選択する操作が操作入力部１１５によって入力されると、操作検出部１４３によって検出され、出力制御部１４６は、集音開始画面Ｇ１０−３を表示させる。出力制御部１４６が集音開始画面Ｇ１０−３を表示させると、ユーザは集音部１２０に向かって発話を開始する。

集音中画面Ｇ１０−４に示すように、集音部１２０によって集音された集音データが集音データ取得部１４２によって取得されると、出力制御部１４６は、所定のオブジェクト（以下、「表示オブジェクト」とも言う。）Ｍｕを表示させる。表示オブジェクトＭｕは、静止していてもよいし、画面Ｇ１０−４に示したように動きを有していてもよい。例えば、表示オブジェクトＭｕが動きを有する場合、表示オブジェクトＭｕの移動方向Ｄｅは、ユーザによる発話音声の音源から集音部１２０への到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。

例えば、認識制御部１４４は、音声認識開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指方向（例えば、指の根元から指先への方向）に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

あるいは、認識制御部１４４は、集音部１２０によって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトＧ１４を選択する操作を行ったユーザの指方向に一致または類似する１の到来方向をユーザによる発話音声の到来方向として推定してもよい。

あるいは、認識制御部１４４は、複数の到来方向のうち集音部１２０によって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部１４４は、ユーザによる発話音声の到来方向以外の方向から集音部１２０によって入力された音をノイズとして取得してよい。

また、図４には、出力制御部１４６が、ユーザによる発話音声の到来方向（移動方向Ｄｅ）に表示オブジェクトＭｕを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部１２０によって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトＭｕの動きは、かかる動きに限定されない。また、図４には、表示オブジェクトＭｕの移動先が、音声認識開始操作オブジェクトＧ１４である例が示されている。しかし、表示オブジェクトＭｕの移動先は、かかる例に限定されない。

また、図４には、出力制御部１４６が、集音部１２０による集音に応じて次々と出現した円形状の表示オブジェクトＭｕを移動させる例が示されているが、表示オブジェクトＭｕの表示態様はかかる例に限定されない。例えば、出力制御部１４６は、集音データに応じた所定の情報（例えば、集音データの音声らしさ、音量など）に基づいて表示オブジェクトＭｕの各種パラメータを制御してよい。このときに用いられる集音データは、ユーザによる発話音声の到来方向からの集音データであるとよい。また、表示オブジェクトＭｕのパラメータは、表示オブジェクトＭｕの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。

なお、集音データから音声らしさを評価する手法は特に限定されない。例えば、集音データから音声らしさを評価する手法として、特許文献（特開２０１０−３８９４３号公報）に記載されている手法を採用することも可能である。また、例えば、集音データから音声らしさを評価する手法として、特許文献（特開２００７−３２８２２８号公報）に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部１４６によって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。

認識制御部１４４は、集音データ取得部１４２によって取得された集音データに対する音声認識を音声認識部１４５に開始させる。音声認識を開始させるタイミングは限定されない。例えば、認識制御部１４４は、表示オブジェクトＭｕが音声認識開始操作オブジェクトＧ１４に到達してから、表示オブジェクトＭｕに対応する集音データに対する音声認識を音声認識部１４５に開始させてよい。認識中画面Ｇ１０−５に示すように、音声認識開始操作オブジェクトＧ１４に到達した表示オブジェクトＭｕは、音声認識開始操作オブジェクトＧ１４に溜まっているように表示されてもよい。

出力制御部１４６は、許容範囲の下限値および上限値の少なくともいずれか一方を出力部１３０に出力させるとよい。そうすれば、ユーザは、許容範囲の下限値および上限値の少なくともいずれか一方を把握しながら発話をするようになるため、集音データの量を許容範囲内に収めやすくなり、集音データに対する音声認識の精度が向上され得る。

ここで、出力制御部１４６は、集音データの量が許容範囲の下限値より小さい場合には、ユーザに更なる発話を促すため、集音データの状態が音声認識に適していない状態である旨を出力部１３０に出力させるとよい。集音データの状態が音声認識に適していない状態である旨は特に限定されない。図５は、集音データの量が許容範囲の下限値より小さい場合における表示例を示す図である。

画面Ｇ１０−６に示すように、集音データの状態が音声認識に適していない状態である旨は、認識文字列表示欄Ｇ１１に付される所定の色（例えば、ピンク色など）によって示されてもよい。あるいは、画面Ｇ１０−６に示すように、集音データの状態が音声認識に適していない状態である旨は、音声認識開始操作オブジェクトＧ１４に付される所定の色（例えば、ピンク色など）によって示されてもよい。あるいは、画面Ｇ１０−６に示すように、集音データの状態が音声認識に適していない状態である旨は、表示オブジェクトＭｕに付される所定の色（例えば、灰色など）によって示されてもよい。

また、出力制御部１４６は、集音データの量を出力部１３０に出力させるとよい。そうすれば、ユーザは、集音データの量を把握しながら発話をするようになることが期待されるため、集音データの量が許容範囲内に収まりやすくなり、集音データに対する音声認識の精度が向上され得る。図５に示した例では、音声認識開始操作オブジェクトＧ１４の枠が許容範囲の上限値に相当し、表示オブジェクトＭｕのサイズが集音データの量に相当している。

また、出力制御部１４６は、集音データの量が許容範囲の下限値より大きい場合、かつ、集音データの量が許容範囲の上限値より小さい場合、ユーザの発話は適量である旨を出力部１３０に出力させるとよい。集音データの状態が音声認識に適している状態である旨は特に限定されない。図６は、集音データの量が許容範囲の下限値より大きい場合、かつ、集音データの量が許容範囲の上限値より小さい場合における表示例を示す図である。

画面Ｇ１０−７に示すように、集音データの状態が音声認識に適している状態である旨は、認識文字列表示欄Ｇ１１に付される所定の色（例えば、上記ピンク色より濃い色など）によって示されてもよい。あるいは、画面Ｇ１０−７に示すように、集音データの状態が音声認識に適している状態である旨は、音声認識開始操作オブジェクトＧ１４に付される所定の色（例えば、上記ピンク色より濃い色など）によって示されてもよい。あるいは、画面Ｇ１０−７に示すように、集音データの状態が音声認識に適している状態である旨は、表示オブジェクトＭｕに付される所定の色（例えば、上記灰色より濃い色など）によって示されてもよい。

また、出力制御部１４６は、集音データの量が許容範囲の上限値より大きい場合には、ユーザに発話を止めさせるため、集音データの状態が音声認識に適していない状態である旨を出力部１３０に出力させるとよい。上記したように、集音データの状態が音声認識に適していない状態である旨は特に限定されない。図７は、集音データの量が許容範囲の上限値より大きい場合における表示例を示す図である。

画面Ｇ１０−８に示すように、集音データの状態が音声認識に適していない状態である旨は、認識文字列表示欄Ｇ１１に付される所定の色（例えば、ピンク色など）によって示されてもよい。あるいは、画面Ｇ１０−８に示すように、集音データの状態が音声認識に適していない状態である旨は、音声認識開始操作オブジェクトＧ１４に付される所定の色（例えば、ピンク色など）によって示されてもよい。あるいは、画面Ｇ１０−８に示すように、集音データの状態が音声認識に適していない状態である旨は、表示オブジェクトＭｕに付される所定の色（例えば、灰色など）によって示されてもよい。

また、画面Ｇ１０−８に示すように、出力制御部１４６は、集音データの量が許容範囲の上限値より大きい場合には、音声認識開始操作オブジェクトＧ１４から溢れ出すようなアニメーションを表示オブジェクトＭｕに付してもよい。また、出力制御部１４６は、集音データの量が許容範囲の上限値より大きい場合には、複数色の間（例えば、灰色と黒色との間）で切り替えが行われるようなアニメーションを表示オブジェクトＭｕに付してもよい。

ここで、音声認識を行わせる区間の終端もどのように決定されてもよい。例えば、認識制御部１４４は、集音データにおいて音量が所定の音量を下回る時間が閾値を超えた区間（以下、単に「無音区間」とも言う。）が存在するかを検出し、無音区間を検出したタイミングに基づいて、音声認識を行わせる区間の終端を決定してもよい。図８は、無音区間が検出された場合における表示例を示す図である。

画面Ｇ１０−９に示すように、無音区間が検出されたタイミングが、音声認識を行わせる区間の終端として決定されてよい。画面Ｇ１０−１０は、音声認識を行わせる区間の終端が決定された後の画面である。画面Ｇ１０−１０を参照すると、表示オブジェクトＭｕが増加し、音声認識開始操作オブジェクトＧ１４に表示される文言は、「どうぞ」から「お待ちください」に変更されている。続いて、音声認識部１４５は、集音データの一部または全部に対する音声認識を音声認識部１４５に行わせる。具体的には、認識制御部１４４は、無音区間が除外された集音データに対する音声認識を音声認識部１４５に行わせる。

音声認識部１４５は、無音区間が除外された集音データに対する音声認識を行う。例えば、音声認識部１４５は、ユーザによる発話音声の到来方向からの集音データに対して音声認識を行うことにより認識文字列を取得するのがよい。そうすれば、集音部１２０によって入力された音声に対して直接的に音声認識が行われる場合と比較して、ノイズの少ない音声に対して音声認識が行われるため、音声認識の精度が向上することが期待される。音声認識が成功であるか否かによって、以降の動作が異なってくる。

図９は、音声認識が成功した場合における表示例を示す図である。画面Ｇ１０−１１に示すように、音声認識部１４５による音声認識が成功すると、出力制御部１４６は、表示オブジェクトＭｕを認識文字列表示欄Ｇ１１の方に移動させてもよい。そうすれば、ユーザは、認識文字列が認識文字列表示欄Ｇ１１に表示されることを予想することが可能となる。また、画面Ｇ１０−１２に示すように、出力制御部１４６は、表示オブジェクトＭｕを認識文字列表示欄Ｇ１１の方にさらに移動させてもよい。

また、画面Ｇ１０-１２を参照すると、出力制御部１４６は、認識文字列表示欄Ｇ１１に認識文字列「Ｉｄｒｏｖｅｙｏｕｒｃａｒｔｏａｉｒｐｏｒｔｓ」を表示させている。その他に、出力制御部１４６は、選択候補表示欄Ｇ１８、選択候補切り替え操作オブジェクトＧ１９などを表示させている。選択候補表示欄Ｇ１８に表示される選択候補は特に限定されないが、画面Ｇ１０−１２に示された例では、選択候補として、予測変換カテゴリ、ｐｈｒａｓｅカテゴリ、オリジナルフォームカテゴリなどが表示されている。

図１０は、音声認識が失敗した場合における表示例を示す図である。画面Ｇ１０−１３に示すように、音声認識部１４５による音声認識が失敗すると、出力制御部１４６は、表示オブジェクトＭｕを認識文字列表示欄Ｇ１１が存在しない方（例えば、下方）に移動させてもよい。そうすれば、ユーザは、音声認識が失敗したことを予想することが可能となる。また、画面Ｇ１０−１４に示すように、出力制御部１４６は、表示オブジェクトＭｕを認識文字列表示欄Ｇ１１が存在しない方（例えば、下方）にさらに移動させてもよい。

図５に示した例では、音声認識開始操作オブジェクトＧ１４の枠が許容範囲の上限値に相当し、表示オブジェクトＭｕのサイズが集音データの量に相当すると説明した。しかし、許容範囲および集音データの量はどのように表現されてもよい。図１１は、集音データの量が許容範囲の下限値より小さい場合における他の表示例を示す図である。画面Ｇ１０−１５に示すように、出力制御部１４６は、集音データの量を示すインジケータＧ１８を表示させてもよい。画面Ｇ１０−１５に示すように、インジケータＧ１８には、許容範囲の下限値（ｔ＿ｍｉｎ）および許容範囲の上限値（ｔ＿ｍａｘ）が含まれてもよい。

上記したように、出力制御部１４６は、集音データの量が許容範囲の下限値より小さい場合には、ユーザに更なる発話を促すため、集音データの状態が音声認識に適していない状態である旨を出力部１３０に出力させるとよい。集音データの状態が音声認識に適していない状態である旨は、ユーザに発話を促すためのメッセージによって示されてもよい。図１１に示すように、ユーザに発話を促すためのメッセージは、「発話を続けてください」などといったメッセージであってよい。

図１２は、集音データの量が許容範囲の下限値より大きい場合、かつ、集音データの量が許容範囲の上限値より小さい場合における他の表示例を示す図である。上記したように、出力制御部１４６は、集音データの量が許容範囲の下限値より大きい場合、かつ、集音データの量が許容範囲の上限値より小さい場合には、集音データの状態が音声認識に適している状態である旨を出力部１３０に出力させるとよい。集音データの状態が音声認識に適している状態である旨は、図１２に示すように、「どうぞ」などといったメッセージであってよい。

図１３は、集音データの量が許容範囲の上限値より大きい場合における他の表示例を示す図である。上記したように、出力制御部１４６は、集音データの量が許容範囲の上限値より大きい場合には、ユーザに発話を止めさせるため、集音データの状態が音声認識に適していない状態である旨を出力部１３０に出力させるとよい。集音データの状態が音声認識に適していない状態である旨は、ユーザに発話を促すためのメッセージによって示されてもよい。図１３に示すように、ユーザに発話を促すためのメッセージは、「止めてください」などといったメッセージであってよい。

以上、本開示の実施形態に係る情報処理システム１０の機能詳細について説明した。

続いて、本開示の実施形態に係る情報処理システム１０の全体的な動作の流れについて説明する。図１４は、本開示の実施形態に係る情報処理システム１０の全体的な動作の流れの例を示すフローチャートである。なお、図１４のフローチャートは、本開示の実施形態に係る情報処理システム１０の全体的な動作の流れの例に過ぎないため、本開示の実施形態に係る情報処理システム１０の全体的な動作の流れは、図１４のフローチャートに示された例に限定されない。

まず、出力制御部１４６は、変数ｔ＿ａｃｃに零を設定する（Ｓ１１）。出力制御部１４６は、集音データが取得されない場合には（Ｓ１２において「Ｎｏ」）、動作を終了させるが、集音データが取得された場合には（Ｓ１２において「Ｙｅｓ」）、取得された集音データの量を、変数ｔ＿ａｃｃへ加算する（Ｓ１３）。出力制御部１４６は、変数ｔ＿ａｃｃが許容範囲の下限値（ｔ＿ｍｉｎ）よりも小さい場合には（Ｓ１４において「Ｙｅｓ」）、音声認識される単位が適量でない（少ない）と判断し（Ｓ１５）、音声認識される単位が適量でない（少ない）ことを示すようにＵＩ（画面）を更新し（Ｓ１６）、Ｓ１２に動作を移行させる。

また、出力制御部１４６は、変数ｔ＿ａｃｃが許容範囲の下限値（ｔ＿ｍｉｎ）よりも大きい場合には（Ｓ１４において「Ｎｏ」）、Ｓ１７に動作を移行させる。そして、出力制御部１４６は、変数ｔ＿ａｃｃが許容範囲の上限値（ｔ＿ｍａｘ）よりも小さい場合には（Ｓ１７において「Ｙｅｓ」）、音声認識される単位が適量であると判断し（Ｓ１８）、音声認識される単位が適量であることを示すようにＵＩ（画面）を更新し（Ｓ１９）、Ｓ１２に動作を移行させる。

さらに、出力制御部１４６は、変数ｔ＿ａｃｃが許容範囲の上限値（ｔ＿ｍａｘ）よりも小さい場合には（Ｓ１７において「Ｎｏ」）、音声認識される単位が適量でない（多い）と判断し（Ｓ２０）、音声認識される単位が適量でない（多い）ことを示すようにＵＩ（画面）を更新し（Ｓ２１）、Ｓ１２に動作を移行させる。

以上、情報処理システム１０の全体的な動作の流れについて説明した。ここで、上記した許容範囲の下限値および上限値は、常に一定であってもよいが、出力制御部１４６によって許容範囲の下限値および上限値の少なくともいずれか一方は更新されてもよい。例えば、出力制御部１４６は、ノイズ量に基づいて許容範囲の下限値および上限値の少なくともいずれか一方を更新してもよい。例えば、ノイズ量が大きくなるほど音声認識の精度は低くなると考えられる。そこで、出力制御部１４６は、ノイズ量が大きいほど許容範囲の上限値が大きくなるように許容範囲の上限値を更新するとよい。

図１５は、ノイズ量に応じて許容範囲の下限値および上限値を更新する動作の流れの例を示すフローチャートである。なお、図１５のフローチャートは、ノイズ量に応じて許容範囲の下限値および上限値を更新する動作の流れの例に過ぎないため、ノイズ量に応じて許容範囲の下限値および上限値を更新する動作の流れは、図１５のフローチャートに示された例に限定されない。

まず、出力制御部１４６は、集音データが取得されたか否かを判定し（Ｓ３１）、集音データが取得されない場合には（Ｓ３１において「Ｎｏ」）、動作を終了させるが、集音データが取得された場合には（Ｓ３１において「Ｙｅｓ」）、ノイズ量を、変数ｎ＿ｎｏｉｓｅとして取得する（Ｓ３２）。続いて、出力制御部１４６は、変数ｎ＿ｎｏｉｓｅが所定のノイズ下限量ｎ＿ｍｉｎよりも小さい場合には（Ｓ３３において「Ｙｅｓ」）、許容範囲の下限値（ｔ＿ｍｉｎ）および許容範囲の上限値（ｔ＿ｍａｘ）を更新せずに（Ｓ３４）、Ｓ３１に動作を移行させる。

一方、出力制御部１４６は、変数ｎ＿ｎｏｉｓｅが所定のノイズ下限量ｎ＿ｍｉｎよりも大きい場合には（Ｓ３３において「Ｎｏ」）、許容範囲の下限値（ｔ＿ｍｉｎ）および許容範囲の上限値（ｔ＿ｍａｘ）を１．５倍にして（Ｓ３５）、Ｓ３１に動作を移行させる。なお、１．５倍は、許容範囲の下限値（ｔ＿ｍｉｎ）および許容範囲の上限値（ｔ＿ｍａｘ）に乗じられる値の一例に過ぎないため、１．５倍の代わりに他の１より大きい値が用いられてもよい。

以上、ノイズ量に応じて許容範囲の下限値および上限値を更新する動作の流れの例を説明した。上記した例では、無音区間検出のための閾値について説明したが、無音区間検出のための閾値は、一定であってもよいし、更新されてもよい。例えば、集音データに文頭または文末を示す所定の表現が含まれる場合には、ユーザによって発話される文が一区切り付いたと考えられるため、音声認識を行わせる区間を終わらせるための条件を変更するのがよい。

したがって、出力制御部１４６は、集音データに文頭または文末を示す所定の表現が含まれる場合に、閾値を更新するのがよい。より詳細には、集音データに文頭または文末を示す所定の表現が含まれる場合には、ユーザによって発話される文が一区切り付いたと考えられるため、音声認識を行わせる区間を終わらせるための条件を緩めるのがよい。したがって、出力制御部１４６は、集音データに文頭または文末を示す所定の表現が含まれる場合に、閾値を小さくするのがよい。

文頭または文末を示す表現（以下、「起動ワード」とも言う。）は、音声情報と対応付けられたデータとしてあらかじめ起動ワード登録データベース（ＤＢ）として登録されていてよい。そして、出力制御部１４６は、起動ワード登録ＤＢに登録されている音声情報が集音データに含まれるか否かによって、集音データに起動ワードが含まれるか否かを判断すればよい。ここでは、集音データに起動ワードが含まれるか否かを判断するフロー（以下、「起動ワード認識処理フロー」とも言う。）が、出力制御部１４６によって行われる例を説明するが、起動ワード認識処理フローは、図示しないサーバによって行われてもよい。

ここで、起動ワード登録ＤＢについて説明する。図１６は、各種ＤＢの構成例を示す図である。図１６に示した起動ワード登録ＤＢは、起動ワードとその音声情報とが対応付けられたデータが格納されるＤＢである。また、図１６に示した文区切り判断用単語ＤＢは、文頭または文末を示す表現とその音声情報とが対応付けられたデータが格納されるＤＢである。

許容用単語ＤＢは、文区切り判断用単語に類似する単語が発話される場合も許容するためのＤＢである。許容用単語ＤＢは、許容用単語とその音声情報とが対応付けられたデータが格納されるＤＢである。起動ワード登録ＤＢはどのようにして生成されてもよいが、文区切り判断用単語ＤＢに登録されている単語が起動ワード登録ＤＢに登録されることによって起動ワード登録ＤＢが生成されてよい。追加的に、許容用単語ＤＢに登録されている単語が起動ワード登録ＤＢに登録されることによって起動ワード登録ＤＢが生成されてよい。

以上、起動ワード登録ＤＢについて説明した。続いて、無音区間検出のための閾値を更新する動作の流れについて説明する。図１７は、無音区間検出のための閾値を更新する動作の流れの例を示すフローチャートである。なお、図１７のフローチャートは、無音区間検出のための閾値を更新する動作の例に過ぎないため、無音区間検出のための閾値を更新する動作の流れは、図１７のフローチャートに示された例に限定されない。

まず、出力制御部１４６は、集音データが取得されたか否かを判定し（Ｓ４１）、集音データが取得されない場合には（Ｓ４１において「Ｎｏ」）、動作を終了させるが、集音データが取得された場合には（Ｓ４１において「Ｙｅｓ」）、集音データを分割し（Ｓ４２）、起動ワード音声認識による文区切り判断フローを実行する（Ｓ４３）。起動ワード音声認識による文区切り判断フローの詳細については、図１８を参照しながら後に説明する。

続いて、出力制御部１４６は、文区切り単語が発話されたと判断した場合には（Ｓ４４において「Ｙｅｓ」）、無音区間検出のための閾値を０．１倍にして（Ｓ４５）、Ｓ４１に動作を移行させる。なお、０．１倍は、無音区間検出のための閾値に乗じられる値の一例に過ぎないため、０．１倍の代わりに他の１より小さい値が用いられてもよい。一方、出力制御部１４６は、文区切り単語が発話されていないと判断した場合には（Ｓ４４において「Ｎｏ」）、無音区間検出のための閾値を維持して（Ｓ４６）、Ｓ４１に動作を移行させる。

以上、無音区間検出のための閾値を更新する動作の流れの例について説明した。続いて、図１７に示した起動ワード音声認識による文区切り判断フローの詳細について説明する。図１８は、起動ワード音声認識による文区切り判断フローの詳細を示すフローチャートである。なお、図１８のフローチャートは、起動ワード音声認識による文区切り判断フローの例に過ぎないため、起動ワード音声認識による文区切り判断フローは、図１８のフローチャートに示された例に限定されない。

まず、出力制御部１４６は、上記した起動ワード認識処理フローを実行し（Ｓ４３１）、起動ワードの認識が成功したか否かを判断する（Ｓ４３２）。出力制御部１４６は、起動ワードの認識が成功した場合には（Ｓ４３２において「Ｙｅｓ」）、文区切り単語が発話されたと判断して（Ｓ４３３）、動作を終了する。一方、出力制御部１４６は、起動ワードの認識が失敗した場合には（Ｓ４３２において「Ｎｏ」）、文区切り単語が発話されていないと判断して（Ｓ４３４）、動作を終了する。

以上、起動ワード音声認識による文区切り判断フローの詳細について説明した。以上においては、文区切り単語が発話されたか否かを判断する手法の例として、起動ワード認識処理フローＳ４３１を利用する例を説明した。しかし、文区切り単語が発話されたか否かを判断する手法は、かかる例に限定されない。例えば、出力制御部１４６は、音声認識部１４５による音声認識の途中結果が得られた場合には、音声認識の途中結果に基づいて文区切り単語が発話されたか否かを判断してもよい（音声認識の途中結果に起動ワードが含まれるか否かによって、集音データに起動ワードが含まれるか否かを判断してよい）。

図１９は、音声認識の途中結果に基づいて文区切り単語が発話されたか否かを判断する動作の流れの例を示すフローチャートである。なお、図１９のフローチャートは、音声認識の途中結果に基づいて文区切り単語が発話されたか否かを判断する動作の例に過ぎないため、音声認識の途中結果に基づいて文区切り単語が発話されたか否かを判断する動作の流れは、図１９のフローチャートに示された例に限定されない。

まず、音声認識部１４５は、集音データに対する音声認識処理を行う（Ｓ５１）。続いて、出力制御部１４６は、音声認識の途中結果が取得されない場合には（Ｓ５２において「Ｎｏ」）、動作をＳ５１に移行させるが、音声認識の途中結果が取得された場合には（Ｓ５２において「Ｙｅｓ」）、途中結果を分割する（Ｓ５３）。途中結果の分割には、形態素解析を用いて途中結果を形態素に分割する処理が用いられてよい。続いて、出力制御部１４６は、分割によって得られた文字列（分割文字列）の数だけ繰り返し処理（Ｓ５４〜Ｓ５８）を行う。

出力制御部１４６は、繰り返し処理（Ｓ５４〜Ｓ５８）の中においては、分割文字列が起動ワード登録ＤＢに登録されているか否かを判断し（Ｓ５５）、分割文字列が起動ワード登録ＤＢに登録されていると判断した場合（Ｓ５５において「Ｙｅｓ」）、文区切り単語が発話されていないと判断して（Ｓ５７）、繰り返し処理の始端（Ｓ５４）に戻る。一方、出力制御部１４６は、分割文字列が起動ワード登録ＤＢに登録されていないと判断した場合（Ｓ５５において「Ｎｏ」）、文区切り単語が発話されていると判断して（Ｓ５６）、繰り返し処理（Ｓ５４〜Ｓ５８）を抜ける。以上、音声認識の途中結果に基づいて文区切り単語が発話されたか否かを判断する動作について説明した。

［１．４．音声認識の適性判断の変形例］
以上においては、集音データの量が所定の許容範囲内であるか否かによって集音データの状態が音声認識に適した状態であるか否かを判断する例を説明した。しかし、集音データの状態が音声認識に適した状態であるか否かは、他の手法によって判断されてもよい。例えば、複数の文章が集音データに入ってしまうと集音データに対する音声認識の精度が向上しないことが想定される。そこで、出力制御部１４６は、集音データに起動ワードが含まれるか否かによって集音データの状態が音声認識に適した状態であるか否かを判断してもよい。

すなわち、出力制御部１４６は、集音データに起動ワードが含まれるか否かを集音データの状態が音声認識に適した状態であるか否かとして出力部１３０に出力させてもよい。以下では、かかる音声認識の適性判断の変形例について説明する。図２０は、音声認識の適性判断の変形例に係る動作の流れについて説明する。図２０は、音声認識の適性判断の変形例に係る動作の流れの例を示すフローチャートである。なお、図２０のフローチャートは、音声認識の適性判断の変形例に係る動作の例に過ぎないため、音声認識の適性判断の変形例に係る動作の流れは、図２０のフローチャートに示された例に限定されない。

まず、出力制御部１４６は、集音データが取得されたか否かを判定し（Ｓ６１）、集音データが取得されない場合には（Ｓ６１において「Ｎｏ」）、動作を終了させるが、集音データが取得された場合には（Ｓ６１において「Ｙｅｓ」）、集音データを分割し（Ｓ６２）、起動ワード音声認識による文区切り判断フローを実行する（Ｓ４３）。起動ワード音声認識による文区切り判断フローは、既に述べた通りに実行され得る。

続いて、出力制御部１４６は、文区切り単語が発話されたと判断した場合には（Ｓ６４において「Ｙｅｓ」）、集音データの状態が音声認識に適した状態であると判断して（Ｓ６５）、集音データの状態が音声認識に適した状態であることを示すようにＵＩ（画面）を更新し（Ｓ６６）、Ｓ６１に動作を移行させる。一方、出力制御部１４６は、文区切り単語が発話されていないと判断した場合には（Ｓ６４において「Ｎｏ」）、集音データの状態が音声認識に適した状態でないと判断して（Ｓ６７）、集音データの状態が音声認識に適した状態でないことを示すようにＵＩ（画面）を更新し（Ｓ６８）、Ｓ６１に動作を移行させる。

以上、音声認識の適性判断の変形例について説明した。

［１．５．表示形態の変形例］
上記においては、出力部１３０がテーブルＴｂｌの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、出力部１３０による表示形態は、かかる例に限定されない。以下では、出力部１３０による表示形態の変形例について説明する。図２１は、出力部１３０による表示形態の変形例を示す図である。図２１に示すように、情報処理システム１０が携帯端末である場合に、出力部１３０は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。

［１．６．ハードウェア構成例］
次に、図２２を参照して、本開示の実施形態に係る情報処理システム１０のハードウェア構成について説明する。図２２は、本開示の実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。

図２２に示すように、情報処理システム１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇｕｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０３、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０５を含む。また、情報処理システム１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理システム１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理システム１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理システム１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理システム１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理システム１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

ストレージ装置９１９は、情報処理システム１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理システム１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理システム１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理システム１０と外部接続機器９２９との間で各種のデータが交換され得る。

通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

撮像装置９３３は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理システム１０の筐体の姿勢など、情報処理システム１０自体の状態に関する情報や、情報処理システム１０の周辺の明るさや騒音など、情報処理システム１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

以上、情報処理システム１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

＜２．むすび＞
以上説明したように、本開示の実施形態によれば、集音データを取得する集音データ取得部１４２と、少なくとも集音データの状態が音声認識に適した状態であるか否かを出力部に出力させる出力制御部１４６と、を備える、情報処理装置１４０が提供される。かかる構成によれば、ユーザは集音データの状態が音声認識に適した状態であるか否かを把握することによって発話を調整することができるため、集音データに対する音声認識の精度を向上させることが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記においては、出力部１３０による表示形態の変形例を説明したが、出力部１３０による表示形態は、上記した例に限定されない。例えば、出力部１３０は、ヘッドマウントディスプレイ以外のウェアラブル端末（例えば、時計、眼鏡など）に備わるディスプレイであってもよい。また、例えば、出力部１３０は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、出力部１３０は、ヘルスケア分野において利用されるディスプレイであってもよい。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した情報処理システム１０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

また、出力制御部１４６は、出力部１３０に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部１３０に出力することで、当該表示内容が出力部１３０に表示されるように出力部１３０を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

具体的な一例として、情報処理装置１４０を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

なお、上述した情報処理システム１０の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０、操作入力部１１５および集音部１２０と出力部１３０と情報処理装置１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０、操作入力部１１５および集音部１２０と出力部１３０とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

また、情報処理装置１４０が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部１４１と、集音データ取得部１４２と、操作検出部１４３と、認識制御部１４４と、音声認識部１４５と、出力制御部１４６とのうち、一部は情報処理装置１４０とは異なる装置に存在していてもよい。例えば、音声認識部１４５は、入力画像取得部１４１と、集音データ取得部１４２と、操作検出部１４３と、認識制御部１４４と、出力制御部１４６とを備える情報処理装置１４０とは異なるサーバに存在していてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
集音データを取得する集音データ取得部と、
少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させる出力制御部と、
を備える、情報処理装置。
（２）
前記出力制御部は、前記集音データの量が所定の許容範囲内であるか否かを前記集音データの状態が前記音声認識に適した状態であるか否かとして前記出力部に出力させる、
前記（１）に記載の情報処理装置。
（３）
前記出力制御部は、前記集音データの量が前記許容範囲の下限値より小さい場合、前記集音データの状態が前記音声認識に適していない状態である旨を前記出力部に出力させる、
前記（２）に記載の情報処理装置。
（４）
前記出力制御部は、前記集音データの量が前記許容範囲の上限値より大きい場合、前記集音データの状態が前記音声認識に適していない状態である旨を前記出力部に出力させる、
前記（２）または（３）に記載の情報処理装置。
（５）
前記出力制御部は、前記集音データの量が前記許容範囲の下限値より大きい場合、かつ、前記集音データの量が前記許容範囲の上限値より小さい場合には、前記集音データの状態が前記音声認識に適した状態である旨を前記出力部に出力させる、
前記（２）〜（４）のいずれか一項に記載の情報処理装置。
（６）
前記出力制御部は、前記許容範囲の下限値および上限値の少なくともいずれか一方を前記出力部に出力させる、
前記（２）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記出力制御部は、前記集音データの量を前記出力部に出力させる、
前記（１）〜（６）のいずれか一項に記載の情報処理装置。
（８）
前記集音データの量は、前記集音データの時間的な長さを含む、
前記（６）に記載の情報処理装置。
（９）
前記集音データの量は、前記集音データから抽出される音素の数を含む、
前記（６）に記載の情報処理装置。
（１０）
前記集音データの量は、前記集音データのうち音声らしい区間の時間的な長さを含む、
前記（６）に記載の情報処理装置。
（１１）
前記出力制御部は、前記許容範囲の下限値および上限値の少なくともいずれか一方を更新する、
前記（２）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記出力制御部は、ノイズ量に基づいて前記許容範囲の前記下限値および前記上限値の少なくともいずれか一方を更新する、
前記（１１）に記載の情報処理装置。
（１３）
前記出力制御部は、前記ノイズ量が大きいほど前記上限値が大きくなるように前記上限値を更新する、
前記（１２）に記載の情報処理装置。
（１４）
前記出力制御部は、前記集音データに文頭または文末を示す所定の表現が含まれるか否かを前記集音データの状態が前記音声認識に適した状態であるか否かとして前記出力部に出力させる、
前記（１）に記載の情報処理装置。
（１５）
前記出力制御部は、前記音声認識の途中結果が得られた場合には、前記途中結果に前記所定の表現が含まれるか否かによって、前記集音データに前記所定の表現が含まれるか否かを判断する、
前記（１４）に記載の情報処理装置。
（１６）
前記情報処理装置は、
前記集音データの一部または全部に対する音声認識を行わせる認識制御部を備える、
前記（１）〜（１５）のいずれか一項に記載の情報処理装置。
（１７）
前記認識制御部は、前記集音データにおいて音量が所定の音量を下回る時間が閾値を超えたタイミングに基づいて、前記音声認識を行わせる区間の終端を決定する、
前記（１６）に記載の情報処理装置。
（１８）
前記出力制御部は、前記集音データに文頭または文末を示す所定の表現が含まれる場合に、前記閾値を更新する、
前記（１７）に記載の情報処理装置。
（１９）
集音データを取得することと、
少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させることと、
を含む、情報処理方法。
（２０）
コンピュータを、
集音データを取得する集音データ取得部と、
少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させる出力制御部と、
を備える情報処理装置として機能させるためのプログラム。

１０情報処理システム
１１０画像入力部
１１５操作入力部
１２０集音部
１３０出力部
１４０情報処理装置（制御部）
１４１入力画像取得部
１４２集音データ取得部
１４３操作検出部
１４４認識制御部
１４５音声認識部
１４６出力制御部

Claims

集音データを取得する集音データ取得部と、
少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させる出力制御部と、
を備える、情報処理装置。
前記出力制御部は、前記集音データの量が所定の許容範囲内であるか否かを前記集音データの状態が前記音声認識に適した状態であるか否かとして前記出力部に出力させる、
請求項１に記載の情報処理装置。
前記出力制御部は、前記集音データの量が前記許容範囲の下限値より小さい場合、前記集音データの状態が前記音声認識に適していない状態である旨を前記出力部に出力させる、
請求項２に記載の情報処理装置。
前記出力制御部は、前記集音データの量が前記許容範囲の上限値より大きい場合、前記集音データの状態が前記音声認識に適していない状態である旨を前記出力部に出力させる、
請求項２に記載の情報処理装置。
前記出力制御部は、前記集音データの量が前記許容範囲の下限値より大きい場合、かつ、前記集音データの量が前記許容範囲の上限値より小さい場合には、前記集音データの状態が前記音声認識に適した状態である旨を前記出力部に出力させる、
請求項２に記載の情報処理装置。
前記出力制御部は、前記許容範囲の下限値および上限値の少なくともいずれか一方を前記出力部に出力させる、
請求項２に記載の情報処理装置。
前記出力制御部は、前記集音データの量を前記出力部に出力させる、
請求項１に記載の情報処理装置。
前記集音データの量は、前記集音データの時間的な長さを含む、
請求項６に記載の情報処理装置。
前記集音データの量は、前記集音データから抽出される音素の数を含む、
請求項６に記載の情報処理装置。
前記集音データの量は、前記集音データのうち音声らしい区間の時間的な長さを含む、
請求項６に記載の情報処理装置。
前記出力制御部は、前記許容範囲の下限値および上限値の少なくともいずれか一方を更新する、
請求項２に記載の情報処理装置。
前記出力制御部は、ノイズ量に基づいて前記許容範囲の前記下限値および前記上限値の少なくともいずれか一方を更新する、
請求項１１に記載の情報処理装置。
前記出力制御部は、前記ノイズ量が大きいほど前記上限値が大きくなるように前記上限値を更新する、
請求項１２に記載の情報処理装置。
前記出力制御部は、前記集音データに文頭または文末を示す所定の表現が含まれるか否かを前記集音データの状態が前記音声認識に適した状態であるか否かとして前記出力部に出力させる、
請求項１に記載の情報処理装置。
前記出力制御部は、前記音声認識の途中結果が得られた場合には、前記途中結果に前記所定の表現が含まれるか否かによって、前記集音データに前記所定の表現が含まれるか否かを判断する、
請求項１４に記載の情報処理装置。
前記情報処理装置は、
前記集音データの一部または全部に対する音声認識を行わせる認識制御部を備える、
請求項１に記載の情報処理装置。
前記認識制御部は、前記集音データにおいて音量が所定の音量を下回る時間が閾値を超えたタイミングに基づいて、前記音声認識を行わせる区間の終端を決定する、
請求項１６に記載の情報処理装置。
前記出力制御部は、前記集音データに文頭または文末を示す所定の表現が含まれる場合に、前記閾値を更新する、
請求項１７に記載の情報処理装置。
集音データを取得することと、
少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させることと、
を含む、情報処理方法。
コンピュータを、
集音データを取得する集音データ取得部と、
少なくとも前記集音データの状態が音声認識に適した状態であるか否かを出力部に出力させる出力制御部と、
を備える情報処理装置として機能させるためのプログラム。