WO2018016139A1

WO2018016139A1 - 情報処理装置、および情報処理方法

Info

Publication number: WO2018016139A1
Application number: PCT/JP2017/014916
Authority: WO
Inventors: 祐平滝; 真一河野
Original assignee: ソニー株式会社
Priority date: 2016-07-19
Filing date: 2017-04-12
Publication date: 2018-01-25
Also published as: JP7014163B2; CN109074807A; EP3489949A1; EP3489949A4; US20190147870A1; JPWO2018016139A1

Abstract

音声認識の結果と、発話に関する情報とに基づいて、音声認識において誤りが生じうる要因を判定する判定部と、判定された要因を通知させる通知制御部と、を備える、情報処理装置が、提供される。

Description

情報処理装置、および情報処理方法

　本開示は、情報処理装置、および情報処理方法に関する。

　音声認識の結果に誤りがあった場合に当該誤りを訂正する技術が開発されている。上記技術としては、例えば下記の特許文献１に記載の技術が挙げられる。

特開２０１０－５５０４４号公報

　例えば特許文献１に記載の技術のような音声認識の結果の誤りを訂正する技術が存在するように、様々な要因によって音声認識には誤りが生じうる。上記のような音声認識の結果の誤りを訂正する技術が用いられる場合には誤りが訂正されることから、発話者は、音声認識に誤りを生じさせる要因を気にすることなく発話を行うことができる可能性がある。

　しかしながら、上記のような音声認識の結果の誤りを訂正する技術が用いられたとしても、発話者には、音声認識に誤りが生じた要因が通知されない。また、上記のような音声認識の結果の誤りを訂正する技術が用いられたとしても、例えば、音声認識の結果の誤りを訂正することができないことや、訂正結果が誤っていることなどにより、発話者が意図した音声認識結果が得られない場合もありうる。そのため、上記のような音声認識の結果の誤りを訂正する技術が用いられたとしても、例えば“音声認識の結果を修正するために、発話者が何度同じ内容の発話を繰り返しても、発話者が期待する音声認識の結果が得られない状況”のような、発話者の利便性を損ねる状況が生じうる。

　本開示では、発話者の利便性の向上を図ることが可能な、新規かつ改良された情報処理装置、および情報処理方法を提案する。

　本開示によれば、音声認識の結果と、発話に関する情報とに基づいて、上記音声認識において誤りが生じうる要因を判定する判定部と、判定された上記要因を通知させる通知制御部と、を備える、情報処理装置が、提供される。

　また、本開示によれば、音声認識の結果と、発話に関する情報とに基づいて、上記音声認識において誤りが生じうる要因を判定するステップと、判定された上記要因を通知させるステップと、を有する、情報処理装置により実行される情報処理方法が、提供される。

　本開示によれば、発話者の利便性の向上を図ることができる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握されうる他の効果が奏されてもよい。

本実施形態に係る音量に起因する要因の通知の第１の例を示す説明図である。本実施形態に係る音量に起因する要因の通知の第２の例を示す説明図である。本実施形態に係る環境ノイズに起因する要因の通知の例を示す説明図である。本実施形態に係る発話速度に起因する要因の通知の第１の例を示す説明図である。本実施形態に係る発話速度に起因する要因の通知の第２の例を示す説明図である。本実施形態に係る音声認識処理に起因する要因の通知の第１の例を示す説明図である。本実施形態に係る音声認識処理に起因する要因の通知の第２の例を示す説明図である。本実施形態に係る音声認識処理に起因する要因の通知の第３の例を示す説明図である。本実施形態に係る複数の要因の通知の例を示す説明図である。本実施形態に係る情報処理方法に係る処理の一例を示す流れ図である。本実施形態に係る情報処理方法に係る処理の一例を示す流れ図である。本実施形態に係る情報処理装置を含む本実施形態に係る情報処理システムの一例を示す説明図である。本実施形態に係る情報処理装置の構成の一例を示すブロック図である。本実施形態に係る情報処理装置のハードウェア構成の一例を示す説明図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、以下では、下記に示す順序で説明を行う。
　　１．本実施形態に係る情報処理方法
　　２．本実施形態に係る情報処理装置
　　３．本実施形態に係るプログラム

（本実施形態に係る情報処理方法）
　まず、本実施形態に係る情報処理方法について説明する。以下では、本実施形態に係る情報処理方法に係る処理を、本実施形態に係る情報処理装置が行う場合を例に挙げる。

［１］本実施形態に係る情報処理方法の概要
　上述したように、様々な要因によって音声認識には誤りが生じうる。また、発話者が音声認識に誤りが生じうる要因を把握できない場合には、発話者は、どうすれば音声認識の結果が修正されるのかが分からないので、上述したような発話者の利便性を損ねる状況が生じうる。

　そこで、本実施形態に係る情報処理装置は、音声認識において誤りが生じうる要因（以下、単に「要因」と示す場合がある。）を判定する。そして、本実施形態に係る情報処理装置は、判定された要因を通知させる。

　本実施形態に係る情報処理装置が、音声認識に誤りが生じうる要因を判定して、判定された要因を通知させることによって、例えば通知を受けた発話者は、音声認識に誤りが生じうる要因を把握することができる。また、通知を受けた発話者は、音声認識に誤りが生じうる要因を把握することにより、どうすれば音声認識の結果が修正されるのかを、より容易に理解することができる。

　よって、本実施形態に係る情報処理装置が、音声認識に誤りが生じうる要因を判定して、判定された要因を通知させることによって、上述したような発話者の利便性を損ねる状況が生じる可能性を低減することが可能となる。

　したがって、本実施形態に係る情報処理方法に係る処理が行われることによって、発話者の利便性の向上を図ることができる。

　より具体的には、本実施形態に係る情報処理装置は、本実施形態に係る情報処理方法に係る処理として、下記に示す判定処理および通知制御処理を行う。

（１）判定処理
　本実施形態に係る情報処理装置は、音声認識の結果と、発話に関する情報とに基づいて、音声認識において誤りが生じうる要因を判定する。

　本実施形態に係る音声認識の結果は、例えば、発話者の発話音声を含む音声信号（デジタル信号またはアナログ信号）から発話内容を示す文字（または文字列。以下、同様とする。）を得る音声認識処理が行われた結果である。音声認識の結果としては、発話内容を示す文字を示すデータが挙げられる。

　ここで、発話者の発話音声を含む音声信号は、マイクロホンなどの音声入力デバイスにより生成される。上記音声入力デバイスは、本実施形態に係る情報処理装置が備えるデバイスであってもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。

　また、音声認識処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。

　本実施形態に係る発話に関する情報としては、例えば下記に示す情報のうちの１または２以上が挙げられる。
　　・発話の音量を示す情報
　　・環境ノイズを示す情報
　　・発話速度を示す情報
　　・音声認識処理に関する情報

　本実施形態に係る発話の音量を示す情報としては、例えば、発話者の発話音声を含む音声信号が示す発話音声の音量が数値化されたデータや、発話者の発話音声の波形データが挙げられる。発話の音量を示す情報の生成に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。発話の音量を示す情報の生成に係る処理には、例えば、フィルタなどを利用して音声信号から発話音声とノイズとを分離させる任意の信号処理が含まれうる。なお、発話音声とノイズとを分離する方法は、上記に示す例に限られず、複数の音声入力デバイスによりそれぞれ生成された複数の音声信号に基づいて発話音声とノイズとを分離させることも可能である。

　なお、本実施形態に係る発話の音量を示す情報は、上記に示す例に限られない。例えば、発話の音量を示す情報には、音声入力デバイスと発話者との距離を示すデータが含まれていてもよい。音声入力デバイスと発話者との距離は、例えば、“音声入力デバイスの近傍に設置され、音声入力デバイスにおける特定の集音方向における物体との距離を検出することが可能な、任意の方式の距離センサ”などにより取得される。

　本実施形態に係る環境ノイズを示す情報としては、例えば、環境ノイズの音量が数値化されたデータが挙げられる。環境ノイズを示す情報の生成に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。環境ノイズを示す情報の生成に係る処理には、例えば、フィルタなどを利用して音声信号から発話音声とノイズとを分離させる信号処理などの、音声信号に基づき発話音声とノイズとを分離させることが可能な任意の処理が含まれる。

　本実施形態に係る発話速度を示す情報としては、例えば、発話速度が数値化されたデータが挙げられる。発話速度を示す情報の生成に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。発話速度を示す情報の生成に係る処理としては、例えば、発話音声を示す音声信号のスペクトルの変化量に基づき発話速度を推定する処理など、発話速度を推定することが可能な任意の処理が、挙げられる。また、発話速度を示す情報の生成に係る処理には、例えば、フィルタなどを利用して音声信号から発話音声とノイズとを分離させる信号処理などの、音声信号に基づき発話音声とノイズとを分離させることが可能な処理が、含まれていてもよい。

　本実施形態に係る音声認識処理に関する情報としては、例えば、音声認識処理における音声認識の結果の候補数を示すデータや、音声認識処理における音声認識の結果の信頼度を示すデータが挙げられる。ここで、上記候補数としては、例えば、言語的にありえない認識結果が除外された音声認識の結果の候補数、または、言語的にありえない認識結果を含む音声認識の結果の候補数が、挙げられる。上記候補数および上記信頼度それぞれの算出方法は、音声認識処理を実現可能なアルゴリズム（または音声認識エンジン）に依存する。

　本実施形態に係る発話に関する情報としては、例えば上記に示す情報のうちの１または２以上が挙げられる。上記のような発話に関する情報を用いた判定処理の一例については、後述する。

　本実施形態に係る情報処理装置は、例えば、音声認識の結果における所定の単位ごとに、要因を判定する。

　本実施形態に係る音声認識の結果における所定の単位としては、例えば、文節、単語、形態素解析などにより分割された単位など、音声認識の結果が任意の方法により分割された単位が、挙げられる。以下では、音声認識の結果における所定の単位が、文節である場合を主に例に挙げる。

　なお、本実施形態に係る情報処理装置は、音声認識の結果の全体に対して要因を判定してもよい。

（２）通知制御処理
　本実施形態に係る情報処理装置は、上記判定処理により判定された要因を通知させる。

　本実施形態に係る情報処理装置は、例えば、表示デバイスの表示画面に判定された要因を表示させることによって、判定された要因を視覚的に通知させる。上記表示デバイスは、本実施形態に係る情報処理装置が備えるデバイスであってもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。

　本実施形態に係る情報処理装置は、例えば、表示命令と通知内容を示すデータとを含む制御信号を表示デバイスに対して送信することによって、判定された要因を視覚的に通知させる。上記制御信号の送信は、例えば、本実施形態に係る情報処理装置が備える通信デバイス、または、本実施形態に係る情報処理装置に接続される外部の通信デバイスを介して行われる。

　また、本実施形態に係る情報処理装置は、例えばスピーカなどの音声出力デバイスから判定された要因を示す音声を出力させることによって、判定された要因を聴覚的に通知させることも可能である。上記音声出力デバイスは、本実施形態に係る情報処理装置が備えるデバイスであってもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。

　本実施形態に係る情報処理装置は、例えば、出力命令と通知内容を示す音声データとを含む制御信号を音声出力デバイスに対して送信することによって、判定された要因を聴覚的に通知させる。上記制御信号の送信は、例えば、本実施形態に係る情報処理装置が備える通信デバイスなどを介して行われる。

　なお、本実施形態に係る通知制御処理は、上記に示す例に限られない。例えば、本実施形態に係る情報処理装置は、上記視覚的な通知と上記聴覚的な通知との双方によって、判定された要因を通知させてもよい。

　上記判定処理において、音声認識の結果における所定の単位ごとに要因が判定される場合には、本実施形態に係る情報処理装置は、例えば、音声認識の結果における所定の単位ごとに要因を通知させる。また、上記判定処理において、音声認識の結果の全体に対して要因が判定される場合には、本実施形態に係る情報処理装置は、音声認識の結果の全体に対して、要因を通知させる。なお、本実施形態に係る通知制御処理が行われることによる判定された要因の通知の一例については、後述する。

　本実施形態に係る情報処理装置は、本実施形態に係る情報処理方法に係る処理として、例えば、上記判定処理および上記通知制御処理を行う。

　本実施形態に係る情報処理方法に係る処理が行われることによって、音声認識に誤りが生じうる要因が判定され、判定された要因が通知される。そのため、上述したように、例えば通知を受けた発話者は、音声認識に誤りが生じうる要因を把握することができるので、どうすれば音声認識の結果が修正されるのかを、より容易に理解することができる。

　また、本実施形態に係る情報処理装置が、音声認識の結果における所定の単位ごとに、判定された要因を通知させる場合には、例えば通知を受けた発話者に、発話におけるどの箇所を修正すべきであるかをより容易に理解させることが可能となる。

　したがって、本実施形態に係る情報処理方法に係る処理として、例えば、上記判定処理および上記通知制御処理が行われることによって、上述したような発話者の利便性を損ねる状況が生じる可能性を低減することが可能となる。また、本実施形態に係る情報処理方法に係る処理が行われることによって、発話者の利便性の向上を図ることができる。

　なお、上記判定処理および上記通知制御処理は、便宜上、本実施形態に係る情報処理方法に係る処理を切り分けたものである。よって、本実施形態に係る情報処理方法に係る処理は、例えば、上記判定処理および上記通知制御処理を、１つの処理と捉えることが可能である。また、本実施形態に係る情報処理方法に係る処理は、例えば、任意の切り分け方によって３以上の処理と捉えることも可能である。

［２］本実施形態に係る情報処理方法に係る処理の一例
　次に、本実施形態に係る情報処理方法に係る処理について、より具体的に説明する。

　以下では、本実施形態に係る情報処理方法に係る通知制御処理によって、判定された要因が視覚的に通知される場合を例に挙げる。

　また、以下では、音声認識の結果における文節（所定の単位の一例）ごとに要因が判定され、当該文節ごとに判定された要因が通知される場合を例に挙げる。

　さらに、以下では、発話の言語が英語である場合を例に挙げる。なお、本実施形態に係る情報処理方法に係る処理が適用可能な言語は、英語に限られない。本実施形態に係る情報処理方法に係る処理は、例えば、日本語、ドイツ語、フランス語、スペイン語、中国語などの、音声認識処理により音声認識の結果が得られうる、任意の言語に適用することが可能である。

［２－１］情報処理方法に係る処理の第１の例：音量に起因する要因の通知に係る処理
　第１の例に係る処理として、音量に起因する要因を通知させる処理の一例を説明する。

　ここで、本実施形態に係る音量に起因する要因とは、発話の音量が大きすぎること、または、発話の音量が小さすぎることである。発話の音量が大きすぎるとは、例えば、音割れが生じることに該当する。また、発話の音量が小さすぎるとは、例えば、マイクロホンなどの音声入力デバイスにより発話の集音がされていないことに該当する。

［２－１－１］判定処理の第１の例
　本実施形態に係る情報処理装置は、発話の音量を示す情報（発話に関する情報の一例）に基づいて、音量に起因する要因を判定する。

　まず、音量に起因する要因として発話の音量が大きすぎることを判定する例について、説明する。

　音量に起因する要因として発話の音量が大きすぎることを判定する場合、本実施形態に係る情報処理装置は、例えば、発話の音量を示す情報が示す音量（数値）と、設定されている閾値とを比較して、発話の音量が大きすぎるか否かを判定する。本実施形態に係る情報処理装置は、発話の音量を示す情報が示す音量が所定の閾値より大きい場合（または、当該音量が当該所定の閾値以上である場合）に、発話の音量が大きすぎると判定する。発話の音量が大きすぎると判定された場合が、音量に起因する要因が存在する場合に該当する。

　ここで、発話の音量が大きすぎることの判定に係る閾値としては、例えば、発話者に対応付けられる値、発話者の属性に基づき決定される値、発話者に依存しない値のうちのいずれかが挙げられる。

　発話の音量が大きすぎることの判定に係る発話者に対応付けられる値としては、例えば、発話者の発話全体における音量の平均値に所定の調整値を加算した値が挙げられる。上記調整値は、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作や、音声入力デバイスと発話者との距離などに基づき変更可能な可変値であってもよい。

　また、発話の音量が大きすぎることの判定に係る発話者に対応付けられる値は、例えば発話者に対応するＩＤと閾値とが対応付けれているテーブル（または、データベース）などに、予め設定されている閾値であってもよい。本実施形態に係る情報処理装置は、例えば、撮像画像に基づく顔認証などの任意の方式の認証などにより特定された発話者のＩＤと、上記発話者に対応するＩＤと閾値とが対応付けれているテーブルとに基づいて、発話者に対応付けられる値を特定する。上記発話者に対応するＩＤと閾値とが対応付けれているテーブルは、例えば、本実施形態に係る情報処理装置が備える記憶部（後述する）や、本実施形態に係る情報処理装置の外部の記録媒体などの、記録媒体に記憶される。

　発話の音量が大きすぎることの判定に係る発話者の属性に基づき決定される値としては、例えば、下記に示すような発話者の属性に対応付けられている値、または、下記に示すような発話者の属性から任意のアルゴリズムに従って求められる値が、挙げられる。なお、発話の音量が大きすぎることの判定に係る発話者の属性の例が、上記に示す例に限られないことは、言うまでもない。
　　・発話者の性別
　　・発話者の年齢（または年代）
　　・これらの組み合わせ

　上記発話者の性別と年齢（または年代）とは、例えば、撮像デバイスにより発話者が撮像された撮像画像から推定される。上記撮像デバイスは、本実施形態に係る情報処理装置が備えるデバイスであってもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。なお、発話の音量が大きすぎることの判定に係る発話者の属性を推定する処理（または発話者の属性を特定する処理）は、上記に限られず、発話者の属性を推定することが可能な任意の処理であってもよい。また、発話者の属性を推定する処理（または発話者の属性を特定する処理）は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。

　発話者に依存しない値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。

　なお、発話の音量が大きすぎることを判定する処理は、上記に示す例に限られない。

　例えば、本実施形態に係る情報処理装置は、発話の音量を示す情報が示す発話者の発話音声の波形パターンから、設定されている所定の波形パターンを検出することによって、発話の音量が大きすぎることを判定してもよい。本実施形態に係る情報処理装置は、例えば、発話音声の波形パターンからクリップしている波形（所定の波形パターンの一例）が検出された場合に、発話の音量が大きすぎると判定する。

　次に、音量に起因する要因として発話の音量が小さすぎることを判定する例について、説明する。

　音量に起因する要因として発話の音量が小さすぎることを判定する場合、本実施形態に係る情報処理装置は、例えば、発話の音量を示す情報が示す音量（数値）と、設定されている閾値とを比較して、発話の音量が小さすぎるか否かを判定する。本実施形態に係る情報処理装置は、発話の音量を示す情報が示す音量が所定の閾値より小さい場合（または、当該音量が当該所定の閾値以下である場合）に、発話の音量が小さすぎると判定する。発話の音量が小さすぎると判定された場合が、音量に起因する要因が存在する場合に該当する。

　ここで、発話の音量が小さすぎることの判定に係る閾値としては、例えば、発話者に対応付けられる値、発話者の属性に基づき決定される値、発話者に依存しない値のうちのいずれかが挙げられる。

　発話の音量が小さすぎることの判定に係る発話者に対応付けられる値としては、例えば、発話者の発話全体における音量の平均値に所定の調整値を減算した値が挙げられる。上記調整値は、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作や、音声入力デバイスと発話者との距離などに基づき変更可能な可変値であってもよい。また、発話の音量が小さすぎることの判定に係る調整値と、上述した発話の音量が大きすぎることの判定に係る調整値とは、同一であってもよいし、異なっていてもよい。

　また、発話の音量が小さすぎることの判定に係る発話者に対応付けられる値は、例えば発話の音量が大きすぎることの判定に係る発話者に対応付けられる値と同様に、発話者に対応するＩＤと閾値とが対応付けれているテーブル（または、データベース）などに、予め設定されている閾値であってもよい。

　発話の音量が小さすぎることの判定に係る発話者の属性に基づき決定される値としては、例えば、下記に示すような発話者の属性に対応付けられている値、または、下記に示すような発話者の属性から任意のアルゴリズムに従って求められる値が、挙げられる。なお、発話の音量が小さすぎることの判定に係る発話者の属性の例が、上記に示す例に限られないことは、言うまでもない。
　　・発話者の性別
　　・発話者の年齢（または年代）
　　・これらの組み合わせ

　なお、発話の音量が小さすぎることを判定する処理は、上記に示す例に限られない。

　例えば、発話の音量を示す情報には、音声入力デバイスと発話者との距離を示すデータが含まれている場合、本実施形態に係る情報処理装置は、音声入力デバイスと発話者との距離に基づいて、発話の音量が小さすぎることを判定してもよい。本実施形態に係る情報処理装置は、例えば、音声入力デバイスと発話者との距離が、設定されている距離に係る閾値より大きい場合（または、当該距離が当該閾値以上である場合）に、発話の音量が小さすぎると判定する。距離に係る閾値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。

［２－１－２］通知制御処理の第１の例
　本実施形態に係る情報処理装置は、判定された音量に起因する要因を通知させる。

　図１は、本実施形態に係る音量に起因する要因の通知の第１の例を示す説明図であり、発話の音量が大きすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。

　図１は、発話者が“I　want　to　bring　the　document　to　him”と発話をしたときに、音声認識の結果が“I　want　to　ring　the　document　to　him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。

　本実施形態に係る情報処理装置は、例えば、発話の音量（以下、「発話音量」と示す場合がある。）を、文節ごとに表示させる。図１では、本実施形態に係る情報処理装置が、発話音量に対応する波形を文節ごとに表示させている例を示している。ここで、発話者の発話音声を含む音声信号と音声認識の結果とは、例えば、音声認識処理を実現するための音声認識エンジンなどにより対応付けられる。

　本実施形態に係る情報処理装置は、例えば図１のＡの“ring”部分に示すように、発話の音量が大きすぎると判定された部分の波形を、クリップしている波形として表示させることによって、発話の音量が大きすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する。

　また、本実施形態に係る情報処理装置は、例えば図１のＢの“ring”部分に示すように、音量に起因する要因が存在すると判定された部分と他の部分とを色分けすること、音量に起因する要因が存在すると判定された部分に枠を表示させることなどによって、音量に起因する要因が存在すると判定された部分を強調して表示させてもよい。

　なお、発話の音量が大きすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図１に示す例に限られないことは、言うまでもない。

　図２は、本実施形態に係る音量に起因する要因の通知の第２の例を示す説明図であり、発話の音量が小さすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。

　図２は、発話者が“I　want　to　bring　the　document　to　him”と発話をしたときに、音声認識の結果が“I　want　to　ring　the　document　to　him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。

　本実施形態に係る情報処理装置は、例えば発話音量を文節ごとに表示させる。図２では、本実施形態に係る情報処理装置が、図１に示す例と同様に、発話音量に対応する波形を文節ごとに表示させている例を示している。

　本実施形態に係る情報処理装置は、例えば図２のＡの“ring”部分に示すように、発話の音量が大きすぎると判定された部分の波形を、他の部分の波形よりも小さく表示させることによって、発話の音量が小さすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する。

　また、本実施形態に係る情報処理装置は、例えば図２のＢの“ring”部分に示すように、音量に起因する要因が存在すると判定された部分と他の部分とを色分けすること、音量に起因する要因が存在すると判定された部分に枠を表示させることなどによって、音量に起因する要因が存在すると判定された部分を強調して表示させてもよい。

　また、本実施形態に係る情報処理装置は、例えば図２のＣの“ring”部分に示すように、音量に起因する要因が存在すると判定された部分のみ発話音量に対応する波形を表示させ、かつ、当該部分のみ強調して表示させてもよい。つまり、本実施形態に係る情報処理装置は、音量に起因する要因により音声認識において誤りが生じている可能性がある部分のみを、通知させることが可能である。

　なお、発話の音量が小さすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図２に示す例に限られないことは、言うまでもない。

［２－２］情報処理方法に係る処理の第２の例：環境ノイズに起因する要因の通知に係る処理
　第２の例に係る処理として、環境ノイズに起因する要因を通知させる処理の一例を説明する。

　ここで、本実施形態に係る環境ノイズに起因する要因とは、例えば、環境ノイズ（雑音）が大きすぎることである。環境ノイズが大きすぎるとは、例えば、音声認識の結果に影響を及ぼすほど環境ノイズが大きいことに該当する。

［２－２－１］判定処理の第２の例
　本実施形態に係る情報処理装置は、例えば、環境ノイズを示す情報（発話に関する情報の一例）に基づいて、環境ノイズに起因する要因を判定する。

　本実施形態に係る情報処理装置は、例えば、環境ノイズを示す情報が示す環境ノイズの音量（数値）と、設定されている閾値とを比較して、環境ノイズの音量が大きいか否かを判定する。本実施形態に係る情報処理装置は、環境ノイズを示す情報が示す環境ノイズの音量が所定の閾値より大きい場合（または、当該音量が当該所定の閾値以上である場合）に、環境ノイズの音量が大きいと判定する。環境ノイズの音量が大きいと判定された場合が、環境ノイズに起因する要因が存在する場合に該当する。

　ここで、環境ノイズの音量との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、環境ノイズの音量と発話者の発話全体における環境ノイズの音量の平均値との比率などにより変動する可変値であってもよい。

　なお、第２の例に係る判定処理は、上記に示す例に限られない。

　例えば、本実施形態に係る情報処理装置は、例えば、発話の音量を示す情報（発話に関する情報の一例）と環境ノイズを示す情報（発話に関する情報の一例）に基づいて、環境ノイズに起因する要因を判定してもよい。

　本実施形態に係る情報処理装置は、例えば、発話の音量を示す情報が示す音量（数値）と、環境ノイズを示す情報が示す環境ノイズの音量（数値）とに基づきＳＮ比（Signal-to-Noise　ratio）を算出する。そして、本実施形態に係る情報処理装置は、算出されたＳＮ比と、設定されている閾値とを比較して、環境ノイズの音量が大きいか否かを判定する。本実施形態に係る情報処理装置は、ＳＮ比が所定の閾値より小さい場合（または、ＳＮ比が当該所定の閾値以下である場合）に、環境ノイズの音量が大きいと判定する。

　ここで、ＳＮ比との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、発話の音量などにより変動する可変値であってもよい。

［２－２－２］通知制御処理の第２の例
　本実施形態に係る情報処理装置は、判定された環境ノイズに起因する要因を通知させる。

　図３は、本実施形態に係る環境ノイズに起因する要因の通知の例を示す説明図であり、環境ノイズが大きすぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。

　図３は、発話者が“I　want　to　bring　the　document　to　him”と発話をしたときに、音声認識の結果が“I　want　to　ring　the　document　to　him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。

　本実施形態に係る情報処理装置は、例えば、発話音量と環境ノイズの音量とを、文節ごとに表示させる。図３では、本実施形態に係る情報処理装置が、発話音量に対応する波形と環境ノイズの音量に対応する波形とを、文節ごとに表示させている例を示している。

　本実施形態に係る情報処理装置は、例えば図３のＡの“ring”部分および“the”部分に示すように、ノイズが大きいと判定された部分について、発話音量に対応する波形により規定される領域と環境ノイズの音量に対応する波形により規定される領域との重複部分が、他の部分よりも大きくなるように、表示させる。図３のＡに示すように表示させることによって、本実施形態に係る情報処理装置は、上記ＳＮ比が小さいこと、すなわち、ノイズが大きすぎることに起因して音声認識において誤りが生じている可能性があることを、視覚的に通知することができる。

　また、本実施形態に係る情報処理装置は、例えば図３のＢの“ring”部分および“the”部分に示すように、環境ノイズに起因する要因が存在すると判定された部分と他の部分とを色分けすること、環境ノイズに起因する要因が存在すると判定された部分に枠を表示させることなどによって、環境ノイズに起因する要因が存在すると判定された部分を強調して表示させてもよい。

　また、本実施形態に係る情報処理装置は、例えば図３のＣの“ring”部分および“the”部分に示すように、環境ノイズに起因する要因が存在すると判定された部分のみ発話音量に対応する波形などを表示させ、かつ、当該部分のみ強調して表示させてもよい。つまり、本実施形態に係る情報処理装置は、環境ノイズに起因する要因により音声認識において誤りが生じている可能性がある部分のみを、通知させることが可能である。

　なお、環境ノイズに起因する要因に起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図３に示す例に限られないことは、言うまでもない。

［２－３］情報処理方法に係る処理の第３の例：発話速度に起因する要因の通知に係る処理
　第３の例に係る処理として、発話速度に起因する要因を通知させる処理の一例を説明する。

　ここで、本実施形態に係る発話速度に起因する要因とは、例えば、発話速度が速すぎること、または、発話速度が遅すぎることである。発話速度が速すぎるとは、例えば、音声認識の結果に影響を及ぼすほど発話速度が速いことに該当する。また、発話速度が遅すぎるとは、例えば、音声認識の結果に影響を及ぼすほど発話速度が遅いことに該当する。

［２－３－１］判定処理の第３の例
　本実施形態に係る情報処理装置は、例えば、発話速度を示す情報（発話に関する情報の一例）に基づいて、発話速度に起因する要因を判定する。

　まず、発話速度に起因する要因として、発話速度が速すぎることを判定する例について、説明する。

　発話速度に起因する要因として発話速度が速すぎることを判定する場合、本実施形態に係る情報処理装置は、例えば、発話速度を示す情報が示す発話速度（数値）と、発話速度の標準値とを比較することによって、発話速度に起因する要因を判定する。本実施形態に係る情報処理装置は、発話速度を示す情報が示す発話速度が標準値より大きい場合（または、当該発話速度が当該標準値以上である場合）に、発話速度が速すぎると判定する。発話速度が速すぎると判定された場合が、発話速度に起因する要因が存在する場合に該当する。

　ここで、発話速度が速すぎることの判定に係る標準値は、発話速度が速すぎることの判定に係る閾値に該当する。また、発話速度が速すぎることの判定に係る標準値としては、例えば、発話者に対応付けられる値、発話者の属性に基づき決定される値、発話者に依存しない値のうちのいずれかが挙げられる。

　発話速度が速すぎることの判定に係る発話者に対応付けられる値としては、例えば、発話者の発話全体における発話速度の平均値に所定の調整値を加算した値が挙げられる。上記調整値は、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作や、音声入力デバイスと発話者との距離などに基づき変更可能な可変値であってもよい。

　また、発話速度が速すぎることの判定に係る発話者に対応付けられる値は、例えば発話者に対応するＩＤと標準値とが対応付けれているテーブル（または、データベース）などに、予め設定されている標準値であってもよい。本実施形態に係る情報処理装置は、例えば、撮像画像に基づく顔認証などの任意の方式の認証などにより特定された発話者のＩＤと、上記発話者に対応するＩＤと標準値とが対応付けれているテーブルとに基づいて、発話者に対応付けられる値を特定する。上記発話者に対応するＩＤと標準値とが対応付けれているテーブルは、例えば、本実施形態に係る情報処理装置が備える記憶部（後述する）などの記録媒体に記憶される。

　発話速度が速すぎることの判定に係る発話者の属性に基づき決定される値としては、例えば、下記に示すような発話者の属性に対応付けられている値、または、下記に示すような発話者の属性から任意のアルゴリズムに従って求められる値が、挙げられる。なお、発話速度が速すぎることの判定に係る発話者の属性の例が、上記に示す例に限られないことは、言うまでもない。
　　・発話者の性別
　　・発話者の年齢（または年代）
　　・発話者が属ずるコミュニティ
　　・これらの組み合わせ

　上記発話者の性別と年齢（または年代）とは、例えば、撮像デバイスにより発話者が撮像された撮像画像から推定される。また、上記発話者が属ずるコミュニティは、例えば、任意の方式の認証などにより特定された発話者のＩＤなどに基づき推定される（または特定される）。なお、発話速度が速すぎることの判定に係る発話者の属性を推定する処理（または発話者の属性を特定する処理）は、上記に限られず、発話者の属性を推定することが可能な任意の処理であってもよい。発話者の属性を推定する処理（または発話者の属性を特定する処理）は、上述したように、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。

　発話者に依存しない値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。また、発話者に依存しない値は、複数の発話者それぞれの発話における発話速度の平均値に所定の調整値を加算した値であってもよい。

　次に、発話速度に起因する要因として、発話速度が遅すぎることを判定する例について、説明する。

　発話速度に起因する要因として発話速度が遅すぎることを判定する場合、本実施形態に係る情報処理装置は、例えば、発話速度を示す情報が示す発話速度（数値）と、発話速度の標準値とを比較することによって、発話速度に起因する要因を判定する。本実施形態に係る情報処理装置は、発話速度を示す情報が示す発話速度が標準値より小さい場合（または、当該発話速度が当該標準値以下である場合）に、発話速度が遅すぎると判定する。発話速度が遅すぎると判定された場合が、発話速度に起因する要因が存在する場合に該当する。

　ここで、発話速度が遅すぎることの判定に係る標準値は、発話速度が遅すぎることの判定に係る閾値に該当する。また、発話速度が遅すぎることの判定に係る標準値としては、例えば、発話者に対応付けられる値、発話者の属性に基づき決定される値、発話者に依存しない値のうちのいずれかが挙げられる。

　発話速度が遅すぎることの判定に係る発話者に対応付けられる値としては、例えば、発話者の発話全体における発話速度の平均値に所定の調整値を減算した値が挙げられる。上記調整値は、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作や、音声入力デバイスと発話者との距離などに基づき変更可能な可変値であってもよい。また、発話速度が遅すぎることの判定に係る調整値と、上述した発話速度が速すぎることの判定に係る調整値とは、同一であってもよいし、異なっていてもよい。

　また、発話速度が遅すぎることの判定に係る発話者に対応付けられる値は、例えば発話速度が速すぎることの判定に係る発話者に対応付けられる値と同様に、発話者に対応するＩＤと標準値とが対応付けれているテーブル（または、データベース）などに、予め設定されている標準値であってもよい。

　発話速度が遅すぎることの判定に係る発話者の属性に基づき決定される値としては、例えば、下記に示すような発話者の属性に対応付けられている値、または、下記に示すような発話者の属性から任意のアルゴリズムに従って求められる値が、挙げられる。なお、発話速度が遅すぎることの判定に係る発話者の属性の例が、上記に示す例に限られないことは、言うまでもない。
　　・発話者の性別
　　・発話者の年齢（または年代）
　　・発話者が属ずるコミュニティ
　　・これらの組み合わせ

　発話者に依存しない値としては、例えば、予め設定されている固定値、または、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値が、挙げられる。また、発話者に依存しない値は、複数の発話者それぞれの発話における発話速度の平均値から所定の調整値を減算した値であってもよい。

　本実施形態に係る情報処理装置は、例えば上記のように、発話速度を示す情報が示す発話速度と、発話速度の標準値とを比較することによって、発話速度に起因する要因を判定する。

［２－３－２］通知制御処理の第３の例
　本実施形態に係る情報処理装置は、判定された発話速度に起因する要因を通知させる。

　図４は、本実施形態に係る発話速度に起因する要因の通知の第１の例を示す説明図であり、発話速度が速すぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。

　図４は、発話者が“I　want　to　bring　the　document　to　him”と発話をしたときに、音声認識の結果が“I　want　to　ring　the　document　to　him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。

　本実施形態に係る情報処理装置は、例えば図４の“ring”部分、“the”部分、および“document”部分に示すように、発話速度が速すぎると判定された部分と他の部分とを色分けすること、発話速度が速すぎると判定された部分に発話速度が速すぎることを示すアイコンを付加することなどによって、発話速度に起因する要因が存在すると判定された部分を強調して表示させる。

　なお、発話速度が速すぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図４に示す例に限られないことは、言うまでもない。

　図５は、本実施形態に係る発話速度に起因する要因の通知の第２の例を示す説明図であり、発話速度が遅すぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。

　図５は、発話者が“I　want　to　bring　the　document　to　him”と発話をしたときに、音声認識の結果が“I　want　to　ring　the　document　to　him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。

　本実施形態に係る情報処理装置は、例えば図５の“ring”部分、“the”部分、および“document”部分に示すように、発話速度が遅すぎると判定された部分と他の部分とを色分けすること、発話速度が速すぎると判定された部分に発話速度が遅すぎることを示すアイコンを付加することなどによって、発話速度に起因する要因が存在すると判定された部分を強調して表示させる。

　なお、発話速度が遅すぎることに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図５に示す例に限られないことは、言うまでもない。

［２－４］情報処理方法に係る処理の第４の例：音声認識処理に起因する要因の通知に係る処理
　第４の例に係る処理として、音声認識処理に起因する要因を通知させる処理の一例を説明する。

　ここで、本実施形態に係る音声認識処理に起因する要因とは、例えば、発話が明瞭ではないこと、発話が認識され難いこと、または、音声認識の結果の信頼度が低いことである。

　本実施形態に係る発話が明瞭ではないとは、例えば、“音声認識の結果に影響を及ぼすほど、音声認識処理において発話音声に基づき得られる認識結果の候補数が多すぎること”に該当する。ここで、上記発話音声に基づき得られる認識結果の候補数は、上述した言語的にありえない認識結果を含む音声認識の結果の候補数に該当する。

　また、本実施形態に係る発話が認識され難いとは、例えば、“音声認識の結果に影響を及ぼすほど、発話音声に基づき得られた認識結果の候補から、言語的に候補となりえない文字を除外した結果得られる認識結果の候補数が多すぎること”に該当する。ここで、上記言語的に候補となりえない文字を除外した結果得られる認識結果の候補数は、上述した言語的にありえない認識結果が除外された音声認識の結果の候補数に該当する。例えば、同音異語が多い、音声認識に用いられる学習データに正解となる文字が存在していないなどにより、発話が認識され難い事態が生じうる。

　また、本実施形態に係る音声認識の結果の信頼度が低いとは、例えば、“音声認識の結果に影響を及ぼすほど、音声認識処理において任意のアルゴリズムにより算出される音声認識の結果の信頼度が低いこと”に該当する。

［２－４－１］判定処理の第４の例
　本実施形態に係る情報処理装置は、例えば、音声認識の結果に対応する音声認識処理に関する情報（発話に関する情報の一例）に基づいて、音声認識処理に起因する要因を判定する。

　まず、音声認識処理に起因する要因として、発話が明瞭ではないことを判定する例について、説明する。

　本実施形態に係る情報処理装置は、例えば、音声認識処理に関する情報が示す言語的にありえない認識結果を含む音声認識の結果の候補数（以下、「第１の候補数」と示す場合がある。）と、設定されている閾値とを比較して、発話が明瞭であるか否かを判定する。本実施形態に係る情報処理装置は、音声認識処理に関する情報が示す第１の候補数が所定の閾値より大きい場合（または、第１の候補数が当該所定の閾値以上である場合）に、発話が明瞭ではないと判定する。発話が明瞭ではないと判定された場合が、音声認識処理に起因する要因が存在する場合に該当する。

　ここで、第１の候補数との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値であってもよい。

　次に、音声認識処理に起因する要因として、発話が認識され難いことを判定する例について、説明する。

　本実施形態に係る情報処理装置は、例えば、音声認識処理に関する情報が示す言語的にありえない認識結果が除外された音声認識の結果の候補数（以下、「第２の候補数」と示す場合がある。）と、設定されている閾値とを比較して、発話が認識され難いか否かを判定する。本実施形態に係る情報処理装置は、音声認識処理に関する情報が示す第２の候補数が所定の閾値より大きい場合（または、第２の候補数が当該所定の閾値以上である場合）に、発話が認識され難いと判定する。発話が認識され難いと判定された場合が、音声認識処理に起因する要因が存在する場合に該当する。

　ここで、第２の候補数との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値であってもよい。

　次に、音声認識処理に起因する要因として、音声認識の結果の信頼度が低いことを判定する例について、説明する。

　本実施形態に係る情報処理装置は、例えば、音声認識処理に関する情報が示す信頼度（数値）と、設定されている閾値とを比較して、音声認識の結果の信頼度が低いか否かを判定する。本実施形態に係る情報処理装置は、音声認識処理に関する情報が示す信頼度が所定の閾値より小さい場合（または、信頼度が当該所定の閾値以下である場合）に、音声認識の結果の信頼度が低いと判定する。音声認識の結果の信頼度が低いと判定された場合が、音声認識処理に起因する要因が存在する場合に該当する。

　ここで、信頼度との比較に係る閾値は、例えば、予め設定されている固定値であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変値であってもよい。

［２－４－２］通知制御処理の第４の例
　本実施形態に係る情報処理装置は、判定された音声認識処理に起因する要因を通知させる。

　図６は、本実施形態に係る音声認識処理に起因する要因の通知の第１の例を示す説明図であり、発話が明瞭ではないことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。

　図６は、発話者が“I　want　to　bring　the　document　to　him”と発話をしたときに、音声認識の結果が“I　want　to　ring　the　document　to　him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。

　本実施形態に係る情報処理装置は、例えば図６の“ring”部分、“the”部分、および“document”部分に示すように、発話が明瞭ではないと判定された部分と他の部分とを色分けすること、発話が明瞭ではないと判定された部分に改善のヒントとなる文字列を含むアイコンを付加することなどによって、音声認識処理に起因する要因が存在すると判定された部分を強調して表示させる。

　なお、発話が明瞭ではないことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図６に示す例に限られないことは、言うまでもない。

　図７は、本実施形態に係る音声認識処理に起因する要因の通知の第２の例を示す説明図であり、発話が認識され難いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。

　図７は、発話者が“I　want　to　bring　the　document　to　him”と発話をしたときに、音声認識の結果が“I　want　to　ring　the　document　to　him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。

　本実施形態に係る情報処理装置は、例えば図７の“ring”部分に示すように、発話が認識され難いと判定された部分と他の部分とを色分けすること、発話が認識され難いと判定された部分に改善のヒントとなる文字列を含むアイコンを付加することなどによって、音声認識処理に起因する要因が存在すると判定された部分を強調して表示させる。

　なお、発話が認識され難いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図７に示す例に限られないことは、言うまでもない。

　図８は、本実施形態に係る音声認識処理に起因する要因の通知の第３の例を示す説明図であり、音声認識の結果の信頼度が低いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の一例を示している。

　図８は、発話者が“I　want　to　bring　the　document　to　him”と発話をしたときに、音声認識の結果が“I　want　to　ring　the　document　to　him”である場合、すなわち、音声認識の結果の“ring”部分に誤りが生じている場合を、示している。

　図８のＡに示すように、本実施形態に係る情報処理装置は、例えば音声認識の結果の信頼度（図８のＡに示す“Confidence　Level”）を文節ごとに表示させる。図８のＡでは、音声認識の結果の信頼度が、色が付された領域の大きさで表されている例を示している。

　本実施形態に係る情報処理装置は、例えば図８のＡの“ring”部分に示すように、信頼度が低いと判定された部分における信頼度を示す領域の大きさを、他の部分における信頼度を示す領域よりも小さく表示させることによって、音声認識の結果の信頼度が低いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する。

　また、本実施形態に係る情報処理装置は、例えば図８のＢの“ring”部分に示すように、音声認識の結果の信頼度が低いと判定された部分と他の部分とを色分けすること、音声認識の結果の信頼度が低いと判定された部分に改善のヒントとなる文字列を含むアイコンを付加することなどによって、音声認識処理に起因する要因が存在すると判定された部分を強調して表示させてもよい。

　なお、音声認識の結果の信頼度が低いことに起因して音声認識において誤りが生じている可能性があることを視覚的に通知する場合の例が、図８に示す例に限られないことは、言うまでもない。

［２－５］情報処理方法に係る処理の第５の例
　本実施形態に係る情報処理装置は、上記［２－１］に示す第１の例に係る処理～上記［２－４］に示す第４の例に係る処理のうちの２以上の処理を、行ってもよい。

　ここで、本実施形態に係る情報処理装置が、上記［２－１］に示す第１の例に係る処理～上記［２－４］に示す第４の例に係る処理のうちの２以上の処理を行うときには、上記判定処理により複数の要因が判定されることが起こりうる。

　上記のように複数の要因が判定された場合、本実施形態に係る情報処理装置は、例えば、下記に示す第５の例に係る通知制御処理、下記に示す第６の例に係る通知制御処理、または、下記に示す第７の例に係る通知制御処理を行う。

［２－５－１］通知制御処理の第５の例
　本実施形態に係る情報処理装置は、判定された全ての要因を同期して通知させる。

　全ての要因が同期して通知されることによって、通知を受けた発話者は、例えば、複数の要因を１つの画像で把握することができ（視覚的に通知される場合）、また、複数の要因を１つの音声で把握することができる（聴覚的に通知される場合）。

［２－５－２］通知制御処理の第６の例
　本実施形態に係る情報処理装置は、複数の要因から１つの要因を選択し、選択された要因を通知させる。

　本実施形態に係る情報処理装置は、例えば、判定された要因の履歴が記録された履歴情報に基づいて、判定された頻度がより高い要因、または、直近に判定された要因を、選択する。なお、頻度が同一の要因が複数存在する場合には、本実施形態に係る情報処理装置は、頻度が同一の要因からランダムに選択するなどの設定されている規則に従って、要因を選択する。

　ここで、履歴情報は、発話者ごとの履歴が記録された履歴情報であってもよいし、複数の発話者の履歴が記録された履歴情報であってもよい。履歴情報は、例えば、本実施形態に係る情報処理装置が備える記憶部（後述する）などの記録媒体に記憶される。

　また、選択された要因を通知させた後に行われた発話に対応する音声認識の結果に対して、上記判定処理により要因が再度判定された場合には、本実施形態に係る情報処理装置は、例えば、既に選択された要因を除外した上で、判定された頻度がより高い要因を再度選択する。そして、本実施形態に係る情報処理装置は、選択された要因を再度通知させる。

　複数の要因が存在する場合、本実施形態に係る情報処理装置は、上記のように、複数の要因の中から要因を１つずつ選択して通知させる。よって、通知を受けた発話者は、要因を１つずつ把握した上で、音声認識の結果を修正することができる。

［２－５－３］通知制御処理の第７の例
　本実施形態に係る情報処理装置は、複数の要因を切り替えて通知させる。

　図９は、本実施形態に係る複数の要因の通知の例を示す説明図であり、複数の要因を切り替えて視覚的に通知させる場合の一例を示している。より具体的には、図９は、図１のＢに示す音量に起因する要因の通知（図９のＡ）と、図４に示す発話速度に起因する要因の通知（図９のＢ）と、図８のＡに示す音声認識処理に起因する要因の通知（図９のＣ）とを切り替えて視覚的に通知させる例を示している。

　本実施形態に係る情報処理装置は、例えば、設定されている時間が経過するごとに、複数の要因を切り替えて通知させる。

　設定されている時間は、３［秒］などの予め設定されている固定の時間であってもよいし、本実施形態に係る情報処理装置のユーザなどの操作などに基づき変更可能な可変の時間であってもよい。

　なお、図９では、Ｘ［秒］（Ｘは、正の整数）ごとに複数の要因が切り替えられる例を示しているが、次の要因に切り替えるまでの時間は、通知させている要因ごとに設定されている時間であってもよい。つまり、次の要因に切り替えるまでの時間は、例えば、全ての要因または一部の要因で同一であってもよいし、要因ごとに相異なっていてもよい。

［３］本実施形態に係る情報処理方法に係る処理の具体例
　次に、上述した本実施形態に係る情報処理方法に係る処理の一例を示す。

　図１０は、本実施形態に係る情報処理方法に係る処理の一例を示す流れ図である。

　本実施形態に係る情報処理装置は、音声認識の結果と、発話に関する情報とに基づいて、音声認識において誤りが生じうる要因を判定する（Ｓ１００）。本実施形態に係る情報処理装置は、ステップＳ１００において、例えば上記［２－１－１］に示す第１の例に係る判定処理～上記［２－４－１］に示す第４の例に係る判定処理のうちの１または２以上を行う。

　図１１は、本実施形態に係る情報処理方法に係る処理の一例を示す流れ図であり、図１０のステップＳ１００の処理の一例を示している。ここで、図１１は、上記［２－１－１］に示す第１の例に係る判定処理～上記［２－４－１］に示す第４の例に係る判定処理が行われる場合における処理の一例を示している。

　本実施形態に係る情報処理装置は、発話の音量が大きすぎるか否かを判定する（Ｓ２００）。本実施形態に係る情報処理装置は、例えば上記［２－１－１］に示す第１の例に係る判定処理を行うことによって、発話の音量が大きすぎるか否かを判定する。

　ステップＳ２００において発話の音量が大きすぎると判定された場合には、本実施形態に係る情報処理装置は、発話の音量が大きすぎることが要因と判定する（Ｓ２０２）。そして、本実施形態に係る情報処理装置は、後述するステップＳ２０８の処理を行う。

　また、ステップＳ２００において発話の音量が大きすぎると判定されない場合には、本実施形態に係る情報処理装置は、発話の音量が小さすぎるか否かを判定する（Ｓ２０４）。本実施形態に係る情報処理装置は、例えば上記［２－１－１］に示す第１の例に係る判定処理を行うことによって、発話の音量が小さすぎるか否かを判定する。

　ステップＳ２０４において発話の音量が小さすぎると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップＳ２０８の処理を行う。

　また、ステップＳ２０４において発話の音量が小さすぎると判定された場合には、本実施形態に係る情報処理装置は、発話の音量が小さすぎることが要因と判定する（Ｓ２０６）。

　ステップＳ２０２の処理が行われた場合、ステップＳ２０６の処理が行われた場合、または、ステップＳ２０４において発話の音量が小さすぎると判定されない場合には、本実施形態に係る情報処理装置は、環境ノイズの影響があるか否かを判定する（Ｓ２０８）。本実施形態に係る情報処理装置は、例えば上記［２－２－１］に示す第２の例に係る判定処理を行い環境ノイズに起因する要因が存在するかを判定することによって、環境ノイズの影響があるか否かを判定する。

　ステップＳ２０８において環境ノイズの影響があると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップＳ２１２の処理を行う。

　また、ステップＳ２０８において環境ノイズの影響があると判定された場合には、本実施形態に係る情報処理装置は、環境ノイズに起因する要因が存在すると判定する（Ｓ２１０）。

　ステップＳ２１０の処理が行われた場合、または、ステップＳ２０８において環境ノイズの影響があると判定されない場合には、本実施形態に係る情報処理装置は、発話速度が速すぎるか否かを判定する（Ｓ２１２）。本実施形態に係る情報処理装置は、例えば上記［２－３－１］に示す第３の例に係る判定処理を行うことによって、発話速度が速すぎるか否かを判定する。

　ステップＳ２１２において発話速度が速すぎると判定された場合には、本実施形態に係る情報処理装置は、発話速度が速すぎることが要因と判定する（Ｓ２１４）。そして、本実施形態に係る情報処理装置は、後述するステップＳ２２０の処理を行う。

　また、ステップＳ２１２において発話速度が速すぎると判定されない場合には、本実施形態に係る情報処理装置は、発話速度が遅すぎるか否かを判定する（Ｓ２１６）。本実施形態に係る情報処理装置は、例えば上記［２－３－１］に示す第３の例に係る判定処理を行うことによって、発話速度が遅すぎるか否かを判定する。

　ステップＳ２１６において発話速度が遅すぎると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップＳ２２０の処理を行う。

　また、ステップＳ２１６において発話速度が遅すぎると判定された場合には、本実施形態に係る情報処理装置は、発話速度が遅すぎることが要因と判定する（Ｓ２１８）。

　ステップＳ２１４の処理が行われた場合、ステップＳ２１８の処理が行われた場合、または、ステップＳ２１６において発話速度が遅すぎると判定されない場合には、本実施形態に係る情報処理装置は、発話が明瞭か否かを判定する（Ｓ２２０）。本実施形態に係る情報処理装置は、例えば上記［２－４－１］に示す第４の例に係る判定処理を行うことによって、発話が明瞭か否かを判定する。

　ステップＳ２２０において発話が明瞭であると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップＳ２２４の処理を行う。

　また、ステップＳ２２０において発話が明瞭であると判定された場合には、本実施形態に係る情報処理装置は、発話が明瞭ではないことが要因であると判定する（Ｓ２２２）。

　ステップＳ２２２の処理が行われた場合、または、ステップＳ２２０において発話が明瞭であると判定されない場合には、本実施形態に係る情報処理装置は、発話が認識され難いか否かを判定する（Ｓ２２４）。本実施形態に係る情報処理装置は、例えば上記［２－４－１］に示す第４の例に係る判定処理を行うことによって、発話が認識され難いか否かを判定する。

　ステップＳ２２４において発話が認識され難いと判定されない場合には、本実施形態に係る情報処理装置は、後述するステップＳ２２８の処理を行う。

　また、ステップＳ２２４において発話が認識され難いと判定された場合には、本実施形態に係る情報処理装置は、発話が認識され難いことが要因であると判定する（Ｓ２２６）。

　ステップＳ２２６の処理が行われた場合、または、ステップＳ２２４において発話が認識され難いと判定されない場合には、本実施形態に係る情報処理装置は、音声認識の結果の信頼度が低いか否かを判定する（Ｓ２２８）。本実施形態に係る情報処理装置は、例えば上記［２－４－１］に示す第４の例に係る判定処理を行うことによって、音声認識の結果の信頼度が低いか否かを判定する。

　ステップＳ２２８において音声認識の結果の信頼度が低いと判定されない場合には、本実施形態に係る情報処理装置は、図１１に示す処理を終了する。

　また、ステップＳ２２８において音声認識の結果の信頼度が低いと判定された場合には、本実施形態に係る情報処理装置は、音声認識の結果の信頼度が低いことが要因であると判定する（Ｓ２３０）。そして、本実施形態に係る情報処理装置は、図１１に示す処理を終了する。

　本実施形態に係る情報処理装置は、図１０のステップＳ１００の処理として、例えば図１１に示す処理を行う。

　なお、図１０のステップＳ１００の処理は、図１１に示す例に限られない。上述したように、本実施形態に係る情報処理装置は、ステップＳ１００において、例えば上記［２－１－１］に示す第１の例に係る判定処理～上記［２－４－１］に示す第４の例に係る判定処理のうちの１または２以上を行うことが可能である。また、本実施形態に係る情報処理装置は、例えば、上記［２－１－１］に示す第１の例に係る判定処理～上記［２－４－１］に示す第４の例に係る判定処理のうちの複数の処理を行う場合、各処理を行う順番を任意の順序で行うことが可能である。

　再度図１０を参照して、本実施形態に係る情報処理方法に係る処理の一例を説明する。本実施形態に係る情報処理装置は、ステップＳ１００において判定された要因を通知させる（Ｓ１０２）。本実施形態に係る情報処理装置は、例えば、ステップＳ１０２において、例えば上記［２－１－２］に示す第１の例に係る通知制御処理～上記［２－５－３］に示す第７の例に係る通知制御処理のうちの１または２以上を行うことによって、１または２以上の要因を視覚的に通知させる。また、本実施形態に係る情報処理装置は、例えば、音声出力デバイスから判定された要因を示す音声などを出力させることによって、１または２以上の要因を聴覚的に通知させることも可能である。

　本実施形態に係る情報処理装置は、本実施形態に係る情報処理方法に係る処理として、例えば図１０に示す処理を行う。

　ここで、図１０に示す処理では、ステップＳ１００において上記判定処理が行われ、ステップＳ１０２において上記通知制御処理が行われる。よって、例えば図１０に示す処理が行われることによって、発話者の利便性の向上を図ることができる。また、例えば図１０に示す処理が行われることによって、上述した本実施形態に係る情報処理方法に係る処理によって奏される効果が、奏される。

［４］本実施形態に係る情報処理方法が用いられることにより奏される効果の一例
　本実施形態に係る情報処理装置が、本実施形態に係る情報処理方法に係る処理を行うことによって、例えば下記に示す効果が奏される。なお、本実施形態に係る情報処理方法が用いられることにより奏される効果が、下記に示す効果に限られないことは、言うまでもない。
　　・音声入力を実行した際の集音状態や音声認識処理の状態などの、音声認識において誤りが生じうる要因の判定結果に応じた通知内容を、表示画面に表示されるＵＩ（User　Interface）上に表示させることによって、発話者が発話方法をどのように修正すればよいかを、発話者に通知することができる。
　　・発話者が発話方法をどのように修正すればよいかが通知されることによって、発話者は、音声認識における誤りをより容易に修正することができる。よって、発話者は、より正確な音声認識の結果を得ることができる。
　　・音声認識において誤りが生じうる要因の判定結果に応じた通知内容がＵＩ上に表示されることによって、音声認識の結果に誤りが発生している可能性がある箇所が明示されるので、発話者による当該誤りの発見をより高速化させることができる。

（本実施形態に係る情報処理装置）
　次に、上述した本実施形態に係る情報処理方法に係る処理を行うことが可能な本実施形態に係る情報処理装置の構成の一例について、説明する。

　図１２は、本実施形態に係る情報処理装置１００を含む本実施形態に係る情報処理システム１０００の一例を示す説明図である。

　情報処理システム１０００は、例えば、情報処理装置１００と、センサ２００と、表示デバイス３００と、音声出力デバイス４００とを含む。

　また、情報処理装置１００と、センサ２００、表示デバイス３００、および音声出力デバイス４００それぞれとは、例えば、ネットワーク５００を介して無線または有線で接続される。ネットワーク５００としては、例えば、ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）などの有線ネットワーク、無線ＬＡＮ（ＷＬＡＮ：Wireless　Local　Area　Network）などの無線ネットワーク、あるいは、ＴＣＰ／ＩＰ（Transmission　Control　Protocol/Internet　Protocol）などの通信プロトコルを用いたインターネットなどが挙げられる。なお、本実施形態に係る情報処理システムでは、情報処理装置１００と、センサ２００、表示デバイス３００、および音声出力デバイス４００それぞれとは、ネットワーク５００を介さずに、直接的に通信を行うことも可能である。

　情報処理装置１００は、上述した本実施形態に係る情報処理方法に係る処理を行う。情報処理装置１００の構成の一例については、後述する。

　センサ２００には、例えば、マイクロホンやマイクロホンアレイなどの音声入力デバイスが含まれる。また、センサ２００には、距離センサや撮像デバイスなどの他のセンサが含まれていてもよい。発話者の発話音声を含む音声信号などのセンサ２００により生成された信号は、例えばセンサ２００が備える通信デバイスまたはセンサ２００に接続されている外部の通信デバイスにより、情報処理装置１００に送信される。

　表示デバイス３００は、表示画面に様々な画面を表示する。情報処理装置１００は、例えば、表示命令と通知内容を示すデータとを含む制御信号を表示デバイス３００に対して送信することによって、図１～図９に示した例のように、判定された要因を視覚的に通知させる。

　表示デバイス３００としては、例えば、液晶ディスプレイ（Liquid　Crystal　Display）や有機ＥＬディスプレイ（Organic　Electro-Luminescence　Display。または、ＯＬＥＤディスプレイ（Organic　Light　Emitting　Diode　Display）ともよばれる。）などが挙げられる。

　音声出力デバイス４００は、様々な音声（音楽も含む。）を出力する。情報処理装置１００は、例えば、出力命令と通知内容を示す音声データとを含む制御信号を音声出力デバイス４００に対して送信することによって、判定された要因を聴覚的に通知させる。

　音声出力デバイス４００としては、例えばスピーカなどが挙げられる。

　なお、本実施形態に係る情報処理システムの構成は、図１２に示す例に限られない。

　例えば、本実施形態に係る情報処理システムは、図１２に示す表示デバイス３００と音声出力デバイス４００との一方を有していない構成であってもよい。表示デバイス３００と音声出力デバイス４００との一方を有していない構成であっても、本実施形態に係る情報処理システムでは、情報処理装置１００による判定された要因の通知が実現される。

　また、本実施形態に係る情報処理システムでは、図１２に示すセンサ２００、表示デバイス３００、および音声出力デバイス４００の２以上が、１つの装置に備えられていてもよい。

　また、図１２では、情報処理装置１００と、センサ２００、表示デバイス３００、および音声出力デバイス４００それぞれとがネットワーク５００を介して接続される例を示しているが、本実施形態に係る情報処理装置は、図１２に示すセンサ２００、表示デバイス３００、および音声出力デバイス４００を備えていてもよい。つまり、本実施形態に係る情報処理装置は、例えば図１２に示す情報処理システム１０００（変形例に係る構成も含む。）において実現される要因の通知を、スタンドアロンで実現することも可能である。本実施形態に係る情報処理装置の適用例については、後述する。

　以下、図１２に示す情報処理システム１０００を構成する情報処理装置１００を例に挙げて、本実施形態に係る情報処理装置の構成の一例を説明する。

　図１３は、本実施形態に係る情報処理装置１００の構成の一例を示すブロック図である。情報処理装置１００は、例えば、通信部１０２と、制御部１０４とを備える。

　また、情報処理装置１００は、例えば、ＲＯＭ（Read　Only　Memory。図示せず）や、ＲＡＭ（Random　Access　Memory。図示せず）、記憶部（図示せず）、情報処理装置１００の使用者が操作可能な操作部（図示せず）、様々な画面を表示画面に表示する表示部（図示せず）などを備えていてもよい。情報処理装置１００は、例えば、データの伝送路としてのバスにより上記各構成要素間を接続する。

　ＲＯＭ（図示せず）は、制御部１０４が使用するプログラムや演算パラメータなどの制御用データを記憶する。ＲＡＭ（図示せず）は、制御部１０４により実行されるプログラムなどを一時的に記憶する。

　記憶部（図示せず）は、情報処理装置１００が備える記憶手段であり、例えば、発話者に対応するＩＤと閾値とが対応付けれているテーブル（または、データベース）などの、本実施形態に係る情報処理方法に係るデータや、各種アプリケーションなど様々なデータを記憶する。ここで、記憶部（図示せず）としては、例えば、ハードディスク（Hard　Disk）などの磁気記録媒体や、フラッシュメモリ（flash　memory）などの不揮発性メモリ（nonvolatile　memory）などが挙げられる。また、記憶部（図示せず）は、情報処理装置１００から着脱可能であってもよい。

　操作部（図示せず）としては、後述する操作入力デバイスが挙げられる。また、表示部（図示せず）としては、後述する表示デバイスが挙げられる。

［情報処理装置１００のハードウェア構成例］
　図１４は、本実施形態に係る情報処理装置１００のハードウェア構成の一例を示す説明図である。情報処理装置１００は、例えば、ＭＰＵ１５０と、ＲＯＭ１５２と、ＲＡＭ１５４と、記録媒体１５６と、入出力インタフェース１５８と、操作入力デバイス１６０と、表示デバイス１６２と、通信インタフェース１６４とを備える。また、情報処理装置１００は、例えば、データの伝送路としてのバス１６６で各構成要素間を接続する。また、情報処理装置１００は、例えば、情報処理装置１００が備えているバッテリなどの内部電源から供給される電力、または、接続されている外部電源から供給される電力などによって、駆動する。

　ＭＰＵ１５０は、例えば、ＭＰＵ（Micro　Processing　Unit）などの演算回路で構成される、１または２以上のプロセッサや、各種処理回路などで構成され、情報処理装置１００全体を制御する制御部１０４として機能する。また、ＭＰＵ１５０は、情報処理装置１００において、例えば、後述する判定部１１０、および通知制御部１１２の役目を果たす。なお、判定部１１０と通知制御部１１２との一方または双方は、各部の処理を実現可能な専用の（または汎用の）回路（例えば、ＭＰＵ１５０とは別体のプロセッサなど）で構成されていてもよい。

　ＲＯＭ１５２は、ＭＰＵ１５０が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。ＲＡＭ１５４は、例えば、ＭＰＵ１５０により実行されるプログラムなどを一時的に記憶する。

　記録媒体１５６は、記憶部（図示せず）として機能し、例えば、発話者に対応するＩＤと閾値とが対応付けれているテーブルなどの本実施形態に係る情報処理方法に係るデータや、各種アプリケーションなど様々なデータを記憶する。ここで、記録媒体１５６としては、例えば、ハードディスクなどの磁気記録媒体や、フラッシュメモリなどの不揮発性メモリが挙げられる。また、記録媒体１５６は、情報処理装置１００から着脱可能であってもよい。

　入出力インタフェース１５８は、例えば、操作入力デバイス１６０や、表示デバイス１６２を接続する。操作入力デバイス１６０は、操作部（図示せず）として機能し、また、表示デバイス１６２は、表示部（図示せず）として機能する。ここで、入出力インタフェース１５８としては、例えば、ＵＳＢ（Universal　Serial　Bus）端子や、ＤＶＩ（Digital　Visual　Interface）端子、ＨＤＭＩ（High-Definition　Multimedia　Interface）（登録商標）端子、各種処理回路などが挙げられる。

　また、操作入力デバイス１６０は、例えば、情報処理装置１００上に備えられ、情報処理装置１００の内部で入出力インタフェース１５８と接続される。操作入力デバイス１６０としては、例えば、ボタンや、方向キー、ジョグダイヤルなどの回転型セレクタ、あるいは、これらの組み合わせなどが挙げられる。

　また、表示デバイス１６２は、例えば、情報処理装置１００上に備えられ、情報処理装置１００の内部で入出力インタフェース１５８と接続される。表示デバイス１６２としては、例えば、液晶ディスプレイや有機ＥＬディスプレイなどが挙げられる。

　なお、入出力インタフェース１５８が、情報処理装置１００の外部の操作入力デバイス（例えば、キーボードやマウスなど）や外部の表示デバイスなどの、外部デバイスと接続することも可能であることは、言うまでもない。また、表示デバイス１６２は、例えばタッチパネルなど、表示とユーザ操作とが可能なデバイスであってもよい。

　通信インタフェース１６４は、情報処理装置１００が備える通信手段であり、ネットワーク５００を介して（あるいは、直接的に）、例えばセンサ２００などの外部のデバイスや、外部装置と、無線または有線で通信を行うための通信部１０２として機能する。ここで、通信インタフェース１６４としては、例えば、通信アンテナおよびＲＦ（Radio　Frequency）回路（無線通信）や、ＩＥＥＥ８０２．１５．１ポートおよび送受信回路（無線通信）、ＩＥＥＥ８０２．１１ポートおよび送受信回路（無線通信）、あるいはＬＡＮ（Local　Area　Network）端子および送受信回路（有線通信）などが挙げられる。また、通信インタフェース１６４は、ネットワーク５００に対応する任意の構成であってもよい。

　情報処理装置１００は、例えば図１４に示す構成によって、本実施形態に係る情報処理方法に係る処理を行う。なお、本実施形態に係る情報処理装置１００のハードウェア構成は、図１４に示す構成に限られない。

　例えば、情報処理装置１００は、接続されている外部の通信デバイスを介して外部装置などと通信を行う場合には、通信インタフェース１６４を備えていなくてもよい。また、通信インタフェース１６４は、複数の通信方式によって、１または２以上の外部装置などと通信を行うことが可能な構成であってもよい。

　また、情報処理装置１００は、例えば、記録媒体１５６や、操作入力デバイス１６０、表示デバイス１６２を備えない構成をとることが可能である。

　また、情報処理装置１００は、例えば、後述する情報処理装置１００の適用例に応じた構成をとることが可能である。

　また、例えば、図１４に示す構成（または変形例に係る構成）の一部または全部は、１、または２以上のＩＣ（Integrated　Circuit）で実現されてもよい。

　再度図１３を参照して、情報処理装置１００の構成の一例について説明する。通信部１０２は、情報処理装置１００が備える通信手段であり、ネットワーク５００を介して（あるいは、直接的に）、センサ２００などの外部のデバイスや、外部装置と無線または有線で通信を行う。また、通信部１０２は、例えば制御部１０４により通信が制御される。

　ここで、通信部１０２としては、例えば、通信アンテナおよびＲＦ回路や、ＬＡＮ端子および送受信回路などが挙げられるが、通信部１０２の構成は、上記に限られない。例えば、通信部１０２は、ＵＳＢ端子および送受信回路などの通信を行うことが可能な任意の規格に対応する構成や、ネットワーク５００を介して外部装置と通信可能な任意の構成をとることができる。また、通信部１０２は、複数の通信方式によって、１または２以上の外部装置などと通信を行うことが可能な構成であってもよい。

　制御部１０４は、例えばＭＰＵなどで構成され、情報処理装置１００全体を制御する役目を果たす。また、制御部１０４は、例えば、判定部１１０と通知制御部１１２とを備え、本実施形態に係る情報処理方法に係る処理を主導的に行う役目を果たす。さらに、制御部１０４は、音声認識処理や、環境ノイズの推定に係る信号処理、発話の特性を推定する信号処理などの、様々な処理を行うことも可能である。

　判定部１１０は、上記判定処理を主導的に行う役目を果たし、音声認識の結果と、発話に関する情報とに基づいて、音声認識において誤りが生じうる要因を判定する。

　判定部１１０は、例えば、上記［２－１－１］に示す第１の例に係る判定処理～上記［２－４－１］に示す第４の例に係る判定処理のうちの１または２以上を行う。

　通知制御部１１２は、上記通知制御処理を主導的に行う役目を果たし、判定部１１０において判定された要因を通知させる。

　通知制御部１１２は、例えば、上記［２－１－２］に示す第１の例に係る通知制御処理～上記［２－５－３］に示す第７の例に係る通知制御処理のうちの１または２以上を行うことによって、１または２以上の要因を視覚的に通知させる。また、通知制御部１１２は、例えば、音声出力デバイスから判定された要因を示す音声などを出力させることによって、１または２以上の要因を聴覚的に通知させる。さらに、通知制御部１１２は、例えば、視覚的な通知と聴覚的な通知との双方によって、判定された要因を通知させることも可能である。

　情報処理装置１００は、例えば図１３に示す構成によって、本実施形態に係る情報処理方法に係る処理を行う。したがって、情報処理装置１００は、例えば図１３に示す構成によって、発話者の利便性の向上を図ることができる。

　また、例えば図１３に示す構成によって、情報処理装置１００は、上述したような本実施形態に係る情報処理方法に係る処理が行われることにより奏される効果を、奏することができる。

　なお、本実施形態に係る情報処理装置の構成は、図１３に示す構成に限られない。

　例えば、本実施形態に係る情報処理装置は、図１３に示す判定部１１０と通知制御部１１２との一方または双方を、制御部１０４とは個別に備える（例えば、別の処理回路で実現する）ことができる。

　また、本実施形態に係る情報処理方法に係る処理を実現するための構成は、図１３に示す構成に限られず、本実施形態に係る情報処理方法に係る処理の切り分け方に応じた構成をとることが可能である。

　また、例えば、通信部１０２と同様の機能、構成を有する外部の通信デバイスを介して外部装置と通信を行う場合には、本実施形態に係る情報処理装置は、通信部１０２を備えていなくてもよい。

　以上、本実施形態として、情報処理装置を挙げて説明したが、本実施形態は、かかる形態に限られない。本実施形態は、例えば、“ＰＣ（Personal　Computer）やサーバなどのコンピュータ”や、“ヘッドマウントディスプレイ”、“アイウェア型のウェアラブル装置”、“時計型の装置、腕輪型の装置などのようなユーザの身体に装着して用いられる様々なウェアラブル装置”、“スマートフォンなどの通信装置”、“タブレット型の装置”、“ゲーム機”、“自転車、自動車、電動立ち乗り二輪車などの移動体”など、本実施形態に係る情報処理方法に係る処理を行うことが可能な、様々な機器に適用することができる。また、本実施形態は、例えば、上記のような機器に組み込むことが可能な、処理ＩＣに適用することもできる。

　また、本実施形態に係る情報処理装置は、例えばクラウドコンピューティングなどのように、ネットワークへの接続（または各装置間の通信）を前提とした処理システムに適用されてもよい。本実施形態に係る情報処理方法に係る処理が行われる処理システムの一例としては、例えば“処理システムを構成する一の装置によって本実施形態に係る情報処理方法に係る処理の一部の処理が行われ、処理システムを構成する他の装置によって本実施形態に係る情報処理方法に係る処理の当該一部の処理以外の処理が行われるシステム”などが、挙げられる。

（本実施形態に係るプログラム）
　コンピュータシステムを、本実施形態に係る情報処理装置として機能させるためのプログラム（例えば、上記判定処理および上記通知制御処理など、本実施形態に係る情報処理方法に係る処理を実行することが可能なプログラム）が、コンピュータシステムにおいてプロセッサなどにより実行されることによって、発話者の利便性の向上を図ることができる。ここで、本実施形態に係るコンピュータシステムとしては、単体のコンピュータ、または、複数のコンピュータが挙げられる。本実施形態に係るコンピュータシステムによって、本実施形態に係る情報処理方法に係る一連の処理が行われる。

　また、コンピュータシステムを、本実施形態に係る情報処理装置として機能させるためのプログラムが、コンピュータシステムにおいてプロセッサなどにより実行されることによって、上述した本実施形態に係る情報処理方法に係る処理によって奏される効果を、奏することができる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記では、コンピュータシステムを、本実施形態に係る情報処理装置として機能させるためのプログラム（コンピュータプログラム）が提供されることを示したが、本実施形態は、さらに、上記プログラムを記憶させた記録媒体も併せて提供することができる。

　上述した構成は、本実施形態の一例を示すものであり、当然に、本開示の技術的範囲に属するものである。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　音声認識の結果と、発話に関する情報とに基づいて、前記音声認識において誤りが生じうる要因を判定する判定部と、
　判定された前記要因を通知させる通知制御部と、
　を備える、情報処理装置。
（２）
　前記判定部は、前記音声認識の結果における所定の単位ごとに、前記要因を判定する、（１）に記載の情報処理装置。
（３）
　前記通知制御部は、前記所定の単位ごとに、判定された前記要因を通知させる、（２）に記載の情報処理装置。
（４）
　前記発話に関する情報には、発話の音量を示す情報が含まれ、
　前記判定部は、前記発話の音量を示す情報に基づいて、音量に起因する前記要因を判定する、（１）～（３）のいずれか１つに記載の情報処理装置。
（５）
　前記判定部は、前記要因として、音量が大きすぎることを判定する、（４）に記載の情報処理装置。
（６）
　前記判定部は、前記要因として、音量が小さすぎることを判定する、（４）、または（５）に記載の情報処理装置。
（７）
　前記発話に関する情報には、環境ノイズを示す情報が含まれ、
　前記判定部は、前記環境ノイズを示す情報に基づいて、環境ノイズに起因する前記要因を判定する、（１）～（６）のいずれか１つに記載の情報処理装置。
（８）
　前記発話に関する情報には、発話の音量を示す情報がさらに含まれ、
　前記判定部は、前記発話の音量を示す情報と前記環境ノイズを示す情報とに基づいて、前記環境ノイズに起因する前記要因を判定する、（７）に記載の情報処理装置。
（９）
　前記発話に関する情報には、発話速度を示す情報が含まれ、
　前記判定部は、前記発話速度を示す情報に基づいて、発話速度に起因する前記要因を判定する、（１）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記判定部は、前記発話速度を示す情報が示す発話速度と、発話速度の標準値とを比較することによって、発話速度に起因する前記要因を判定する、（９）に記載の情報処理装置。
（１１）
　前記標準値は、発話者に対応付けられる値、前記発話者の属性に基づき決定される値、前記発話者に依存しない値のうちのいずれかである、（１０）に記載の情報処理装置。
（１２）
　前記発話に関する情報には、前記音声認識の結果に対応する音声認識処理に関する情報が含まれ、
　前記判定部は、前記音声認識に関する情報に基づいて、前記音声認識処理に起因する前記要因を判定する、（１）～（１１）のいずれか１つに記載の情報処理装置。
（１３）
　前記判定部は、前記要因として、発話が明瞭ではないことを判定する、（１２）に記載の情報処理装置。
（１４）
　前記判定部は、前記要因として、発話が認識され難いことを判定する、（１２）、または（１３）に記載の情報処理装置。
（１５）
　前記判定部は、前記要因として、音声認識の結果の信頼度が低いことを判定する、（１２）～（１４）のいずれか１つに記載の情報処理装置。
（１６）
　前記通知制御部は、前記要因を視覚的に通知させる、（１）～（１５）のいずれか１つに記載の情報処理装置。
（１７）
　前記通知制御部は、前記要因を聴覚的に通知させる、（１）～（１６）のいずれか１つに記載の情報処理装置。
（１８）
　複数の前記要因が判定された場合、前記通知制御部は、複数の前記要因から１つの前記要因を選択し、選択された前記要因を通知させる、（１）～（１７）のいずれか１つに記載の情報処理装置。
（１９）
　複数の前記要因が判定された場合、前記通知制御部は、複数の前記要因を切り替えて通知させる、（１）～（１８）のいずれか１つに記載の情報処理装置。
（２０）
　音声認識の結果と、発話に関する情報とに基づいて、前記音声認識において誤りが生じうる要因を判定するステップと、
　判定された前記要因を通知させるステップと、
　を有する、情報処理装置により実行される情報処理方法。

　１００　　情報処理装置
　１０２　　通信部
　１０４　　制御部
　１１０　　判定部
　１１２　　通知制御部
　２００　　センサ
　３００　　表示デバイス
　４００　　音声出力デバイス
　５００　　ネットワーク
　１０００　　情報処理システム

Claims

　音声認識の結果と、発話に関する情報とに基づいて、前記音声認識において誤りが生じうる要因を判定する判定部と、
　判定された前記要因を通知させる通知制御部と、
　を備える、情報処理装置。
　前記判定部は、前記音声認識の結果における所定の単位ごとに、前記要因を判定する、請求項１に記載の情報処理装置。
　前記通知制御部は、前記所定の単位ごとに、判定された前記要因を通知させる、請求項２に記載の情報処理装置。
　前記発話に関する情報には、発話の音量を示す情報が含まれ、
　前記判定部は、前記発話の音量を示す情報に基づいて、音量に起因する前記要因を判定する、請求項１に記載の情報処理装置。
　前記判定部は、前記要因として、音量が大きすぎることを判定する、請求項４に記載の情報処理装置。
　前記判定部は、前記要因として、音量が小さすぎることを判定する、請求項４に記載の情報処理装置。
　前記発話に関する情報には、環境ノイズを示す情報が含まれ、
　前記判定部は、前記環境ノイズを示す情報に基づいて、環境ノイズに起因する前記要因を判定する、請求項１に記載の情報処理装置。
　前記発話に関する情報には、発話の音量を示す情報がさらに含まれ、
　前記判定部は、前記発話の音量を示す情報と前記環境ノイズを示す情報とに基づいて、前記環境ノイズに起因する前記要因を判定する、請求項７に記載の情報処理装置。
　前記発話に関する情報には、発話速度を示す情報が含まれ、
　前記判定部は、前記発話速度を示す情報に基づいて、発話速度に起因する前記要因を判定する、請求項１に記載の情報処理装置。
　前記判定部は、前記発話速度を示す情報が示す発話速度と、発話速度の標準値とを比較することによって、発話速度に起因する前記要因を判定する、請求項９に記載の情報処理装置。
　前記標準値は、発話者に対応付けられる値、前記発話者の属性に基づき決定される値、前記発話者に依存しない値のうちのいずれかである、請求項１０に記載の情報処理装置。
　前記発話に関する情報には、前記音声認識の結果に対応する音声認識処理に関する情報が含まれ、
　前記判定部は、前記音声認識に関する情報に基づいて、前記音声認識処理に起因する前記要因を判定する、請求項１に記載の情報処理装置。
　前記判定部は、前記要因として、発話が明瞭ではないことを判定する、請求項１２に記載の情報処理装置。
　前記判定部は、前記要因として、発話が認識され難いことを判定する、請求項１２に記載の情報処理装置。
　前記判定部は、前記要因として、音声認識の結果の信頼度が低いことを判定する、請求項１２に記載の情報処理装置。
　前記通知制御部は、前記要因を視覚的に通知させる、請求項１に記載の情報処理装置。
　前記通知制御部は、前記要因を聴覚的に通知させる、請求項１に記載の情報処理装置。
　複数の前記要因が判定された場合、前記通知制御部は、複数の前記要因から１つの前記要因を選択し、選択された前記要因を通知させる、請求項１に記載の情報処理装置。
　複数の前記要因が判定された場合、前記通知制御部は、複数の前記要因を切り替えて通知させる、請求項１に記載の情報処理装置。
　音声認識の結果と、発話に関する情報とに基づいて、前記音声認識において誤りが生じうる要因を判定するステップと、
　判定された前記要因を通知させるステップと、
　を有する、情報処理装置により実行される情報処理方法。