WO2020226001A1

WO2020226001A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2020226001A1
Application number: PCT/JP2020/014683
Authority: WO
Inventors: 泰成橋本
Original assignee: ソニー株式会社
Priority date: 2019-05-08
Filing date: 2020-03-30
Publication date: 2020-11-12
Also published as: US20220208189A1

Abstract

重要な情報が伝えられる環境においてユーザの聞き逃しリスクを低減する。　音声区間検出部により、環境音から音声区間を検出する。ユーザ関連判定部により、音声区間の音声がユーザと関連するか判定する。例えば、ユーザ関連判定部は、音声区間の音声から行動に関係するキーワードを抽出し、この抽出されたキーワードのユーザの行動との関連性に基づいて、音声区間の音声がユーザと関連するか判断する。提示制御部により、ユーザと関連する音声の提示を制御する。例えば、提示制御部は、ユーザが聞き逃しの態様にあるとき、ユーザと関連する音声の提示を制御する。

Description

情報処理装置および情報処理方法

　本技術は、情報処理装置および情報処理方法に関し、詳しくは、ユーザの聞き逃しリスクを低減する情報処理装置および情報処理方法に関する。

　例えば、特許文献１には、タブレット端末の所有者が近づいてきたとき、他ユーザからの伝言が登録されている場合にはその伝言を提示する技術が提案されている。

特開２０１４－１８６６１０号公報

　特許文献１に記載される技術では、例えば空港や駅など、重要な情報が伝えられる環境において聞き逃しリスクを低減するものではない。

　本技術の目的は、重要な情報が音声で伝えられる環境においてユーザの聞き逃しリスクを低減することにある。

　本技術の概念は、
　環境音から音声区間を検出する音声区間検出部と、
　上記音声区間の音声がユーザと関連するか判定するユーザ関連判定部と、
上記ユーザと関連する音声の提示を制御する提示制御部を備える
　情報処理装置にある。

　本技術において、音声区間検出部により、環境音から音声区間が検出される。ユーザ関連判定部により、音声区間の音声がユーザと関連するか判定される。そして、提示制御部により、ユーザと関連する音声の提示が制御される。例えば、提示制御部は、ユーザが聞き逃しの態様を示すとき、ユーザと関連する音声の提示を制御する、ようにされてもよい。

　例えば、ユーザ関連判定部は、音声区間の音声から行動に関係するキーワードを抽出し、この抽出されたキーワードのユーザの行動との関連性に基づいて、音声区間の音声がユーザと関連するか判断する、ようにされてもよい。これにより、音声区間の音声がユーザと関連するか否かの判断を良好に行うことが可能となる。

　この場合、例えば、ユーザ関連判定部は、抽出されたキーワードを、品質保証の処理を行った後に用いる、ようにされてもよい。例えば、品質保証は、欠損情報の補償あるいは誤った情報の訂正を含む、ようにされてもよい。また、例えば、ユーザ関連判定部は、抽出されたキーワードの品質保証の処理をネット情報に基づいて行う、ようにされてもよい。このように抽出されたキーワードを品質保証の処理を行った後に用いることで、音声区間の音声がユーザと関連するか否かの判定の精度を高めることが可能となる。

　また、例えば、ユーザ関連判定部は、ユーザの行動情報を含む所定の情報に基づいてユーザの行動を推定する、ようにされてもよい。これにより、ユーザの行動を良好に推定することが可能となる。この場合、例えば、所定の情報は、ユーザの位置情報、ユーザのスケジュール情報、ユーザのチケット購入情報あるいはユーザの発話情報を含む、ようにされてもよい。

　このように本技術は、環境音から音声区間を検出し、この音声区間の音声がユーザと関連するか判定し、ユーザと関連する音声を提示するように制御するものである。そのため、重要な情報が伝えられる環境において、ユーザの聞き逃しリスクを低減することが可能となる。

実施の形態としての音声エージェントがユーザに装着された状態を示す図である。音声エージェントの具体的な構成例を示すブロック図である。キーワード抽出の一例を示す図である。品質保証としての欠損情報の補償の一例を示す図である。品質保証としての誤った情報の訂正の一例を示す図である。現在地が空港である場合におけるユーザ関連判定部の判定概要の一例を示す図である。現在地が駅である場合におけるユーザ関連判定部の判定概要の一例を示す図である。処理本体部の処理手順の一例を示すフローチャートである。ユーザが聞き逃しの態様にあるか否かの判別方法について説明するための図である。音声の提示をユーザが聞き逃しの態様にあることを条件として行う場合における処理本体部の処理手順の一例を示すフローチャートである。音声エージェントの処理本体部の処理をプログラムにより実行するコンピュータのハードウエア構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［音声エージェント］
　図１は、実施の形態としての音声エージェント１０がユーザ２０に装着された状態を示している。音声エージェント１０は、イヤホンの形態でユーザ２０に装着されている。音声エージェント１０は、環境音から音声区間を検出し、この音声区間の音声がユーザ２０と関連するか判定し、ユーザ２０と関連する音声をユーザ２０に提示することで、ユーザ２０の聞き逃しリスクを低減する。

　図示の例は、ユーザ２０が空港にいる場合を想定しており、“××時発○○行の便は、搭乗口△△番に変更になります。”とのアナウンスがされている。例えば、このアナウンス音声がユーザ２０と関連する場合には、このアナウンス音声が再生されて、ユーザ２０に提示されることになる。なお、図示の例では、音声エージェント１０はイヤホンの形態でユーザ２０に装着されているが、音声エージェント１０のユーザ２０への装着形態はこれに限定されない。

　図２は、音声エージェント１０の具体的な構成例を示している。この音声エージェント１０は、入力インタフェースとしてのマイクロホン１０１と、出力インタフェースとしてのスピーカ１０２と、処理本体部１０３を有している。なお、処理本体部１０３の部分は、クラウド・サーバで構成することも考えられる。

　処理本体部１０３は、音声区間検出部１１０と、音声記憶部１１１と、音声認識部１１２と、キーワード抽出部１１３と、制御部１１４と、音声合成部１１５と、ユーザ関連判定部１１６と、周辺環境推定部１１７と、品質保証部１１８と、ネットワークインタフェース（ネットワークＩＦ）１１９を有している。

　音声区間検出部１１０は、マイクロホン１０１で集音されて得られた環境音の音声データから音声区間を検出する。この場合、環境音の音声データがバファリングされ、それに対して音声検出処理が施されることで、音声区間が検出される。音声記憶部１１１は、例えば半導体メモリで構成され、音声区間検出部１１０で検出された音声区間の音声データを記憶する。

　音声認識部１１２は、音声区間検出部１１０で検出された音声区間の音声データに対して音声認識処理を施して、音声データをテキストデータに変換する。キーワード抽出部１１３は、音声認識部１１２で得られたテキストデータに対して自然言語処理を施して、行動に関するキーワードを抽出する。ここで、行動に関するキーワードとは、ユーザの振る舞いに影響を与えるようなキーワードである。

　例えば、キーワード抽出部１１３は、空港や駅のアナウンスのテキストデータと抽出すべきキーワードのセットを訓練データとして大量に集め、ＤＮＮで学習させることで作られたキーワード抽出器で構成されてもよい。また、例えば、キーワード抽出部１１３は、文法のルールからキーワードを抽出するルールベースのキーワード抽出器で構成されてもよい。

　図３は、キーワード抽出の一例を示している。図示の例は、“××時発○○行の便は、搭乗口△△番に変更になります。”とのアナウンス音声からのキーワード抽出例を示している。この場合、行動に関するキーワードとして、「××時発」、「○○行」、「搭乗口△△番」、「変更」が抽出されている。

　図２に戻って、ネットワークインタフェース１１９は、ユーザ２０が持っているモバイル機器、あるはユーザ２０に装着されているウェラブル機器に接続するため、さらには、インターネットを介して種々の情報提供サイトに接続するためのネットワークインタフェースである。

　ネットワークインタフェース１１９は、モバイル機器やウェラブル機器から、ユーザ２０の位置情報やスケジュール情報（カレンダ情報）を取得する。また、ネットワークインタフェース１１９は、インターネットを介して種々の情報（ネット情報）を取得する。このネット情報には、飛行機や鉄道の運行情報を提供しているサイトから取得される飛行機や鉄道の運行情報も含まれる。

　周辺環境推定部１１７は、ネットワークインタフェース１１９で取得されたユーザ２０の位置情報に基づいて、ユーザ２０が存在する周辺環境を推定する。周辺環境としては、空港、駅などが該当する。なお、周辺環境推定部１１７は、ユーザ２０の位置情報の代わりに、マイクロホン１０１で集音されて得られた環境音に基づいて、周辺環境を推定することも考えらえる。この場合、駅の環境音、空港の環境音を「駅」「空港」というラベル付きで学習器に与え、教師あり学習をさせることで、環境音から「環境」を推定する判別器を作って用いることができる。

　品質保証部１１８は、キーワード抽出部１１３で抽出された行動に関するキーワードの品質保証をする。この品質保証には、（１）欠損情報の補償、（２）誤った情報の訂正、が含まれる。品質保証部１１８は、ネットワークインタフェース１１９で取得されるネット情報に基づいて、品質保証をする。このように品質保証を行うことで、後述する音声区間の音声がユーザと関連するか否かの判定の精度を高めることが可能となる。なお、品質保証部１１８は必ずしも必要なものではなく、設けない構成も考えられる。

　図４は、「（１）欠損情報の補償」の一例を示している。図示の例の場合、キーワード抽出部１１３では「○○行」の情報（目的地のキーワード）が取得できずに欠損していることを想定している。この場合、ネットワークインタフェース１１９で飛行機の運航情報サイトから該当飛行機の目的地情報が取得され、その目的地情報に基づいて欠損していた目的地のキーワードが補償される。

　図５は、「（２）誤った情報の訂正」の一例を示している。図示の例の場合、「ＡＭＡ××便は、△△番搭乗口だって。」は、ユーザ２０の近くにいる人の発言であり、「△△番搭乗口」が誤っている場合を想定している。この場合、ネットワークインタフェース１１９で飛行機の運航情報サイトから該当飛行機の搭乗口情報が取得され、その搭乗口情報に基づいて、「△△番搭乗口」の誤りが分かり、搭乗口のキーワードが正しく訂正される。

　図２に戻って、音声区間の音声がユーザと関連するか判定する。ユーザ関連判定部１１６は、キーワード抽出部１１３で抽出され、品質保証部１１８で品質保証された行動に関するキーワードとユーザ２０の行動との関連性に基づいて、音声区間の音声がユーザと関連するか判定する。

　ここで、ユーザ関連判定部１１６は、ユーザ２０の行動情報を含む所定の情報に基づいて、ユーザ２０の行動を推定する。所定の情報には、ネットワークインタフェース１１９でモバイル機器やウェラブル機器から取得されるユーザの位置情報やユーザのスケジュール情報、ネットワークインタフェース１１９でモバイル機器やウェラブル機器から取得されるチケット購入情報、あるいはユーザ２０の発話情報等が含まれる。

　例えば、位置情報から、現在地がどこか、例えば空港か駅か等を判別することができる。これは、周辺環境推定部１１７で得られる周辺環境情報とも対応する。また、位置情報から、例えば、現在地が駅の場合、目的地までの経路を探索し、路線名と上り/下り（外回り/内回り）を抽出できる。

　また、スケジュール情報の日付と時刻から目的地を抽出でき、現在地が空港の場合、便名も抽出できる。また、チケット購入情報（例えばチケット購入のメール）から、日付、出発時刻、出発地、到着時刻、目的地、チケットが航空券の場合には便名など、ユーザの行動に関する情報を抽出できる。また、ユーザの発話情報から、出発時刻、目的地などを抽出できる。

　図６は、現在地が空港である場合におけるユーザ関連判定部１１６の判定概要の一例を示している。図示の例においては、ユーザ２０の行動情報を含む所定の情報として、位置情報、スケジュール情報およびチケット購入情報（メール）が使用されている。また、図示の例においては、「××時発」、「○○行」、「搭乗口△△番」、「変更」のキーワードが抽出されている。

　この場合、ユーザ関連判定部１１６は、位置情報が示す現在地から空港であると判別する。また、ユーザ関連判定部１１６は、スケジュール情報の日付と時刻から目的地を抽出し、さらに便名も抽出する。また、ユーザ関連判定部１１６は、チケット購入情報から、日付、出発時刻、出発地、到着時刻、目的地、便名を抽出する。そして、ユーザ関連判定部１１６は、抽出したキーワードに、ユーザの行動に関連する便名、出発時刻、目的地が含まれるかどうかから、音声区間の音声がユーザと関連するか判定する。

　図７は、現在地が駅（品川駅）である場合におけるユーザ関連判定部１１６の判定概要の一例を示している。図示の例においては、ユーザ２０の行動情報を含む所定の情報として、位置情報およびスケジュール情報が使用されている。また、図示の例においては、「□番線」、「××時発」、「△△線」、「○○行」のキーワードが抽出されている。

　この場合、ユーザ関連判定部１１６は、スケジュール情報の日付と時刻から目的地を抽出する。また、ユーザ関連判定部１１６は、位置情報が示す現在地から駅（品川駅）であると判別し、現在地から目的地までの経路を探索し、路線名と上り/下り（外回り/内回り）を抽出する。そして、ユーザ関連判定部１１６は、抽出したキーワードに、ユーザの行動に関連する路線名、出発時刻、目的地が含まれるかどうかから、音声区間の音声がユーザと関連するか判定する。

　図２に戻って、制御部１１４は、処理本体部１０３の各部の動作を制御する。また、この制御部１１４は、ユーザ関連判定部１１６の判定結果に基づいて、音声区間の音声の提示を制御する。この場合、音声区間の音声がユーザと関連すると判定された場合、制御部１１４は、音声記憶部１１１に記憶されている音声区間の音声データを読み出し、スピーカ１０２に供給する。これにより、スピーカ１０２からは、音声区間の音声が出力される。

　音声合成部１１５は、音声区間の音声が、ユーザが音声エージェント１０に予め設定した操作言語と異なる場合に、その音声区間の音声を、操作言語に翻訳して提示するためのものです。この場合、音声合成部１１５は、抽出されたキーワードから当該操作言語のテキストデータを作成し、それを音声データに変換して、スピーカ１０２に供給する。

　なお、上述では、音声区間の音声を提示する際に、音声記憶部１１１に記憶されている音声区間の音声データを読み出し、その音声データをスピーカ１０２に供給するように説明した。しかし、抽出されたキーワードからテキストデータを作成し、それを音声データに変換して、スピーカ１０２に供給する構成も考えられる。その場合には、音声区間の音声データを記憶しておく音声記憶部１１１は不要となる。

　また、上述では、音声区間の音声を提示する際に、音声記憶部１１１に記憶されている音声区間の音声データを読み出し、その音声データをスピーカ１０２に供給するように説明した。しかし、抽出されたキーワードからテキストデータを作成し、そのテキストデータをディスプレイに供給して画面表示することも考えられる。つまり、音声区間の音声の提示を、画面表示で行うものである。

　図８のフローチャートは、処理本体部１０３の処理手順の一例を示している。処理本体部１０３は、ステップＳＴ１において、処理を開始する。次に、処理本体部１０３は、ステップＳＴ２において、マイクロホン１０１で集音されて得られた環境音から音声区間を検出する。次に、処理本体部１０３は、ステップＳＴ３において、検出された音声区間の音声データを音声記憶部１１１に記憶する。

　次に、処理本体部１０３は、ステップＳＴ４において、音声区間の音声データに対して音声認識処理部１１２で音声認識処理を施し、音声データをテキストデータに変換する。次に、処理本体部１０３は、ステップＳＴ５において、キーワード抽出部１１３に、音声認識部１１３で得られたテキストデータに対してキーワード抽出部１１３で自然言語処理を施させ、行動に関するキーワードを抽出する。

　次に、処理本体部１０３は、ステップＳＴ６において、行動に関するキーワードが抽出されたか否かを判定する。キーワードが抽出されなかったとき、処理本体部１０３は、ステップＳＴ２に戻り、次の音声区間の検出をする。一方、キーワードが抽出されたとき、処理本体部１０３は、ステップＳＴ７の処理に進む。

　このステップＳＴ７において、処理本体部１０３は、ネットワークインタフェース１１９で、モバイル機器やウェラブル機器から、位置情報やスケジュール情報を取得する。なお、この場合、さらに、チケット購入情報やその他のユーザの行動情報を含む所定の情報を取得するようにしてもよい。

　次に、処理本体部１０３は、ステップＳＴ８において、ステップＳＴ７で取得された位置情報に基づいて、周辺環境、つまり現在地がどこか（例えば空港か駅かなど）を推定する。なお、この場合、環境音から周辺環境を推定するようにしてもよい。

　次に、処理本体部１０３は、ステップＳＴ９において、品質保証部１１８において、キーワード抽出部１１３で抽出された行動に関するキーワードの品質保証をする。この場合、ネットワークインタフェース１１９で取得されるネット情報に基づいて、品質保証をする。この品質保証には、（１）欠損情報の補償、（２）誤った情報の訂正、が含まれる（図４、図５参照）。なお、品質保証を行わない場合には、このステップＳＴ９の処理は行わない。

　次に、処理本体部１０３は、ステップＳＴ１０において、ユーザ関連判定部１１６で、音声区間の音声のユーザと関連性を判定する。具体的には、キーワード抽出部１１３で抽出され、品質保証部１１８で品質保証された行動に関するキーワードとユーザ２０の行動との関連性に基づいて、音声区間の音声がユーザと関連するか判定する（図６、図７参照）。この場合、ユーザ２０の行動は、ユーザ２０の行動情報を含む所定の情報（位置情報、スケジュール情報、チケット購入情報、ユーザ発話情報など）に基づいて推定される。

　次に、処理本体部１０３は、ステップＳＴ１１において、ステップＳＴ１０の判定が「関連しない」であるとき、ステップＳＴ２に戻り、次の音声区間の検出をする。一方、処理本体部１０３は、ステップＳＴ１１において、ステップＳＴ１０の判定が「関連する」であるとき、ステップＳＴ１２において、制御部１１４で、音声記憶部１１１から音声区間の音声データを読み出し、スピーカ１０２に供給する。これにより、スピーカ１０２からは、音声区間の音声が出力され、ユーザ２０の聞き逃しが低減される。

　処理本体部１０３は、ステップＳＴ１２の処理の後、ステップＳＴ２に戻り、次の音声区間の検出をする。

　以上説明したように、図２に示す音声エージェント１０の処理本体部１０３は、環境音から音声区間を検出し、この音声区間の音声がユーザと関連するか判定し、ユーザと関連する音声を提示するように制御するものである。そのため、重要な情報が伝えられる環境において、ユーザの聞き逃しリスクを低減することができる。

　また、図２に示す処理本体部１０３は、音声区間の音声から抽出されたキーワードを品質保証の処理を行った後に用いるものである。そのため、音声区間の音声がユーザと関連するか否かの判定の精度を高めることができる。

　＜２．変形例＞
　なお、上述実施の形態においては、音声エージェント１０の処理本体部１０３は、ユーザに関連する音声区間の音声の提示をユーザの態様によらずに行う例を示した。しかし、この音声の提示をユーザが聞き逃しの態様にあることを条件として行うことも考えられる。

　ユーザ２０が聞き逃しの態様にあるか否かは、例えば、図９に示すように、音声エージェントデバイス（イヤホン）から取得した加速度情報やユーザ２０の発話情報に基づいて判別することが可能である。この場合、アナウンスを聞き逃した際のユーザ２０の頭部の動き情報（６軸の加速度情報）を訓練データとして用意し、教師あり学習で「聞き逃しの態様」を学習して判別器を作る。この際、ユーザ２０の発話情報も一緒に学習して判別器を作ってもよい。あるいは、ユーザ２０の発話情報のみで学習器を作ってもよい。音声エージェントデバイスから取得した加速度情報や環境音情報をこの判別器に与えることで、ユーザが聞き逃しの態様にあるか否かを判別する。

　なお、ユーザ２０が聞き逃しの態様にあるか否かは、ユーザ２０の頭部の動き情報や発話情報を用いて判別する代わりに、その他の情報を用いて判別してもよい。例えば、ユーザ２０の脈拍や脳波などの生体情報から判別することも考えられる。

　図１０のフローチャートは、音声の提示をユーザが聞き逃しの態様にあることを条件として行う場合における、処理本体部１０３の処理手順の一例を示している。この図１０において、図８と対応する部分には同一符号を付し、その詳細説明は省略する。

　処理本体部１０３は、ステップＳＴ１１で「関連する」であるとき、ステップＳＴ１３において、ユーザが聞き逃し態様にあるか否かを判定する。次に、処理本体部１０３は、ステップＳＴ１４において、ステップＳＴ１３における判定が「聞き逃し態様にない」であるとき、ステップＳＴ２に戻り、次の音声区間の検出をする。一方、処理本体部１０３は、ステップＳＴ１４において、ステップＳＴ１３における判定が「聞き逃し態様にある」であるとき、ステップＳＴ１２の処理に進み、制御部１１４で、音声記憶部１１１から音声区間の音声データを読み出し、スピーカ１０２に供給し、その後に、ステップＳＴ２に戻る。

　また、図１１は、上述した音声エージェント１０の処理本体部１０３の処理をプログラムにより実行するコンピュータ４００のハードウエア構成例を示すブロック図である。

　コンピュータ４００は、ＣＰＵ４０１と、ＲＯＭ４０２と、ＲＡＭ４０３と、バス４０４と、入出力インタフェース４０５と、入力部４０６と、出力部４０７と、記憶部４０８と、ドライブ４０９と、接続ポート４１０と、通信部４１１を有している。なお、ここで示すハードウエア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　ＣＰＵ４０１は、例えば、演算処理装置または制御装置として機能し、ＲＯＭ４０２、ＲＡＭ４０３、記憶部４０８、またはリムーバブル記録媒体５０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　ＲＯＭ４０２は、ＣＰＵ４０１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ４０３には、例えば、ＣＰＵ４０１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的または永続的に格納される。

　ＣＰＵ４０１、ＲＯＭ４０２、ＲＡＭ４０３は、バス４０４を介して相互に接続される。一方、バス４０４には、インタフェース４０５を介して種々の構成要素と接続される。

　入力部４０６には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部４０６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

　出力部４０７には、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。

　記憶部４０８は、各種のデータを格納するための装置である。記憶部４０８としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等が用いられる。

　ドライブ４０９は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体５０１に記録された情報を読み出し、またはリムーバブル記録媒体５０１に情報を書き込む装置である。

リムーバブル記録媒体５０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体５０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、または電子機器等であってもよい。

　接続ポート４１０は、例えば、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）、ＲＳ－２３２Ｃポート、または光オーディオ端子等のような外部接続機器５０２を接続するためのポートである。外部接続機器５０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、またはＩＣレコーダ等である。

　通信部４１１は、ネットワーク５０３に接続するための通信デバイスであり、例えば、有線または無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Wireless ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ、または各種通信用のモデム等である。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本技術は、以下のような構成を取ることもできる。
　（１）環境音から音声区間を検出する音声区間検出部と、
　上記音声区間の音声がユーザと関連するか判定するユーザ関連判定部と、
　上記ユーザと関連する上記音声区間の音声の提示を制御する提示制御部を備える
　情報処理装置。
　（２）上記ユーザ関連判定部は、上記音声区間の音声から行動に関係するキーワードを抽出し、該抽出されたキーワードの上記ユーザの行動との関連性に基づいて、上記音声区間の音声がユーザと関連するか判断する
　前記（１）に記載の情報処理装置。
　（３）上記ユーザ関連判定部は、上記抽出されたキーワードを、品質保証の処理を行った後に用いる
　前記（２）に記載の情報処理装置。
　（４）上記品質保証は、欠損情報の補償あるいは誤った情報の訂正を含む
　前記（３）に記載の情報処理装置。
　（５）上記ユーザ関連判定部は、上記抽出されたキーワードの品質保証の処理をネット情報に基づいて行う
　前記（３）または（４）に記載の情報処理装置。
　（６）上記ユーザ関連判定部は、上記ユーザの行動情報を含む所定の情報に基づいて上記ユーザの行動を推定する
　前記（２）から（５）のいずれかに記載の情報処理装置。
　（７）上記所定の情報は、上記ユーザの位置情報を含む
　前記（６）に記載の情報処理装置。
　（８）上記所定の情報は、上記ユーザのスケジュール情報を含む
　前記（６）または（７）に記載の情報処理装置。
　（９）上記所定情報は、上記ユーザのチケット購入情報を含む
　前記（６）から（８）のいずれかに記載の情報処理装置。
　（１０）上記所定情報は、上記ユーザの発話情報を含む
　前記（６）から（９）のいずれかに記載の情報処理装置。
　（１１）上記提示制御部は、上記ユーザが聞き逃しの態様にあるとき、上記ユーザと関連する音声の提示を制御する
　前記（１）から（１０）のいずれかに記載の情報処理装置。
　（１２）環境音から音声区間を検出する手順と、
　上記音声区間の音声がユーザと関連するか判定する手順と、
　上記ユーザと関連する上記音声区間の音声の提示を制御する手順を有する
　情報処理方法。

　１０・・・音声エージェント
　２０・・・ユーザ
　１０１・・・マイクロホン
　１０２・・・スピーカ
　１０３・・・処理本体部
　１１０・・・音声区間検出部
　１１１・・・音声記憶部
　１１２・・・音声認識部
　１１３・・・キーワード抽出部
　１１４・・・制御部
　１１５・・・音声合成部
　１１６・・・ユーザ関連判定部
　１１７・・・周辺環境推定部
　１１８・・・品質保証部
　１１９・・・ネットワークインタフェース

Claims

　環境音から音声区間を検出する音声区間検出部と、
　上記音声区間の音声がユーザと関連するか判定するユーザ関連判定部と、
　上記ユーザと関連する上記音声区間の音声の提示を制御する提示制御部を備える
　情報処理装置。
　上記ユーザ関連判定部は、上記音声区間の音声から行動に関係するキーワードを抽出し、該抽出されたキーワードの上記ユーザの行動との関連性に基づいて、上記音声区間の音声がユーザと関連するか判断する
　請求項１に記載の情報処理装置。
　上記ユーザ関連判定部は、上記抽出されたキーワードを、品質保証の処理を行った後に用いる
　請求項２に記載の情報処理装置。
　上記品質保証は、欠損情報の補償あるいは誤った情報の訂正を含む
　請求項３に記載の情報処理装置。
　上記ユーザ関連判定部は、上記抽出されたキーワードの品質保証の処理をネット情報に基づいて行う
　請求項３に記載の情報処理装置。
　上記ユーザ関連判定部は、上記ユーザの行動情報を含む所定の情報に基づいて上記ユーザの行動を推定する
　請求項２に記載の情報処理装置。
　上記所定の情報は、上記ユーザの位置情報を含む
　請求項６に記載の情報処理装置。
　上記所定の情報は、上記ユーザのスケジュール情報を含む
　請求項６に記載の情報処理装置。
　上記所定情報は、上記ユーザのチケット購入情報を含む
　請求項６に記載の情報処理装置。
　上記所定情報は、上記ユーザの発話情報を含む
　請求項６に記載の情報処理装置。
　上記提示制御部は、上記ユーザが聞き逃しの態様にあるとき、上記ユーザと関連する音声の提示を制御する
　請求項１に記載の情報処理装置。
　環境音から音声区間を検出する手順と、
　上記音声区間の音声がユーザと関連するか判定する手順と、
　上記ユーザと関連する上記音声区間の音声の提示を制御する手順を有する
　情報処理方法。