以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、以下では、下記に示す順序で説明を行う。
1.本実施形態に係る情報処理方法
2.本実施形態に係る情報処理装置
3.本実施形態に係るプログラム
(本実施形態に係る情報処理方法)
まず、本実施形態に係る情報処理方法について説明する。以下では、本実施形態に係る情報処理方法に係る処理を、本実施形態に係る情報処理装置が行う場合を例に挙げる。
なお、以下では、本実施形態に係る情報処理方法を、第1の情報処理方法と、第2の情報処理方法とに分けて説明する。また、以下では、同一の情報処理装置が、第1の情報処理方法に係る処理と第2の情報処理方法に係る処理との双方を行う場合を主に説明するが、第1の情報処理方法に係る処理を行う情報処理装置と、第2の情報処理方法に係る処理を行う情報処理装置とは、異なっていてもよい。
また、以下では、本実施形態に係る情報処理方法に係る処理の対象となる者を「ユーザ」と示す。本実施形態に係るユーザとしては、例えば、“発話者(または、発話者となりうる者)”(後述する第1の情報処理方法が行われる場合)や“通知に係る操作デバイスの操作者”(後述する第2の情報処理方法が行われる場合)などが、挙げられる。
[1]本実施形態に係る情報処理方法の概要
[1-1]第1の情報処理方法の概要
上述したように、“発話者が伝えたい内容だけを発話することが困難であることに起因する事象”が生じる可能性をより低減する方法としては、発話者の発話の内容をより簡潔にする方法が、考えられる。
そこで、本実施形態に係る情報処理装置は、第1の情報処理方法に係る処理として、発話の内容を要約する処理(以下、「要約処理」と示す。)を行う。本実施形態に係る情報処理装置は、取得した要約に関する重みを示す情報に基づいて、ユーザの発話に基づく音声情報が示す発話の内容を要約する。本実施形態に係る要約としては、例えば、要約に関する重みに基づいて発話の内容を選別すること、または、要約に関する重みに基づいて発話の内容から一部を抽出することが、挙げられる。
要約に関する重みを示す情報としては、例えば、後述する要約に関する重みを設定するためのテーブル(または、データベース。以下、同様とする。)に記憶される、要約に関する重みを示すデータが挙げられる。また、要約に関する重みを示す情報は、要約に関する重みが相対的に大きいまたは小さいということを示すデータであってもよい。要約に関する重みを示す情報は、例えば、後述する要約に関する重みを設定するためのテーブルを参照することなどによって、取得される。
ここで、本実施形態に係る音声情報は、発話者の発話に基づく音声を含む音声データである。本実施形態に係る音声情報は、例えば、マイクロホンなどの音声入力デバイスが、発話者の発話に基づく音声を拾うことにより生成される。また、本実施形態に係る音声情報は、音声入力デバイスが拾った音声に応じて生成したアナログ信号が、AD(Analog-to-Digital)コンバータによりデジタル信号に変換されたものであってもよい。また、上記音声入力デバイス(または、上記音声入力デバイスと上記ADコンバータ)とは、本実施形態に係る情報処理装置が備えていてもよいし、本実施形態に係る情報処理装置の外部のデバイスであってもよい。
音声情報が示す発話の内容としては、例えば、音声情報に対して任意の音声認識処理が行われた結果得られたテキストデータ(以下、「音声テキスト情報」と示す。)が示す文字列が挙げられる。本実施形態に係る情報処理装置は、音声テキスト情報が示す文字列を音声情報が示す発話の内容として認識し、音声テキスト情報が示す文字列を要約する。
ここで、音声情報に対する音声認識処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。本実施形態に係る情報処理装置が音声認識処理を行う場合、本実施形態に係る情報処理装置は、取得された音声情報に対して音声認識処理を行った結果得られた音声テキスト情報が示す文字列を、要約する。また、本実施形態に係る情報処理装置の外部装置が音声認識処理を行う場合、本実施形態に係る情報処理装置は、当該外部装置から取得された音声テキスト情報が示す文字列を、要約する。
また、本実施形態に係る情報処理装置または外部装置において、音声認識処理は、例えば、定期的/非定期的に繰り返し行われてもよいし、音声情報が取得されたタイミングなどの所定のトリガに応じて行われてもよい。また、本実施形態に係る情報処理装置または外部装置において、音声認識処理は、例えば、要約に係る音声認識の開始操作などの所定の操作が行われたときに、行われてもよい。
本実施形態に係る要約に関する重みとは、音声情報が示す発話の内容から、より重要な言葉(換言すると、発話者がより伝えたいと考えているであろう言葉)を抽出するための指標である。本実施形態に係る要約に関する重みに基づいて、音声情報が示す発話の内容が要約されることによって、要約に関する重みに対応するより重要な言葉が、要約された発話の内容に含まれることとなる。
本実施形態に係る要約に関する重みは、例えば下記に示すような、音声情報、ユーザに関する情報、アプリケーションに関する情報、環境に関する情報、およびデバイスに関する情報のうちの少なくとも1つ(これらのうちの1または2以上)に基づいて、設定される。
ここで、本実施形態に係るユーザに関する情報には、例えば、ユーザの状態を示すユーザの状態情報と、ユーザの操作に基づくユーザの操作情報とのうちの少なくとも1つが含まれる。
ユーザの状態としては、例えば、ユーザがとっている行動(ジェスチャなどの動作も含む。)、ユーザの感情の状態などが挙げられる。ユーザの状態は、例えば、任意の生体センサなどから得られるユーザの生体情報、速度センサや角速度センサなどの動きセンサの検出結果、撮像デバイスにより撮像された撮像画像などのうちの1または2以上を用いた、任意の行動推定処理または任意の感情推定処理によって、推定される。ユーザの状態の推定に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。また、ユーザの操作としては、例えば、要約に係る音声認識の開始操作、所定のアプリケーションを起動させる操作など、様々な操作が挙げられる。
また、アプリケーションに関する情報は、例えば、アプリケーションの実行状態を示す。
また、環境に関する情報は、例えば、ユーザの周囲の状況(または、ユーザがおかれている状況)を示す。環境に関する情報としては、例えば、ユーザの周囲の雑音のレベルを示すデータなどが挙げられる。ユーザの周囲の雑音のレベルは、例えば、マイクロホンにより生成された音声情報から発話以外を抽出し、レベル分けのための1または2以上の閾値を用いた閾値処理により特定される。上記のような環境に関する情報の取得に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。
また、デバイスに関する情報は、例えば、デバイスの種類とデバイスの状態との一方または双方を示す。デバイスの状態としては、例えば、デバイスが備えるプロセッサの処理負荷などが挙げられる。
要約に関する重みの設定に係る処理の具体例については、後述する。
第1の情報処理方法に係る要約処理が行われることによって、音声情報が示す発話の内容が要約される。よって、音声情報が示す発話者の発話の内容をより簡潔にすることができる。
また、第1の情報処理方法に係る要約処理では、例えば上記のように設定された要約に関する重みに基づき発話の内容が要約されるので、要約に関する重みに対応するより重要な言葉が、要約された発話の内容に含まれる。
したがって、第1の情報処理方法に係る要約処理が行われることによって、“コミュニケーションをとる相手が、発話者が伝えたい内容を理解するのに時間を要すること”や“翻訳に時間を要すること”などの、“発話者が伝えたい内容だけを発話することが困難であることに起因する事象”が生じる可能性をより低減することが可能な、要約の結果を得ることが、可能となる。
[1-2]第2の情報処理方法の概要
上記第1の情報処理方法に係る要約処理が行われることによって、要約された音声情報が示す発話の内容を、得ることが可能である。
本実施形態に係る情報処理装置は、第2の情報処理方法に係る処理として、要約情報に基づいて、通知内容の通知を制御する処理(以下「通知制御処理」と示す。)を行う。
ここで、本実施形態に係る要約情報は、第1のユーザの発話に基づく音声情報に対応する、要約された発話の内容を示す。要約情報は、例えば、上記第1の情報処理方法に係る要約処理が行われることによって得られる。なお、要約情報が示す要約された発話の内容は、上記に限られず、ユーザの発話に基づく音声情報が示す発話の内容を要約することが可能な任意の方法により要約されたものであってもよい。以下では、要約情報が、上記第1の情報処理方法に係る要約処理が行われることによって得られた要約された発話の内容を示す場合を例に挙げる。
そして、本実施形態に係る情報処理装置は、第2のユーザに対する通知内容の通知を制御する。ここで、第2のユーザに対する通知内容は、例えば、要約情報が示す要約された発話の内容そのものであってもよいし、要約された発話の内容と通知順序が異なるもの、あるいは、要約された発話の内容が翻訳されたものなど、要約情報が示す要約された発話の内容そのものでなくてもよい。また、本実施形態に係る第1のユーザと本実施形態に係る第2のユーザとは、異なっていてもよいし、同一であってもよい。第1のユーザと第2のユーザとが異なる場合の例としては、第1のユーザが発話者であり、第2のユーザがコミュニケーションをとる相手である場合が挙げられる。また、第1のユーザと第2のユーザとが同一である場合の例としては、第1のユーザ、および第2のユーザが同一の発話者である場合が挙げられる。
本実施形態に係る情報処理装置は、例えば、視覚的な方法による通知と聴覚的な方法による通知との一方または双方によって、通知内容を通知させる。
視覚的な方法による通知を行わせる場合、本実施形態に係る情報処理装置は、例えば、通知内容を、表示デバイスの表示画面に表示させることにより通知させる。本実施形態に係る情報処理装置は、例えば、通知内容に対応する表示データと、表示命令とを含む表示制御信号を、表示デバイスに対して送信することによって、通知内容を表示デバイスの表示画面に表示させる。
ここで、通知内容を表示させる表示画面としては、例えば、本実施形態に係る情報処理装置が備える表示部(後述する)を構成する表示デバイス、または、本実施形態に係る情報処理装置の外部の表示デバイスが挙げられる。通知内容を表示させる表示画面が外部の表示デバイスである場合、本実施形態に係る情報処理装置は、例えば、本実施形態に係る情報処理装置が備える通信部(後述する)、または、本実施形態に係る情報処理装置の外部の通信デバイスに、上記表示制御信号を、外部の表示デバイスに対して送信させる。
また、聴覚的な方法による通知を行わせる場合、本実施形態に係る情報処理装置は、例えば、通知内容を、スピーカなどの音声出力デバイスから音声(音楽が含まれていてもよい。)で出力させることにより通知させる。本実施形態に係る情報処理装置は、例えば、通知内容に対応する音声を示す音声データと、音声出力命令とを含む音声出力制御信号を、音声出力デバイスに対して送信することによって、通知内容を、音声出力デバイスから音声で出力させる。
ここで、通知内容を音声で出力させる音声出力デバイスは、例えば、本実施形態に係る情報処理装置が備える音声出力デバイスであってもよいし、本実施形態に係る情報処理装置の外部の音声出力デバイスであってもよい。通知内容を音声で出力させる音声出力デバイスが外部の音声出力デバイスである場合、本実施形態に係る情報処理装置は、例えば、本実施形態に係る情報処理装置が備える通信部(後述する)、または、本実施形態に係る情報処理装置の外部の通信デバイスに、上記音声出力制御信号を、外部の音声出力デバイスに対して送信させる。
なお、本実施形態に係る情報処理装置における通知内容の通知方法は、上記のような視覚的な方法による通知方法と聴覚的な方法による通知方法との一方または双方に限られない。例えば、本実施形態に係る情報処理装置は、通知内容における区切りを、例えば振動デバイスを振動させることなどによる触覚的な通知方法によって、通知させることも可能である。
第2の情報処理方法に係る通知制御処理が行われることによって、例えば上記第1の情報処理方法に係る要約処理により得られた要約された発話の内容に基づく通知内容が、通知される。
ここで、上記第1の情報処理方法に係る要約処理により得られた要約された発話の内容は、上述したように、“発話者が伝えたい内容だけを発話することが困難であることに起因する事象”が生じる可能性をより低減することが可能な要約の結果に、該当する。
したがって、第2の情報処理方法に係る要約処理が行われることにより、通知内容が通知されることによって、“コミュニケーションをとる相手が、発話者が伝えたい内容を理解するのに時間を要すること”や“翻訳に時間を要すること”などの、“発話者が伝えたい内容だけを発話することが困難であることに起因する事象”が生じる可能性をより低減することが可能となる。
[1-3]本実施形態に係る情報処理方法に係る他の処理
なお、本実施形態に係る情報処理方法に係る処理は、上記第1の情報処理方法に係る要約処理と上記第2の情報処理方法に係る通知制御処理とに限られない。
例えば、本実施形態に係る情報処理方法に係る処理には、第1の情報処理方法に係る要約処理により要約された発話の内容を他の言語に翻訳する処理(以下、「翻訳処理」と示す。)がさらに含まれていてもよい。翻訳処理が行われることによって、要約された発話の内容が、発話に基づく音声情報に対応する第1の言語から、当該第1の言語とは異なる第2の言語に翻訳される。以下では、翻訳処理が行われることによって得られる、翻訳された要約された発話の内容を、「翻訳結果」と示す。
ここで、本実施形態に係る翻訳処理は、第1の情報処理方法に係る処理の一環として行われてもよいし、第2の情報処理方法に係る処理の一環として行われてもよい。
また、本実施形態に係る情報処理方法に係る処理には、上記第1の情報処理方法に係る要約処理の結果と、上記本実施形態に係る翻訳処理の結果との一方または双方を、任意の記録媒体に記録させる記録制御処理が、さらに含まれていてもよい。
また、記録制御処理では、例えば、“上記第1の情報処理方法に係る要約処理の結果と、上記本実施形態に係る翻訳処理の結果との一方または双方”と、“ユーザに対応する位置情報(後述する)、任意の生体センサなどから得られるユーザの生体情報などの、ユーザに関する情報”とが対応付けられ、ログとして記録されてもよい。上記のようなログが記録媒体に記憶されることによって、例えば、“ユーザが、旅行などの記録を事後的に振り返ること”などが、実現される。
[2]本実施形態に係る情報処理方法が適用されるユースケースの一例
次に、本実施形態に係る情報処理方法が適用されるユースケースの一例を説明しつつ、本実施形態に係る情報処理方法に係る処理の一例を説明する。以下では、本実施形態に係る情報処理方法が適用されるユースケースとして、本実施形態に係る情報処理方法が、「会話支援」(後述するように、翻訳が行われる場合も含む。)に適用される場合を説明する。
なお、本実施形態に係る情報処理方法が適用されるユースケースは、「会話支援」に限られない。例えば、本実施形態に係る情報処理方法は、下記に示すような、音声情報が示す発話の内容の要約がされうる、任意のユースケースに適用することが可能である。
・IC(Integrated Circuit)レコーダなどにより生成された、会議の音声を示す音声情報が示す発話の内容を要約することにより実現される「会議文字お越し」
・テレビジョン番組における音声を示す音声情報が示す発話の内容を要約することにより実現される「番組テロップ自動作成」
・テレビジョン会議における音声を示す音声情報が示す発話の内容を要約することにより実現される、「会議テロップ自動作成」と「会議文字お越し」との一方または双方
図1~図5は、本実施形態に係る情報処理方法が適用されるユースケースの一例を説明するための説明図である。
図1、図2、図5において“U1”で示される者が、本実施形態に係るユーザに該当する。また、図2、図5において“U2”で示される者が、ユーザU1がコミュニケーションをとる相手に該当する。以下では、図1、図2、図5において“U1”で示される者を「ユーザU1」と示し、また、図2、図5において“U2”で示される者を、「コミュニケーション相手U2」と示す。また、以下では、コミュニケーション相手U2の母国語が日本語である場合を例に挙げる。
図1、図2、図5では、ユーザU1は、表示画面を有するアイウェア型の装置を装着している例を示している。また、図1、図2、図5に示すユーザU1が装着しているアイウェア型の装置には、マイクロホンなどの音声入力デバイスと、スピーカなどの音声出力デバイスと、撮像デバイスとが接続されている。
また、以下に示すユースケースの一例において、本実施形態に係る情報処理装置としては、例えば、図1に示すアイウェア型の装置のようなユーザU1の身体に装着して用いられるウェアラブル装置や、スマートフォンなどの通信装置、サーバなどのコンピュータなどが挙げられる。なお、本実施形態に係る情報処理装置は、上記に示す例に限られない。本実施形態に係る情報処理装置の適用例については、後述する。
以下、図1~図5を適宜参照して、本実施形態に係る情報処理方法が適用されるユースケースの一例を説明する。
英語を話すユーザU1が、日本の空港へ飛行機で到着した場合を想定する。
(a)要約に関する重みの設定に係る処理の一例
本実施形態に係る情報処理装置は、例えば、要約に関する重みを設定するためのテーブルを用いることによって、要約に関する重みを設定する。ここで、要約に関する重みを設定するためのテーブルは、本実施形態に係る情報処理装置が備える記憶部(後述する)に記憶されていてもよいし、本実施形態に係る情報処理装置の外部の記録媒体に記憶されていてもよい。本実施形態に係る情報処理装置は、例えば、記憶部(後述する)または外部の記録媒体を適宜参照することによって、要約に関する重みを設定するためのテーブルを用いる。
また、本実施形態に係る情報処理装置は、例えば、要約に関する重みを決定するための任意のアルゴリズムにより要約に関する重みを決定することによって、要約に関する重みを設定することも可能である。
図6~図8は、本実施形態に係る要約に関する重みを設定するためのテーブルの一例を示す説明図である。
図6は、要約に関する重みを特定するためのテーブルの一例を示しており、登録されている語彙それぞれに対して、要約に関する重みの種類ごとに重み付けがされているテーブルの一例を示している。ここで、図6では、要約に関する重みの種類と語彙との組み合わせのうち、値が“1”で示される組み合わせが、重み付けがされている組み合わせに該当する。また、図6では、要約に関する重みの種類と語彙との組み合わせのうち、値が“0”で示される組み合わせが、重み付けがされていない組み合わせに該当する。
また、図7、図8は、要約に関する重みの種類を特定するためのテーブルの一例をそれぞれ示している。図7では、スケジュールアプリケーションの状態から特定されるスケジュール内容(または、スケジュールアプリケーションの状態から推定されるスケジュール内容)と、要約に関する重みの種類とが対応付けられているテーブルの一例を示している。また、図8では、ユーザの行動(ユーザの状態の一例)と、要約に関する重みの種類とが対応付けられているテーブルの一例を示している。
本実施形態に係る情報処理装置は、例えば図7、図8に示すような要約に関する重みの種類を特定するためのテーブルと、図6に示すような要約に関する重みを特定するためのテーブルとの双方を、要約に関する重みを設定するためのテーブルとして用いることによって、要約に関する重みを設定する。
なお、本実施形態に係る要約に関する重みの種類を特定するためのテーブルの例が、図7、図8に示す例に限られないこと、および要約に関する重みを特定するためのテーブルの例が、図6に示す例に限られないことは、言うまでもない。また、本実施形態に係る要約に関する重みを設定するためのテーブルは、例えば、日本語、英語、中国語などの言語ごとに設けられていてもよい。
また、本実施形態に係る情報処理装置は、例えば、音声情報、ユーザに関する情報、アプリケーションに関する情報、環境に関する情報、およびデバイスに関する情報のうちの少なくとも1つに基づいて、要約に関する重みの種類を決定する場合には、図6に示すような要約に関する重みを特定するためのテーブルのみを用いて、要約に関する重みを設定することが、可能である。
本実施形態に係る情報処理装置は、例えば、音声情報、ユーザに関する情報、アプリケーションに関する情報、環境に関する情報、およびデバイスに関する情報のうちの少なくとも1つに基づく認識結果に基づいて、図6に示すような要約に関する重みを特定するためのテーブルから、認識結果に関連する要約に関する重みの種類を選択することによって、要約に関する重みの種類を決定する。そして、本実施形態に係る情報処理装置は、例えば、図6に示すような要約に関する重みを特定するためのテーブルを参照して、決定された要約に関する重みの種類と語彙との組み合わせのうちの、値が“1”で示される組み合わせに対応する語彙に対して、重み付けを設定する。
具体例を挙げると、本実施形態に係る情報処理装置は、例えば、下記の(a-1)~下記の(a-5)のいずれかの処理を行うことによって、要約に関する重みを設定する。
なお、要約に関する重みの設定に係る例は、下記の(a-1)~下記の(a-5)に示す例に限られない。例えば、本実施形態に係る情報処理装置は、音声情報に基づき認識された言語に応じて、要約に関する重みを設定することも可能である。言語に応じた要約に関する重みの設定の一例としては、例えば、“音声情報に基づき認識された言語が日本語であった場合には、動詞の重みを高めること”や、“音声情報に基づき認識された言語が英語であった場合には、名詞の重みを高めること”などが、挙げられる。また、本実施形態に係る情報処理装置は、例えば、環境に関する情報が示すユーザの周囲の状況に応じた要約に関する重み、デバイスに関する情報が示す内容(例えば、デバイスの種類など)に応じた要約に関する重みを、それぞれ設定してもよい。
(a-1)要約に関する重みの設定の第1の例:ユーザに関する情報に含まれるユーザの状態情報が示すユーザの状態に基づく要約に関する重みの設定の一例
例えば、ユーザU1が、スマートフォンなどの装置を操作してスケジュールアプリケーションを起動し、目的地を確認すると、本実施形態に係る情報処理装置は、ユーザU1が目的地に対する移動中であると認識する。そして、本実施形態に係る情報処理装置は、要約に関する重みを設定するためのテーブルを参照することによって、認識結果に対応する要約に関する重みを設定する。
具体例を挙げると、本実施形態に係る情報処理装置は、上記のように得られたユーザU1が目的地に対する移動中であるという認識結果に基づいて、図8に示す要約に関する重みの種類を特定するためのテーブルから、行動“移動中”に対応する「時間」を、要約に関する重みの種類として特定する。そして、本実施形態に係る情報処理装置は、図6に示す要約に関する重みを特定するためのテーブルを参照して、特定された要約に関する重みの種類と語彙との組み合わせのうちの、値が“1”で示される組み合わせに対応する語彙に対して、重み付けを設定する。図6に示す要約に関する重みを特定するためのテーブルが用いられる場合には、語彙“午前”、“いつ”、…に対して、重み付けが設定されることとなる。
また、ユーザU1が、スマートフォンなどの装置を操作して、ゲームアプリケーションを起動している場合には、本実施形態に係る情報処理装置は、ユーザU1がゲーム中であると認識する。そして、本実施形態に係る情報処理装置は、要約に関する重みを設定するためのテーブルを参照することによって、認識結果に対応する要約に関する重みを設定する。
例えば、本実施形態に係る情報処理装置は、上記のように得られたユーザU1がゲーム中であるという認識結果に基づいて、図8に示す要約に関する重みの種類を特定するためのテーブルから、行動“ゲーム中”に対応する「ゲーム用語」を、要約に関する重みの種類として特定する。そして、本実施形態に係る情報処理装置は、図6に示す要約に関する重みを特定するためのテーブルを参照して、決定された要約に関する重みの種類と語彙との組み合わせのうちの、値が“1”で示される組み合わせに対応する語彙に対して、重み付けを設定する。
また、本実施形態に係る情報処理装置は、上記のように得られたユーザU1がゲーム中であるという認識結果に基づいて、図6に示す要約に関する重みを特定するためのテーブルに含まれる「ゲーム用語」などの、認識結果に関連する要約に関する重みの種類を、要約に関する重みの種類として決定することも可能である。そして、本実施形態に係る情報処理装置は、図6に示す要約に関する重みを特定するためのテーブルを参照して、決定された要約に関する重みの種類と語彙との組み合わせのうちの、値が“1”で示される組み合わせに対応する語彙に対して、重み付けを設定する。
また、本実施形態に係る情報処理装置は、例えば、ユーザU1が用いているスマートフォンなどの装置が備える、加速度センサや角速度センサなどの動きセンサの検出結果に基づき推定されたユーザU1の状態の認識結果に基づいて、要約に関する重みを設定することも可能である。
例えば、動きセンサの検出結果に基づいてユーザU1が食事中であるという認識結果が得られた場合には、図8に示す要約に関する重みの種類を特定するためのテーブルから、行動“食事中”に対応する「料理」を、要約に関する重みの種類として特定する。そして、本実施形態に係る情報処理装置は、図6に示す要約に関する重みを特定するためのテーブルを参照して、決定された要約に関する重みの種類と語彙との組み合わせのうちの、値が“1”で示される組み合わせに対応する語彙に対して、重み付けを設定する。
(a-2)要約に関する重みの設定の第2の例:音声情報に基づく要約に関する重みの設定の一例
本実施形態に係る情報処理装置は、音声情報に基づいて、要約に関する重みを設定する。
本実施形態に係る情報処理装置は、音声情報に基づいて、例えば下記のように要約に関する重みの種類を決定する。
・音声情報が示す音声の平均的な周波数帯域が、例えば300~550[Hz]の場合:要約に関する重みの種類として、「男性」が決定される。
・音声情報が示す音声の平均的な周波数帯域が、例えば400~700[Hz]の場合:要約に関する重みの種類として、「女性」が決定される。
・音声情報が示す音声の音圧、音量が設定されている第1の閾値以上である場合、または、音声情報が示す音声の音圧、音量が第1の閾値より大きい場合:要約に関する重みの種類として、「怒り」と「喜び」との一方または双方が決定される。
・音声情報が示す音声の音圧、音量が設定されている第2閾値以下の場合、または、音声情報が示す音声の音圧、音量が第2の閾値より小さい場合:要約に関する重みの種類として、「悲しみ」、「不快」、「苦痛」、「不安」のうちの1または2以上が決定される。
・音声情報が示す音声のピッチ(音の高さ)あるいは発話速度(単位時間当たりの音素の量)が、設定されている第3の閾値より大きい場合、または、音声情報が示す音声のピッチあるいは発話速度が、第3の閾値以上である場合:要約に関する重みの種類として、「興奮」が決定される。
・音声情報が示す音声のピッチあるいは発話速度が、設定されている第4の閾値より小さい場合、または、音声情報が示す音声のピッチあるいは発話速度が、第4の閾値以下である場合:要約に関する重みの種類として、「平静」が決定される。
上記第1の閾値としては、例えば、72[dB]などの固定の値が挙げられる。また、上記第2の閾値としては、例えば、54[dB]などの固定の値が挙げられる。なお、上記第1の閾値と上記第2の閾値とは、例えば、ユーザU1のようなユーザと、コミュニケーション相手U2のようなコミュニケーションをとる相手との間の距離によって、動的に変わってもよい。上記第1の閾値と上記第2の閾値とを動的に変える例としては、例えば“上記距離が0.5[m]近づくごとに閾値を6[dB]上げ、0.5[m]遠ざかるごとに6[dB]下げること”が、挙げられる。上記距離は、例えば、撮像デバイスにより撮像された撮像画像に対する任意の画像処理によって推定されてもよいし、距離センサによって取得されてもよい。上記距離が推定される場合、上記距離の推定に係る処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。
また、上記第3の閾値と上記第4の閾値とは、予め設定されている固定値であってもよいし、ユーザの操作などに基づき変更可能な可変値であってもよい。
なお、音声情報に基づき決定される要約に関する重みの種類は、上記に示す例に限られない。
例えば、音声情報から得られるモーラ数とアクセントの場所との一方または双方に基づいて、感情(例えば、怒り、喜び、悲しみなど)を推定し、推定された感情に対応する要約に関する重みの種類を設定することが可能である。推定された感情に対応する要約に関する重みの種類を設定する場合には、本実施形態に係る情報処理装置は、例えば、音声情報から得られる基本周波数の変化率、音の変化率、発話期間の変化率などに基づいて、感情に関する重みの強さを変えてもよい。
ここで、本実施形態に係る情報処理装置は、上記(a-1)に示す第1の例と同様に、図7、図8に示すような要約に関する重みの種類を特定するためのテーブルを用いて要約に関する重みの種類を決定してもよいし、図6に示すような要約に関する重みを特定するためのテーブルのみを用いて、要約に関する重みを決定してもよい。
要約に関する重みが決定されると、本実施形態に係る情報処理装置は、例えば上記(a-1)に示す第1の例と同様に、図6に示すような要約に関する重みを特定するためのテーブルを参照して、特定された要約に関する重みの種類と語彙との組み合わせのうちの、値が“1”で示される組み合わせに対応する語彙に対して、重み付けを設定する。
(a-3)要約に関する重みの設定の第3の例:アプリケーションに関する情報が示すアプリケーションの実行状態に基づく要約に関する重みの設定の一例
本実施形態に係る情報処理装置は、アプリケーションの実行状態に基づいて、要約に関する重みを設定する。
例えば、ユーザU1が、スマートフォンなどの装置を操作してスケジュールアプリケーションを起動し、目的地を確認した場合には、本実施形態に係る情報処理装置は、スケジュールアプリケーションの実行状態に基づいて、図7に示す要約に関する重みの種類を特定するためのテーブルから、スケジュール内容“場所移動(biz)”に対応する「時間」、「場所」を、要約に関する重みの種類として特定する。そして、本実施形態に係る情報処理装置は、図6に示す要約に関する重みを特定するためのテーブルを参照して、特定された要約に関する重みの種類と語彙との組み合わせのうちの、値が“1”で示される組み合わせに対応する語彙に対して、重み付けを設定する。図6に示す要約に関する重みを特定するためのテーブルが用いられる場合には、語彙“午前”、“渋谷”、“いつ”、“どこで”、…に対して、重み付けが設定されることとなる。
また、本実施形態に係る情報処理装置は、例えば下記のように、実行されているアプリケーションのプロパティに基づいて要約に関する重みの種類を決定して、要約に関する重みを設定することも可能である。
・地図アプリケーションが実行されている場合:要約に関する重みの種類として、「時間」、「場所」、「人名」などが決定される。
・乗換案内アプリケーションが実行されている場合:要約に関する重みの種類として、「時間」、「場所」、「電車」などが決定される。
・日本のことを聞くための質問を円滑に進めるためのアプリケーションが実行されている場合:要約に関する重みの種類として、「質問」、「日本」などが決定される。
(a-4)要約に関する重みの設定の第4の例:ユーザに関する情報に含まれるユーザの操作情報が示すユーザの操作に基づく要約に関する重みの設定の一例
本実施形態に係る情報処理装置は、ユーザの操作に基づいて、要約に関する重みを設定する。
本実施形態に係る情報処理装置は、例えば、要約に関する重みの種類を選択する操作(ユーザの操作の一例)によって選択された要約に関する重みの種類を、要約に関する重みの設定に用いる要約に関する重みの種類として、決定する。
また、本実施形態に係る情報処理装置は、例えば、要約に係る音声認識の開始操作などの、所定の操作が行われたときに、当該所定の操作に予め対応付けられている要約に関する重みの種類を自動的に設定してもよい。一例を挙げると、要約に係る音声認識の開始操作が行われた場合には、要約に関する重みの種類として、「質問」などが決定される。
要約に関する重みが決定されると、本実施形態に係る情報処理装置は、例えば上記(a-1)に示す第1の例と同様に、図6に示すような要約に関する重みを特定するためのテーブルを参照して、特定された要約に関する重みの種類と語彙との組み合わせのうちの、値が“1”で示される組み合わせに対応する語彙に対して、重み付けを設定する。
(a-5)要約に関する重みの設定の第5の例
本実施形態に係る情報処理装置は、上記(a-1)~上記(a-4)のうちの2以上を組み合わせることによって、要約に関する重みを設定することが、可能である。
(b)第1の情報処理方法に係る要約処理の一例
例えば、ユーザU1が、目的地に向かう移動中に駅でゴミを捨てることを望むとき、駅にゴミ箱がないことから、“駅にゴミ箱がない理由”をコミュニケーション相手U2に英語で尋ねるケースを想定する(図1、図2)。
ここで、コミュニケーション相手U2が英語を十分に理解することができない場合には、コミュニケーション相手U2は、ユーザU1が訪ねている内容を、十分に理解することができない可能性が高い。
そこで、本実施形態に係る情報処理装置は、第1の情報処理方法に係る要約処理を行い、例えば図1に示すアイウェア型の装置に接続されているマイクロホンにより生成された音声情報が示す発話の内容を、要約する。本実施形態に係る情報処理装置は、上述したように、例えば、音声情報に基づく音声テキスト情報が示す文字列を要約する。
より具体的には、本実施形態に係る情報処理装置は、例えば下記に数式1に示すような、上記(a)に示す処理により設定された要約に関する重みを用いた目的関数によって、発話の内容を要約する。
ここで、上記数式1に示す“W”は、要約に関する重みである。また、上記数式1に示す“ai”は、要約に関する重みそれぞれの寄与率を調整するパラメータであり、例えば0~1の実数をとる。また、上記数式1に示す“zyi”は、句yiが含まれれば“1”を示し、句yiが含まれなければ“0”を示す2値変数である。
なお、本実施形態に係る情報処理装置は、上記数式1に示す要約に関する重みを用いた目的関数を用いる方法に限られず、設定された要約に関する重みを用いて、発話の内容を要約することが可能な、任意の方法を用いることが可能である。
図3は、第1の情報処理方法に係る要約処理の結果の一例を示している。図3のAは、要約される前の発話の内容の一例を示している。また、図3のBは、要約された発話の内容の一例を示しており、図3のCは、要約された発話の内容の他の例を示している。
図3のBに示すように発話の内容が要約されることによって、発話の内容が要約される前よりも簡略化される。よって、図3のBに示すように発話の内容が要約されることにより、コミュニケーション相手U2が英語を十分に理解することができない場合であっても、コミュニケーション相手U2が、ユーザU1が訪ねている内容を理解することができる可能性をより高めることが、可能となる。
また、図3のCは、“本実施形態に係る情報処理装置が、図3のBに示す要約結果に対してさらに形態素解析を行い、形態素解析された結果に基づく形態素を組み合わせた単位で、図3のBに示す要約結果を分割した分割テキストを、要約された発話の内容とした例”を示している。
例えば、発話の内容に対応する音声テキスト情報が示す文字列の言語が、日本語である場合には、本実施形態に係る情報処理装置は、主要品詞(名詞、動詞、形容詞、副詞)とそれ以外の形態素を組み合わせた単位で、分割テキストを生成する。また、例えば、発話の内容に対応する音声テキスト情報が示す文字列の言語が、英語である場合には、本実施形態に係る情報処理装置は、さらに5W1Hを分割テキストとする。
図3のCに示すように発話の内容が要約されることによって、発話の内容は、図3のBに示す要約結果よりも簡略化される。よって、図3のCに示すように発話の内容が要約されることにより、コミュニケーション相手U2が英語を十分に理解することができない場合であっても、コミュニケーション相手U2が、ユーザU1が訪ねている内容を理解することができる可能性を、図3のBに示す要約結果を得る場合よりもさらに高めることが、できる。
(c)翻訳処理の一例
本実施形態に係る情報処理装置は、例えば上記(b)に示す要約処理により要約された発話の内容を、さらに他の言語に翻訳してもよい。本実施形態に係る情報処理装置は、上述したように、発話に対応する第1の言語を、第1の言語と異なる第2の言語に翻訳する。
本実施形態に係る情報処理装置は、例えば、ユーザU1が存在している位置を特定し、発話の内容に対応する音声テキスト情報が示す文字列の言語が、特定された位置における公用語と異なる場合に、要約された発話の内容を、当該公用語に翻訳する。ユーザU1が存在している位置は、例えば、図1に示すアイウェア型の装置ようなユーザU1が装着しているウェアラブル装置や、ユーザU1が所持しているスマートフォンなどの通信装置などから取得される位置情報に基づき特定される。位置情報としては、例えば、GNSS(Global Navigation Satellite System)デバイスなどの位置を特定することが可能なデバイスの検出結果を示すデータ(または、任意の方式により位置を推定することが可能なデバイスの推定結果を示すデータ)が、挙げられる。
また、本実施形態に係る情報処理装置は、例えば、発話の内容に対応する音声テキスト情報が示す文字列の言語が、設定されている言語と異なる場合に、要約された発話の内容を、当該設定されている言語に翻訳してもよい。
本実施形態に係る情報処理装置は、他の言語に翻訳することが可能な任意のアルゴリズムの処理によって、要約された発話の内容を他の言語に翻訳する。
図4は、本実施形態に係る翻訳処理の結果の一例を示している。図4のAは、翻訳される前の要約された発話の内容の一例として、図3のCに示す要約結果を示している。また、図4のBは、翻訳処理により図3のCに示す要約結果が他の言語に翻訳された内容の一例として、図3のCに示す要約結果が日本語に翻訳された翻訳結果の一例を示している。以下では、図3のCに示す要約結果のような分割テキストが翻訳された翻訳結果を、「分割翻訳テキスト」と示す場合がある。
図4のBに示すように要約された発話の内容が、コミュニケーション相手U2の母国語である日本語に翻訳されることによって、コミュニケーション相手U2が、ユーザU1が訪ねている内容を理解することができる可能性を、要約された発話の内容が翻訳されない場合よりも、さらに高めることが可能となる。
(d)第2の情報処理方法に係る通知制御処理の一例
本実施形態に係る情報処理装置は、上記(b)に示す要約処理によって要約された、音声情報が示す発話の内容を、通知させる。また、上記(c)に示す翻訳処理がさらに行われることにより、要約された発話の内容が他の言語に翻訳された場合には、本実施形態に係る情報処理装置は、翻訳結果を通知させる。
上述したように、本実施形態に係る情報処理装置は、例えば、視覚的な方法による通知と聴覚的な方法による通知との一方または双方によって、要約された発話の内容(または、翻訳結果)を、通知内容として通知させる。
図5は、本実施形態に係る通知制御処理の結果の一例を示している。図5では、“ユーザU1が装着しているアイウェア型の装置に接続されている音声出力デバイスから、翻訳結果を示す音声が出力されることにより、翻訳結果が聴覚的に通知される例”を、示している。また、図5では、図4のBに示す翻訳結果が通知される例を示している。
図5では、音声情報に基づいて、音圧が強い発話箇所に対応する箇所(図5に示す“なぜ”の部分)の音圧を、他の箇所よりも強くさせた例を示している。
また、図5では、翻訳結果を示す音声を出力させる際に、分割テキストの区切りを、図5において符号“S”で示すようなサウンドフィードバックを挿入することによって、通知させている例を示している。
なお、第2の情報処理方法に係る通知制御処理により実現される通知の例は、図5に示す例に限られない。第2の情報処理方法に係る通知制御処理により実現される通知の他の例については、後述する。
例えば図5に示すように、コミュニケーション相手U2の母国語である日本語に翻訳された要約された発話の内容(翻訳結果)が、通知内容として音声出力デバイスから音声によって出力されることによって、ユーザU1が訪ねている内容を、コミュニケーション相手U2に理解させることが、より容易となる。
本実施形態に係る情報処理方法が適用されるユースケースとしては、上記のような「会話支援」(翻訳が行われる場合も含む。)のユースケースが挙げられる。なお、上述したように、本実施形態に係る情報処理方法が適用されるユースケースが、上記のような「会話支援」に限られないことは、言うまでもない。
[3]本実施形態に係る情報処理方法に係る処理
次に、本実施形態に係る情報処理方法に係る処理について、より具体的に説明する。以下では、第1の情報処理方法に係る要約処理と、本実施形態に係る翻訳処理と、第2の情報処理方法に係る通知制御処理とについて、説明する。
[3-1]第1の情報処理方法に係る要約処理
本実施形態に係る情報処理装置は、要約に関する重みを示す情報に基づいて、ユーザの発話に基づく音声情報が示す発話の内容を要約する。
上述したように、要約に関する重みは、例えば、音声情報、ユーザの状態、アプリケーションの実行状態、およびユーザの操作のうちの1または2以上に基づいて、設定される。また、上述したように、本実施形態に係る情報処理装置は、例えば、上記数式1に示すような設定された要約に関する重みを用いた目的関数によって、発話の内容を要約する。
また、本実施形態に係る情報処理装置は、要約処理として、例えば下記の(1)~(3)の処理のうちの、1または2以上を行うことが可能である。
(1)要約処理の第1の例:要約処理の開始タイミング
本実施形態に係る情報処理装置は、設定されている所定の開始条件を満たしたと判定した場合に、要約処理を行う。
本実施形態に係る要約処理の開始条件としては、例えば下記に示す例が挙げられる。
・発話がされていない状態が継続する無発話期間に関する条件
・音声情報から発話の内容を取得するための音声認識の状態に関する条件
・発話の内容に関する条件
・音声情報が得られてからの経過時間に関する条件
図9A~図9Cは、第1の情報処理方法に係る要約処理の一例を説明するための説明図であり、要約処理の開始タイミングの概要を示している。以下、図9A~図9Cを適宜参照しつつ、各開始条件における処理の一例を説明する。
(1-1)開始条件の第1の例:開始条件が無発話期間に関する条件である場合における例
無発話期間に関する条件としては、例えば、無発話期間の長さに係る条件が挙げられる。所定の開始条件が、無発話期間に関する条件である場合、本実施形態に係る情報処理装置は、無発話期間が設定されている所定の期間を越えた場合、または、無発話期間が設定されている所定の期間以上となった場合に、開始条件を満たしたと判定する。
ここで、開始条件の第1の例に係る期間は、予め設定されている固定の期間であってもよいし、ユーザの操作などに基づき変更可能な可変の期間であってもよい。
図9AのAを参照すると、図9AのAに示す“無音区間”が、無発話期間に該当する。
本実施形態に係る情報処理装置は、例えば、音声情報に基づき音声が存在する音声区間を検出する。そして、本実施形態に係る情報処理装置は、上記音声区間が検出された後、設定されている時間を越えて無音区間が検出された場合、または、設定されている時間以上の無音区間が検出された場合を、要約処理の開始トリガ(以下、「要約トリガ」と示す。)として、要約処理を開始する。
(1-2)開始条件の第2の例:開始条件が、音声認識の状態に関する第1の条件である場合における例
音声認識の状態に関する第1の条件としては、音声認識の停止要求の検出に係る条件が挙げられる。所定の開始条件が、音声認識の状態に関する第1の条件である場合、本実施形態に係る情報処理装置は、音声認識の停止要求が検出されたことに基づいて、開始条件を満たしたと判定する。本実施形態に係る情報処理装置は、例えば、音声認識の停止要求が検出された場合に、開始条件を満たしたと判定する。
図9AのBを参照すると、本実施形態に係る情報処理装置は、例えば、図9AのBに示す“音声認識の開始操作”に基づき音声認識が開始された後に、図9AのBに示す“音声認識の停止操作”に基づく、音声認識の停止命令を含む音声認識の停止要求が検出された場合を、要約トリガとして、要約処理を開始する。ここで、上記音声認識の開始操作と上記音声認識の停止操作としては、例えば、音声認識に係る任意のUI(User Interface)に対する操作が挙げられる。
なお、本実施形態に係る音声認識の停止要求は、音声認識の停止操作に基づき得られることに限られない。例えば、音声認識の停止要求は、音声認識処理の最中にエラーが発生した場合や、音声認識処理の最中に割り込み処理が入った場合などにおいて、音声認識処理を行っている装置などにより生成されてもよい。
(1-3)開始条件の第3の例:開始条件が、音声認識の状態に関する第2の条件である場合における例
音声認識の状態に関する第2の条件としては、音声認識の完了に係る条件が挙げられる。所定の開始条件が、音声認識の状態に関する第2の条件である場合、本実施形態に係る情報処理装置は、音声認識の完了が検出されたことに基づいて、開始条件を満たしたと判定する。本実施形態に係る情報処理装置は、例えば、音声認識の完了が検出された場合に、開始条件を満たしたと判定する。
図9BのAを参照すると、本実施形態に係る情報処理装置は、例えば、図9BのAにおいて“音声認識結果取得”と示すように、音声認識処理の結果が得られた場合を、要約トリガとして、要約処理を開始する。
(1-4)開始条件の第4の例:開始条件が、発話の内容に関する第1の条件である場合における例
発話の内容に関する第1の条件としては、音声情報が示す発話の内容からの所定の言葉の検出に係る条件が挙げられる。所定の開始条件が、発話の内容に関する第1の条件である場合、本実施形態に係る情報処理装置は、音声情報が示す発話の内容から所定の言葉が検出されたことに基づいて、開始条件を満たしたと判定する。本実施形態に係る情報処理装置は、例えば、音声情報が示す発話の内容から所定の言葉が検出された場合に、開始条件を満たしたと判定する。
発話の内容に関する第1の条件に係る所定の言葉としては、例えば、フィラーワードと呼ばれる言葉が挙げられる。発話の内容に関する第1の条件に係る所定の言葉は、予め設定された、追加、削除、変更などができない固定の言葉であってもよいし、ユーザの操作などに基づいて追加、削除、変更が可能であってもよい。
図9BのBを参照すると、図9BのBに示す“えっと”が、フィラーワードの一例(所定の言葉の一例)に該当する。
本実施形態に係る情報処理装置は、例えば、音声情報に基づき得られた音声テキスト情報が示す文字列から、フィラーワードが検出された場合を、要約トリガとして、要約処理を開始する。
(1-5)開始条件の第5の例:開始条件が、発話の内容に関する第2の条件である場合における例
発話の内容に関する第2の条件としては、音声情報が示す発話の内容からの言いよどみの検出に係る条件が挙げられる。所定の開始条件が、発話の内容に関する第2の条件である場合、本実施形態に係る情報処理装置は、音声情報に基づき言いよどみが検出されたことに基づいて、開始条件を満たしたと判定する。本実施形態に係る情報処理装置は、例えば、音声情報に基づき言いよどみが検出された場合に、開始条件を満たしたと判定する。
本実施形態に係る情報処理装置は、例えば、“音声情報から有声休止(音節の引き延ばしも含む。)を検出する方法”や、“音声情報に基づき得られた音声テキスト情報が示す文字列から、言いよどみに対応付けられている言葉を検出する方法”など、音声情報に基づき言いよどみを検出すること、または、音声情報に基づき言いよどみを推定することが可能な、任意の方法によって、音声情報に基づき言いよどみを検出する。
図9CのAを参照すると、本実施形態に係る情報処理装置は、例えば、言いよどみがあると推定された場合を、要約トリガとして、要約処理を開始する。
(1-6)開始条件の第6の例:開始条件が、音声情報が得られてからの経過時間に関する条件である場合における例
音声情報が得られてからの経過時間に関する条件としては、経過時間の長さに係る条件が挙げられる。所定の開始条件が、音声情報が得られてからの経過時間に関する条件である場合、本実施形態に係る情報処理装置は、経過時間が設定されている所定の期間を越えた場合、または、経過時間が設定されている所定の期間以上となった場合に、開始条件を満たしたと判定する。
ここで、開始条件の第6の例に係る期間は、予め設定されている固定の期間であってもよいし、ユーザの操作などに基づき変更可能な可変の期間であってもよい。
図9CのBを参照すると、本実施形態に係る情報処理装置は、例えば、音声情報が得られたことが検出されてから設定されている一定時間が経過した場合を、要約トリガとして、要約処理を開始する。
(1-7)開始条件の第7の例
開始条件は、上記(1-1)に示す第1の例に係る開始条件~上記(1-6)に示す第6の例に係る開始条件のうちの、2以上を組み合わせた条件であってもよい。本実施形態に係る情報処理装置は、例えば、組み合わせた開始条件のうちの、いずれかの開始条件を満たした場合を、要約トリガとして、要約処理を開始する。
(2)要約処理の第2の例:要約処理を行わない例外処理
本実施形態に係る情報処理装置は、設定されている要約処理の除外条件(以下、「要約除外条件」と示す。)を満たしたと判定した場合には、要約処理を行わない。
本実施形態に係る要約除外条件としては、例えば、ジェスチャの検出に関する条件が挙げられる。本実施形態に係る情報処理装置は、設定されている所定のジェスチャが検出された場合に、要約除外条件を満たしたと判定する。
要約除外条件に係る所定のジェスチャは、予め設定されている固定のジェスチャであってもよいし、ユーザの操作などに基づき追加、削除、変更が可能であってもよい。本実施形態に係る情報処理装置は、例えば、撮像デバイスによる撮像により得られた撮像画像を画像処理することや、加速度センサや角速度センサなどの動きセンサの検出結果に基づき動きを推定することなどによって、要約除外条件に係る所定のジェスチャが行われたか否かを判定する。
なお、本実施形態に係る要約除外条件は、上記のようなジェスチャの検出に関する条件に限られない。
例えば、本実施形態に係る要約除外条件は、“要約処理を行う機能を無効化するためのボタンが押下されるなど、要約処理を行う機能を無効化する操作が検出されたこと”や、“本実施形態に係る情報処理装置の処理負荷が、設定されている閾値よりも大きくなったこと”など、要約除外条件として設定された任意の条件であってもよい。
(3)要約処理の第3の例:要約のレベルを動的に変更する処理
本実施形態に係る情報処理装置は、音声情報に基づき特定される発話期間と、音声情報に基づき特定される文字数との一方または双方に基づいて、発話の内容の要約のレベル(または、発話の内容の要約の程度。以下、同様とする。)を変更する。換言すると、本実施形態に係る情報処理装置は、音声情報に基づき特定される発話期間と、音声情報に基づき特定される文字数との少なくとも一方に基づいて、発話の内容の要約のレベルを変更する。
本実施形態に係る情報処理装置は、例えば、要約された発話の内容が示す文字数を制限することによって、発話の内容の要約のレベルを変更する。本実施形態に係る情報処理装置は、例えば、要約された発話の内容が示す文字数が、設定されている上限値を超えないようにすることによって、要約された発話の内容が示す文字数を制限する。要約された発話の内容が示す文字数が制限されることによって、要約された発話の内容が示す文字数、すなわち、要約量を、自動的に減らすことが可能となる。
ここで、発話期間は、例えば、音声情報に基づき音声が存在する音声区間を検出することによって、特定される。また、発話に対応する文字数は、音声情報に基づく音声テキスト情報が示す文字列の文字数をカウントすることによって特定される。
発話期間に基づいて発話の内容の要約のレベルを変更する場合、本実施形態に係る情報処理装置は、例えば、発話期間が設定されている所定の期間を越えた場合、または、発話期間が設定されている所定の期間以上となった場合に、発話の内容の要約のレベルを変更する。ここで、発話期間に基づいて発話の内容の要約のレベルを変更する場合における上記期間は、予め設定されている固定の期間であってもよいし、ユーザの操作などに基づき変更可能な可変の期間であってもよい。
また、音声情報に基づき特定される文字数に基づいて発話の内容の要約のレベルを変更する場合、本実施形態に係る情報処理装置は、例えば、文字数が設定されている閾値より大きくなった場合、または、文字数が設定されている閾値以上となった場合に、発話の内容の要約のレベルを変更する。ここで、音声情報に基づき特定される文字数に基づいて発話の内容の要約のレベルを変更する場合における上記閾値は、予め設定されている固定の閾値であってもよいし、ユーザの操作などに基づき変更可能な可変の閾値であってもよい。
[3-2]本実施形態に係る翻訳処理
上記(c)に示すように、本実施形態に係る情報処理装置は、第1の情報処理方法に係る要約処理により要約された発話の内容を他の言語に翻訳する翻訳処理を、さらに行うことが可能である。本実施形態に係る情報処理装置は、上述したように、発話に対応する第1の言語を、第1の言語と異なる第2の言語に翻訳する。
また、翻訳処理では、翻訳単位ごとに翻訳結果の信頼度が設定されてもよい。
翻訳単位とは、翻訳処理において翻訳を行う単位である。翻訳単位としては、例えば、単語ごと、1または2以上の文節ごとなど、設定されている固定の単位が挙げられる。また、翻訳単位は、例えば、発話に対応する言語(第1の言語)などに応じて動的に設定されてもよい。また、翻訳単位は、例えば、ユーザの設定操作などに基づいて変更可能であってもよい。
翻訳結果の信頼度とは、例えば、翻訳結果の確かさを示す指標であり、例えば、0[%](信頼度が最も低いことを示す)~100[%](信頼度が最も高いことを示す)の値で表される。翻訳結果の信頼度は、例えば、翻訳結果に対するフィードバックの結果を用いる機械学習の結果など、任意の機械学習の結果を用いて、求められる。なお、翻訳結果の信頼度は、機械学習を用いて求められることに限られず、翻訳結果の確かさを求めることが可能な、任意の方法によって求められてもい。
また、本実施形態に係る情報処理装置は、翻訳処理として、例えば下記の(i)、(ii)のうちの、一方または双方を行うことが可能である。
(i)翻訳処理の第1の例:翻訳処理を行わない例外処理
本実施形態に係る情報処理装置は、設定されている翻訳処理の除外条件を満たしたと判定した場合には、翻訳処理を行わない。
本実施形態に係る翻訳処理の除外条件としては、例えば、ジェスチャの検出に関する条件が挙げられる。本実施形態に係る情報処理装置は、設定されている所定のジェスチャが検出された場合に、翻訳処理を満たしたと判定する。
翻訳処理に係る所定のジェスチャは、予め設定されている固定のジェスチャであってもよいし、ユーザの操作などに基づき追加、削除、変更が可能であってもよい。予め設定されている固定のジェスチャとしては、例えば、ハンドサインなどのノンバーバルなコミュニケーションに係る身振り、手振りなどが挙げられる。本実施形態に係る情報処理装置は、例えば、撮像デバイスによる撮像により得られた撮像画像を画像処理することや、加速度センサや角速度センサなどの動きセンサの検出結果に基づき動きを推定することなどによって、翻訳処理に係る所定のジェスチャが行われたか否かを判定する。
なお、本実施形態に係る翻訳処理の除外条件は、上記のようなジェスチャの検出に関する条件に限られない。
例えば、本実施形態に係る翻訳処理の除外条件は、“翻訳処理を行う機能を無効化するためのボタンが押下されるなど、翻訳処理を行う機能を無効化する操作が検出されたこと”や、“本実施形態に係る情報処理装置の処理負荷が、設定されている閾値よりも大きくなったこと”など、翻訳処理の除外条件として設定された任意の条件であってもよい。また、本実施形態に係る翻訳処理の除外条件は、上述した本実施形態に係る要約除外条件と同一の条件であってもよいし、異なる条件であってもよい。
(ii)翻訳処理の第2の例:再翻訳における処理
本実施形態に係る情報処理装置は、他の言語に翻訳された内容を、翻訳前の言語に再翻訳することも可能である。
本実施形態に係る情報処理装置は、例えば、再翻訳を行うためのボタンが押下されるなど、再翻訳の処理を行うための操作が検出された場合に、他の言語に翻訳された内容を、翻訳前の言語に再翻訳する。
なお、再翻訳のトリガは、上記のような再翻訳の処理を行うための操作が検出されたことに限られない。例えば、本実施形態に係る情報処理装置は、翻訳単位ごとに設定された翻訳結果の信頼度に基づいて、再翻訳を自動的に行うことも可能である。本実施形態に係る情報処理装置は、例えば、翻訳単位ごとに設定された翻訳結果の信頼度の中に、設定された閾値以下、または、当該閾値より小さい信頼度がある場合を、再翻訳のトリガとして、再翻訳を行う。
また、他の言語に翻訳された内容が、翻訳前の言語に再翻訳された場合には、本実施形態に係る情報処理装置は、再翻訳の結果を利用した要約処理を行ってもよい。
一例を挙げると、本実施形態に係る情報処理装置は、例えば、再翻訳した後に取得された音声情報が示す発話の内容に、再翻訳後の内容に含まれている言葉が存在する場合には、再翻訳後の内容に含まれている言葉を、要約された発話の内容に含める。上記のような再翻訳の結果を利用した要約処理が行われることによって、例えば“ユーザが発話した内容に再翻訳前と同じ文言が登場した場合、今回の発話に対応する要約では、再翻訳前と同じ文言が削除されないように調整すること”が、実現される。
[3-3]第2の情報処理方法に係る通知制御処理
本実施形態に係る情報処理装置は、第1の情報処理方法に係る要約処理によって要約された、声情報が示す発話の内容を、通知させる。
上述したように、本実施形態に係る翻訳処理によって、要約された発話の内容が他の言語に翻訳された場合には、本実施形態に係る情報処理装置は、翻訳結果を通知させる。
また、上述したように、本実施形態に係る情報処理装置は、例えば、視覚的な方法による通知と聴覚的な方法による通知との一方または双方によって、通知内容を通知させる。
図10は、第2の情報処理方法に係る通知制御処理により実現される視覚的な方法による通知の一例を示す説明図である。図10は、本実施形態に係る情報処理装置が、スマートフォンの表示画面に、翻訳結果を表示させた場合の一例を示している。
また、本実施形態に係る情報処理装置は、通知制御処理として、例えば下記の(I)の処理~(VII)の処理のうちの、1または2以上を行うことが可能である。以下では、本実施形態に係る情報処理装置が、翻訳結果を通知させる場合を例に挙げる。なお、本実施形態に係る情報処理装置は、翻訳前の要約された発話の内容についても、翻訳結果を通知させる場合と同様に、通知させることが可能である。
図11~図21は、第2の情報処理方法に係る通知制御処理の一例を説明するための説明図である。以下、図11~図21を適宜参照しつつ、第2の情報処理方法に係る通知制御処理の一例を説明する。
(I)通知制御処理の第1の例:翻訳言語の語順による通知
本実施形態に係る情報処理装置は、翻訳された他の言語に対応する語順で、翻訳結果を通知させる。
例えば、要約処理において発話の内容が、図3のCに示すような分割テキストに要約されたときにおいて、上記他の言語が英語である場合、本実施形態に係る情報処理装置は、以下の順で、翻訳結果を通知させる。
・名詞
・動詞
・形容詞
・副詞
・その他
また、例えば、要約処理において発話の内容が、図3のCに示すような分割テキストに要約されたときにおいて、上記他の言語が日本語である場合、本実施形態に係る情報処理装置は、以下の順で、翻訳結果を通知させる。
・動詞
・名詞
・形容詞
・副詞
・その他
上記のように、翻訳された他の言語に対応する語順で、翻訳結果を通知させることによって、例えば、図4のBに示す翻訳結果の語順と、図5に示すような聴覚的な通知における語順とを、変えることが可能である。
ここで、翻訳された他の言語に対応する語順は、予め設定された固定の語順であってもよいし、ユーザの操作などに基づいて変更可能であってもよい。
(II)通知制御処理の第2の例:翻訳単位ごとの信頼度に基づく通知制御処理
上述したように、翻訳処理では、翻訳単位ごとに翻訳結果の信頼度が設定されうる。翻訳処理において翻訳単位ごとに翻訳結果の信頼度が設定される場合、本実施形態に係る情報処理装置は、要約された発話の内容における翻訳単位ごとの信頼度に基づいて、翻訳結果を通知させる。
本実施形態に係る情報処理装置は、例えば下記の(II-1)と(II-2)の一方または双方の処理を行うことによって、翻訳単位ごとの信頼度に基づいて、翻訳結果を通知させる。
(II-1)翻訳単位ごとの信頼度に基づく通知制御処理の第1の例
本実施形態に係る情報処理装置は、信頼度が高い翻訳結果を、優先的に通知させる。
例えば、翻訳結果を表示デバイスの表示画面に表示させることにより視覚的に通知させる場合、本実施形態に係る情報処理装置は、表示のさせ方によって、信頼度が高い翻訳結果の優先的な通知を実現する。また、翻訳結果を音声出力デバイスから音声によって聴覚的に通知させる場合には、本実施形態に係る情報処理装置は、例えば、通知の順序によって、信頼度が高い翻訳結果の優先的な通知を実現してもよい。
以下では、翻訳結果を表示デバイスの表示画面に表示させることにより視覚的に通知させる場合を例に挙げて、第1の例に係る翻訳単位ごとの信頼度に基づく通知制御処理により実現される通知の一例を、説明する。
図11は、翻訳結果を表示デバイスの表示画面に表示させる場合の第1の例を示しており、信頼度が高い翻訳結果を優先的に通知させる場合の一例を示している。図11に示す例では、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”それぞれが、翻訳単位ごとの翻訳結果に該当する。また、図11は、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”の順に、より低い信頼度が設定された場合における例を示している。
本実施形態に係る情報処理装置は、例えば図11のAに示すように、翻訳単位ごとの翻訳結果が、信頼度が高い順序で階層的に表示されるように、翻訳単位ごとの翻訳結果を、表示画面に表示させる。
ここで、階層的な表示は、例えば、翻訳単位ごとの信頼度と、表示させる階層の決定に係る1または2以上の閾値とを用いた閾値処理によって、実現される。ここで、階層的な表示に係る閾値は、予め設定されている固定値であってもよいし、ユーザの操作などに基づき変更することが可能な可変値であってもよい。
上記閾値処理の結果、同一の階層に、複数の翻訳単位ごとの翻訳結果を表示させる場合、本実施形態に係る情報処理装置は、例えば、“階層に対応する表示画面の領域において左から右に向かって信頼度が高い順序で並べる”などの設定された所定の順序で、当該複数の翻訳単位ごとの翻訳結果を表示させる。
また、上記閾値処理の結果、信頼度が所定の閾値より大きい翻訳結果、または、信頼度が当該所定の閾値以上の翻訳結果が、複数存在する場合には、本実施形態に係る情報処理装置は、例えば図11のBに示すように、存在する複数の翻訳結果を、表示画面の所定の領域にまとめて表示させてもよい。ここで、上記所定の閾値としては、閾値処理に用いられる1または2以上の閾値のうちの、1または2以上の閾値が挙げられる。また、上記所定の領域としては、例えば“上記所定の閾値による閾値処理に対応付けられている階層に対応する、表示画面の領域”が、挙げられる。
例えば図11に示すような表示が行われることによって、“翻訳処理において高い信頼度(スコアに相当する。)が設定された翻訳単位ごとの翻訳結果が、上位に表示され、かつ、信頼度が所定の閾値を超えた場合は、翻訳単位ごとの翻訳結果それぞれをまとめて表示すること”が実現される。なお、信頼度が高い翻訳結果を優先的に通知させる場合における表示の例が、図11に示す例に限られないことは、言うまでもない。
(II-2)翻訳単位ごとの信頼度に基づく通知制御処理の第2の例
本実施形態に係る情報処理装置は、信頼度に応じて強調されるように、翻訳結果を通知させる。
例えば、翻訳結果を表示デバイスの表示画面に表示させることにより視覚的に通知させる場合、本実施形態に係る情報処理装置は、表示のさせ方によって、信頼度に応じて強調した通知を実現する。また、翻訳結果を音声出力デバイスから音声によって聴覚的に通知させる場合には、本実施形態に係る情報処理装置は、例えば、信頼度に基づき音声の音圧、音量などを変えることによって、信頼度に応じて強調した通知を実現してもよい。
以下では、翻訳結果を表示デバイスの表示画面に表示させることにより視覚的に通知させる場合を例に挙げて、第2の例に係る翻訳単位ごとの信頼度に基づく通知制御処理により実現される通知の一例を、説明する。
本実施形態に係る情報処理装置は、例えば“翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた大きさで表示させること”によって、信頼度に応じて翻訳結果を強調して表示させる。
図12は、翻訳結果を表示デバイスの表示画面に表示させる場合の第2の例を示しており、信頼度に応じて翻訳結果が強調して表示される場合の第1の例を示している。図12に示す例では、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”それぞれが、翻訳単位ごとの翻訳結果に該当する。また、図12は、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”の順に、より低い信頼度が設定された場合における例を示している。
また、図12は、本実施形態に係る情報処理装置が、上記第1の例に係る翻訳単位ごとの信頼度に基づく通知制御処理に加えて、さらに、翻訳単位ごとの翻訳結果それぞれを信頼度に応じた大きさで表示させた例を示している。なお、“第2の例に係る翻訳単位ごとの信頼度に基づく通知制御処理を行う場合において、本実施形態に係る情報処理装置が、図11に示すような階層的な表示のように、信頼度が高い翻訳結果を優先的に通知させなくてもよいこと”は、言うまでもない。
本実施形態に係る情報処理装置は、例えば図12のAに示すように、翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた大きさで表示させる。本実施形態に係る情報処理装置は、例えば“信頼度と、表示画面に翻訳単位ごとの翻訳結果を表示させる際の表示サイズとが対応付けられているテーブル(または、データベース)”を参照することによって、翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた大きさで表示させる。
例えば図12に示すような表示が行われることによって、“翻訳処理において高い信頼度(スコアに相当する。)が設定された翻訳単位ごとの翻訳結果が、上位に表示され、かつ、上位に表示される翻訳単位ごとの翻訳結果ほど、目立つように大きさを変えること”が実現される。なお、翻訳単位ごとの翻訳結果それぞれを信頼度に応じた大きさで表示させる場合における表示の例が、図12に示す例に限られないことは、言うまでもない。
また、本実施形態に係る情報処理装置は、例えば“翻訳単位ごとの翻訳結果それぞれを、信頼度が高い翻訳結果が表示画面においてより手前に表示されるように、表示させること”によって、信頼度に応じて翻訳結果を強調して表示させてもよい。
図13は、翻訳結果を表示デバイスの表示画面に表示させる場合の第3の例を示しており、信頼度に応じて翻訳結果が強調して表示される場合の第2の例を示している。図13に示す例では、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”、…それぞれが、翻訳単位ごとの翻訳結果に該当する。また、図13は、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”、…の順に、より低い信頼度が設定された場合における例を示している。
また、図13は、本実施形態に係る情報処理装置が、上記第1の例に係る翻訳単位ごとの信頼度に基づく通知制御処理に加えて、さらに、信頼度が高い翻訳結果を表示画面においてより手前に表示させた例を示している。なお、上述したように、“第2の例に係る翻訳単位ごとの信頼度に基づく通知制御処理を行う場合において、本実施形態に係る情報処理装置が、図11に示すような階層的な表示のように、信頼度が高い翻訳結果を優先的に通知させなくてもよいこと”は、言うまでもない。
本実施形態に係る情報処理装置は、例えば図13のAに示すように、信頼度が高い翻訳結果を、表示画面においてより手前に表示させる。本実施形態に係る情報処理装置は、例えば、“信頼度と、表示画面に翻訳単位ごとの翻訳結果を表示させる際の奥行方向の座標値とが対応付けられているテーブル(または、データベース)”を参照することによって、翻訳単位ごとの翻訳結果それぞれを、信頼度が高い翻訳結果が表示画面においてより手前に表示されるように表示させる。
例えば図13に示すような表示が行われることによって、“翻訳処理において高い信頼度(スコアに相当する。)が設定された翻訳単位ごとの翻訳結果が、表示画面における奥行き方向の前面に表示されることによって、高い信頼度が設定された翻訳単位ごとの翻訳結果ほど、目立たせること”が実現される。なお、翻訳単位ごとの翻訳結果それぞれを、信頼度が高い翻訳結果が表示画面においてより手前に表示されるように表示させる場合における表示の例が、図13に示す例に限られないことは、言うまでもない。
また、本実施形態に係る情報処理装置は、例えば“翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた色と信頼度に応じた透過度との一方または双方で、表示させること”によって、信頼度に応じて翻訳結果を強調して表示させてもよい。
図14は、翻訳結果を表示デバイスの表示画面に表示させる場合の第4の例を示しており、信頼度に応じて翻訳結果が強調して表示される場合の第3の例を示している。図14に示す例では、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”それぞれが、翻訳単位ごとの翻訳結果に該当する。また、図14は、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”の順に、より低い信頼度が設定された場合における例を示している。
また、図14は、本実施形態に係る情報処理装置が、上記第1の例に係る翻訳単位ごとの信頼度に基づく通知制御処理に加えて、さらに、翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた色と信頼度に応じた透過度との一方または双方で、表示させた例を示している。なお、上述したように、“第2の例に係る翻訳単位ごとの信頼度に基づく通知制御処理を行う場合において、本実施形態に係る情報処理装置が、図11に示すような階層的な表示のように、信頼度が高い翻訳結果を優先的に通知させなくてもよいこと”は、言うまでもない。
本実施形態に係る情報処理装置は、例えば図14のAに示すように、翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた色で表示させる。また、本実施形態に係る情報処理装置は、例えば、翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた透過度で表示させてもよい。さらに、本実施形態に係る情報処理装置は、例えば、翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた色、および信頼度に応じた透過度で、表示させることも可能である。
本実施形態に係る情報処理装置は、例えば、“信頼度、表示画面に翻訳単位ごとの翻訳結果を表示させる際の色、および表示画面に翻訳単位ごとの翻訳結果を表示させる際の透過度が対応付けられているテーブル(または、データベース)”を参照することによって、翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた色と信頼度に応じた透過度との一方または双方で、表示させる。
例えば図14に示すような表示が行われることによって、“翻訳処理において高い信頼度(スコアに相当する。)が設定された翻訳単位ごとの翻訳結果ほど、目立つように、色と透過度との一方または双方が強調されること”が実現される。なお、翻訳単位ごとの翻訳結果それぞれを、信頼度に応じた色と信頼度に応じた透過度との一方または双方で表示させる場合における表示の例が、図14に示す例に限られないことは、言うまでもない。
(III)通知制御処理の第3の例:音声情報に基づく通知制御処理
通知内容を、表示デバイスの表示画面に表示させることにより視覚的に通知させる場合、本実施形態に係る情報処理装置は、音声情報に基づいて、通知内容の表示の仕方を制御する。
本実施形態に係る情報処理装置は、例えば“通知内容を、音声情報から特定される音圧または音量に応じた大きさで表示させること”によって、音声情報に基づき通知内容の表示の仕方を制御する。本実施形態に係る情報処理装置は、例えば、“音圧または音量、分割テキストを表示させる際の表示サイズ、およびフォントの大きさが対応付けられているテーブル(または、データベース)”を参照することによって、通知内容を、音声情報から特定される音圧または音量に応じた大きさで表示させる。
また、本実施形態に係る翻訳処理によって、要約された発話の内容が他の言語に翻訳された場合には、本実施形態に係る情報処理装置は、上記通知内容の表示の仕方を制御する場合と同様に、音声情報に基づいて、翻訳結果の表示の仕方を制御することが、可能である。
図15は、翻訳結果を表示デバイスの表示画面に表示させる場合の第5の例を示しており、音声情報に基づき翻訳結果が強調して表示される場合の一例を示している。図15に示す例では、“お薦め”、“観光”、“道順”、“教えて”、および“浅草”それぞれが、翻訳単位ごとの翻訳結果に該当する。また、図15は、例えば、“教えて”、“道順”、“お薦め”、“観光”、および“浅草”の順に、音圧または音量がより低い場合における例を示している。
本実施形態に係る情報処理装置は、例えば図15のAに示すように、翻訳単位ごとの翻訳結果(翻訳された要約された発話の内容)を、音声情報から特定される音圧または音量に応じた大きさで表示させる。本実施形態に係る情報処理装置は、例えば、“音圧または音量、翻訳単位ごとの翻訳結果を表示させる際の表示サイズ、およびフォントの大きさが対応付けられているテーブル(または、データベース)”を参照することによって、翻訳結果を、音声情報から特定される音圧または音量に応じた大きさで表示させる。
例えば図15に示すような表示が行われることによって、“音圧(または音量)が高かったものがより目立つように、フォントおよび表示サイズを大きく表示させること”が実現される。なお、音声情報に基づいて表示の仕方を制御する場合における表示の例が、図15に示す例に限られないことは、言うまでもない。
(IV)通知制御処理の第4の例:表示画面に対して行われる操作に基づく通知制御処理
通知内容を、表示デバイスの表示画面に表示させることにより視覚的に通知させる場合、本実施形態に係る情報処理装置は、表示画面に対して行われる操作に基づいて、表示画面に表示されている内容を変更させる。
ここで、表示画面に対して行われる操作としては、例えば、ボタンや方向キー、マウス、キーボードなどの操作入力デバイスを用いた操作、表示画面に対する操作(表示デバイスがタッチパネルである場合)など、表示画面に対して操作を行うことが可能な、任意の操作が、挙げられる。
本実施形態に係る情報処理装置は、例えば下記の(IV-1)と(IV-2)の一方または双方の処理を行うことによって、表示画面に対して行われる操作に基づいて、表示画面に表示されている内容を変更させる。
(IV-1)表示画面に対して行われる操作に基づく通知制御処理の第1の例
本実施形態に係る情報処理装置は、表示画面に対して行われる操作に基づいて、表示画面に表示されている内容を変更させる。本実施形態に係る表示画面に表示されている内容を変更させる例としては、下記に示す例のうちの1または2以上が、挙げられる。
・表示画面における通知内容の表示位置の変更(または、表示画面における、翻訳結果の表示位置の変更)
・表示画面に表示されている通知内容の一部の削除(または、表示画面に表示されている、翻訳結果の一部の削除)
本実施形態に係る情報処理装置が、表示画面に対して行われる操作に基づいて、表示画面における通知内容の表示位置(または、表示画面における、翻訳結果の表示位置)を変更させることよって、例えば、コミュニケーション相手に提示する内容の手動での変更が、可能となる。また、本実施形態に係る情報処理装置が、表示画面に対して行われる操作に基づいて、表示画面に表示されている通知内容の一部(または、表示画面に表示されている、翻訳結果の一部)を削除させることよって、例えば、誤訳が生じている翻訳結果などを手動で削除することが、可能となる。
図16A~図16Cは、表示画面に対して行われる操作に基づいて、表示画面に表示されている内容を変更させる場合における表示画面の例をそれぞれ示している。ここで、図16Aは、翻訳処理による翻訳単位ごとの翻訳結果が、再翻訳された場合における表示の一例を示している。また、図16Bは、表示画面に表示されている翻訳単位ごとの翻訳結果(翻訳された要約された発話の内容)の一部を削除する場合における、表示の一例を示している。また、図16Cは、表示画面に表示されている翻訳単位ごとの翻訳結果(翻訳された要約された発話の内容)の表示位置を変更する場合における、表示の一例を示している。
例えば、ユーザが表示画面に表示されている翻訳単位ごとの翻訳結果の一部である“お薦め”を削除することを望む場合を、例に挙げる。ユーザが、図16BのAにおいて符号Oで示すように“お薦め”を選択すると、図16BのAに示すように、削除するか否かを選択するウィンドウWが表示される。また、ユーザがウィンドウWにおいて“はい”を選択すると、図16BのBに示すように、翻訳結果の一部である“お薦め”が削除される。なお、表示画面に表示されている翻訳単位ごとの翻訳結果の一部を削除する場合の例が、図16Bに示す例に限られないことは、言うまでもない。
また、例えば、ユーザが表示画面に表示されている翻訳単位ごとの翻訳結果のうち、“お薦め”と“教えて”との表示位置を変更することを望む場合を、例に挙げる。例えば、ユーザが、図16CのAにおいて符号O1で示すように“教えて”を選択し、その後、ドラッグ操作により図16CのBにおいて符号O2で示す位置を指定すると、図16CのBに示すように、“お薦め”と“教えて”との表示位置が入れ替わる。なお、表示画面に表示されている翻訳単位ごとの翻訳結果の表示位置を変更する場合の例が、図16Cに示す例に限られないことは、言うまでもない。
(IV-2)表示画面に対して行われる操作に基づく通知制御処理の第2の例
要約された発話の内容(または、翻訳結果)を、通知内容として表示デバイスの表示画面に表示させる場合には、要約された発話の内容(または、翻訳結果)が、一画面に表示しきれないことが、起こりうる。上記のように、要約された発話の内容(または、翻訳結果)を一画面に表示しきれないことが生じた場合、本実施形態に係る情報処理装置は、通知内容のうちの一の部分を、表示画面に表示させる。
また、通知内容のうちの一の部分が、表示画面に表示されている場合、本実施形態に係る情報処理装置は、表示画面に対して行われる操作に基づいて、表示画面に表示されている内容を変更させる。本実施形態に係る情報処理装置は、例えば、表示画面に表示される通知内容を、上記一の部分から他の部分に変更させることによって、表示画面に表示されている内容を変更させる。
図17、図18は、表示画面に対して行われる操作に基づいて、翻訳処理による翻訳単位ごとの翻訳結果(翻訳された要約された発話の内容)を変更させる場合における表示画面の例をそれぞれ示している。ここで、図17は、図17のAに示すようなスライダー型のUIによって、表示画面に表示されている内容を変更させることが可能な表示画面の例を示している。また、図18は、表示画面の奥行き方向に回転して表示が変わるリボルバー型のUIによって、表示画面に表示されている内容を変更させることが可能な表示画面の例を示している。
例えば図17に示す表示がされている場合において、ユーザが、表示画面に表示されている内容をすることを望む場合を、例に挙げる。ユーザは、例えば図17のAに示すスライダーの任意の部分に触れるタッチ操作などにより、スライダー型のUIを操作することによって、表示画面に表示されている翻訳結果を、一の部分から他の部分に変更させる。
また、例えば図18に示す表示がされている場合において、ユーザが、表示画面に表示されている内容をすることを望む場合を、例に挙げる。ユーザは、例えば図18において符号O1で示すようなフリック操作を行うことなどにより、リボルバー型のUIを操作することによって、表示画面に表示されている翻訳結果を、一の部分から他の部分に変更させる。
なお、表示画面に表示されている翻訳結果を変更する場合の例が、図17、図18に示す例に限られないことは、言うまでもない。
(V)通知制御処理の第5の例:音声による操作に基づく通知制御処理
本実施形態に係る情報処理装置は、音声による操作に基づいて、翻訳結果を、音声出力デバイスから音声により聴覚的に通知させてもよい。
図19は、音声による操作に基いて、翻訳結果が聴覚的に通知される場合の一例を示している。図19は、音声による操作に基いて、翻訳処理による翻訳単位ごとの翻訳結果の中から、コミュニケーション相手に通知する内容が選択される場合の例を示している。
例えば、翻訳処理による翻訳単位ごとの翻訳結果が、“お薦め”、“観光”、“道順”、および“教えて”であった場合、本実施形態に係る情報処理装置は、図19のAに示すように、再翻訳した結果を、図19のAにおいて符号“I1”で示すように音声で通知させる。このとき、本実施形態に係る情報処理装置は、図19のAのに示すように、分割テキストの区切りにおいて、図19のAにおいて符号“S”で示すようなサウンドフィードバックを挿入してもよい。
再翻訳した結果を音声で通知させた後、図19のBにおいて符号“O”で示すような音声による選択操作が検出された場合、本実施形態に係る情報処理装置は、図19のBにおいて符号“I2”で示すように、当該音声による選択操作に対応する翻訳結果を示す音声を音声出力デバイスから出力させる。ここで、図19のBでは、コミュニケーション相手に通知したいものを番号で指定するための、音声による選択操作の一例を示している。なお、本実施形態に係る音声による選択操作の例が、上記に示す例に限られないことは、言うまでもない。
図20は、音声による操作に基いて、翻訳結果が聴覚的に通知される場合の他の例を示している。図20は、音声による操作に基いて、翻訳処理による翻訳単位ごとの翻訳結果の中から、コミュニケーション相手に通知する内容が除外される場合の例を示している。
例えば、翻訳処理による翻訳単位ごとの翻訳結果が、“お薦め”、“観光”、“道順”、および“教えて”であった場合、本実施形態に係る情報処理装置は、図20のAに示すように、再翻訳した結果を、図20のAにおいて符号“I1”で示すように音声で通知させる。なお、本実施形態に係る情報処理装置は、図19のAと同様に、分割テキストの区切りにおいてサウンドフィードバックを挿入してもよい。
再翻訳した結果を音声で通知させた後、図20のBにおいて符号“O”で示すような音声による除外操作が検出された場合、本実施形態に係る情報処理装置は、図20のBにおいて符号“I2”で示すように、当該音声による選択操作に対応する翻訳結果を示す音声を音声出力デバイスから出力させる。ここで、図20のBでは、コミュニケーション相手への通知が不要であったものを番号で指定するための、音声による除外操作の一例を示している。なお、本実施形態に係る音声による除外操作の例が、上記に示す例に限られないことは、言うまでもない。
なお、音声による操作の例、および音声による操作に基づく通知の例が、図19、図20に示す例に限られないことは、言うまでもない。
(VI)通知制御処理の第6の例:通知順序を動的に制御する場合の通知制御処理
本実施形態に係る情報処理装置は、通知内容の通知順序を、動的に制御することも可能である。
本実施形態に係る情報処理装置は、例えば、第1のユーザに対応する情報と、第2のユーザに対応する情報とのうちの少なくとも一方に基づいて、通知内容の通知順序を制御する。第1のユーザに対応する情報には、例えば、第1のユーザに関する情報、アプリケーションに関する情報、およびデバイスに関する情報のうちの少なくとも1つが含まれる。また、第2のユーザに対応する情報には、第2のユーザに関する情報、アプリケーションに関する情報、およびデバイスに関する情報のうちの少なくとも1つが含まれる。
第1のユーザに関する情報は、例えば、第1のユーザがおかれている状況と、第1のユーザの状態との一方または双方を示す。また、第2のユーザに関する情報は、例えば、第2のユーザがおかれている状況と、第2のユーザの状態との一方または双方を示す。また、アプリケーションに関する情報は、上述したように、例えば、アプリケーションの実行状態を示す。また、デバイスに関する情報は、上述したように、例えば、デバイスの種類とデバイスの状態との一方または双方を示す。
ユーザ(第1のユーザまたは第2のユーザ)がおかれている状況は、例えば、音声情報から検出されるユーザの周囲の雑音(例えば、発話に基づく音声以外の音)に基づいて推定する方法、位置情報が示す位置に基づきユーザがいる状況を推定する方法など、ユーザがおかれている状況を推定することが可能な、任意の方法に係る処理によって、推定される。ユーザがおかれている状況を推定する処理は、本実施形態に係る情報処理装置が行ってもよいし、本実施形態に係る情報処理装置の外部装置において行われてもよい。
また、ユーザの状態は、上述したように、例えば、ユーザの生体情報、動きセンサの検出結果、撮像デバイスにより撮像された撮像画像などのうちの1または2以上を用いた、任意の行動推定処理または任意の感情推定処理によって、推定される。
図21は、通知順序を動的に制御する場合における表示の一例を示している。図21のAは、ユーザの状態に基づいて、翻訳処理による翻訳単位ごとの翻訳結果(翻訳された要約された発話の内容)が表示された場合の一例を示している。また、図21のBは、アプリケーションの実行状態に基づいて、翻訳処理による翻訳単位ごとの翻訳結果が表示された場合の一例を示している。また、図21のCは、ユーザがおかれている状況に基づいて、翻訳処理による翻訳単位ごとの翻訳結果が表示された場合の一例を示している。
図21のAは、翻訳単位ごとの翻訳結果が“お薦め”、“観光”、“道順”、および
“教えて”であった場合における、ユーザの状態に基づく表示の例を示している。
例えば、生体情報や動きセンサの検出結果などに基づいてユーザの状態が「焦り」の状態であると認識された場合、本実施形態に係る情報処理装置は、図21のAに示すように動詞を表示画面の最も左側に表示させるなどにより、動詞を優先的に表示させる。本実施形態に係る情報処理装置は、例えば“ユーザの状態と表示順を示す情報とが対応付けられているテーブル(または、データベース)”を参照することによって、通知順序を特定する。
図21のBは、翻訳単位ごとの翻訳結果が“北海道”、“産地”、“おいしい”、および“魚”であった場合における、アプリケーションの実行状態に基づく表示の例を示している。
例えば、ユーザが所持しているスマートフォンなどの、ユーザに対応付けられている装置において、実行されているアプリケーションの種別が「食事ブラウザ」であると認識された場合、本実施形態に係る情報処理装置は、図21のBに示すように形容詞を表示画面の最も左側に表示させるなどにより、形容詞を優先的に表示させる。本実施形態に係る情報処理装置は、例えば“アプリケーションの種別と表示順を示す情報とが対応付けられているテーブル(または、データベース)”を参照することによって、通知順序を特定する。
図21のCは、翻訳単位ごとの翻訳結果が“急いで”、“渋谷”、“集まって”、および“時間がない”であった場合における、ユーザがおかれている状況に基づく表示の例を示している。
例えば、音声情報から検出される雑音(例えば、発話に基づく音声以外の音)が、設定されている閾値より大きい場合、本実施形態に係る情報処理装置は、ユーザが騒がしい状況にいることを認識する。そして、本実施形態に係る情報処理装置は、図21のCに示すように名詞(または固有名詞)を表示画面の最も左側に表示させるなどにより、名詞(または固有名詞)を優先的に表示させる。本実施形態に係る情報処理装置は、例えば“ユーザがおかれている環境と表示順を示す情報とが対応付けられているテーブル(または、データベース)”を参照することによって、通知順序を特定する。
なお、通知順序を動的に制御する例は、図21に示す例に限られない。
例えば、ユーザがおかれている状況、ユーザの状態、およびアプリケーションの実行状態のうちの2以上に基づいて、通知順序を動的に制御する場合(複数の情報に基づいて通知順序を動的に制御する場合の一例)には、本実施形態に係る情報処理装置は、ユーザがおかれている状況、ユーザの状態、およびアプリケーションの実行状態それぞれに設定されている優先度(または優先順位)に基づき、通知順序を特定する。本実施形態に係る情報処理装置は、優先度(または優先順位)が高い指標に対応する通知内容を、優先的に通知させる。
また、図21では視覚的な方法による通知の一例を示したが、上述したように、本実施形態に係る情報処理装置は、聴覚的な方法による通知を行うことも可能である。
また、上述したように、本実施形態に係る情報処理装置は、デバイスに関する情報それぞれに基づいて、通知順序を動的に制御することも可能である。デバイスに関する情報に基づいて通知順序を動的に制御する例としては、例えば、プロセッサの処理負荷に応じて通知順序を動的に制御することなどが、挙げられる。
(VII)通知制御処理の第6の例:通知内容を動的に制御する場合の通知制御処理
本実施形態に係る情報処理装置は、通知内容の情報量を、動的に制御することも可能である。
本実施形態に係る情報処理装置は、例えば、要約情報、第1のユーザに対応する情報、第2のユーザに対応する情報、音声情報のうちの1または2以上に基づいて、通知内容の情報量を、動的に制御する。情報量の動的な変更の一例としては、例えば下記の(VII-1)~(VII―5)に示す例が挙げられる。なお、情報量の動的な変更の例が、下記の(VII-1)~(VII-5)に示す例に限られないことは、言うまでもない。
(VII-1)要約情報に基づく通知内容の動的な変更の一例
・本実施形態に係る情報処理装置は、例えば、要約情報が示す要約された発話の内容に、「あれ」、「それ」などの指示語が含まれる場合には、当該指示語(または、当該指示語の翻訳結果)を、通知させない。
・本実施形態に係る情報処理装置は、例えば、要約情報が示す要約された発話の内容に、挨拶に対応する言葉が含まれる場合には、当該挨拶に対応する言葉(または、当該挨拶に対応する言葉の翻訳結果)を、通知させない。
(VII-2)第1のユーザに対応する情報に基づく通知内容の動的な変更の一例
・本実施形態に係る情報処理装置は、例えば、第1のユーザの表情が笑いと判定された場合には、通知内容を通知させるときの情報量を減らす。
・本実施形態に係る情報処理装置は、例えば、第1のユーザの視線が上を向いていると判定された場合(独り言に近いと判定された場合の一例)には、通知内容を、通知させない。
・本実施形態に係る情報処理装置は、例えば、「あれ」、「それ」、「これ」などの指示語に対応するジェスチャ(例えば、指し示すジェスチャなど)が検出された場合には、通知内容を、通知させない。
・本実施形態に係る情報処理装置は、例えば、第1のユーザが雑音が大きい状況におかれていると判定された場合には、通知内容を、全て通知させる。
(VII-3)第2のユーザに対応する情報に基づく通知内容の動的な変更の一例
・本実施形態に係る情報処理装置は、例えば、第2のユーザの表情が笑いと判定された場合には、通知内容を通知させるときの情報量を減らす。
・第2のユーザがコミュニケーション相手である場合、本実施形態に係る情報処理装置は、例えば、第2のユーザが発話内容を理解してない可能性があると判定したとき(例えば、第2のユーザの視線が、第1のユーザに向いていないと判定されたときなど)には、通知内容を通知させるときの情報量を増やす。
・第2のユーザがコミュニケーション相手である場合、本実施形態に係る情報処理装置は、例えば、第2のユーザがあくびしていると判定したとき(例えば、第2のユーザが飽きていると判定されたときなど)には、通知内容を通知させるときの情報量を減らす。
・第2のユーザがコミュニケーション相手である場合、本実施形態に係る情報処理装置は、例えば、第2のユーザがうなずきまたは相槌を行ったと判定したときには、通知内容を通知させるときの情報量を増やす。
・第2のユーザがコミュニケーション相手である場合、本実施形態に係る情報処理装置は、例えば、第2のユーザの瞳孔の大きさが所定の大きさより大きいと判定されたとき、または、当該瞳孔の大きさが当該所定の大きさ以上であると判定されたとき(興味があると判定されたときの一例)には、通知内容を通知させるときの情報量を増やす。
・第2のユーザがコミュニケーション相手である場合、本実施形態に係る情報処理装置は、例えば、第2のユーザが発話内容を理解してない可能性があると判定したとき(例えば、第2のユーザの手が動いてないと判定されたときなど)には、通知内容を通知させるときの情報量を増やす。
・第2のユーザがコミュニケーション相手である場合、本実施形態に係る情報処理装置は、例えば、第2のユーザの身体の傾き具合が前方に傾いていると判定されたとき(興味があると判定されたときの一例)には、通知内容を通知させるときの情報量を増やす。
・本実施形態に係る情報処理装置は、例えば、第2のユーザが雑音が大きい状況におかれていると判定された場合には、通知内容を、全て通知させる。
(VII-4)音声情報に基づく通知内容の動的な変更の一例
・本実施形態に係る情報処理装置は、例えば、音声情報から検出される発話の音量が所定の閾値より大きい場合、または、当該発話の音量が当該所定の閾値以上である場合には、通知内容を、通知させない。
・本実施形態に係る情報処理装置は、例えば、音声情報から検出される発話の音量が所定の閾値より大きい場合、または、当該発話の音量が当該所定の閾値以上である場合には、通知内容の一部、または全てを通知させる。
(VII-5)複数の情報の組み合わせに基づく通知内容の動的な変更の一例
・本実施形態に係る情報処理装置は、例えば、第1のユーザと第2のユーザとが異なる場合、第1のユーザの視線と第2のユーザの視線とが合ったと判定されたときに、通知内容を通知させるときの情報量を増やす(第1のユーザに対応する情報、および第2のユーザに対応する情報に基づく通知内容の動的な変更の一例)。
[4]本実施形態に係る情報処理方法に係る処理の具体例
次に、上述した本実施形態に係る情報処理方法に係る処理の具体例を示す。以下では、本実施形態に係る情報処理方法に係る処理の具体例として、図1~図5を参照して説明したユースケースにおける処理の一例を示す。
図22~図33は、本実施形態に係る情報処理方法に係る処理の一例を示す流れ図である。以下、図22~図33を適宜参照して、本実施形態に係る情報処理方法に係る処理の一例を説明する。
本実施形態に係る情報処理装置は、要約に関する重み(以下、「要約機能に対する重み」、または単に「重み」と示す場合がある。)を設定する(S100。事前設定)。本実施形態に係る情報処理装置は、要約に関する重みを決定し、記憶部(後述する)などの記録媒体に保持することによって、要約に関する重みを設定する。ステップS100の処理としては、例えば、図23に示す処理が挙げられる。
図23を参照すると、本実施形態に係る情報処理装置は、スケジュールアプリケーションからスケジュール内容を示すデータを取得する(S200)。
本実施形態に係る情報処理装置は、取得されたスケジュール内容を示すデータから認識される行動と、図8に示す要約に関する重みの種類を特定するためのテーブル(以下、「行動情報要約重みテーブル」と示す場合がある。)とに基づいて、要約に関する重みの種類を決定する(S202)。
そして、本実施形態に係る情報処理装置は、ステップS202において決定された要約に関する重みの種類と、図6に示す要約に関する重みを特定するためのテーブル(以下、「要約テーブル」と示す場合がある。)とに基づいて、要約に関する重みを決定する(S204)。
本実施形態に係る情報処理装置は、図22のステップS100の処理として、例えば、図23に示す処理を行う。なお、図22のステップS100の処理が、図23に示す処理に限られないことは、言うまでもない。
再度図22を参照して、本実施形態に係る情報処理方法に係る処理の一例を説明する。本実施形態に係る情報処理装置は、例えば音声入力に係るアプリケーションを起動させることなどによって、音声入力を有効化する(S102)。
本実施形態に係る情報処理装置は、音声情報が取得されたか否かを判定する(S104)。ステップS104において音声情報が取得されたと判定されない場合、本実施形態に係る情報処理装置は、例えば、音声情報が取得されたと判定されるまで、ステップS106以降の処理を進めない。
また、ステップS104において音声情報が取得されたと判定された場合、本実施形態に係る情報処理装置は、音声情報を解析する(S106)。本実施形態に係る情報処理装置は、音声情報を解析することによって、例えば、音圧、ピッチ、平均的な周波数帯域などを得る。そして、本実施形態に係る情報処理装置は、音声情報を記憶部(後述する)などの記録媒体に保持する(S108)。
本実施形態に係る情報処理装置は、音声情報などに基づいて要約に関する重みを設定する(S110)。ステップS110の処理としては、例えば、図24に示す処理が挙げられる。
図24を参照すると、本実施形態に係る情報処理装置は、例えば、音声情報が示す音声(以下、「入力音声」と示す場合がある。)の平均周波数に基づいて、要約に関する重みを設定する(S300)。ステップS300の処理としては、例えば、図25に示す処理が挙げられる。
なお、図24では、ステップS300の処理の後に、ステップS302の処理が行われる例を示しているが、図22のステップS110の処理は、図24に示す処理に限られない。例えば、ステップS300の処理とステップS302の処理とは独立した処理であるので、本実施形態に係る情報処理装置は、ステップS302の処理の後に、ステップS304の処理を行うことができ、または、ステップS300の処理とステップS302の処理とを平行に行うこともできる。
図25を参照すると、本実施形態に係る情報処理装置は、音声の平均的な周波数帯域が、300[Hz]~550[Hz]であるか否かを判定する(S400)。
ステップS400において、音声の平均的な周波数帯域が300[Hz]~550[Hz]であると判定された場合には、本実施形態に係る情報処理装置は、要約に関する重みの種類として「男性」を決定する(S402)。
また、ステップS400において、音声の平均的な周波数帯域が300[Hz]~550[Hz]であると判定されない場合には、本実施形態に係る情報処理装置は、音声の平均的な周波数帯域が、400[Hz]~700[Hz]であるか否かを判定する(S404)。
ステップS404において、音声の平均的な周波数帯域が400[Hz]~700[Hz]であると判定された場合には、本実施形態に係る情報処理装置は、要約に関する重みの種類として「女性」を決定する(S406)。
また、ステップS404において、音声の平均的な周波数帯域が400[Hz]~700[Hz]であると判定されない場合には、本実施形態に係る情報処理装置は、要約に関する重みを決定しない。
本実施形態に係る情報処理装置は、図24のステップS300の処理として、例えば、図25に示す処理を行う。なお、図24のステップS300の処理が、図25に示す処理に限られないことは、言うまでもない。
再度図24を参照して、図22のステップS110の処理の一例を説明する。本実施形態に係る情報処理装置は、例えば、音声情報が示す音声の音圧に基づいて、要約に関する重みを設定する(S302)。ステップS302の処理としては、例えば、図26に示す処理が挙げられる。
図26を参照すると、本実施形態に係る情報処理装置は、発話者のユーザとコミュニケーション相手との間の距離に基づいて、音圧に係る閾値を決定する(S500)。ステップS500の処理としては、例えば、図27に示す処理が挙げられる。
図27を参照すると、本実施形態に係る情報処理装置は、撮像デバイスにより撮像された撮像画像に基づく画像認識によって、現在のコミュニケーション相手との間の距離Dを取得する(S600)。
本実施形態に係る情報処理装置は、例えば下記の数式2の演算を行う(S602)。
そして、本実施形態に係る情報処理装置は、例えば下記の数式3の演算を行い、音圧に係る閾値VPWR_thresh_upper、および音圧に係る閾値VPWR_thresh_lowreを調整することによって、音圧に係る閾値を決定する(S604)。
本実施形態に係る情報処理装置は、図26のステップS500の処理として、例えば、図27に示す処理を行う。なお、図26のステップS500の処理が、図27に示す処理に限られないことは、言うまでもない。
再度図26を参照して、図24のステップS302の処理の一例を説明する。本実施形態に係る情報処理装置は、音声情報が示す音声の音圧が、音圧に係る閾値VPWR_thresh_upper以上であるか否かを、判定する(S502)。
ステップS502において、音声情報が示す音声の音圧が音圧に係る閾値VPWR_thresh_upper以上であると判定された場合には、本実施形態に係る情報処理装置は、要約に関する重みの種類として「怒り」および「喜び」を決定する(S504)。
また、ステップS502において、音声情報が示す音声の音圧が音圧に係る閾値VPWR_thresh_upper以上であると判定されない場合には、本実施形態に係る情報処理装置は、音声情報が示す音声の音圧が、音圧に係る閾値VPWR_thresh_lowre以下であるか否かを判定する(S506)。
ステップS506において、音声情報が示す音声の音圧が音圧に係る閾値VPWR_thresh_lowre以下であると判定された場合には、本実施形態に係る情報処理装置は、要約に関する重みの種類として「悲しみ」、「不快」、「苦痛」、および「不安」を決定する(S508)。
また、ステップS506において、音声情報が示す音声の音圧が音圧に係る閾値VPWR_thresh_lowre以下であると判定されない場合には、本実施形態に係る情報処理装置は、要約に関する重みを決定しない。
本実施形態に係る情報処理装置は、図24のステップS302の処理として、例えば、図26に示す処理を行う。なお、図24のステップS302の処理が、図26に示す処理に限られないことは、言うまでもない。
再度図24を参照して、図22のステップS110の処理の一例を説明する。本実施形態に係る情報処理装置は、例えば、音声情報を解析し、モーラ数、アクセントの場所を、保持する(S304)。なお、ステップS304の処理は、図22のステップS106の処理において行われてもよい。
本実施形態に係る情報処理装置は、図22のステップS110の処理として、例えば、図24に示す処理を行う。なお、図22のステップS110の処理が、図24に示す処理に限られないことは、言うまでもない。
再度図22を参照して、本実施形態に係る情報処理方法に係る処理の一例を説明する。本実施形態に係る情報処理装置は、音声情報に対する音声認識を行う(S112)。ステップS112の処理が行われることによって、音声テキスト情報が取得される。
ステップS112の処理が行われると、本実施形態に係る情報処理装置は、音声認識結果などに基づいて要約に関する重みを設定する(S114)。ステップS114の処理としては、例えば、図28に示す処理が挙げられる。
図28を参照すると、本実施形態に係る情報処理装置は、音声テキスト情報が示す文字列の言語に基づいて、要約に関する重みを設定する(S700)。ステップS700の処理としては、例えば、図29に示す処理が挙げられる。
なお、図28では、ステップS700、S702の処理の後に、ステップS704~S710の処理が行われる例を示しているが、図22のステップS114の処理は、図28に示す処理に限られない。例えば、ステップS700、S702の処理とステップS704~S710の処理とは独立した処理であるので、本実施形態に係る情報処理装置は、ステップSS704~S710の処理の後に、ステップS700、S702の処理を行うことができ、または、ステップS700、S702の処理とステップS704~S710の処理とを平行に行うこともできる。
図29を参照すると、本実施形態に係る情報処理装置は、音声テキスト情報が示す文字列の言語を推定する(S800)。本実施形態に係る情報処理装置は、例えば、言語辞書とのマッチングによる推定など、文字列から言語を推定することが可能な任意の方法に係る処理によって、言語を推定する
ステップS800において言語が推定されると、本実施形態に係る情報処理装置は、推定された言語が日本語であるか否かを判定する(S802)。
ステップS802において、推定された言語が日本語であると判定された場合には、本実施形態に係る情報処理装置は、「日本語の動詞」の重みが高くなるように、要約に関する重みを決定する(S804)。
また、ステップS802において、推定された言語が日本語であると判定されない場合には、本実施形態に係る情報処理装置は、推定された言語が英語であるか否かを判定する(S806)。
ステップS806において、推定された言語が英語であると判定された場合には、本実施形態に係る情報処理装置は、「英語の名詞および動詞」の重みが高くなるように、要約に関する重みを決定する(S808)。
また、ステップS806において、推定された言語が英語であると判定されない場合には、本実施形態に係る情報処理装置は、要約に関する重みを決定しない。
本実施形態に係る情報処理装置は、図28のステップS700の処理として、例えば、図29に示す処理を行う。なお、図28のステップS700の処理が、図29に示す処理に限られないことは、言うまでもない。
再度図28を参照して、図22のステップS114の処理の一例を説明する。本実施形態に係る情報処理装置は、例えば、音声情報を解析し、モーラ数、アクセントの場所を、保持する(S702)。なお、ステップS702の処理は、図22のステップS106の処理において行われてもよい。
本実施形態に係る情報処理装置は、音声テキスト情報が示す文字列(以下、「音声テキスト結果」と示す場合がある。)を自然言語処理により形態素の単位に分割し、対応する音声情報の解析結果を紐付ける(S704)。
本実施形態に係る情報処理装置は、ステップS704において形態素の単位で紐付けられた音声情報の解析結果に基づいて、感情を推定する(S706)。本実施形態に係る情報処理装置は、例えば、音声情報の解析結果と感情とが対応付けられているテーブルを利用する方法など、音声情報の解析結果を利用することにより感情を推定することが可能な、任意の方法によって、感情を推定する。
また、本実施形態に係る情報処理装置は、ステップS704において形態素の単位で紐付けられた音声情報の解析結果に基づいて、要約に関する重みの強さ(感情に関する重みの強さ)を決定する(S708)。本実施形態に係る情報処理装置は、例えば、音声情報の解析結果のうちの、基本周波数の変化率、音の変化率、発話時間の変化率に基づいて、要約に関する重みの強さを決定する。本実施形態に係る情報処理装置は、例えば、音声情報の解析結果と要約に関する重みの強さとが対応付けられているテーブルを利用する方法など、音声情報の解析結果を利用することにより要約に関する重みの強さを決定することが可能な、任意の方法によって、要約に関する重みの強さを決定する。
本実施形態に係る情報処理装置は、ステップS706において推定された感情に基づいて、要約に関する重みを決定する(S710)。また、本実施形態に係る情報処理装置は、推定された感情に基づく決定される要約に関する重みを、ステップS708において決定された要約に関する重みの強さにより調整してもよい。
本実施形態に係る情報処理装置は、図22のステップS114の処理として、例えば、図28に示す処理を行う。なお、図22のステップS114の処理が、図28に示す処理に限られないことは、言うまでもない。
再度図22を参照して、本実施形態に係る情報処理方法に係る処理の一例を説明する。本実施形態に係る情報処理装置は、ステップS100、S110、S114それぞれにおいて決定された要約に関する重みに基づいて、要約処理を行う(S116)。
ステップS116の処理が完了すると、本実施形態に係る情報処理装置は、翻訳処理を行うか否かを判定する(S118)。
ステップS118において翻訳処理を行うと判定されない場合には、本実施形態に係る情報処理装置は、通知制御処理により要約結果を通知させる(S120)。
また、ステップS118において翻訳処理を行うと判定された場合には、本実施形態に係る情報処理装置は、要約結果に対して翻訳処理を行い、通知制御処理により翻訳結果を通知させる(S122)。ステップS122の処理としては、例えば、図30に示す処理が挙げられる。
図30を参照すると、本実施形態に係る情報処理装置は、例えば、要約結果に対して自然言語処理を行うことにより、形態素解析を行う(S900)。
本実施形態に係る情報処理装置は、未処理の要約結果がなくなるまで、主要品詞(名詞、動詞、形容詞、副詞)と他の形態素を組み合わせた分割テキストを生成する(S902)。
本実施形態に係る情報処理装置は、要約結果の言語が英語であるか否かを判定する(S904)。
ステップS904において要約結果の言語が英語であると判定されない場合には、本実施形態に係る情報処理装置は、後述するステップS908の処理を行う。
また、ステップS904において要約結果の言語が英語であると判定された場合には、本実施形態に係る情報処理装置は、5W1Hに相当する単語を、分割テキストとする(S906)。
ステップS904において要約結果の言語が英語であると判定されない場合、または、ステップS906の処理が行われると、本実施形態に係る情報処理装置は、分割テキストそれぞれに対して翻訳処理を行い、翻訳結果と翻訳前の元の品詞の情報とを紐付けて保持する(S908)。
本実施形態に係る情報処理装置は、分割翻訳テキスト(翻訳結果の一例)の言語が、英語であるか否かを判定する(S910)。
ステップS910において、分割翻訳テキストの言語が英語であると判定された場合には、本実施形態に係る情報処理装置は、英語での通知順序を決定する(S912)。ステップS912の処理としては、例えば、図31に示す処理が挙げられる。
図31を参照すると、本実施形態に係る情報処理装置は、処理する分割翻訳テキストが存在するか否かを判定する(S1000)。ここでステップS1000における処理する分割翻訳テキストとしては、翻訳単位ごとの翻訳結果のうちの、未処理の翻訳結果が該当する。本実施形態に係る情報処理装置は、例えば、未処理の翻訳結果が存在する場合に、処理する分割翻訳テキストが存在すると判定し、未処理の翻訳結果が存在しない場合に、処理する分割翻訳テキストが存在しないと判定する。
ステップS1000において、処理する分割翻訳テキストが存在すると判定された場合には、本実施形態に係る情報処理装置は、次に処理する分割翻訳テキストを取得する(S1002)。
本実施形態に係る情報処理装置は、処理する分割翻訳テキストが名詞を含むか否かを判定する(S1004)。
ステップS1004において、処理する分割翻訳テキストが名詞を含むと判定された場合には、本実施形態に係る情報処理装置は、優先度を最大値「5」に設定する(S1006)。そして、本実施形態に係る情報処理装置は、ステップS1000からの処理を繰り返す。
また、ステップS1004において、処理する分割翻訳テキストが名詞を含むと判定されない場合には、本実施形態に係る情報処理装置は、処理する分割翻訳テキストが動詞を含むか否かを判定する(S1008)。
ステップS1008において、処理する分割翻訳テキストが動詞を含むと判定された場合には、本実施形態に係る情報処理装置は、優先度を「4」に設定する(S1010)。そして、本実施形態に係る情報処理装置は、ステップS1000からの処理を繰り返す。
また、ステップS1008において、処理する分割翻訳テキストが動詞を含むと判定されない場合には、本実施形態に係る情報処理装置は、処理する分割翻訳テキストが形容詞を含むか否かを判定する(S1012)。
ステップS1012において、処理する分割翻訳テキストが形容詞を含むと判定された場合には、本実施形態に係る情報処理装置は、優先度を「3」に設定する(S1014)。そして、本実施形態に係る情報処理装置は、ステップS1000からの処理を繰り返す。
また、ステップS1012において、処理する分割翻訳テキストが形容詞を含むと判定されない場合には、本実施形態に係る情報処理装置は、処理する分割翻訳テキストが副詞を含むか否かを判定する(S1016)。
ステップS1016において、処理する分割翻訳テキストが副詞を含むと判定された場合には、本実施形態に係る情報処理装置は、優先度を「2」に設定する(S1018)。そして、本実施形態に係る情報処理装置は、ステップS1000からの処理を繰り返す。
また、ステップS1016において、処理する分割翻訳テキストが副詞を含むと判定されない場合には、本実施形態に係る情報処理装置は、優先度を最小値「1」に設定する(S1020)。そして、本実施形態に係る情報処理装置は、ステップS1000からの処理を繰り返す。
ステップS1000において、処理する分割翻訳テキストが存在すると判定されない場合には、本実施形態に係る情報処理装置は、設定された優先度によって、通知の順序をソートする(S1022)。
本実施形態に係る情報処理装置は、図30のステップS912の処理として、例えば、図31に示す処理を行う。なお、図30のステップS912の処理が、図31に示す処理に限られないことは、言うまでもない。
再度図30を参照して、図22のステップS122の処理の一例を説明する。ステップS910において、分割翻訳テキストの言語が英語であると判定されない場合には、本実施形態に係る情報処理装置は、日本語での通知順序を決定する(S914)。ステップS914の処理としては、例えば、図32に示す処理が挙げられる。
図32を参照すると、本実施形態に係る情報処理装置は、図31のステップS1100と同様に、処理する分割翻訳テキストが存在するか否かを判定する(S1100)。ここでステップS1100における処理する分割翻訳テキストとしては、翻訳単位ごとの翻訳結果のうちの、未処理の翻訳結果が該当する。
ステップS1100において、処理する分割翻訳テキストが存在すると判定された場合には、本実施形態に係る情報処理装置は、次に処理する分割翻訳テキストを取得する(S1102)。
本実施形態に係る情報処理装置は、処理する分割翻訳テキストが動詞を含むか否かを判定する(S1104)。
ステップS1104において、処理する分割翻訳テキストが動詞を含むと判定された場合には、本実施形態に係る情報処理装置は、優先度を最大値「5」に設定する(S1106)。そして、本実施形態に係る情報処理装置は、ステップS1100からの処理を繰り返す。
また、ステップS1104において、処理する分割翻訳テキストが動詞を含むと判定されない場合には、本実施形態に係る情報処理装置は、処理する分割翻訳テキストが名詞を含むか否かを判定する(S1108)。
ステップS1108において、処理する分割翻訳テキストが名詞を含むと判定された場合には、本実施形態に係る情報処理装置は、優先度を「4」に設定する(S1110)。そして、本実施形態に係る情報処理装置は、ステップS1100からの処理を繰り返す。
また、ステップS1108において、処理する分割翻訳テキストが名詞を含むと判定されない場合には、本実施形態に係る情報処理装置は、処理する分割翻訳テキストが形容詞を含むか否かを判定する(S1112)。
ステップS1112において、処理する分割翻訳テキストが形容詞を含むと判定された場合には、本実施形態に係る情報処理装置は、優先度を「3」に設定する(S1114)。そして、本実施形態に係る情報処理装置は、ステップS1100からの処理を繰り返す。
また、ステップS1112において、処理する分割翻訳テキストが形容詞を含むと判定されない場合には、本実施形態に係る情報処理装置は、処理する分割翻訳テキストが副詞を含むか否かを判定する(S1116)。
ステップS1116において、処理する分割翻訳テキストが副詞を含むと判定された場合には、本実施形態に係る情報処理装置は、優先度を「2」に設定する(S1118)。そして、本実施形態に係る情報処理装置は、ステップS1100からの処理を繰り返す。
また、ステップS1116において、処理する分割翻訳テキストが副詞を含むと判定されない場合には、本実施形態に係る情報処理装置は、優先度を最小値「1」に設定する(S1120)。そして、本実施形態に係る情報処理装置は、ステップS1100からの処理を繰り返す。
ステップS1100において、処理する分割翻訳テキストが存在すると判定されない場合には、本実施形態に係る情報処理装置は、設定された優先度によって、通知の順序をソートする(S1122)。
本実施形態に係る情報処理装置は、図30のステップS914の処理として、例えば、図32に示す処理を行う。なお、図30のステップS914の処理が、図32に示す処理に限られないことは、言うまでもない。
再度図30を参照して、図22のステップS122の処理の一例を説明する。ステップS912の処理、またはステップS914の処理が完了すると、本実施形態に係る情報処理装置は、通知順序が決定された分割翻訳テキストを、通知制御処理により通知させる(S916)。ステップS916の処理としては、例えば、図33に示す処理が挙げられる。
図33を参照すると、本実施形態に係る情報処理装置は、図31のステップS1000と同様に、処理する分割翻訳テキストが存在するか否かを判定する(S1200)。ここでステップS1200における処理する分割翻訳テキストとしては、翻訳単位ごとの翻訳結果のうちの、未処理の翻訳結果が該当する。
ステップS1200において、処理する分割翻訳テキストが存在すると判定された場合には、本実施形態に係る情報処理装置は、次に処理する分割翻訳テキストを取得する(S1202)。
本実施形態に係る情報処理装置は、処理する分割翻訳テキストに対応する音声情報から音圧を取得し、処理する分割翻訳テキストの音圧を上げて出力させる(S1204)。
本実施形態に係る情報処理装置は、ステップS1204において出力させた分割翻訳テキストが、最後の分割翻訳テキストであるか否かを判定する(S1206)。本実施形態に係る情報処理装置は、例えば、未処理の翻訳結果が存在する場合に、最後の分割翻訳テキストではないと判定し、未処理の翻訳結果が存在しない場合に、最後の分割翻訳テキストであると判定する。
ステップS1206において、最後の分割翻訳テキストであると判定されない場合には、本実施形態に係る情報処理装置は、まだ以降も続くことを伝えるためのサウンドフィードバックとして「ピッ」という音を出力させる(S1208)。そして、本実施形態に係る情報処理装置は、ステップS1200からの処理を繰り返す。
また、ステップS1206において、最後の分割翻訳テキストであると判定された場合には、本実施形態に係る情報処理装置は、最後であることを伝えるためのサウンドフィードバックとして「ピピッ」という音を出力させる(S1210)。そして、本実施形態に係る情報処理装置は、ステップS1200からの処理を繰り返す。
ステップS1200において、処理する分割翻訳テキストが存在すると判定されない場合には、本実施形態に係る情報処理装置は、図33の処理を終了する。
本実施形態に係る情報処理装置は、図30のステップS916の処理として、例えば、図33に示す処理を行う。なお、図30のステップS916の処理が、図33に示す処理に限られないことは、言うまでもない。
例えば、図22~図33に示す処理が行われることによって、図1~図5を参照して説明したユースケースを実現することができる。なお、本実施形態に係る情報処理方法に係る処理が、図22~図33に示す処理に限られないことは、言うまでもない。
[5]本実施形態に係る情報処理方法が用いられることにより奏される効果の一例
本実施形態に係る情報処理装置が本実施形態に係る情報処理方法に係る処理を行うことによって、例えば下記に示す効果が奏される。なお、本実施形態に係る情報処理方法が用いられることにより奏される効果が、下記に示す効果に限られないことは、言うまでもない。
・発話者がまとまりのない話し方で話した場合であっても、要点だけが翻訳され、発話者が伝えたい事項を受け手に伝えることが可能となる。
・要点だけが翻訳されることにより、受け手の確認時間を短縮することができ、円滑な翻訳コミュニケーションを実現することができる。
・翻訳処理の処理対象となる文章自体を極端に減らせるケースもあり、翻訳自体の精度を向上させることが可能となる。
・発話の内容が要約された上で翻訳されることによって、受け手は、不要な言葉を受け取らなくて済むので、受け手は理解をしやすい。その結果、外国語が得意ではない者に、言語の壁を越えて話すことを、促すことができる。
(本実施形態に係る情報処理装置)
次に、上述した本実施形態に係る情報処理方法に係る処理を行うことが可能な本実施形態に係る情報処理装置の構成の一例について、説明する。以下では、本実施形態に係る情報処理装置の構成の一例として、上述した第1の情報処理方法に係る処理と上述した第2の情報処理方法に係る処理との一方または双方を行うことが可能な、情報処理装置の一例を示す。
図34は、本実施形態に係る情報処理装置100の構成の一例を示すブロック図である。情報処理装置100は、例えば、通信部102と、制御部104とを備える。
また、情報処理装置100は、例えば、ROM(Read Only Memory。図示せず)や、RAM(Random Access Memory。図示せず)、記憶部(図示せず)、情報処理装置100の使用者が操作可能な操作部(図示せず)、様々な画面を表示画面に表示する表示部(図示せず)などを備えていてもよい。情報処理装置100は、例えば、データの伝送路としてのバスにより上記各構成要素間を接続する。また、情報処理装置100は、例えば、情報処理装置100が備えているバッテリなどの内部電源から供給される電力、または、接続されている外部電源から供給される電力などによって、駆動する。
ROM(図示せず)は、制御部104が使用するプログラムや演算パラメータなどの制御用データを記憶する。RAM(図示せず)は、制御部104により実行されるプログラムなどを一時的に記憶する。
記憶部(図示せず)は、情報処理装置100が備える記憶手段であり、例えば、要約に関する重みを設定するためのテーブルなどの本実施形態に係る情報処理方法に係るデータや、各種アプリケーションなど様々なデータを記憶する。ここで、記憶部(図示せず)としては、例えば、ハードディスク(Hard Disk)などの磁気記録媒体や、フラッシュメモリ(flash memory)などの不揮発性メモリ(nonvolatile memory)などが挙げられる。また、記憶部(図示せず)は、情報処理装置100から着脱可能であってもよい。
操作部(図示せず)としては、後述する操作入力デバイスが挙げられる。また、表示部(図示せず)としては、後述する表示デバイスが挙げられる。
[情報処理装置100のハードウェア構成例]
図35は、本実施形態に係る情報処理装置100のハードウェア構成の一例を示す説明図である。情報処理装置100は、例えば、MPU150と、ROM152と、RAM154と、記録媒体156と、入出力インタフェース158と、操作入力デバイス160と、表示デバイス162と、通信インタフェース164とを備える。また、情報処理装置100は、例えば、データの伝送路としてのバス166で各構成要素間を接続する。
MPU150は、例えば、MPUなどの演算回路で構成される、1または2以上のプロセッサや、各種処理回路などで構成され、情報処理装置100全体を制御する制御部104として機能する。また、MPU150は、情報処理装置100において、例えば、後述する処理部110の役目を果たす。なお、処理部110は、処理部110の処理を実現可能な専用の(または汎用の)回路(例えば、MPU150とは別体のプロセッサなど)で構成されていてもよい。
ROM152は、MPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。RAM154は、例えば、MPU150により実行されるプログラムなどを一時的に記憶する。
記録媒体156は、記憶部(図示せず)として機能し、例えば、要約に関する重みを設定するためのテーブルなどの本実施形態に係る情報処理方法に係るデータや、各種アプリケーションなど様々なデータを記憶する。ここで、記録媒体156としては、例えば、ハードディスクなどの磁気記録媒体や、フラッシュメモリなどの不揮発性メモリが挙げられる。また、記録媒体156は、情報処理装置100から着脱可能であってもよい。
入出力インタフェース158は、例えば、操作入力デバイス160や、表示デバイス162を接続する。操作入力デバイス160は、操作部(図示せず)として機能し、また、表示デバイス162は、表示部(図示せず)として機能する。ここで、入出力インタフェース158としては、例えば、USB(Universal Serial Bus)端子や、DVI(Digital Visual Interface)端子、HDMI(High-Definition Multimedia Interface)(登録商標)端子、各種処理回路などが挙げられる。
また、操作入力デバイス160は、例えば、情報処理装置100上に備えられ、情報処理装置100の内部で入出力インタフェース158と接続される。操作入力デバイス160としては、例えば、ボタンや、方向キー、ジョグダイヤルなどの回転型セレクタ、あるいは、これらの組み合わせなどが挙げられる。
また、表示デバイス162は、例えば、情報処理装置100上に備えられ、情報処理装置100の内部で入出力インタフェース158と接続される。表示デバイス162としては、例えば、液晶ディスプレイ(Liquid Crystal Display)や有機ELディスプレイ(Organic Electro-Luminescence Display。または、OLEDディスプレイ(Organic Light Emitting Diode Display)ともよばれる。)などが挙げられる。
なお、入出力インタフェース158が、情報処理装置100の外部の操作入力デバイス(例えば、キーボードやマウスなど)や外部の表示デバイスなどの、外部デバイスと接続することも可能であることは、言うまでもない。また、表示デバイス162は、例えばタッチパネルなど、表示とユーザ操作とが可能なデバイスであってもよい。
通信インタフェース164は、情報処理装置100が備える通信手段であり、ネットワークを介して(あるいは、直接的に)、例えば外部装置や外部のデバイスなどと、無線または有線で通信を行うための通信部102として機能する。ここで、通信インタフェース164としては、例えば、通信アンテナおよびRF(Radio Frequency)回路(無線通信)や、IEEE802.15.1ポートおよび送受信回路(無線通信)、IEEE802.11ポートおよび送受信回路(無線通信)、あるいはLAN(Local Area Network)端子および送受信回路(有線通信)などが挙げられる。
情報処理装置100は、例えば図35に示す構成によって、本実施形態に係る情報処理方法に係る処理を行う。なお、本実施形態に係る情報処理装置100のハードウェア構成は、図35に示す構成に限られない。
例えば、情報処理装置100は、接続されている外部の通信デバイスを介して外部装置などと通信を行う場合には、通信インタフェース164を備えていなくてもよい。また、通信インタフェース164は、複数の通信方式によって、1または2以上の外部装置などと通信を行うことが可能な構成であってもよい。
また、情報処理装置100は、例えば、記録媒体156や、操作入力デバイス160、表示デバイス162を備えない構成をとることが可能である。
また、情報処理装置100は、例えば、動きセンサや生体センサなどの各種センサ、マイクロホンなどの音声入力デバイス、スピーカなどの音声出力デバイス、振動デバイス、撮像デバイスなどのうちの、1または2以上を、さらに備えていてもよい。
また、例えば、図35に示す構成(または変形例に係る構成)の一部または全部は、1、または2以上のICで実現されてもよい。
再度図34を参照して、情報処理装置100の構成の一例について説明する。通信部102は、情報処理装置100が備える通信手段であり、ネットワークを介して(あるいは、直接的に)、例えば外部装置や外部のデバイスなどと、無線または有線で通信を行う。また、通信部102は、例えば制御部104により通信が制御される。
ここで、通信部102としては、例えば、通信アンテナおよびRF回路や、LAN端子および送受信回路などが挙げられるが、通信部102の構成は、上記に限られない。例えば、通信部102は、USB端子および送受信回路などの通信を行うことが可能な任意の規格に対応する構成や、ネットワークを介して外部装置と通信可能な任意の構成をとることができる。また、通信部102は、複数の通信方式によって、1または2以上の外部装置などと通信を行うことが可能な構成であってもよい。
制御部104は、例えばMPUなどで構成され、情報処理装置100全体を制御する役目を果たす。また、制御部104は、例えば、処理部110を備え、本実施形態に係る情報処理方法に係る処理を主導的に行う役目を果たす。処理部110は、例えば、上述した第1の情報処理方法に係る処理と上述した第2の情報処理方法に係る処理との一方または双方を、主導的に行う役目を果たす。
上述した第1の情報処理方法に係る処理を行う場合、処理部110は、取得した要約に関する重みを示す情報に基づいて、音声情報が示す発話の内容を要約する要約処理を行う。処理部110は、要約処理として、例えば上記[3-1]に示した処理を行う。
上述した第2の情報処理方法に係る処理を行う場合、処理部110は、要約情報に基づいて、通知内容の通知を制御する通知制御処理を行う。処理部110は、通知制御処理として、例えば上記[3-3]に示した処理を行う。
また、処理部110は、要約処理により要約された発話の内容を他の言語に翻訳する翻訳処理を、さらに行ってもよい。処理部110は、翻訳処理として、例えば上記[3-2]に示した処理を行う。
翻訳処理により要約された発話の内容が他の言語に翻訳された場合、処理部110は、通知制御処理によって、翻訳結果を通知させることが可能である。
また、処理部110は、例えば、音声認識に係る処理、音声解析に係る処理、ユーザの状態の推定に係る処理、ユーザとコミュニケーションをとる相手との間の距離の推定に係る処理など、本実施形態に係る情報処理方法に関連する各種処理を、行うことも可能である。なお、本実施形態に係る情報処理方法に関連する各種処理は、情報処理装置100の外部装置において行われてもよい。
情報処理装置100は、例えば図34に示す構成によって、本実施形態に係る情報処理方法に係る処理(例えば、“第1の情報処理方法に係る要約処理と第2の情報処理方法に係る通知制御処理との一方または双方”や、“第1の情報処理方法に係る要約処理と第2の情報処理方法に係る通知制御処理との一方または双方、および、翻訳処理”など)を行う。
したがって、本実施形態に係る情報処理方法に係る処理として第1の情報処理方法に係る要約処理を行う場合、情報処理装置100は、例えば図34に示す構成によって、発話の内容を要約することができる。
また、本実施形態に係る情報処理方法に係る処理として第2の情報処理方法に係る通知制御処理を行う場合、情報処理装置100は、例えば図34に示す構成によって、要約された発話の内容を、通知させることができる。
また、例えば図34に示す構成によって、情報処理装置100は、上述したような本実施形態に係る情報処理方法に係る処理が行われることにより奏される効果を、奏することができる。
なお、本実施形態に係る情報処理装置の構成は、図34に示す構成に限られない。
例えば、本実施形態に係る情報処理装置は、図34に示す処理部110を、制御部104とは個別に備える(例えば、別の処理回路で実現する)ことができる。また、例えば、第1の情報処理方法に係る要約処理、第2の情報処理方法に係る通知制御処理、本実施形態に係る翻訳処理は、複数の処理回路で分散して行われてもよい。
また、第1の情報処理方法に係る要約処理、第2の情報処理方法に係る通知制御処理、および本実施形態に係る翻訳処理は、便宜上、本実施形態に係る情報処理方法に係る処理を規定したものである。よって、本実施形態に係る情報処理方法に係る処理を実現するための構成は、図34に示す構成に限られず、本実施形態に係る情報処理方法に係る処理の切り分け方に応じた構成をとることが可能である。
また、例えば、通信部102と同様の機能、構成を有する外部の通信デバイスを介して外部装置と通信を行う場合には、本実施形態に係る情報処理装置は、通信部102を備えていなくてもよい。
以上、本実施形態として、情報処理装置を挙げて説明したが、本実施形態は、かかる形態に限られない。本実施形態は、例えば、“PC(Personal Computer)やサーバなどのコンピュータ”や、“アイウェア型の装置、時計型の装置、腕輪型の装置などのようなユーザの身体に装着して用いられる任意のウェアラブル装置”、“スマートフォンなどの通信装置”、“タブレット型の装置”、“ゲーム機”、“自動車などの移動体”など、本実施形態に係る情報処理方法に係る処理(例えば、第1の情報処理方法に係る処理と第2の情報処理方法に係る処理との一方または双方)を行うことが可能な、様々な機器に適用することができる。また、本実施形態は、例えば、上記のような機器に組み込むことが可能な、処理ICに適用することもできる。
また、本実施形態に係る情報処理装置は、例えばクラウドコンピューティングなどのように、ネットワークへの接続(または各装置間の通信)を前提とした処理システムに適用されてもよい。本実施形態に係る情報処理方法に係る処理が行われる処理システムの一例としては、例えば“処理システムを構成する一の装置によって第1の情報処理方法に係る要約処理および翻訳処理が行われ、処理システムを構成する他の装置によって第2の情報処理方法に係る通知制御処理が行われるシステム”が、挙げられる。
(本実施形態に係るプログラム)
[I]第1の情報処理方法に係るプログラム(コンピュータプログラム)
コンピュータを、第1の情報処理方法に係る処理を行う本実施形態に係る情報処理装置として機能させるためのプログラム(例えば、“第1の情報処理方法に係る要約処理”や、“第1の情報処理方法に係る要約処理、および本実施形態に係る翻訳処理”など、第1の情報処理方法に係る処理を実行することが可能なプログラム)が、コンピュータにおいてプロセッサなどにより実行されることによって、発話の内容を要約することができる。
また、コンピュータを、第1の情報処理方法に係る処理を行う本実施形態に係る情報処理装置として機能させるためのプログラムが、コンピュータにおいてプロセッサなどにより実行されることによって、上述した第1の情報処理方法に係る処理によって奏される効果を、奏することができる。
[II]第2の情報処理方法に係るプログラム
コンピュータを、第2の情報処理方法に係る処理を行う本実施形態に係る情報処理装置として機能させるためのプログラム(例えば、“第2の情報処理方法に係る通知制御処理”や、“本実施形態に係る翻訳処理、および第2の情報処理方法に係る通知制御処理”など、第2の情報処理方法に係る処理を実行することが可能なプログラム)が、コンピュータにおいてプロセッサなどにより実行されることによって、要約された発話の内容を、通知させることができる。
また、コンピュータを、第2の情報処理方法に係る処理を行う本実施形態に係る情報処理装置として機能させるためのプログラムが、コンピュータにおいてプロセッサなどにより実行されることによって、上述した第2の情報処理方法に係る処理によって奏される効果を、奏することができる。
[III]本実施形態に係る情報処理方法に係るプログラム
本実施形態に係る情報処理方法に係るプログラムには、上記第1の情報処理方法に係るプログラムと上記第2の情報処理方法に係るプログラムとの双方が含まれていてもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記では、コンピュータを、本実施形態に係る情報処理装置として機能させるためのプログラム(第1の情報処理方法に係る処理と第2の情報処理方法に係る処理との一方または双方を実行することが可能なプログラム)が提供されることを示したが、本実施形態は、さらに、上記プログラムを記憶させた記録媒体も併せて提供することができる。
上述した構成は、本実施形態の一例を示すものであり、当然に、本開示の技術的範囲に属するものである。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
取得した要約に関する重みを示す情報に基づいて、ユーザの発話に基づく音声情報が示す発話の内容を要約する要約処理を行う処理部を備える、情報処理装置
(2)
前記処理部は、所定の開始条件を満たしたと判定した場合に、前記要約処理を行う、(1)に記載の情報処理装置。
(3)
前記開始条件は、発話がされていない状態が継続する無発話期間に関する条件であり、
前記処理部は、前記無発話期間が所定の期間を越えた場合、または、前記無発話期間が前記所定の期間以上となった場合に、前記開始条件を満たしたと判定する、(2)に記載の情報処理装置。
(4)
前記開始条件は、前記音声情報から発話の内容を取得するための音声認識の状態に関する条件であり、
前記処理部は、前記音声認識の停止要求が検出されたことに基づいて、前記開始条件を満たしたと判定する、(2)、または(3)に記載の情報処理装置。
(5)
前記開始条件は、前記音声情報から発話の内容を取得するための音声認識の状態に関する条件であり、
前記処理部は、前記音声認識の完了が検出されたことに基づいて、前記開始条件を満たしたと判定する、(2)~(4)のいずれか1つに記載の情報処理装置。
(6)
前記開始条件は、発話の内容に関する条件であり、
前記処理部は、前記音声情報が示す発話の内容から所定の言葉が検出されたことに基づいて、前記開始条件を満たしたと判定する、(2)~(5)のいずれか1つに記載の情報処理装置。
(7)
前記開始条件は、発話の内容に関する条件であり、
前記処理部は、前記音声情報に基づき言いよどみが検出されたことに基づいて、前記開始条件を満たしたと判定する、(2)~(6)のいずれか1つに記載の情報処理装置。
(8)
前記開始条件は、前記音声情報が得られてからの経過時間に関する条件であり、
前記処理部は、前記経過時間が所定の期間を越えた場合、または、前記経過時間が前記所定の期間以上となった場合に、前記開始条件を満たしたと判定する、(2)~(7)のいずれか1つに記載の情報処理装置。
(9)
前記処理部は、所定の要約除外条件を満たしたと判定した場合には、前記要約処理を行わない、(1)~(8)のいずれか1つに記載の情報処理装置。
(10)
前記要約除外条件は、ジェスチャの検出に関する条件であり、
前記処理部は、所定のジェスチャが検出された場合に、前記要約除外条件を満たしたと判定する、(9)に記載の情報処理装置。
(11)
前記処理部は、前記音声情報に基づき特定される発話期間と、前記音声情報に基づき特定される文字数とのうちの少なくとも一方に基づいて、前記発話の内容の要約のレベルを変更する、(1)~(10)のいずれか1つに記載の情報処理装置。
(12)
前記処理部は、要約された発話の内容が示す文字数を制限することによって、前記前記発話の内容の要約のレベルを変更する、(11)に記載の情報処理装置。
(13)
前記処理部は、前記音声情報、ユーザに関する情報、アプリケーションに関する情報、環境に関する情報、およびデバイスに関する情報のうちの少なくとも1つに基づいて、前記要約に関する重みを設定する、(1)~(12)のいずれか1つに記載の情報処理装置。
(14)
前記ユーザに関する情報には、前記ユーザの状態情報と前記ユーザの操作情報とのうちの少なくとも1つが含まれる、(13)に記載の情報処理装置。
(15)
前記処理部は、前記要約処理により要約された発話の内容を他の言語に翻訳する翻訳処理を、さらに行う、(1)~(14)のいずれか1つに記載の情報処理装置。
(16)
前記処理部は、所定の翻訳除外条件を満たしたと判定した場合には前記翻訳処理を行わない、(15)に記載の情報処理装置。
(17)
前記処理部は、
前記翻訳処理により他の言語に翻訳された内容を、翻訳前の言語に再翻訳し、
再翻訳した後に取得された前記音声情報が示す発話の内容に、再翻訳後の内容に含まれている言葉が存在する場合には、前記再翻訳後の内容に含まれている言葉を、要約された発話の内容に含める、(15)、または(16)に記載の情報処理装置。
(18)
前記処理部は、要約された発話の内容の通知を制御する通知制御処理を、さらに行う、(1)~(17)のいずれか1つに記載の情報処理装置。
(19)
取得した要約に関する重みを示す情報に基づいて、ユーザの発話に基づく音声情報が示す発話の内容を要約する要約処理を行うステップを有する、情報処理装置により実行される情報処理方法。
(20)
取得した要約に関する重みを示す情報に基づいて、ユーザの発話に基づく音声情報が示す発話の内容を要約する要約処理を行う機能を、コンピュータに実現させるためのプログラム。