WO2017029850A1

WO2017029850A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2017029850A1
Application number: PCT/JP2016/065192
Authority: WO
Inventors: 祐平滝; 伊藤　洋子; 真一河野
Original assignee: ソニー株式会社
Priority date: 2015-08-20
Filing date: 2016-05-23
Publication date: 2017-02-23
Also published as: EP3340240B1; US10643636B2; EP3340240A4; US20180197564A1; EP3340240A1

Abstract

【課題】ユーザが所望する粒度の情報を出力する可能性を高めることが可能な技術が提供されることが望まれる。【解決手段】第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　近年、ユーザによる音情報の知覚をサポートするための技術として様々な技術が開示されている。例えば、補聴器を利用して音情報を知覚しようとするユーザに音情報に対する音声認識結果に対応する表示を閲覧させる技術が開示されている（例えば、特許文献１参照。）。

特開２００１－２５０９６号公報

　しかし、ユーザの聴覚特性に応じて、ユーザによる音情報の聞き取りの成功率は変化し得る。そのため、ユーザの聴覚特性に応じて、ユーザが所望する情報の粒度も変化し得る。そこで、ユーザが所望する粒度の情報を出力する可能性を高めることが可能な技術が提供されることが望まれる。

　本開示によれば、第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、情報処理装置が提供される。

　本開示によれば、第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成することと、前記第二のテキストデータに関する出力情報を出力することと、を含み、プロセッサにより、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御することを含む、情報処理方法が提供される。

　本開示によれば、コンピュータを、第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、情報処理装置として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、ユーザが所望する粒度の情報を出力する可能性を高めることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理システムの構成例を示す図である。同実施形態に係る情報処理装置の機能構成例を示すブロック図である。聴覚に関するテストに利用される画面例を示す図である。ユーザの聴覚特性に関する情報の例を示す図である。母音要素に対応する周波数の例を示す図である。音声認識結果が得られてから音声認識結果に応じた出力情報が出力されるまでに実行される処理の例を説明するための図である。出力情報の表示例を示す図である。情報処理装置の動作例を示すフローチャートである。要テキスト化周波数領域の決定処理の動作例を示す図である。要テキスト化母音要素の探索処理の動作例を示す図である。要テキスト化語句判定処理の動作例を示す図である。各言語により話される音声の周波数帯（パスバンド）の例を示す図である。日本語における第１フォルマントおよび第２フォルマントの例を示す図である。英語における第１フォルマントおよび第２フォルマントの例を示す図である。環境ノイズに応じて聴覚レベルを変化させる例を示す図である。環境に関する情報の表示例を示す図である。行動情報に応じて聴覚レベルを変化させる例を示す図である。生体情報に応じて聴覚レベルを変化させる例を示す図である。本開示の技術が歯の治療場面に適用された場合を説明するための図である。出力テキストデータに所定の名詞が含まれていた場合について説明するための図である。出力情報を再度出力する例を説明するための図である。発話しているユーザの情報処理装置による出力情報の表示例を示す図である。電話機能による通話が終わった後に表示される出力情報の例を示す図である。情報処理装置がＨＭＤである場合を示す図である。出力情報が、出力テキストデータに基づいて生成された音情報を含む場合を説明するための図である。音情報が付された映像の表示例を示す図である情報処理装置のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の実施形態
　　１．１．システム構成例
　　１．２．機能構成例
　　１．３．情報処理システムの機能詳細
　　１．４．情報処理装置の動作例
　　１．５．種々の変形例
　　１．６．ハードウェア構成例
　２．むすび

　＜１．本開示の一実施形態＞
　［１．１．システム構成例］
　まず、図面を参照しながら本開示の一実施形態に係る情報処理システム１の構成例について説明する。図１は、本開示の一実施形態に係る情報処理システム１の構成例を示す図である。図１に示したように、本開示の一実施形態に係る情報処理システム１は、情報処理装置１０－１および情報処理装置１０－２を備える。情報処理装置１０－１は、ユーザＵ１によって利用され、情報処理装置１０－２は、ユーザＵ２によって利用される。

　例えば、情報処理装置１０－１および情報処理装置１０－２それぞれは、電話機能を有している。かかる電話機能により、情報処理装置１０－１と情報処理装置１０－２とが電話接続されている間は、ユーザＵ１とユーザＵ２とは、情報処理装置１０－１と情報処理装置１０－２とを介して、自身の発話音声を含んだ音情報を相手に送信することが可能である。以下では、情報処理装置１０－１および情報処理装置１０－２それぞれが電話機能を有している例を説明するが、情報処理装置１０－１および情報処理装置１０－２それぞれは、後述するように電話機能を有していなくてもよい。

　なお、図１に示した例では、情報処理装置１０－１および情報処理装置１０－２それぞれは、スマートフォンであるが、情報処理装置１０－１および情報処理装置１０－２それぞれの形態は特に限定されない。例えば、情報処理装置１０－１および情報処理装置１０－２それぞれは、携帯電話であってもよいし、ゲーム機などであってもよい。なお、以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。

　以上、情報処理システム１の構成例について説明した。

　［１．２．機能構成例］
　続いて、情報処理装置１０の機能構成例について説明する。図２は、情報処理装置１０の機能構成例を示すブロック図である。図２に示したように、情報処理装置１０は、画像入力部１１０と、操作入力部１１５と、集音部１２０と、出力部１３０と、センサ部１２５と、制御部１４０と、通信部１５０と、記憶部１６０と、音声出力部１７０と、表示部１８０とを備える。

　画像入力部１１０は、画像を入力する機能を有する。画像入力部１１０はカメラを含んでおり、カメラによって撮像された画像を入力する。画像入力部１１０に含まれるカメラの数は１以上であれば特に限定されない。そして、画像入力部１１０に含まれる１以上のカメラそれぞれが設けられる位置も特に限定されない。また、１以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

　操作入力部１１５は、ユーザＵの操作を入力する機能を有する。例えば、操作入力部１１５は、タッチパネルを含んでよい。タッチパネルが採用する方式は特に限定されず、静電容量方式であってもよいし、抵抗膜方式であってもよいし、赤外線方式であってもよいし、超音波方式であってもよい。また、操作入力部１１５はユーザＵの操作を入力する機能を有していればタッチパネルでなくてもよく、例えば、カメラであってもよいし、ハードウェアボタンであってもよい。

　集音部１２０は、集音によって音情報を得る機能を有する。例えば、集音部１２０は、スマートフォンの上端に存在するマイクロフォンを含んでいてよい。しかし、集音部１２０に含まれるマイクロフォンの数は１以上であれば特に限定されない。また、集音部１２０に含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

　ただし、集音部１２０が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによる集音によって得られた音情報に基づいて音の到来方向が推定され得る。また、集音部１２０が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによる集音によって得られた音情報に基づいて音の到来方向が推定され得る。

　センサ部１２５は、ユーザの行動情報およびユーザの生体情報のもとになるセンサデータを検出する機能を有する。例えば、生成部１４２は、センサ部１２５が加速度センサおよび角速度センサを含んでいれば、加速度センサによって検出された加速度や、角速度センサによって検出された角速度などに基づいて、行動情報を推定することができる。また、生成部１４２は、センサ部１２５が身体に関するセンサデータを検出可能なセンサを含んでいれば、身体に関するセンサデータに基づいて、生体情報を推定することもできる。

　制御部１４０は、情報処理装置１０の各部の制御を実行する。図２に示したように、制御部１４０は、取得部１４１と、生成部１４２と、出力部１４３とを備える。これらの各機能ブロックについての詳細は、後に説明する。なお、制御部１４０は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ；中央演算処理装置）などで構成されていてもよい。情報処理装置１４０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

　通信部１５０は、他の情報処理装置１０との間で通信を行う機能を有する。例えば、通信部１５０は、通信インターフェースにより構成される。例えば、通信部１５０は、電話機能により、他の情報処理装置１０との間で通信を行うことが可能である。記憶部１６０は、制御部１４０による演算に必要な各種データを記憶する機能を有する。例えば、記憶部１６０は、ストレージ装置により構成される。音声出力部１７０は、音情報を出力する機能を有する。例えば、音声出力部１７０は、スピーカであってもよいし、ヘッドホンであってもよい。

　表示部１８０は、画面を表示する機能を有する。出力部１８０は、操作入力部１１５に積層されており、操作入力部１１５と出力部１８０との間で対応する位置同士が重なり合っている。しかし、出力部１８０が設けられる位置は特に限定されない。また、典型的には、表示部１８０は、液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ＨＭＤ（Ｈｅａｄ　Ｍｏｕｎｔ　Ｄｉｓｐｌａｙ）などであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

　以上、情報処理装置１の機能構成例について説明した。

　［１．３．情報処理システムの機能詳細］
　続いて、情報処理システム１の機能詳細について説明する。まず、ユーザＵ１が情報処理装置１０－１を利用して、情報処理装置１０－２を利用するユーザＵ２との間で電話機能により通話をする場面を想定する。ここで、ユーザＵ１の聴覚特性に応じて、ユーザＵ１による音情報の聞き取りの成功率は変化し得ると考えられる。そのため、ユーザＵ１の聴覚特性に応じて、ユーザＵ１が所望する情報の粒度も変化し得る。そこで、ユーザＵ１が所望する粒度の情報を出力する可能性を高めることが可能な技術が提供されることが望まれる。

　具体的に、情報処理装置１０－１において、生成部１４２は、通話の相手であるユーザＵ２の発話音声を含んだ音情報に対して音声認識処理を施し、音声認識処理により得られた音声認識結果（第一のテキストデータの例）とユーザＵ１の聴覚特性に関する情報とに基づいて第二のテキストデータ（以下、「出力テキストデータ」と言う。）を生成する。そして、出力部１４３は、出力テキストデータに関する出力情報を出力する。例えば、出力情報は、情報処理装置１０－１における表示部１８０によって表示され、ユーザＵ１の視覚によって知覚される。

　このとき、生成部１４２は、ユーザＵ１の聴覚特性に関する情報に基づいて、出力テキストデータの粒度を制御する。かかる制御によれば、ユーザＵ１が所望する粒度の情報を出力する可能性を高めることが可能となる。

　以下では、かかる機能詳細についてさらに具体的に説明する。まず、取得部１４１は、ユーザＵ１の聴覚特性に関する情報を取得する。取得部１４１によるユーザＵ１の聴覚特性に関する情報の取得手法は特に限定されない。一例として、取得部１４１は、あらかじめ実施されたユーザＵ１の聴覚に関するテスト結果に基づいてユーザＵ１の聴覚特性に関する情報を取得してよい。

　図３は、聴覚に関するテストに利用される画面例を示す図である。図３を参照すると、ユーザＵ１の情報処理装置１０－１において、表示部１８０は、ボタンＢｕ１１を表示している。また、図３を参照すると、表示部１８０は、テスト用に発せられた音が聞こえた場合にボタンＢｕ１１を押下することをユーザＵ１に促すガイダンスを表示している。取得部１４１は、音の発生に対応してユーザＵ１が正常にボタンＢｕ１１を押下したか否かを、周波数および音量を変化させながら検査することによって、ユーザＵ１が聞き取ることができる音量を聴力レベルとして周波数ごとに取得することができる。

　このようにして得られたユーザＵ１の周波数ごとの聴力レベルは、取得部１４１によって、ユーザＵ１の聴覚特性に関する情報として取得される。続いて、生成部１４２は、音声認識結果からユーザの聴力レベルが低い所定の周波数領域と所定の関係を満たす１または複数のテキストデータを１または複数の抽出データとして抽出し、１または複数の抽出データを含むように出力テキストデータを生成するとよい。かかる構成によれば、ユーザＵ１が所望する粒度の情報を出力する可能性をさらに高めることが可能となる。

　所定の周波数領域は、ユーザＵ１の聴力レベルが所定の聴力レベル閾値よりも低い周波数の範囲を含んでよい。所定の聴力レベル閾値は、取得部１４１によって取得される。以下では、所定の周波数領域を「要テキスト化周波数領域Ｆ＿ｔｘｔ」と言い、所定の聴力レベル閾値を「要テキスト化レベル閾値Ｔｘｔ＿ｔｈ」と言う場合もある。図４は、ユーザＵ１の聴覚特性に関する情報の例を示す図である。図４に示すように、ユーザＵ１の聴覚特性に関する情報は、各周波数におけるユーザＵ１の聴力レベルを示している。

　また、図４には、要テキスト化レベル閾値Ｔｘｔ＿ｔｈが示されている。また、図４には、ユーザＵ１の聴力レベルが要テキスト化レベル閾値Ｔｘｔ＿ｔｈよりも低い（すなわち、ユーザＵ１が聞き取り可能な音量レベルが要テキスト化レベル閾値Ｔｘｔ＿ｔｈよりも大きい）周波数の範囲が要テキスト化周波数領域Ｆ＿ｔｘｔとして示されている。さらに、一般的に正常に聞き取り可能な範囲が「Ｒｎ」として示され、ユーザＵ１にとって聞き取りにくい範囲が「Ｒａ」として示されている。

　ここで、人間の聴覚では、母音が聞き取りにくくなるほど、その母音を要素とする音の判別が難しくなるのが通例である。また、母音には、１または複数の周波数成分が含まれている。そこで、生成部１４２は、音声認識結果を複数の分割データに分割し、対応する１または複数の周波数のうちの少なくとも一つが要テキスト化周波数領域Ｆ＿ｔｘｔに属する母音要素（以下、「要テキスト化母音要素Ｖ＿ｔｘｔ」とも言う。）の個数を１または複数の分割データそれぞれについて算出するとよい。

　そして、生成部１４２は、複数の分割データのうち、算出した個数が所定の個数閾値（以下、「要テキスト化母音要素Ｖ＿ｔｘｔ＿ｔｈ」とも言う。）を超える１または複数の分割データを１または複数の抽出データとして抽出するとよい。このようにして抽出された１または複数の抽出データを含むように出力テキストデータが生成されれば、ユーザＵ１が所望する粒度の情報を出力する可能性をさらに高めることが可能となる。母音要素に対応する周波数の例についてさらに説明する。図５は、母音要素に対応する周波数の例を示す図である。

　図５を参照すると、５つの母音要素（ｉ、ｅ、ａ、ｏ、ｕ）それぞれに対応する二つの周波数が示されている。ここで、各母音要素に対応する二つの周波数を有する音声のうち、低いほうの音声は「第１フォルマント」と言われ、高いほうの音声は「第２フォルマント」と言われている。図５にも、５つの母音要素（ｉ、ｅ、ａ、ｏ、ｕ）それぞれに対応して、「第１フォルマント」および「第２フォルマント」それぞれの周波数が示されている。以下では、母音要素に対応する１または複数の周波数の例として、「第１フォルマント」および「第２フォルマント」を用いて説明する。

　また、生成部１４２は、音声認識結果をどのような単位で分割してもよい。例えば、生成部１４２は、音声認識結果に対して句解析を行うことによって、音声認識結果を句単位に分割してもよい。以下では、このように音声認識結果を句単位に分割する例を説明する。続いて、音声認識結果の例として「Ａｔ　１０：００ａｍ　ｏｆ　Ｓａｔｕｒｄａｙ．」が得られてから、この音声認識結果に応じた出力情報が出力されるまでに、情報処理装置１０－１によって実行される処理の例について説明する。

　図６は、音声認識結果が得られてから音声認識結果に応じた出力情報が出力されるまでに実行される処理の例を説明するための図である。図６に示すように、生成部１４２が、音声認識結果の例として「Ａｔ　１０：００ａｍ　ｏｆ　Ｓａｔｕｒｄａｙ．」を得た場合を想定する。このとき、生成部１４２は、この「Ａｔ　１０：００ａｍ　ｏｆ　Ｓａｔｕｒｄａｙ．」に対して句解析を行うことによって、図６に示すように、「Ａｔ」「１０：００ａｍ」「ｏｆ」「Ｓａｔｕｒｄａｙ．」それぞれを句として得ることができる。

　続いて、生成部１４２は、「Ａｔ」「１０：００ａｍ」「ｏｆ」「Ｓａｔｕｒｄａｙ．」それぞれを読みに分解し、「第１フォルマント」および「第２フォルマント」の周波数のうちの少なくとも一つが要テキスト化周波数領域Ｆ＿ｔｘｔに属する母音要素の個数を要テキスト化母音要素Ｖ＿ｔｘｔの個数「０」「４」「０」「２」として得ることができる。読みに分解するのは、音声認識結果に発音されない文字も入り得るからである。ここで、一例として、要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈ＝１に設定されている場合を想定する。

　このとき、図６に示すように、生成部１４２は、「Ａｔ」「１０：００ａｍ」「ｏｆ」「Ｓａｔｕｒｄａｙ．」それぞれの要テキスト化母音要素Ｖ＿ｔｘｔの個数「０」「４」「０」「２」のうち、要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈ＝１を超える要テキスト化母音要素Ｖ＿ｔｘｔの個数「４」「２」に対応する「１０：００ａｍ」「Ｓａｔｕｒｄａｙ．」を、「テキスト化」する。一方、要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈ＝１を超えない要テキスト化母音要素Ｖ＿ｔｘｔの個数「０」「０」に対応する「Ａｔ」「ｏｆ」を、「非テキスト化」する。

　生成部１４２は、「テキスト化」した「１０：００ａｍ」「Ｓａｔｕｒｄａｙ．」が含まれた（「非テキスト化」した「Ａｔ」「ｏｆ」が除外された）出力テキストデータを生成することが可能である。出力部１４３は、このようにして生成された出力テキストデータに関する出力情報を出力することが可能である。図７は、出力情報の表示例を示す図である。例えば、図７に示すように、出力情報が情報処理装置１０－１における表示部１８０によって表示されると、ユーザＵ１の視覚によって出力情報が知覚される。図７を参照すると、ユーザＵ１が所望する粒度の情報「Ｓａｔｕｒｄａｙ」「１０：００ａｍ」が出力されていることが把握される。

　以上、情報処理システム１の機能詳細について説明した。ここで、上記した例では、要テキスト化レベル閾値Ｔｘｔ＿ｔｈが不変であることを想定して説明を行ったが、要テキスト化レベル閾値Ｔｘｔ＿ｔｈは更新されてもよい。例えば、ユーザＵ１が存在する環境に応じて音情報の聞こえにくさは変化し得ることが想定される。そこで、生成部１４２は、ユーザＵ１が存在する環境に関する情報に基づいて要テキスト化レベル閾値Ｔｘｔ＿ｔｈを更新してもよい。

　環境に関する情報は、環境ノイズであってよい。環境ノイズの定義は様々に考えられるが、環境ノイズは、通話の相手であるＵ２の発話音声以外に集音された音であってもよい。ここで、環境ノイズが大きくなるほど、ユーザＵ１による音情報の聞き取りにくさは大きくなっていくと考えられる。そのため、生成部１４２は、ユーザＵ１が存在する環境のノイズが大きくなるほど、要テキスト化レベル閾値Ｔｘｔ＿ｔｈが増加するように要テキスト化レベル閾値Ｔｘｔ＿ｔｈを更新してもよい。

　例えば、ユーザＵ１の行動情報または生体情報に応じて音情報の聞こえにくさは変化し得ることが想定される。そこで、生成部１４２は、ユーザＵ１の行動情報または生体情報に基づいて要テキスト化レベル閾値Ｔｘｔ＿ｔｈを更新してもよい。

　例えば、ユーザＵ１が、座っている場合、立ち止まっている場合、歩いている場合、走っている場合、電車に乗っている場合および自動車を運転している場合それぞれに応じて、音情報の聞こえにくさは異なり得る。そこで、生成部１４２は、ユーザＵ１の行動情報に対応する新たな要テキスト化レベル閾値Ｔｘｔ＿ｔｈによって要テキスト化レベル閾値Ｔｘｔ＿ｔｈを更新すればよい。

　あるいは、ユーザＵ１の心拍数によって音情報の聞こえにくさは変化し得る。同様に、ユーザＵ１の体温、発汗量、脈拍数、呼吸回数、瞬目回数、眼球運動、凝視時間、瞳孔径の大きさ、血圧、脳波、体動、体位、皮膚温度、皮膚電気抵抗、ＭＶ（マイクロバイブレーション）、筋電位、ＳＰＯ_２（血中酸素飽和度）によって音情報の聞こえにくさは変化し得る。そこで、生成部１４２は、これらの生体情報に対応する新たな要テキスト化レベル閾値Ｔｘｔ＿ｔｈによって要テキスト化レベル閾値Ｔｘｔ＿ｔｈを更新すればよい。

　［１．４．情報処理装置の動作例］
　続いて、情報処理装置１０－１の動作例について説明する。図８は、情報処理装置１０－１の動作例を示すフローチャートである。図８に示したフローチャートは、情報処理装置１０－１の動作の一例を示したに過ぎない。そのため、情報処理装置１０－１の動作は、かかる例に限定されない。まず、ユーザＵ１の聴覚特性の測定が実行される（ステップＳ１１０）。かかる測定によって、取得部１４１によりユーザＵ１の聴覚特性に関する情報が取得される。なお、上記したように、聴覚特性は、測定以外の手法によって取得されてもよい。

　続いて、ユーザＵ１の聴覚特性に関する情報を参照して、生成部１４２は、要テキスト化レベル閾値Ｔｘｔ＿ｔｈよりも聴力レベルが大きい周波数領域を要テキスト化周波数領域Ｆ＿ｔｘｔとして決定する（ステップＳ１２０）。なお、ステップＳ１１０およびステップＳ１２０は、ステップＳ１００としてひとまとめにされている。ステップＳ１００の詳細については、図９を参照しながら、後ほど説明を行う。

　続いて、生成部１４２は、各母音の第１フォルマントおよび第２フォルマントの周波数と要テキスト化周波数領域Ｆ＿ｔｘｔとを比較する（ステップＳ２１０）。そして、第１フォルマントおよび第２フォルマントの周波数の少なくともいずれか一方が要テキスト化周波数領域Ｆ＿ｔｘｔに入っている母音の集合を要テキスト化母音要素Ｖ＿ｔｘｔに設定する（Ｓ２２０）。なお、ステップＳ２１０およびステップＳ２２０は、ステップＳ２００としてひとまとめにされている。ステップＳ２００の詳細については、図１０を参照しながら、後ほど説明を行う。

　続いて、生成部１４２は、音声認識結果を取得し（Ｓ３１０）、音声認識結果に対して句解析を行うことによって、音声認識結果を句単位に分割する（ステップＳ３２０）。また、生成部１４２は、各句に対して読み解析を行うことにより、各句の読みを取得する（ステップＳ３３０）。そして、生成部１４２は、各句の読みに含まれる、要テキスト化母音要素Ｖ＿ｔｘｔの個数を計算する（ステップＳ３４０）。

　続いて、生成部１４２は、要テキスト化母音要素Ｖ＿ｔｘｔの個数が要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈを超えるか否かを句ごとに判定する（ステップＳ３５０）。生成部１４２は、要テキスト化母音要素Ｖ＿ｔｘｔの個数が要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈを超える句があれば、その句を要テキスト化句としてアプリケーションに通知する（ステップＳ３６０）。

　一方、生成部１４２は、要テキスト化母音要素Ｖ＿ｔｘｔの個数が要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈを超えない句があれば、その句をテキスト化不要句としてアプリケーションに通知する（ステップＳ３７０）。なお、ステップＳ３１０～ステップＳ３７０は、ステップＳ３００としてひとまとめにされている。ステップＳ３００の詳細については、図１１を参照しながら、後ほど説明を行う。

　図９は、要テキスト化周波数領域Ｆ＿ｔｘｔの決定処理の動作例を示す図である。図９に示すように、まず、生成部１４２は、初期値を周波数Ｆに設定する（ステップＳ１１１）。そして、生成部１４２は、ユーザＵ１の聴覚特性に関する情報から周波数Ｆにおける聴力レベルを取得する（ステップＳ１１２）。生成部１４２は、周波数Ｆにおける聴力レベルが要テキスト化レベル閾値Ｔｘｔ＿ｔｈを超えているか否かを判定する（ステップＳ１２１）。

　続いて、生成部１４２は、周波数Ｆにおける聴力レベルが要テキスト化レベル閾値Ｔｘｔ＿ｔｈを超えている場合（ステップＳ１２１において「Ｙｅｓ」）、周波数Ｆを要テキスト化周波数領域Ｆ＿ｔｘｔに追加し、ステップＳ１２３に動作を移行させる。一方、生成部１４２は、周波数Ｆにおける聴力レベルが要テキスト化レベル閾値Ｔｘｔ＿ｔｈを超えていない場合（ステップＳ１２１において「Ｎｏ」）、要テキスト化周波数領域Ｆ＿ｔｘｔを決定して終了する（ステップＳ１２５）。その後、動作はステップＳ２００に移行される。

　続いて、生成部１４２は、周波数Ｆが対象最大周波数Ｆ＿ｍａｘ以内であるか否かを判定する（ステップＳ１２３）。そして、生成部１４２は、周波数Ｆが対象最大周波数Ｆ＿ｍａｘ以内である場合には（ステップＳ１２３において「Ｙｅｓ」）、次の周波数を取得し（ステップＳ１２４）、動作をステップＳ１１２に移行させる）。一方、生成部１２４は、周波数Ｆが対象最大周波数Ｆ＿ｍａｘの範囲内である場合には（ステップＳ１２３において「Ｎｏ」）、要テキスト化周波数領域Ｆ＿ｔｘｔを決定して、処理を終了させる（ステップＳ１２５）。その後、動作は要テキスト化母音要素Ｖ＿ｔｘｔ＿ｔｈの探索処理に移行される。

　図１０は、要テキスト化母音要素Ｖ＿ｔｘｔ＿ｔｈの探索処理の動作例を示す図である。図１０に示すように、まず、生成部１４２は、あらかじめ用意された母音リストＶ＿ｌｉｓｔから１の母音を比較ターゲットＶ＿ｔａｒｇｅｔとして取り出す（ステップＳ２１１）。そして、生成部１４２は、比較ターゲットＶ＿ｔａｒｇｅｔの第１のフォルマント周波数および第２のフォルマント周波数を取得し（ステップＳ２１２）、比較ターゲットＶ＿ｔａｒｇｅｔの第１のフォルマント周波数および第２のフォルマント周波数の少なくともいずれか一方が要テキスト化周波数領域Ｆ＿ｔｘｔの範囲内か否かを判定する（ステップＳ２２１）。

　生成部１４２は、比較ターゲットＶ＿ｔａｒｇｅｔの第１のフォルマント周波数および第２のフォルマント周波数の双方が要テキスト化周波数領域Ｆ＿ｔｘｔの範囲外であると判定した場合には（ステップＳ２２１において「Ｎｏ」）ステップＳ２２３に動作を移行させる。一方、生成部１４２は、比較ターゲットＶ＿ｔａｒｇｅｔの第１のフォルマント周波数および第２のフォルマント周波数の少なくともいずれか一方が要テキスト化周波数領域Ｆ＿ｔｘｔの範囲内であると判定した場合には（ステップＳ２２１において「Ｙｅｓ」）、比較ターゲットＶ＿ｔａｒｇｅｔを要テキスト化母音要素Ｖ＿ｔｘｔに追加し（ステップＳ２２２）、ステップＳ２２３に動作を移行させる。

　続いて、生成部１４２は、母音リストＶ＿ｌｉｓｔを全て調べたか否かを判定する（ステップＳ２２３）。生成部１４２は、母音リストＶ＿ｌｉｓｔの一部または全部を調べていない場合（ステップＳ２２３において「Ｎｏ」）、動作をステップＳ２１１に移行させる。一方、生成部１４２は、母音リストＶ＿ｌｉｓｔの全部を調べた場合（ステップＳＳ２２３において「Ｎｏ」）、要テキスト化母音要素Ｖ＿ｔｘｔを確定する（ステップＳ２２４）。

　図１１は、要テキスト化語句判定処理の動作例を示す図である。まず、生成部１４２は、発話音声に対する音声認識結果を取得する（ステップＳ３１０）。そして、生成部１４２は、音声認識結果を句分割し（ステップＳ３２０）、各句の読みを取得して読みリストＲ＿ｌｉｓｔを生成する（ステップＳ３３０）。読みリストＲ＿ｌｉｓｔから１句を取得し（ステップＳ３４１）、要テキスト化母音要素Ｖ＿ｔｘｔの個数が要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈを超えたか否かを判定する（ステップＳ３５１）。

　生成部１４２は、要テキスト化母音要素Ｖ＿ｔｘｔの個数が要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈを超えている場合には（ステップＳ３５１において「Ｎｏ」）、ステップＳ３６５に動作を移行させる。一方、生成部１４２は、要テキスト化母音要素Ｖ＿ｔｘｔの個数が要テキスト化母音要素個数閾値Ｖ＿ｔｘｔ＿ｔｈを超えていない場合には（ステップＳ３５１において「Ｙｅｓ」）、当該句を要テキスト化語句に追加して（ステップＳ３６０）、ステップＳ３６５に動作を移行させる。

　続いて、生成部１４２は、読みリストＲ＿ｌｉｓｔのすべての項目に対して実行したか否かを判定する（ステップＳ３６５）。そして、生成部１４２は、読みリストＲ＿ｌｉｓｔの一部またはすべての項目に対して実行していない場合には（ステップＳ３６５「Ｎｏ」）、ステップＳ３４１に動作が移行される。一方、生成部１４１は、読みリストＲ＿ｌｉｓｔのすべての項目に対して実行した場合には（ステップＳ３６５「Ｙｅｓ」）、要テキスト化語句を確定して（ステップＳ３７０）、要テキスト化語句としてアプリケーションに通知される。

　［１．５．種々の変形例］
　続いて、情報処理装置１０－１の種々の変形例について説明する。図１２は、各言語により話される音声の周波数帯（パスバンド）の例を示す図である。図１２には、日本語、英語、イタリア語、ドイツ語およびロシア語それぞれのパスバンドが示されている。図１２からも把握されるように、パスバンドは使用される言語によって異なっている。そこで、このパスバンドに対応する聴覚レベルが取得されればよいため、聴覚に関するテストもこのパスバンドに応じた周波数領域に対して行われればよい。

　図１３は、日本語における第１フォルマントおよび第２フォルマントの例を示す図である。また、図１４は、英語における第１フォルマントおよび第２フォルマントの例を示す図である。図１３および図１４を参照すると、日本語と英語との間において、第１フォルマント周波数および第２フォルマント周波数は、さほど差が生じていないこと把握される。英語の例から把握されるように、日本語と他の外国語との間においても同様であると推測される。そこで、本実施形態は、あらゆる外国語により話された音声に対して適用し得る。

　また、上記では、あらかじめ実施されたユーザＵ１の聴覚に関するテスト結果に基づいてユーザＵ１の聴覚特性に関する情報を取得する例を説明したが、ユーザＵ１の聴覚特性に関する情報はどのように取得されてもよい。

　例えば、取得部１４１は、ユーザＵ１の属性情報に基づいてユーザＵ１の聴覚特性に関する情報を取得してもよい。属性情報は、聴覚特性に影響を与え得る所定の情報（例えば、年齢、使用する言語、性別など）であってよい。属性情報ごとに聴覚特性に関する情報があらかじめ対応付けられていれば、取得部１４１は、その対応付けと聴覚特性に関する情報に基づいて、ユーザＵ１の属性情報に対応する聴覚特性に関する情報を取得することができる。

　あるいは、取得部１４１は、あらかじめ登録されているユーザＵ１の聴覚特性に関する情報を取得してもよい。ユーザＵ１の聴覚特性に関する情報は、記憶部１６０に登録されていてもよいし、図示しないサーバなどに登録されていてもよい。また、聴覚特性に関する情報がユーザごとに登録されている場合には、ユーザごとの聴覚特性に関する情報からユーザＵ１の聴覚特性に関する情報が取得されてもよい。あるいは、一般的なユーザの聴覚特性に関する情報がユーザＵ１の聴覚特性に関する情報として取得されてもよい。

　あるいは、ユーザＵ１が存在する環境に応じて音情報の聞こえにくさは変化し得ることが想定されるため、取得部１４１は、ユーザＵ１が存在する環境に関する情報に基づいてユーザの聴覚特性に関する情報を取得してもよい。例えば、環境ノイズが大きくなるほど、ユーザＵ１による音情報の聞き取りにくさは大きくなっていくと考えられる。そのため、生成部１４２は、ユーザＵ１が存在する環境のノイズが大きくなるほど、聴覚レベルが大きく低下するように聴覚レベルを変化させてもよい。

　図１５は、環境ノイズに応じて聴覚レベルを変化させる例を示す図である。図１５を参照すると、通常におけるユーザＵ１の聴覚特性に関する情報Ｌｉ１が示されている。また、環境ノイズの例として、走行中の電車の内部における騒音Ｎ＿Ｌ、動物園の中における騒音Ｎ＿Ｍ、食器洗浄時における騒音Ｎ＿Ｈが示されている。ユーザＵ１がこれらの環境に存在する場合には、環境ノイズの主要周波数における聴力レベルが低下するとみなして、その主要周波数における聴力レベルを低下させるような聴覚レベルの変更を行うとよい。図１５には、変更後の聴覚特性に関する情報Ｌｉ２が示されている。

　また、環境に関する情報は、表示部１８０によって表示されてもよい。そうすれば、ユーザＵ１はユーザ２による発話音声をどの程度聞き取りづらいかを容易に把握することが可能となる。また、環境に関する情報を閲覧したユーザＵ１が、テキスト化を情報処理装置１０－１にどの程度行わせるかを選択できるようにしてもよい。図１６は、環境に関する情報の表示例を示す図である。

　図１６に示すように、テキスト化を多めにすることを選択するためのボタンＢｕ２１、テキスト化の量を中程度にすることを選択するためのボタンＢｕ２２、テキスト化の量を少なめにすることを選択するためのボタンＢｕ２３が表示部１８０によって表示されている。また、環境に関する情報として、環境ノイズが大きいことを示す情報Ｂｕ２４、環境ノイズが中程度であることを示す情報Ｂｕ２５、環境ノイズが小さいことを示す情報Ｂｕ２６が表示部１８０によって表示されている。

　あるいは、ユーザＵ１の行動情報に応じて音情報の聞こえにくさは変化し得ることが想定されるため、取得部１４１は、ユーザＵ１の行動情報に基づいてユーザの聴覚特性に関する情報を取得してもよい。例えば、ユーザＵ１が、座っている場合、立ち止まっている場合、歩いている場合、走っている場合、電車に乗っている場合および自動車を運転している場合それぞれに応じて、音情報の聞こえにくさは異なり得る。そこで、取得部１４１は、ユーザＵ１の行動情報に対応する聴覚特性に関する情報を取得すればよい。

　図１７は、行動情報に応じて聴覚レベルを変化させる例を示す図である。図１７を参照すると、行動認識結果の例として種々の行動情報が示されており、取得部１４１によって自動車を運転しているという行動情報が取得された場合を想定する。自動車を運転しているときには、音情報は通常時よりも聞き取りにくくなっていると考えられる。そこで、取得部１４１は、聴力レベルを低下させるような聴覚レベルの変更を行うとよい。図１７には、テキスト化を積極的に行うことを示す画面Ｂｕ５１が表示されている。

　このようにテキスト化がどの程度行われるかを表示することで、ユーザＵ１は音声認識結果のテキスト化がどの程度なされるのかを容易に把握することが可能となる。図１７に示すように、ユーザＵ１の行動情報「運転中」は、表示部１８０によって表示されてもよい。そうすれば、ユーザＵ１はユーザ２による発話音声をどの程度聞き取りづらいかを容易に把握することが可能となる。また、行動情報を閲覧したユーザＵ１が、テキスト化を情報処理装置１０－１にどの程度行わせるかを選択できるようにしてもよい。

　あるいは、ユーザＵ１の生体情報に応じて音情報の聞こえにくさは変化し得ることが想定されるため、取得部１４１は、ユーザＵ１の生体情報に基づいてユーザの聴覚特性に関する情報を取得してもよい。例えば、ユーザＵ１が、運動している場合および静止している場合それぞれに応じて、音情報の聞こえにくさは異なり得る。そこで、取得部１４１は、ユーザＵ１の生体情報に対応する聴覚特性に関する情報を取得すればよい。

　図１８は、生体情報に応じて聴覚レベルを変化させる例を示す図である。図１８を参照すると、センシング結果の例として心拍数が示されており、取得部１４１によって運動しているという生体情報が取得された場合を想定する。運動しているときには、音情報は通常時よりも聞き取りにくくなっていると考えられる。そこで、取得部１４１は、聴力レベルを低下させるような聴覚レベルの変更を行うとよい。図１８には、テキスト化を積極的に行うことを示す画面Ｂｕ６１が表示されている。

　このようにテキスト化がどの程度行われるかを表示することで、ユーザＵ１は音声認識結果のテキスト化がどの程度なされるのかを容易に把握することが可能となる。図１８に示すように、ユーザＵ１の生体情報「運動中」は、表示部１８０によって表示されてもよい。そうすれば、ユーザＵ１はユーザ２による発話音声をどの程度聞き取りづらいかを容易に把握することが可能となる。また、行動情報を閲覧したユーザＵ１が、テキスト化を情報処理装置１０－１にどの程度行わせるかを選択できるようにしてもよい。

　また、上記では、情報処理装置１０－１と情報処理装置１０－２とが有する電話機能により、ユーザＵ１とユーザＵ２とが会話を行う場面を説明したが、本開示の技術が適用される場面は、かかる場面に限定されない。例えば、本開示の技術は、ヘルスケア分野にも広く適用され得る。例えば、歯医者によって患者が歯の治療を受ける場面においては、歯の治療音のために、歯医者と患者とが互いに相手の声を聞き取れないことがある。本開示の技術は、このような歯医者による患者の歯の治療場面にも適用され得る。

　図１９は、本開示の技術が歯の治療場面に適用された場合を説明するための図である。図１９を参照すると、患者による発話音声の音声認識結果からテキスト化された句の例が、句Ｂｕ３１、句Ｂｕ３２として示されている。歯医者は、この句Ｂｕ３１、句Ｂｕ３２を見た結果を歯の治療に生かすことができる。また、歯医者による発話音声の音声認識結果からテキスト化された句の例が、句Ｂｕ３３、句Ｂｕ３４として示されている。患者はこの句Ｂｕ３３、句Ｂｕ３４を見た結果に対して歯医者に回答を行うことができる。

　また、上記では、出力情報として出力テキストデータを表示する場合を主に説明したが、表示される情報は、出力テキストデータに加えて画像およびスタンプなどを含んでいてもよい。例えば、出力部１４３は、出力テキストデータに所定の名詞が含まれていた場合に、その名詞に対応する画像またはスタンプを出力し、表示部１８０は、画像またはスタンプを表示してもよい。このような機能により、ユーザＵ１によるユーザＵ２の発話内容の理解速度を高めることが可能になる。

　図２０は、出力テキストデータに所定の名詞が含まれていた場合について説明するための図である。図２０に示すように、出力テキストデータに「ＢＢＱ（バーバキュー）」が含まれていたとする。このとき、図２０に示すように、出力１４３は、「ＢＢＱ（バーバキュー）」に対応する画像Ｂｕ４１およびスタンプＢｕ４２を出力し、表示部１８０は、画像Ｂｕ４１およびスタンプＢｕ４２を表示してもよい。

　また、上記では、出力情報が一度だけ出力される例を主に説明したが、出力部１４３は、出力情報を出力した後に、所定の条件が満たされた場合に、出力情報を再度出力してもよい。ここで、所定の条件は特に限定されない。したがって、所定の条件は、ユーザＵ１による所定の操作がなされたという条件であってもよいし、通話が終了して所定時間経過であってもよい。所定の条件が、所定時間経過である場合を例として、説明を続ける。

　図２１は、出力情報を再度出力する例を説明するための図である。図２１を参照すると、通話の相手であるユーザＵ２の発話音声に対する音声認識結果から「１０：００ａｍ」「Ｓａｔｕｒｄａｙ」がテキスト化され、これらが出力テキストデータとして表示部１８０によって表示されている。通話が終了して所定時間が経過した後、通知画面Ｂｕ７１が表示され、ユーザＵ１が通知画面Ｂｕ７１を選択すると、「１０：００ａｍ」「Ｓａｔｕｒｄａｙ」それぞれを再確認することを選択するためのボタンＢｕ７２、Ｂｕ７３が表示されてよい。

　図２１に示すように、例えば、ユーザＵ１が「１０：００ａｍ」を再確認することを選択するためのボタンＢｕ７３を押下すると、生成Ｂｕ１４２は、この「１０：００ａｍ」について通話の相手であるユーザＵ２に再度確認するために、メールアプリケーションを自動的に起動させてもよい。そして、表示部１８０は、「１０：００ａｍ」と発話したか否かを問うためのメッセージとそのメッセージを送信するためのボタンＢｕ７４を表示してもよい。

　また、上記では、ユーザＵ２によって発話された音声を受信する情報処理装置１０－１において出力情報が表示される例を説明したが、かかる出力情報は、発話しているユーザＵ２が利用している情報処理装置１０－２によって表示されてもよい。そうすれば、ユーザＵ２も、ユーザＵ１にとって聞き取りにくい音を把握し、把握した結果を再度の発話に活用したり、テキストを修正したりすることが可能である。テキストの修正結果は、ユーザＵ１の情報処理装置１０－１に送信され、情報処理装置１０－１において表示されるとよい。

　図２２は、発話しているユーザＵ２の情報処理装置１０－２による出力情報の表示例を示す図である。図２２を参照すると、発話しているユーザＵ２の発話音声に対する音声認識結果から「１０：００ａｍ」「Ｓａｔｕｒｄａｙ」がテキスト化され、これらが出力テキストデータとして情報処理装置１０－２における表示部１８０によって表示されている。また、「１０：００ａｍ」「Ｓａｔｕｒｄａｙ」それぞれを修正することを選択するためのボタンＢｕ８１、Ｂｕ８２が表示されている。

　また、上記では、ユーザＵ１とユーザＵ２とが情報処理装置１０－１と情報処理装置１０－２との電話機能により、通話を行っている間に表示される出力情報について説明したが、出力情報は、電話機能による通話が終わった後に表示されてもよい。すなわち、出力情報は、ユーザＵ１がユーザＵ２と電話機能により通話した内容を後から見返すための補完的なメモとして利用されてもよい。図２３は、電話機能による通話が終わった後に表示される出力情報の例を示す図である。

　また、上記では、情報処理装置１０－１および情報処理装置１０－２それぞれが、スマートフォンである場合を例として説明したが、情報処理装置１０－１および情報処理装置１０－２それぞれの形態は特に限定されない。例えば、情報処理装置１０－１は、ＨＭＤ（Ｈｅａｄ　Ｍｏｕｎｔ　Ｄｉｓｐｌａｙ）であってもよい。図２４は、情報処理装置１０－１がＨＭＤである場合を示す図である。図２４において、ＨＭＤによって実現された表示部１８０が示されている。

　また、上記では、出力情報の形態が、出力テキストデータに基づいて生成された画像情報である場合について主に説明した。しかし、出力情報の形態は、画像情報に限定されない。例えば、出力情報は、出力テキストデータに基づいて生成された、音情報、画像情報および振動情報のうち、少なくともいずれか一つを含んでもよい。図２５は、出力情報が、出力テキストデータに基づいて生成された音情報を含む場合を説明するための図である。図２５を参照すると、ユーザＵ１が音声出力部１７０を装着している。

　音声出力部１７０は、出力テキストデータに基づいて生成された音情報を出力してもよい。そうすれば、ユーザＵ１は、音情報によって出力テキストデータの内容を把握することが可能である。なお、ユーザＵ１は、ユーザＵ２と電話機能により会話をしながら、出力テキストデータに基づいて生成された音情報を聴くのは困難な場合もある。したがって、ユーザＵ２との電話機能により会話が途切れたタイミングに、かかる音情報が出力されるとよい。

　また、上記では、ユーザＵ１の通話の相手であるユーザＵ２の発話音声に対する音声認識結果をテキストデータとして利用する例を説明したが、音声認識結果の代わりに、他のテキストデータが利用されてもよい。すなわち、コンテンツに基づくテキストデータが用いられてもよい。例えば、映像データの再生により、ユーザＵ１が映像を閲覧しながら映像に付された音情報を聴く場面を想定する。かかる場面において、音情報の聞き取りの成功率は、ユーザの聴覚特性によって異なることが予想される。そこで、映像データに付された音情報に対する音声認識結果が用いられてもよい。

　図２６は、音情報が付された映像の表示例を示す図である。図２６を参照すると、映像Ｃｔが再生されて表示されている。また、映像Ｃｔに付された音情報も再生されて出力されている。そこで、情報処理装置１０－１において、生成部１４２は、映像Ｃｔに付された音情報に対して音声認識処理を施し、音声認識処理により得られた音声認識結果をテキストデータとして利用してもよい。あるいは、映像に付されたキャプションなどがテキストデータとして利用されてもよい。

　また、生成部１４２は、音声認識結果の粒度よりも出力テキストデータの粒度を低くしてもよい。より具体的には、生成部１４２は、音声認識結果から所定の語句を除外することにより音声認識結果の粒度よりも出力テキストデータの粒度を低くしてもよい。例えば、音声認識結果として「Ｈｉ　Ｊｏｈｎ，　ｗｅ　ｎｅｅｄ　ｔｏ　ｍｅｅｔ　ａｔ　ｔｈｅ　ｓｔａｔｉｏｎ　ａｒｏｕｎｄ　１０：００ａｍ」が得られた場合に、この音声認識結果が「Ｈｉ　Ｊｏｈｎ，」「ｗｅ　ｎｅｅｄ　ｔｏ　ｍｅｅｔ」「ａｔ　ｔｈｅ　ｓｔａｔｉｏｎ」「ａｒｏｕｎｄ　１０：００ａｍ」に分解されたとする。

　生成部１４２は、このようにして得られた各句から言語ごとに定められた不要語句を取り除いてよい。例えば、英語の場合には、不要語句は、前置詞や強調表現であってもよい。例えば、「ｎｅｅｄ　ｔｏ」や「ａｔ」「ａｒｏｕｎｄ」は前置詞であるため、これらが取り除かれた「Ｈｉ　Ｊｏｈｎ，」「ｗｅ　ｍｅｅｔ」「ｔｈｅ　ｓｔａｔｉｏｎ」「１０：００ａｍ」が表示されてもよい。これにより、より必要性の高い情報をユーザに閲覧させることが可能である。

　［１．６．ハードウェア構成例］
　次に、図２７を参照して、本開示の実施形態に係る情報処理装置１０のハードウェア構成について説明する。図２７は、本開示の実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。

　図２７に示すように、情報処理装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０５を含む。また、情報処理装置１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理装置１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理装置１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

　出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理装置１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

　ストレージ装置９１９は、情報処理装置１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理装置１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置１０と外部接続機器９２９との間で各種のデータが交換され得る。

　通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　撮像装置９３３は、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理装置１０の筐体の姿勢など、情報処理装置１０自体の状態に関する情報や、情報処理装置１０の周辺の明るさや騒音など、情報処理装置１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　以上、情報処理装置１０のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。

　＜２．むすび＞
　以上説明したように、本開示の実施形態によれば、第一のテキストデータとユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、前記生成部は、前記ユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、情報処理装置が提供される。かかる構成によれば、ユーザが所望する粒度の情報を出力する可能性を高めることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した制御部１４０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　なお、上述した情報処理システム１の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部１１０、操作入力部１１５、集音部１２０、センサ部１２５、通信部１５０、記憶部１６０、音声出力部１７０および表示部１８０と制御部１４０とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、制御部１４０が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部１１０、操作入力部１１５、集音部１２０、センサ部１２５、通信部１５０、記憶部１６０、音声出力部１７０および表示部１８０が当該サーバにネットワークを介して接続されたクライアントに相当し得る。

　また、制御部１４０が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、取得部１４１と、生成部１４２と、出力部１４３とのうち、一部は制御部１４０とは異なる装置に存在していてもよい。例えば、生成部１４１は、取得部１４１と出力部１４３とを備える制御部１４０とは異なるサーバに存在していてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、
　前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、
　前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、
　情報処理装置。
（２）
　前記生成部は、前記第一のテキストデータから前記第一のユーザの聴力レベルが低い所定の周波数領域と所定の関係を満たす１または複数のテキストデータを１または複数の抽出データとして抽出し、前記１または複数の抽出データを含むように前記第二のテキストデータを生成する、
　前記（１）に記載の情報処理装置。
（３）
　前記所定の周波数領域は、前記第一のユーザの聴力レベルが所定の聴力レベル閾値よりも低い周波数の範囲を含む、
　前記（２）に記載の情報処理装置。
（４）
　前記第一のテキストデータは、コンテンツに基づくテキストデータを含む、
　前記（１）～（３）のいずれか一項に記載の情報処理装置。
（５）
　第一のテキストデータは、第二のユーザの発話に基づき生成されるテキストデータを含む、前記（１）～（３）のいずれか一項に記載の情報処理装置。
（６）
　前記生成部は、前記第一のテキストデータを複数の分割データに分割し、対応する１または複数の周波数のうちの少なくとも一つが前記周波数領域に属する母音要素の個数を前記１または複数の分割データそれぞれについて算出し、前記複数の分割データのうち、算出した前記個数が所定の個数閾値を超える１または複数の分割データを前記１または複数の抽出データとして抽出する、
　前記（２）または（３）に記載の情報処理装置。
（７）
　前記情報処理装置は、前記第一のユーザの聴覚特性に関する情報を取得する取得部を備える、
　前記（１）～（６）のいずれか一項に記載の情報処理装置。
（８）
　前記取得部は、前記第一のユーザの属性情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
　前記（７）に記載の情報処理装置。
（９）
　前記取得部は、あらかじめ登録されている前記第一のユーザの聴覚特性に関する情報を取得する、
　前記（７）に記載の情報処理装置。
（１０）
　前記取得部は、前記第一のユーザが存在する環境に関する情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
　前記（７）に記載の情報処理装置。
（１１）
　前記取得部は、前記第一のユーザの行動情報または生体情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
　前記（７）に記載の情報処理装置。
（１２）
　前記情報処理装置は、前記所定の聴力レベル閾値を取得する取得部を備える、
　前記（３）に記載の情報処理装置。
（１３）
　前記生成部は、前記第一のユーザが存在する環境に関する情報に基づいて前記所定の聴力レベル閾値を更新する、
　前記（１２）に記載の情報処理装置。
（１４）
　前記生成部は、前記第一のユーザの行動情報または生体情報に基づいて前記所定の聴力レベル閾値を更新する、
　前記（１２）に記載の情報処理装置。
（１５）
　前記出力部は、前記出力情報を出力した後に、所定の条件が満たされた場合に、前記出力情報を再度出力する、
　前記（１）～（１４）のいずれか一項に記載の情報処理装置。
（１６）
　前記出力情報は、前記第二のテキストデータに基づいて生成された、音情報、画像情報および振動情報のうち、少なくともいずれか一つを含む、
　前記（１）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記生成部は、前記第一のテキストデータの粒度よりも前記第二のテキストデータの粒度を低くする、
　前記（１）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　前記生成部は、前記第一のテキストデータから所定の語句を除外することにより前記第一のテキストデータの粒度よりも前記第二のテキストデータの粒度を低くする、
　前記（１７）に記載の情報処理装置。
（１９）
　第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成することと、
　前記第二のテキストデータに関する出力情報を出力することと、を含み、
　プロセッサにより、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御することを含む、
　情報処理方法。
（２０）
　コンピュータを、
　第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、
　前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、
　前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、
　情報処理装置として機能させるためのプログラム。

　１　　　情報処理システム
　１０　　情報処理装置
　１１０　画像入力部
　１１５　操作入力部
　１２０　集音部
　１２５　センサ部
　１４０　制御部
　１４１　取得部
　１４２　生成部
　１４３　出力部
　１５０　通信部
　１６０　記憶部
　１７０　音声出力部
　１８０　表示部

Claims

　第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、
　前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、
　前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、
　情報処理装置。
　前記生成部は、前記第一のテキストデータから前記第一のユーザの聴力レベルが低い所定の周波数領域と所定の関係を満たす１または複数のテキストデータを１または複数の抽出データとして抽出し、前記１または複数の抽出データを含むように前記第二のテキストデータを生成する、
　請求項１に記載の情報処理装置。
　前記所定の周波数領域は、前記第一のユーザの聴力レベルが所定の聴力レベル閾値よりも低い周波数の範囲を含む、
　請求項２に記載の情報処理装置。
　前記第一のテキストデータは、コンテンツに基づくテキストデータを含む、
　請求項１に記載の情報処理装置。
　第一のテキストデータは、第二のユーザの発話に基づき生成されるテキストデータを含む、
　請求項１に記載の情報処理装置。
　前記生成部は、前記第一のテキストデータを複数の分割データに分割し、対応する１または複数の周波数のうちの少なくとも一つが前記周波数領域に属する母音要素の個数を前記１または複数の分割データそれぞれについて算出し、前記複数の分割データのうち、算出した前記個数が所定の個数閾値を超える１または複数の分割データを前記１または複数の抽出データとして抽出する、
　請求項２に記載の情報処理装置。
　前記情報処理装置は、前記第一のユーザの聴覚特性に関する情報を取得する取得部を備える、
　請求項１に記載の情報処理装置。
　前記取得部は、前記第一のユーザの属性情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
　請求項７に記載の情報処理装置。
　前記取得部は、あらかじめ登録されている前記第一のユーザの聴覚特性に関する情報を取得する、
　請求項７に記載の情報処理装置。
　前記取得部は、前記第一のユーザが存在する環境に関する情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
　請求項７に記載の情報処理装置。
　前記取得部は、前記第一のユーザの行動情報または生体情報に基づいて前記第一のユーザの聴覚特性に関する情報を取得する、
　請求項７に記載の情報処理装置。
　前記情報処理装置は、前記所定の聴力レベル閾値を取得する取得部を備える、
　請求項３に記載の情報処理装置。
　前記生成部は、前記第一のユーザが存在する環境に関する情報に基づいて前記所定の聴力レベル閾値を更新する、
　請求項１２に記載の情報処理装置。
　前記生成部は、前記第一のユーザの行動情報または生体情報に基づいて前記所定の聴力レベル閾値を更新する、
　請求項１２に記載の情報処理装置。
　前記出力部は、前記出力情報を出力した後に、所定の条件が満たされた場合に、前記出力情報を再度出力する、
　請求項１に記載の情報処理装置。
　前記出力情報は、前記第二のテキストデータに基づいて生成された、音情報、画像情報および振動情報のうち、少なくともいずれか一つを含む、
　請求項１に記載の情報処理装置。
　前記生成部は、前記第一のテキストデータの粒度よりも前記第二のテキストデータの粒度を低くする、
　請求項１に記載の情報処理装置。
　前記生成部は、前記第一のテキストデータから所定の語句を除外することにより前記第一のテキストデータの粒度よりも前記第二のテキストデータの粒度を低くする、
　請求項１７に記載の情報処理装置。
　第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成することと、
　前記第二のテキストデータに関する出力情報を出力することと、を含み、
　プロセッサにより、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御することを含む、
　情報処理方法。
　コンピュータを、
　第一のテキストデータと第一のユーザの聴覚特性に関する情報とに基づいて第二のテキストデータを生成する生成部と、
　前記第二のテキストデータに関する出力情報を出力する出力部と、を備え、
　前記生成部は、前記第一のユーザの聴覚特性に関する情報に基づいて、前記第二のテキストデータの粒度を制御する、
　情報処理装置として機能させるためのプログラム。