WO2016075781A1

WO2016075781A1 - ウェアラブルデバイス、表示制御方法、及び表示制御プログラム

Info

Publication number: WO2016075781A1
Application number: PCT/JP2014/079999
Authority: WO
Inventors: 麻実子手島
Original assignee: 富士通株式会社
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2016-05-19
Also published as: EP3220372A1; JP6555272B2; EP3220372B1; JPWO2016075781A1; US20170243600A1; EP3220372A4

Abstract

　ウェアラブルデバイスは、マイクと、ディスプレイと、を備える。また、ウェアラブルデバイスは、マイクにより収音された音声情報を解析して、取得した音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する制御部を備える。

Description

ウェアラブルデバイス、表示制御方法、及び表示制御プログラム

　開示の技術は、ウェアラブルデバイス、表示制御方法、及び表示制御プログラムに関する。

　近年、情報処理装置の小型化及び軽量化に伴い、身につけて持ち運ぶことができるウェアラブルデバイスの開発が進められている。

　ウェアラブルデバイスの一例としては、例えば頭部に装着し、表示装置から出力された画像を眼鏡部に設けられたハーフミラーに投影することで、視野に入る景色に画像を重ねて表示するヘッドマウントディスプレイが開示されている。

特開平１１－１３６５９８号公報

　ウェアラブルデバイスは体に装着されることから、その存在を意識せず、生活の様々な場面で利用することが可能である。また、ウェアラブルデバイスの操作も、装着位置に応じた操作方法が取り入れられるため、ウェアラブルデバイスは体に何らかの障がいを有する障がい者のコミュニケーションツールとして適した装置である。

　しかしながら、従来のウェアラブルデバイスでは、健常者の利用を前提としたものが多く、例えば、聴覚障がい者の積極的な利用を促すための機能が実現されているとは言い難い状況である。

　一つの側面として、開示の技術は、所定の呼びかけフレーズ以外の音声に起因する表示の煩雑さを抑制するための装置を提供することを目的とする。

　一つの態様では、開示の技術のウェアラブルデバイスは、マイクと、ディスプレイと、を備える。また、ウェアラブルデバイスは、マイクにより収音された音声情報を解析して、取得した音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する制御部を備える。

　一つの側面として、開示の技術は、所定の呼びかけフレーズ以外の音声に起因する表示の煩雑さを抑制するための装置を提供することができる。

第１実施形態に係るデバイスの一例を示す図である。第１実施形態に係るデバイスの機能を例示する機能ブロック図である。人の声を示すアイコンの一例を示す図である。ドアチャイムの音を示すアイコンの一例を示す図である。着信音を示すアイコンの一例を示す図である。サイレンの音を示すアイコンの一例を示す図である。車両のクラクションを示すアイコンの一例を示す図である。雷鳴の音を示すアイコンの一例を示す図である。車両の走行音を示すアイコンの一例を示す図である。注意を要する音を示すアイコンの一例を示す図である。ユーザが登録した音を示すアイコンの一例を示す図である。音声認識部の機能を例示する機能ブロック図である。第１実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。音声字幕化処理の流れの一例を示すフローチャートである。音声認識処理の流れの一例を示すフローチャートである。字幕の表示例を示す図である。状況通知処理の流れの一例を示すフローチャートである。音声種類特定処理の流れの一例を示すフローチャートである。アイコンの表示例を示す図である。アイコンの表示例を示す図である。アイコンの表示例を示す図である。アイコンの表示例を示す図である。アイコンの表示例を示す図である。アイコンの表示例を示す図である。アイコンの表示例を示す図である。音声字幕化処理の流れの一例を示すフローチャートである。字幕の表示例を示す図である。第２実施形態に係るデバイスの一例を示す図である。第２実施形態に係るデバイスの機能を例示する機能ブロック図である。第２実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。音声字幕化処理の流れの一例を示すフローチャートである。状況通知処理の流れの一例を示すフローチャートである。第３実施形態に係るデバイスの一例を示す図である。第３実施形態に係るデバイスの機能を例示する機能ブロック図である。発話処理の流れの一例を示すフローチャートである。第４実施形態に係るデバイスの一例を示す図である。デバイスと情報処理装置との接続形態の一例を示す図である。第４実施形態に係るデバイスの機能を例示する機能ブロック図である。情報処理装置の機能を例示する機能ブロック図である。第４実施形態に係るデバイスをコンピュータで実現する場合の構成の一例を示す図である。情報処理装置をコンピュータで実現する場合の構成の一例を示す図である。

　以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符合を付与し、重複する説明を適宜省略する場合がある。

（第１実施形態）
　図１は、第１実施形態に係るウェアラブルデバイスの一例を示す図である。

　図１に示すように、ウェアラブルデバイス１０は、眼鏡の形状を模した眼鏡型端末であり、処理装置２０、マイク２２、及びプロジェクタ２４を含む。なお、以降では、ウェアラブルデバイス１０を単にデバイス１０と表記する場合がある。

　マイク２２は、例えばデバイス１０の左右両方のテンプル１８の部分に各々内蔵され、デバイス１０の周囲の音声を収音する。マイク２２の各々は、あらゆる方向で発生する音声を収音することができるように、例えば全指向性マイクが用いられる。なお、全指向性マイクは無指向性マイクとも称される場合がある。

　プロジェクタ２４は、例えばデバイス１０のフレームのうち、左右の透明部材（例えばレンズ）１９の上方に位置する部分に各々内蔵され、画像を表示する。具体的には、プロジェクタ２４は赤、緑、青の半導体レーザ及び鏡を含み、光の３原色の半導体レーザの各々から照射されるレーザ光を鏡で反射させ、各々のレーザ光を瞳孔を通じて網膜上で２次元状に走査させることで、画像を表示する。

　なお、プロジェクタ２４で用いられるレーザ光の強度は約１５０ｎＷであり、これは「レーザ製品の放射安全基準」を定めたＪＩＳ(International Organization for Standardization) Ｃ６８０２におけるクラス１の条件を満たす強度である。なお、ＪＩＳＣ６８０２におけるクラス１とは、１００秒間レーザ光を瞬きなしで見続けても網膜に損傷を生じないとの条件を満たす安全基準であり、レーザ光の照射に関して特別な安全対策が不要なレベルとなっている。

　こうした網膜走査型のプロジェクタ２４は、画像の表示に透過型ディスプレイを用いる場合と比較して、目に与える負担が少なく、且つ、より鮮明な画像を表示することができる。ここで透過型ディスプレイとは、例えば透明部材１９に重ねて設けられる透明のディスプレイであり、ディスプレイの向こう側の景色に、ディスプレイの画像を重ね合わせて表示することができる構造を有する。透過型ディスプレイとしては、例えば液晶、又は有機ＥＬ(Electroluminescence)等を用いたものが知られている。

　なお、第１実施形態に係るプロジェクタ２４を網膜走査型として説明したが、プロジェクタ２４は網膜投影型であってもよい。網膜投影型とは、画素毎にレーザ素子を配置し、表示の対象である画像中の画素に対応した各々のレーザ素子から瞳孔を通じて網膜にレーザ光を照射することで、網膜上に画像を投影する方式である。また、プロジェクタ２４の替わりに透過型ディスプレイを用いてもよい。なお、プロジェクタ２４は、ユーザの網膜にレーザを照射して、ユーザの視野上の位置に画像を表示することから、開示の技術のディスプレイにはユーザの網膜も含めることができる。

　一方、処理装置２０は、例えばデバイス１０のテンプル１８に内蔵され、マイク２２による収音処理、及びプロジェクタ２４による表示処理を実行する。なお、図１では処理装置２０がデバイス１０の左側のテンプル１８に内蔵される例を示したが、処理装置２０の配置場所に制限はなく、例えば処理装置２０を分割し、デバイス１０の複数の場所に分散して配置するようにしてもよい。

　図２は、図１に示した第１実施形態に係るデバイス１０の機能を示す機能ブロック図である。

　デバイス１０は、入力部２６、出力部２８、及び制御部３０を含む。

　入力部２６には、複数のマイク２２で収音された音声を表す電気信号が各々入力される。そして、入力部２６は、入力された各々の電気信号を増幅し、デジタルの音声信号へ変換して制御部３０へ出力する。この際、入力部２６は、音声信号を意識的に遅延させることなく制御部３０へ出力する。なお、以降では音声を表すデジタルの音声信号を、単に音声信号と称す。

　制御部３０は、入力部２６を制御して、音声信号のサンプリングタイミングを指示する。また、制御部３０は、例えば音源位置特定部３２及び音声認識部３４を含み、入力部２６から通知される音声信号を用いて、音声の発生方向を特定すると共に、音声信号が表す音声の種類を識別する。更に、制御部３０は、音声の種類が人の声である場合、音声信号からどのような言葉が発せられたかを解析して、発話内容を文字に変換する処理を実行する。そして、制御部３０は、後述する出力部２８を制御して、音声の種類を表す情報を音声の発生方向に表示させる。

　音源位置特定部３２は、複数の音声信号に基づいてデバイス１０を基準とした音声の発生方向を特定する。具体的には、音源位置特定部３２は、デバイス１０に内蔵される２つのマイク２２の各々から入力される音声信号の入力タイミングのずれ、又は音声信号の大きさの差から音の入射方向を算出し、音の発生方向を特定する。なお、ここでは一例として、音源位置特定部３２は、デバイス１０に内蔵される２つのマイク２２の各々から入力される音声信号の入力タイミングのずれから音声の入射方向を算出するものとして説明する。

　また、音源位置特定部３２は、音声信号を音声認識部３４へ出力して、音声の種類及び発話内容の解析を音声認識部３４へ依頼し、音声認識部３４から解析結果を取得する。

　音声認識部３４は、音源位置特定部３２から入力された音声信号を用いて、音声の種類及び発話内容の解析を行う。ここで音声の種類とは、発せられた音声が何の音声かを表す情報であり、例えば人の声、車両の走行音、及びインターフォンの呼び出し音等、具体的な種類を表すものである。

　そして、制御部３０は、プロジェクタ２４の表示領域のうち、音源位置特定部３２で特定した音声の発生方向に対応する位置に、音声認識部３４で識別した音声の種類を示すアイコン及び発話内容の少なくとも一方を表示するよう出力部２８を制御する。

　出力部２８は、プロジェクタ２４を用いて、制御部３０によって指定された位置に指定されたアイコン及び発話内容の少なくとも一方を表示する。

　なお、図３Ａ～図３Ｉに、音声認識部３４で識別する音声の種類を示すアイコン（ピクトグラムともいう）の一例を示す。図３Ａは人の声、図３Ｂはドアチャイムの音、図３Ｃは携帯電話等の着信音、図３Ｄはサイレン、図３Ｅは車両のクラクション、図３Ｆは雷鳴、図３Ｇは車両の走行音を表すアイコンの一例である。また、図３Ｈはユーザの死角から発せられる何らかの注意を要する音声を表すアイコン（アラートマーク）の一例であり、図３Ｉはユーザが事前に登録した音声の種類を表すアイコンの一例である。

　図３Ｉで示すアイコンのように、デバイス１０のユーザ（以降、単に「ユーザ」と称す）は、音声の種類に対して、形、色、及び大きさを自分でカスタマイズしたアイコンを出力部２８に登録することができる。

　なお、出力部２８で表示可能なアイコンは、図３Ａ～図３Ｉに示すアイコンに限定されないことは言うまでもない。出力部２８は、音声認識部３４において識別可能な音声の種類に対応したアイコンを表示することができる。

　また、図３Ｈに示したアイコンはユーザに注意を促すアイコンであることから、特にアラートマークという。アラートマークは、ユーザに注意を促すことができればどのようなデザインであってもよいが、例えば図３Ｈに示すように、三角形の縁を黒で囲い、内部に警告の種別（図３Ｈの例では感嘆符）を示すものが使用される。

　次に、図４を用いて音声認識部３４の動作について説明する。

　図４に示すように、音声認識部３４は、例えば音響分析部４０、認識デコーダ部４２、音響モデル部４４、辞書４６、及び言語モデル部４８を含む。

　音響分析部４０は、例えば予め定めた時間間隔毎に音声信号の周波数分析を行い、周波数成分毎の音声の大きさを示す音響スペクトルの時系列データを取得する。

　認識デコーダ部４２は、音響分析部４０で取得した音響スペクトルの時系列データから、音声信号で表される音声の種類を特定すると共に、音声信号で表される音声の種類が人の声である場合、音声信号から発話内容を認識して文字に変換する機能を有する。その際認識デコーダ部４２は、音響モデル部４４、辞書４６、及び言語モデル部４８と連携して処理を進める。

　音響モデル部４４は、辞書４６に予め登録される音声の様々な種類の音響スペクトルと、音響分析部４０で取得した音響スペクトル（認識対象スペクトル）と、の特徴量を比較して、辞書４６の中から認識対象スペクトルに類似する音響スペクトルを選択する。そして、音響モデル部４４は、選択した音響スペクトルに対応する音声の種類を、認識対象スペクトルで表される音声の種類とする。

　更に、音響モデル部４４は、認識デコーダ部４２の指示に基づいて、認識対象スペクトルの音声の種類が人の声である場合、認識対象スペクトルに対して発話音を割り当てる。具体的には、音響モデル部４４は、辞書４６に予め登録される発話音を表す音響スペクトルの特徴量と、認識対象スペクトルの特徴量と、を比較して、辞書４６の中から認識対象スペクトルと最も類似する発話音の音響スペクトルを選択する。

　一方、言語モデル部４８は、認識デコーダ部４２の指示に基づいて、音響モデル部４４によって得られた認識対象スペクトルに対応する発話音の並びを、違和感のない自然な文章に変換する。例えば辞書４６に予め登録される単語の中から、統計モデルに従って発話音の流れに沿った単語を選択すると共に、単語と単語とのつながり及び単語の位置を判断して自然な文章に変換する。

　なお、音響モデル部４４及び言語モデル部４８に用いられる言語処理モデルに制限はなく、例えば隠れマルコフモデル等の公知の言語処理モデルを適用することができる。

　次に、デバイス１０の各機能部をコンピュータで実現する場合の構成図を図５に示す。

　コンピュータ２００は、ＣＰＵ２０２、メモリ２０４、及び不揮発性の記憶部２０６を含む。ＣＰＵ２０２、メモリ２０４、及び不揮発性の記憶部２０６は、バス２０８を介して互いに接続される。また、コンピュータ２００は、マイク２２及びプロジェクタ２４を備え、マイク２２及びプロジェクタ２４はバス２０８に接続される。また、コンピュータ２００は、記録媒体に対して読み書きするためのＩ／Ｏ２１０を備え、Ｉ／Ｏ２１０もバス２０８に接続される。なお、記憶部２０６はＨＤＤ(Hard Disk Drive)やフラッシュメモリ等によって実現できる。

　記憶部２０６には、コンピュータ２００を図２に示すデバイス１０の各機能部として機能させるための表示制御プログラム２２０が記憶される。記憶部２０６に記憶される表示制御プログラム２２０は、入力プロセス２２２、音源位置特定プロセス２２４、音声認識プロセス２２６、及び出力プロセス２２８を含む。

　ＣＰＵ２０２は、表示制御プログラム２２０を記憶部２０６から読み出してメモリ２０４に展開し、表示制御プログラム２２０が有する各プロセスを実行する。

　ＣＰＵ２０２が、表示制御プログラム２２０を記憶部２０６から読み出してメモリ２０４に展開し、表示制御プログラム２２０を実行することで、コンピュータ２００が図２に示すデバイス１０の各機能部として動作する。具体的には、ＣＰＵ２０２が入力プロセス２２２を実行することで、コンピュータ２００が図２に示す入力部２６として動作する。また、ＣＰＵ２０２が音源位置特定プロセス２２４を実行することで、コンピュータ２００が図２に示す音源位置特定部３２として動作する。また、ＣＰＵ２０２が音声認識プロセス２２６を実行することで、コンピュータ２００が図２に示す音声認識部３４として動作する。また、ＣＰＵ２０２が出力プロセス２２８を実行することで、コンピュータ２００が図２に示す出力部２８として動作する。なお、ＣＰＵ２０２が音源位置特定プロセス２２４及び音声認識プロセス２２６を実行することで、コンピュータ２００が図２に示す制御部３０として動作する。

　また、ＣＰＵ２０２が、辞書格納領域２４０に含まれる辞書データをメモリ２０４に展開することで、コンピュータ２００が図４に示す辞書４６を含む。

　なお、デバイス１０の各機能部は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit)等で実現することも可能である。

　次に、第１実施形態に係るデバイス１０の作用について説明する。第１実施形態に係るデバイス１０は、デバイス１０の起動後に音声字幕化処理を実行する。音声字幕化処理とは、発話者の発話内容を文字に変換（字幕化）し、字幕化された文字を表示するようにプロジェクタ２４から網膜にレーザを照射することで、発話者の発話内容を視野と重ねて表示する処理である。

　図６は、第１実施形態に係るデバイス１０の音声字幕化処理の流れの一例を示すフローチャートである。

　まず、ステップＳ１０において、入力部２６は、字幕化開始指示を受け付けたか否かを判定する。字幕化開始指示は、例えばデバイス１０に設けられた図示しないボタン等が操作されることで指示される。否定判定の場合、すなわち字幕化開始指示を受け付けていない場合には、字幕化開始指示を受け付けるまでステップＳ１０の処理を繰り返す。一方、肯定判定の場合、すなわち字幕化開始指示を受け付けた場合には、ステップＳ２０へ移行する。

　ステップＳ２０において、入力部２６は、左右各々のテンプル１８に内蔵されたマイク２２を通じて、デバイス１０の周囲で発生する音声の収音を行う。そして、入力部２６は、何らかの音声が発生したか否かを判定し、否定判定の場合には、何らかの音声が収音されるまでステップＳ２０の処理を繰り返す。一方、肯定判定の場合には、各々のマイク２２で収音した各々の音声の音声信号を音源位置特定部３２に出力して、ステップＳ３０へ移行する。

　なお、何らかの音声が発生したか否かの判定方法としては、例えば少なくとも一方のマイク２２で収音した音声が予め定めた音声レベル以上である場合に、何らかの音声が発生したと判定する方法等が用いられるが、これに限定されるものではない。

　ステップＳ３０において、音源位置特定部３２は、入力部２６から通知された各々の音声信号の到達時間のずれから、デバイス１０に対する音声の入射角を算出する。例えば、音源位置特定部３２は、マイク２２の各々から入力される音声信号の入力タイミングのずれに対して、デバイス１０の位置を原点とした３次元座標空間における入射角を対応させた入射角算出テーブルを参照して、音の入射角を算出する。なお、音源位置特定部３２は、マイク２２の各々から入力される音声信号の大きさの差に対して、デバイス１０の位置を原点とした３次元座標空間における入射角を対応させた入射角算出テーブルを参照して、音の入射角を算出してもよい。

　なお、音声信号の到達時間のずれの組み合わせ、又は音声信号の大きさの差の組み合わせに対応する入射角は、デバイス１０の実機による実験や、デバイス１０の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、入射角算出テーブルは、例えばメモリ２０４の予め定めた領域に予め記憶される。

　このように、音源位置特定部３２は、音声信号の到達時間のずれから音声の発生方向を特定するため、各々のマイク２２の間隔をできるだけ離した方が、音声の発生方向を精度よく特定することができる。従って、デバイス１０における各々のマイク２２の位置を、デバイス１０の高さ方向、前後方向、及び左右方向の各々の方向にずらして配置することが好ましい。ここで、デバイス１０の高さ方向とは、デバイス１０を頭部に装着した際における上下方向をいい、デバイス１０の前後方向とは、透明部材１９における光の入射面と直交する方向をいう。また、デバイス１０の左右方向とは、デバイス１０の高さ方向及び前後方向とそれぞれ直交する方向をいう。

　そして、音源位置特定部３２は、音声認識部３４に音声信号を通知すると共に、音声認識部３４に音声信号で表される発話内容の字幕化を指示する。

　ステップＳ４０において、音声認識部３４は音声認識処理を実行して、音声信号で表される発話内容を字幕化する。

　図７は、ステップＳ４０の処理で実行される音声認識処理の流れの一例を示すフローチャートである。

　まず、ステップＳ４００において、音響分析部４０は、例えば予め定めた時間間隔毎に音声信号の周波数分析を行い、周波数成分毎の音声の大きさを示す音響スペクトルの時系列データを取得する。

　次に、ステップＳ４０１において、認識デコーダ部４２は、ステップＳ４００の処理で取得した音響スペクトル、すなわち認識対象スペクトルの時系列データを音響モデル部４４に通知する。そして、認識デコーダ部４２は、認識対象スペクトルに対応する音声の種類を特定するよう、音響モデル部４４に指示する。なお、音響モデル部４４における音声の種類の特定方法については後ほど説明する。認識デコーダ部４２は、音響モデル部４４において特定された認識対象スペクトルに対応する音声の種類が人の声か否かを判定し、否定判定の場合には、判定結果を音源位置特定部３２に通知すると共に音声字幕化処理を終了する。一方、肯定判定の場合にはステップＳ４０２へ移行する。

　ステップＳ４０２において、認識デコーダ部４２は、人の声と特定された認識対象スペクトルに発話音を割り当てるよう、音響モデル部４４に指示する。

　音響モデル部４４は、辞書４６に予め登録される発話音を表す音響スペクトルと、認識対象スペクトルと、の特徴量を比較して、辞書４６の中から認識対象スペクトルに最も類似する発話音の音響スペクトルを選択する。こうして、音響モデル部４４は認識対象スペクトルに発話音を割り当て、割り当て結果を認識デコーダ部４２に通知する。

　ステップＳ４０４において、音響モデル部４４から発話音の割り当て結果が通知されると、認識デコーダ部４２は、発話音の割り当て結果を言語モデル部４８に通知する。そして、認識デコーダ部４２は、発話音の割り当て結果を、違和感のない自然な文章に変換するよう、言語モデル部４８に指示する。

　言語モデル部４８は、例えば辞書４６に予め登録される単語の中から、統計モデルに従って発話音の流れに沿った単語を選択すると共に、単語と単語とのつながり及び単語の位置を確率的に判断して自然な文章に変換する。こうして、言語モデル部４８は、認識対象スペクトルに対応する発話音の並びを違和感のない自然な文章に変換し、変換結果を認識デコーダ部４２に通知する。

　ステップＳ４０６において、認識デコーダ部４２は、ステップＳ４０４の処理で字幕化された発話者の発話内容を、音源位置特定部３２に通知する。また、認識デコーダ部４２は、音声信号で表される音声の種類は人の声であるとの判定結果を音源位置特定部３２に通知する

　以上、ステップＳ４００～Ｓ４０６の各処理によって、図６に示すステップＳ４０における音声認識処理が実行される。

　そして、図６に示すステップＳ４１において、音源位置特定部３２は、ステップＳ４０の音声認識処理で特定された音声の種類が人の声か否かを判定し、肯定判定の場合にはステップＳ５０へ移行する。一方、否定判定の場合には、音声の種類が人の声でないことから、以下に説明するステップＳ５０の処理を行わずにステップＳ６０へ移行する。

　ステップＳ５０において、音源位置特定部３２は、マイク２２で収音した音声の種類が人の声であることから、ステップＳ３０の処理で特定した音声の発生方向に、ステップＳ４０の処理で取得した、字幕化された発話内容を表示するように出力部２８に指示する。

　出力部２８は、音源位置特定部３２から表示指示を受け付けると、プロジェクタ２４を用いて、視野内の音声の発生方向に対応する位置に、字幕化された発話内容を表示する。

　そして、ステップＳ６０において、入力部２６は、字幕化終了指示を受け付けたか否かを判定する。字幕化終了指示は、例えば字幕化開始指示と同様に、デバイス１０に設けられた図示しないボタン等が操作されることで指示される。否定判定の場合にはステップＳ２０へ移行し、引き続きステップＳ２０～Ｓ６０の処理を繰り返すことで音声字幕化処理を継続する。一方、肯定判定の場合には、図６に示す音声字幕化処理を終了する。

　このようにして、デバイス１０は、マイク２２で収音した音声に人の声が含まれる場合に、音声に対応した字幕の表示を行う。

　なお、出力部２８では、表示してから所定時間経過した字幕を消す、又は新しい字幕を表示するタイミングで以前表示した字幕を消去する等の処理を行うことで、字幕の表示を更新する。

　図８は、図６に示す音声字幕化処理を実行した際に、ユーザの視野に表示される字幕の例を示した図である。

　図８に示すように、ユーザの視野には、透明部材１９を通して見える景色にプロジェクタ２４から照射される字幕が重ねられた画像が表示される。この際、字幕は音声の発生方向に表示されるため、聴覚障がい者であっても誰がどのような発話をしたか理解することができる。

　なお、図８に示すように、字幕を吹き出しの内部に表示するようにしてもよい。この場合、単に字幕だけを音声の発生方向に対応する位置に表示する場合と比較して、誰の発話であるか把握しやすくすることができる。

　また、音声認識部３４で、発話者の音響スペクトルの特徴を記憶し、記憶した音響スペクトルと、認識対象スペクトルと、を比較することで発話者を特定し、発話者毎に字幕の色を変えて表示してもよい。また、男性の声と女性の声とでは、声に含まれる周波数成分が異なることを利用して発話者の性別を判定し、例えば男性の声と判定される場合には黒の字幕、女性の声と判定される場合には赤の字幕というように、字幕の色を変えて表示してもよい。

　また、音声認識部３４で、認識対象スペクトルから音声の大きさを算出し、音声の大きさに応じて字幕の文字の大きさを変えるようにしてもよい。例えば、音声の大きさが大きくなるに従って、当該音声に対応する字幕の文字の大きさを大きくすることで、ユーザは視覚的に音声の大きさを把握することができる。

　また、図６のステップＳ１０及びステップＳ６０の処理で説明したように、ユーザは自身の判断により、音声字幕化処理の開始及び終了をデバイス１０に指示することができる。従って、会議中は音声字幕化処理を開始させ、作業に集中したい時は音声字幕化処理を終了させる等、ユーザの状況に応じて音声字幕化処理の動作を切り替えることができ、不必要な発話が字幕としてユーザの視野に表示される煩わしさを軽減することができる。

　更に、デバイス１０の音声字幕化処理はユーザ周辺にいる他者の発話内容だけでなく、ユーザ自身の発話内容も字幕化できることができる。この場合、ユーザの音響スペクトルを予め辞書４６に登録しておき、音声認識部３４で認識対象スペクトルとユーザの音響スペクトルとの類似度を判定することで、発話者がユーザか否か判定することができる。

　ユーザの発話内容を表す字幕は、他者の発話内容を表す字幕と異なり、例えば図８に示すように、視野の下部に設けられた領域８１に表示される。聴覚障がい者は自身の発声を確認し難いため、聴覚障がい者によって発せられる言葉のイントネーションや発音が健常者の発声と異なる場合あり、意図する内容が相手に伝わらない可能性が考えられる。

　しかし、デバイス１０ではユーザが発した言葉を字幕化して領域８１に表示することができるため、ユーザが発した言葉が相手にどのように聞こえているか目で確認することができる。従って、ユーザは、より正しい発音に近づけるようにトレーニングすることができる。また、ユーザの発話内容を表す字幕は、他者の発話内容を表す字幕と異なる位置に表示されるため、自身が発した発話内容が確認しやすくなる。

　なお、ユーザは、例えば自身が発した発話内容の確認が不要な場合には、デバイス１０の設定により、ユーザの発話内容を表す字幕を領域８１に表示しないようにすることができる。ユーザの発話内容を表す字幕を表示しないことで、ユーザの視野に表示される字幕の数を抑制することができる。

　更に、第１実施形態に係るデバイス１０は、デバイス１０の起動後に状況通知処理を実行する。状況通知処理とは、ユーザの周囲で発生する音声の種類及び発生方向をユーザに通知する処理である。なお、ユーザの周囲で発生する音声は、ユーザに何らかの状況を通知する情報であることから、ユーザに対する「呼びかけ」と捉えることができる。

　図９は、第１実施形態に係るデバイス１０の状況通知処理の流れの一例を示すフローチャートである。

　ステップＳ２０及びステップＳ３０では、図６に示す音声字幕化処理におけるステップＳ２０及びステップＳ３０の処理と同様の処理を行う。ただし、状況通知処理の場合、ステップＳ３０において、音源位置特定部３２は音声認識部３４に音声信号で表される発話内容の字幕化を指示する替わりに、音声信号で表される音声の種類の特定を指示する。

　ステップＳ４２において、音声認識部３４は音声種類特定処理を実行して、音声信号で表される音声の種類を特定する。

　図１０は、ステップＳ４２の処理で実行される音声種類特定処理の流れの一例を示すフローチャートである。

　まず、ステップＳ４００では、図７に示すステップＳ４００の処理と同様の処理を行い、認識対象スペクトルの時系列データを取得する。

　次に、ステップＳ４０８において、認識デコーダ部４２は、ステップＳ４００の処理で取得した認識対象スペクトルの時系列データを音響モデル部４４に通知する。そして、認識デコーダ部４２は、認識対象スペクトルに対応する音声の種類を特定するよう、音響モデル部４４に指示する。

　音響モデル部４４は、辞書４６に予め登録される音声の様々な種類の音響スペクトルと、認識対象スペクトルと、の特徴量を比較して、辞書４６の中から認識対象スペクトルに類似する音響スペクトルを選択する。そして、音響モデル部４４は、選択した音響スペクトルに対応する音声の種類を、認識対象スペクトルで表される音声の種類として特定し、特定結果を認識デコーダ部４２に通知する。音響スペクトルの特徴量と認識対象スペクトルの特徴量の類似度は、例えば両者の特徴量が類似するに従って値が大きくなる数値で表され、例えば当該数値が予め定めた閾値以上の場合に、両者の特徴量が類似すると判定される。

　なお、認識対象スペクトルの特徴量が、辞書４６に予め登録される何れの音声の音響スペクトルの特徴量とも類似しない場合には、音響モデル部４４は、認識対象スペクトルに対応する音声の種類が特定できないとした特定結果を認識デコーダ部４２に通知する。

　そして、認識デコーダ部４２は、音響モデル部４４から通知された特定結果を音源位置特定部３２に通知する。

　以上、ステップＳ４００及びステップＳ４０８の各処理によって、図９に示すステップＳ４２における音声種類特定処理が実行される。

　そして、図９に示すステップＳ４３において、音源位置特定部３２は、ステップＳ４２の音声種類特定処理で特定された音声の種類の特定結果を参照し、マイク２２で収音した音声の種類が特定されたか否かを判定する。肯定判定の場合にはステップＳ５２へ移行し、否定判定の場合には、以下に説明するステップＳ５２の処理を行わずにステップＳ６２へ移行する。

　ステップＳ５２において、音源位置特定部３２は、ステップＳ３０の処理で特定した音声の発生方向に、ステップＳ４２の処理で特定した音声の種類を示すアイコンを表示するように出力部２８に指示する。

　出力部２８は、音源位置特定部３２から表示指示を受け付けると、指定された音声の種類に対応するアイコンを、例えばメモリ２０４の予め定めた領域から取得する。そして、出力部２８は、プロジェクタ２４を用いて視野内の音声の発生方向に対応する位置に、アイコンを表示する。

　そして、ステップＳ６２において、入力部２６は、デバイス１０の電源がオフされたか否かを判定する。電源のオンオフ状態は、例えばデバイス１０に設けられた図示しないボタン等の状態によって取得することができる。否定判定の場合にはステップＳ２０へ移行し、引き続きステップＳ２０～Ｓ６２の処理を繰り返すことで状況通知処理を継続する。一方、肯定判定の場合には、図９に示す状況通知処理を終了する。

　なお、出力部２８では、表示してから所定時間経過したアイコンを消す、又は新しいアイコンを表示するタイミングで以前表示したアイコンを消去する等の処理を行うことで、アイコンの表示を更新する。

　図１１は、図９に示す状況通知処理を実行した際の、ユーザの視野に表示されるアイコンの例を示した図である。なお、図１１では説明の便宜上、一例としてユーザの視野の範囲を楕円形で示している。

　例えば、図１１に示すように、視野上方を「前」、視野下方を「後」、視野右方を「右」、及び視野左方を「左」に割り当てた際、ユーザの右後方から車両の走行音が聞こえる場合には、出力部２８は視野の右下に車両の走行音を表すアイコン７０を表示する。これにより、ユーザは例えば左側によける等の行動をとることができる。

　しかしながら、ユーザの視野の外から音声がする場合、まず音声の発生方向をユーザに通知した方が、音声の種類を特定し、音声の発生方向に音声の種類に対応するアイコンを表示する場合に比べて、より早くユーザに注意喚起を促すことができる場合がある。

　従って、図９に示す状況通知処理において、ステップＳ３０の処理で音声の発生方向が、後、右後、又は左後の何れかである場合に、ステップＳ４２及びＳ４３の処理を省略し、ステップＳ５２において音声の発生方向に注意喚起を促すマークを表示してもよい。

　図１２は、音声の発生方向が例えば後である場合に、ユーザに注意喚起を促すマークとして図３Ｈに示したアイコン７１を表示する例を示す図である。

　なお、図１１における音声の発生方向を表す「前」、「後」、「右」、及び「左」の各文字は、視野に重ねて表示するようにしてもよい。

　また、前後左右の方向を図１１のように割り当てた際に、例えば何らかの音声がユーザの上から聞こえる場合には、アイコンの色を、音声の発生源がユーザの上下方向に位置することを表す色に変更した上で、視野に重ねて表示する。ここでは一例として、音声の発生源がユーザの上下方向に位置することを表す色を緑として説明するが、音声の発生源がユーザの上下方向に位置することを表す色として認識できる色であればよく、緑に限定されないことは言うまでもない。

　図１３は、例えば立体交差等で車両の走行音がユーザの上方から聞こえる際のアイコンの表示例を示した図である。この場合、図１３に示すように、図３Ｇで示される緑のアイコン７２を視野の中央部に表示することで、上方から車両の走行音が聞こえることをユーザに通知する。仮に、車両の走行音がユーザの左前上方から聞こえる場合には、図３Ｇで示される緑のアイコン７２が視野の左上に表示される。

　また、車両の走行音がユーザの下方からする場合には、図１３に示すように、アイコン７２を視野の中央部に表示した上で、アイコン７２の明度、色相、及び彩度の少なくとも１つを変えることで、音声の発生源がユーザの下方にあることを表すようにすればよい。具体的には、音声の発生源がユーザの下方にある場合には、例えばアイコン７２の明度、色相、及び彩度の少なくとも１つを、音声の発生源がユーザの上方にある場合と相違させる。

　また、ユーザの指示により、図１３における方向の割り当てを変更するようにしてもよい。図１４は視野上方を「上」、視野下方を「下」、視野右方を「右」、及び視野左方を「左」に割り当てた際のアイコンの表示例を示す図である。図１４に示す方向の割り当てにおいて、車両の走行音がユーザの上方から聞こえる場合には、出力部２８は視野の上方に図３Ｇで示すアイコン７４を表示する。

　なお、音声の発生方向を図１４のように割り当てた際、何らかの音声がユーザの前又は後から聞こえる場合には、対応するアイコンを視野の中央部に重ねて表示する。そして、音声の発生源がユーザの前にあるのか後ろにあるのかに応じて、アイコンの明度、色相、及び彩度の少なくとも１つを変化させる。

　また、音声認識部３４で、認識対象スペクトルから音声の音量を算出し、音声の音量に応じてアイコンの表示サイズを変更するようにしてもよい。例えば、音声の音量が大きくなるに従って、前記音声の種類に対応するアイコンの表示サイズを大きくすることで、ユーザはアイコンに対応する音声の種類が発する音声の音量を視覚的に把握することができる。

　図１５は、音声の音量に応じてアイコンの表示サイズを変化させる例について説明する図である。

　図１１及び図１５は共にユーザの右後方から車両の走行音が聞こえることを表している。しかし、図１５に示す状況通知の場合、図１５に示すアイコン７６の表示サイズが図１１に示すアイコン７０の表示サイズより大きいことから、図１１に示す状況よりもユーザに車両が接近していることをユーザに通知することができる。

　以上の説明では、音声の種類が同じであれば音声の発生方向の相違に関わらず同じアイコンを表示する例を示したが、音声の発生方向毎にアイコンを変えて表示するようにしてもよい。

　例えば、音声の種類が車両の走行音である場合を例に説明すると、音源位置特定部３２から車両の走行音が前方から聞こえると通知された場合、出力部２８は、図３Ｇの替わりに図１６Ａに示すような、車両を前方から見たアイコン６０を表示する。一方、音源位置特定部３２から車両の走行音が後方から聞こえると通知された場合、出力部２８は、図１６Ｂに示すような、車両を後方から見たアイコン６２を表示する。

　また、出力部２８は、音声の発生方向に応じて、アイコンの色を変えて表示するようにしてもよい。

　例えば、音声の種類が車両の走行音である場合を例に説明すると、音源位置特定部３２から車両の走行音が前方から聞こえると通知された場合、出力部２８は、図３Ｇに示すアイコンの色を例えば黄にして表示する。一方、音源位置特定部３２から車両の走行音が後方から聞こえると通知された場合、出力部２８は、図３Ｇに示すアイコンの色を例えば青にして表示する。

　このように、音声の種類が同じであっても、音声の発生方向に応じて異なるアイコンを表示する、又は、アイコンの色を変更して表示することで、ユーザに音声の発生方向をより正確に通知することができる。

　また、状況通知処理は、図６に示した音声字幕化処理と異なり、デバイス１０の起動に伴って実行される。従って、例えば不意に呼びかけられた場合であっても、ユーザへの通知が可能である。また、音声認識部３４において音声の種類を人の声と認識した場合に、音声字幕化処理を開始させる等の連携処理を行ってもよい。

　なお、状況通知処理では、デバイス１０がユーザ自身の声を人の声と認識し、例えば、図３Ａに示すアイコンを表示しないように設定することができる。ユーザ自身の声に対して状況通知処理を行わないように設定することで、ユーザは他者からの呼びかけに気づきやすくなる。

　また、ユーザはデバイス１０に登録される音声の種類の中から、表示対象の音声の種類を予めデバイス１０に設定しておき、マイク２２で収音した音声の種類が表示対象の場合に、出力部２８は音声の種類に対応したアイコンを表示するようにしてもよい。この場合、ユーザが表示対象に設定していない音声の種類に対応したアイコンは表示されないため、ユーザが表示を望まないアイコンがユーザの視野に表示される煩わしさを軽減することができる。

　また、アイコンの表示を抑制する他の形態として、音声の種類が人の声であっても、ユーザへの呼びかけでなければ図３Ａに示すアイコンを表示しないようにしてもよい。具体的には、ユーザの名前、ニックネーム、及び「すみません」等のユーザを呼びかける特定のフレーズの音響スペクトルを辞書４６に予め登録しておく。そして、音響モデル部４４において、認識対象スペクトルで表される音声の種類が人の声であると特定された場合、音響モデル部４４は、更に認識対象スペクトルにユーザを呼びかける音声の音響スペクトルが含まれるか判定する。そして、音響モデル部４４は、判定結果を音源位置特定部３２へ通知し、音源位置特定部３２は、認識対象スペクトルにユーザを呼びかける音声の音響スペクトルが含まれる場合、図３Ａに示すアイコンを表示するように出力部２８へ指示する。

　または、音響モデル部４４で認識対象スペクトルに発話音を割り当て、言語モデル部４８で認識対象スペクトルに対応する発話音を文章に変換する。そして、言語モデル部４８は変換した文章に対して形態素解析を実行し、マイク２２で収音した音声の中にユーザへの呼びかけが含まれるか否かを判定するようにしてもよい。なお、形態素解析とは、文章を意味のある単語に区切り、文章の構成を解析する方法である。

　従って、認識対象スペクトルにユーザを呼びかける音声の音響スペクトルが含まれない場合には、ユーザの周囲で人の声が発せられても、図３Ａに示すアイコンの表示が抑制される。

　更に、状況通知処理では、ユーザに音声の種類を通知する方法としてアイコンを利用したが、アイコンの替わりに文字を表示する形態、又はアイコンと文字を併用して表示する形態としてもよい。また、辞書４６に特定の人物の声紋を登録しておき、音響モデル部４４は、ユーザを呼びかける音声の音響スペクトルが、辞書４６に登録される特定の人物の声紋の音響スペクトルと類似するか否かを判定する。そして、音響モデル部４４は、判定結果を音源位置特定部３２へ通知し、音源位置特定部３２は、認識対象スペクトルで表される音声が辞書４６に登録される特定の人物のものである場合に、図３Ａに示すアイコンを表示するように出力部２８へ指示してもよい。

　このように、聴覚障がい者が第１実施形態に係るデバイス１０に搭載された音声字幕化処理を実行することで、手話通訳を介した会話や筆談に比べて、より短い時間に、且つ、正確に、発話者の発話内容を把握することができる。従って、周囲の人と気軽にコミュニケーションをとることができる。

　また、第１実施形態に係るデバイス１０に搭載された状況通知処理を実行することで、周囲で聞こえる音声を視覚化することができる。従って、デバイス１０を利用する聴覚障がい者は、生活の中で発生する様々な音声にいち早く気づくことが可能となり、素早い状況判断を行うことができる。

　更に、第１実施形態に係るデバイス１０は、マイク２２で収音した音声にユーザが予め定めた所定の音声が含まれる場合に、音声に対応したアイコン又は文字の表示を行う。従って、デバイス１０を利用する聴覚障がい者は、所定の音声以外に起因する表示の煩雑さを抑制することができる。

　なお、辞書４６に複数の国の言語の発話音に対する音響スペクトル及び単語を登録すると共に、言語モデル部４８に複数の国の言語に関する言語処理モデルを備えることで、外国人の発話内容も認識することができる。この際、外国人の発話内容をユーザの母国語に翻訳してから表示するようにしてもよい。

（第１実施形態の変形例）
　第１実施形態では、デバイス１０の音声字幕化処理及び状況通知処理により、字幕及びアイコン等を用いた音声に対応する情報の表示態様について説明したが、本変形例では、更に音声に対応する情報の表示順を表す例について説明する。

　図１７は、デバイス１０の音声字幕化処理において、字幕の表示順を表す処理を追加したフローチャートの一例である。

　図１７に示す音声字幕化処理のフローチャートにおいて、図６に示す音声字幕化処理のフローチャートとの相違点は、ステップＳ２２～Ｓ２８、及びステップＳ５４の各処理が追加された点である。

　ステップＳ５４において、音源位置特定部３２は、ステップＳ５０の処理で出力部２８に表示を指示した字幕に対してタイマを起動する。この際、音源位置特定部３２は、所定時間経過後に例えば音源位置特定部３２に通知がくるようにタイマを設定した上で、字幕毎にタイマを起動する。なお、タイマは例えばＣＰＵ２０２に内蔵されるタイマ機能を利用することができる。

　そして、ステップＳ２０の判定処理で音声入力がないと判定された、所謂音声待ち状態において、音源位置特定部３２はステップＳ２２～Ｓ２８の処理を実行する。

　まず、ステップＳ２２において、音源位置特定部３２は、出力部２８に表示を指示した字幕があるか否かを判定し、否定判定の場合にはステップＳ２０へ移行する。また、肯定判定の場合にはステップＳ２４へ移行する。

　ステップＳ２４において、音源位置特定部３２は、表示を指示した各々の字幕に対して、字幕の輝度を所定値下げて表示するように、出力部２８に指示する。

　更に、ステップＳ２６において、音源位置特定部３２は、ステップＳ５４の処理で起動した各々のタイマのうち、所定時間経過を通知するタイマがあるか否かを判定する。そして、否定判定の場合にはステップＳ２０へ移行し、肯定判定の場合にはステップＳ２８へ移行する。

　ステップＳ２８において、音源位置特定部３２は、ステップＳ２６の処理で所定時間経過を通知するタイマに対応した字幕を消去するように、出力部２８に指示する。

　図１８は、図１７に示す音声字幕化処理を実行した際に、ユーザの視野に表示される字幕の例を示した図である。

　図１８では、「聴覚障がい者用のウェアラブルデバイスって知ってる？」の字幕の輝度が「聞いたことある」の字幕の輝度より低く表示される例を示している。このように、図１７に示す音声字幕化処理においてステップＳ２４の処理が繰り返し実行されることで、発話時期が古い字幕ほど字幕の輝度が低く表示されるため、ユーザは字幕の表示順を把握することができる。

　なお、字幕の表示順を表す方法として字幕の輝度を変化させる以外に、例えば字幕のぼかしの度合いを変化させるようにしてもよい。具体的には、例えば発話時期が古い字幕ほど字幕のぼかし度合いを高め、字幕の鮮鋭度を低下させるようにしてもよい。また、字幕に字幕の表示順を表す番号を表示してもよい。

　こうした音声に対応する情報の表示順を表す処理は、表示順を表す対象を字幕からアイコンに置き換えることで、図９に示す状況通知処理にも適用することができる。

　例えば、ステップＳ５２の処理の後、アイコン毎にタイマを起動する。そして、ステップＳ２０の処理で否定判定となった場合の音声待ち状態において、表示中の各アイコンに対して図１７に示すステップＳ２２～Ｓ２８の各処理を実施することで、アイコンの表示順に応じてアイコンの輝度を変化させることができる。

　このように、本変形例に係るデバイス１０は、字幕及びアイコンの視認性を変化させることで、音声に対応する情報のうち、どの情報が最近表示された情報かをユーザに通知することができる。従って、ユーザは会話の流れや周囲の状況変化の流れを理解することができる。また、所定時間経過した字幕及びアイコンは消去されるため、視野に表示される字幕及びアイコンの数が制限されて状況が把握しやすくなる。

（第２実施形態）
　第１実施形態では、各々のマイク２２から得られる音声信号の到達時間のずれから音声の入射角を算出し、音声の発生方向を特定するデバイス１０について説明した。第２実施形態では、更にユーザの視線の方向を検知し、視線の方向と、特定した音声の発生方向と、を組み合わせることによって、字幕及びアイコンの表示位置を補正するデバイスについて説明する。

　図１９は、第２実施形態に係るウェアラブルデバイスの一例を示す図である。

　図１９に示すように、ウェアラブルデバイス１２（以降、デバイス１２と称す）は、第１実施形態に係るデバイス１０の左右２箇所のパッドクリングス部に、更に眼電位センサ２１を各々内蔵した眼鏡型端末である。すなわち、デバイス１２は眼電位センサ２１を内蔵する点以外は、デバイス１０と同じ構造を有する。

　人間の眼球は、角膜が正、網膜が負に帯電しているため、眼球を動かすと眼球周辺における皮膚の電位が変化する。眼電位センサ２１は、パッドクリングス部周辺の皮膚に生じる電位差から、デバイス１２を装着した際のユーザの眼球運動を計測し、ユーザの視線の方向を検知するセンサである。

　なお、第２実施形態では、眼球運動の計測法として眼電位センサ２１を用いる例を示したが、これは装置構成が比較的単純であるため低価格であり、メンテナンスも比較的容易であるためである。しかし、眼球運動の計測法は眼電位センサ２１による方法に限定されない。例えばサーチコイル法、強膜反射法、角膜反射法、Video-oculography法等、眼球運動に関する公知の計測法を用いることができる。

　また、デバイス１２は２つの眼電位センサ２１を内蔵しているが、眼電位センサ２１の数に制限はない。また、眼球周辺に発生する電位差を計測できる位置であれば、眼電位センサ２１の設置場所にも制限はない。例えば右の透明部材１９と左の透明部材１９とをつなぐ眉間部に眼電位センサ２１を設けてもよく、透明部材１９を取り囲むフレームに、眼電位センサ２１を設けてもよい。

　図２０は、図１９に示したデバイス１２の機能を示す機能ブロック図である。図１９に示すデバイス１２の機能ブロック図において、図２に示した第１実施形態に係るデバイス１０の機能ブロック図との相違点は、視線検知部３６が追加された点である。

　視線検知部３６は、眼電位センサ２１で取得した電位差の情報から、ユーザの視線がどちらの方向に向いているかを検知して、音源位置特定部３２に通知する。

　次に、デバイス１２の各機能部をコンピュータで実現する場合の構成図を図２１に示す。

　図２１に示すコンピュータ２００Ａの構成図において、図５に示した第１実施形態に係るコンピュータ２００の構成図との相違点は、表示制御プログラム２２０Ａに視線検知プロセス２３０が追加された点と、バス２０８に眼電位センサ２１が接続された点である。

　ＣＰＵ２０２が、表示制御プログラム２２０Ａを記憶部２０６から読み出してメモリ２０４に展開し、表示制御プログラム２２０Ａを実行することで、コンピュータ２００Ａが図２０に示すデバイス１２の各機能部として動作する。そして、ＣＰＵ２０２が視線検知プロセス２３０を実行することで、コンピュータ２００Ａが図２０に示す視線検知部３６として動作する。

　なお、デバイス１２の各機能部は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

　次に、第２実施形態に係るデバイス１２の作用について説明する。第２実施形態に係るデバイス１２は、デバイス１２の起動後に音声字幕化処理を実行する。

　図２２は、デバイス１２の音声字幕化処理の流れの一例を示すフローチャートである。図２２に示すフローチャートにおいて、図６に示した第１実施形態に係る音声字幕化処理のフローチャートとの相違点は、ステップＳ４４が追加され、ステップＳ５０をステップＳ５６の処理で置き換えた点である。

　ステップＳ４４において、視線検知部３６は、眼電位センサ２１で取得した電位差の情報から、ユーザの視線が向いている方向を検知する。具体的には、視線検知部３６は、各々の眼電位センサ２１から得られる電位差の組み合わせに対して、デバイス１２の位置を原点とした３次元座標空間における視線の角度を対応させた視線算出テーブルを参照して、ユーザの視線の方向を算出する。

　なお、電位差の組み合わせに対応する視線の角度は、デバイス１２の実機による実験や、デバイス１２の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、視線算出テーブルは、例えばメモリ２０４の予め定めた領域に予め記憶される。

　そして、視線検知部３６は、算出した視線の方向を音源位置特定部３２に通知する。

　ステップＳ５６において、音源位置特定部３２は、図６に示したステップＳ５０の処理と同じく、ステップＳ３０の処理で特定した音声の発生方向から、ステップＳ４０の処理で取得した字幕の表示位置を仮決定する。そして、音源位置特定部３２は、ステップＳ４４の処理で検知したユーザの視線の方向によって、仮決定した字幕の表示位置を補正する。

　例えば、音声の発生方向がユーザの正面から見て右方向であり、且つ、ユーザの視線もユーザの正面から見て右方向である場合、ユーザの視線がユーザの正面方向にある場合に比べて、視野の中央部から近い位置に字幕を表示する。

　ユーザの視野の中心はユーザの視線の方向によって変化する。このため、音声信号の到達時間のずれから特定した音声の発生方向に対応する位置に字幕を表示するだけでは、字幕の表示位置と音声の発生方向との間のずれがユーザに知覚されてしまう場合があるためである。

　このようにデバイス１２は、第１実施形態に係るデバイス１０に比べて、字幕に対応した発話が何れの発話者から発せられたかを、ユーザの視野内に精度よく表示することができる。

　なお、第１実施形態では、ステップＳ１０における字幕化開始指示の有無、及びステップＳ６０における字幕化終了指示の有無を、例えばデバイス１０に設けられた図示しないボタン等が操作されたかに基づいて判定した。

　しかし、デバイス１２には眼電位センサ２１が備えられているため、例えば、連続してまばたきを３回する等の特定のアイサインによって、音声字幕化処理の開始及び終了を切り替えるようにしてもよい。この場合、手で音声字幕化処理の開始及び停止を切り替える操作をするよりも操作性が向上する。

　一方、デバイス１２は、デバイス１２の起動後に状況通知処理を実行する。

　図２３は、デバイス１２の状況通知処理の流れの一例を示すフローチャートである。図２３に示すフローチャートにおいて、図９に示した第１実施形態に係る状況通知処理のフローチャートとの相違点は、ステップＳ４４が追加され、ステップＳ５２をステップＳ５８の処理で置き換えた点である。

　ステップＳ４４では、図２２で説明した音声字幕化処理におけるステップＳ４４と同様の処理によって、ユーザの視線の方向を検知する。

　ステップＳ５８では、表示位置の補正対象を字幕からアイコンに置き換えた上で、図２２で説明した音声字幕化処理におけるステップＳ５６の処理を行うことにより、ステップＳ４４の処理で検知したユーザの視線の方向によって、アイコンの表示位置を補正する。

　このようにデバイス１２は、ユーザの視線の方向を考慮して、音声の発生源の位置をユーザの視野内に精度よく表示することができる。

　なお、第１実施形態に係るデバイス１０において示唆した内容は、第２実施形態に係るデバイス１２にも適用できることは言うまでもない。

（第３実施形態）
　聴覚障がい者は口頭で自分の意思を伝える場合もあるが、既に述べたように、聴覚障がい者は自身の発声を確認し難いため、正しい発音を習得することが困難な場合が多く、意図する内容が相手に伝わらない可能性が考えられる。こうした傾向は、とりわけ先天的な聴覚障がい者や幼児期に聴力が低下した人に多く見られる。

　そこで、第３実施形態では、ユーザが作成した文章を音声に変換して周囲の人に出力する、所謂発話機能を備えたデバイスについて説明する。

　図２４は、第３実施形態に係るウェアラブルデバイスの一例を示す図である。

　図２４に示すように、ウェアラブルデバイス１４（以降、デバイス１４と称す）は、第２実施形態に係るデバイス１２のテンプル１８に、更にスピーカ２３を内蔵した眼鏡型端末である。図２４に示すデバイス１４には左右のテンプル１８にスピーカ２３が各々内蔵されているが、これは一例であり、デバイス１４に内蔵されるスピーカ２３の位置及び数に制限はない。

　図２５は、図２４に示したデバイス１４の機能を示す機能ブロック図である。図２５に示すデバイス１４の機能ブロック図において、図２０に示した第２実施形態に係るデバイス１２の機能ブロック図との相違点は、出力部２８にスピーカ２３が接続される点と、出力部２８と視線検知部３６とが直接接続される点である。

　視線検知部３６は、例えばユーザから特定のアイサインによって発話機能の開始指示を受け付けると、ユーザの視野内に、例えばアルファベット等の文字が１つずつ異なる位置に並んだ文字盤を表示するように出力部２８へ指示する。そして、視線検知部３６は、眼電位センサ２１で計測される電位差からユーザが文字盤のどの文字を見ているかを検知して、ユーザが選択した文字を特定する。そして、視線検知部３６は、ユーザが指定したタイミングでユーザが選択した文字の並びによって表される文章を出力部２８に通知する。

　出力部２８は、視線検知部３６から通知された文章を、前記文章を読み上げる音声に変換して、前記文章を読み上げる音声をスピーカ２３から出力する。

　なお、デバイス１４の各機能部をコンピュータで実現する場合の構成は、図２１に示すデバイス１２の各機能部をコンピュータで実現する場合の構成図におけるバス２０８に、更にスピーカ２３を接続した形態となる。

　次に、第３実施形態に係るデバイス１４の作用について説明する。第３実施形態に係るデバイス１４は、デバイス１４の起動後に発話処理を実行する。

　図２６は、デバイス１４の発話処理の流れの一例を示すフローチャートである。

　まず、ステップＳ１００において、視線検知部３６は、眼電位センサ２１からユーザの眼球周辺における電位差の変化を取得する。そして、視線検知部３６は、取得した電位差の変化状況が、発話開始指示として予め定めた所定のアイサインによって発生する電位差の変化と一致するか比較することで、ユーザから発話開始指示が通知されたか否かを判定する。そして、否定判定の場合にはステップＳ１００の処理を繰り返し実行して、ユーザからの発話開始指示を待つ。一方、肯定判定の場合には、視線検知部３６は出力部２８に文字盤の表示を指示し、ステップＳ１１０へ移行する。

　なお、発話開始指示のアイサインに対応する電位差の変化に関する情報は、例えばメモリ２０４の予め定めた領域に予め記憶しておけばよい。

　ステップＳ１１０において、出力部２８は、視線検知部３６から文字盤表示の指示を受けると、プロジェクタ２４を用いてユーザの視野内に文字盤を表示する。文字盤には、例えば文字、英数字、及び記号等が表示され、出力部２８は、視線検知部３６から文字盤の表示内容を切り替える指示を受け付けることにより、文字盤の表示内容を切り替える。なお、ユーザは文字盤に最初に表示される文字の種類を予め設定することが可能であり、例えば英語を使用するユーザは英語で用いられる文字を、日本語を使用するユーザは日本語で用いられる文字を、文字盤に表示することができる。

　ステップＳ１２０において、視線検知部３６は、眼電位センサ２１で計測される電位差からユーザが文字盤上のどの文字を見ているかを検知して、ユーザが選択した文字を特定する。具体的には、例えば視線検知部３６は、眼電位センサ２１で計測される電位差と、当該電位差が生じる場合の視線の先にある文字盤上の文字と、を予め対応づける文字変換テーブルを参照して、ユーザが選択した文字を特定する。

　なお、眼電位センサ２１によって計測される電位差と、当該電位差が生じる場合の視線の先にある文字盤上の文字と、の対応関係は、デバイス１４の実機による実験や、デバイス１４の設計仕様に基づくコンピュータシミュレーション等により予め求められる。そして、文字変換テーブルは、例えばメモリ２０４の予め定めた領域に予め記憶される。

　次にステップＳ１３０において、視線検知部３６は、ステップＳ１２０の処理で特定したユーザが選択した文字を、例えばメモリ２０４の予め定めた領域に記憶する。

　ステップＳ１４０において、視線検知部３６は、眼電位センサ２１からユーザの眼球周辺における電位差の変化を取得する。そして、視線検知部３６は、取得した電位差の変化状況が、発話終了指示として予め定めた所定のアイサインによって発生する電位差の変化と一致するか比較することで、ユーザから発話終了指示が通知されたか否かを判定する。そして、否定判定の場合にはＳ１２０へ移行し、ステップＳ１２０～Ｓ１４０の処理を繰り返し実行する。ステップＳ１２０～Ｓ１４０の処理が繰り返し実行されることで、ステップＳ１２０の処理で特定したユーザが選択した文字が、ステップＳ１３０の処理によってメモリ２０４に順次記憶され、ユーザが伝えたい文章が生成される。

　一方、肯定判定の場合にはステップＳ１５０へ移行する。

　ステップＳ１５０において、出力部２８は、ステップＳ１１０の処理で表示した文字盤の表示を停止する。

　そして、ステップＳ１６０において、出力部２８は、ステップＳ１３０の処理でメモリ２０４の予め定めた領域に記憶した文章を、前記文章を読み上げる音声に変換して、前記文章を読み上げる音声をスピーカ２３から出力する。なお、出力する音声の合成には、公知の音声合成技術の何れを適用してもよい。

　この際、文章の内容及び文脈から音声のトーンを変化させてもよい。具体的には、文章が緊急を伝える内容であれば、ユーザが予め登録した通常時の発声速度及び音程の高さよりも、速い発声速度で、且つ、高い音程でスピーカ２３から音声を出力する。この場合、状況にあった発話が可能となり、表現力豊かなコミュニケーションを実現することができる。

　また、マイク２２で周囲の音声を収音し、収音した音声の音響スペクトルから周囲に伝わりやすい周波数成分を解析し、解析した周波数成分を含む音声で文章を読み上げるようにしてもよい。この場合、スピーカ２３から発せられる音声が聞き取りやすくなる。

　以上、ステップＳ１００～Ｓ１６０の処理により、発話機能が実現される。

　なお、予めユーザの声紋をメモリ２０４に記憶しておけば、出力部２８は公知の音声合成技術を利用してユーザの声で音声を合成することができるため、より自然な会話が実現できる。

　また、図２６におけるステップＳ１２０の処理の後、ユーザがこれまでに選択した文字の並びから文章の文脈を解析し、文章の文脈からユーザが選択すると思われる単語の候補を先回りして表示するようにしてもよい。こうした単語の表示方法を、「予測表示」と言う場合がある。

　具体的には、言語モデル部４８は、ステップＳ１２０の処理で特定された文字と、ステップＳ１３０の処理でメモリ２０４の予め定めた領域に記憶される、これまでユーザに選択された文字の並びの情報と、を取得する。そして、言語モデル部４８は、文字の並びに対して形態素解析等を実行することで文章の文脈を把握し、統計モデルに従って、例えば辞書４６に予め登録される単語の中から、特定された文字で始まる文章の文脈の流れに沿った単語の候補を選択する。そして、出力部２８は、言語モデル部４８で選択された複数の単語の候補をユーザの視野に表示して、ユーザの文字選択に係る操作性を向上させる。

　このようにデバイス１４は、ユーザが眼球の動きを利用して作成した文章を音声に変換することができるため、手話通訳を介した会話や筆談に比べて、より短い時間に、且つ、正確に、発話者の意思を相手に伝えることができる。

　なお、第１実施形態に係るデバイス１０及び第２実施形態に係るデバイス１２において示唆した内容は、第３実施形態に係るデバイス１４にも適用できることは言うまでもない。

（第４実施形態）
　第１実施形態～第３実施形態では、デバイス１０、１２、及び１４に内蔵される処理装置２０で、これまで説明した音声字幕化処理、状況通知処理、及び発話処理を実行する形態について説明した。

　第４実施形態では、デバイス１０、１２、及び１４で実行される処理の一部を、クラウドサービスを利用して実行する形態について説明する。なお、クラウドサービスとは、ネットワークを介してコンピュータ等の情報処理装置の処理能力を提供するサービスである。

　図２７は、第４実施形態に係るウェアラブルデバイスの一例を示す図である。

　図２７に示すように、ウェアラブルデバイス１６（以降、デバイス１６と称す）は、第３実施形態に係るデバイス１４に対して、更に通信装置２５を内蔵した眼鏡型端末である。なお、デバイス１６における通信装置２５の設置場所は一例であり、テンプル１８の位置に制限されない。

　通信装置２５は、例えばインターネット等のネットワークに接続するためのインターフェースを含み、図２８に示すようにデバイス１６と、ネットワーク５０に接続される情報処理装置５２と、の間でデータを送受信する装置である。

　なお、通信装置２５で用いられる通信規格に制限はなく、例えばＬＴＥ(Long Term Evolution)、ＷｉＦｉ(The Standard for Wireless Fidelity)、ブルートゥース等、様々な通信規格を使用することができる。しかし、デバイス１６は移動を前提としたウェアラブルデバイスであることから、通信装置２５は無線でネットワーク５０に接続できることが好ましい。従って、ここでは一例として、通信装置２５のネットワーク５０への接続形態は、無線であるものとして説明を行う。また、情報処理装置５２は複数のコンピュータ等を含むものであってもよい。

　図２９は、図２７に示したデバイス１６の機能を示す機能ブロック図である。図２９に示すデバイス１６の機能ブロック図において、図２５に示した第３実施形態に係るデバイス１４の機能ブロック図との相違点は、音声認識部３４が音響分析部４０で置き換えられると共に、無線通信部３８が追加され、音響分析部４０に接続された点である。

　また、図３０は、情報処理装置５２の機能を示す機能ブロック図であり、情報処理装置５２は、認識デコーダ部４２、音響モデル部４４、辞書４６、言語モデル部４８、及び通信部５４を含む。なお、通信部５４は、ネットワーク５０に接続してデバイス１６との間でデータを送受信するための機能を有する。また、通信部５４のネットワーク５０への接続形態は、有線又は無線の何れの形態であってもよい。

　このように、第４実施形態では、デバイス１０、１２、及び１４に含まれる音声認識部３４の構成要素のうち、音響分析部４０をデバイス１６に残し、認識デコーダ部４２、音響モデル部４４、辞書４６、及び言語モデル部４８を情報処理装置５２に移行する。そして、音響分析部４０と、認識デコーダ部４２、音響モデル部４４、辞書４６、及び言語モデル部４８と、を無線通信部３８及び通信部５４で接続し、ネットワーク５０を介して音声認識部３４として機能させるクラウドサービスを利用した形態をとる。

　次に、デバイス１６の各機能部をコンピュータで実現する場合の構成図を図３１に示す。

　図３１に示すコンピュータ２００Ｂの構成図において、第３実施形態で説明したデバイス１４の各機能部をコンピュータで実現する場合の構成との相違点は、新たにバス２０８に無線通信ＩＦ(Interface)２７が接続された点である。また、表示制御プログラム２２０Ｂに無線通信プロセス２３２が追加され、音声認識プロセス２２６が音響分析プロセス２２５に置き換えられた点も、第３実施形態と異なる。

　ＣＰＵ２０２が、表示制御プログラム２２０Ｂを記憶部２０６から読み出してメモリ２０４に展開し、表示制御プログラム２２０Ｂを実行することで、コンピュータ２００Ｂが図２９に示すデバイス１６の各機能部として動作する。そして、ＣＰＵ２０２が無線通信プロセス２３２を実行することで、コンピュータ２００Ｂが図２９に示す無線通信部３８として動作する。また、ＣＰＵ２０２が音響分析プロセス２２５を実行することで、コンピュータ２００Ｂが図２９に示す音響分析部４０として動作する。

　なお、デバイス１６の各機能部は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

　次に、情報処理装置５２をコンピュータで実現する場合の構成図を図３２に示す。

　コンピュータ３００は、ＣＰＵ３０２、メモリ３０４、及び不揮発性の記憶部３０６を含む。ＣＰＵ３０２、メモリ３０４、及び不揮発性の記憶部３０６は、バス３０８を介して互いに接続される。また、コンピュータ３００は、通信ＩＦ２９及びＩ／Ｏ３１０を備え、通信ＩＦ２９及びＩ／Ｏ３１０はバス３０８に接続される。なお、記憶部３０６はＨＤＤやフラッシュメモリ等によって実現できる。

　記憶部３０６には、コンピュータ３００を図３０に示す情報処理装置５２の各機能部として機能させるための音声認識プログラム３２０が記憶される。記憶部３０６に記憶される音声認識プログラム３２０は、通信プロセス３２２、認識デコーダプロセス３２４、音響モデルプロセス３２６、及び言語モデルプロセス３２８を含む。

　ＣＰＵ３０２は、音声認識プログラム３２０を記憶部３０６から読み出してメモリ３０４に展開し、音声認識プログラム３２０が有する各プロセスを実行する。

　ＣＰＵ３０２が、音声認識プログラム３２０を記憶部３０６から読み出してメモリ３０４に展開し、音声認識プログラム３２０を実行することで、コンピュータ３００が図３０に示す情報処理装置５２の各機能部として動作する。具体的には、ＣＰＵ３０２が通信プロセス３２２を実行することで、コンピュータ３００が図３０に示す通信部５４として動作する。また、ＣＰＵ３０２が認識デコーダプロセス３２４を実行することで、コンピュータ３００が図３０に示す認識デコーダ部４２として動作する。また、ＣＰＵ３０２が音響モデルプロセス３２６を実行することで、コンピュータ３００が図３０に示す音響モデル部４４として動作する。また、ＣＰＵ３０２が言語モデルプロセス３２８を実行することで、コンピュータ３００が図３０に示す言語モデル部４８として動作する。

　また、ＣＰＵ３０２が、辞書格納領域２４０に含まれる辞書データをメモリ３０４に展開することで、コンピュータ３００が図３０に示す辞書４６を含む。

　なお、情報処理装置５２の各機能部は、例えば半導体集積回路、より詳しくはＡＳＩＣ等で実現することも可能である。

　なお、デバイス１６が音声認識処理、音声種類特定処理、及び発話処理を情報処理装置５２と連携して実行する点以外は、デバイス１６における音声字幕化処理、状況通知処理、及び発話処理の流れは、これまで説明した各処理の流れと同じになる。

　例えば、デバイス１６は、図７に示した音声認識処理のうち、音響分析部４０でステップＳ４００の処理を実行し、取得した音響スペクトルの時系列データを無線通信部３８に通知する。無線通信部３８は、音響分析部４０から受け付けた音響スペクトルの時系列データを、無線通信ＩＦ２７を経由してネットワーク５０上の情報処理装置５２へ送信する。

　情報処理装置５２は音響スペクトルの時系列データを受信すると、図７に示した音声認識処理のうち、ステップＳ４０１～Ｓ４０６の処理を行う。この際、ステップＳ４０６において、認識デコーダ部４２は、ステップＳ４０４の処理で字幕化された発話者の発話内容を通信部５４へ通知する。そして、通信部５４は字幕化された発話者の発話内容を、通信ＩＦ２９を経由してデバイス１６の音源位置特定部３２に送信する。

　同様に、デバイス１６は、図１０に示した音声種類特定処理のうち、音響分析部４０でステップＳ４００の処理を実行し、取得した音響スペクトルの時系列データを情報処理装置５２に送信する。情報処理装置５２は音響スペクトルの時系列データを受信すると、図１０に示した音声種類特定処理のうち、ステップＳ４０８の処理を実行し、音響スペクトルから特定した音声の種類をデバイス１６に送信する。

　また、デバイス１６は発話処理において予測表示を実行する際、図２６のステップＳ１２０の処理で特定した文字と、ステップＳ１３０の処理でメモリ２０４に記憶した、これまでユーザが選択した文字の並びの情報と、を情報処理装置５２に送信する。そして、情報処理装置５２の言語モデル部４８で、特定した文字及びこれまでの文字の並びの情報から文脈の流れに沿った単語の候補を選択し、選択した単語の候補をデバイス１６に送信すればよい。

　このようにデバイス１６がクラウドサービスを利用して音声認識を行う理由は、デバイス１６で処理するデータ処理量をデバイス１０、１２、及び１４で処理するデータ処理量より低減させるためである。

　デバイス１６等に代表されるウェアラブルデバイスは、体に装着して使用することを前提としているため、潜在的なニーズとして、できるだけ軽量且つ小型にすることが求められる。従って、デバイスに内蔵するＣＰＵ２０２及びメモリ２０４等の部品はできるだけ軽量且つ小型の部品が使用される傾向にある。しかし、部品は軽量且つ小型になるに従って、処理能力及び記憶容量等の性能が低下する場合が多く、デバイス単体で実現できる性能が制限される場合がある。

　従って、図３０に示すように、情報処理装置５２に認識デコーダ部４２、音響モデル部４４、辞書４６、及び言語モデル部４８を持たせることで、デバイス１６でのデータ処理量を低減し、デバイス１６の軽量且つ小型化を実現することができる。

　更に、情報処理装置５２の処理性能、重量及び大きさ等の仕様に対する制限はないことから、情報処理装置５２には、デバイス１６に内蔵可能なＣＰＵ２０２及びメモリ２０４等の部品より高性能の部品を用いることができる。従って、デバイス１０、１２、及び１４に比べて、辞書４６に登録できる音響スペクトル及び単語の量が増加すると共に、高速な音声認識が可能となる。結果として、マイク２２で収音した音声の種類及び音声の発生方向の特定に係る時間が短縮されることから、デバイス１６はデバイス１０、１２、及び１４に比べて、アイコン及び字幕を表示するまでの時間を短縮することができる。また、デバイス１６はデバイス１０、１２、及び１４に比べて、音声の種類及び音声の発生方向の特定精度を向上させることができる。

　また、情報処理装置５２で複数のデバイス１６の音声認識処理を実行するようにすれば、例えば情報処理装置５２の辞書４６に登録される音響スペクトル及び単語等を更新することで、複数のデバイス１６が利用する辞書４６を一括して更新することができる。

　なお、第４実施形態では音声認識部３４の構成要素のうち、音響分析部４０をデバイス１６に残す例を示したが、デバイス１６に残す機能部と情報処理装置５２に移行する機能部をどのように分けるかについての制限はない。

　このように、各実施形態に係るデバイス１０、１２、１４、及び１６（以降、単に「デバイス」と称す）は、音声字幕化処理及び発話処理を通して、聴覚障がい者に周囲の人とコミュニケーションをとる機能を提供することができる。また、各実施形態に係るデバイスは、状況通知処理を通して聴覚障がい者に周囲の状況を把握する機能を提供することができる。

　以上、各実施形態を用いて開示の技術を説明したが、開示の技術は各々の実施形態に記載の範囲には限定されない。開示の技術の要旨を逸脱しない範囲で各々の実施形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も開示の技術の技術的範囲に含まれる。例えば、開示の技術の要旨を逸脱しない範囲で処理の順序を変更してもよい。

　また、各実施形態では、表示制御プログラム２２０、２２０Ａ、及び２２０Ｂ、並びに音声認識プログラム３２０が記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されるものではない。開示の技術に係る表示制御プログラム２２０、２２０Ａ、及び２２０Ｂ、並びに音声認識プログラム３２０は、コンピュータ読取可能な記録媒体に記録されている形態で提供することも可能である。例えば、開示の技術に係る表示制御プログラム２２０、２２０Ａ、及び２２０Ｂ、並びに音声認識プログラム３２０は、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、及びＵＳＢメモリ等の可搬型記録媒体に記録されている形態で提供することも可能である。また、開示の技術に係る表示制御プログラム２２０、２２０Ａ、及び２２０Ｂ、並びに音声認識プログラム３２０は、フラッシュメモリ等の半導体メモリ等に記録されている形態で提供することも可能である。

　なお、各実施形態に係るデバイスに、ユーザ周辺の画像を撮影するカメラを取り付けてもよい。この場合、公知の画像認識処理を用いてカメラで撮影した画像から人物及び車両等、音声の発生源になりうると考えられる予め定めた物体の位置を検知する。そして、カメラの画像から検知した物体の位置と、音声信号の到達時間のずれから特定した音声の発生方向の情報と組み合わせることで、音声の発生源の位置を特定することができる。

　このように、音声信号の到達時間のずれから特定した音声の発生方向を物体の位置に合わせて修正することができるため、単に音声信号の到達時間のずれから音声の発生方向を特定する場合と比較して、音声の発生源の位置を精度よく特定することができる。

Claims

　マイクと、
　ディスプレイと、
　該マイクにより収音された音声情報を解析して、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、前記ディスプレイに呼びかけの発生を示す表示を行うように制御する制御部と、
　を備えたことを特徴とするウェアラブルデバイス。
　マイクと、
　ディスプレイと、
　該マイクにより収音された音声情報を含む無線信号を送信し、前記無線信号を受信して前記音声情報を取得した情報処理装置によって該音声情報に所定の呼びかけフレーズに対応する音声が含まれることが検出されると前記情報処理装置から送信される所定の情報を含む無線信号を受信する無線通信部と、
　前記無線通信部により受信された無線信号に含まれる前記所定の情報の検出に応じて、前記ディスプレイに呼びかけの発生を示す表示を行うように制御する制御部と、
　を備えたことを特徴とするウェアラブルデバイス。
　前記ディスプレイは、網膜ディスプレイ又は透過型ディスプレイである、
　ことを特徴とする請求項１又は２に記載のウェアラブルデバイス。
　前記表示は、前記呼びかけに対応する所定のアイコン又は文字の表示である、
　ことを特徴とする請求項１乃至３の何れかに記載のウェアラブルデバイス。
　前記制御部は、前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向に対応する位置に前記表示を行う、
　ことを特徴とする請求項１乃至４の何れかに記載のウェアラブルデバイス。
　前記制御部は、前記ウェアラブルデバイスが装着される状態において、前方、後方、右側、左側、上側、下側の少なくとも何れかを、前記発生方向とする、
　ことを特徴とする請求項５に記載のウェアラブルデバイス。
　前記制御部は、前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が前方である場合と後方である場合とで、前記ディスプレイに異なるマークを表示する又は前記ディスプレイに同じマークを異なる態様で表示する、
　ことを特徴とする請求項１乃至６の何れかに記載のウェアラブルデバイス。
　前記制御部は、前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が後方である場合にアラートマークを表示する、
　ことを特徴とする請求項１乃至７の何れかに記載のウェアラブルデバイス。
　前記制御部は、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出した場合、前記ディスプレイへの情報表示を行い、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれない場合、前記ディスプレイへの情報表示を行わないような制御を行う、
　ことを特徴とする請求項１乃至８の何れかに記載のウェアラブルデバイス。
　コンピュータが、
　マイクにより収音された音声情報を解析して、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する、
　処理を実行することを特徴とする表示制御方法。
　コンピュータが、
　マイクにより収音された音声情報を含む無線信号を送信し、前記無線信号を受信して前記音声情報を取得した情報処理装置によって該音声情報に所定の呼びかけフレーズに対応する音声が含まれることが検出されると前記情報処理装置から送信される所定の情報を含む無線信号を受信し、
　受信された無線信号に含まれる前記所定の情報の検出に応じて、ディスプレイに呼びかけの発生を示す表示を行うように制御する
　処理を実行することを特徴とする表示制御方法。
　前記ディスプレイは、網膜ディスプレイ又は透過型ディスプレイである、
　ことを特徴とする請求項１０又は１１に記載の表示制御方法。
　前記表示は、前記呼びかけに対応する所定のアイコン又は文字の表示である、
　ことを特徴とする請求項１０乃至１２の何れかに記載の表示制御方法。
　前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向に対応する位置に前記表示を行う、
　ことを特徴とする請求項１０乃至１３の何れかに記載の表示制御方法。
　前記処理を実行する装置が装着される状態において、前方、後方、右側、左側、上側、下側の少なくとも何れかを、前記発生方向とする、
　ことを特徴とする請求項１４に記載の表示制御方法。
　前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が前方である場合と後方である場合とで、前記ディスプレイに異なるマークを表示する又は前記ディスプレイに同じマークを異なる態様で表示する、
　ことを特徴とする請求項１０乃至１５の何れかに記載の表示制御方法。
　前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が後方である場合にアラートマークを表示する、
　ことを特徴とする請求項１０乃至１６の何れかに記載の表示制御方法。
　取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出した場合、前記ディスプレイへの情報表示を行い、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれない場合、前記ディスプレイへの情報表示を行わないような制御を行う、
　ことを特徴とする請求項１０乃至１７の何れかに記載の表示制御方法。
　マイクにより収音された音声情報を解析して、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する、
　処理をコンピュータに実行させることを特徴とする表示制御プログラム。
　マイクにより収音された音声情報を含む無線信号を送信し、前記無線信号を受信して前記音声情報を取得した情報処理装置によって該音声情報に所定の呼びかけフレーズに対応する音声が含まれることが検出されると前記情報処理装置から送信される所定の情報を含む無線信号を受信し、
　受信された無線信号に含まれる前記所定の情報の検出に応じて、ディスプレイに呼びかけの発生を示す表示を行うように制御する
　処理をコンピュータに実行させることを特徴とする表示制御プログラム。
　前記ディスプレイは、網膜ディスプレイ又は透過型ディスプレイである、
　ことを特徴とする請求項１９又は２０に記載の表示制御プログラム。
　前記表示は、前記呼びかけに対応する所定のアイコン又は文字の表示である、
　ことを特徴とする請求項１９乃至２１の何れかに記載の表示制御プログラム。
　前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向に対応する位置に前記表示を行う、
　ことを特徴とする請求項１９乃至２２の何れかに記載の表示制御プログラム。
　前記処理を実行する装置が装着される状態において、前方、後方、右側、左側、上側、下側の少なくとも何れかを、前記発生方向とする、
　ことを特徴とする請求項２３に記載の表示制御プログラム。
　前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が前方である場合と後方である場合とで、前記ディスプレイに異なるマークを表示する又は前記ディスプレイに同じマークを異なる態様で表示する、
　ことを特徴とする請求項１９乃至２４の何れかに記載の表示制御プログラム。
　前記所定の呼びかけフレーズに対応する音声の発生方向を特定し、特定した該発生方向が後方である場合にアラートマークを表示する、
　ことを特徴とする請求項１９乃至２５の何れかに記載の表示制御プログラム。
　取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出した場合、前記ディスプレイへの情報表示を行い、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれない場合、前記ディスプレイへの情報表示を行わないような制御を行う、
　ことを特徴とする請求項１９乃至２６の何れかに記載の表示制御プログラム。
　コンピュータに、
　マイクにより収音された音声情報を解析して、取得した該音声情報に所定の呼びかけフレーズに対応する音声が含まれることを検出すると、ディスプレイに呼びかけの発生を示す表示を行うように制御する、
　ことを含む処理を実行させるための表示制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
　コンピュータに、
　マイクにより収音された音声情報を含む無線信号を送信し、前記無線信号を受信して前記音声情報を取得した情報処理装置によって該音声情報に所定の呼びかけフレーズに対応する音声が含まれることが検出されると前記情報処理装置から送信される所定の情報を含む無線信号を受信し、
　受信された無線信号に含まれる前記所定の情報の検出に応じて、ディスプレイに呼びかけの発生を示す表示を行うように制御する
　ことを含む処理を実行させるための表示制御プログラムを記録したコンピュータ読み取り可能な記録媒体。