WO2022270455A1

WO2022270455A1 - 表示制御装置、表示制御方法、及びプログラム

Info

Publication number: WO2022270455A1
Application number: PCT/JP2022/024486
Authority: WO
Inventors: 愛実田畑; 晴輝西村; 彰遠藤; 恭寛羽原; 蔵酒五味; 優大平良
Original assignee: ピクシーダストテクノロジーズ株式会社; 住友ファーマ株式会社
Priority date: 2021-06-21
Filing date: 2022-06-20
Publication date: 2022-12-29
Also published as: JPWO2022270455A1; US20240129686A1

Abstract

ユーザが装着可能なディスプレイデバイスの表示を制御する表示制御装置は、複数のマイクロホンにより集音された音声を取得し、取得された音声の到来方向を推定し、取得された音声に対応するテキスト画像を生成する。また、表示制御装置は、ディスプレイデバイスの表示部におけるテキスト画像の表示位置の調整量を、ユーザによる操作とディスプレイデバイスの状態との少なくとも何れかの検出結果に基づいて決定する。そして、表示制御装置は、生成されたテキスト画像を、表示部内の表示位置であって推定された到来方向と決定された調整量とに応じて決まる表示位置に表示させる。

Description

表示制御装置、表示制御方法、及びプログラム

　本開示は、表示制御装置、表示制御方法、及びプログラムに関する。

　難聴者は、聴覚機能の低下のため、音の到来方向を捉える能力が低下していることがある。このような難聴者が、複数人での会話を行おうとする場合、誰が何を話しているかを正確に認識するのが難しく、コミュニケーションに支障が生じる。
　特許文献１には、難聴者による周囲音の認識を補助するためのヘッドマウントディスプレイ装置が開示されている。この装置は、複数のマイクを用いて周囲音に対して音声認識を行った結果を、文字情報として装着者の視野の一部に表示することで、装着者に周囲音を視覚的に認識させることを可能にする。

特開２００７－３３４１４９号公報

　音声に対応するテキスト画像をユーザの視野内に表示するディスプレイデバイスにおいて、ユーザにとって利便性の高い表示方法が求められる。例えば、音声認識により生成されたテキスト画像が、ユーザの視界において会話相手の顔と重なって表示された場合、ユーザは会話相手の表情を読み取れなくなり、円滑なコミュニケーションが阻害されてしまう。

　本開示の目的は、音声に対応するテキスト画像をユーザの視野内に表示するディスプレイデバイスにおいて、ユーザにとって利便性の高い表示方法を提供することである。

　本開示に係る表示制御装置は、例えば以下の構成を有する。すなわち、ユーザが装着可能なディスプレイデバイスの表示を制御する表示制御装置であって、複数のマイクロホンにより集音された音声を取得する取得手段と、前記取得手段により取得された音声の到来方向を推定する推定手段と、前記取得手段により取得された音声に対応するテキスト画像を生成する生成手段と、前記ディスプレイデバイスの表示部におけるテキスト画像の表示位置の調整量を、ユーザによる操作と前記ディスプレイデバイスの状態との少なくとも何れかの検出結果に基づいて決定する決定手段と、前記生成手段により生成されたテキスト画像を、前記表示部内の表示位置であって前記推定手段により推定された到来方向と前記決定手段により決定された調整量とに応じて決まる表示位置に表示させる表示制御手段と、を有する。

ディスプレイデバイスの構成例を示す図である。ディスプレイデバイスの概形を示す図である。ディスプレイデバイスの機能を示す図である。コントローラーの処理の一例を表すフローチャートである。マイクロホンによる集音を説明するための図である。音の到来方向を説明するための図である。ディスプレイデバイスにおける表示例を表す図である。装着者の視界における見え方を説明するための図である。表示位置調整前の見え方を示す図である。表示位置調整後の見え方を示す図である。表示位置の調整方法の一例を示す図である。表示位置の調整に関する処理の一例を表すフローチャートである。表示位置の調整対象を指定する方法を説明するための図である。

　以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

（１）情報処理装置の構成
　本実施形態のディスプレイデバイス１の構成を説明する。図１は、ディスプレイデバイスの構成例を示す図である。図２は、図１に示されるディスプレイデバイスの一例であるグラス型ディスプレイデバイスの概形を示す図である。

　図１に示されるディスプレイデバイス１は、音声を集音し、且つ、集音した音声に対応するテキスト画像を音声の到来方向に応じた態様で表示するように構成される。
　ディスプレイデバイス１の形態は、例えば、以下の少なくとも１つを含む。
　・グラス型ディスプレイデバイス
　・ヘッドマウントディスプレイ
　・携帯端末

　図１に示されるように、ディスプレイデバイス１は、複数のマイクロホン１０１と、ディスプレイ１０２と、センサ１０４と、操作部１０５と、コントローラー１０とを備える。
　各マイクロホン１０１は、互いに所定の位置関係を保つように配置される。

　図２に示されるように、ディスプレイデバイス１がグラス型ディスプレイデバイスである場合、ディスプレイデバイス１は、右テンプル２１と、右ヨロイ２２と、ブリッジ２３と、左ヨロイ２４と、左テンプル２５と、リム２６と、を備え、ユーザが装着可能である。

　マイクロホン１０１－１は、右テンプル２１に配置される。
　マイクロホン１０１－２は、右ヨロイ２２に配置される。
　マイクロホン１０１－３は、ブリッジ２３に配置される。
　マイクロホン１０１－４は、左ヨロイ２４に配置される。
　マイクロホン１０１－５は、左テンプル２５に配置される。
　ただし、ディスプレイデバイス１におけるマイクロホン１０１の数及び配置は図２の例に限定されない。
　マイクロホン１０１は、例えば、ディスプレイデバイス１の周辺の音を収音する。マイクロホン１０１により集音される音には、例えば以下の少なくとも１つの音声が含まれる。
　・人物による発話音
　・ディスプレイデバイス１が使用される環境の音（以下「環境音」という）

　ディスプレイデバイス１がグラス型ディスプレイデバイスである場合、ディスプレイ１０２は、透過性を有する部材（例えば、ガラス、プラスチック、及び、ハーフミラーの少なくとも１つ）である。この場合、ディスプレイ１０２は、グラス型ディスプレイデバイスを装着した使用者の視野内に配置される。

　ディスプレイ１０２－１～１０２－２は、リム２６により支持される。ディスプレイ１０２－１は、使用者がディスプレイデバイス１を装着した際に使用者の右眼前に位置するように配置される。ディスプレイ１０２－２は、使用者がディスプレイデバイス１を装着した際に使用者の左眼前に位置するように配置される。

　ディスプレイ１０２は、コントローラー１０による制御に従い、画像を提示（例えば、表示）する。例えば、右テンプル２１の裏側に配置される非図示の投影器からディスプレイ１０２－１へ画像が投影され、左テンプル２５の裏側に配置される非図示の投影器からディスプレイ１０２－２へ画像が投影される。これにより、ディスプレイ１０２－１及びディスプレイ１０２－２は画像を提示する。使用者は、画像を視認すると同時に、ディスプレイ１０２－１及びディスプレイ１０２－２を透過した景色も視認することが可能である。

　なお、ディスプレイデバイス１が画像を提示する方法は上記の例に限定されない。例えば、ディスプレイデバイス１は、投影器から使用者の眼に画像を直接投影してもよい。

　センサ１０４は、ディスプレイデバイス１の状態を検出するセンサである。例えば、センサ１０４はジャイロセンサ又は傾きセンサを含み、ディスプレイデバイス１の仰角方向の傾きを検出する。ただし、センサ１０４の種別及び検出される状態の内容はこの例に限定されない。

　操作部１０５は、ユーザによる操作を受け付ける。操作部１０５は、例えば、駆動ボタン、キーボード、ポインティングデバイス、タッチパネル、リモートコントローラ、スイッチ、又は、それらの組合せであり、ディスプレイデバイス１に対するユーザ操作を検出する。ただし、操作部１０５の種別及び検出される操作の内容はこの例に限定されない。

　コントローラー１０は、ディスプレイデバイス１を制御する情報処理装置である。コントローラー１０は、有線又は無線でマイクロホン１０１、ディスプレイ１０２、センサ１０４、及び操作部１０５と接続される。
　図２に示されるようにディスプレイデバイス１がグラス型ディスプレイデバイスである場合、コントローラー１０は、例えば、右テンプル２１の内側に配置される。ただし、コントローラー１０の配置は図２の例に限定されず、例えばコントローラー１０がディスプレイデバイス１と別体として構成されていてもよい。

　図１に示されるように、コントローラー１０は、記憶装置１１と、プロセッサ１２と、入出力インタフェース１３と、通信インタフェース１４と、を備える。

　記憶装置１１は、プログラム及びデータを記憶するように構成される。記憶装置１１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

　プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーションのプログラム

　データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

　プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動することによって、コントローラー１０の機能を実現するように構成される。プロセッサ１２は、コンピュータの一例である。例えば、プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動することで、マイクロホン１０１で集音した発話音に対応するテキストを表す画像（以下「テキスト画像」という）をディスプレイ１０２の所定の位置へ提示する機能を実現する。なお、ディスプレイデバイス１がＡＳＩＣやＦＰＧＡなどの専用のハードウェアを有し、本実施形態において説明するプロセッサ１２の処理の少なくとも一部が専用のハードウェアにより実行されてもよい。

　入出力インタフェース１３は、以下の少なくとも１つを取得する。
　・マイクロホン１０１で集音された音声信号
　・センサ１０４により検出されたディスプレイデバイス１の状態を示す情報
　・操作部１０５で受け付けられたユーザ操作に応じた入力
　また、入出力インタフェース１３は、ディスプレイデバイス１に接続される出力デバイスに情報を出力するように構成される。出力デバイスは、例えば、ディスプレイ１０２である。

　通信インタフェース１４は、ディスプレイデバイス１と図示されない外部装置（例えば、サーバ、又は携帯端末）との間の通信を制御するように構成される。

（２）機能の概要
　本実施形態におけるディスプレイデバイス１の機能の概要を説明する。図３は、ディスプレイデバイスの機能を示す図である。

　図３において、ディスプレイデバイス１を装着したユーザＰ１は、話者Ｐ２～Ｐ４と会話をしている。
　マイクロホン１０１は、話者Ｐ２～Ｐ４の発話音を集音する。
　コントローラー１０は、集音された発話音の到来方向を推定する。
　コントローラー１０は、集音された発話音に対応する音声信号を解析することにより、発話音に対応するテキスト画像Ｔ１～Ｔ３を生成する。
　コントローラー１０は、テキスト画像Ｔ１～Ｔ３のそれぞれについて、発話音の到来方向と、センサ１０４又は操作部１０５からの入力に基づいて決定された調整量と、に応じた表示位置を決定する。表示位置の決定方法の詳細については、図９～図１３等を用いて後述する。
　コントローラー１０は、テキスト画像Ｔ１～Ｔ３を、ディスプレイ１０２－１～１０２－２内の決定された表示位置に表示する。

（３）コントローラー１０の処理
　図４は、コントローラー１０の処理の一例を表すフローチャートである。図５は、マイクロホンによる集音を説明するための図である。図６は、音の到来方向を説明するための図である。

　複数のマイクロホン１０１は、話者から発せられる発話音をそれぞれ集音する。例えば、図２に示される例では、ディスプレイデバイス１の右テンプル２１、右ヨロイ２２、ブリッジ２３、左ヨロイ２４、及び左テンプル２５にそれぞれマイクロホン１０１－１～１０１－５が配置されている。マイクロホン１０１－１～１０１－５は、図５に示されるパスを介して到来した発話音を集音する。マイクロホン１０１－１～１０１－５は、集音した発話音を音声信号へ変換する。

　図４に示す処理は、ディスプレイデバイス１の電源がＯＮになり初期設定が完了したタイミングで開始される。ただし、図４に示す処理の開始タイミングはこれに限定されない。
　コントローラー１０は、マイクロホン１０１で変換された音声信号の取得（Ｓ１１０）を実行する。

　具体的には、プロセッサ１２は、マイクロホン１０１－１～１０１－５から送信される、話者Ｐ２，Ｐ３，Ｐ４の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン１０１－１～１０１－５から送信される音声信号には、発話音が進行してきたパスに基づく空間的な情報が含まれている。

　ステップＳ１１０の後、コントローラー１０は、到来方向の推定（Ｓ１１１）を実行する。

　記憶装置１１には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。

　到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したＭＵＳＩＣ（Multiple Signal Classification）、最小ノルム法、又はＥＳＰＲＩＴ（Estimation of Signal Parameters via Rotational Invariance Techniques）などが用いられる。

　プロセッサ１２は、記憶装置１１に記憶されている到来方向推定モデルに、マイクロホン１０１－１～１０１－５から受信した音声信号を入力することで、マイクロホン１０１－１～１０１－５により集音された発話音の到来方向を推定する。このとき、プロセッサ１２は、例えば、マイクロホン１０１－１～１０１－５を基準として定められた基準方向（本実施形態においては、ディスプレイデバイス１を装着したユーザの正面方向）を０度とする軸からの偏角で発話音の到来方向を表現する。図６に示される例では、プロセッサ１２は、話者Ｐ２から発せられた発話音の到来方向を、軸から右方向に角度Ａ１と推定する。プロセッサ１２は、話者Ｐ３から発せられた発話音の到来方向を、軸から左方向に角度Ａ２と推定する。プロセッサ１２は、話者Ｐ４から発せられた発話音の到来方向を、軸から左方向に角度Ａ３と推定する。

　ステップＳ１１１の後、コントローラー１０は、音声信号の抽出（Ｓ１１２）を実行する。

　記憶装置１１には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。

　プロセッサ１２は、記憶装置１１に記憶されているビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

　図６に示される例では、プロセッサ１２は、計算された角度Ａ１をビームフォーミングモデルに入力し、軸から右方向に角度Ａ１の方向へビームを有する指向性を形成するためのパラメータを計算する。プロセッサ１２は、計算された角度Ａ２をビームフォーミングモデルに入力し、軸から左方向に角度Ａ２の方向へビームを有する指向性を形成するためのパラメータを計算する。プロセッサ１２は、計算された角度Ａ３をビームフォーミングモデルに入力し、軸から左方向に角度Ａ３の方向へビームを有する指向性を形成するためのパラメータを計算する。

　プロセッサ１２は、マイクロホン１０１－１～１０１－５から送信される音声信号を、角度Ａ１について計算したパラメータで増幅、又は減衰させる。プロセッサ１２は、増幅又は減衰させた音声信号を合成することで、受信した音声信号から、角度Ａ１から到来した発話音についての音声信号を抽出する。

　プロセッサ１２は、マイクロホン１０１－１～１０１－５から送信される音声信号を、角度Ａ２について計算したパラメータで増幅、又は減衰させる。プロセッサ１２は、増幅又は減衰させた音声信号を合成することで、受信した音声信号から、角度Ａ２から到来した発話音についての音声信号を抽出する。

　プロセッサ１２は、マイクロホン１０１－１～１０１－５から送信される音声信号を、角度Ａ３について計算したパラメータで増幅、又は減衰させる。プロセッサ１２は、増幅又は減衰させた音声信号を合成することで、受信した音声信号から、角度Ａ３から到来した発話音についての音声信号を抽出する。

　ステップＳ１１２の後、コントローラー１０は、音声認識処理（Ｓ１１３）を実行する。

　記憶装置１１には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。

　プロセッサ１２は、記憶装置１１に記憶されている音声認識モデルに、抽出した音声信号を入力することで、入力した音声信号と対応するテキストを決定する。

　図６に示される例では、プロセッサ１２は、角度Ａ１～Ａ３について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。

　ステップＳ１１３の後、コントローラー１０は、画像生成（Ｓ１１４）を実行する。

　具体的には、プロセッサ１２は、決定したテキストを表すテキスト画像を生成する。

　ステップＳ１１４の後、コントローラー１０は、表示態様の決定（Ｓ１１５）を実行する。

　具体的には、プロセッサ１２は、ディスプレイ１０２にテキスト画像を含む表示画像をどのような態様で表示するかを決定する。
　ステップＳ１１５の後、コントローラー１０は、画像表示（Ｓ１１６）を実行する。

　具体的には、プロセッサ１２は、決定された表示態様に応じた表示画像を、ディスプレイ１０２に表示する。

（４）ディスプレイデバイスの表示例
　以下では、ステップＳ１１５における表示態様の決定に応じた表示画像の例を詳細に説明する。プロセッサ１２は、推定された音声の到来方向と、ユーザによる操作及びディスプレイデバイス１の状態の少なくとも何れかの検出結果に基づいて決定された調整量とに基づいて、ディスプレイデバイス１の表示部におけるテキスト画像の表示位置を決定する。

　まず、テキスト画像の左右方向の表示位置について説明する。図７は、ディスプレイデバイスにおける表示例を表す図である。図８は、装着者の視界における見え方を説明するための図である。ここで、図７において破線で描かれている話者Ｐ２～Ｐ４の像は、ディスプレイ１０２を透過してユーザＰ１の目に映る実像を表したものであり、ディスプレイ１０２に表示される画像には含まれない。また、図９において描かれているテキスト画像Ｔ１～Ｔ３は、ディスプレイ１０２に表示されてユーザＰ１の目に映る画像を表したものであり、実空間には存在しない。なお、ディスプレイ１０２－１を介して見る視界とディスプレイ１０２－２を介して見る視界とは、視差に応じて互いに像の位置が異なる。

　図７及び図８に示すように、プロセッサ１２は、テキスト画像に係る音声信号の到来方向に対応する位置を、テキスト画像の表示位置として決定する。より詳細には、プロセッサ１２は、ディスプレイデバイス１に対して角度Ａ１の方向から到来する音声（話者Ｐ２の発話音）に対応するテキスト画像Ｔ１の表示位置を、ユーザＰ１の視点から見て角度Ａ１に対応する方向に見える位置に決定する。
　プロセッサ１２は、ディスプレイデバイス１に対して角度Ａ２の方向から到来する音声（話者Ｐ３の発話音）に対応するテキスト画像Ｔ２の表示位置を、ユーザＰ１の視点から見て角度Ａ２に対応する方向に見える位置に決定する。
　プロセッサ１２は、ディスプレイデバイス１に対して角度Ａ３の方向から到来する音声（話者Ｐ４の発話音）に対応するテキスト画像Ｔ３の表示位置を、ユーザＰ１の視点から見て角度Ａ３に対応する方向に見える位置に決定する。
　なお、ここで角度Ａ１～Ａ３は方位角を表す。

　このように、ディスプレイ１０２において音声の到来方向に応じた表示位置にテキスト画像Ｔ１～Ｔ３が表示される。これにより、ディスプレイデバイス１のユーザＰ１に対して、話者Ｐ２の発言内容を表すテキスト画像Ｔ１が、ディスプレイ１０２を透過して視認される話者Ｐ２の像と共に提示されることになる。また、ユーザＰ１に対して、話者Ｐ３の発言内容を表すテキスト画像Ｔ２が、ディスプレイ１０２を透過して視認される話者Ｐ３の像と共に提示されることになる。また、ユーザＰ１に対して、話者Ｐ４の発言内容を表すテキスト画像Ｔ３が、ディスプレイ１０２を透過して視認される話者Ｐ４の像と共に提示されることになる。ディスプレイデバイス１の向き（すなわちユーザＰ１の顔の向き）が変わった場合、同様に発言者の像と発言内容のテキスト画像とがユーザＰ１から見て同じ方向に見えるように、ディスプレイ１０２におけるテキスト画像の表示位置が変更される。すなわち、ディスプレイ１０２に表示されるテキスト画像の左右方向の表示位置は、推定された到来方向とディスプレイデバイス１の向きとに応じて決まる。

　次に、テキスト画像の上下方向の表示位置について説明する。ディスプレイデバイス１を装着したユーザＰ１の視点から見て、ディスプレイ１０２に表示されたテキスト画像が見える方向の水平方向に対する仰角は、プロセッサ１２により決定された調整量に応じて決まる。図９は、表示位置調整前の見え方を示す図である。図１０は、表示位置調整後の見え方を示す図である。図１１は、表示位置の調整方法の一例を示す図である。

　図９（ａ）は、ユーザＰ１と、ディスプレイデバイス１のＦＯＶ（Ｆｉｅｌｄ　ｏｆ　Ｖｉｅｗ）９０１と、水平方向９０３と、話者Ｐ２による「こんにちは」という発言がテキストに変換されたテキスト画像９０２の表示位置との関係を概念的に表す。ＦＯＶ（Ｆｉｅｌｄ　ｏｆ　Ｖｉｅｗ）９０１は、ディスプレイデバイス１に予め設定された角度範囲であり、ディスプレイデバイス１の基準方向（装着者の正面方向）を中心に、仰角方向及び方位角方向にそれぞれ所定の幅を有する。ディスプレイデバイス１のＦＯＶは、ディスプレイデバイス１を介してユーザが見ている視界に含まれる。図９（ｂ）は、図９（ａ）に示す状況におけるユーザＰ１の視界の一部を表す。

　図９（ａ）及び図９（ｂ）に示すように、表示位置の調整量が初期値に設定されている状態においては、ユーザＰ１の視点から見てテキスト画像９０２が水平方向に対応する位置に見えるように表示位置が決定される。すなわち、ユーザＰ１の視点から見て、ディスプレイ１０２に表示されたテキスト画像が見える方向の水平方向に対する仰角は、０°である。

　ここで、ユーザＰ１の目線の高さと話者Ｐ２の目線の高さが同じである場合、ユーザＰ１から見てテキスト画像９０２と話者Ｐ２の像とが重なる。このような表示によれば、ユーザＰ１にとって、テキスト画像９０２の発言者が誰なのかは認識しやすいが、話者Ｐ２の表情がテキスト画像９０２により隠れて見づらくなってしまう。

　一方、図１０（ａ）及び図１０（ｂ）に示すように、表示位置の調整量が変更された状態においては、ユーザＰ１の視点から見てテキスト画像９０２が水平方向に対応する位置よりも下に見えるように表示位置が決定される。すなわち、ユーザＰ１の視点から見て、ディスプレイ１０２に表示されたテキスト画像が見える方向の水平方向に対する仰角は－Ｂ１（すなわち俯角は＋Ｂ１）である。このように、ディスプレイ１０２におけるテキスト画像の上下方向の表示位置が調整されることで、話者Ｐ２の表情がテキスト画像９０２により隠れてしまうことを防げるため、ユーザＰ１が話者Ｐ２と円滑にコミュニケーションを行えるようになる。

　テキスト画像の表示位置の調整量は、例えば、操作部１０５により検出されたユーザ操作に基づいて決定される。具体的には、操作部１０５がディスプレイデバイス１に設置されたタッチディスプレイである場合に、ユーザＰ１により操作部１０５に対してタッチ操作が行われると、コントローラー１０は操作部１０５からの入力に応じて調整量を決定する。コントローラーにより調整量として仰角－Ｂ１が設定された場合、ディスプレイデバイス１の向き（すなわちユーザＰ１の顔の向き）が変わっても、ユーザＰ１の視点から見て、テキスト画像が見える方向の水平方向に対する仰角は－Ｂ１である。すなわち、ディスプレイ１０２に表示されるテキスト画像の上下方向の表示位置は、コントローラー１０により決定された調整量とディスプレイデバイス１の向きとに応じて決まる。

　また例えば、テキスト画像の表示位置の調整量は、センサ１０４により検出されたディスプレイデバイス１の状態に基づいて決定される。具体的には、センサ１０４がディスプレイデバイス１の傾きを検出するセンサである場合に、ディスプレイデバイス１を装着したユーザＰ１が下を向くと、ディスプレイデバイス１の傾きの俯角が増加する。それに応じて、ディスプレイ１０２におけるテキスト画像９０２の表示位置の下方向への調整量が増加する。図１１（ａ）は、ユーザＰ１が正面を向いており、表示位置の調整量が初期値である場合の様子を表す。図１１（ｂ）は、図１１（ａ）の状況からユーザＰ１が下を向き、表示位置の調整量が変更された場合の様子を表す。図１１（ｃ）は、図１１（ｂ）の状況からユーザＰ１が再度正面を向き、表示位置の調整量が図１１（ｂ）の状況で設定された値に維持されている場合の様子を表す。

　一例において、プロセッサ１２は、表示位置の調整量を以下の（式１）及び（式２）に基づいて更新する。
　ψ＝min(ψ_u, ψ)　　（式１）
　ψ＝max(ψ_l, ψ)　　（式２）
　ここで、ψはテキスト画像の表示位置の上下方向の調整量に対応する角度であり、ψ_uはＦＯＶ９０１の上端１１０３の方向を示す角度であり、ψ_lはＦＯＶ９０１の下端１１０２の方向を示す角度である。

　（式１）は、ユーザＰ１が下を向いた場合（ディスプレイデバイス１の俯角が増加した場合）に、テキスト画像９０２がＦＯＶ９０１から外れないように、テキスト画像９０２の表示位置が下に下がることを意味する。（式２）は、ユーザＰ１が上を向いた場合（ディスプレイデバイス１の仰角が増加した場合）に、テキスト画像９０２がＦＯＶ９０１から外れないように、その表示位置が上に上がることを意味する。ディスプレイデバイス１の仰角方向の傾きが所定の範囲内にある場合にはディスプレイ１０２におけるテキスト画像の上下方向の表示位置に関する調整量が変更されず、ディスプレイデバイス１の仰角方向の傾きが所定の範囲を超えた場合に調整量が変更される。ディスプレイデバイス１の仰角方向の傾きが所定の範囲内にある場合とは、テキスト画像９０２の位置がＦＯＶ９０１の上端及び下端に接していない場合である。すなわち、上記の所定の範囲は、ディスプレイデバイス１を装着したユーザＰ１の視点から見てディスプレイ１０２に表示されたテキスト画像９０２が見える方向の水平方向９０３に対する仰角を基準として決まる範囲である。

　このように、ディスプレイデバイス１の傾きに応じてテキスト画像の表示位置の調整量を決定する構成によれば、ユーザＰ１は顔の向きを上下に動かすだけでテキスト画像の表示位置を所望の位置に変更することができる。その結果、ユーザＰ１がテキスト画像の表示位置を変更するために複雑な操作をしなくてよく、ユーザＰ１によるコミュニケーションを円滑化することができる。

（５）小括
　本実施形態によれば、コントローラー１０は、ディスプレイデバイス１の表示部におけるテキスト画像の表示位置の調整量を、ユーザによる操作とディスプレイデバイス１の状態との少なくとも何れかの検出結果に基づいて決定する。そしてコントローラー１０は、音声認識により生成されたテキスト画像を、推定された音声の到来方向と決定された調整量とに応じて決まる位置に表示させる。これにより、ディスプレイデバイス１の装着者は、表示されたテキスト画像がどの方向にいる人物の発言を表しているのかを容易に認識することができ、且つ、話者の顔など重要な実オブジェクトとテキスト画像との両方を同時に認識できる。その結果、ユーザによるコミュニケーションを円滑化することができる。

　また、本実施形態によれば、ディスプレイデバイス１はユーザが装着可能なディスプレイデバイスである。そして、コントローラー１０は、表示部におけるテキスト画像の上下方向の表示位置に関する調整量を、ディスプレイデバイス１の仰角方向の傾きに基づいて決発する。これにより、ユーザは顔の向きを動かす単純なジェスチャーによりテキスト画像の表示位置を調整することができる。

（６）変形例
　本実施形態の変形例について説明する。

（６．１）変形例１
　本実施形態の変形例１について説明する。変形例１では、テキスト画像の表示位置の調整量の設定を、対象の領域ごとに行う例を示す。図１２は、表示位置の調整に関する処理の一例を表すフローチャートである。図１３は、表示位置の調整対象を指定する方法を説明するための図である。

　図１２の処理は、表示位置の調整量を設定するためのユーザによる操作又はジェスチャーに応じた指示がディスプレイデバイス１に入力されたタイミングで実行される。ただし、図１２の処理の実行タイミングはこれに限定されない。図１２の処理は、図４に示す処理と並行して実行可能である。

　Ｓ１３０１において、コントローラー１０は、テキスト表示位置の調整対象の基準となる対象方向を指定する。具体的には、プロセッサ１２は、ユーザ操作に基づいて対象方向を指定する。図１３に示すように、ディスプレイデバイス１のユーザＰ１は、話者Ｐ２の発言に対応するテキスト画像の表示位置を調整したい場合、話者Ｐ２が存在する方向である対象方向１２０２を指定する操作を行う。ユーザによる操作は、例えば、対象方向を向いた状態で行われる操作部１０５に対するタッチ操作であってもよい。なお、対象方向の決定方法はこれに限定されず、例えば、ディスプレイデバイス１の向きを基準とした特定の方向が対象方向として予め定められていてもよい。

　Ｓ１３０２において、コントローラー１０は、テキスト表示位置の調整対象となる対象範囲を指定する。具体的には、ユーザＰ１が対象方向１２０２を基準とする角度幅を指定する操作を行うと、プロセッサ１２は、そのユーザ操作に基づいて対象範囲１２０３を指定する。なお、ユーザによる角度幅の指示が行われない場合、プロセッサ１２は、デフォルト値として定められた角度幅と対象方向１２０２とに基づいて対象範囲１２０３を指定する。あるいは、プロセッサ１２は、対象方向１２０２の近傍に存在する音源が対象範囲１２０３に含まれるように、対象方向１２０２の近傍における音源の位置、音源の数、及び音声の到来方向の変動の少なくとも何れかに基づいて対象範囲１２０３を指定してもよい。

　Ｓ１３０３において、コントローラー１０は、テキスト表示位置の調整対象となる対象音源を特定する。具体的には、プロセッサ１２は、音声の到来方向の推定結果に基づいて認識している音源のうち、対象範囲１２０３内に存在する音源を、対象音源として特定する。

　Ｓ１３０４において、コントローラー１０は、テキスト表示位置の調整量を設定する。調整量の設定方法は、上述した実施形態と同様である。

　Ｓ１３０５において、コントローラー１０は、設定された調整量に基づいてテキスト画像の表示位置を更新する。具体的には、プロセッサ１２は、Ｓ１３０３で特定された音源に対応するテキスト画像の表示位置を、設定された調整量に基づいて更新する。すなわち、Ｓ１３０２で指定された対象範囲１２０３に含まれる方向から到来した音声に対応するテキスト画像の表示位置が、調整量に基づいて更新される。一方、対象範囲１２０３に含まれない方向から到来した音声に対応するテキスト画像の表示位置は、更新されない。

　本変形例の構成によれば、対象方向と推定された音声の到来方向との差が閾値未満である場合に、当該到来方向に対応するテキスト画像の表示位置の調整量が、ユーザ操作とディスプレイデバイス１の状態との少なくとも何れかの検出結果に基づいて決定される。これにより、ユーザは、特定の音源に対応するテキスト画像の表示位置を他の音源に対応するテキスト画像の表示位置とは独立して調整することができる。例えば、ユーザの周囲に身長が大きく異なる複数の話者が存在する場合に、ユーザは、ディスプレイデバイス１の表示部において話者の身長に応じた高さの位置にその話者の発言に対応するテキスト画像が表示されるように、表示位置を調整できる。その結果、ユーザが話者の表情とテキスト画像との両方を見ながらコミュニケーションすることが容易になる。

　なお、コントローラー１０は、図１２の処理を複数回行い、複数の対象範囲を指定することで、対象範囲ごとに異なる調整量を設定することもできる。この場合に、コントローラー１０は、各対象範囲を狭く指定することで、音源ごとに異なる調整量を設定することもできる。また、コントローラー１０は、対象範囲の角度幅を３６０度に指定することで、全到来方向のテキスト画像の表示位置の調整量を一律に設定することもできる。

（６．２）その他の変形例
　上述した実施形態では、複数のマイクロホン１０１がディスプレイデバイス１と一体となって構成されている場合を中心に説明した。ただしこれに限らず、複数のマイクロホン１０１を有するアレイマイク装置がディスプレイデバイス１とは別体として構成され、有線又は無線でディスプレイデバイス１と接続されていてもよい。この場合、アレイマイク装置とディスプレイデバイス１は直接接続されてもよいし、ＰＣやクラウドサーバなどの他の装置を介して接続されてもよい。

　また、アレイマイク装置とディスプレイデバイス１とが別体として構成される場合、上述したディスプレイデバイス１の機能の少なくとも一部がアレイマイク装置に実装されていてもよい。例えば、アレイマイク装置が、図４の処理フローのＳ１１１における到来方向の推定と、Ｓ１１２における音声信号の抽出とを実行し、推定した到来方向を示す情報と抽出した音声信号とをディスプレイデバイス１へ送信してもよい。そしてディスプレイデバイス１が、受信した情報と音声信号とを用いて、テキスト画像を含む画像の表示を制御してもよい。

　上述した実施形態では、ディスプレイデバイス１が光学シースルー型のグラス型ディスプレイデバイスである場合を中心に説明した。ただし、ディスプレイデバイス１の形式はこれに限定されない。例えば、ディスプレイデバイス１はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス１はカメラを備えてもよい。そしてディスプレイデバイス１は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、ディスプレイ１０２に表示させてもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また例えば、コントローラー１０がクラウドサーバ内に存在するなど、コントローラー１０とディスプレイ１０２とが別体として構成されていてもよい。

　上述した実施形態では、ディスプレイデバイス１の表示部におけるテキスト画像の左右方向の表示位置が音声の到来方向の推定結果に基づいて決定され、当該テキスト画像の上下方向の表示位置が上述の調整量に基づいて決定される場合を中心に説明した。ただしこれに限らず、テキスト画像の左右方向の表示位置の決定に上述の調整量が用いられてもよい。

　例えば、ディスプレイデバイス１により推定された音声の到来方向とユーザから見た音源の方向との間にずれがある場合に、上述の実施形態と同様の方法により設定された調整量に基づいてテキスト画像の左右方向の表示位置が調整されてもよい。これにより、上記のずれを低減することができる。また、ユーザから見て音源の像とテキスト画像とが重ならないように、テキスト画像の左右方向の表示位置を敢えてずらしてもよい。このとき、コントローラー１０は、音声の到来方向に応じて計算された位置から調整量に応じた距離だけ左右方向にずらした位置にテキスト画像が表示されるように、制御を行う。

　また、コントローラー１０は、上述した実施形態のように音声の到来方向の方位角を推定するのと同様に、音声の到来方向の仰角を推定してもよい。そしてコントローラー１０は、ディスプレイデバイス１におけるテキスト画像の表示位置を、推定した到来方向の仰角に基づいて決定してもよい。さらに、コントローラー１０は、音声の到来方向に応じて計算された位置から調整量に応じた距離だけ上下方向にずらした位置にテキスト画像が表示されるように、制御を行ってもよい。

　上述した実施形態では、入出力インタフェース１３に接続される操作部１０５からユーザの指示が入力される例を説明したが、これに限らない。通信インタフェース１４に接続されるコンピュータ（例えば、スマートフォン）のアプリケーションによって提示される駆動ボタンオブジェクトからユーザの指示が入力されてもよい。

　ディスプレイ１０２は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ１０２は、例えば、以下の実現方法により実現可能である。
　・光学素子（一例として、導光板）を用いたＨＯＥ（Holographic optical element）又はＤＯＥ（Diffractive optical element）
　・液晶ディスプレイ
　・網膜投影ディスプレイ
　・ＬＥＤ（Light Emitting Diode）ディスプレイ
　・有機ＥＬ（Electro Luminescence）ディスプレイ
　・レーザディスプレイ
　・光学素子（一例として、レンズ、ミラー、回折格子、液晶、ＭＥＭＳミラー、ＨＯＥ）を用いて、発光体から発光された光を導光するディスプレイ
　特に、網膜投影ディスプレイには、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。

　コントローラー１０による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。コントローラー１０は、例えば、以下の方法により音声信号を抽出してもよい。
　・Ｆｒｏｓｔビームフォーマ
　・適応フィルタビームフォーミング（一例として、一般化サイドローブキャンセラ）
　・ビームフォーミング以外の音声抽出方法（一例として、周波数フィルタ、又は機械学習）

　以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

１　　　　　：ディスプレイデバイス
１０　　　　：コントローラー
１０１　　　：マイクロホン
１０２　　　：ディスプレイ
１０４　　　：センサ
１０５　　　：操作部

Claims

　ユーザが装着可能なディスプレイデバイスの表示を制御する表示制御装置であって、
　複数のマイクロホンにより集音された音声を取得する取得手段と、
　前記取得手段により取得された音声の到来方向を推定する推定手段と、
　前記取得手段により取得された音声に対応するテキスト画像を生成する生成手段と、
　前記ディスプレイデバイスの表示部におけるテキスト画像の表示位置の調整量を、ユーザによる操作と前記ディスプレイデバイスの状態との少なくとも何れかの検出結果に基づいて決定する決定手段と、
　前記生成手段により生成されたテキスト画像を、前記表示部内の表示位置であって前記推定手段により推定された到来方向と前記決定手段により決定された調整量とに応じて決まる表示位置に表示させる表示制御手段と、
　を有する表示制御装置。
　前記ディスプレイデバイスは、ユーザが装着可能なグラス型ディスプレイデバイスである、請求項１に記載の表示制御装置。
　前記ディスプレイデバイスを装着したユーザの視点から見て、前記表示部に表示されたテキスト画像が見える方向の水平方向に対する仰角が、前記決定手段により決定された調整量に応じて決まる、請求項１又は請求項２に記載の表示制御装置。
　前記ディスプレイデバイスの状態は、前記ディスプレイデバイスが備えるセンサにより検出された前記ディスプレイデバイスの傾きを含む、請求項１から請求項３の何れか１項に記載の表示制御装置。
　前記決定手段は、前記表示部におけるテキスト画像の上下方向の表示位置に関する調整量を、前記ディスプレイデバイスの仰角方向の傾きに基づいて決定する、請求項４に記載の表示制御装置。
　前記決定手段は、前記ディスプレイデバイスの傾きの俯角の増加に応じて、前記表示部におけるテキスト画像の表示位置の下方向への調整量を増加させる、請求項５に記載の表示制御装置。
　前記決定手段は、前記ディスプレイデバイスの仰角方向の傾きが所定の範囲内にある場合は、前記表示部におけるテキスト画像の上下方向の表示位置に関する調整量を変更せず、前記ディスプレイデバイスの仰角方向の傾きが所定の範囲を超えた場合に、当該調整量を変更する、請求項５又は請求項６に記載の表示制御装置。
　前記所定の範囲は、前記ディスプレイデバイスを装着したユーザの視点から見て前記表示部に表示されたテキスト画像が見える方向の水平方向に対する仰角を基準として決まる範囲である、請求項７に記載の表示制御装置。
　前記表示制御手段により前記表示部に表示されるテキスト画像の上下方向の表示位置は、前記決定手段により決定された調整量と前記ディスプレイデバイスの向きとに応じて決まり、
　前記表示制御手段により前記表示部に表示されるテキスト画像の左右方向の表示位置は、前記推定手段により推定された到来方向と前記ディスプレイデバイスの向きとに応じて決まる、
　請求項１から請求項８の何れか１項に記載の表示制御装置。
　対象方向を特定する特定手段を有し、
　前記決定手段は、前記特定手段により特定された対象方向と前記推定手段により推定された到来方向との差が閾値未満である場合に、当該到来方向に対応するテキスト画像の表示位置の調整量を前記検出結果に基づいて決定する、
　請求項１から請求項９の何れか１項に記載の表示制御装置。
　前記ユーザによる操作は、前記ディスプレイデバイスに対するタッチ操作を含む、請求項１から請求項１０の何れか１項に記載の表示制御装置。
　前記生成手段は、前記取得手段により取得された音声に対して音声認識処理を行うことで当該音声に対応するテキスト画像を生成する、請求項１から請求項１１の何れか１項に記載の表示制御装置。
　コンピュータに、請求項１から請求項１２の何れか１項に記載の表示制御装置の各手段を実現させるためのプログラム。
　ユーザが装着可能なディスプレイデバイスの表示を制御する表示制御方法であって、
　複数のマイクロホンにより集音された音声を取得し、
　前記取得された音声の到来方向を推定し、
　前記取得された音声に対応するテキスト画像を生成し、
　前記ディスプレイデバイスの表示部におけるテキスト画像の表示位置の調整量を、ユーザによる操作と前記ディスプレイデバイスの状態との少なくとも何れかの検出結果に基づいて決定し、
　前記生成されたテキスト画像を、前記表示部内の表示位置であって前記推定された到来方向と前記決定された調整量とに応じて決まる表示位置に表示させる、
　表示制御方法。