WO2023249073A1

WO2023249073A1 - 情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム

Info

Publication number: WO2023249073A1
Application number: PCT/JP2023/023086
Authority: WO
Inventors: 晴輝西村; 愛実田畑
Original assignee: ピクシーダストテクノロジーズ株式会社; 住友ファーマ株式会社
Priority date: 2022-06-23
Filing date: 2023-06-22
Publication date: 2023-12-28

Abstract

本開示の一態様の情報処理装置は、ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するデータ取得手段と、前記データ取得手段により取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する表示制御手段と、前記データ取得手段により取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示制御手段により表示される情報の表示位置のずれを補正する補正手段と、を有する。

Description

情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム

　本開示は、情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラムに関する。

　ジャイロセンサ、加速度センサ、及び地磁気センサなどを備えるＩＭＵ（Inertial Measurement Unit）を用いて、ＨＭＤ（Head Mounted Display）の姿勢（向きまたは傾き）を計測することができる。しかしながら、ＩＭＵは、ドリフトによる誤差が発生し、時間とともに誤差が蓄積されるという問題がある。特許文献１には、ＩＭＵセンサのドリフトを補正する技術について開示されている。

特開2020-102239号公報

　しかしながら、特許文献１の技術では、ＨＭＤが自ら計算した３Ｄ物理位置と、他のＨＭＤが光学センサおよびＩＭＵを用いて生成した位置データとを比較することで、較正オフセットが生成される。つまり、特許文献１の技術では、ＨＭＤに搭載されたＩＭＵセンサのドリフトを補正するために、他のセンサを備えた外部装置（つまり、光学センサおよびＩＭＵセンサを搭載した他のＨＭＤ）を利用する必要がある。

　本開示の目的は、ユーザが装着するディスプレイデバイスの姿勢の計測誤差に起因する悪影響を抑制するための技術を提供することである。

本実施形態のディスプレイデバイスの構成例を示す図である。図１に示されるディスプレイデバイスの一例であるグラス型ディスプレイデバイスの概要を示す図である。ＩＭＵセンサのドリフトがない場合のユーザの向きの時間変化の例を示す図である。ＩＭＵセンサのドリフトがない場合にディスプレイに表示される画面の例を示す図である。ＩＭＵセンサのドリフトがある場合のユーザの向きおよびＩＭＵセンサの基準方向の時間変化の例を示す図である。ＩＭＵセンサのドリフトがある場合にディスプレイに表示される画面の例を示す図である。ＩＭＵセンサのドリフトを時刻ｔｘにおいて補正した場合のユーザの向きおよびＩＭＵセンサの基準方向の時間変化の例を示す図である。ＩＭＵセンサのドリフトを時刻ｔｘにおいて補正した場合にディスプレイに表示される画面の例を示す図である。本実施形態の音源データベースのデータ構造を示す図である。本実施形態の音声処理のフローチャートである。マイクロホンによる集音を説明するための図である。音源の方向を説明するための図である。本実施形態の音声処理における音源の識別の詳細を例示するフローチャートである。本実施形態の音声処理における基準方向の更新の第１例を示すフローチャートである。ディスプレイデバイスにおける表示例を表す図である。ユーザの視界における見え方を説明するための図である。変形例１の情報処理システムの構成例を示す図である。変形例１のマルチマイクデバイスの外観を示す図である。ＩＭＵセンサのドリフトがある場合にディスプレイに表示される画面の例を示す図である。変形例１の音声処理のフローチャートである。

　以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

　以降の説明において、後述するマイクロホン・セットの位置及び向きを基準とする座標系（マイク座標系）を用いることがある。マイク座標系は、マイクロホン・セットの位置（例えばマイクロホン・セットを備えるディスプレイデバイスまたはマルチマイクデバイスの重心位置）を原点とし、当該原点においてｘ軸およびｙ軸が直交する。マイク座標系において、ｘ＋方向をマイクロホン・セットの前方としたとき、ｘ－方向をマイクロホン・セットの後方、ｙ＋方向をマイクロホン・セットの左方向、ｙ－方向をマイクロホン・セットの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。マイクロホン・セットがディスプレイデバイスに備えられる場合に、マイク座標系は、ディスプレイデバイスの座標系に従属する。他方、マイクロホン・セットがディスプレイデバイスから分離している（例えば、マルチマイクデバイスに備えられる）場合に、マイク座標系は、ディスプレイデバイスの座標系とは独立である。

（１）ディスプレイデバイスの構成
　本実施形態のディスプレイデバイスの構成を説明する。図１は、本実施形態のディスプレイデバイスの構成例を示す図である。図２は、図１に示されるディスプレイデバイスの一例であるグラス型ディスプレイデバイスの概要を示す図である。

　図１に示されるディスプレイデバイス１は、音声を取得し、且つ、取得した音声に対応するテキスト画像を、その音声の到来方向を識別可能な態様で表示するように構成される。
　ディスプレイデバイス１の形態は、例えば、以下の少なくとも１つを含む。
　・グラス型ディスプレイデバイス
　・ヘッドマウントディスプレイ
　・ＰＣ
　・タブレット端末

　一例として、ディスプレイデバイス１をユーザの頭部に装着可能であるように構成する場合に、ディスプレイデバイス１は、グラス型ディスプレイデバイス、ヘッドマウントディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス１は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス１の形式はこれに限定されない。例えば、ディスプレイデバイス１はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス１はカメラを備えてもよい。そしてディスプレイデバイス１は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、後述するディスプレイ１０２に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス１は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してＡＲ（Augmented Reality）表示を行ってもよい。

　図１に示されるように、ディスプレイデバイス１は、コントローラ１０と、複数のマイクロホン１０１と、ディスプレイ１０２と、ＩＭＵセンサ１０３とを備える。すなわち、複数のマイクロホン１０１と、ディスプレイ１０２と、ＩＭＵセンサ１０３とは、一体となって構成される。以降の説明において、複数のマイクロホン１０１を「マイクロホン・セット」ということがある。

　コントローラ１０は、ディスプレイデバイス１を制御する情報処理装置である。コントローラ１０は、有線又は無線でマイクロホン１０１、ディスプレイ１０２、およびＩＭＵセンサ１０３と接続される。

　コントローラ１０は、記憶装置１１と、プロセッサ１２と、入出力インタフェース１３と、通信インタフェース１４と、を備える。

　記憶装置１１は、プログラム及びデータを記憶するように構成される。記憶装置１１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

　プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーションのプログラム

　データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

　プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動することによって、コントローラ１０の機能を実現するように構成される。プロセッサ１２は、コンピュータの一例である。例えば、プロセッサ１２は、記憶装置１１に記憶されたプログラムを起動することで、マイクロホン１０１で集音した発話音に対応するテキストを表す画像（以下「テキスト画像」という）をディスプレイ１０２の所定の位置へ提示する機能を実現する。なお、ディスプレイデバイス１がＡＳＩＣやＦＰＧＡなどの専用のハードウェアを有し、本実施形態において説明するプロセッサ１２の処理の少なくとも一部が専用のハードウェアにより実行されてもよい。

　入出力インタフェース１３は、以下の少なくとも１つを取得する。
　・マイクロホン１０１で集音された音声信号
　・コントローラ１０に接続される入力デバイスから入力されたユーザの指示
　・ＩＭＵセンサ１０３から取得したセンサデータ（ＩＭＵセンサ１０３による計測結果）
　入力デバイスは、例えば、マイクロホン１０１、ＩＭＵセンサ１０３、駆動ボタン、キーボード、ポインティングデバイス、タッチパネル、リモートコントローラ、スイッチ、又は、それらの組合せである。
　また、入出力インタフェース１３は、コントローラ１０に接続される出力デバイスに情報を出力するように構成される。出力デバイスは、例えば、ディスプレイ１０２である。

　通信インタフェース１４は、ディスプレイデバイス１と図示されない外部装置（例えば、サーバ、又は携帯端末）との間の通信を制御するように構成される。

　マイクロホン１０１は、例えば、ディスプレイデバイス１の周辺の音を収音する。マイクロホン１０１により集音される音には、例えば以下の少なくとも１つの音声が含まれる。
　・人物による発話音
　・ディスプレイデバイス１が使用される環境の音（以下「環境音」という。）
　各マイクロホン１０１は、互いに所定の位置関係を保つように配置される。

　ディスプレイ１０２は、コントローラ１０による制御に従い、画像を提示（例えば、表示）する。ディスプレイ１０２は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ１０２は、例えば、以下の実現方法により実現可能である。
　・光学素子（一例として、導光板）を用いたＨＯＥ（Holographic optical element）又はＤＯＥ（Diffractive optical element）
　・液晶ディスプレイ
　・網膜投影ディスプレイ
　・ＬＥＤ（Light Emitting Diode）ディスプレイ
　・有機ＥＬ（Electro Luminescence）ディスプレイ
　・レーザディスプレイ
　・光学素子（一例として、レンズ、ミラー、回折格子、液晶、ＭＥＭＳミラー、ＨＯＥ）を用いて、発光体から発光された光を導光するディスプレイ
　特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。

　ＩＭＵセンサ１０３は、ディスプレイデバイス１の姿勢（向き又は傾き）の変化を示すセンサデータを出力する。例えば、ＩＭＵセンサ１０３は、ディスプレイデバイス１の３次元の慣性運動に関する計測を行う。ＩＭＵセンサ１０３は、計測結果を示すセンサデータをコントローラ１０へ送信する。コントローラ１０は、ＩＭＵセンサ１０３から受信したセンサデータに基づいてディスプレイデバイス１の姿勢を推定する。本実施形態において、ＩＭＵセンサ１０３は、加速度センサとジャイロセンサを有し、直交３軸の加速度と、当該３軸周りの角速度とを計測する。ただし、ＩＭＵセンサ１０３の構成はこれに限定されず、例えばＩＭＵセンサ１０３が３軸の地磁気センサをさらに有していてもよいし、ＩＭＵセンサ１０３が加速度センサを備えずにジャイロセンサを備えていてもよい。

　図２に示されるように、ディスプレイデバイス１がグラス型ディスプレイデバイスである場合、ディスプレイデバイス１は、右テンプル２１と、右ヨロイ２２と、ブリッジ２３と、左ヨロイ２４と、左テンプル２５と、リム２６と、を備える。ディスプレイデバイス１は、ユーザが装着可能である。

　図２の例では、マイクロホン・セットは、マイクロホン１０１－１～１０１－５を備える。
　マイクロホン１０１－１は、右テンプル２１に配置される。
　マイクロホン１０１－２は、右ヨロイ２２に配置される。
　マイクロホン１０１－４は、左ヨロイ２４に配置される。
　マイクロホン１０１－５は、左テンプル２５に配置される。
　ただし、ディスプレイデバイス１におけるマイクロホン・セットに含まれるマイクロホン１０１の数及び配置は図２の例に限定されない。

　ディスプレイデバイス１がグラス型ディスプレイデバイスである場合、ディスプレイ１０２は、透過性を有する部材（例えば、ガラス、プラスチック、及び、ハーフミラーの少なくとも１つ）である。この場合、ディスプレイ１０２は、グラス型ディスプレイデバイスを装着したユーザの視野内に配置される。

　ディスプレイ１０２－１～１０２－２は、リム２６により支持される。ディスプレイ１０２－１は、ユーザがディスプレイデバイス１を装着した際にユーザの右眼前に位置するように配置される。ディスプレイ１０２－２は、ユーザがディスプレイデバイス１を装着した際にユーザの左眼前に位置するように配置される。

　ディスプレイ１０２は、コントローラ１０による制御に従い、画像を提示する。例えば、右テンプル２１の裏側に配置される非図示の投影器からディスプレイ１０２－１へ画像が投影され、左テンプル２５の裏側に配置される非図示の投影器からディスプレイ１０２－２へ画像が投影される。これにより、ディスプレイ１０２－１及びディスプレイ１０２―２は画像を提示する。ユーザは、画像を視認すると同時に、ディスプレイ１０２－１及びディスプレイ１０２―２を透過した景色も視認することが可能である。

　なお、ディスプレイデバイス１が画像を提示する方法は上記の例に限定されない。例えば、ディスプレイデバイス１は、投影器からユーザの眼に画像を直接投影してもよい。

　図２に示されるようにディスプレイデバイス１がグラス型ディスプレイデバイスである場合、コントローラ１０は、例えば、右テンプル２１の内側に配置される。ただし、コントローラ１０の配置は図２の例に限定されず、例えばコントローラ１０がディスプレイデバイス１と別体として構成されていてもよい。

　ＩＭＵセンサ１０３は、ブリッジ２３に配置される。ただし、ＩＭＵセンサ１０３の配置は図２の例に限定されず、ＩＭＵセンサ１０３は、ユーザの装着時においてディスプレイデバイス１（より具体的には、ディスプレイデバイス１が備えるディスプレイ１０２）と所定の位置関係を保つように配置されていればよい。

（２）実施形態の一態様
　本実施形態の一態様について説明する。図３は、ＩＭＵセンサのドリフトがない場合のユーザの向きの時間変化の例を示す図である。図４は、ＩＭＵセンサのドリフトがない場合にディスプレイに表示される画面の例を示す図である。図５は、ＩＭＵセンサのドリフトがある場合のユーザの向きおよびＩＭＵセンサの基準方向の時間変化の例を示す図である。図６は、ＩＭＵセンサのドリフトがある場合にディスプレイに表示される画面の例を示す図である。図７は、ＩＭＵセンサのドリフトを時刻ｔｘにおいて補正した場合のユーザの向きおよびＩＭＵセンサの基準方向の時間変化の例を示す図である。図８は、ＩＭＵセンサのドリフトを時刻ｔｘにおいて補正した場合にディスプレイに表示される画面の例を示す図である。

　図３に示すように、ディスプレイデバイス１を装着したユーザＵＳ１０が、時刻ｔ０～ｔ２に亘って、話者ＳＰ１１と相対したとする。コントローラ１０は、音源（例えば話者ＳＰ１１）から発せられた音に基づく音声信号のマイクロホン１０１による受信結果に基づいて、マイク座標系における当該音の到来方向（つまり、音源の方向）を逐次推定する。

　ユーザＵＳ１０は、時刻ｔ０～ｔ２の間に頭部を動かしており、ディスプレイデバイス１に搭載されたマイクロホン１０１も連動して動く。音源の方向は、マイクロホン１０１を基準に推定される。故に、音源が完全に静止していたとしても、話者ＳＰ１１の方向の推定結果はユーザＵＳ１０の頭部の動きに依存して変動することになる。

　コントローラ１０は、ＩＭＵセンサ１０３から取得したセンサデータに基づいて、各時刻ｔｉにおけるユーザＵＳ１０の姿勢（つまり、ディスプレイデバイス１およびマイクロホン１０１の姿勢）ＵＯ１３（ｔｉ）を推定する。ここで、ｉ＝０，１，または２である。ユーザＵＳ１０の姿勢ＵＯ１３（ｔｉ）は、基準方向Ｒ１２に対するユーザＵＳ１０の正面方向（つまり、ディスプレイデバイス１の正面方向）の角度（例えば方位角）によって表現される。基準方向Ｒ１２は、コントローラ１０により推定されたディスプレイデバイス１の姿勢が基準値（例えば方位角０度）を示すときのディスプレイデバイス１の正面方向である。姿勢推定の誤差が発生しない場合、基準方向Ｒ１２は、ユーザＵＳ１０の向き（つまり、ディスプレイデバイス１の向き）に依存しない基準座標系（絶対座標系）における特定の方向を指し示す。つまり、基準方向Ｒ１２と基準座標系との間には対応関係が定められる。基準方向Ｒ１２は、特定の時点においてコントローラ１０により設定される。例えば、ユーザＵＳ１０が話者ＳＰ１１と対話を始める際（ｔ０より前の時点）に、ユーザＵＳ１０によるディスプレイデバイス１に対する操作に応じて基準方向Ｒ１２が設定される。具体的には、ユーザＵＳ１０が話者ＳＰ１１に正対した状態でディスプレイデバイス１に対して基準方向を設定する操作を行うと、コントローラ１０は基準方向Ｒ１２をその時点のユーザＵＳ１０の正面方向（つまり、ディスプレイデバイス１の正面方向）に設定する。コントローラ１０は、ユーザＵＳ１０の姿勢ＵＯ１３（ｔｉ）に基づいて、ディスプレイデバイス１およびマイクロホン１０１のローカル座標系（つまり、ディスプレイデバイス１の位置及び向きを基準とする座標系（以下、「デバイス座標系」という）およびマイク座標系）が時刻ｔｉにおいて基準座標系に対してどれだけ回転しているかを計算することができる。

　マイクロホン・セットがディスプレイデバイス１に備えられるので、マイク座標系は、デバイス座標系に従属する。故に、コントローラ１０は、基準方向Ｒ１２と基準座標系との間の対応関係と時刻ｔｉにおけるユーザＵＳ１０の姿勢ＵＯ１３（ｔｉ）とに基づいて、時刻tｉにおけるマイク座標系における音源の方向を基準座標系における音源の方向（角度）に変換可能である。これにより、コントローラ１０は、ユーザＵＳ１０の頭部の向きに関わらず、基準座標系における音源の方向を導出することができる。コントローラ１０は、時刻ｔ０～ｔ２にマイクロホン１０１が受信した音声信号に対応する音源方向が基準座標系において同一であると判定する。そのためコントローラ１０は、時刻ｔ０～ｔ２においてマイクロホン１０１が受信した音声信号の内容である「Ｈｅｌｌｏ」、「Ｉ’ｍ」、「Ｔａｒｏ」を、いずれも特定の音源（話者ＳＰ１１）の発言内容として特定する。

　図４に示すように、コントローラ１０は、識別された音源（話者ＳＰ１１）を表すアイコンＩＣ１５と各時刻ｔｉに音源から発せられた音（発言）の内容を示すテキスト画像ＴＩ１６とを、当該時刻ｔｉにおける当該音源の方向の推定結果とユーザＵＳ１０の姿勢ＵＯ１３（ｔｉ）とに応じた位置に配置した画像を逐次生成する。コントローラ１０は、生成した画像をディスプレイ１０２に逐次表示する。これにより、ディスプレイデバイス１のディスプレイ１０２内において、ディスプレイデバイス１に対する音源の方向に応じた表示位置に、音源から発される音に関する情報が表示される。かかる画像を見ることで、ユーザＵＳ１０は自分から見てどの方向に存在する話者がどのような発言をしたか（換言すると、どの方向に存在する音源がどのような音を発したか）を容易に把握することができる。なお、コントローラ１０が生成する画像におけるアイコンＩＣ１５の表示は必須ではなく、コントローラ１０はアイコンＩＣ１５を含まずテキスト画像ＴＩ１６を含む画像を生成してもよい。以降の例においても同様である。

　一方、以下に説明するように、ＩＭＵセンサ１０３のドリフトがある場合に、同一の音源が異なる音源として誤って識別されるおそれがある。図３の例と同様に、ディスプレイデバイス１を装着したユーザＵＳ１０が、時刻ｔ０～ｔ２に亘って、話者ＳＰ１１と相対したとする。図５に示すように、ＩＭＵセンサ１０３のドリフトによって、時刻ｔ１においてコントローラ１０が姿勢推定の基準とする基準方向ＲＤ１２（１）は、時刻ｔ０における基準方向ＲＤ１２（０）から乖離する。コントローラ１０は、ユーザＵＳ１０の姿勢ＵＯ１３（ｔ１）を、基準方向ＲＤ１２（０）ではなく基準方向ＲＤ１２（１）を基準として推定するので、ユーザＵＳ１０の姿勢ＵＯ１３（ｔ１）の推定結果には基準方向ＲＤ１２（１）と基準方向ＲＤ１２（０）との差に相当するドリフト誤差（ＩＭＵセンサ１０３のドリフトに起因する誤差）が含まれる。故に、座標系の変換によって導出される時刻t１での基準座標系における話者ＳＰ１１の音源方向にも、誤差が含まれることになる。同様に、ＩＭＵセンサ１０３のドリフトによって、時刻ｔ２における基準方向ＲＤ１２（２）は、基準方向ＲＤ１２（０）からさらに乖離する。コントローラ１０は、ユーザＵＳ１０の姿勢ＵＯ１３（ｔ２）を、基準方向ＲＤ１２（０）ではなく基準方向ＲＤ１２（２）を基準として推定するので、ユーザＵＳ１０の姿勢ＵＯ１３（ｔ２）の推定結果には基準方向ＲＤ１２（２）と基準方向ＲＤ１２（０）との差に相当するドリフト誤差が含まれる。故に、座標系の変換によって導出される時刻t２での基準座標系における話者ＳＰ１１の音源方向にも、誤差が含まれることになる。

　コントローラ１０は、複数の音声信号それぞれに対応する音源方向が基準座標系において近似する（所定の範囲内にある）場合に、それらの音声信号に対応する音を発した音源が同一であると判断する。そのため、コントローラ１０は、時刻ｔ０～ｔ１にマイクロホン１０１が受信した音声信号に対応する音源は同一であると判定するが、時刻ｔ２にマイクロホン１０１が受信した音声信号に対応する音源は上記音源とは異なると判定する可能性がある。これにより、時刻ｔ０～ｔ１においてマイクロホン１０１が受信した音声信号の内容である「Ｈｅｌｌｏ」、「Ｉ’ｍ」は第１音源の発言内容として特定される。他方、時刻ｔ２においてマイクロホン１０１が受信した音声信号の内容である「Ｔａｒｏ」は第１音源とは異なる第２音源の発言内容として特定される。

　図６に示すように、コントローラ１０は図４と同様に、識別された第１音源を表すアイコンＩＣ１５と、時刻ｔ０，ｔ１に第１音源から発せられた音（発言）の内容を示すテキスト画像ＴＩ１６を、時刻ｔ０，ｔ１における当該第１音源の方向の推定結果とユーザＵＳ１０の姿勢ＵＯ１３（ｔ０），ＵＯ１３（ｔ１）とに応じた位置に配置した画像を逐次生成する。一方、時刻ｔ２において、コントローラ１０は、新たに識別された第２音源を表すアイコンＩＣ１７と、時刻ｔ２に第２音源から発せられた音（発言）の内容を示すテキスト画像ＴＩ１８を、時刻ｔ２における当該第２音源の方向の推定結果とユーザＵＳ１０の姿勢ＵＯ１３（ｔ２）とに応じた位置に配置した画像を生成する。かかる画像は、時刻ｔ２に新たな話者が現れたとユーザに認識させかねないが、現実には１人の話者ＳＰ１１しか存在しないから、ユーザは当該画像を見ることで混乱したり違和感を覚えたりするおそれがある。

　本実施形態のコントローラ１０は、ＩＭＵセンサ１０３から取得されたセンサデータに関して所定の更新条件が成立したことに応じて、基準方向を更新（つまり、基準方向と基準座標系との間の対応関係を更新）する。これにより、推定されるディスプレイデバイス１の姿勢のドリフト誤差が補正され、それに伴い、音源から発された音に関する情報の表示位置のずれが補正されるとともに、同一の音源が異なる音源として誤って識別されることが抑制される。図３および図５の例と同様に、ディスプレイデバイス１を装着したユーザＵＳ１０が、時刻ｔ０～ｔ２に亘って、話者ＳＰ１１と相対したとする。図７に示すように、ＩＭＵセンサ１０３のドリフトによって、時刻ｔ１における基準方向ＲＤ１２ａ（１）は、時刻ｔ０における基準方向ＲＤ１２ａ（０）から乖離する。時刻ｔ１と時刻ｔ２の間の時刻ｔｘにおいて、コントローラ１０は、ユーザが所定のジェスチャ（例えば、うなずくジェスチャ、または首を傾げるジェスチャ）を行ったことをＩＭＵセンサ１０３から取得したセンサデータに基づいて検出すると、更新条件が成立したと判定する。この成立判定に応じて、コントローラ１０は、基準方向を更新（リセット）する。具体的には、コントローラ１０は、時刻ｔｘにおける基準方向ＲＤ１２ａ（ｘ）を、時刻ｔｘにおけるユーザＵＳ１０の正面方向（つまり、ディスプレイデバイス１の正面方向）に対応する基準方向ＲＤ１２ｂ（０）に更新する。時刻ｔｘにおいてユーザＵＳ１０がＳＰ１１に正対している場合、基準方向ＲＤ１２ｂ（０）は基準方向ＲＤ１２ａ（０）と一致する。ＩＭＵセンサ１０３のドリフトによって、時刻ｔ２における基準方向ＲＤ１２ｂ（１）は、基準方向ＲＤ１２ｂ（０）から乖離する。しかしながら、基準方向ＲＤ１２ｂ（１）と基準方向ＲＤ１２ｂ（０）との間の誤差は、基準方向のリセットをしなかった場合の時刻ｔ２における誤差（図５における基準方向ＲＤ１２（２）と基準方向ＲＤ１２（０）との間の誤差）に比べて抑制される。

　この結果、時刻ｔ０～時刻ｔ２において推定された基準座標系における音源の方向の変動幅が小さくなるので、コントローラ１０は、時刻ｔ０～ｔ２にマイクロホン１０１が受信した音声信号に対応する音源が同一であると判定する。これにより、時刻ｔ０～ｔ２においてマイクロホン１０１が受信した音声信号の内容である「Ｈｅｌｌｏ」、「Ｉ’ｍ」、「Ｔａｒｏ」は、いずれも特定の音源（話者ＳＰ１１）の発言内容として特定される。

　図８に示すように、コントローラ１０は、識別された音源（話者ＳＰ１１）を表すアイコンＩＣ１５と各時刻ｔｉに音源から発せられた音（発言）の内容を示すテキスト画像ＴＩ１６とを、当該時刻ｔｉにおける当該音源の方向の推定結果とユーザＵＳ１０の姿勢ＵＯ１３（ｔｉ）に応じた位置に配置した画像を逐次生成する。コントローラ１０は、生成した画像をディスプレイ１０２に逐次表示する。かかる画像を見ることで、ユーザＵＳ１０は自分から見てどの方向に存在する話者がどのような発言をしたか（換言すると、どの方向に存在する音源がどのような音を発したか）を容易に把握することができる。

（３）データベース
　本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置１１に記憶される。

（３－１）音源データベース
　本実施形態の音源データベースについて説明する。図９は、本実施形態の音源データベースのデータ構造を示す図である。

　音源データベースには、音源情報が格納される。音源情報は、コントローラ１０によって識別された、マイクロホン１０１の周囲の音源（典型的には、話者）に関する情報である。

　図９に示すように、音源データベースは、「ＩＤ」フィールドと、「名称」フィールドと、「アイコン」フィールドと、「方向」フィールドとを含む。各フィールドは、互いに関連付けられている。

　「ＩＤ」フィールドには、音源ＩＤが格納される。音源ＩＤは、音源を識別する情報である。コントローラ１０は、新たな音源を検出すると、新規の音源ＩＤを発行し、当該音源ＩＤを当該音源に割り当てる。

　「名称」フィールドには、音源名情報が格納される。音源名情報は、音源の名称に関する情報である。コントローラ１０は、音源名情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。コントローラ１０は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期音源名称を割り当てることができる。

　「アイコン」フィールドには、アイコン情報が格納される。アイコン情報は、音源のアイコンに関する情報である。一例として、アイコン情報は、アイコン画像（例えば、プリセットアイコン画像のいずれか、またはユーザによって提供された写真、もしくは絵）、またはアイコンの書式（例えば、色、テクスチャ、光学的効果、形状、など）を特定可能な情報を含むことができる。コントローラ１０は、アイコン情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。コントローラ１０は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期アイコンを割り当てることができる。
　ただし、ユーザ向けに提示する画像に音源のアイコンを表示しない場合には、アイコン情報を音源情報から省略することができる。

　「方向」フィールドは、音源方向情報が格納される。音源方向情報は、マイクロホン１０１に対する音源の方向に関する情報である。一例として、音源の方向は、基準座標系における所定の方向を０度とする軸からの偏角として表現される。

　その他、音源情報は、音源距離情報を含んでもよい。音源距離情報は、マイクロホン１０１から音源までの距離に関する情報である。また、音源方向情報および音源距離情報は、音源位置情報として表現することもできる。音源位置情報は、マイクロホン１０１に対する音源の相対位置（つまり、マイク座標系における音源の座標）に関する情報である。

（４）情報処理
　本実施形態の情報処理について説明する。

（４－１）音声処理
　本実施形態の音声処理について説明する。図１０は、本実施形態の音声処理のフローチャートである。図１１は、マイクロホンによる集音を説明するための図である。図１２は、音源の方向を説明するための図である。図１３は、本実施形態の音声処理における音源の識別の詳細を例示するフローチャートである。図１４は、本実施形態の音声処理における基準方向の更新の第１例を示すフローチャートである。

　図１０に示す音声処理は、ディスプレイデバイス１の電源がＯＮになり、かつ初期設定が完了した後に開始される。ただし、図１０に示す処理の開始タイミングはこれに限定されない。図１０に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これによりディスプレイデバイス１のユーザはリアルタイムに更新される画像を閲覧することができる。

　コントローラ１０は、マイクロホン１０１を介して音声信号の取得（Ｓ１１０）を実行する。
　具体的には、マイクロホン・セットの備える複数のマイクロホン１０１－１，・・・、１０１－５は、話者から発せられる発話音をそれぞれ集音する。マイクロホン１０１－１～１０１－５は、図１１に示される複数のパスを介して到来した発話音を集音する。マイクロホン１０１－１～１０１－５は、集音した発話音を音声信号へ変換する。

　コントローラ１０は、マイクロホン１０１－１～１０１－５から、話者ＰＲ３，ＰＲ４，及びＰＲ５の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン１０１－１～１０１－５から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報（例えば遅延や位相変化）が含まれている。

　ステップＳ１１０の後、コントローラ１０は、到来方向の推定（Ｓ１１１）を実行する。
　記憶装置１１には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。

　到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したＭＵＳＩＣ（Multiple Signal Classification）、最小ノルム法、又はＥＳＰＲＩＴ（Estimation of Signal Parameters via Rotational Invariance Techniques）などが用いられる。

　コントローラ１０は、到来方向推定モデルに、マイクロホン１０１－１～１０１－５から受信した音声信号を入力することで、マイクロホン１０１－１～１０１－５により集音された発話音の到来方向（つまり、マイクロホン・セットに対する発話音の音源の方向）を推定する。このとき、コントローラ１０は、例えば、マイク座標系において、マイクロホン１０１－１～１０１－５を基準として定められた所定の方向（本実施形態においては、マイクロホン・セットの前方（ｘ＋方向））を０度とする軸からの偏角で発話音の到来方向を表現する。図１２に示される例では、マイクロホン・セットはディスプレイデバイス１と一体になっており、話者ＰＲ３から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ２ずれた方向と推定する。マイクロホン・セットは、話者ＰＲ４から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ３ずれた方向と推定する。マイクロホン・セットは、話者ＰＲ５から発せられた発話音の到来方向を、ｘ軸から右方向に角度Ａ１ずれた方向と推定する。

　ステップＳ１１１の後、コントローラ１０は、音源の識別（Ｓ１１２）を実行する。
　具体的には、コントローラ１０は、ステップＳ１１１において取得した音源の方向（以下、「対象方向」という）の推定結果に基づいて、マイクロホン・セットの周囲に存在する音源を識別する。

　一例として、コントローラ１０は、図１３に示す処理を実行する。
　まず、コントローラ１０は、計測結果の取得（Ｓ１１３０）を実行する。
　具体的には、コントローラ１０は、ＩＭＵセンサ１０３から計測結果を取得する。

　ステップＳ１１３０の後に、コントローラ１０は、基準方向の更新（Ｓ１１３１）を実行する。
　具体的には、コントローラ１０は、ステップＳ１１３０において取得した計測結果に基づいて、必要に応じて、基準方向を更新する。

　基準方向の更新（Ｓ１１３１）の第１例として、コントローラ１０は、図１４に示す処理を行う。
　まず、コントローラ１０は、ジェスチャ判定（Ｓ２０１）を実行する。
　具体的には、コントローラ１０は、ステップＳ１１３０において取得した計測結果に基づいて、所定の首振りジェスチャが発生したか否かを判定する。コントローラ１０は、計測結果に対して、例えばパターンマッチングを行うことでかかる判定を実現してもよいし、学習済みモデルを用いてかかる判定を実現してもよい。

　所定の首振りジェスチャは、うなずくジェスチャ、首を傾げるジェスチャ、またはその他のジェスチャの少なくとも１つを含むことができる。人間の身体の構造上、うなずくジェスチャの間、ユーザの頭部（つまりディスプレイデバイス１）のピッチ角は大きく変動するが、ディスプレイデバイス１のヨー角（鉛直軸周りの回転角であり、ユーザの方位に相当する）は比較的安定する。また、人間の身体の構造上、首を傾げるジェスチャの間、ディスプレイデバイス１のロール角は大きく変動するが、ディスプレイデバイス１のヨー角は比較的安定する。

　例えば、コントローラ１０は、ＩＭＵセンサ１０３から取得したセンサデータに応じたピッチ角指標がピッチ閾値以上であった場合に、うなずくジェスチャが発生したと判定してもよい。ピッチ角指標としては、例えば、推定されたディスプレイデバイス１の姿勢の１時点におけるピッチ角の絶対値、または連続する複数時点におけるピッチ角の統計値（例えば、平均値、中央値、最大値、最小値、最頻値、分散、または標準偏差）の絶対値を用いることができる。また、コントローラ１０は、ＩＭＵセンサ１０３から取得したセンサデータに応じたロール角指標がロール閾値以上であった場合に、首を傾げるジェスチャが発生したと判定してもよい。ロール角指標としては、例えば、推定されたディスプレイデバイス１の姿勢の１時点におけるロール角の絶対値、または連続する複数時点のロール角の統計値（例えば、平均値、中央値、最大値、最小値、最頻値、分散、または標準偏差）の絶対値を用いることができる。

　ピッチ閾値は、全ユーザに共通の値が用いられてもよいし、ユーザを属性（例えば、人種、体格、性別、年齢層など）に基づいて分類したクラスごとに共通の値が用いられてもよいし、各ユーザに対して個別に定められてもよい。一例として、コントローラ１０は、ユーザにうなずくジェスチャを行うように促す情報の提示を行い、情報を提示した後にＩＭＵセンサ１０３から取得したセンサデータに応じたピッチ角の値に基づいてピッチ閾値を決定してもよい。同様に、ロール閾値は、全ユーザに共通の値が用いられてもよいし、ユーザを属性に基づいて分類したクラスごとに共通の値が用いられてもよいし、各ユーザに対して個別に定められてもよい。一例として、コントローラ１０は、ユーザに首を傾げるジェスチャを行うように促す情報の提示を行い、情報を提示した後にＩＭＵセンサ１０３から取得したセンサデータに応じたロール角の値に基づいてロール閾値を決定してもよい。

　上述のように、コントローラ１０は、うなずくジェスチャ又は首を傾げるジェスチャなどの特定方向の首振り動作をユーザが行ったと判定したことを、基準方向を更新するための条件とする。これは、人間の身体の構造上、大きくうなずくジェスチャを行ったり大きく首を傾げるジェスチャを行ったりするためには、ユーザの顔がユーザの胴体の正面方向を向いていることが必要だからである。つまり、ユーザの胴体が対話の相手に正対しているという前提において、ユーザがうなずくジェスチャ又は首を傾げるジェスチャを行ったことが検出された場合、その検出時点においてユーザの顔の向き（すなわちディスプレイデバイス１の向き）が対話の相手に正対している可能性が高い。そして、図７を用いて説明したように、ユーザの顔の向きが対話の相手に正対している状態で基準方向がリセットされることで、ディスプレイデバイス１の姿勢推定の誤差が好適に抑制される。

　ただし、基準方向の更新条件はこれに限定されない。例えば、コントローラ１０は、ディスプレイデバイス１が備える所定のスイッチをユーザが押したと判定したことを、基準方向を更新するための条件としてもよい。この場合、ユーザは、姿勢推定の誤差が発生していることに気づいた際に、正面方向を向いて（顔の向きを対話の相手に正対させて）所定のスイッチ押すことで、基準方向をリセットして誤差を補正できる。

　ステップＳ２０１において所定のジェスチャが発生したと判定した場合に、コントローラ１０は、基準方向のリセット（Ｓ２０２）を実行する。
　具体的には、コントローラ１０は、所定の首振りジェスチャ時のディスプレイデバイス１の姿勢推定結果（特に、ヨー角の推定結果）に基づいて、当該ジェスチャの検知時のディスプレイデバイス１の正面方向に近づくように、基準方向をリセットする。ディスプレイデバイス１の正面方向は、例えば以下のいずれかとして特定される。
・所定の首振りジェスチャの検知時における１時点の推定結果
・所定の首振りジェスチャの検知時における連続する複数時点の推定結果の統計値（例えば、平均値、中央値、または最頻値）

　一例として、コントローラ１０は、以下のいずれか１つを、新たな（更新後の）基準方向（例えば、ディスプレイデバイス１の姿勢を示す方位角が０度となる基準方向）として設定する。
・ディスプレイデバイス１の正面方向
・現行の（更新前の）基準方向と、ディスプレイデバイス１の正面方向との加重平均
・現行の（更新前の）基準方向を、ディスプレイデバイス１の正面方向に近づくように補正した値

　ステップＳ２０２の完了を以て、コントローラ１０は、図１４の処理を終了する。
　また、ステップＳ２０１において所定のジェスチャが発生しなかった場合に、コントローラ１０は、基準方向の更新（Ｓ２０２）をスキップし、図１４の処理を終了する。

　基準方向の更新（Ｓ１１３１）の第２例として、コントローラ１０は、前述のピッチ角指標が大きいほど、更新後の基準方向が更新前の基準方向に対してディスプレイデバイス１の正面方向に近づくように、基準方向をリセットする。

　基準方向の更新（Ｓ１１３１）の第３例として、コントローラ１０は、前述のロール角指標が大きいほど、更新後の基準方向が更新前の基準方向に対してディスプレイデバイス１の正面方向に近づくように、基準方向をリセットする。

　基準方向の更新（Ｓ１１３１）の第４例として、コントローラ１０は、前述のピッチ角指標が第１ピッチ閾値を超える場合に、更新後の基準方向がディスプレイデバイス１の正面方向に一致するように基準方向をリセットする。コントローラ１０は、ピッチ角指標が第１ピッチ閾値と第２ピッチ閾値との間である場合に、更新後の基準方向が更新前の基準方向とディスプレイデバイス１の正面方向との間の方向となるように当該基準方向をリセットする。ここで、第２ピッチ閾値は、第１ピッチ閾値よりも小さい。コントローラ１０は、ピッチ角指標が第２ピッチ閾値未満である場合に、基準方向をリセットしない。第１ピッチ閾値および第２ピッチ閾値は、基準方向の更新（Ｓ１１３１）の第１例におけるピッチ閾値と同様の技法で定めることができる。

　基準方向の更新（Ｓ１１３１）の第５例として、コントローラ１０は、前述のロール角指標が第１ロール閾値を超える場合に、更新後の基準方向がディスプレイデバイス１の正面方向に一致するように基準方向をリセットする。コントローラ１０は、ロール角指標が第１ロール閾値と第２ロール閾値との間である場合に、更新後の基準方向が更新前の基準方向とディスプレイデバイス１の正面方向との間の方向となるように基準方向をリセットする。ここで、第２ロール閾値は、第１ロール閾値よりも小さい。コントローラ１０は、ロール角指標が第２ロール閾値未満である場合に、基準方向をリセットしない。第１ロール閾値および第２ロール閾値は、基準方向の更新（Ｓ１１３１）の第１例におけるロール閾値と同様の技法で定めることができる。

　ステップＳ１１３１の後に、コントローラ１０は、座標系の変換（Ｓ１１３２）を実行する。
　具体的には、コントローラ１０は、ステップＳ１１３０において取得した計測結果、およびディスプレイデバイス１の姿勢推定結果に基づいて、ステップＳ１１１において取得した対象方向の推定結果（マイク座標系における音源方向）を基準座標系における音源方向に変換する。

　ステップＳ１１３２の後に、コントローラ１０は、一致判定（Ｓ１１３３）を実行する。
　具体的には、コントローラ１０は、対象方向に対応する音源が識別済みの音源と同一であるか否かを判定する。
　一例として、コントローラ１０は、対象方向を基準座標系における音源方向に変換した結果を、識別済みの音源についての音源方向情報（図９）と比較する。そして、コントローラ１０は、変換された対象方向が識別済みの音源についての音源方向情報のいずれかと適合すると判定した場合に、適合した音源方向情報を持つ（識別済みの）音源と当該対象方向に対応する音源とを一致する音源として扱う。他方、コントローラ１０は、変換された対象方向が識別済みの音源についての音源方向情報のいずれとも適合しないと判定した場合に、当該対象方向に新たな音源が存在することを検出する。ここで、変換された対象方向が音源方向情報に適合することとは、少なくとも変換された対象方向が音源方向情報の示す方向に一致することを含み、さらに変換された対象方向と音源方向情報の示す方向との差または比率が許容範囲内であることを含むことができる。

　ステップＳ１１３３において一致する音源が発見されなかった場合に、コントローラ１０は、新規音源ＩＤの付与（Ｓ１１３４）を実行する。
　具体的には、コントローラ１０は、対象方向に対応する音源から発せられた音に関する情報（例えば音声認識結果）に新たな音源ＩＤを付与する。さらに、コントローラ１０は、この新たな音源ＩＤに対応するレコードを音源データベース（図９）に追加する。

　ステップＳ１１３３において一致する音源が発見された場合に、コントローラ１０は、一致する音源ＩＤの付与（Ｓ１１３５）を実行する。
　具体的には、コントローラ１０は、当該音源を識別する音源ＩＤを、対象方向に対応する音源から発せられた音に関する情報（例えば音声認識結果）に付与する。

　ステップＳ１１３４またはステップＳ１１３５の完了を以て、コントローラ１０は図１３の処理を終了する。

　ステップＳ１１２の後、コントローラ１０は、音声信号の抽出（Ｓ１１３）を実行する。
　記憶装置１１には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。

　コントローラ１０は、ビームフォーミングモデルに、Ｓ１１１において推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

　図１２に示される例では、コントローラ１０は、計算された角度Ａ１をビームフォーミングモデルに入力し、ｘ軸から右方向に角度Ａ１ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。コントローラ１０は、計算された角度Ａ２をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ２ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。コントローラ１０は、計算された角度Ａ３をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ３ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。

　コントローラ１０は、マイクロホン１０１－１～１０１－５から取得した音声信号を、角度Ａ１について計算したパラメータで増幅、又は減衰させる。コントローラ１０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ１に対応する方向の音源から到来した発話音についての音声信号を抽出する。

　コントローラ１０は、マイクロホン１０１－１～１０１－５から取得した音声信号を、角度Ａ２について計算したパラメータで増幅、又は減衰させる。コントローラ１０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ２に対応する方向の音源から到来した発話音についての音声信号を抽出する。

　コントローラ１０は、マイクロホン１０１－１～１０１－５から取得した音声信号を、角度Ａ３について計算したパラメータで増幅、又は減衰させる。コントローラ１０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ３に対応する方向の音源から到来した発話音についての音声信号を抽出する。

　ステップＳ１１３の後、コントローラ１０は、音声認識処理（Ｓ１１４）を実行する。
　記憶装置１１には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置１１の代わりに、コントローラ１０がネットワーク（例えばインターネット）を介してアクセス可能な外部装置（例えばクラウドサーバ）に保存されていてもよい。

　コントローラ１０は、音声認識モデルに、ステップＳ１１３において抽出した音声信号を入力することで、入力した音声信号に対応するテキストを決定する。コントローラ１０は、音声信号に対応する音源の識別結果に基づいて音声認識エンジンを選択してもよい。

　図１２に示される例では、コントローラ１０は、角度Ａ１～Ａ３について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。

　ステップＳ１１４の後、コントローラ１０は、テキスト画像生成（Ｓ１１５）を実行する。
　具体的には、コントローラ１０は、ステップＳ１１４における音声認識処理の結果に基づくテキストを表すテキスト画像を生成する。

　ステップＳ１１５の後、コントローラ１０は、表示態様の決定（Ｓ１１６）を実行する。
　具体的には、コントローラ１０は、ステップＳ１１５において生成したテキスト画像を含む表示画像を、ディスプレイ１０２にどのような態様で表示するかを決定する。

　ステップＳ１１６の後、コントローラ１０は、画像表示（Ｓ１１７）を実行する。
　具体的には、プロセッサ１２は、ステップＳ１１６において決定した表示態様に応じた表示画像を、ディスプレイ１０２に表示する。

（４－２）ディスプレイデバイスの表示例
　ディスプレイデバイスの表示例について説明する。
図１５は、ディスプレイデバイスにおける表示例を表す図である。図１６は、ユーザの視界における見え方を説明するための図である。

　以下では、ステップＳ１１６における表示態様の決定に応じた表示画像の例を詳細に説明する。コントローラ１０は、少なくとも基準座標系における音源の方向と、ユーザの姿勢（つまり、ＩＭＵセンサ１０３による計測結果）とに基づいて、ディスプレイデバイス１の表示部におけるテキスト画像の表示位置を決定する。

　ここでは、テキスト画像の左右方向の表示位置について説明する。ここで、図１５において破線で描かれている話者Ｐ２～Ｐ４の像は、ディスプレイ１０２を透過してユーザＰ１の目に映る実像を表したものであり、ディスプレイ１０２に表示される画像には含まれない。また、図１５において描かれているテキスト画像Ｔ１～Ｔ３は、ディスプレイ１０２に表示されてユーザＰ１の目に映る画像を表したものであり、実空間には存在しない。なお、ディスプレイ１０２－１を介して見る視界とディスプレイ１０２－２を介して見る視界とは、視差に応じて互いに像の位置が異なる。

　図１５及び図１６に示すように、コントローラ１０は、テキスト画像に係る音声を発した音源の方向とユーザの姿勢とに対応する位置を、テキスト画像の表示位置として決定する。より詳細には、コントローラ１０は、ディスプレイデバイス１に対して角度Ａ１の方向から到来する音声（話者Ｐ２の発話音）に対応するテキスト画像Ｔ１の表示位置を、ユーザＰ１の視点から見て角度Ａ１に対応する方向に見える位置に決定する。
　コントローラ１０は、ディスプレイデバイス１に対して角度Ａ２の方向から到来する音声（話者Ｐ３の発話音）に対応するテキスト画像Ｔ２の表示位置を、ユーザＰ１の視点から見て角度Ａ２に対応する方向に見える位置に決定する。
　コントローラ１０は、ディスプレイデバイス１に対して角度Ａ３の方向から到来する音声（話者Ｐ４の発話音）に対応するテキスト画像Ｔ３の表示位置を、ユーザＰ１の視点から見て角度Ａ３に対応する方向に見える位置に決定する。
　なお、ここで角度Ａ１～Ａ３は方位角を表す。

　このように、ディスプレイ１０２において基準座標系における各音源の方向とユーザの姿勢とに応じた表示位置にテキスト画像Ｔ１～Ｔ３が表示される。これにより、ディスプレイデバイス１のユーザＰ１に対して、話者Ｐ２の発言内容を表すテキスト画像Ｔ１が、ディスプレイ１０２を透過して視認される話者Ｐ２の像と共に提示されることになる。また、ユーザＰ１に対して、話者Ｐ３の発言内容を表すテキスト画像Ｔ２が、ディスプレイ１０２を透過して視認される話者Ｐ３の像と共に提示されることになる。また、ユーザＰ１に対して、話者Ｐ４の発言内容を表すテキスト画像Ｔ３が、ディスプレイ１０２を透過して視認される話者Ｐ４の像と共に提示されることになる。すなわち、ディスプレイ１０２に表示されるテキスト画像の左右方向の表示位置は、基準座標系における音源の方向の推定結果に応じて決まる。ディスプレイデバイス１の向き（すなわちユーザＰ１の姿勢（顔の向き））が変わった場合、同様に発言者の像と発言内容のテキスト画像とがユーザＰ１から見て同じ方向に見えるように、ディスプレイ１０２におけるテキスト画像の表示位置が変更される。

　なお、ディスプレイデバイス１の表示部において、音源から発された音に関する情報を音源の方向に応じた位置に表示する方法は、上記の例に限定されない。例えば、ディスプレイデバイス１は、音声認識されたテキストを表示部内の所定位置に表示しつつ、各音源の方向に応じた位置に各音源に対応するシンボル画像を表示してもよい。また例えば、ディスプレイデバイス１は、ディスプレイデバイス１に対する各音源の方向を俯瞰図上で表示してもよい。

（５）小括
　以上説明したように、本実施形態のコントローラ１０は、ユーザの頭部に装着可能に構成されたディスプレイデバイス１に搭載されたＩＭＵセンサ１０３から、当該ディスプレイデバイス１の姿勢の変化を示すセンサデータを取得する。コントローラ１０は、取得したセンサデータと音源の方向を示す情報とに基づいて、ディスプレイデバイス１のディスプレイ１０２内の表示位置であって当該ディスプレイデバイス１に対する音源の方向に応じた位置に、当該音源から発される音に関する情報を表示する。コントローラ１０は、取得したセンサデータに関して所定の条件が成立したことに応じて、音に関する情報の表示位置のずれを補正する。これにより、音源から発せられた音に関する情報の表示位置のずれが適時に補正されるので、当該情報を適切な位置に表示することができる。

　所定の条件は、ディスプレイデバイス１を装着したユーザが所定の首振り動作を行った場合に、成立するように定められてよい。これにより、ユーザが所定の首振り動作を行った時に、音源から発せられた音に関する情報の表示位置のずれが補正されるので、ユーザに与える違和感を抑制しながら当該情報を適切な位置に表示することができる。また、ユーザが他者との会話中に不自然なデバイス操作を行うことなく、表示のずれを補正できる。

　コントローラ１０は、取得したセンサデータに基づいてディスプレイデバイス１の姿勢を推定してもよい。コントローラ１０は、推定した姿勢と音源の方向を示す情報とに基づいてディスプレイデバイス１のディスプレイ１０２内の表示位置であって当該ディスプレイデバイス１に対する音源の方向に応じた表示位置に、当該音源から発される音に関する情報を表示してもよい。これにより、音源から発せられた音に関する情報の表示位置が、ディスプレイデバイス１の姿勢に連動するので、ユーザによる情報の表示位置と音源の方向との間の関係の把握を支援することができる。

　コントローラ１０は、推定した姿勢のドリフト誤差を補正することで、音に関する情報の表示位置のずれを補正してもよい。これにより、音に関する情報の表示位置に対してドリフト誤差が及ぼす悪影響を抑制することができる。

　コントローラ１０は、推定した姿勢の方位角の基準方向を、所定の条件が成立した時点におけるディスプレイデバイス１の正面方向に近づくように更新することで、推定した姿勢のドリフト誤差を補正してもよい。これにより、更新後の基準方向が、所定の条件が成立した時点におけるディスプレイデバイス１の正面方向に近づくので、音に関する情報の表示位置に対してドリフト誤差が及ぼす悪影響を効果的に抑制することができる。

　所定の条件は、取得したセンサデータに応じたピッチ角の指標がピッチ閾値以上であるという条件を含んでもよい。これにより、ユーザがうなずくような動作を行ったか否かを適切に判定でき、かつユーザに与える違和感を抑制しながら、音に関する情報の表示位置に対してドリフト誤差が及ぼす悪影響を抑制することができる。

　所定の条件は、取得したセンサデータに応じたロール角の指標がロール閾値以上であるという条件を含んでもよい。これにより、ユーザが首を傾げるような動作を行ったか否かを適切に判定でき、かつユーザに与える違和感を抑制しながら、音に関する情報の表示位置に対してドリフト誤差が及ぼす悪影響を抑制することができる。

　コントローラ１０は、ピッチ角の指標が大きいほど、基準方向が正面方向に近づくように、当該基準方向を更新してもよい。これにより、うなずくような動作の大小に応じて、基準方向の更新量が調整されるので、基準方向の更新がユーザに与える違和感を抑制することができる。

　コントローラ１０は、ピッチ角の指標が第１ピッチ閾値を超える場合に、基準方向が正面方向に一致するように、当該基準方向を更新してもよい。これにより、ユーザが大きくうなずくような動作を行った場合に、当該動作を行った時点におけるユーザの正面に一致するように基準方向をリセットすることができる。コントローラ１０は、ピッチ角の指標が第１ピッチ閾値と当該第１ピッチ閾値よりも小さい第２ピッチ閾値との間である場合に、更新後の基準方向が更新前の基準方向と正面方向との間の方向となるように、基準方向を更新してもよく、ピッチ角の指標が第２ピッチ閾値未満である場合に、基準方向を更新しなくてもよい。これにより、ユーザが中程度のうなずくような動作を行った場合に、当該動作を行った時点におけるユーザの正面に近づくように基準方向をリセットすることができ、かつユーザのうなずくような動作が僅かであった場合には基準方向は維持されるので、基準方向の更新頻度を適正化することができる。

　コントローラ１０は、ディスプレイデバイス１を装着したユーザに所定の首振り動作を行うよう促す情報を提示し、当該情報を提示した後に取得されたセンサデータに基づいてピッチ閾値を決定してもよい。これにより、ユーザの所定の首振り動作時のピッチ角の特徴に応じたピッチ閾値を決定できるので、当該動作の発生をより精度良く検知することができる。

　コントローラ１０は、ディスプレイデバイス１が備える複数のマイクロホン１０１を含むマイクロホン・セットに対する音源の方向を示す情報を取得し、当該情報と、推定した（ディスプレイデバイス１の）姿勢とに基づいて、基準座標系における音源の方向を特定してもよい。コントローラ１０は、推定した姿勢と特定した方向とに基づいて、ディスプレイデバイス１のディスプレイ１０２内の表示位置であってディスプレイデバイス１に対する音源の方向に応じた表示位置に、当該音源から発される音に関する情報を表示してもよい。これにより、ディスプレイデバイス１がマイクロホン・セットを備える構成において、ＩＭＵセンサ１０３のドリフトによって、ディスプレイデバイス１の姿勢の推定結果または基準方向における音源の方向が実態と乖離するのを抑制することができる。

　音源から発される音に関する情報は、マイクロホン・セットにより収音された音声に対して音声認識を行うことで得られるテキストを含んでもよい。これにより、ユーザは表示された情報を見ることで音源としての話者の発話内容を把握することができる。

　ＩＭＵセンサ１０３はジャイロセンサを含んでよく、コントローラ１０によって取得されるデータは角速度データを含んでもよい。これにより、ディスプレイデバイス１の角速度に関する計測結果に基づく制御を行うことができる。

　ディスプレイデバイス１はグラス型ディスプレイデバイスであってよく、ディスプレイ１０２は当該ディスプレイデバイス１を装着したユーザの視野内に配置される。これにより、表示される情報をユーザが把握しやすくなる。

（６）変形例
　本実施形態の変形例について説明する。

（６－１）変形例１
　変形例１について説明する。変形例１は、ディスプレイデバイスとは別体のマルチマイクデバイスがマイクロホン・セットを備える例である。

（６－１－１）情報処理システムの構成
　変形例１の情報処理システムの構成を説明する。図１７は、変形例１の情報処理システムの構成例を示す図である。

　図１７に示される情報処理システム２００は、マルチマイクデバイス３０によって音声を取得し、且つ、取得した音声に対応するテキスト画像を、その音声の到来方向を識別可能な態様でディスプレイデバイス２に表示するように構成される。
　ディスプレイデバイス２の形態は、例えば、以下の少なくとも１つを含む。
　・グラス型ディスプレイデバイス
　・ヘッドマウントディスプレイ
　・ＰＣ
　・タブレット端末

　図１７に示されるように、情報処理システム２００は、ディスプレイデバイス２と、マルチマイクデバイス３０とを備える。ディスプレイデバイス２は、コントローラ１０と、ディスプレイ１０２と、ＩＭＵセンサ１０３とを備える。マルチマイクデバイス３０とディスプレイデバイス２との間の通信は、例えば、ＵＳＢによる接続、Ｂｌｕｅｔｏｏｔｈ（登録商標）による接続、または、Ｗｉ－Ｆｉ、携帯網などのネットワークを介した接続により実現される。

　マルチマイクデバイス３０は、ディスプレイデバイス２から独立して設置可能である。つまり、マルチマイクデバイス３０の位置および向きは、ディスプレイデバイス２の位置および向きから独立して決定することができる。

（６－１－１－１）マルチマイクデバイスの構成
　マルチマイクデバイスの構成について説明する。図１８は、変形例１のマルチマイクデバイスの外観を示す図である。

　図１８に示すように、マルチマイクデバイス３０は、複数のマイクロホン３１を含むマイクロホン・セットを備える。以下の説明では、マルチマイクデバイス３０は、５つのマイクロホン３１－１，・・・，３１－５（以下、特に区別しない場合は単にマイクロホン３１と表記する）を備えることとする。マルチマイクデバイス３０は、マイクロホン３１－１，・・・、３１－５を用いて、音源から発せられた音を受信（集音）することで音声信号を生成する。また、マルチマイクデバイス３０は、マイク座標系における音の到来方向（つまり、音源の方向）を推定する。さらに、マルチマイクデバイス３０は、ビームフォーミング処理を行う。要するに、マルチマイクデバイス３０は、図１０に示した音声信号処理のうち音声信号の取得（Ｓ１１０）、到来方向の推定（Ｓ１１１）、および音声信号の抽出（Ｓ１１３）の一部または全部を実行するための機能を備えることができる。マルチマイクデバイス３０は、これらの処理を行うためのプロセッサ、記憶装置、および通信インタフェースもしくは入出力インタフェースを備えることができる。

　マイクロホン３１は、例えば、マルチマイクデバイス３０の周辺の音を集音する。マイクロホン３１により集音される音には、例えば以下の少なくとも１つの音が含まれる。
　・人物による発話音
　・マルチマイクデバイス３０が使用される環境の音

　マルチマイクデバイス３０には、例えば筐体の表面にマルチマイクデバイス３０の基準方向（例えば、前方（つまり、ｘ＋方向）であるが、その他の所定の方向であってもよい）を示す目印３１ａが付されている。これにより、ユーザは、マルチマイクデバイス３０の向きを視覚情報から容易に認識することができる。なお、マルチマイクデバイス３０の向きを認識するための手段はこれに限られない。目印３１ａは、マルチマイクデバイス３０の筐体と一体化されていてもよい。

　マルチマイクデバイス３０は、当該マルチマイクデバイス３０の動き及び状態を検出するためにセンサを備えることができる。

（６－１－２）変形例１の一態様
　変形例１の一態様について説明する。図１９は、ＩＭＵセンサのドリフトがある場合にディスプレイに表示される画面の例を示す図である。

　変形例１のディスプレイデバイス２も、本実施形態のディスプレイデバイス１と同様のＵＩ（User Interface）画面を表示することができる。ただし、変形例１では、マルチマイクデバイス３０はユーザの姿勢に連動して動くことはないので、マルチマイクデバイス３０が動かされない限りマイク座標系と基準座標系との対応関係は一定である。そこで、コントローラ１０は、ある時点における基準座標系におけるマイクロホン・セットの姿勢を特定して保持する。マルチマイクデバイス３０から音の到来方向を取得すると、コントローラ１０は、マイクロホン・セットに対する音源の方向（音の到来方向）と、基準座標系におけるマイクロホン・セットの姿勢とに基づいて、基準座標系における音源方向を特定する。そしてコントローラ１０は、基準座標系における音源方向と、推定されたディスプレイデバイス２の姿勢とに基づいて、ディスプレイ１０２内においてディスプレイデバイス２に対する音源の方向に応じた表示位置に、音源から発される音に関する情報を表示する。変形例１では、本実施形態とは異なり、ＩＭＵセンサ１０３のドリフトが基準座標系における音源の方向の推定結果には影響しないので、同一話者が異なる音源として識別される事態は生じない。しかしながら、ＩＭＵセンサ１０３のドリフトによってユーザの姿勢の推定誤差が大きくなると、音源から発せられた音に関する情報の表示位置が不適切となるおそれがある。

　図３の例と同様に、ディスプレイデバイス２を装着したユーザＵＳ１０が、時刻ｔ０～ｔ２に亘って、話者ＳＰ１１と相対したとする。コントローラ１０は図４と同様に、識別された第１音源を表すアイコンＩＣ１５と、時刻ｔｉに音源（話者ＳＰ１１）から発せられた音（発言）の内容を示すテキスト画像ＴＩ１６を、時刻ｔｉにおける当該音源の方向の推定結果とユーザＵＳ１０の姿勢ＵＯ１３（ｔｉ）とに応じた位置に配置した画像を逐次生成する。しかしながら、ドリフト誤差が大きくなると、ユーザの姿勢ＵＯ１３（ｔｉ）の推定結果が不正確となるので、アイコンＩＣ１５およびテキスト画像ＴＩ１６の表示位置が、ユーザの姿勢が正確に推定された場合に決定される位置ＰＯ１７（すなわち、ユーザの視界において現実の音源が存在する位置）と乖離する。かかる画像では実際の音源の方向とはかけ離れた方向に対応する位置に当該音源から発せられた音に関する情報が配置されることから、ユーザは当該画像を見ることで混乱したり違和感を覚えたりするおそれがある。

　変形例１のコントローラ１０は、所定の更新条件が成立する場合に、基準方向を更新（つまり、基準方向と基準座標系との間の対応関係を更新）することで、ドリフト誤差の蓄積によるユーザの姿勢の推定誤差を抑制できる。つまり、音源から発せられた音に関する情報の表示位置を適正化することができる。

（６－１－３）変形例１の情報処理
　変形例１の音声処理について説明する。図２０は、変形例１の音声処理のフローチャートである。

　図２０に示す音声処理は、ディスプレイデバイス２およびマルチマイクデバイス３０の電源がＯＮになり、かつ初期設定が完了した後に開始される。ただし、図２０に示す処理の開始タイミングはこれに限定されない。図２０に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これによりディスプレイデバイス２のユーザはリアルタイムに更新される画像を閲覧することができる。

　マルチマイクデバイス３０は、マイクロホン３１を介して音声信号の取得（Ｓ１３０）を実行する。
　具体的には、マルチマイクデバイス３０の備える複数のマイクロホン３１－１，・・・、３１－５は、話者から発せられる発話音をそれぞれ集音する。

　ステップＳ１３０の後、マルチマイクデバイス３０は、到来方向の推定（Ｓ１３１）を実行する。
　マルチマイクデバイス３０が備える記憶装置には、本実施形態において説明した到来方向推定モデルが記憶されている。

　マルチマイクデバイス３０が備えるプロセッサは、到来方向推定モデルに、マイクロホン３１－１～３１－５から受信した音声信号を入力することで、マイクロホン３１－１～３１－５により集音された発話音の到来方向（つまり、マルチマイクデバイス３０に対する発話音の音源の方向）を推定する。このとき、プロセッサは、例えば、マイク座標系において、マイクロホン３１－１～３１－５を基準として定められた所定の方向（変形例１においては、マルチマイクデバイス３０の前方（ｘ＋方向））を０度とする軸からの偏角で発話音の到来方向を表現する

　ステップＳ１３１の後、マルチマイクデバイス３０は、音声信号の抽出（Ｓ１３２）を実行する。
　マルチマイクデバイス３０が備える記憶装置には、本実施形態において説明したビームフォーミングモデルが記憶されている。

　マルチマイクデバイス３０が備えるプロセッサは、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

　マルチマイクデバイス３０は、抽出した音声信号を、ステップＳ１３１において推定した当該音声信号に対応する音源の方向を示す情報（つまり、マルチマイクデバイス３０に対する音源の方向の推定結果）とともに、コントローラ１０へ送信する。

　ステップＳ１３２の後、コントローラ１０は、音源の識別（Ｓ１１２）を実行する。
　具体的には、コントローラ１０は、ステップＳ１３１において取得した音源の方向（以下、「対象方向」という）の推定結果をマルチマイクデバイス３０から受信する。コントローラ１０は、受信した推定結果に基づいて、マルチマイクデバイス３０の周囲に存在する音源を識別する。

　一例として、コントローラ１０は、図１３に示す処理を実行する。
　まず、コントローラ１０は本実施形態と同様に、計測結果の取得（Ｓ１１３０）、および基準方向の更新（Ｓ１１３１）を実行する。

　ステップＳ１１３１の後に、コントローラ１０は、座標系の変換（Ｓ１１３２）を実行する。
　具体的には、コントローラ１０は、マイク座標系と基準座標系との間の対応関係に基づいて、ステップＳ１３１において取得した対象方向の推定結果（マイク座標系における音源方向）を基準座標系における音源方向に変換する。

　ステップＳ１１３２の後に、コントローラ１０は本実施形態と同様に、一致判定（Ｓ１１３３）と、新規音源ＩＤの付与（Ｓ１１３４）または一致する音源ＩＤの付与（Ｓ１１３５）とを実行する。
　ステップＳ１１３４またはステップＳ１１３５の完了を以て、コントローラ１０は図１３の処理を終了する。

　なお、音源の識別（Ｓ１１２）は、コントローラ１０およびマルチマイクデバイス３０が分担して実行してもよい。例えば、マルチマイクデバイス３０が座標系の変換（Ｓ１１３２）、一致判定（Ｓ１１３３）、新規音源ＩＤの付与（Ｓ１１３４）、および一致する音源ＩＤの付与（Ｓ１１３５）を実行し、コントローラ１０が、計測結果の取得（Ｓ１１３０）、および基準方向の更新（Ｓ１１３１）を実行してもよい。

　ステップＳ１１２の後、コントローラ１０は本実施形態と同様に、音声認識処理（Ｓ１１４）、テキスト画像生成（Ｓ１１５）、表示態様の決定（Ｓ１１６）、および画像表示（Ｓ１１７）を実行する。

　なお、図２０では音声信号の抽出（Ｓ１３２）の後に音源識別（Ｓ１１２）を行う例を示したが、図１０を用いて説明した例と同様に、音源識別の後に音声信号の抽出が行われてもよい。この場合、マルチマイクデバイス３０が音源識別の処理を実行してもよい。

（６－１－３）小括
　以上説明したように、変形例１のコントローラ１０は、ディスプレイデバイス２とは分離して設けられた複数のマイクロホン３１を含むマイクロホン・セットに対する音源の方向を示す情報を取得する。コントローラ１０は、取得した情報と基準座標系におけるマイクロホン・セットの姿勢とに基づいて、基準座標系における音源の方向を特定する。コントローラ１０は、推定した（ディスプレイデバイス２の）姿勢と特定した方向とに基づいて、ディスプレイデバイス２のディスプレイ１０２内の表示位置であって当該ディスプレイデバイス２に対する音源の方向に応じた表示位置に、当該音源から発される音に関する情報を表示する。これにより、ディスプレイデバイス１とマイクロホン・セットとが分離して設けられる構成において、ＩＭＵセンサ１０３のドリフトによって、ディスプレイデバイス１の姿勢の推定結果が実態と乖離するのを抑制することができる。

（７）その他の変形例
　記憶装置１１は、ネットワークＮＷを介して、コントローラ１０と接続されてもよい。

　上記の情報処理の各ステップは、コントローラ１０及び図示しないサーバによって分担して実行されてもよい。

　上記説明では、ディスプレイデバイス１またはディスプレイデバイス２とコントローラ１０とが一体化される例を示した。しかしながら、コントローラ１０と、ディスプレイデバイス１またはディスプレイデバイス２とは、互いに独立した装置として構成されてもよい。この場合に、コントローラ１０は、クラウドサーバ内に存在してもよい。また、コントローラ１０およびマルチマイクデバイス３０が一体化されてもよい。

　上記の情報処理の各ステップは、ディスプレイデバイス１、ディスプレイデバイス２、コントローラ１０及びマルチマイクデバイス３０の何れでも実行可能である。例えば、変形例１のコントローラ１０は、マルチマイクデバイス３０によって生成されたマルチチャンネルの音声信号を取得し、到来方向の推定（Ｓ１３１）、および音声信号の抽出（Ｓ１３２）を行ってもよい。

　また、１台のコントローラ１０に複数のディスプレイデバイス１またはディスプレイデバイス２が接続されてよい。この場合に、例えば、情報の表示態様は、ディスプレイデバイス１またはディスプレイデバイス２毎に変更可能に構成されてよい。

　上述した実施形態では、コントローラ１０の入力デバイスからユーザの指示が入力される例を説明したが、これに限らない。ディスプレイデバイス１またはディスプレイデバイス２の備える操作部からユーザの指示が入力されてもよい。

　コントローラ１０またはマルチマイクデバイス３０による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。コントローラ１０またはマルチマイクデバイス３０は、例えば、以下の方法により音声信号を抽出してもよい。
　・Ｆｒｏｓｔビームフォーマ
　・適応フィルタビームフォーミング（一例として、一般化サイドローブキャンセラ）
　・ビームフォーミング以外の音声抽出方法（一例として、周波数フィルタ、又は機械学習）

　上記説明では、音源の方向を推定し、推定した方向とＩＭＵセンサ１０３による計測結果（すなわちユーザの向き）とに応じた位置に当該音源から発せられた音に関する情報を表示する例を説明した。しかしながら、音源の方向を動的に推定することは必須ではなく、各音源に対して既定の方向が事前に割り当てられてもよい。この場合に、コントローラ１０は、各音源に割り当てられた既定の方向とＩＭＵセンサ１０３のセンサデータに基づいて推定したディスプレイデバイス１の姿勢とに基づいて決定した位置に当該音源から発せられた音に関する情報を表示してもよい。

　例えば、ディスプレイデバイス１は、基準方向に対応する表示位置に、音源から発せられた音に関する情報を表示してもよい。この場合、ディスプレイデバイス１を装着したユーザが基準方向よりも左の方向を向いていれば、ディスプレイの右寄りの位置に情報が表示され、ユーザが基準方向より右の方向を向いていれば、ディスプレイの左寄りの位置に情報が表示される。ユーザに対する音源の方向と基準方向とが一致していれば、ユーザから見て音源が存在する位置にその音源から発せられた音に関する情報が表示される。そして、ＩＭＵセンサ１０３のドリフトによりユーザに対する音源の方向と基準方向とがずれた場合、すなわち情報の表示位置にずれが生じた場合、ユーザは顔の向きを音源に正対させた状態で所定の首振り動作を行う。コントローラ１０は所定の首振り動作を検出すると、ディスプレイデバイス１の正面方向に合わせて基準方向をリセットする。これにより、ユーザに対する音源の方向と基準方向とのずれが解消され、それに伴って情報の表示位置のずれが補正される。

　以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

１　　　　　：ディスプレイデバイス
２　　　　　：ディスプレイデバイス
１０　　　　：コントローラ
１１　　　　：記憶装置
１２　　　　：プロセッサ
１３　　　　：入出力インタフェース
１４　　　　：通信インタフェース
２１　　　　：右テンプル
２２　　　　：右ヨロイ
２３　　　　：ブリッジ
２４　　　　：左ヨロイ
２５　　　　：左テンプル
２６　　　　：リム
３０　　　　：マルチマイクデバイス
３１　　　　：マイクロホン
１０１　　　：マイクロホン
１０２　　　：ディスプレイ
１０３　　　：ＩＭＵセンサ
２００　　　：情報処理システム

Claims

　ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するデータ取得手段と、
　前記データ取得手段により取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する表示制御手段と、
　前記データ取得手段により取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示制御手段により表示される情報の表示位置のずれを補正する補正手段と、
　を有する情報処理装置。
　前記ディスプレイデバイスを装着したユーザが所定の首振り動作を行った場合に、前記所定の条件が成立する、請求項１に記載の情報処理装置。
　前記データ取得手段により取得されたセンサデータに基づいて前記ディスプレイデバイスの姿勢を推定する推定手段を有し、
　前記表示制御手段は、前記推定手段により推定された姿勢と前記音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する、
　請求項１に記載の情報処理装置。
　前記補正手段は、前記推定手段により推定される姿勢のドリフト誤差を補正することで、前記表示制御手段により表示される情報の表示位置のずれを補正する、請求項３に記載の情報処理装置。
　前記補正手段は、前記推定手段による推定される姿勢の方位角の基準方向を、前記所定の条件が成立した時点における前記ディスプレイデバイスの正面方向に近づくように更新することで、前記推定手段により推定される姿勢のドリフト誤差を補正する、請求項４に記載の情報処理装置。
　前記所定の条件は、前記データ取得手段により取得されたセンサデータに応じたピッチ角の指標がピッチ閾値以上であるという条件を含む、請求項５に記載の情報処理装置。
　前記所定の条件は、前記データ取得手段により取得されたセンサデータに応じたロール角の指標がロール閾値以上であるという条件を含む、請求項５に記載の情報処理装置。
　前記補正手段は、前記ピッチ角の指標が大きいほど前記基準方向が前記正面方向に近づくように、前記基準方向を更新する、請求項６に記載の情報処理装置。
　前記補正手段は、前記ピッチ角の指標が第１ピッチ閾値を超える場合に、前記基準方向が前記正面方向に一致するように、前記基準方向を更新する、請求項６に記載の情報処理装置。
　前記補正手段は、
　前記ピッチ角の指標が前記第１ピッチ閾値と前記第１ピッチ閾値よりも小さい第２ピッチ閾値との間である場合に、更新後の前記基準方向が更新前の前記基準方向と前記正面方向との間の方向となるように、前記基準方向を更新し、
　前記ピッチ角の指標が前記第２ピッチ閾値未満である場合に、前記基準方向を更新しない、
　請求項９に記載の情報処理装置。
　前記ディスプレイデバイスを装着したユーザに所定の首振り動作を行うよう促す情報を提示する提示手段と、
　前記提示手段により情報を提示した後に前記データ取得手段により取得されたセンサデータに基づいて前記ピッチ閾値を決定する決定手段と、
　を有する請求項６に記載の情報処理装置。
　前記ディスプレイデバイスが備える複数のマイクロホンを含むマイクロホン・セットに対する前記音源の方向を示す情報を取得する方向取得手段と、
　前記方向取得手段により取得された情報と前記推定手段により推定された姿勢とに基づいて、基準座標系における前記音源の方向を特定する特定手段と、を有し、
　前記表示制御手段は、前記推定手段により推定された姿勢と前記特定手段により特定された方向とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する、
　請求項３に記載の情報処理装置。
　前記ディスプレイデバイスとは分離して設けられた複数のマイクロホンを含むマイクロホン・セットに対する前記音源の方向を示す情報を取得する方向取得手段と、
　前記方向取得手段により取得された情報と基準座標系における前記マイクロホン・セットの姿勢とに基づいて、基準座標系における前記音源の方向を特定する特定手段と、を有し、
　前記表示制御手段は、前記推定手段により推定された姿勢と前記特定手段により特定された方向とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する、
　請求項３に記載の情報処理装置。
　前記表示制御手段により表示される前記音源から発される音に関する情報は、前記マイクロホン・セットにより収音された音声に対して音声認識を行うことで得られるテキストを含む、請求項１２又は請求項１３に記載の情報処理装置。
　前記センサは、ジャイロセンサを含み、
　前記データ取得手段により取得されるセンサデータは、角速度を示すデータを含む、請求項１に記載の情報処理装置。
　前記ディスプレイデバイスは、グラス型ディスプレイデバイスであり、
　前記表示部は、前記ディスプレイデバイスを装着したユーザの視野内に配置される、請求項１に記載の情報処理装置。
　ユーザの頭部に装着可能なディスプレイデバイスであって、
　表示部と、
　前記ディスプレイデバイスの姿勢の変化を示すセンサデータを出力するセンサと、
　前記センサから出力されたセンサデータと音源の方向を示す情報とに基づいて、前記表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示する表示制御手段と、
　前記センサから出力されたセンサデータに関して所定の条件が成立したことに応じて、前記表示制御手段により表示される情報の表示位置のずれを補正する補正手段と、
　を有するディスプレイデバイス。
　コンピュータにより実行される情報処理方法であって、
　ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するステップと、
　取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示するステップと、
　取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示部に表示される情報の表示位置のずれを補正するステップと、
　を有する情報処理方法。
　コンピュータに、
　ユーザの頭部に装着可能なディスプレイデバイスが備えるセンサから、前記ディスプレイデバイスの姿勢の変化を示すセンサデータを取得するステップと、
　取得されたセンサデータと音源の方向を示す情報とに基づいて、前記ディスプレイデバイスの表示部内の表示位置であって前記ディスプレイデバイスに対する前記音源の方向に応じた表示位置に、前記音源から発される音に関する情報を表示するステップと、
　取得されたセンサデータに関して所定の条件が成立したことに応じて、前記表示部に表示される情報の表示位置のずれを補正するステップと、
　を実行させるためのプログラム。