WO2023195048A1

WO2023195048A1 - 音声拡張現実オブジェクト再生装置、情報端末システム

Info

Publication number: WO2023195048A1
Application number: PCT/JP2022/017058
Authority: WO
Inventors: 貞雄鶴賀; 康宣橋本; 和彦吉澤; 和之滝澤
Original assignee: マクセル株式会社
Priority date: 2022-04-04
Filing date: 2022-04-04
Publication date: 2023-10-12

Abstract

音声拡張現実オブジェクト再生装置は、仮想空間に対象をマッピングすることができる装置とされている。そして、この音声拡張現実オブジェクト再生装置は、所定の処理を実行するプロセッサを備えている。そして、この音声拡張現実オブジェクト再生装置のプロセッサは、一例として、スマートフォンや適宜のウェアラブル機器などの情報端末から出力されて入力される音声に基づいて、情報端末の位置に対応する仮想空間上の位置に、前記情報端末または前記情報端末のアプリを対象としてマッピングする処理を実行することができる。

Description

音声拡張現実オブジェクト再生装置、情報端末システム

　本発明は、音声拡張現実オブジェクト再生装置、および、音声拡張現実オブジェクト再生装置を用いた情報端末システムに関する。

　従来より、音声拡張現実オブジェクト再生装置の一例であって、ユーザの頭部に装着され、スピーカ等の音声出力装置から立体音響技術に基づく音声を出力し、且つ、眼前の表示画面に様々な情報を表示する音声拡張現実オブジェクト再生装置が知られている。

　ここで、特許文献１は、立体音響技術に関する技術を開示する。すなわち、特許文献１は、立体音響信号を生成して再生する立体音響信号再生装置であって、第１の距離で測定された頭部伝達関数に対して方位角に沿ったフーリエ変換を行った後に、ハンケル関数を用いて前記第１の距離から第２の距離への変換処理を行い、さらに前記ハンケル関数の次数を変数とする逆フーリエ変換を行って前記第２の距離における頭部伝達関数を生成する第１の処理部と、入力された音響信号に対して前記第２の距離における頭部伝達関数をフィルタとして適用して前記立体音響信号を生成する第２の処理部と、を備えたことを特徴とする立体音響信号再生装置を開示する。

　そして、特許文献１の技術は、水平面上の任意の距離のＨＲＴＦを合成する手法を用いる場合であっても、不連続点に起因する品質低下を抑制して、高品質な立体音響の再生が可能になるという効果を奏するとされている。また、特許文献１は、人間の知覚精度が高い水平面において、臨場感の高い立体音響信号再生装置を実現できることを開示する。

　その一方で、特許文献２は、音声処理装置を開示する。すなわち、特許文献２は、少なくとも２チャネル以上のマイクロホン素子を持つマイクロホンアレーと、前記マイクロホンアレーからの信号をチャネル毎に複数の周波数帯域に分割する帯域分割部と、前記帯域分割された帯域分割信号から音源方向を推定する音源定位部と、上記推定された音源方向毎に上記帯域分割信号を強調する音源分離部と、上記強調された帯域分割信号と上記推定された音源方向の情報を用いて、該帯域分割信号が複数または単数の音源からの信号であるか判定する音源重複判定部と、上記単数の音源からの帯域分割信号と判断された信号を用いて音源探索を行う音源探索部とを有することを特徴とする音声処理装置を開示する。

　特許文献２の技術は、複数の音源が重複しているかどうかを判定し単一の音源が鳴っている帯域分割信号のみを音源定位に用いることで、複数の音源が重複し音源の方向情報が失われた帯域成分を使わない。これにより、特許文献２の技術は、音声や音楽の鳴っている方向を高精度に知ることができるとされている。

特開２０１８－６４２２７号公報特開２００６－２２７３２８号公報

　ユーザによる音声拡張現実オブジェクト再生装置の使用の態様として、一例として、下記の方法が考えられる。すなわち、ユーザは、仮想オブジェクトとして対象（情報端末やアプリ）を音声拡張現実オブジェクト再生装置の仮想空間にマッピングし、該音声拡張現実オブジェクト再生装置を用いてマッピングした対象の操作を行う。しかしながら、例えば、ユーザの外界に対する視覚が制限される場合などでは、ユーザは容易なマッピングを行えず、ユーザの利便性が欠けるということが考えられる。なお、上記で説明した特許文献１および特許文献２は、このようなマッピング技術を開示しないと考えられる。

　そこで、本発明は、ユーザの利便性の向上が図られており、マッピングを容易に行うことができる音声拡張現実オブジェクト再生装置、および、該音声拡張現実オブジェクト再生装置を用いた情報端末システムを提供することを目的とする。

　本発明の第１の態様によれば、下記の音声拡張現実オブジェクト再生装置が提供される。音声拡張現実オブジェクト再生装置は、仮想空間に対象をマッピングすることができる。音声拡張現実オブジェクト再生装置は、プロセッサを備える。プロセッサは、情報端末から出力されて入力される音声に基づいて、前記情報端末の位置に対応する仮想空間上の位置に、前記情報端末または前記情報端末のアプリを対象としてマッピングする。

　本発明の第２の態様によれば、下記の情報端末システムが提供される。情報端末システムは、１台または複数台の情報端末と、仮想空間に対象をマッピングすることができる音声拡張現実オブジェクト再生装置と、を備える。音声拡張現実オブジェクト再生装置は、プロセッサを備える。プロセッサは、情報端末から出力されて入力される音声に基づいて、前記情報端末の位置に対応する仮想空間上の位置に、前記情報端末または前記情報端末のアプリを対象としてマッピングする。

　本発明によれば、ユーザの利便性の向上が図られており、マッピングを容易に行うことができる音声拡張現実オブジェクト再生装置、および、該音声拡張現実オブジェクト再生装置を用いた情報端末システムが提供される。

第１実施形態に係り、ヘッドマウントディスプレイの構成の一例の説明に用いるブロック図である。情報端末との通信の接続例を説明することに用いる図である。ヘッドマウントディスプレイの構造の一例の説明に用いる図である。ヘッドマウントディスプレイの構造の一例の説明に用いる図である。ユーザが対象をマッピングする方法の一例の説明に用いる図である。ユーザが対象をマッピングする方法の一例の説明に用いる図である。ユーザが対象をマッピングする方法の一例の説明に用いる図である。マッピング時に聞こえる音声の音源の説明に用いる図である。マッピング後に聞こえる音声の音源の説明に用いる図である。仮想空間における仮想音源と立体音響の関係の説明に用いる図である。局所座標系での仮想音源の位置の説明に用いる図である。世界座標系での仮想音源の位置の説明に用いる図である。マッピング処理の一例の説明に用いるフローチャートである。マッピング処理の一例の説明に用いるフローチャートである。マッピング処理の一例の説明に用いるフローチャートである。音声操作処理の一例の説明に用いるフローチャートである。音声操作処理の一例の説明に用いるフローチャートである。音声操作処理の一例の説明に用いるフローチャートである。音声操作におけるヘッドマウントディスプレイと情報端末の間でのデータの入出力の一例を説明することに用いる図である。第２実施形態に係り、音声拡張現実オブジェクト再生装置の構成の一例の説明に用いるブロック図である。

　以下、本発明を実施するための形態について、図面に従い説明する。なお、以降で説明する内容は、本発明を実施するための形態の一つであって、同様の処理が可能な他の構成、形態への適用を制限するものではない。本発明に係るマッピング技術により、国連の提唱する持続可能な開発目標（ＳＤＧｓ：Ｓｕｓｔａｉｎａｂｌｅ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｇｏａｌｓ）の「９．産業と技術革新の基盤をつくろう」に貢献することができる。

　先ず、図１を参照しながら、音声拡張現実オブジェクト再生装置の一例として、ヘッドマウントディスプレイ（ＨＭＤと記載することがある）の構成の一例について説明する。なお、音声拡張現実オブジェクト再生装置は、対象の音声を用いてマッピングし、マッピングした対象の音声を再生することができる装置である。図１は、ＨＭＤの構成の一例の説明に用いるブロック図である。第１実施形態によれば、ＨＭＤ１０１は、仮想空間上に対象をマッピングし、マッピングした対象のアイコンを生成することができる。そして、ユーザは、生成したアイコンを選択し、マッピングした対象を操作することができる。

　図１に示すように、ＨＭＤ１０１は、制御部１０と、ＲＯＭ１１と、ＲＡＭ１２と、ストレージ部１３と、カメラ１４と、ディスプレイ１５と、マイク１６と、スピーカ１７と、ボタン１８と、タッチセンサ１９と、を備える。

　制御部１０（プロセッサ）は、所定の動作プログラムに従ってＨＭＤ１０１全体を制御する。制御部１０は、データ通信路であるシステムバスを介して、ＨＭＤ１０１内の各構成ブロックとの間で各種コマンドやデータなどの送受信を行う。制御部１０は、所定の処理を実行する主体であればよく、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）により構成されるが、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等の半導体デバイスを用いて構成されてもよい。

　ＲＯＭ１１は、フラッシュＲＯＭなどの適宜の記憶装置により構成され、ＨＭＤ１０１の動作や実行する処理に関するプログラム等のデータを記憶する。ＲＡＭ１２は、制御部１０が所定の処理を実行する際に用いられるメモリである。ストレージ部１３は、ハードディスクドライブ（ＨＤＤ：Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の適宜の記憶装置から構成することができ、データを記憶することができる。

　カメラ１４は、外部の画像を取得することができるように、適宜の位置に設けられる。カメラ１４は、例えば、ユーザの視野の範囲外の情報を取得することができるように設けられてもよい。

　ディスプレイ１５（表示部）は、正面側に設けられ、画像を表示する。ディスプレイ１５には、例えば、カメラ１４で取得する画像が表示されてもよく、ＨＭＤ１０１を装着したユーザは、ディスプレイ１５に表示されるカメラ１４が取得した画像を見ることで、視覚により情報を得てもよい。また、ディスプレイ１５は、後で詳しく説明するように、マッピング処理を行って生成したアイコンを表示することができるが、ディスプレイ１５には、これ以外の情報（例えば、ＨＭＤ１０１からの出力音量に関する情報、無線通信で外部から取得する情報など）が適宜に表示されてもよい。

　なお、ディスプレイ１５は、適宜の構造とすることができる。ディスプレイ１５は、例えば、非透過型であってもよいし透過型であってもよい。また、ＨＭＤ１０１は、例えば、ユーザの両眼それぞれの前に１枚ずつディスプレイ１５を配置する構造とされてもよいし、ユーザの両眼を覆う１枚のディスプレイ１５を配置する構造とされてもよい。

　マイク１６は、音声入力装置であり、本実施形態では、ＨＭＤ１０１を装着したユーザの声を入力することができるように、適宜の位置に設けられる。マイク１６は、例えば、口元まで伸ばす部材を介して設けられてもよい。

　スピーカ１７は、音声出力装置であり、音声により情報を出力する。スピーカ１７は、出力される音声をユーザが聞くことができるように、適宜の位置に設けられる。なお、スピーカ１７とは異なる音声出力装置が用いられてもよく、例えば、ヘッドフォンが音声出力装置として設けられてもよい。

　ＨＭＤ１０１は、ボタン１８やタッチセンサ１９により、音量や画質の調整、通信の設定などの各種の操作をユーザが行うことができるように構成されてもよい。ユーザの所望の操作に対応するボタン１８を押すことで、所望の操作内容が実現されればよく、ボタン１８の位置や数は、適宜に設定可能である。タッチセンサ１９は、ディスプレイ１５に表示されるアイコンなどを押すユーザの操作を検知することができるように、適宜に設けられる。

　ＨＭＤ１０１は、音声認識部２０を備える。音声認識部２０は、音声認識の処理に用いる回路などを含んで構成される。ここで、音声認識に用いるプログラムやデータは、ＲＯＭ１１やストレージ部１３などの適宜の記憶装置に配置される。なお、音声認識部２０の処理では、公知の手法が用いられてもよく、例えば、音響モデルや言語モデルを用いて入力される音声を解析して認識する処理が行われてもよい。

　ＨＭＤ１０１は、音声入力部２１を備える。音声入力部２１は、例えば、後述するマッピング処理において、情報端末１０２から出力される音声が入力される音声入力装置として構成される。音声入力部２１は、一例として、音声の発生源への方位の情報を取得することができる音声入力装置とされ、後で詳しく説明するように、例えば、アレイマイク２２や指向性マイク２３などにより構成することができる。

　ＨＭＤ１０１は、距離測定部２４を備える。距離測定部２４は、例えば、後述するマッピング処理において、情報端末１０２までの距離を測定するセンサにより構成することができる。距離測定部２４は、例えば、距離測定カメラ２５（一例として、ステレオカメラ）、ＬｉＤＡＲ２６、これらとは異なるセンサであって情報端末１０２までの距離を適宜に測定することができる距離センサ２７などで構成することができる。なお、距離測定部２４は、１又は複数のセンサにより構成されてもよい。また、距離測定部２４は、１又は複数の種類のセンサにより構成されてもよい。

　ＨＭＤ１０１は、ヘッドトラッキング部２８を備える。ヘッドトラッキング部２８は、ＨＭＤ１０１の装着時において、ユーザの頭部の傾きを検出することに用いられる。ヘッドトラッキング部２８は、例えば、加速度センサ２９やジャイロセンサ３０などのセンサで構成することができる。なお、ヘッドトラッキング部２８は、１又は複数のセンサにより構成されてもよい。また、ヘッドトラッキング部２８は、１又は複数の種類のセンサにより構成されてもよい。

　ＨＭＤ１０１は、アイトラッキング部３１を備える。アイトラッキング部３１は、ＨＭＤ１０１の装着時において、ユーザの視線方向を検出することに用いられる。アイトラッキング部３１は、例えば、視線検出センサ３２などのセンサで構成することができる。なお、アイトラッキング部３１は、１又は複数のセンサにより構成されてもよい。また、アイトラッキング部３１は、１又は複数の種類のセンサにより構成されてもよい。

　ＨＭＤ１０１は、通信処理部３３を備える。通信処理部３３は、無線通信において、通信処理（例えば、信号処理）を行う回路などを含んで構成され、本実施形態では、ＨＭＤ１０１は、無線ＬＡＮによる通信を行うときに通信処理を行う無線ＬＡＮ通信部３４と、近接無線通信を行うときに通信処理を行う近接無線通信部３５と、を備える。

　また、ＨＭＤ１０１は、通信に用いるインタフェース３６を備える。ＨＭＤ１０１は、インタフェース３６を介して外部と無線通信を行うことにより、外部とデータの送受信を行うことができる。ここで、ＨＭＤ１０１は、無線通信に用いるアンテナ３７を備えてもよい。また、無線アダプタなどの無線通信に用いる機器が設けられてもよい。

　次に、図２を参照しながら、無線通信の態様の一例について説明する。図２に示すように、ＨＭＤ１０１は、一例として、ネットワーク２０２を介して情報端末１０２と通信することができる。ここで、本実施形態では、情報端末１０２は、音声を出力することができる装置であり、情報端末１０２には、一例として、ウェアラブル機器２００やスマートフォン２０１が挙げられる。

　次に、図３を参照しながら、音声入力部２１がアレイマイク２２により構成されているＨＭＤ１０１の構造の一例について説明する。なお、図３の例では、ＨＭＤ１０１は、メガネ形状を有する構造とされているが、ＨＭＤ１０１の構造は、この例に限定されず、適宜の変更が可能である。ここで、図３に示す前後左右および上下方向を基準として説明する。

　図３に示すように、ＨＭＤ１０１は、正面側（前側）の正面フレーム部５１と、左フレーム部５２と、右フレーム部５３と、を備える。正面フレーム部５１には、装着時においてユーザの左眼および右眼それぞれの前に位置するように、ディスプレイ１５が２枚取り付けられている。

　左フレーム部５２は、正面フレーム部５１の左端部５１ａから後方側に延びており、装着時においてユーザの左側頭部側に位置する。左フレーム部５２には、ユーザの左耳に向けて音声を出力するように、図３に図示されていないスピーカ１７が取り付けられている。同様に、右フレーム部５３は、正面フレーム部５１の右端部５１ｂから後方側に延びており、装着時においてユーザの右側頭部側に位置する。右フレーム部５３には、ユーザの右耳に向けて音声を出力するように、図３に図示されていないスピーカ１７が取り付けられている。

　また、ＨＭＤ１０１には、アレイマイク２２を構成するマイクである、第１のマイク２２ａ、第２のマイク２２ｂ、および、第３のマイク２２ｃが設けられている。図３の例では、第１のマイク２２ａおよび第２のマイク２２ｂは、正面フレーム５１の左端部５１ａおよび右端部５１ｂに配置されている。すなわち、第１のマイク２２ａが正面フレーム部５１の右下端部に配置され、第２のマイク２２ｂが正面フレーム部５１の左上端部に配置されている。また、第３のマイク２２ｃが右フレーム部５３の外側（右側）に配置されている。なお、図３に示す配置とは逆に、第１のマイク２２ａが正面フレーム部５１の左下端部に配置され、第２のマイク２２ｂが正面フレーム部５１の右上端部に配置され、第３のマイク２２ｃが左フレーム部５２の外側（左側）に配置されてもよい。また、第１のマイク２２ａや第２のマイク２２ｂは、正面フレーム部５１の端部において、ＨＭＤ１０１の正面側に位置してもよいし、左右側に位置してもよい。

　このように配置される第１のマイク２２ａおよび第２のマイク２２ｂにより、音声が入力された場合、第１のマイク２２ａおよび第２のマイク２２ｂに入力するタイミングの差分に基づいて、音源の方向（左右方向および上下方向に関する方向）が特定される。また、第１のマイク２２ａおよび第３のマイク２２ｃにより、音声が入力された場合、第１のマイク２２ａおよび第３のマイク２２ｃに入力するタイミングの差分に基づいて、音源の方向（前後方向に関する方向）が特定される。従って、このように配置されるアレイマイク２２により、ＨＭＤ１０１は、音源の方向を容易に特定することができる。

　ここで、上記で説明した配置に関して、第１のマイク２２ａと第２のマイク２２ｂの距離、および、第１のマイク２２ａと第３のマイク２２ｃの距離が略同一となるように、アレイマイク２２の各マイク（２２ａ、２２ｂ、２２ｃ）が配置されることが好ましい。このような位置関係の構造とすることで、音源の方向を特定する精度の向上を図ることができる。

　次に、図４を参照しながら、音声入力部２１が指向性マイク２３により構成されているＨＭＤ１０１の構造の一例について説明する。図４の例では、図３の場合と同様に、ＨＭＤ１０１は、メガネ形状を有する構造とされているが、この構造に限定されない。ここで、図４に示す前後左右および上下方向を基準として説明する。

　上記で説明したアレイマイク２２の場合の構成と同様に、ＨＭＤ１０１は、正面側（前側）の正面フレーム部５１と、左フレーム部５２と、右フレーム部５３と、を備え、正面フレーム部５１には、ディスプレイ１５が取り付けられており、左フレーム部５２および右フレーム部５３には、図４に図示されていないスピーカ１７が取り付けられている。

　図４の例では、指向性マイク２３は、正面フレーム部５１の中央部５１ｃの上端側に配置されている。そして、指向性マイク２３を用いることにより、音源の方向が特定される。なお、音源の方向を特定することができればよく、マイクの指向性パターンは、適宜に設定されればよい。また、この例では、正面フレーム部５１の中央部５１ｃの上端側に指向性マイク２３が配置されているが、他の位置に指向性マイク２３が配置されてもよい。また、指向性マイク２３は、単数ではなく複数設けられてもよいが、例えば、マイクの指向性パターンを適切に切り替えることで、マイクの数を減らすことが可能である。

　上記では、アレイマイク２２を備えるＨＭＤ１０１、および、指向性マイク２３を備えるＨＭＤ１０１について説明されたが、ＨＭＤ１０１は、下記のような構造とされてもよい。例えば、ＨＭＤ１０１には、アレイマイク２２と指向性マイク２３の両方が設けられ、ＨＭＤ１０１は、アレイマイク２２および指向性マイク２３の両方に入力される音声のデータに基づいて、音源の方向を特定してもよい。また、ＨＭＤ１０１には、マイクの位置を調整する位置調整機構が設けられてもよい。位置調整機構は、一例として、マイクをフレームに沿ってスライドさせることで、マイクの位置を調整することができる機構とされてもよい。また、ＨＭＤ１０１は、フレームの間で折り畳みまたは展開することができる構造となっていてもよい。

　次に、図５から図７を参照しながら、ユーザが対象をマッピングする方法の一例について説明する。図５から図７の例では、マッピングの対象は、情報端末１０２（詳細には、情報端末１０２の一例であるウェアラブル機器２００）である。そして、この例では、情報端末１０２は、音声入力および音声出力が可能であり、入力する音声を認識することで、マッピングを行うモード（マッピングモード）に遷移する。

　図５に示すように、ＨＭＤ１０１を装着したユーザ（図５において、操作者１００）は、ＨＭＤ１０１のマイク１６およびウェアラブル機器２００に、マッピングを開始させる音声を入力することで、ＨＭＤ１０１およびウェアラブル機器２００にマッピング開始を指令する。ユーザが、例えば、「マッピング開始」というマッピング開始の指令となる音声を発して音声を入力することで、ＨＭＤ１０１およびウェアラブル機器２００は、適宜の音声認識に基づいて、マッピングモードに遷移する。

　なお、ＨＭＤ１０１と情報端末１０２を同時にマッピングモードに遷移させる例について説明されたが、それぞれの情報機器（１０１、１０２）を異なるタイミングでマッピングモードに遷移させてもよい。ユーザは、例えば、ＨＭＤ１０１をマッピングモードに遷移させた後に、情報端末１０２をマッピングモードに遷移させてもよい。

　次に、図６に示すように、ユーザは、ウェアラブル機器２００を登録したい位置に移動させ、ウェアラブル機器２００に音声を出力させる。ここで、ユーザは、適宜の手法（例えば、ウェアラブル機器２００に対する、キー操作、画面タッチ、音声入力）により、ウェアラブル機器２００に音声を出力させる。

　それから、図７に示すように、情報端末１０２からの音声がＨＭＤ１０１（詳細には、ＨＭＤ１０１の音声入力部２１）に入力するので、ＨＭＤ１０１は、入力する音声に基づいて、この情報端末１０２を仮想空間にマッピングする処理を行う。ここで、ＨＭＤ１０１は、音声入力部２１に入力される音声に基づいて、音源（つまり、情報端末１０２）の方位を特定し、音源までの距離を算出する。なお、音源までの距離は、音声入力部２１に入力される音声のデータ（例えば、入力する音声の大きさと音源までの距離を関連付けたデータ）を用いて適宜に計算されてもよい。また、ＨＭＤ１０１が距離測定部２４を備える場合、距離測定部２４による情報端末１０２までの距離の測定結果が用いられてもよい。距離計測部２４の測定結果を用いることで、マッピングの精度（特に、情報端末１０２への奥行き方向の精度）の向上が図られる。また、ＨＭＤ１０１は、情報端末１０２との無線通信により、情報端末１０２の位置検出を行い、その結果を用いてマッピングを行ってもよい。

　そして、ＨＭＤ１０１は、音源の方位および音源までの距離に基づいて、対象である情報端末１０２（この例では、ウェアラブル機器２００）を仮想空間上の対応する位置にマッピングし、マッピングした対象の仮想音源１０３を配置する。なお、ここでの説明では、情報端末１０２がマッピングの対象とされていたが、情報端末１０２が保有するアプリがマッピングの対象であってもよい。この場合、アプリのマッピング処理は、対象とするアプリを保有する情報端末１０２に、対象とするアプリの起動時や利用時の音声を出力させて行われる。

　そして、ＨＭＤ１０１は、マッピングした対象を示すアイコンを生成し、生成したアイコンをディスプレイ１５に表示させることができる。ここで、ＨＭＤ１０１は、ディスプレイ１５の適宜の位置にアイコンを表示させてもよいが、一例として、仮想空間上にマッピングされた対象の位置に対応する位置に、対象のアイコンを表示させることができる。なお、ＨＭＤ１０１は、対象を示す名称に関する情報（例えば、対象がウェアラブル機器２００である場合に「ウェアラブル機器」とする文字情報）を、アイコンに付して表示させてもよい。

　ここで、図８および図９を参照しながら、マッピング時およびマッピング後におけるＨＭＤ１０１の音声出力の一例について説明する。

　対象のマッピング時において、図８に示すように、ユーザは、情報端末１０２（この例では、ウェアラブル機器２００）からの音声、および、ＨＭＤ１０１のスピーカ１７からの音声を聞くことができる。ここで、ＨＭＤ１０１のスピーカ１７（図８において、左右それぞれのスピーカ１７ａ、１７ｂ）は、情報端末１０２と同一と考えられる位置（すなわち、情報端末１０２の方位および情報端末１０２までの距離に基づいて求められる位置）を仮想音源１０３とする音声を出力する。従って、情報端末１０２から聞こえてくる音声と同様の音声（すなわち、仮想音源１０３の位置から聞こえてくるような音声）が、ＨＭＤ１０１のスピーカ１７から出力される。そのため、ユーザは、実際に情報端末１０２から聞こえてくる音声とスピーカ１７から出力される音声を比べることで、マッピングが適切に行われているかどうかについて、容易に確認することができる。

　なお、マッピング後では、図９に示すように、情報端末１０２（この例では、ウェアラブル機器２００）の位置を変更しても、ＨＭＤ１０１は、仮想音源１０３の位置から聞こえるような音声を出力する。

　ここで、図１０を参照しながら、対象をマッピングする空間である仮想空間３００における仮想音源１０３と立体音響の関係について説明する。立体音響は、音の方向や距離感まで感じられるように再生することであり、本実施形態では、ＨＭＤ１０１は、仮想空間３００に仮想音源１０３を配置し、そこから発せられる音が耳に届くかどうかを演算することで、立体音響を表現する。

　すなわち、上記で説明したようなユーザの操作により、ＨＭＤ１０１は、ユーザ（図において、該ＨＭＤ１０１を装着した操作者１００）の位置を中心とする座標空間である仮想空間３００に対象をマッピングし、仮想空間上のマッピングした位置に仮想音源（１０３ａ、１０３ｂ）を配置する。そして、ＨＭＤ１０１は、仮想音源（１０３ａ、１０３ｂ）の方向および距離に基づいて、適切な音声の出力を行うことにより、立体音響を表現する。ここで、ＨＭＤ１０１は、音声出力装置に合わせて音声を調整することができ、調整した音声を出力することができる。例えば、音声出力装置がスピーカ１７である場合、ＨＭＤ１０１は、スピーカ１７に合わせて調整した音声を出力することができる。例えば、音声出力装置がヘッドフォンである場合、ＨＭＤ１０１は、ヘッドフォンに合わせて調整した音声を出力することができる。

　また、本実施形態では、ＨＭＤ１０１は、ユーザにより選択された座標系（局所座標系または世界座標系）の仮想空間３００に対象をマッピングすることができる。ここで、図１１および図１２を参照しながら、ユーザが移動などした場合における、それぞれの座標系における仮想音源の位置について説明する。

　先ず、図１１を参照しながら、仮想空間３００が局所座標系である場合について説明する。局所座標系は、仮想音源（１０３ａ、１０３ｂ）の位置がユーザ（図において、操作者１００）とともに移動する座標系であり、局所座標系の場合、ユーザの動きに対応するように仮想音源（１０３ａ、１０３ｂ）が移動する。

　図１１に示すように、例えば、ＨＭＤ１０１を装着したユーザが向きを変えた場合、マッピングされている仮想音源（１０３ａ、１０３ｂ）の位置が、変更したユーザの向きに追従するように変わる。図１１の例では、仮想音源１０３ａの位置が変わることで、仮想空間３００上に仮想音源１０３ｃが配置され、仮想音源１０３ｂの位置が変わることで、仮想空間３００上に仮想音源１０３ｄが配置される。このように、局所座標系では、ユーザの位置および向き（言い換えれば、ＨＭＤ１０１の位置および向き）を基準として、一定の方位および一定の距離の関係を保つように、仮想空間３００上で仮想音源（１０３ａ、１０３ｂ）の位置が移動する。なお、この処理にあたって、一例として、ヘッドトラッキングが利用されてもよい。また、一例として、ＨＭＤ１０１にＧＰＳ受信センサが設けられ、ＧＰＳに基づくデータが利用されてもよい。

　従って、局所座標系では、ＨＭＤ１０１を装着したユーザが向きを変えたり、移動した場合でも、ユーザを基準とした仮想音源の方位および仮想音源までの距離は変わらず、ＨＭＤ１０１は、ユーザを基準として一定の方位および一定の距離の関係にある仮想音源からの音声を出力する。

　これに対して、世界座標系は、仮想音源（１０３ａ、１０３ｂ）の位置が固定された座標系であり、世界座標系では、ユーザが移動などをした場合でも、仮想音源（１０３ａ、１０３ｂ）の位置は変わらない。従って、図１２に示すように、例えば、ユーザ（図において、操作者１００）が向きを変えた場合、これに伴って、ユーザを基準とする仮想音源（１０３ａ、１０３ｂ）の方位が変わることになり、ＨＭＤ１０１は、ユーザが向きを変える前後において異なる方向の仮想音源（１０３ａ、１０３ｂ）から音声を出力する。そのため、局所座標系とは異なり世界座標系では、ユーザが向きを変えたり移動することで、聞こえてくる音の方向や音声の距離感が変わる。

　次に、図１３から図１５に示すフローチャートを参照しながら、マッピング処理の詳細について説明する。図１３から図１５は、マッピング処理の一例の説明に用いるフローチャートである。

　図１３に示すように、ＨＭＤ１０１は、ユーザによるマッピング開始の合図があるまで待機する（Ｓ１０１）。そして、ユーザがマッピング開始を合図する音声を発声（例えば、ユーザが「マッピング開始」と発声）することで（Ｓ１０２）、制御部１０は、音声認識を行ってマッピング開始を合図するキーワードを認識する（Ｓ１０３）。そして、ＨＭＤ１０１（詳細には、制御部１０）は、音声認識によりキーワードを認識し、対象をマッピングするモードであるマッピングモードを起動する（Ｓ１０４）。ここで、ＨＭＤ１０１は、局所座標系でのマッピングを行うか、または、世界座標系でのマッピングを行うかについて選択する通知の音声を出力する（Ｓ１０５）。そして、ユーザは、何れの座標系でのマッピングを行うかについて選択したキーワードの音声を発声（例えば、ユーザが「局所座標系」と発声）することで（Ｓ１０６）、制御部１０は、音声認識を行って何れの座標系を用いるかについてのキーワードを認識する（Ｓ１０７）。そして、ＨＭＤ１０１は、選択された座標系でのマッピングモードを起動したことをユーザに通知する音声を出力する（Ｓ１０８）。ここで、ＨＭＤ１０１は、例えば、「局所座標系でマッピングモードを開始します」という音声を出力する。

　なお、上記したＳ１０１からＳ１０８においてＨＭＤ１０１が音声認識に用いるキーワードなどのデータは、ストレージ部１３などの適宜の記憶装置に予め記憶させておいてもよい。

　次に、ユーザは、情報端末１０２（この例では、ウェアラブル機器２００）にマッピング開始を合図する音声を発声する（Ｓ１０９）。ユーザは、例えば、「登録開始」と発声する。ここで、ウェアラブル機器２００は、上記で説明したＨＭＤ１０１の場合と同様に、音声認識によりキーワードを認識し（Ｓ１１０）、マッピングモードである機器登録モードを起動する（Ｓ１１１）。ここで、ウェアラブル機器２００は、機器登録モードを起動したことを通知する音声を出力してもよい（Ｓ１１２）。ウェアラブル機器２００は、例えば、「機器登録モードを開始します」という音声を出力してもよい。

　なお、上記した場合と同様に、Ｓ１０９からＳ１１２において情報端末１０２が音声認識に用いるキーワードなどのデータは、情報端末１０２の適宜の記憶装置に予め記憶させておいてもよい。また、この例では、ＨＭＤ１０１と情報端末１０２を個別にマッピングモードにする例が説明されたが、ユーザは、同じタイミングでＨＭＤ１０１と情報端末１０２に音声を入力することで、ＨＭＤ１０１と情報端末１０２を同時にマッピングモードに遷移させてもよい。

　このように、Ｓ１０１からＳ１１２において、マッピング処理の準備が行われる。そして、下記に説明する処理により、マッピングが行われる。

　図１４に示すように、先ず、ユーザは、マッピングしたい位置にウェアラブル機器２００を移動させる（Ｓ２０１）。そして、ユーザは、ウェアラブル機器２００のボタンを押下し、マッピングする対象の音声（位置検出音）を出力させる（Ｓ２０２）。

　ここで、マッピングする対象を情報端末１０２（この例では、ウェアラブル機器２００）とする場合、ユーザは、一例として、情報端末１０２のマッピングモードに関する音声を出力させる。その一方で、マッピングする対象を情報端末１０２が保有するアプリとする場合、ユーザは、情報端末１０２を操作して対象となるアプリを実行させ、情報端末１０２にアプリの音声を出力させる。

　なお、情報端末１０２（この例では、ウェアラブル機器２００）に音声を出力させる手法は、音声を適切に出力させることができればよく、ボタンの押下の手法に限らず、キー操作、画面タッチ、音声入力などの手法であってもよい。

　そして、Ｓ２０２において情報端末１０２から音声が出力された場合、ＨＭＤ１０１は、音声入力部２１を介して音声（位置検出音）を取り込む（Ｓ２０３）。ここで、この例では、音声入力部２１は、アレイマイク２２とされているが、例えば、指向性マイク２３に代えてもよい。

　そして、制御部１０は、取り込んだ音声（位置検出音）から、ウェアラブル機器２００の位置（距離および方位）を算出する（Ｓ２０４）。ここで、制御部１０は、算出した位置情報をメモリ（この例では、ストレージ部１３）に保存する（Ｓ２０５）。そして、制御部１０は、立体音空間上（仮想空間３００上）の算出した位置に、対象（この例では、ウェアラブル機器２００）をマッピングする（Ｓ２０６）。ここで、制御部１０は、上記したＳ１０７で音声認識した座標系に基づいて、仮想空間３００上に対象をマッピングする。これにより、仮想空間３００上に仮想音源１０３が設定される。

　制御部１０は、仮想空間３００上にマッピングした後に、マッピングされた位置（すなわち、仮想音源１０３）から音声が出力されているように、スピーカ１７から音声を出力する（Ｓ２０７）。従って、ユーザは、ウェアラブル機器２００から出力される音声と、スピーカ１７から出力される音声と、を比べることで、対象を適切にマッピングできたかどうかについて確認することができる。

　なお、制御部１０は、マッピングにより仮想空間３００上に配置される仮想音源１０３の位置が、情報端末１０２の位置に一致しているかどうかに基づいて、マッピングが適切であるかどうかについて判定してもよい。そして、制御部１０は、その結果に応じて、マッピングした位置の自動調整を行ってもよい。すなわち、制御部１０は、情報端末１０２の方向と仮想音源１０３の方向が一致しているどうかについて判定し、その結果に応じて仮想音源１０３の位置を調整してもよい（Ｓ２０８）。具体的に説明すると、制御部１０は、音声の方向のズレが所定の閾値以内であるかどうかに基づいて、音声の方向の一致性を判定する。そして、制御部１０は、音声の方向が一致していないと判定した場合に、ウェアラブル機器２００の位置情報を調整する。制御部１０は、調整した位置情報をメモリに保存し（Ｓ２０５）、この位置情報に基づくマッピングを再度行うことで（Ｓ２０６）、仮想音源１０３の位置を調整する。

　そして、ユーザは、情報端末１０２と仮想音源１０３の音声の方向の一致性を確認し、ウェアラブル機器２００のボタンを押下して音声出力を停止させる（Ｓ２０９）。なお、上記したＳ２０２の場合と同様に、ユーザは、ボタンの押下以外の適宜の手法で、ウェアラブル機器２００の音声出力を停止させてもよい。

　このようにして、Ｓ２０１からＳ２０６の処理において、仮想空間３００上に対象がマッピングされ、Ｓ２０７からＳ２０９の処理において、マッピングが適切であるかどうかについての確認が行われる。そして、下記に説明する処理を経て、マッピング処理が終了する。

　図１５に示すように、ユーザは、マッピングする対象が他にないかどうか確認し、マッピングする対象が他にある場合、上記で説明した方法により、その対象をマッピングする（Ｓ３０１）。そして、ユーザは、マッピングする対象がないことを確認した場合、マッピング終了を合図する音声を発声する（Ｓ３０２）。ここで、ユーザは、一例として、「マッピング終了」と発声する。そして、制御部１０は、音声認識を行ってマッピング終了を合図するキーワードを認識し（Ｓ３０３）、マッピングモードを終了する（Ｓ３０４）。そして、ＨＭＤ１０１は、マッピングモードを終了したことをユーザに通知する音声を出力する（Ｓ３０５）。ここで、ＨＭＤ１０１は、例えば、「マッピングモードを終了します」という音声を出力する。

　このように、Ｓ３０１からＳ３０５を経て、マッピング処理が終了する（Ｓ３０６）。なお、Ｓ３０１からＳ３０５においてＨＭＤ１０１が音声認識に用いるキーワードなどのデータは、ストレージ部１３などの適宜の記憶装置に予め記憶させておいてもよい。

　なお、ＨＭＤ１０１は、仮想空間３００上において、既にマッピング済みの位置にマッピングを行おうとした場合に、音声による警告を出力してもよい。その際、ＨＭＤ１０１は、マッピングする対象の位置をどの方向にずらすかについて提案する音声を出力してもよい。そして、ＨＭＤ１０１は、音声認識を用いてユーザが入力する音声からキーワードを認識し、所定の方向にマッピングする対象の位置をずらすことができる。ここで、キーワード（例えば、「左」、「右」など）は、適宜の記憶装置に記憶される。また、ずれ量は、適宜に設定することができるが、一例として、重なりを回避する最小の量とすることができる。そして、制御部１０は、このずれ量を加えた上で、上記したＳ２０８に関する音声の方向の一致性を判定してもよい。

　さらに、ＨＭＤ１０１は、マッピングした対象を示すアイコンを生成することができる。次に、ＨＭＤ１０１（詳細には、制御部１０）がアイコンを生成する方法の一例について説明する。

　ＨＭＤ１０１は、対象のアイコンを生成するにあたって、情報端末１０２から出力される音声を利用することができる。すなわち、対象を示すキーワードや対象を起動したときに出力される音声などのデータが、音声認識を行うデータとして、記憶装置に予め記憶される。そして、ＨＭＤ１０１は、上記したＳ２０２などで情報端末１０２から入力される音声に基づいて音声認識を行い、アイコンを生成する対象を判別する。

　ここで、例えば、対象が情報端末１０２であるウェアラブル機器２００である場合、マッピングモードでウェアラブル機器２００を起動したときに出力される音声などがキーワードとされ、ＨＭＤ１０１は、この音声を認識することで、アイコンを生成する対象がウェアラブル機器２００であること判別してもよい。

　そして、ＨＭＤ１０１は、判別した対象のアイコンを生成する。ここで、アイコンの絵柄やアイコンの名称のなどのデータが記憶装置に記憶されていてもよく、制御部１０は、このデータに基づいて、判別した対象に対応するアイコンを生成することができる。また、後で詳しく説明するように、制御部１０は、ディスプレイ１５に生成したアイコンを表示させることができる。このとき、対象を示す名称が付されて表示されてもよい。

　また、対象がアプリである場合のアイコンの生成の一例についても説明する。対象がアプリである場合、情報端末１０２の例と同様に、アプリを示すキーワードなどのデータが記憶装置に記憶される。

　ここで、例えば、対象が天気予報に関するアプリである場合、天気予報に関するキーワード（例えば、「天気、晴れ、曇り、雨」など）となる音声や、アプリを起動させたときに出力される音声などが、記憶装置に記憶されてもよい。そして、ＨＭＤ１０１は、Ｓ２０２などで情報端末１０２から入力されるアプリの音声に基づいて音声認識を行い、アイコンを生成する対象を判別する。

　なお、ここでは、音声認識に基づいて、アイコンを生成する対象を判別する例が説明されたが、ＨＭＤ１０１は、通信を行うことで、対象を判別する情報を取得してもよい。ＨＭＤ１０１は、例えば、情報端末１０２との通信により、対象を判別するためのデータ（例えば、対象の名称に関する情報）を取得し、取得した情報を利用して対象を判別してもよい。ここで、通信により取得する情報に関連付けた情報（例えば、通信で取得可能な情報と、対象の名称と、をレコードとするテーブル）が記憶装置に記憶され、ＨＭＤ１０１は、この記憶された情報を参照することで、通信により取得する情報から対象を判別してもよい。

　そして、ＨＭＤ１０１は、生成した対象のアイコンをディスプレイ１５に表示させることができる。ここで、制御部１０は、一例として、装着したユーザを基準として、仮想空間３００上のマッピングした位置に対応する位置に、アイコンを表示させてもよい。なお、アイコンの表示位置は、ユーザの操作などにより適宜に移動させることができる。ＨＭＤ１０１は、例えば、表示されるアイコンを選択し移動させるユーザの操作により（ドラッグ・アンド・ドロップにより）、アイコンを移動させることができるように構成されてもよい。その一方で、後で詳しく説明するように、音声入力によるアイコンの移動が実行されてもよい。

　ＨＭＤ１０１において、ディスプレイ１５に表示される対象のアイコンは、ユーザにより選択可能とされている。そして、ユーザは、対象のアイコンを適宜に選択し、マッピングした対象を操作することができる。次に、図１６から図１８に示すフローチャートを参照しながら、アイコンを用いた音声操作処理について説明する。図１６から図１８は、音声操作処理の一例の説明に用いるフローチャートである。

　図１６に示すように、ＨＭＤ１０１は、ユーザによる音声操作モード（音声操作が可能なモード）の開始の合図があるまで待機する（Ｓ４０１）。そして、ユーザが音声操作モードの開始を合図する音声を発声（例えば、ユーザが「操作開始」と発声）することで（Ｓ４０２）、制御部１０は、音声認識を行って音声操作モードの開始を合図するキーワードを認識する（Ｓ４０３）。そして、ＨＭＤ１０１（詳細には、制御部１０）は、音声認識によりキーワードを認識し、音声操作モードを起動する（Ｓ４０４）。ここで、ＨＭＤ１０１は、音声操作モードを起動したことを通知する音声を出力する（Ｓ４０５）。ＨＭＤ１０１は、例えば、「操作を開始します」という通知を行う。

　このように、Ｓ４０１からＳ４０５において、音声操作モードが起動され、音声操作を行う準備がなされる。そして、下記に説明する一例のようにして、ユーザは、対象の音声操作を実行することができる。なお、下記の説明において、マッピングして生成したアイコンをマッピングアイコンと呼ぶことがある。

　先ず、ユーザは、声で操作したい対象のマッピングアイコンを発声する（Ｓ４０６）。一例として、マッピングした情報端末１０２であるスマートフォン２０１を選択したい場合、ユーザは、「スマホ」と発声する。そして、制御部１０は、音声認識により、ユーザが発声したマッピングアイコンを認識する（Ｓ４０７）。すなわち、制御部１０は、ユーザが入力する音声に対応する対象のマッピングアイコンを選択する。なお、スマホとは、スマートフォン２０１の略称である。

　そして、ＨＭＤ１０１は、選択したマッピングアイコンを音声でユーザに通知する（Ｓ４０８）。ここで、ＨＭＤ１０１は、例えば、「スマホを選択しました」という通知を行う。ユーザは、通知の内容より、選択されたマッピングアイコンが正しいかどうかについて確認し、正しい場合、正しい旨を発声（例えば、「ＯＫ」と発声）する（Ｓ４０９）。これにより、ＨＭＤ１０１は、音声認識によりキーワードを認識し、下記で説明するＳ５０１の処理が実行可能となる。その一方で、マッピングアイコンが正しく選択されていない場合、ユーザは、正しくない旨を発声（例えば、「ＮＯ」と発声）する。そして、ユーザは、もう一度、操作したいマッピングアイコンを発声し、ＨＭＤ１０１にマッピングアイコンを認識させる処理を実行させる。

　このように、Ｓ４０６からＳ４０９において、ユーザが音声操作したいマッピングアイコンが選択される。なお、マッピングアイコンが選択された場合、マッピングアイコンが選択されたことを示す音声が出力されてもよい。この音声は、例えば、「ポン」など単純な音であってもよいし、マッピングアイコンが示す対象の名称であってもよい。これにより、ユーザは、マッピングアイコンが選択されたことを理解することができる。

　また、マッピングアイコンが選択されたことを示す音声が、選択されたマッピングアイコンが表示されている方向から聞こえてくるように、スピーカ１７から出力されてもよい。一例として、ＨＭＤ１０１の正面側の中央部を基準として、装着したユーザの右眼の正面に選択したマッピングアイコンが表示されている場合、右側から聞こえるような音声が出力されてもよい。また、ＨＭＤ１０１の中央側にマッピングアイコンが表示されている場合、前側から聞こえてくるような音声が出力されてもよい。

　また、ＨＭＤ１０１は、マッピングアイコンの選択において、適宜のトラッキング技術を利用してもよい。ＨＭＤ１０１は、例えば、マイク１６に入力するユーザの音声に加えて、ヘッドトラッキング部２８によりユーザの頭の向きを検出し、その方向に表示されているマイク１６に入力した音声のマッピングアイコンを選択してもよい。この場合、ユーザが選択したいマッピングアイコンの方向に向かって頭を回して音声を発声することで、ユーザの所望のマッピングアイコンが選択される。

　また、ＨＭＤ１０１は、例えば、マイク１６に入力するユーザの音声に加えて、アイトラッキング部３１によりユーザの視線方向を検出し、その方向に表示されているマイク１６に入力した音声のマッピングアイコンを選択してもよい。この場合、ユーザが選択したいマッピングアイコンに視線を向けて音声を発声することで、ユーザの所望のマッピングアイコンが選択される。

　このように、トラッキング技術を利用することで、音声だけではなく、ユーザの動作や視線も含めたマッピングアイコンの選択が実現される。なお、Ｓ４０１からＳ４０９において、音声認識に用いるキーワードなどのデータは、ストレージ部１３などの適宜の記憶装置に予め記憶させておいてもよい。次に、音声操作の処理について説明する。この音声操作は、ＨＭＤ１０１側からの音声入力に基づいて、処理を行う情報端末１０２との無線通信を介して行われる。

　図１７に示すように、ユーザは、選択された対象のマッピングアイコンの操作内容を発声する（Ｓ５０１）。

　ここで、操作内容として、様々な操作が考えられる。操作内容は、一例として、表示に関する操作（メニューの表示やメニュー項目の選択など）、カーソルの表示や移動、音量調整、対象がスマートフォン２０１などの通話機能（通話において音声を処理する機能）を有する場合における発信および着信に関する操作、表示されているアイコン位置の移動（再マッピング）、対象の情報端末１０２の操作、対象のアプリの実行（アプリの起動）など、を挙げることができる。なお、ＨＭＤ１０１は、仮想空間３００上の仮想音源に基づいて、対象からの音声を、スピーカ１７を介して出力することができる。また、情報端末１０２が通話機能を有する場合、通話に関する音声の処理を情報端末１０２が行い、ＨＭＤ１０１のマイク１６およびスピーカ１７により、通話時の音声の入力および出力が行われてもよい。

　そして、制御部１０は、音声認識により操作内容を認識し（Ｓ５０２）、ＨＭＤ１０１は、認識した操作内容を音声で通知する（Ｓ５０３）。

　ユーザが、一例として、選択されたスマートフォン２０１のマッピングアイコンを左に移動させたいとき、ユーザは、「左に移動」と発声する。そして、ＨＭＤ１０１は、音声認識により該マッピングアイコンを左に移動させることを認識し、一例として、「スマホを左に動かします」と音声で通知する。このように、Ｓ５０１からＳ５０３において、ＨＭＤ１０１に操作内容が入力され、ＨＭＤ１０１は操作内容を認識する。

　そして、制御部１０は、入力された操作内容に従った操作を実行し（Ｓ５０４）、実行した操作内容を音声で通知する（Ｓ５０５）。制御部１０は、スマートフォン２０１のマッピングアイコンを左に動かす操作を実行したときに、一例として、「スマホを左に移動しました」と音声で通知する。なお、ここでの制御部１０の操作は、確定前の処理であり、ユーザは、操作内容が正しいかどうかについて判定する（Ｓ５０６）。ユーザが操作内容を正しいと判定した場合、下記で説明する処理が実行され、操作内容が確定する。その一方で、ユーザが操作内容を正しくないと判定した場合、操作内容を再び入力する。なお、この場合、ユーザが正しくないと判定した操作内容はリセットされる。このように、Ｓ５０４からＳ５０６において、制御部１０により入力した操作内容が実行される。次に、操作内容を確定する処理について説明する。

　ユーザは、操作内容が正しいと判定した場合に、その旨を示すキーワードを音声で入力する（Ｓ５０７）。ユーザは、一例として、「ОＫ」と発声する。そして、制御部１０は、音声認識により、キーワードを認識し（Ｓ５０８）、操作内容を確定する（Ｓ５０９）。そして、制御部１０は、操作内容が確定したことを音声でユーザに通知する（Ｓ５１０）。上記のように、スマートフォン２０１のマッピングアイコンを左に動かしたことを確定した場合、制御部１０は、一例として、「左に移動を確定します」と音声で通知してもよい。

　このように、Ｓ５０７からＳ５１０において音声操作が確定される。ここで、Ｓ５０１からＳ５１０の音声処理操作において、音声認識に用いるキーワードなどのデータは、ストレージ部１３などの記憶装置に適宜に記憶されてもよく、制御部１０は、音声認識において、このデータを利用することができる。

　なお、音声操作において、マッピングアイコンの移動により他のマッピングアイコンと重なる場合、ＨＭＤ１０１は、音声による警告を出力してもよい。そして、ＨＭＤ１０１は、マッピングアイコンが重ならないように、移動させるマッピングアイコンどの方向にずらすのかついて提案する音声を出力してもよい。そして、ＨＭＤ１０１は、音声認識を用いてユーザが入力する音声からキーワードを認識し、所定の方向にマッピングする対象の位置をずらすことができる。ここで、キーワード（例えば、「左」、「右」など）は、適宜の記憶装置に記憶される。そして、ずれ量は、適宜に設定することができるが、一例として、重なりを回避する最小の量とすることができる。

　次に、音声処理操作を終了する処理（すなわち、音声操作モードを終了する処理）の一例について説明する。図１８に示すように、ユーザは、音声操作したいマッピングアイコンがあるかどうかを確認し（Ｓ６０１）、該当するマッピングアイコンがない場合、音声操作を終了する旨のキーワードを発声する（Ｓ６０２）。ユーザは、例えば、「操作終了」と発声する。そして、制御部１０は、音声認識によりキーワードを認識し（Ｓ６０３）、ＨＭＤ１０１は、音声操作モードを終了する（Ｓ６０４）。そして、ＨＭＤ１０１は、音声モードが終了したことを音声でユーザに通知する（Ｓ６０５）。ここで、ＨＭＤ１０１は、例えば、「操作を終了します」という音声を出力する。

　このように、Ｓ６０１からＳ６０５を経て、音声操作モードが終了する（Ｓ６０６）。なお、Ｓ６０１からＳ６０５においてＨＭＤ１０１が音声認識に用いるキーワードなどのデータは、ストレージ部１３などの適宜の記憶装置に予め記憶させておいてもよい。

　上記で説明したように、ユーザは、ＨＭＤ１０１側から情報端末１０２に音声操作を行うことができる。ここで、図１９を参照しながら、音声操作におけるＨＭＤ１０１と情報端末１０２の間でのデータの入出力について説明する。

　先ず、ＨＭＤ１０１は、ユーザによる操作内容に関する音声入力があるまで待機し、操作内容に関する音声入力があった場合に情報端末１０２への操作モード（図１９では、ウェアラブル機器操作モード）を開始する（Ｓ７０１）。そして、制御部１０は、情報端末１０２を音声操作する場合（すなわち、上記したＳ５０２の処理において、情報端末１０２への操作内容を認識した場合）に、通信部（通信処理部３３およびインタフェース３６）を起動し、情報端末１０２（この例では、ウェアラブル機器２００）との通信を開始する（Ｓ７０２）。

　そして、制御部１０は、ネットワーク２０２を介してウェアラブル機器２００に操作内容を送信（Ｓ７０３）し、ウェアラブル機器２００から操作結果を受信する（Ｓ７０４）。そして、ユーザは、受信した操作結果を確認して、正しく操作されたかどうかについて確認する（Ｓ７０５）。すなわち、Ｓ７０５において、上記で説明したＳ５０６の確認が行われる。そして、正しい操作が行われたことをユーザが確認した場合、その旨のキーワードがユーザにより音声で入力される。そして、制御部１０がその操作内容を確定させることで、情報端末１０２への操作モードが終了する（Ｓ７０６）。

　本実施形態によれば、ユーザは、音声を入力するという簡単な手法に基づいて、対象のマッピング処理、対象のアイコンの生成、および、対象の操作を容易に行うことができる。従って、例えば、外界に対する視界が制限されていても、ユーザは利便性良く使用することができる。また、本実施形態によれば、音声拡張現実オブジェクト再生装置の一例であるＨＭＤ１０１と、１台または複数台の情報端末１０２と、を備える情報端末システムが実現される。なお、上記の説明では、情報端末１０２の一例として、ウェアラブル機器２００やスマートフォン２０１を用いる例が説明されたが、情報端末１０２は、異なる他の種類の端末であってもよい。また、情報端末１０２は、音声以外で通常の操作が可能な端末であってもよい。この場合、マッピング開始を合図する情報端末１０２への入力などが音声以外の方法で行われてもよい。

　次に、図２０を参照しながら、第２実施形態について説明する。他の実施形態と同様の機能には、同一の符号を付し、説明を省略することがある。第２実施形態では、第１実施形態で説明したＨＭＤ１０１からディスプレイ１５が省略された音声拡張現実オブジェクト再生装置１００１の一例について説明する。この音声拡張現実オブジェクト再生装置１００１では、表示に関する処理が省略されている。

　音声拡張現実オブジェクト再生装置１００１は、一例として、ヘッドフォンのように頭部に装着する装置とすることができる。そして、この音声拡張現実オブジェクト再生装置１００１は、情報端末１０２に接続され、上記の説明と同様にして、対象からの音声入力に応じて仮想空間３００上へのマッピングを行う。また、ユーザが所望の操作を入力することで、音声拡張現実オブジェクト再生装置１００１は、ユーザの操作に対応する処理を行う。ここで、ユーザは、上記の説明と同様に、マッピングした対象を再生させる操作などの各種の操作を行うことができる。また、対象を再生させる場合では、音声拡張現実オブジェクト再生装置１００１は、仮想空間３００上の仮想音源１０３の位置から聞こえるような出力を行うことができる。

　上記では第１実施形態および第２実施形態について説明された。ここで、実施形態で説明したＨＭＤ１０１および音声拡張現実オブジェクト再生装置１００１は、情報端末１０２に接続されず、スタンドアローンで使用されてもよい。この場合、ＨＭＤ１０１や音声拡張現実オブジェクト再生装置１００１は、上記の説明と同様に、情報端末１０２からの音声を利用してマッピングを行い、ユーザからの操作に応じた処理を行うが、情報端末１０２との通信を利用する処理が省略される。

　そして、マッピングした対象を再生する場合では、ＨＭＤ１０１や音声拡張現実オブジェクト再生装置１００１には、マッピングする対象から再生するデータが予め記憶され、ＨＭＤ１０１や音声拡張現実オブジェクト再生装置１００１は、予め記憶されたデータに基づいて、仮想空間３００上で対応する位置から聞こえてくるような出力を行う。

　なお、音声拡張現実オブジェクト再生装置（１０１、１００１）は、スタンドアローンのみで使用する構成とされてもよく、この場合、情報端末１０２と通信する構成が省略されてもよい。また、情報端末１０２は、通信に用いる構成が省略された端末であってもよい。

　以上、本発明の実施形態について説明したが、言うまでもなく、本発明の技術を実現する構成は上記実施形態に限られるものではなく、様々な変形例が考えられる。例えば、前述した実施の形態は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成と置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。これらは全て本発明の範疇に属するものである。また、文中や図中に現れる数値やメッセージ等もあくまでも一例であり、異なるものを用いても本発明の効果を損なうことはない。

　また、各処理例で説明したプログラムは、それぞれ独立したプログラムでもよく、複数のプログラムが一つのアプリケーションプログラムを構成していてもよい。また、各処理を行う順番を入れ替えて実行するようにしてもよい。

　前述した本発明の機能等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、マイクロプロセッサユニット、ＣＰＵ等がそれぞれの機能等を実現する動作プログラムを解釈して実行することによりソフトウェアで実現してもよい。また、ソフトウェアの実装範囲を限定するものでなく、ハードウェアとソフトウェアを併用してもよい。また、各機能の一部または全部をサーバで実現してもよい。なお、サーバは、通信を介して他の構成部分と連携し機能の実行が出来ればよく、例えば、ローカルサーバ、クラウドサーバ、エッジサーバ、ネットサービス等であり、その形態は問わない。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納されてもよいし、通信網上の装置に格納されてもよい。

　また、図中に示した制御線や情報線は説明上必要と考えられるものを示しており、必ずしも製品上の全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０　　制御部（プロセッサ）
１１　　ＲＯＭ
１２　　ＲＡＭ
１３　　ストレージ部
１４　　カメラ
１５　　ディスプレイ（表示部）
１６　　マイク
１７　　スピーカ
１８　　ボタン
１９　　タッチセンサ
２０　　音声認識部
２１　　音声入力部
２２　　アレイマイク
２３　　指向性マイク
２４　　距離測定部
２５　　距離測定カメラ
２６　　ＬｉＤＡＲ
２７　　距離センサ
２８　　ヘッドトラッキング部
２９　　加速度センサ
３０　　ジャイロセンサ
３１　　アイトラッキング部
３２　　視線検出センサ
３３　　通信処理部
３４　　無線ＬＡＮ通信部
３５　　近接無線通信部
３６　　インタフェース
３７　　無線アンテナ
１００　操作者（ユーザ）
１０１　ＨＭＤ（ヘッドマウントディスプレイ）
１０２　情報端末
１０３　仮想音源
２００　ウェアラブル機器
２０１　スマートフォン
２０２　ネットワーク
３００　仮想空間
１００１　音声拡張現実オブジェクト再生装置

Claims

　仮想空間に対象をマッピングすることができる音声拡張現実オブジェクト再生装置であって、
　プロセッサを備え、
　前記プロセッサは、
　情報端末から出力されて入力される音声に基づいて、前記情報端末の位置に対応する仮想空間上の位置に、前記情報端末または前記情報端末のアプリを対象としてマッピングする、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１に記載の音声拡張現実オブジェクト再生装置であって、
　前記情報端末からの音声を入力するアレイマイクを備え、
　前記アレイマイクは、
　（１）音声拡張現実オブジェクト再生装置の正面側の左上端部および右下端部、および、音声拡張現実オブジェクト再生装置の右側に配置されるマイクにより構成され、または、（２）音声拡張現実オブジェクト再生装置の正面側の右上端部および左下端部、および、音声拡張現実オブジェクト再生装置の左側に配置されるマイクにより構成される、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項２に記載の音声拡張現実オブジェクト再生装置であって、
　前記アレイマイクにおいて、
　前記（１）の構成である場合、音声拡張現実オブジェクト再生装置の装着時において、正面側のそれぞれのマイクの距離と正面側の右下端部のマイクおよび右側のマイクの距離が略同一となるように、各マイクが配置され、
　前記（２）の構成である場合、音声拡張現実オブジェクト再生装置の装着時において、正面側のそれぞれのマイクの距離と正面側の左下端部のマイクおよび左側のマイクの距離が略同一となるように、各マイクが配置される、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１に記載の音声拡張現実オブジェクト再生装置であって、
　前記情報端末からの音声を入力する１つまたは複数の指向性マイクを備える、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１に記載の音声拡張現実オブジェクト再生装置であって、
　前記プロセッサは、
　マッピングにより配置される仮想音源の位置が、音声を出力する前記情報端末の位置に一致しているかどうかに基づいて、マッピングが適切であるかどうかについて判定する、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項５に記載の音声拡張現実オブジェクト再生装置であって、
　前記プロセッサは、
　マッピングが適切でないと判定した場合、前記仮想音源の位置を前記情報端末の位置に一致させるように調整する、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１に記載の音声拡張現実オブジェクト再生装置であって、
　前記プロセッサは、
　仮想空間上において、対象をマッピングする位置が既にマッピングされた他の対象の位置と重なる場合、音声による警告を出力させる、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項７に記載の音声拡張現実オブジェクト再生装置であって、
　前記プロセッサは、
　対象をマッピングする位置をどの方向にずらすかについて提案する音声を出力させる、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１に記載の音声拡張現実オブジェクト再生装置であって、
　前記プロセッサは、
　マッピングにおいて局所座標系または世界座標系の何れを用いるかについてユーザに選択させる音声を出力させ、
　入力されるユーザの音声に対応する座標系でマッピングを行う、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１に記載の音声拡張現実オブジェクト再生装置であって、
　表示部を備え、
　前記プロセッサは、
　マッピングした対象の操作に用いるアイコンを前記表示部に表示する、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１０に記載の音声拡張現実オブジェクト再生装置であって、
　前記プロセッサは、
　ユーザが入力する音声に対応する対象のアイコンを選択する、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１１に記載の音声拡張現実オブジェクト再生装置であって、
　ユーザの頭の動きを検出するヘッドトラッキング部を備え、
　前記プロセッサは、
　前記ヘッドトラッキング部が検出する方向のアイコンを選択する、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１１に記載の音声拡張現実オブジェクト再生装置であって、
　ユーザの視線方向を検出するアイトラッキング部を備え、
　前記プロセッサは、
　前記アイトラッキング部が検出する方向のアイコンを選択する、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１０に記載の音声拡張現実オブジェクト再生装置であって、
　前記プロセッサは、
　前記情報端末からの音声に基づいて取得する対象の名称を、対象のアイコンとともに前記表示部に表示する、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　請求項１０に記載の音声拡張現実オブジェクト再生装置であって、
　通信に用いるインタフェースを備え、
　前記プロセッサは、
　前記情報端末との通信に基づいて取得する対象の名称を、対象のアイコンとともに前記表示部に表示する、
ことを特徴とする音声拡張現実オブジェクト再生装置。
　１台または複数台の情報端末と、
　仮想空間に対象をマッピングすることができる音声拡張現実オブジェクト再生装置と、
を備え、
　前記音声拡張現実オブジェクト再生装置は、
　プロセッサを備え、
　前記プロセッサは、
　情報端末から出力されて入力される音声に基づいて、前記情報端末の位置に対応する仮想空間上の位置に、前記情報端末または前記情報端末のアプリを対象としてマッピングする、
ことを特徴とする情報端末システム。
　請求項１６に記載の情報端末システムであって、
　前記音声拡張現実オブジェクト再生装置は、
　表示部を備え、
　前記プロセッサは、
　マッピングした対象の操作に用いるアイコンを前記表示部に表示する、
ことを特徴とする情報端末システム。
　請求項１７に記載の情報端末システムであって、
　前記プロセッサは、
　ユーザが入力する音声に対応する対象のアイコンを選択する、
ことを特徴とする情報端末システム。
　請求項１７に記載の情報端末システムであって、
　前記プロセッサは、
　前記情報端末からの音声に基づいて取得する対象の名称を、対象のアイコンとともに前記表示部に表示する、
ことを特徴とする情報端末システム。
　請求項１７に記載の情報端末システムであって、
　前記音声拡張現実オブジェクト再生装置は、
　通信に用いるインタフェースを備え、
　前記プロセッサは、
　前記情報端末との通信に基づいて取得する対象の名称を、対象のアイコンとともに前記表示部に表示する、
ことを特徴とする情報端末システム。