WO2023286513A1

WO2023286513A1 - 音声生成装置、音声生成方法およびそのプログラム

Info

Publication number: WO2023286513A1
Application number: PCT/JP2022/023880
Authority: WO
Inventors: 俊良齋藤; フォクストンニコラスウォード
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2021-07-16
Filing date: 2022-06-15
Publication date: 2023-01-19
Also published as: US20240223988A1; JP2023013768A

Abstract

本開示の音声生成装置３００は、ユーザの頭部の位置及び回転を取得する取得部３０１と、第１時刻において取得した位置及び回転に基づいて所定の位置を仮想空間の三次元座標系の原点として音源データを生成する音源データ生成部３０３と、第１時刻よりも後の第２時刻の位置及び回転に対する第１時刻における位置及び回転の差分に基づいて第１時刻における音源データに対して仮想空間内での仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部３０４と、補正処理が実行された音源データを用いてレンダリングされるべき音声を生成する音声生成部３０５と、を備える。

Description

音声生成装置、音声生成方法およびそのプログラム

　本開示は、音声を生成し補正する装置、方法およびプログラムに関する。

　ゲーム機に接続されたヘッドマウントディスプレイ（以下、ＨＭＤという場合がある）を頭部に装着して、ＨＭＤに表示された画面を見ながら、コントローラなどを操作してゲームプレイすることが行われている。ゲーム機に接続された通常の据え置き型のディスプレイでは、ディスプレイの画面の外側にもユーザの視野範囲が広がっているため、ディスプレイの画面に集中できなかったり、ゲームへの没入感に欠けることがある。その点、ヘッドマウントディスプレイを装着すると、ＨＭＤに表示される映像以外はユーザは見ないため、映像世界への没入感が高まり、ゲームのエンタテインメント性を一層高める効果がある。

　また、ＨＭＤを装着したユーザが頭部を回転させると、３６０度の仮想空間が表示されるようにすると、さらに映像への没入感が高まり、ゲームなどのアプリケーションの操作性も向上する。このとき、ユーザの頭部の動きと連動して音声を生成される。

　このようにＨＭＤにヘッドトラッキング機能をもたせて、ユーザの頭部の動きと連動して音声を生成した場合、音声の生成から出力までの間にレイテンシがある。そのため、音声生成時に前提としたユーザの頭部の向きと、音声を実際に出力した時点でのユーザの頭部の向きとの間でずれが発生する場合がある。この音声のずれにより、ユーザが違和感を持つことがある。

　本開示はこうした課題に鑑みてなされたものであり、その目的は、音声の生成から出力までの間のレイテンシを低減した補正音声を提供することが可能な音声生成装置および音声生成方法を提供することにある。

　上記課題を解決するために、本開示のある態様の音声生成装置は、ユーザの頭部の位置及び回転の少なくともいずれかを取得する取得部と、第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成する音源データ生成部と、前記取得部から前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取り、前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部と、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成する音声生成部と、を備える。

　本開示の他の態様の音声生成装置は、ユーザの頭部の位置及び回転の少なくともいずれかを取得する取得部と、第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成する音源データ生成部と、前記取得部から前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取り、前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部と、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成する音声生成部と、を備える。

　本開示の他の態様の音声生成方法は、ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成するステップと、前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、を含む。

　本開示のさらに他の態様の音声生成方法は、ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成するステップと、前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、を含む。

　本開示のさらに他の態様のプログラムは、第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成するステップと、前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、をコンピュータに実行させるためのプログラムである。

　本開示のさらに他の態様のプログラムは、ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成するステップと、前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、をコンピュータに実行させるためのプログラムである。

　なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本開示の態様として有効である。

　本開示によれば、音声の生成から表示までの間のレイテンシを低減した補正音声を提供することができる。

ヘッドマウントディスプレイの外観図である。ヘッドマウントディスプレイの機能構成図である。実施形態に係る音声生成システムの構成図である。実施形態に係る音声生成装置の機能構成図である。ヘッドマウントディスプレイで出力される音声を説明するための図である。補正処理を行わない従来の音声生成処理のシーケンス図である。実施形態の補正処理を伴う音声生成処理のシーケンス図である。実施形態の補正処理を伴う音声生成処理のフローチャートである。第１実施形態の音声補正処理を説明するための図である。第２実施形態の音声補正処理を説明するための図である。

（第１の実施形態）
　図１は、ＨＭＤ１００の外観図である。ＨＭＤ１００は、ユーザの頭部に装着してディスプレイに表示される静止画や動画などを鑑賞し、ヘッドホンから出力される音声や音楽などを聴くための装置である。ＨＭＤ１００に内蔵または外付けされたＧＰＳ（Global Positioning System）などの位置センサによりユーザの位置情報を計測することができる。また、ＨＭＤ１００に内蔵または外付けされた姿勢センサによりＨＭＤ１００を装着したユーザの頭部の回転角や傾きといった姿勢情報を計測することができる。

　本実施形態のＨＭＤ１００は、ユーザに音声を提供する音声提供装置の一例である。しかし、音声提供装置は、ＨＭＤに限らず、ヘッドフォン、ヘッドセット（マイクつきヘッドフォン）、イヤホン、イヤリングなどであってもよい。

　図２は、本実施形態のＨＭＤ１００の機能構成図である。制御部１０は、画像信号、センサ信号などの信号や、命令やデータを処理して出力するメインプロセッサである。入力インタフェース２０は、タッチパネルおよびタッチパネルコントローラから操作信号や設定信号を受け付け、制御部１０に供給する。出力インタフェース３０は、制御部１０から画像信号を受け取り、ディスプレイに表示させる。出力インタフェース３０は、制御部１０から音声信号を受け取り、スピーカに音声出力させる。

　通信制御部４０は、ネットワークアダプタ４２またはアンテナ４４を介して、有線または無線通信により、制御部１０から入力されるデータを外部に送信する。通信制御部４０は、また、ネットワークアダプタ４２またはアンテナ４４を介して、有線または無線通信により、外部からデータを受信し、制御部１０に出力する。

　記憶部５０は、制御部１０が処理するデータやパラメータ、操作信号などを一時的に記憶する。

　ＧＰＳユニット６０は、制御部１０からの操作信号にしたがって、ＧＰＳ衛星から位置情報を受信して制御部１０に供給する。無線ユニット６２は、制御部１０からの操作信号にしたがって、無線基地局から位置情報を受信して制御部１０に供給する。

　姿勢センサ６４は、ＨＭＤ１００の本体部１１０の回転角や傾きなどの姿勢情報を検出する。姿勢センサ６４は、ジャイロセンサ、加速度センサ、角加速度センサなどを適宜組み合わせて実現される。

　外部入出力端子インタフェース７０は、ＵＳＢ（Universal Serial Bus）コントローラなどの周辺機器を接続するためのインタフェースである。外部メモリ７２は、フラッシュメモリなどの外部メモリである。

　時計部８０は、制御部１０からの設定信号によって時間情報を設定し、時間データを制御部１０に供給する。

　図３は、本実施形態の音声生成システムの構成図である。音声生成システム１は、ＨＭＤ１００と、レンダリング装置２００と、を含む。ＨＭＤ１００は、無線通信またはＵＳＢなどの周辺機器を接続するインタフェースでレンダリング装置２００に接続される。本実施形態のレンダリング装置２００はゲーム機である。レンダリング装置２００は、さらにネットワークを介してサーバに接続されてもよい。その場合、サーバは、複数のユーザがネットワークを介して参加できるゲームなどのオンラインアプリケーションをレンダリング装置２００に提供してもよい。ＨＭＤ１００は、レンダリング装置２００の代わりに、コンピュータや携帯端末に接続されてもよい。

　レンダリング装置２００は基本的に、コンテンツのプログラムを処理し、音声を生成してＨＭＤ１００に送信する。コンテンツのプログラムやデータは、ゲームなどのコンテンツのアプリケーションソフトウェア、およびライセンス情報を記録したＲＯＭ媒体（不図示）からメディアドライブ（不図示）によって読み出される。このＲＯＭ媒体は、光ディスクや光磁気ディスク、ブルーレイディスクなどの読出専用の記録メディアである。ある態様のレンダリング装置２００は、ＨＭＤ１００を装着したユーザの頭部の位置や姿勢に応じたコンテンツの音声を所定のレートで生成する。

　図４は、本実施形態に係る音声生成装置３００の機能構成図である。同図は機能に着目したブロック図を描いており、これらの機能ブロックはハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現することができる。

　音声生成装置３００は、位置・回転取得部３０１と、感度調整部３０２と、音源データ生成部３０３と、補正処理部３０４と、音声生成部３０５と、音声提供部３０６と、記憶部３０７と、を備える。本実施形態では、音声生成装置３００は、ＨＭＤ１００が接続されたレンダリング装置２００に実装される。しかし、これに限定されず、音声生成装置３００の少なくとも一部の機能をＨＭＤ１００の制御部１０に実装してもよい。特に後述の補正処理部３０４の機能をＨＭＤ１００側に実装してもよい。あるいは、音声生成装置３００の少なくとも一部の機能を、ネットワークを介してレンダリング装置２００に接続されたサーバに実装してもよい。

　位置・回転取得部３０１は、ＨＭＤ１００のＧＰＳユニット６０やモーションセンサにより検知される位置情報と姿勢センサ６４により検知される姿勢情報とに基づいて、ＨＭＤ１００を装着したユーザの頭部の位置および回転を取得する。ユーザの頭部の位置は、レンダリング装置２００のカメラによりＨＭＤ１００の動きを検出することにより取得されてもよい。本実施形態の位置・回転取得部３０１は、取得部の一例である。

　位置・回転取得部３０１は、感度調整部３０２から指示された感度にもとづいて、ユーザの頭部の位置および回転を取得する。たとえば、ユーザが頭を回すと、姿勢センサ６４によりユーザの頭部の角度の変化が検出されるが、感度調整部３０２は、角度の変化が所定の値を超えるまでは検出された角度の変化を無視するように位置・回転取得部３０１に指示する。

　モーションセンサとして、３軸地磁気センサ、３軸加速度センサおよび３軸ジャイロ（角速度）センサの少なくとも１つ以上の組み合わせを用いて、ユーザの頭部の前後、左右、上下の動きを検出してもよい。また、ユーザの頭部の位置情報を組み合わせて頭部の動き検出の精度を向上させてもよい。

　音源データ生成部３０３は、第１時刻において取得した位置及び回転の少なくともいずれかに基づいて、ユーザの所定の位置を仮想空間の三次元座標系の原点として、サウンドオブジェクトを仮想空間内に配置する。音源データ生成部３０３は、仮想空間に配置されたサウンドオブジェクトの三次元座標を示す音源データを生成する。本実施形態のサウンドオブジェクトは仮想的な音源の一例である。ここでのユーザの所定の位置は、ユーザの頭部の中心とすることができるが、これに限定されない。仮想空間の三次元座標系の原点となるユーザの所定の位置は、ユーザの首などの他の部位の箇所であってもよい。例えば、音源データ生成部３０３は、シーンに応じて記憶部３０７から仮想空間におけるサウンドオブジェクトの三次元座標を読み出すことにより、１つ又は複数のサウンドオブジェクトを仮想空間内に配置する。また、音源データ生成部３０３は、シーンに応じて各サウンドオブジェクトの音声波形データを記憶部３０７から読み出す。音源データ生成部３０３は、音源データ及び音声波形データを補正処理部３０４に与える。

　補正処理部３０４は、位置・回転取得部３０１から第１時刻よりも後の第２時刻において更新されたＨＭＤ１００の位置および回転を受け取る。補正処理部３０４は、第２時刻での更新された位置および回転に対する第１時刻での位置および回転の差分に基づいて第１時刻における音源データに対して仮想空間内でのサウンドオブジェクトの平行移動及び回転を含む補正処理を実行する。この補正処理の詳細については後述する。補正処理部３０４は、補正処理が実行された音源データ及び音声波形データを音声生成部３０５に与える。

　音声生成部３０５は、補正処理が実行された音源データ及び音声波形データを用いて仮想空間においてレンダリングされるべき音声を生成する。例えば、音声生成部３０５は、補正処理が実行された音源データ及び音声波形データに基づいてバイノーラルレンダリングを実行することにより、各サウンドオブジェクトからユーザの左耳及び右耳の各々に聞こえる音声を生成する。例えば、音声波形データに基づく音量の音声がユーザとサウンドオブジェクトとの間の距離に応じた倍率で生成される。

　音声提供部３０６は、生成した音声をＨＭＤ１００に供給する。その結果、ＨＭＤ１００から音声が出力される。

　図５（ａ）～図５（ｄ）を用いて、仮想空間内でユーザの両耳に届く音声について説明する。ＨＭＤ１００に出力される音声を説明する。図５（ａ）に示すように、仮想空間において、ユーザＵがサウンドオブジェクトＳに対して正対している場合、サウンドオブジェクトＳからの音声はユーザＵの正面方向から届く。このとき、図５（ｃ）の音声の波形データからわかるように、ユーザＵの左耳Ｌ及び右耳Ｒにはほぼ同じ音量及び遅延の音声が到達する。一方で、図５（ｂ）に示すように、ユーザＵが右方を向いている場合、サウンドオブジェクトＳからの音声はユーザの左方向から届く。このとき、図５（ｄ）の音声の波形データからわかるように、ユーザＵの右耳Ｒでの音声の遅延よりも左耳Ｌでの音声の遅延の方が小さく、またユーザＵの右耳Ｒでの音量よりも左耳Ｌでの音量の方が大きくなる。

　音声を補正しない場合について説明する。図５（ａ）のユーザＵがサウンドオブジェクトＳに対して正対している状態から２１．２ｍｓかけて頭を回して図５（ｂ）のユーザＵが右方を向いた場合を考える。この場合、図５（ａ）の状態での図５（ｃ）の波形データの音声が生成される。その結果、音声生成装置３００における音声の更新頻度が２１．２ｍｓの場合、上記正対している状態から２１．２ｍｓの間、図５（ｃ）の波形データの音声がユーザＵの左耳Ｌおよび右耳Ｒに届く。ここで、ユーザＵが頭を右方に回すことによりサウンドオブジェクトＳに対するユーザＵの向きが変わるため、本来であれば向きの変化に応じてサウンドオブジェクトＳからの音声の聞こえ方が変わるはずである。しかし、音声は図５（ａ）の状態を基に生成されているため、ユーザＵにはユーザＵの向きが変わる前の図５（ｃ）の波形データの音声が聞こえることになる。その結果、ユーザＵが時間差による向きのずれに起因する違和感を持つ場合がある。同様に、ユーザＵの向きの変化だけでなくユーザＵが移動した場合（位置が変化した場合）にも、移動前後の位置のずれによりユーザＵが違和感を持つ場合がある。

　本実施形態では、この時間差による向きや位置のずれに起因する違和感を解消するために音源データを補正する処理を行う。まず比較のために、図６を参照して、補正処理を行わない従来の音声生成処理を説明し、その後、図７を参照して本実施形態の補正処理を説明する。

　図６は、補正処理を行わない従来の音声生成処理を説明するシーケンス図である。

　音声生成装置３００は、サウンドオブジェクトの配置や音源データの生成などのアセットの準備を行い、第１時刻ｔ１におけるＨＭＤ１００の位置ｐ１および回転ｑ１を取得する。アセット準備と並行して、第１時刻ｔ１における位置ｐ１および回転ｑ１での音声をレンダリングする処理が行われる。この音声レンダリング処理は、一定の処理時間を要する。

　音声生成装置３００が生成した音声はＨＭＤ１００に供給される。ＨＭＤ１００と音声生成装置３００は、有線又は無線で接続されており、音声生成装置３００からＨＭＤ１００への音声の供給には一定の伝送時間を要する。音声生成装置３００とＨＭＤ１００がネットワークを介して接続されている場合は、ネットワーク遅延が発生する。

　ＨＭＤ１００は、音声生成装置３００が生成した音声を取得して、音声の出力処理を行う。この出力処理のために遅延が発生し、音声が時刻ｔ’においてスピーカから出力される。

　このように、第１時刻ｔ１においてＨＭＤ１００の位置ｐ１および回転ｑ１を音声生成装置３００に提供してから、時刻ｔ’においてＨＭＤ１００のスピーカから音声が出力されるまでに、レンダリング処理、音声伝送処理、出力処理に一定の時間を要し、図６に示すようにレイテンシが発生する。音声生成のためにＨＭＤ１００の位置および回転を与えた第１時刻ｔ１と、ＨＭＤ１００に音声が出力される時刻ｔ’の間にも、ＨＭＤ１００を装着したユーザは移動したり、姿勢を変えている。その結果、ユーザは時間差分Δｔ＝ｔ’－ｔ１だけ過去のＨＭＤ１００の位置および回転における音声を聞くことになり、出力されている音声が前提とする位置および回転と、現在の位置および回転とのずれのゆえに、ユーザは違和感を持つ場合がある。

　図７は、本実施形態の補正処理を伴う音声生成処理を説明するシーケンス図である。

　音声生成装置３００がＨＭＤ１００から第１時刻ｔ１における位置ｐ１および回転ｑ１を取得して、アセット準備を行うところまでは、図６の従来の音声生成処理と同じである。本実施形態では、音声生成装置３００が音声レンダリングを開始する第２時刻ｔ２において、生成された音源データに対して補正処理を行う。この補正処理はＨＭＤ１００、音声生成装置３００のどちらで行われてもよい。ＨＭＤ１００が十分な処理性能をもっている場合はＨＭＤ１００において補正処理を行うことができるが、そうではない場合は、音声生成装置３００が補正処理を行い、補正後の音源データに基づいて生成された音声をＨＭＤ１００に提供する。

　補正処理では、第２時刻ｔ２におけるＨＭＤ１００の位置ｐ２および回転ｑ２の情報が取得され、第１時刻ｔ１と最新の第２時刻ｔ２の間でのＨＭＤ１００の位置および回転のずれに基づいて、音源データが補正される。ＨＭＤ１００は補正された音源データに基づく音声の出力処理を実行し、音声をスピーカから出力する。これにより、みかけ上のレイテンシは、図７に示すように第２時刻ｔ２と時刻ｔ’の差に低減される。

　以下、本実施形態の補正処理を詳述するが、まず前提となる技術事項を説明する。

　音声生成部３０５は、ＨＭＤ１００の位置ｐおよび回転ｑの基準となる三次元座標系を定める。この三次元座標系は、直交座標系であればよく、各軸をどの方向に選んでもよい。三次元座標系の原点は例えばユーザの頭部の中心であるが、頭部の中心以外の点であってもよい。たとえば、ゲームなどのアプリケーションの開始時に、ＨＭＤ１００を装着したユーザに基準となる位置で基準となる姿勢を取ってもらい、そのときのＨＭＤ１００のセンサ情報からＨＭＤ１００の基準位置ｐ０および基準回転ｑ０を取得して三次元座標系が定められてもよい。

　次に、本実施の形態の音声生成装置３００によってＨＭＤ１００に出力される音声を生成する手順の概略を説明する。

　図８は、音声生成装置３００による音声生成処理Ｓ１００を説明するフローチャートである。

　ステップＳ１０１で、ＨＭＤ１００は、初期化処理として、基準となる三次元座標系を定める。これは、ＨＭＤ１００の動きの基準となる位置と回転を決める作業である。ユーザの指示した位置でＨＭＤ１００のセンサ情報から初期位置ｐ０および初期回転ｑ０を取得し、その値を原点（０，０，０）として三次元座標系を定める。

　ステップＳ１０２で、ＨＭＤ１００は、ＨＭＤ１００のセンサ情報から、第１時刻ｔ１におけるＨＭＤ１００の位置ｐ１および回転ｑ１を取得する。

　ステップＳ１０３で、ＨＭＤ１００は、第１時刻ｔ１における位置ｐ１および回転ｑ１を音声生成装置３００に与える。

　ステップＳ１０４で、音声生成装置３００は、第１時刻ｔ１における位置ｐ１および回転ｑ１に基づいて、仮想空間に配置されたサウンドオブジェクトの三次元座標を示す音源データを生成する。具体的には、位置・回転取得部３０１は、ＨＭＤ１００から第１時刻ｔ１における位置ｐ１および回転ｑ１を取得して音源データ生成部３０３に供給するとともに記憶部３０７に記憶させる。音源データ生成部３０３は、シーンに応じた各サウンドオブジェクトの三次元座標データ及び音声波形データを記憶部３０７から読み出す。音源データ生成部３０３は、シーンに基づいて位置ｐ１および回転ｑ１に対応するように仮想空間内にサウンドオブジェクトを配置する。音源データ生成部３０３は、時刻ｔ１での仮想空間における各サウンドオブジェクトの三次元座標を示す音源データを生成し、音源データ及び音声波形データを補正処理部３０４に供給する。

　音声生成装置３００による第１時刻ｔ１における音源データの生成が完了した後、ステップＳ１０５で、ＨＭＤ１００は、ＨＭＤ１００のセンサ情報から、第２時刻ｔ２におけるＨＭＤ１００の位置ｐ２および回転ｑ２を取得する。

　ステップＳ１０６で、ＨＭＤ１００は、第２時刻ｔ２における位置ｐ２および回転ｑ２を音声生成装置３００に与える。音声生成装置３００がアセットを準備している間も、ＨＭＤ１００を装着したユーザは、移動したり向きを変えたりするため、ＨＭＤ１００の第２時刻ｔ２における位置ｐ２および回転ｑ２は、第１時刻ｔ１における位置ｐ１および回転ｑ１とは少しずれている。

　ステップＳ１０７で、音声生成装置３００は、第１時刻ｔ１と第２時刻ｔ２との間のＨＭＤ１００の位置および回転のずれを吸収するために、音源データの補正処理を実行する。具体的には、位置・回転取得部３０１は、ＨＭＤ１００から最新の第２時刻ｔ２における更新された位置ｐ２および回転ｑ２を取得して補正処理部３０４に供給する。補正処理部３０４は、さらに、ＨＭＤ１００の第１時刻ｔ１における位置ｐ１および回転ｑ１を記憶部３０７から読み出す。補正処理部３０４は、最新の第２時刻ｔ２における更新された位置ｐ２および回転ｑ２に対する第１時刻ｔ１における位置ｐ１および回転ｑ１の位置の差分ｐ２－ｐ１および回転の差分ｑ２－ｑ１を算出する。補正処理部３０４は、第１時刻ｔ１における仮想空間内のサウンドオブジェクトの三次元座標を位置の差分ｐ２－ｐ１だけ平行移動させるとともに回転の差分ｑ２－ｑ１だけ回転させることにより、音源データを補正する。補正処理部３０４は、補正後の音源データ及び音声波形データを音声提供部３０６に供給する。

　音源データを補正して各サウンドオブジェクトの三次元座標を最新の位置及び回転に合わせて調整することにより、第１時刻ｔ１と第２時刻ｔ２の間にＨＭＤ１００の位置および回転がずれても、その時間差によるずれを吸収することができる。

　以下、補正処理部３０４による補正処理について数式を用いて詳細に説明する。補正処理部３０４に与えられる入力は、第１時刻ｔ１におけるＨＭＤ１００の位置ｐ１および回転ｑ１に対して生成された音源データ、この音源データを生成する際に用いられた位置ｐ１および回転ｑ１、最新の第２時刻ｔ２におけるＨＭＤ１００の更新された位置ｐ２および回転ｑ２である。補正処理部３０４は、第１時刻ｔ１における位置ｐ１および回転ｑ１における音源データに対して、以下の補正処理を実行する。

　前提として、ＨＭＤ１００の絶対的な基準からの位置および回転の情報をセンサが提供できるものとする。センサとして、ＨＭＤ１００のＧＰＳユニット６０および姿勢センサ６４が用いられる。またセンサとしてモーションコントローラ（不図示）が用いられてもよい。ＨＭＤ１００を装着したユーザの動きに応じて位置ｐおよび回転ｑは変化する。ＨＭＤ１００は、剛体であり、点ではないが、位置ｐはＨＭＤ１００上の固定された一点の位置として定義する。以下、この固定された一点をＨＭＤ１００の中心点と呼ぶ。

　第１時刻ｔ１でのＨＭＤ１００の位置をｐ＝（ｘ，ｙ，ｚ）とし、第１時刻ｔ１と第２時刻ｔ２との間のＨＭＤ１００の位置の差分をｐ’＝（ｔ_ｘ，ｔ_ｙ，ｔ_ｚ）とした場合、サウンドオブジェクトの平行移動後の三次元座標は次式から求められる。

　また、第１時刻ｔ１と第２時刻ｔ２との間のＨＭＤ１００の回転の差分をｑ’＝（ｑ_ａ，ｑ_ｂ，ｑ_ｃ，ｑ_ｄ）とした場合、サウンドオブジェクトの回転後の三次元座標は次式から求められる。

　クォータニオンｑを用いたコンピュータグラフィックスに関する３次元回転などの計算方法については「３Ｄ－ＣＧプログラマーのためのクォータニオン入門」（工学社、２００４年１月）に記載されている。

　ステップＳ１０７で、音声生成装置３００は、補正後の音源データを用いてＨＭＤ１００のスピーカに出力すべき音声をレンダリングする。具体的には、音声生成部３０５は、補正後の音源データ及び音声波形データに基づいて、各サウンドオブジェクトからユーザの左右の耳毎に聞こえる音声をレンダリングする。音声生成部３０５は、レンダリングした音声を音声提供部３０６に供給する。

　このように三次元座標が平行移動および回転されたサウンドオブジェクトからレンダリングされる音声は、第１時刻ｔ１の位置ｐ１および回転ｑ１に対してレンダリングされた音声を第２時刻ｔ２の位置ｐ２および回転ｑ２に対してレンダリングされた音声に補正したものに対応する。第１時刻ｔ１と第２時刻ｔ２での位置及び回転の差分ｐ２－ｐ１及びｑ２－ｑ１を用いて第１時刻ｔ１でのサウンドオブジェクトの三次元座標を平行移動及び回転することにより、アセット準備等の処理を実施せずに第２時刻ｔ２の位置ｐ２および回転ｑ２に対応する音声をレンダリングすることが可能となる。その結果、データの処理量が少なくなって迅速なレンダリングが可能となり、補正後の音声を生成する際の遅延時間を低減することが可能となる。

　ステップＳ１０８で、音声提供部３０６は、レンダリングされた音声をＨＭＤ１００に与える。

　ステップＳ１０９で、ＨＭＤ１００に補正後の音声が出力される。ユーザには、第１時刻ｔ１と第２時刻ｔ２の間にＨＭＤ１００の位置および回転がずれた分を補正した音声が聞こえるようになり、第１時刻ｔ１と第２時刻ｔ２の時間差分のレイテンシが吸収され、ユーザの「違和感」が軽減される。その後、音声生成処理Ｓ１００はステップＳ１０１に戻って、それ以降の処理が繰り返される。

　このように頭部の動きに応じてＨＭＤ１００から出力される音声を補正できるため、ユーザの頭部の位置及び向きの変化に対するレイテンシが小さくなり、ユーザに対するサウンドオブジェクトの相対的な位置をより明確に把握できるようになる。その結果、仮想空間に対する没入感を高めることができる。

　特にゲームアプリケーションにおいて、ユーザがゲームコントローラのボタンや携帯端末のタッチスクリーンなどを使って仮想空間内の位置および方向を変え、ゲーム中の他のユーザのキャラクタとインタラクションする場合、リアルタイム性が重要な要素となる。このような場合、補正処理により擬似的にリアルタイム性をもたせることは有益である。

（変形例）
　以下、変形例を説明する。

　実施形態では、１フレーム分のデータを読み出して音声をレンダリングしたが、複数フレーム分のデータを読み出して複数フレームの音声をレンダリングしてもよい。例えば、４フレーム分のデータが読み出された場合を考える。音声の更新頻度は例えば２１．２ｍｓであるものとすると、１フレームで５．３ｍｓ分の音声が生成されることになる。ユーザが真右（左右，高さ，奥行）＝（１，０，０）を向いた状態で、サウンドオブジェクトが（０，０，２）に配置された場合、ユーザには（０，０，２）からサウンドオブジェクトの音声が聞こえる。この状態からユーザが２１．２ｍｓかけて正面（０，０，１）を向くと、２１．２ｍｓ後にユーザには（２，０，０）からサウンドオブジェクトの音声が聞こえる。ここで、仮に上述の補正処理を実行しない場合、ユーザが真右から正面に向きを変えているにも関わらず、４フレームのいずれについても（０，０，２）からサウンドオブジェクトの音声が聞こえる。その結果、２１．２ｍｓの間、ユーザには正面（０，０，２）から音声が聞こえることになる。

　一方で、本変形例では、フレーム毎に（すなわち５．３ｍｓ毎に）最新の位置および回転が取得され、各フレームでの位置および回転に基づいて各フレームについて位置および回転が補正される。その結果、ユーザには５．３ｍｓ毎に、（０，０，２）→（１，０，√３）→（√３，０，１）→（２，０，０）からサウンドオブジェクトの音声が聞こえるようになる。これにより、サウンドオブジェクトからの音声がよりスムーズに聞こえるようになる。

　第１実施形態では、位置及び回転の各差分に基づいて音源データの補正処理が実行されたが、これに限定されない。位置・回転取得部３０１は位置及び回転の少なくともいずれかを取得し、補正処理部３０４は位置及び回転の少なくともいずれかの差分に基づいて音源データの補正処理を実行してもよい。

（第２実施形態）
　以下、本開示の第２実施形態を説明する。第２実施形態の説明では、第１実施形態と重複する説明を適宜省略し、第１実施形態と相違する構成について重点的に説明する。

　第２実施形態では、音声生成部３０５は、第１の頻度でレンダリングされるべき音声を生成する。補正処理部３０４は、ＨＭＤ１００の単位時間当たりの音声データの処理量を示す音声処理粒度に合わせた第２の頻度で位置・回転取得部３０１から第２時刻での更新された位置及び回転を受け取る。補正処理部３０４は、第１の頻度よりも高い第２の頻度で受け取った複数の更新された位置及び回転に基づいて、音声生成部３０５により生成された音源データ及び補正処理が実行された音源データのいずれかに対して補正処理を複数回実行する。

　図９および図１０を参照して、第２実施形態の補正処理を説明する。図９は、比較のため、第１実施形態の音声補正処理を説明する図である。図９に示すように、音声生成装置３００は、第１時刻ｔ１でＨＭＤ１００の位置ｐ１および回転ｑ１を受け取り、音源データの生成を開始する。音声生成装置３００は、第２時刻ｔ２でＨＭＤ１００の最新の位置ｐ２および回転ｑ２を用いて音源データを補正処理する。ＨＭＤ１００の音声処理粒度が３０フレーム／秒であるとすると、音声生成装置３００は、３０フレーム／秒でフレーム（音声）を生成し、補正処理を行い、ＨＭＤ１００に補正後の音声を提供する。なお、補正処理はＨＭＤ１００側で行われてもよい。

　図１０は、第２実施形態の音声補正処理を説明する図である。音声生成装置３００によるレンダリングの音声処理粒度が３０フレーム／秒であるのに対して、ＨＭＤ１００の音声処理粒度が高フレームレートである。たとえばＨＭＤ１００の音声処理粒度が６０フレーム／秒である場合、第２実施形態ではＨＭＤ１００の音声処理粒度に合わせて補正処理の頻度を上げる。

　図１０に示すように、音声生成装置３００は、第２時刻ｔ２におけるＨＭＤ１００の位置ｐ２および回転ｑ２を用いて時刻ｔ１における音源データに対して１回目の補正処理を行い、補正後の音源データを用いて音声をＨＭＤ１００から出力する。その後、音声生成装置３００は、時刻ｔ３におけるＨＭＤ１００の位置ｐ３および回転ｑ３を用いて同じ音源データに対して２回目の補正処理を行い、２回目の補正後の音源データを用いて音声をＨＭＤ１００から出力する。これにより、音声生成装置３００の音声処理粒度が３０フレーム／秒であっても、補正後の音声が６０フレーム／秒で出力される。このように、所定の頻度で補正処理を行うことにより、音声処理粒度を上げたり、下げたりすることができ、特に音声生成装置３００とＨＭＤ１００との音声処理粒度が異なる場合に、システムに音声処理粒度変換の機能をもたせることができる。

　図１０の説明では、音声生成装置３００が生成した同じ音源データに対して、第２時刻ｔ２における位置ｐ２および回転ｑ２を用いた１回目の補正処理と、時刻ｔ３における位置ｐ３および回転ｑ３を用いた２回目の補正処理を行った。別の方法として、２回目の補正処理は、１回目の補正処理によって生成される補正後の音源データに対して行ってもよい。

　以上説明したように、第１の実施の形態および第２の実施の形態によれば、音声生成時点のユーザの位置及び回転を前提に生成された音源データを、音声出力時点のユーザの位置および回転を用いて補正することにより、音声生成時点から音声出力時点までの時間差分を吸収して、見かけ上のレイテンシを軽減することができる。

（第３実施形態）
　以下、本開示の第３実施形態を説明する。第２実施形態の説明では、第１実施形態と重複する説明を適宜省略し、第１実施形態と相違する構成について重点的に説明する。

　第１実施形態では、位置座標を有するサウンドオブジェクトを用いた音源データに対して補正処理が実行されたが、これに限定されない。第３実施形態では、アンビソニックスデータを用いた音源データに対して補正処理が実行される。

　第３実施形態では、音源データ生成部３０３は、第１時刻において取得した位置及び回転に基づいて、仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータを音源データとして生成する。具体的には、音源データ生成部３０３は、シーンに応じて記憶部３０７から仮想空間における音声波形データを読み出し、読み出した音声波形データに対して球面調和関数を適用することにより、アンビソニックスデータを生成する。音源データ生成部３０３は、生成したアンビソニックスデータを補正処理部３０４に供給する。

　補正処理部３０４は、上述した手法により、アンビソニックスデータに対して補正処理を実行する。補正処理の詳細については、第１実施形態の補正処理と同様であるため、その説明を省略する。補正処理部３０４は、補正処理を実行したアンビソニックスデータを音声生成部３０５に供給する。音声生成部３０５は、補正処理を実行したアンビソニックスデータを用いて音声をレンダリングし、音声提供部３０６に供給する。音声提供部３０６は、レンダリングされた音声をＨＭＤ１００に供給することにより、ユーザはＨＭＤ１００を介してアンビソニックスを利用した音声を体験することが可能となる。

　以上、本開示を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。そのような変形例を説明する。

　１　音声生成システム、　１０　制御部、　２０　入力インタフェース、　３０　出力インタフェース、　３２　バックライト、　４０　通信制御部、　４２　ネットワークアダプタ、　４４　アンテナ、　５０　記憶部、　６０　ＧＰＳユニット、　６２　無線ユニット、　６４　姿勢センサ、　７０　外部入出力端子インタフェース、　７２　外部メモリ、　８０　時計部、　１００　ヘッドマウントディスプレイ、２００　レンダリング装置、　３００　音声生成装置、　３０１　位置・回転取得部３０１、　３０２　感度調整部、　３０３　音源データ生成部、　３０４　補正処理部、３０５　音声生成部、　３０６　音声提供部、　３０７　記憶部。

Claims

　ユーザの頭部の位置及び回転の少なくともいずれかを取得する取得部と、
　第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成する音源データ生成部と、
　前記取得部から前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取り、前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部と、
　前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成する音声生成部と、
　を備える、音声生成装置。
　前記補正処理部は、前記仮想空間内に配置された複数の前記仮想的な音源の各々についての前記差分に基づいて前記複数の仮想的な音源の各々の前記平行移動及び回転の少なくともいずれかを含む前記補正処理を実行する、請求項１に記載の音声生成装置。
　ユーザの頭部の位置及び回転の少なくともいずれかを取得する取得部と、
　第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成する音源データ生成部と、
　前記取得部から前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取り、前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部と、
　前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成する音声生成部と、
　を備える、音声生成装置。
　前記音声生成部は、第１の頻度で前記レンダリングされるべき音声を生成し、
　前記補正処理部は、前記ユーザに前記補正した音声を提供する音声提供装置の音声処理粒度に合わせた第２の頻度で前記取得部から前記更新された位置及び回転を受け取り、前記第１の頻度よりも高い前記第２の頻度で受け取った複数の前記更新された位置及び回転に基づいて、前記音源データ及び前記補正処理が実行された音源データのいずれかに対して前記補正処理を複数回実行する、請求項１から３のいずれか１項に記載の音声生成装置。
　ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、
　第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成するステップと、
　前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、
　前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、
　前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、
　を含む、音声生成方法。
　ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、
　第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成するステップと、
　前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、
　前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、
　前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、
　をコンピュータに実行させるためのプログラム。
　ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、
　第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成するステップと、
　前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、
　前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、
　前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、
　を含む、音声生成方法。
　ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、
　第１時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成するステップと、
　前記第１時刻よりも後の第２時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、
　前記更新された位置及び回転の少なくともいずれかに対する前記第１時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第１時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、
　前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、
　をコンピュータに実行させるためのプログラム。