WO2022196135A1

WO2022196135A1 - 情報処理方法、情報処理装置、および、プログラム

Info

Publication number: WO2022196135A1
Application number: PCT/JP2022/003588
Authority: WO
Inventors: 耕水野; 智一石川
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2021-03-16
Filing date: 2022-01-31
Publication date: 2022-09-22
Also published as: KR20230157331A; EP4311272A1; US20230421988A1; JPWO2022196135A1

Abstract

情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、音源が出力する音を示す音信号とを含むストリームを取得し（Ｓ１０１）、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し（Ｓ１０２）、第一位置姿勢情報と第二位置姿勢情報とを用いて、ユーザの頭部と音源との位置関係に応じて、音信号に施される立体音響処理における空間分解能を設定する（Ｓ１０３）。

Description

情報処理方法、情報処理装置、および、プログラム

　本発明は、情報処理方法、情報処理装置、および、プログラムに関する。

　音源の位置および姿勢と、聴取者であるユーザの位置および姿勢とに応じて、出力する音の信号を処理（立体音響処理ともいう）し、ユーザに立体的な音響を体験させる技術がある（特許文献１参照）。

特表２０２０－５２４４２０号公報

　しかしながら、立体音響処理には比較的大きな規模な演算が必要であり、その演算に要する時間によっては、出力音に遅延が生ずることがあるという問題がある。

　そこで、本発明は、出力音に生じ得る遅延を抑制する情報処理方法など装置を提供する。

　本発明の一態様に係る情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する情報処理方法である。

　なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本発明の情報処理方法は、出力音に生じ得る遅延を抑制することができる。

図１は、実施の形態におけるユーザと音源との位置関係の例を示す説明図である。図２は、実施の形態における情報処理装置の機能構成を示すブロック図である。図３は、実施の形態における立体音響処理の空間分解能の第一の説明図である。図４は、実施の形態における立体音響処理の空間分解能の第二の説明図である。図５は、実施の形態における立体音響処理の空間分解能の第三の説明図である。図６は、実施の形態における立体音響処理の応答時間長の説明図である。図７は、実施の形態における立体音響処理のパラメータの第一例を示す説明図である。図８は、実施の形態における立体音響処理のパラメータの第二例を示す説明図である。図９は、実施の形態における立体音響処理のパラメータの第三例を示す説明図である。図１０は、実施の形態における情報処理装置の処理を示すフロー図である。

　（本発明の基礎となった知見）
　本発明者は、「背景技術」の欄において記載した立体音響処理に関し、以下の問題が生じることを見出した。

　特許文献１に示される立体音響処理技術では、ユーザの姿勢に基づいて将来の予測姿勢情報を取得し、その予測姿勢情報を用いてメディアコンテンツを事前にレンダリングする。

　しかしながら、上記立体音響処理技術が効果を奏するのは、ユーザの姿勢の変化が比較的小さい場合、または、規則的である場合等に限られる。上記場合から逸脱する場合には、予測姿勢情報が現実のユーザの姿勢情報と整合しないので、ユーザにとっての音像の位置が適切でなくなったり、音像の位置が急激に変化したりすることがある。

　このように、立体音響処理の演算に要する時間によって出力音に遅延が生ずることがあるという問題は、特許文献１に記載の技術では解決されないことがある。

　このような問題を解決するために、本発明の一態様に係る情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する情報処理方法である。

　上記態様によれば、立体音響処理における空間分解能を、ユーザの頭部と音源との位置関係に応じて設定するので、立体音響処理に必要な演算の規模を調整することができる。そのため、立体音響処理に要する演算の規模が比較的大きい場合に、空間分解能を低くすることによって演算の規模を小さくし、立体音響処理に要する時間を短くし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延を抑制することができる。

　例えば、前記空間分解能の設定では、前記ユーザの頭部と前記音源との距離が大きいほど、前記空間分解能をより低く設定してもよい。

　上記態様によれば、立体音響処理における空間分解能を、ユーザの頭部と音源との距離が大きいほど低く設定することで、立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。

　例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記空間分解能の設定では、前記音信号が示す前記音が人間の音声であることが前記種別情報に示されている場合に、前記空間分解能をより高く設定してもよい。

　上記態様によれば、人間の音声についての立体音響処理における空間分解能を高く設定することで、人間の音声でない音に比べて人間の音声をより高い品質でユーザに聴取させることができる。人間の音声でない音と比較して、人間の音声の音像位置には比較的高い精度が求められることがあるので、人間の音声の音像位置の精度の向上に寄与し得る。このように、上記情報処理方法によれば、出力音に含まれる人間の音声の品質を上げながら、出力音に生じ得る遅延を抑制することができる。

　例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記空間分解能の設定では、前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記空間分解能をより低く設定してもよい。

　上記態様によれば、人間の音声でない音についての立体音響処理における空間分解能を低く設定することで、人間の音声でない音についての立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。人間の音声と比較して、人間の音声でない音の音像位置には、それほど高い精度が求められないことがあるので、人間の音声でない音の音像位置の精度を低下させることで、出力音に生じ得る遅延の抑制に寄与し得る。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。

　例えば、前記ストリームは、一以上の前記音源についての前記第一位置姿勢情報と前記音信号とを含み、前記空間分解能の設定では、一以上の前記音源の個数が多いほど、前記空間分解能をより低く設定してもよい。

　上記態様によれば、ストリームに含まれる音源の個数が多いほど、空間分解能をより低く設定することで、立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。

　例えば、さらに、前記位置関係に応じて、前記立体音響処理における時間応答長を設定してもよい。

　上記態様によれば、立体音響処理における時間応答長を、ユーザの頭部と音源との位置関係に応じて設定するので、ユーザから音源までの距離を、ユーザに適切に感知させることができる。このように、上記情報処理方法によれば、ユーザから音源までの距離をユーザに適切に感知させながら、出力音に生じ得る遅延を抑制することができる。

　例えば、前記時間応答長の設定では、前記ユーザの頭部と前記音源との距離が大きいほど、時間応答長をより大きく設定してもよい。

　上記態様によれば、立体音響処理における時間応答長を、ユーザの頭部と音源との距離が大きいほど大きく設定することで、ユーザから音源までの距離を、ユーザに適切に感知させることができる。このように、上記情報処理方法によれば、ユーザから音源までの距離をユーザにより適切に感知させながら、出力音に生じ得る遅延を抑制することができる。

　例えば、さらに、設定した前記空間分解能を用いて前記音信号に対して前記立体音響処理を施すことで、スピーカが出力する音を示す出力用信号を生成し、生成した前記出力用信号を前記スピーカに提供することで、前記出力用信号が示す音を前記スピーカに出力させてもよい。

　上記態様によれば、設定した空間分解能を用いた立体音響処理によって生成した出力用信号に基づく音を出力してユーザに聴取させることで、遅延が抑制された出力音をユーザに聴取させることができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延を抑制し、遅延が抑制された出力音をユーザに聴取させることができる。

　例えば、前記立体音響処理は、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音源が配置された空間内で前記ユーザが聴取すべき音を生成する処理であるレンダリング処理を含み、前記空間分解能は、前記レンダリング処理における空間分解能であってもよい。

　上記態様によれば、立体音響処理としてのレンダリング処理における空間分解能を設定する。よって、上記情報処理方法によれば、出力音に生じ得る遅延を抑制することができる。

　また、本発明の一態様に係る情報処理装置は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得する復号部と、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得する取得部と、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する設定部とを備える情報処理装置である。

　上記態様によれば、上記情報処理方法と同様の効果を奏する。

　また、本発明の一態様に係るプログラムは、上記の情報処理方法をコンピュータに実行させるプログラムである。

　なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態）
　本実施の形態において、出力音に生じ得る遅延を抑制する情報処理方法および情報処理装置などについて説明する。

　図１は、本実施の形態におけるユーザＵと音源５との位置関係の例を示す説明図である。

　図１には、空間Ｓに存在しているユーザＵと、ユーザＵが認識している音源５が示されている。図１において、空間Ｓは、ｘ軸およびｙ軸を含む平面として表現されているが、ｚ軸方向の広がりも有する。以降でも同様とする。

　空間Ｓには、壁面または物体が配置されてもよい。壁面には天井または床も含まれる。

　情報処理装置１０は、音源５が出力する音信号を含むストリームに基づいて、デジタル音響処理である立体音響処理を行うことで、ユーザＵに聴取させる音信号を生成する。上記ストリームには、さらに、空間Ｓにおける音源５の位置および姿勢を示す位置姿勢情報が含まれている。情報処理装置１０が生成した音信号は、スピーカにより音として出力され、ユーザＵに聴取される。スピーカは、ユーザＵに装着されるイヤホンまたはヘッドホンが備えるスピーカであることが想定されるが、これに限られない。

　音源５は、ストリームに基づいて生成された音信号を聴取したユーザＵが、音源として認識する対象である、仮想的な音源（一般に音像ともいう）であり、言い換えれば、音を現実に発生している発生源ではない。なお、図１において、音源５として人間が示されているが、音源５は、人間に限られず、任意の音源であってよい。

　ユーザＵは、情報処理装置１０が生成した音信号に基づく音であって、スピーカから出力された音を聴取する。

　情報処理装置１０が生成した音信号に基づいてスピーカから出力された音は、ユーザＵの左右それぞれの耳に聴取される。ユーザＵの左右それぞれの耳に聴取される音には、情報処理装置１０により適切な時間差または位相差（時間差等とも記載）が設けられている。ユーザＵは、左右それぞれの耳が聴取した音の時間差等に基づいて、ユーザＵにとっての音源５の方向を感知する。

　また、ユーザＵの左右それぞれの耳に聴取される音には、音源５から直接に到来する音（直接音と記載）に相当する音と、音源５が出力し壁面によって反射して到来する音（反射音と記載）に相当する音が、情報処理装置１０により含められる。ユーザＵは、聴取した音に含まれる直接音および反射音の時間間隔に基づいて、ユーザＵから音源５までの距離を感知する。

　情報処理装置１０が実行する立体音響処理では、上記ストリームに含まれる音信号に基づいて、直接音と反射音とがユーザＵに到来するタイミング、ならびに、直接音と反射音との振幅および位相を算出し、直接音と反射音とを合成することで、スピーカから出力すべき音を示す音信号（出力用信号と記載）を生成する。立体音響処理には、比較的大きな規模の演算処理が含まれ得る。

　情報処理装置１０は、上記ストリームに含まれる音信号の個数が比較的多い場合、または、立体音響処理の空間分解能が比較的高い場合、演算処理に比較的長い時間を要し、出力用信号の生成および出力が遅延し得る。出力用信号に生じ得る遅延を抑制する方策の一つは、立体音響処理の空間分解能を低下させることであるが、立体音響処理の空間分解能を低下させればユーザＵが聴取する音の品質が低下し得る。このように、ユーザＵが聴取する音の品質の高さと、立体音響処理に含まれる演算処理の量とは、トレードオフの関係にある。

　情報処理装置１０は、ユーザＵと音源５との距離を用いて立体音響処理のパラメータを調整することで、立体音響処理の処理負荷の低減に寄与する。例えば、情報処理装置１０は、立体音響処理のパラメータである空間分解能を低下させることで、立体音響処理の処理負荷を低減させる。

　図２は、本実施の形態における情報処理装置１０の機能構成を示すブロック図である。

　図２に示されるように、情報処理装置１０は、機能部として、復号部１１と、取得部１２と、調整部１３と、処理部１４と、設定部１５とを備える。情報処理装置１０が備える機能部は、情報処理装置１０が備えるプロセッサ（ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）など）（不図示）が、メモリ（不図示）を用いて所定のプログラムを実行することで実現され得る。

　復号部１１は、ストリームを復号する機能部である。ストリームは、具体的には、空間Ｓにおける音源５の位置および姿勢を示す位置姿勢情報（第一位置姿勢情報に相当）と、音源５が出力する音を示す音信号とを含む。ストリームは、音源５が出力する音が人間の音声であるか否かを示す種別情報を含んでもよい。ここで、音声は、人間の声を意味する。

　復号部１１は、ストリームを復号することで得た音信号を処理部１４に提供し、また、ストリームを復号することで得た位置姿勢情報を調整部１３に提供する。なお、ストリームは、情報処理装置１０が外部の装置から取得したものであってもよいし、情報処理装置１０が有する記憶装置に予め格納されたものであってもよい。

　ストリームは、所定の形式でエンコードされたストリームであり、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）（単に、「ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ」ともいう）の形式でエンコードされたストリームである。

　音源５の位置および姿勢を示す位置姿勢情報は、より具体的には、音源５の３軸方向の座標（ｘ、ｙおよびｚ）と、３軸周りの角度（ヨー角、ピッチ角およびロール角）とを含む、６自由度の情報である。音源５の位置姿勢情報によって、音源５の位置および姿勢が特定されることが可能である。なお、座標は、適当に設定される座標系における座標である。姿勢は、音源５について予め定められた方向（基準方向と記載）を示す３軸周りの角度である。基準方向は、音源５が音を出力する方向であってもよいし、その他、音源５について一意に定められる方向であればどのような方向であってもよい。

　ストリームは、一以上の音源５それぞれについて、当該音源５の位置および姿勢を示す位置姿勢情報と、当該音源５が出力する音を示す音信号とを含んでいてもよい。

　取得部１２は、空間ＳにおけるユーザＵの頭部の位置および姿勢を取得する機能部である。取得部１２は、ユーザＵの頭部の位置を示す情報（位置情報と記載）と、姿勢を示す情報（姿勢情報と記載）とを含む、位置姿勢情報（第二位置姿勢情報）をセンサ等により取得する。ユーザＵの頭部の位置姿勢情報は、より具体的には、ユーザＵの頭部の３軸方向の座標（ｘ、ｙおよびｚ）と、３軸周りの角度（ヨー角、ピッチ角およびロール角）とを含む、６自由度の情報である。ユーザＵの頭部の位置姿勢情報によって、ユーザＵの頭部の位置および姿勢が特定されることが可能である。なお、座標は、音源５について定められた座標系と共通の座標系における座標である。位置は、座標系における所定の位置（例えば原点）から所定の位置関係にある位置として定められ得る。姿勢は、ユーザＵの頭部が向いている方向を示す３軸周りの角度である。

　センサ等は、例えば、慣性測定ユニット（ＩＭＵ：Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）、加速度計、ジャイロスコープ、磁気センサまたはこれらの組合せであってよい。センサ等は、ユーザＵの頭部に装着されることが想定され、ユーザＵに装着されているイヤホンまたはヘッドホンに固定されていてもよい。

　調整部１３は、処理部１４が実行する立体音響処理におけるパラメータを用いて、空間ＳにおけるユーザＵの位置姿勢情報を調整する機能部である。

　調整部１３は、立体音響処理におけるパラメータである空間分解能を設定部１５から取得する。そして、調整部１３は、取得部１２が取得したユーザＵの頭部の位置情報を、空間分解能の整数倍の値のいずれかに変更することで調整する。変更の際には、調整部１３は、空間分解能の整数倍である複数の値のうちから、取得部１２が取得したユーザＵの頭部の位置情報に最も近い値を採用してよい。調整部１３は、調整後のユーザＵの頭部の位置情報と、ユーザＵの頭部の姿勢情報とを処理部１４に提供する。

　処理部１４は、復号部１１が取得した音信号に対してデジタル音響処理である立体音響処理を施す機能部である。処理部１４は、立体音響処理に用いる複数のフィルタを有している。フィルタは、例えば、周波数ごとに音信号の振幅および位相を調整する演算に用いられる。

　処理部１４は、立体音響処理に用いるパラメータ（つまり空間分解能および時間応答長）を調整部１３から取得し、取得したパラメータを用いて立体音響処理を行う。処理部１４は、立体音響処理において、音源５からユーザＵに到来する直接音および反射音の伝搬経路を算出し、また、直接音および反射音がユーザに到来するタイミングを算出する。また、ユーザＵの頭部を中心とした角度方向の範囲ごとに、当該範囲からユーザＵに到来する音（直接音および反射音）を示す信号に対して当該範囲に応じたフィルタを適用することで、ユーザＵに到来する音の振幅および位相を算出する。

　設定部１５は、処理部１４により実行される立体音響処理のパラメータを設定する機能部である。立体音響処理のパラメータは、立体音響処理における空間分解能と時間応答長とを含み得る。

　設定部１５は、空間Ｓにおける音源５の位置姿勢情報と、取得部１２が取得したユーザＵの位置姿勢情報とを用いて、ユーザＵの頭部と音源５との位置関係に応じて、立体音響処理のパラメータである空間分解能を設定する。また、設定部１５は、さらに、上記位置関係に応じて、立体音響処理のパラメータである時間応答長を設定してもよい。設定部１５は、設定したパラメータを調整部１３に提供する。

　パラメータの設定には、ユーザＵと音源５との距離Ｄが用いられ得る。距離Ｄは、音源５の位置および姿勢を示すベクトル

と、ユーザＵの位置および姿勢を示すベクトル

とを用いて、

と表現され得る（図１参照）。

　設定部１５は、空間分解能の設定において、空間ＳにおけるユーザＵの頭部と音源５との距離Ｄが大きいほど、空間分解能をより低く設定してもよい。

　また、設定部１５は、時間応答長の設定において、空間ＳにおけるユーザＵの頭部と音源５との距離Ｄが大きいほど、時間応答長をより大きく設定してもよい。

　立体音響処理の空間分解能について、図３、図４および図５を参照しながら説明する。

　図３、図４および図５は、本実施の形態における立体音響処理の空間分解能の説明図である。

　図３に示されるように、立体音響処理の空間分解能は、ユーザＵを中心とした角度方向の範囲の分解能である。

　処理部１４は、立体音響処理において、空間分解能が比較的高い場合、比較的狭い角度範囲（例えば角度範囲３０）ごとに、当該角度範囲からユーザＵに到来する音信号に対するフィルタを適用する。一方、処理部１４は、立体音響処理において、空間分解能が比較的低い場合、比較的広い角度範囲（例えば角度範囲４０）ごとに、当該角度範囲からユーザＵに到来する音信号に対するフィルタを適用する。

　このように、空間分解能が高いことは、角度範囲が狭いことに対応し、反対に、空間分解能が低いことは、角度範囲が広いことに対応する。角度範囲は、同一のフィルタが適用される単位に相当する。

　より具体的には、空間分解能が比較的高い場合、処理部１４は、ユーザＵを中心とした角度範囲３１、３２、３３、・・・ごとに当該角度範囲に対応したフィルタを音信号に適用することで、角度範囲３１、３２、３３、・・・それぞれからユーザＵに到来する音を示す音信号を算出する（図４参照）。角度範囲３１、３２、３３、・・・それぞれからユーザＵに到来する音には、音源５からユーザＵへの直接音および反射音が含まれ得る。

　また、空間分解能が比較的低い場合、処理部１４は、ユーザＵを中心とした角度範囲４１、４２、４３、・・・ごとに当該角度範囲に対応したフィルタを音信号に適用することで、角度範囲４１、４２、４３、・・・それぞれからユーザＵに到来する音を示す音信号を算出する（図５参照）。角度範囲４１、４２、４３、・・・それぞれからユーザＵに到来する音には、音源５からユーザＵへの直接音および反射音が含まれ得る。

　立体音響処理の時間応答長について、図６を参照しながら説明する。

　図６は、本実施の形態における立体音響処理の応答時間長の説明図である。

　図６には、立体音響処理で生成される音信号が示されている。音信号は、音源５からユーザＵに到来する直接音に対応する波形５１と、音源５からユーザＵに到来する反射音に対応する波形５２、５３、５４、５５および５６とを含んでいる。反射音に対応する波形５２、５３、５４、５５および５６それぞれは、空間Ｓにおける音源５、ユーザＵおよび壁面の位置関係によって定められる遅延時間分だけ直接音から遅延し、また、伝搬する距離および壁面による反射などにより振幅が減少している。遅延時間は、１０ｍｓｅｃ～１００ｍｓｅｃ程度の範囲で定められる。

　時間応答長は、上記遅延時間の大きさの度合いを示す指標である。時間応答長が長いほど、遅延時間が大きくなり、また、時間応答長が短いほど、遅延時間が小さくなる。

　なお、時間応答長は、あくまで遅延時間の大きさの指標であり、反射音に対応する波形の遅延時間そのものを示すものではない。例えば、図６では、波形５１から波形５５までの時間幅と、時間応答長とが概ね等しいが、これに限られず、波形５１から波形５４までの時間幅と時間応答長とが概ね等しい場合があってもよいし、波形５１から波形５６までの時間幅と時間応答長とが概ね等しい場合があってもよい。

　以降において、空間分解能および時間応答長の設定の例について、図７を参照しながら説明する。

　図７は、本実施の形態における立体音響処理のパラメータの第一例を示す説明図である。

　図７は、ユーザＵと音源５との距離Ｄの複数の範囲それぞれに、立体音響処理のパラメータである空間分解能と時間応答長とが対応付けられた対応テーブルを示している。

　図７において、ユーザＵの頭部と音源５との距離Ｄが大きいほど、より低い空間分解能が対応付けられている。また、ユーザＵの頭部と音源５との距離Ｄが大きいほど、より長い時間応答長が対応付けられている。

　例えば、１ｍ未満の距離Ｄが、１０度の空間分解能と１０ｍｓｅｃの時間応答長とに対応付けられている。

　同様に、１ｍ以上３ｍ未満、３ｍ以上２０ｍ未満、および、２０ｍ以上の距離Ｄが、それぞれ、３０度、４５度、および、９０度の空間分解能と、５０ｍｓｅｃ、２００ｍｓｅｃ、および、１ｓｅｃの時間応答長とに対応付けられている。

　設定部１５は、図７に示される距離Ｄと空間分解能との対応テーブルを保有しており、上記対応テーブルを調整部１３に提供する。調整部１３は、提供された上記対応テーブルを参照し、取得部１２から取得したユーザＵの頭部と音源５との距離Ｄに対応付けられた空間分解能および時間応答長を取得する。

　このようにして、設定部１５は、空間ＳにおけるユーザＵの頭部と音源５との距離Ｄが大きいほど、空間分解能をより低く設定し、言い換えれば、より低い空間分解能を示す値を設定する。また、設定部１５は、空間ＳにおけるユーザＵの頭部と音源５との距離Ｄが大きいほど、時間応答長をより大きく設定し、言い換えれば、より長い時間応答長を示す値を設定する。

　なお、設定部１５は、空間分解能の設定において、音信号が示す音が人間の音声であるか否かに応じて空間分解能を変更してもよい。情報処理装置１０は、音信号が示す音が人間の音声であるか否かに応じて空間分解能を変更することで、人間の音声についての立体音響処理をより精度よく行うことに寄与し得る。

　具体的には、設定部１５は、空間分解能の設定において、音信号が示す音が人間の音声であることが種別情報に示されている場合に、空間分解能をより高く設定してもよく、言い換えれば、より高い空間分解能を示す値を設定してもよい。なお、設定部１５は、空間分解能を設定しようとする場合に、既に空間分解能が設定されているときには、既に設定されている空間分解能よりも高い空間分解能を示す値に修正してもよい。

　また、設定部１５は、空間分解能の設定において、音信号が示す音が人間の音声でないことが種別情報に示されている場合に、空間分解能をより低く設定してもよく、言い換えれば、より低い空間分解能を示す値を設定してもよい。なお、設定部１５は、空間分解能を設定しようとする場合に、既に空間分解能が設定されているときには、既に設定されている空間分解能よりも低い空間分解能を示す値に修正してもよい。

　また、設定部１５は、空間分解能の設定において、ストリームに含まれる音源の個数に応じて空間分解能を変更してもよい。

　具体的には、設定部１５は、空間分解能の設定において、ストリームに含まれる音源の個数が多いほど、空間分解能をより低く設定してもよく、言い換えれば、より低い空間分解能を示す値に設定してもよい。なお、設定部１５は、空間分解能を設定しようとする場合に、既に空間分解能が設定されているときには、既に設定されている空間分解能よりも低い空間分解能を示す値に修正してもよい。

　図８は、本実施の形態における立体音響処理のパラメータの第二例を示す説明図である。図８は、ユーザＵと音源５との距離Ｄについての複数の範囲それぞれに空間分解能が対応付けられた対応テーブルを示しており、図７に示されるパラメータから設定部１５によって修正されたものの一例である。

　図８では、時間応答長の図示は省略されている。

　図８において、１ｍ未満の距離Ｄが、５度の空間分解能に対応付けられている。

　同様に、１ｍ以上３ｍ未満、３ｍ以上２０ｍ未満、および、２０ｍ以上の距離Ｄが、それぞれ、１５度、２２．５度、および、４５度の空間分解能に対応付けられている。図８に示される空間分解能の値は、距離Ｄの各値について、図７に示される空間分解能の値の１／２倍である。言い換えれば、図８に示される空間分解能は、距離Ｄの各値について、図７に示される空間分解能の２倍の空間分解能を有する。

　設定部１５は、例えば音信号が人間の音声であることが種別情報に示されている場合に、立体音響処理に用いる対応テーブルを、図７に示される対応テーブルから図８に示される対応テーブルに修正する。これにより、設定部１５は、音信号が示す音が人間の音声であることが種別情報に示されている場合に、空間分解能をより高く設定することができる。

　図９は、本実施の形態における立体音響処理のパラメータの第三例を示す説明図である。

　図９は、ユーザＵと音源５との距離Ｄについての複数の範囲それぞれに空間分解能が対応付けられた対応テーブルを示しており、図７に示されるパラメータから設定部１５によって修正されたものである。

　図９では、図８と同様に、時間応答長の図示は省略されている。

　図９において、１ｍ未満の距離Ｄが、２０度の空間分解能に対応付けられている。

　同様に、１ｍ以上３ｍ未満、３ｍ以上２０ｍ未満、および、２０ｍ以上の距離Ｄが、６０度、９０度、および、１８０度の空間分解能に対応付けられている。言い換えれば、図９に示される空間分解能の値は、距離Ｄの各値について、図７に示される空間分解能の値の２倍である。言い換えれば、図９に示される空間分解能は、距離Ｄの各値について、図７に示される空間分解能の１／２倍の空間分解能を有する。

　設定部１５は、例えば音信号が人間の音声でないことが種別情報に示されている場合に、立体音響処理に用いる対応テーブルを、図７に示される対応テーブルから図９に示される対応テーブルに修正する。これにより、設定部１５は、音信号が示す音が人間の音声でないことが種別情報に示されている場合に、空間分解能をより低く設定することができる。

　図１０は、本実施の形態における情報処理装置１０の処理を示すフロー図である。

　図１０に示されるように、ステップＳ１０１において、復号部１１は、ストリームを取得する。ストリームは、音源５の位置および姿勢を示す情報（第一位置姿勢情報に相当）と、音源５が出力する音を示す音信号とを含んでいる。

　ステップＳ１０２において、取得部１２は、ユーザＵの頭部の位置および姿勢を示す情報（第二位置姿勢情報に相当）を取得する。

　ステップＳ１０３において、設定部１５は、第一位置姿勢情報と第二位置姿勢情報とを用いて、ユーザＵの頭部と音源５との位置関係に応じて、音信号に施される立体音響処理における空間分解能を設定する。

　ステップＳ１０４において、処理部１４は、ステップＳ１０３で設定された空間分解能で立体音響処理を施すことで、スピーカが出力すべき音信号を生成し出力する。出力された音信号は、スピーカに伝達され、音として出力され、ユーザＵに聴取されることが想定される。

　これにより、情報処理装置１０は、出力音に生じ得る遅延を抑制することができる。

　以上のように、本実施の形態における情報処理装置１０は、立体音響処理における空間分解能を、ユーザの頭部と音源との位置関係に応じて設定するので、立体音響処理に必要な演算の規模を調整することができる。そのため、立体音響処理に要する演算の規模が比較的大きい場合に、空間分解能を低くすることによって演算の規模を小さくし、立体音響処理に要する時間を短くし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延を抑制することができる。

　また、情報処理装置１０は、立体音響処理における空間分解能を、ユーザの頭部と音源との距離が大きいほど低く設定することで、立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。

　また、情報処理装置１０は、人間の音声についての立体音響処理における空間分解能を高く設定することで、人間の音声でない音に比べて人間の音声をより高い品質でユーザに聴取させることができる。人間の音声でない音と比較して、人間の音声の音像位置には比較的高い精度が求められることがあるので、人間の音声の音像位置の精度の向上に寄与し得る。このように、上記情報処理方法によれば、出力音に含まれる人間の音声の品質を上げながら、出力音に生じ得る遅延を抑制することができる。

　また、情報処理装置１０は、人間の音声でない音についての立体音響処理における空間分解能を低く設定することで、人間の音声でない音についての立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。人間の音声と比較して、人間の音声でない音の音像位置には、それほど高い精度が求められないことがあるので、人間の音声でない音の音像位置の精度を低下させることで、出力音に生じ得る遅延の抑制に寄与し得る。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。

　また、情報処理装置１０は、ストリームに含まれる音源の個数が多いほど、空間分解能をより低く設定することで、立体音響処理に必要な演算の規模を小さくし、その結果、出力音に生じ得る遅延を抑制することができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延をより容易に抑制することができる。

　また、情報処理装置１０は、立体音響処理における時間応答長を、ユーザの頭部と音源との位置関係に応じて設定するので、ユーザから音源までの距離を、ユーザに適切に感知させることができる。このように、上記情報処理方法によれば、ユーザから音源までの距離をユーザに適切に感知させながら、出力音に生じ得る遅延を抑制することができる。

　また、情報処理装置１０は、立体音響処理における時間応答長を、ユーザの頭部と音源との距離が大きいほど大きく設定することで、ユーザから音源までの距離を、ユーザに適切に感知させることができる。このように、上記情報処理方法によれば、ユーザから音源までの距離をユーザにより適切に感知させながら、出力音に生じ得る遅延を抑制することができる。

　また、情報処理装置１０は、設定した空間分解能を用いた立体音響処理によって生成した出力用信号に基づく音を出力してユーザに聴取させることで、遅延が抑制された出力音をユーザに聴取させることができる。このように、上記情報処理方法によれば、出力音に生じ得る遅延を抑制し、遅延が抑制された出力音をユーザに聴取させることができる。

　また、情報処理装置１０は、立体音響処理としてのレンダリング処理における空間分解能を設定する。よって、上記情報処理方法によれば、出力音に生じ得る遅延を抑制することができる。

　なお、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の情報処理装置などを実現するソフトウェアは、次のようなプログラムである。

　すなわち、このプログラムは、コンピュータに、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する情報処理方法を実行させるプログラムである。

　以上、一つまたは複数の態様に係る情報処理装置などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　本発明は、立体音響処理を行う情報処理装置に利用可能である。

　　５　　音源
　１０　　情報処理装置
　１１　　復号部
　１２　　取得部
　１３　　調整部
　１４　　処理部
　１５　　設定部
　３０、３１、３２、３３、４０、４１、４２、４３　　角度範囲
　５１、５２、５３、５４、５５、５６　　波形
　　Ｓ　　空間
　　Ｕ　　ユーザ

Claims

　音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、
　ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、
　前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する
　情報処理方法。
　前記空間分解能の設定では、
　前記ユーザの頭部と前記音源との距離が大きいほど、前記空間分解能をより低く設定する
　請求項１に記載の情報処理方法。
　前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
　前記空間分解能の設定では、
　前記音信号が示す前記音が人間の音声であることが前記種別情報に示されている場合に、前記空間分解能をより高く設定する
　請求項１または２に記載の情報処理方法。
　前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
　前記空間分解能の設定では、
　前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記空間分解能をより低く設定する
　請求項１～３のいずれか１項に記載の情報処理方法。
　前記ストリームは、一以上の前記音源についての前記第一位置姿勢情報と前記音信号とを含み、
　前記空間分解能の設定では、
　一以上の前記音源の個数が多いほど、前記空間分解能をより低く設定する
　請求項１～４のいずれか１項に記載の情報処理方法。
　さらに、前記位置関係に応じて、前記立体音響処理における時間応答長を設定する
　請求項１～５のいずれか１項に記載の情報処理方法。
　前記時間応答長の設定では、
　前記ユーザの頭部と前記音源との距離が大きいほど、時間応答長をより大きく設定する
　請求項６に記載の情報処理方法。
　さらに、
　設定した前記空間分解能を用いて前記音信号に対して前記立体音響処理を施すことで、スピーカが出力する音を示す出力用信号を生成し、
　生成した前記出力用信号を前記スピーカに提供することで、前記出力用信号が示す音を前記スピーカに出力させる
　請求項１～７のいずれか１項に記載の情報処理方法。
　前記立体音響処理は、
　前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音源が配置された空間内で前記ユーザが聴取すべき音を生成する処理であるレンダリング処理を含み、
　前記空間分解能は、前記レンダリング処理における空間分解能である
　請求項１～８のいずれか１項に記載の情報処理方法。
　音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得する復号部と、
　ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得する取得部と、
　前記第一位置姿勢情報と前記第二位置姿勢情報とを用いて、前記ユーザの頭部と前記音源との位置関係に応じて、前記音信号に施される立体音響処理における空間分解能を設定する設定部とを備える
　情報処理装置。
　請求項１～９のいずれか１項に記載の情報処理方法をコンピュータに実行させるプログラム。