WO2022219881A1

WO2022219881A1 - 情報処理方法、情報処理装置、および、プログラム

Info

Publication number: WO2022219881A1
Application number: PCT/JP2022/003592
Authority: WO
Inventors: 耕水野; 智一石川
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2021-04-12
Filing date: 2022-01-31
Publication date: 2022-10-20
Also published as: JPWO2022219881A1; US20240031762A1; EP4325896A1

Abstract

情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、音源が出力する音を示す音信号とを含むストリームを取得し（Ｓ１０１）、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し（Ｓ１０２）、第一位置姿勢情報に示される音源の位置または姿勢に対する、取得した第二位置姿勢情報に示される位置または姿勢の変化速度の変化率を小さくする補正を行うことで、第一位置姿勢情報と第二位置姿勢情報とを用いた音信号に対する立体音響処理に用いられる第二位置姿勢情報を取得する（Ｓ１０３）。

Description

情報処理方法、情報処理装置、および、プログラム

　本発明は、情報処理方法、情報処理装置、および、プログラムに関する。

　音源の位置および姿勢と、聴取者であるユーザの位置および姿勢とに応じて、出力する音の信号を処理（立体音響処理ともいう）し、ユーザに立体的な音響を体験させる技術がある（特許文献１参照）。

特表２０２０－５２４４２０号公報

「リアルタイム話速変換型受聴システム」、音響学会誌５０巻７号、１９９４年、ｐｐ．５０９－５２０

　しかしながら、立体音響処理が施された音信号に基づいてユーザが認識する音源位置が急激に変化すると、音源が出力する音の内容をユーザが聞き取りにくいという問題がある。

　そこで、本発明は、音源が出力する音の内容の聞き取りにくさを抑制する情報処理方法などを提供する。

　本発明の一態様に係る情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する情報処理方法である。

　なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本発明の情報処理方法は、音源が出力する音の内容の聞き取りにくさを抑制することができる。

図１は、実施の形態におけるユーザと音源との位置関係の例を示す説明図である。図２は、実施の形態における情報処理装置の機能構成を示すブロック図である。図３は、実施の形態における立体音響処理の空間分解能の説明図である。図４は、実施の形態における立体音響処理の時間応答長の説明図である。図５は、実施の形態における立体音響処理のパラメータの第一例を示す説明図である。図６は、実施の形態におけるヨー角の変化を示す第一の説明図である。図７は、実施の形態におけるヨー角の変化を示す第二の説明図である。図８は、実施の形態における情報処理装置の処理を示すフロー図である。図９は、実施の形態の変形例における情報処理装置の機能構成を示すブロック図である。図１０は、実施の形態の変形例におけるヨー角の変化と音信号の遅延とを示す説明図である。図１１は、実施の形態の変形例における情報処理装置の処理を示すフロー図である。

　（本発明の基礎となった知見）
　本発明者は、「背景技術」の欄において記載した立体音響処理に関し、以下の問題が生じることを見出した。

　特許文献１に示される立体音響処理技術では、ユーザの姿勢に基づいて将来の予測姿勢情報を取得し、その予測姿勢情報を用いてメディアコンテンツを事前にレンダリングする。

　しかしながら、立体音響処理が施された音信号に基づいてユーザが認識する音源位置が急激に変化すると、音源が出力する音声の内容をユーザが聞き取りにくいという問題がある。ユーザが認識する音源位置の急激な変化は、例えば、ユーザが首を回すなどして頭部の姿勢が急激に変化した場合、または、ユーザが上半身または下半身を動かして頭部の姿勢が急激に変化した場合などに生じ得る。

　上記問題を解決するために、本発明の一態様に係る情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する情報処理方法である。

　上記態様によれば、補正後のユーザの頭部の位置または姿勢を用いて立体音響処理を行うので、ユーザの頭部の位置または姿勢に比較的大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。これにより、ユーザが音を聴取して認識する音源の位置の大きな変化が抑制され、ユーザが、音源が出力する音の内容の聞き取りやすくなる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。

　例えば、前記補正では、前記変化率が閾値を超える場合に、当該補正後の前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率が前記閾値となるように、前記第二位置姿勢情報を補正してもよい。

　上記態様によれば、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率が閾値を超える場合に、その変化率を閾値とするように位置または姿勢を示す情報を補正するので、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率を閾値以下にすることができる。その結果、ユーザの頭部の位置または姿勢に所定の基準を超える大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。

　例えば、前記補正では、前記変化率が閾値を超える場合に、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢より遅れた前記位置または前記姿勢を、当該補正後の前記第二位置姿勢情報が示すように、前記第二位置姿勢情報を補正してもよい。

　上記態様によれば、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率が閾値を超える場合に、その変化を遅らせるように補正をするので、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率を閾値以下にすることができる。その結果、ユーザの頭部の位置または姿勢に所定の基準を超える大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。

　例えば、前記位置または前記姿勢の変化速度の変化率は、前記位置または前記姿勢の、時間に関する二階微分値であってもよい。

　上記態様によれば、音源に対するユーザの頭部の位置または姿勢の時間に関する二階微分値を用いて、位置または姿勢の変化速度の変化率を容易に得ることができ、その変化率を用いて、ユーザの頭部の位置または姿勢を適切に補正することができる。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより容易に抑制することができる。

　例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記補正では、前記音信号が示す前記音が人間の音声であることが前記種別情報に示されている場合に、前記閾値を、より小さな値に変更してから前記補正をしてもよい。

　上記態様によれば、人間の音声についての立体音響処理において、より小さな閾値を用いて補正をするので、音声について特に、音源に対するユーザの頭部の位置または姿勢の変化速度の大きな変化を抑制する。よって、上記情報処理方法によれば、音源が出力する人間の音声の内容の聞き取りにくさを、より一層抑制することができる。

　例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記補正では、前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記閾値を、より大きな値に変更してから前記補正をしてもよい。

　上記態様によれば、人間の音声でない音についての立体音響処理では、より大きな閾値を用いて補正をするので、音源に対するユーザの頭部の位置または姿勢の変化速度のより大きな変化を許容することで、ユーザの頭部の位置または姿勢の変化の遅延を小さくする。人間の音声と比較して、人間の音声でない音について、その内容を聞き取りやすくする必要性が低い場合に、立体音響処理の遅延を小さくすることができる利点がある。よって、上記情報処理方法によれば、立体音響処理の遅延を抑制しながら、音源が出力する音の内容を聞き取りにくさを抑制することができる。

　例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記補正では、前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記補正を禁止してもよい。

　上記態様によれば、人間の音声でない音についての立体音響処理では、補正をしないので、ユーザの頭部の位置または姿勢の変化の遅延が生じない。人間の音声と比較して、人間の音声でない音について、その内容を聞き取りやすくする必要性が低い場合に、立体音響処理の遅延をより一層小さくすることができる利点がある。よって、上記情報処理方法によれば、立体音響処理の遅延を抑制しながら、音源が出力する音の内容を聞き取りにくさを抑制することができる。

　例えば、前記補正では、さらに、前記補正によって前記第二位置姿勢情報に示される前記位置または前記姿勢の変化を遅らせた時間である遅延時間で前記音信号を遅らせる遅延処理を施してもよい。

　上記態様によれば、補正によって第二位置姿勢情報に示される位置または姿勢の変化を遅らせた遅延時間で音信号を遅らせるので、ユーザの頭部の位置または姿勢に基づく立体音響処理と、その立体音響処理が施されるべき音信号とに生じ得る時間差を抑制することができる。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより一層抑制することができる。

　例えば、前記補正では、さらに、前記遅延処理を施した前記音信号より後の音信号である後続信号に対して、前記遅延処理により生じた遅れを抑制する抑制処理を施してもよい。

　上記態様によれば、遅延処理によって遅延させた音信号の遅延を、抑制処理によって取り戻すことに寄与する。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより一層抑制することができる。

　また、本発明の一態様に係る情報処理装置は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得する復号部と、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得する取得部と、前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する補正部とを備える情報処理装置である。

　上記態様によれば、上記情報処理方法と同様の効果を奏する。

　また、本発明の一態様に係るプログラムは、上記の情報処理方法をコンピュータに実行させるプログラムである。

　なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態）
　本実施の形態において、音源が出力する音の内容の聞き取りにくさを抑制する情報処理方法および情報処理装置などについて説明する。

　図１は、本実施の形態におけるユーザＵと音源５との位置関係の例を示す説明図である。

　図１には、空間Ｓに存在しているユーザＵと、ユーザＵが認識している音源５とが示されている。図１において、空間Ｓは、ｘ軸およびｙ軸を含む平面として表現されているが、ｚ軸方向の広がりも有する。以降でも同様とする。

　空間Ｓには、壁面または物体が配置されてもよい。壁面には天井または床も含まれる。

　情報処理装置１０（後述の図２参照）は、音源５が出力する音信号を含むストリームに基づいて、デジタル音響処理である立体音響処理を行うことで、ユーザＵに聴取させる音信号を生成する。上記ストリームには、さらに、空間Ｓにおける音源５の位置および姿勢を示す位置姿勢情報が含まれている。情報処理装置１０が生成した音信号は、スピーカにより音として出力され、ユーザＵに聴取される。スピーカは、ユーザＵに装着されるイヤホンまたはヘッドホンが備えるスピーカであることが想定されるが、これに限られない。

　音源５は、ストリームに基づいて生成された音信号を聴取したユーザＵが、音源として認識する対象である、仮想的な音源（一般に音像ともいう）であり、言い換えれば、音を現実に発生している発生源ではない。なお、図１において、音源５として人間が示されているが、音源５は、人間に限られず、任意の音源であってよい。

　ユーザＵは、情報処理装置１０が生成した音信号に基づく音であって、スピーカから出力された音を聴取する。

　情報処理装置１０が生成した音信号に基づいてスピーカから出力された音は、ユーザＵの左右それぞれの耳に聴取される。ユーザＵの左右それぞれの耳に聴取される音には、情報処理装置１０により適切な時間差または位相差（時間差等とも記載）が設けられている。ユーザＵは、左右それぞれの耳が聴取した音の時間差等に基づいて、ユーザＵにとっての音源５の方向を感知する。

　また、ユーザＵの左右それぞれの耳に聴取される音には、音源５から直接に到来する音（直接音と記載）に相当する音と、音源５が出力し壁面によって反射して到来する音（反射音と記載）に相当する音が、情報処理装置１０により含められる。ユーザＵは、聴取した音に含まれる直接音および反射音の時間間隔に基づいて、ユーザＵから音源５までの距離を感知する。

　情報処理装置１０が実行する立体音響処理では、上記ストリームに含まれる音信号に基づいて、直接音と反射音とがユーザＵに到来するタイミング、ならびに、直接音と反射音との振幅および位相を算出し、直接音と反射音とを合成することで、スピーカから出力すべき音を示す音信号（出力用信号と記載）を生成する。

　音源５に対するユーザの姿勢の変化の速度が比較的大きいとき、ユーザＵは、スピーカから出力される音の内容を聞き取ることが難しく、その内容を聞き取ることができないことがある。そこで、スピーカから出力される音の内容をユーザＵが聞き取れるようにすることが求められる。

　また、音信号に人間の音声が含まれることもある。その場合、ユーザＵは、スピーカから出力される音声の内容を聞き取ることが難しく、その内容を聞き取ることができないことがある。一般に、ユーザＵが音声の内容を聞き取る必要性は、音声以外の音を聞き取る必要性よりも高い。そこで、スピーカから出力される音声の内容をユーザＵが聞き取れるようにすることも求められる。ここで、音声は、人間の声を意味する。

　情報処理装置１０は、ユーザＵと音源５との相対的な位置または姿勢の変化速度に変化率に基づいて、上記位置または上記姿勢を調整することで、音源が出力する音の内容を聞き取りにくさの抑制に寄与する。

　図２は、本実施の形態における情報処理装置１０の機能構成を示すブロック図である。

　図２に示されるように、情報処理装置１０は、機能部として、復号部１１と、取得部１２と、調整部１３と、処理部１４と、補正部１５とを備える。情報処理装置１０が備える機能部は、情報処理装置１０が備えるプロセッサ（ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）など）（不図示）が、メモリ（不図示）を用いて所定のプログラムを実行することで実現され得る。

　復号部１１は、ストリームを復号する機能部である。ストリームは、具体的には、空間Ｓにおける音源５の位置および姿勢を示す位置姿勢情報（第一位置姿勢情報に相当）と、音源５が出力する音を示す音信号とを含む。ストリームは、音源５が出力する音が人間の音声であるか否かを示す種別情報を含んでもよい。

　復号部１１は、ストリームを復号することで得た音信号を処理部１４に提供し、また、ストリームを復号することで得た位置姿勢情報を調整部１３に提供する。なお、ストリームは、情報処理装置１０が外部の装置から取得したものであってもよいし、情報処理装置１０が有する記憶装置に予め格納されたものであってもよい。

　ストリームは、所定の形式でエンコードされたストリームであり、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）（単に、「ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ」ともいう）の形式でエンコードされたストリームである。

　音源５の位置および姿勢を示す位置姿勢情報は、より具体的には、音源５の３軸方向の座標（ｘ、ｙおよびｚ）と、３軸周りの角度（ヨー角、ピッチ角およびロール角）とを含む、６自由度の情報である。音源５の位置姿勢情報によって、音源５の位置および姿勢が特定されることが可能である。なお、座標は、適当に設定される座標系における座標である。姿勢は、音源５について予め定められた方向（基準方向と記載）を示す３軸周りの角度である。基準方向は、音源５が音を出力する方向であってもよいし、その他、音源５について一意に定められる方向であればどのような方向であってもよい。

　ストリームは、一以上の音源５それぞれについて、当該音源５の位置および姿勢を示す位置姿勢情報と、当該音源５が出力する音を示す音信号とを含んでいてもよい。

　取得部１２は、空間ＳにおけるユーザＵの頭部の位置および姿勢を取得する機能部である。取得部１２は、ユーザＵの頭部の位置を示す情報（位置情報と記載）と、姿勢を示す情報（姿勢情報と記載）とを含む、位置姿勢情報（第二位置姿勢情報）をセンサ等により取得する。取得部１２が取得したユーザＵの頭部の位置姿勢情報は、補正部１５によって補正されることがある（後述）。取得部１２は、ユーザＵの頭部の位置姿勢情報を調整部１３に提供する。取得部１２が調整部１３に提供する位置姿勢情報は、取得したユーザＵの頭部の位置姿勢情報であり、補正部１５による補正がなされた場合には補正後のユーザＵの頭部の位置姿勢情報である。

　ユーザＵの頭部の位置姿勢情報は、より具体的には、ユーザＵの頭部の３軸方向の座標（ｘ、ｙおよびｚ）と、３軸周りの角度（ヨー角、ピッチ角およびロール角）とを含む、６自由度の情報である。ユーザＵの頭部の位置姿勢情報によって、ユーザＵの頭部の位置および姿勢が特定されることが可能である。なお、座標は、音源５について定められた座標系と共通の座標系における座標である。位置は、座標系における所定の位置（例えば原点）から所定の位置関係にある位置として定められ得る。姿勢は、ユーザＵの頭部が向いている方向を示す３軸周りの角度である。

　センサ等は、例えば、慣性測定ユニット（ＩＭＵ：Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）、加速度計、ジャイロスコープ、磁気センサまたはこれらの組合せであってよい。センサ等は、ユーザＵの頭部に装着されることが想定され、ユーザＵに装着されているイヤホンまたはヘッドホンに固定されていてもよい。

　調整部１３は、処理部１４が実行する立体音響処理におけるパラメータ（つまり空間分解能および時間応答長）を用いて、空間ＳにおけるユーザＵの位置姿勢情報を調整する機能部である。調整部１３は、取得部１２が取得したユーザＵの頭部の位置情報を、空間分解能の整数倍の値のいずれかに変更することで調整する。変更の際には、調整部１３は、空間分解能の整数倍である複数の値のうちから、取得部１２が取得したユーザＵの頭部の位置情報に最も近い値を採用してよい。調整部１３は、調整後のユーザＵの頭部の位置情報と、ユーザＵの頭部の姿勢情報とを処理部１４に提供する。

　処理部１４は、復号部１１が取得した音信号に対してデジタル音響処理である立体音響処理を施す機能部である。処理部１４は、立体音響処理に用いる複数のフィルタを有している。フィルタは、例えば、周波数ごとに音信号の振幅および位相を調整する演算に用いられる。

　処理部１４は、立体音響処理において、音源５からユーザＵに到来する直接音および反射音の伝搬経路を算出し、また、直接音および反射音がユーザに到来するタイミングを算出する。また、処理部１４は、ユーザＵの頭部を中心とした角度方向の範囲ごとに、当該範囲からユーザＵに到来する音（直接音および反射音）を示す信号に対して当該範囲に応じたフィルタを適用することで、ユーザＵに到来する音の振幅および位相を算出する。

　処理部１４は、ユーザＵと音源５との相対的な位置および姿勢を用いて立体音響処理を施す。ユーザＵと音源５との相対的な位置および姿勢は、音源５の位置及び姿勢を示すベクトル

と、ユーザＵの位置および姿勢を示すベクトル

とを用いて、

と表現され得る（図１参照）。

　補正部１５は、取得部１２が取得した、ユーザＵの頭部の位置および姿勢を示す情報を補正する。具体的には、補正部１５は、取得部１２から提供されたユーザＵの頭部の位置および姿勢を示す情報（第二位置姿勢情報に相当）に示される位置または姿勢の変化速度の変化率を小さくする補正をする。具体的には、補正部１５が行う補正は、上記変化率が閾値を超える場合に、当該補正後の第二位置姿勢情報に示される位置または姿勢の変化速度の変化率が閾値となるようにする補正であってよい。補正部１５が行う補正は、第二位置姿勢情報に示される位置または姿勢の急激な変化を抑制する補正であるともいえる。ここで、閾値は、位置または姿勢の変化速度の変化率に関する所定の基準に対応して定められてよい。

　また、補正部１５が行う補正は、上記変化率が閾値を超える場合に、取得した第二位置姿勢情報に示される位置または姿勢より遅れた位置または姿勢を、当該補正後の第二位置姿勢情報が示すようにする補正であってよい。ここで、位置または姿勢の変化速度の変化率は、例えば、位置または姿勢の、時間に関する二階微分値として算出され得る。

　また、補正部１５は、音信号が示す音が人間の音声であることが種別情報に示されている場合に、閾値を、より小さな値に変更してから補正をしてもよい。また、補正部１５は、音信号が示す音が人間の音声でないことが種別情報に示されている場合に、閾値を、より大きな値に変更してから補正をしてもよい。

　なお、補正部１５は、音信号が示す音が人間の音声でないことが種別情報に示されている場合に、補正をしないようにしてもよく、言い換えれば、補正を禁止してもよい。

　立体音響処理の空間分解能について図３を参照しながら説明する。

　図３は、本実施の形態における立体音響処理の空間分解能および時間応答長の説明図である。

　図３に示されるように、立体音響処理の空間分解能は、ユーザＵを中心とした角度方向の範囲の分解能である。

　処理部１４は、ユーザＵを中心とした角度範囲３０、３１、３２、・・・ごとに当該角度範囲に対応したフィルタを音信号に適用することで、角度範囲３０、３１、３２、・・・それぞれからユーザＵに到来する音を示す音信号を算出する（図３参照）。角度範囲３０、３１、３２、・・・それぞれからユーザＵに到来する音には、音源５からユーザＵへの直接音および反射音が含まれ得る。

　ここで、空間分解能が高いことは、角度範囲が狭いことに対応し、反対に、空間分解能が低いことは、角度範囲が広いことに対応する。角度範囲は、同一のフィルタが適用される単位に相当する。

　立体音響処理の時間応答長について、図４を参照しながら説明する。

　図４は、本実施の形態における立体音響処理の応答時間長の説明図である。

　図４には、立体音響処理で生成される音信号が示されている。音信号は、音源５からユーザＵに到来する直接音に対応する波形５１と、音源５からユーザＵに到来する反射音に対応する波形５２、５３、５４、５５および５６とを含んでいる。反射音に対応する波形５２、５３、５４、５５および５６それぞれは、空間Ｓにおける音源５、ユーザＵおよび壁面の位置関係によって定められる遅延時間分だけ直接音から遅延し、また、伝搬する距離および壁面による反射などにより振幅が減少している。遅延時間は、１０ｍｓｅｃ～１００ｍｓｅｃ程度の範囲で定められる。

　時間応答長は、上記遅延時間の大きさの度合いを示す指標である。時間応答長が長いほど、遅延時間が大きくなり、また、時間応答長が短いほど、遅延時間が小さくなる。

　なお、時間応答長は、あくまで遅延時間の大きさの指標であり、反射音に対応する波形の遅延時間そのものを示すものではない。例えば、図４では、波形５１から波形５５までの時間幅と、時間応答長とが概ね等しいが、これに限られず、波形５１から波形５４までの時間幅と時間応答長とが概ね等しい場合があってもよいし、波形５１から波形５６までの時間幅と時間応答長とが概ね等しい場合があってもよい。

　図５は、本実施の形態における立体音響処理のパラメータを示す説明図である。

　図５は、ユーザＵと音源５との距離Ｄの複数の範囲それぞれに、立体音響処理のパラメータである空間分解能と時間応答長とが対応付けられた対応テーブルを示している。

　図５において、ユーザＵの頭部と音源５との距離Ｄが大きいほど、より低い空間分解能が対応付けられている。また、ユーザＵの頭部と音源５との距離Ｄが大きいほど、より長い時間応答長が対応付けられている。

　例えば、１ｍ未満の距離Ｄが、１０度の空間分解能と１０ｍｓｅｃの時間応答長とに対応付けられている。

　同様に、１ｍ以上３ｍ未満、３ｍ以上２０ｍ未満、および、２０ｍ以上の距離Ｄが、それぞれ、３０度、４５度、および、９０度の空間分解能と、５０ｍｓｅｃ、２００ｍｓｅｃ、および、１ｓｅｃの時間応答長とに対応付けられている。

　処理部１４は、図５に示される距離Ｄと空間分解能との対応テーブルを保有しており、対応テーブルを参照し、取得部１２から取得したユーザＵの頭部と音源５との距離Ｄに対応付けられた空間分解能および時間応答長を取得する。

　このようにして、処理部１４は、空間ＳにおけるユーザＵの頭部と音源５との距離Ｄが大きいほど、空間分解能をより低く設定し、言い換えれば、より低い空間分解能を示す値を設定する。また、処理部１４は、空間ＳにおけるユーザＵの頭部と音源５との距離Ｄが大きいほど、時間応答長をより大きく設定し、言い換えれば、より長い時間応答長を示す値を設定する。

　以降において、補正部１５による位置姿勢情報の補正について説明する。ここでは、位置情報として、ユーザＵの頭部のｚ軸周りの角度であるヨー角を用いて説明するが、ユーザＵの頭部の座標（ｘ、ｙもしくはｚ）、または、他の角度（ピッチ角またはロール角）についても同様の説明が成立する。

　図６は、本実施の形態におけるヨー角の変化を示す第一の説明図である。図６には、取得部１２が取得した、ユーザＵの頭部のヨー角６０の時間的変化が示されている。図６に示されるヨー角６０は、音源５の姿勢に対する、ユーザＵの頭部の相対的な姿勢を示している。

　図６に示されるように、ヨー角６０は、時刻Ｔ１以前においてψ１で一定であり、時刻Ｔ１から時刻Ｔ２の間において時間に対して線形に上昇してψ２となり、時刻Ｔ２以降においてψ２で一定である。ここで、時刻Ｔ１およびＴ３において、ψ（ｔ）の傾きが不連続に変化している。つまり、時刻Ｔ１およびＴ３において、姿勢が急激に変化しており、言い換えれば、姿勢の変化速度の変化率が大きい。

　図７は、本実施の形態におけるヨー角の変化を示す第二の説明図である。図７には、図６に示されるヨー角６０に対して補正部１５が補正した後のヨー角６１および６２の時間的変化が示されている。

　ヨー角６１は、補正部１５が比較的大きな閾値を用いてヨー角６０を補正した結果として得られる。ヨー角６２は、補正部１５が比較的小さな閾値を用いてヨー角６０を補正した結果として得られる。上記「比較的小さな閾値」は、上記「比較的大きな閾値」より小さい。

　補正部１５は、例えば、人間の音声に対して比較的小さな閾値を用いて補正をし、また、人間の音声でない音に対して比較的大きな閾値を用いて補正をする。補正部１５は、補正の対象である音信号についての種別情報を参照し、補正の対象である音信号が人間の音声であると判定した場合には閾値をより小さな値に変更し、一方、補正の対象である音信号が人間の音声でないと判定した場合には閾値をより大きな値に変更する。

　ヨー角６１は、時刻Ｔ１以前においてψ１で一定であり、時刻Ｔ１から時刻Ｔ２の間においてゆるやかに上昇し、時刻Ｔ３以降においてψ２で一定である。

　このようなヨー角６１の時間的変化は、取得部１２が取得したヨー角６０の時間的変化に対して、急激な姿勢変化を抑制する補正が補正部１５によりなされたことによって得られる。

　より具体的には、ヨー角６１は、取得部１２が繰り返し取得したヨー角ψ（ｔ）から得られる、ヨー角ψ（ｔ）の時間に対する変化率ψ’（ｔ）の変化率ψ’’（ｔ）を閾値以下にする補正により得られる。

　例えば、取得部１２が取得したヨー角６０の時間的変化ψ（ｔ）を用いて、ヨー角ψ（ｔ）の時間に対する変化率ψ’（ｔ）は、
　　ψ’（ｔ）＝ψ（ｔ）／Δｔ
と表現され、変化率ψ’（ｔ）の時間に対する変化率ψ’’（ｔ）は、
　　ψ’’（ｔ）＝ψ’（ｔ）／Δｔ
と表現される。ここで、Δｔは、前回にヨー角ψ（ｔ－１）を取得した時刻と、今回にヨー角ψ（ｔ）を取得した時刻との時間差であり、例えば、１０ｍｓｅｃ～１００ｍｓｅｃ程度である。

　Δｔが、ユーザＵの頭部の姿勢の変化に対して十分に小さいとみなせる場合、変化率ψ’’（ｔ）は、ヨー角ψ（ｔ）の時間に対する二階微分値として算出され得る。

　補正部１５は、取得部１２がヨー角６０の時間的変化ψ（ｔ）を取得した場合、ψ’（ｔ）を算出し、さらにψ’’（ｔ）を算出する。そして、補正部１５は、ψ’’（ｔ）が閾値Ｔｈ１を超えるか否かを判定し、閾値Ｔｈ１を超えると判定した場合には、ψ’’（ｔ）を閾値Ｔｈ１以下とするヨー角を算出してψ（ｔ）とすることで補正する。補正部１５は、より特定的には、ψ’’（ｔ）を閾値Ｔｈ１と等しくするヨー角を算出してψ（ｔ）とすることで補正する。

　さらに、補正部１５は、ψ（ｔ）を補正した場合には、補正したψ（ｔ）を用いて、その次回に取得するヨー角ψ（ｔ＋１）に対して上記と同様に補正の要否を判定し、補正が必要である場合には補正を行う。

　このようにして、図７に示されるヨー角６１の時間的変化が得られる。ヨー角６１の時間的変化において、ヨー角６０の時間的変化に含まれていた、時刻Ｔ１およびＴ３におけるψ（ｔ）の傾きの不連続さが解消されており、言い換えれば、ヨー角６１の時間的変化の傾きがゆるやかに変化している。

　次に、ヨー角６２は、時刻Ｔ１以前においてψ１で一定であり、時刻Ｔ１から時刻Ｔ２の間においてゆるやかに上昇し、時刻Ｔ４以降においてψ２で一定である。時刻Ｔ４は、時刻Ｔ３より進んだ時刻である。

　このようなヨー角６２の時間的変化は、取得部１２が取得したヨー角６０の時間的変化に対して、急激な姿勢変化を抑制する補正が補正部１５によりなされたことによって得られる。ヨー角６２の時間的変化を得るときの補正部１５による補正の強度は、ヨー角６１の時間的変化を得るときの補正部１５による補正の強度より大きい。言い換えれば、ヨー角６２の時間的変化を得るときに補正部１５が用いる閾値Ｔｈ２は、ヨー角６１の時間的変化を得るときに補正部１５が用いる閾値Ｔｈ１より小さい。

　その結果、ヨー角６２の時間的変化において、ヨー角６０の時間的変化に含まれていた、時刻Ｔ１およびＴ３におけるψ（ｔ）の傾きの不連続さが解消されており、言い換えれば、ヨー角６２の時間的変化の傾きがより一層ゆるやかに変化している。

　補正部１５がヨー角６２の時間的変化を得るときの計算処理は、ヨー角６２の時間的変化を得るときの計算処理において閾値Ｔｈ１の代わりに閾値Ｔｈ２を用いるものに相当するので、詳細な説明を省略する。

　図８は、本実施の形態における情報処理装置１０の処理を示すフロー図である。

　図８に示されるように、ステップＳ１０１において、復号部１１は、ストリームを取得する。ストリームは、音源５の位置および姿勢を示す情報（第一位置姿勢情報に相当）と、音源５が出力する音を示す音信号とを含んでいる。

　ステップＳ１０２において、取得部１２は、ユーザＵの頭部の位置および姿勢を示す情報（第二位置姿勢情報に相当）を取得する。

　ステップＳ１０３において、補正部１５は、取得部１２がステップＳ１０２で取得した、ユーザＵの頭部の位置および姿勢を示す情報の補正を行う。補正は、上記情報に示される位置または姿勢の変化の速度を閾値以下にする補正である。

　ステップＳ１０４において、処理部１４は、ステップＳ１０３で補正がなされた後の位置または姿勢を用いて音信号に対して立体音響処理を施すことで、スピーカが出力すべき音信号を生成し出力する。出力された音信号は、スピーカに伝達され、音として出力され、ユーザＵに聴取されることが想定される。

　これにより、情報処理装置１０は、音源が出力する音の内容の聞き取りにくさを抑制することができる。

　（実施の形態の変形例）
　本変形例において、音源が出力する音の内容の聞き取りにくさを抑制する情報処理装置において、さらに、立体音響処理が施される音信号のタイミングの時間差を抑制する形態を説明する。

　図９は、本変形例における情報処理装置１０Ａの機能構成を示すブロック図である。

　図９に示されるように、情報処理装置１０Ａは、機能部として、復号部１１と、取得部１２と、調整部１３と、処理部１４と、補正部１５と、遅延部１６とを備える。情報処理装置１０Ａが備える機能部は、情報処理装置１０Ａが備えるプロセッサ（ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）など）（不図示）が、メモリ（不図示）を用いて所定のプログラムを実行することで実現され得る。

　情報処理装置１０Ａが備える復号部１１と、取得部１２と、調整部１３と、処理部１４と、補正部１５とは、実施の形態の情報処理装置１０が備えるものと同じである。遅延部１６について以下で説明する。

　遅延部１６は、ストリームに含まれる音信号を遅らせる遅延処理を実行する。遅延部１６は、より具体的には、補正部１５が補正によって第二位置姿勢情報に示される位置または姿勢の変化を遅らせた場合に、その遅らせた時間（遅延時間とも記載）で音信号を遅らせる遅延処理を施す。また、遅延部１６は、遅延処理を施した音信号より後の音信号である後続信号に対して、遅延処理により生じた遅れを抑制する（または、遅延処理により生じた遅れを取り戻す）抑制処理を施す。

　遅延処理および抑制処理は、周知の話速変換技術によりなされ得る。話速変換技術によれば、再生される音の音程を変えずに再生速度を変更することができる（非特許文献１参照）。

　遅延部１６が実行する遅延処理について図１０を参照しながら説明する。

　図１０は、本変形例におけるヨー角の変化と音信号の遅延とを示す説明図である。

　図１０の（ａ）には、ユーザＵの頭部のヨー角６０の時間的変化と、補正部１５による補正後のヨー角６１の時間変化とが示されている。

　補正部１５による補正によって、例えば、取得部１２が時刻Ｔ１２に取得したヨー角ψ２が、時刻Ｔ１２より時間Ｌ２だけ遅れた時刻Ｔ１２Ａにおけるヨー角となるように補正されている。また、補正部１５による補正によって、例えば、取得部１２が時刻Ｔ１３に取得したヨー角ψ３が、時刻Ｔ１３より時間Ｌ３だけ遅れた時刻Ｔ１３Ａにおけるヨー角となるように補正されている。なお、取得部１２が時刻Ｔ１１および時刻Ｔ１４に取得したヨー角ψ１およびψ４は、補正により変更されておらず、補正の前後で同一である。

　図１０の（ｂ）には、ストリームに含まれる音信号が示されている。具体的には、図１０の（ｂ）には、ストリームに含まれる音信号の例として、時刻Ｔ１１に再生されるべき音信号７１、時刻Ｔ１２に再生されるべき音信号７２、時刻Ｔ１３に再生されるべき音信号７３、および、時刻Ｔ１４に再生されるべき音信号７４が示されている。なお、ストリームには、上記の時刻以外の音信号も含まれ得る。

　図１０の（ｃ）には、遅延部１６による遅延処理または抑制処理が施された後の音信号が示されている。具体的には、図１０の（ｃ）には、時刻Ｔ１１に再生されるべき音信号７１Ａ、時刻Ｔ１２に再生されるべき音信号７２Ａ、時刻Ｔ１３に再生されるべき音信号７３Ａ、および、時刻Ｔ１４に再生されるべき音信号７４Ａが示されている。

　音信号７１Ａは、補正前の音信号７１と同じである。音信号７１は、補正部１５による補正がなされていないからである。

　音信号７２Ａは、補正前の音信号７２が、時刻Ｔ１２から時間Ｌ２だけ遅れて時刻Ｔ１２Ａに再生されるように遅延処理が施されたものである。補正部１５により、時刻Ｔ１２のヨー角ψ２が、時刻Ｔ１２より時間Ｌ２だけ遅れた時刻Ｔ１２Ａにおけるヨー角となるように補正されたことに基づいて、遅延部１６が音信号７２に遅延処理を施したことによるものである。

　音信号７３Ａは、補正前の音信号７３が、時刻Ｔ１３から遅れて時刻Ｔ１３Ａに再生されるように遅延処理が施されたものである。補正部１５により、時刻Ｔ１３のヨー角ψ３が、時刻Ｔ１３より時間Ｌ３だけ遅れた時刻Ｔ１３Ａにおけるヨー角となるように補正されたことに基づいて、遅延部１６が音信号７３に遅延処理を施したことによるものである。

　音信号７４Ａは、補正前の音信号７４と同じである。音信号７４は、補正部１５による補正がなされていないからである。

　このように、遅延部１６は、遅延時間が大きくなる傾向を有する期間Ｐ２においては、遅延時間を徐々に大きくしながら音信号に遅延を付与する。これは、音信号がゆっくり再生されていることに相当する。

　また、遅延部１６は、遅延時間が小さくなる傾向を有する期間Ｐ３においては、遅延時間を徐々に小さくしながら音信号に遅延を付与する。これは、音信号が速く再生されていることに相当する。

　なお、遅延部１６は、補正部１５による補正が音信号に施されない期間Ｐ１およびＰ４については、遅延処理または抑制処理を実行しない。

　図１１は、本変形例における情報処理装置１０Ａの処理を示すフロー図である。

　ステップＳ１０１～Ｓ１０３については、実施の形態の同名のステップと同じである。

　ステップＳ１０３Ａにおいて、遅延部１６は、音信号の遅延処理を実行する。なお、遅延部１６は、既に音信号に遅延処理を施していた場合には、遅延処理を施した音信号より後の音信号である後続信号に対して、遅延処理により生じた遅れを抑制する抑制処理を施す。

　ステップＳ１０４において、処理部１４は、ステップＳ１０３Ａで遅延処理または抑制処理が施された後の位置または姿勢を用いて音信号に対して立体音響処理を施すことで、スピーカが出力すべき音信号を生成し出力する。出力された音信号は、スピーカに伝達され、音として出力され、ユーザＵに聴取されることが想定される。

　これにより、情報処理装置１０Ａは、音源が出力する音の内容の聞き取りにくさを抑制するとともに、立体音響処理が施される音信号のタイミングの時間差を抑制することができる。

　以上のように、上記実施の形態または上記変形例における情報処理装置は、補正後のユーザの頭部の位置または姿勢を用いて立体音響処理を行うので、ユーザの頭部の位置または姿勢に比較的大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。これにより、ユーザが音を聴取して認識する音源の位置の大きな変化が抑制され、ユーザが、音源が出力する音の内容の聞き取りやすくなる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。

　また、情報処理装置は、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率が閾値を超える場合に、その変化率を閾値とするように位置または姿勢を示す情報を補正するので、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率を閾値以下にすることができる。その結果、ユーザの頭部の位置または姿勢に所定の基準を超える大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。

　また、情報処理装置は、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率が閾値を超える場合に、その変化を遅らせるように補正をするので、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率を閾値以下にすることができる。その結果、ユーザの頭部の位置または姿勢に所定の基準を超える大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。

　また、情報処理装置は、音源に対するユーザの頭部の位置または姿勢の時間に関する二階微分値を用いて、位置または姿勢の変化速度の変化率を容易に得ることができ、その変化率を用いて、ユーザの頭部の位置または姿勢を適切に補正することができる。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより容易に抑制することができる。

　また、情報処理装置は、人間の音声についての立体音響処理において、より小さな閾値を用いて補正をするので、音声について特に、音源に対するユーザの頭部の位置または姿勢の変化速度の大きな変化を抑制する。よって、上記情報処理方法によれば、音源が出力する人間の音声の内容の聞き取りにくさを、より一層抑制することができる。

　また、情報処理装置は、人間の音声でない音についての立体音響処理では、より大きな閾値を用いて補正をするので、音源に対するユーザの頭部の位置または姿勢の変化速度のより大きな変化を許容することで、ユーザの頭部の位置または姿勢の変化の遅延を小さくする。人間の音声と比較して、人間の音声でない音について、その内容を聞き取りやすくする必要性が低い場合に、立体音響処理の遅延を小さくすることができる利点がある。よって、上記情報処理方法によれば、立体音響処理の遅延を抑制しながら、音源が出力する音の内容を聞き取りにくさを抑制することができる。

　また、情報処理装置は、人間の音声でない音についての立体音響処理では、補正をしないので、ユーザの頭部の位置または姿勢の変化の遅延が生じない。人間の音声と比較して、人間の音声でない音について、その内容を聞き取りやすくする必要性が低い場合に、立体音響処理の遅延をより一層小さくすることができる利点がある。よって、上記情報処理方法によれば、立体音響処理の遅延を抑制しながら、音源が出力する音の内容を聞き取りにくさを抑制することができる。

　また、情報処理装置は、補正によって第二位置姿勢情報に示される位置または姿勢の変化を遅らせた遅延時間で音信号を遅らせるので、ユーザの頭部の位置または姿勢に基づく立体音響処理と、その立体音響処理が施されるべき音信号とに生じ得る時間差を抑制することができる。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより一層抑制することができる。

　また、情報処理装置は、遅延処理によって遅延させた音信号の遅延を、抑制処理によって取り戻すことに寄与する。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより一層抑制することができる。

　なお、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の情報処理装置などを実現するソフトウェアは、次のようなプログラムである。

　すなわち、このプログラムは、コンピュータに、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する情報処理方法を実行させるプログラムである。

　以上、一つまたは複数の態様に係る情報処理装置などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　本発明は、立体音響処理を行う情報処理装置に利用可能である。

　　５　　音源
　１０、１０Ａ　　情報処理装置
　１１　　復号部
　１２　　取得部
　１３　　調整部
　１４　　処理部
　１５　　補正部
　１６　　遅延部
　３０、３１、３２　　角度範囲
　５１、５２、５３、５４、５５、５６　　波形
　６０、６１、６２　　ヨー角
　７１、７１Ａ、７２、７２Ａ、７３、７３Ａ、７４、７４Ａ　　音信号
　　Ｐ１、Ｐ２、Ｐ３、Ｐ４　　期間
　　Ｓ　　空間
　　Ｕ　　ユーザ

Claims

　音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、
　ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、
　前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する
　情報処理方法。
　前記補正では、
　前記変化率が閾値を超える場合に、当該補正後の前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率が前記閾値となるように、前記第二位置姿勢情報を補正する
　請求項１に記載の情報処理方法。
　前記補正では、
　前記変化率が閾値を超える場合に、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢より遅れた前記位置または前記姿勢を、当該補正後の前記第二位置姿勢情報が示すように、前記第二位置姿勢情報を補正する
　請求項１または２に記載の情報処理方法。
　前記位置または前記姿勢の変化速度の変化率は、前記位置または前記姿勢の、時間に関する二階微分値である
　請求項２または３に記載の情報処理方法。
　前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
　前記補正では、
　前記音信号が示す前記音が人間の音声であることが前記種別情報に示されている場合に、前記閾値を、より小さな値に変更してから前記補正をする
　請求項２～４のいずれか１項に記載の情報処理方法。
　前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
　前記補正では、
　前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記閾値を、より大きな値に変更してから前記補正をする
　請求項２～５のいずれか１項に記載の情報処理方法。
　前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
　前記補正では、
　前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記補正を禁止する
　請求項１～６のいずれか１項に記載の情報処理方法。
　前記補正では、さらに、
　前記補正によって前記第二位置姿勢情報に示される前記位置または前記姿勢の変化を遅らせた時間である遅延時間で前記音信号を遅らせる遅延処理を施す
　請求項３に記載の情報処理方法。
　前記補正では、さらに、
　前記遅延処理を施した前記音信号より後の音信号である後続信号に対して、前記遅延処理により生じた遅れを抑制する抑制処理を施す
　請求項８に記載の情報処理方法。
　音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得する復号部と、
　ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得する取得部と、
　前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する補正部とを備える
　情報処理装置。
　請求項１～９のいずれか１項に記載の情報処理方法をコンピュータに実行させるプログラム。