WO2022219881A1 - 情報処理方法、情報処理装置、および、プログラム - Google Patents

情報処理方法、情報処理装置、および、プログラム Download PDF

Info

Publication number
WO2022219881A1
WO2022219881A1 PCT/JP2022/003592 JP2022003592W WO2022219881A1 WO 2022219881 A1 WO2022219881 A1 WO 2022219881A1 JP 2022003592 W JP2022003592 W JP 2022003592W WO 2022219881 A1 WO2022219881 A1 WO 2022219881A1
Authority
WO
WIPO (PCT)
Prior art keywords
orientation
sound
information
correction
change
Prior art date
Application number
PCT/JP2022/003592
Other languages
English (en)
French (fr)
Inventor
耕 水野
智一 石川
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to CN202280024856.5A priority Critical patent/CN117121511A/zh
Priority to EP22787809.7A priority patent/EP4325896A1/en
Priority to JP2023514345A priority patent/JPWO2022219881A1/ja
Publication of WO2022219881A1 publication Critical patent/WO2022219881A1/ja
Priority to US18/374,164 priority patent/US20240031762A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • An information processing method acquires a stream including first position and orientation information indicating the position and orientation of a sound source and a sound signal indicating the sound output by the sound source, and a second position/posture information indicating a posture, and a change in the position or the posture indicated by the obtained second position/posture information with respect to the position or the posture of the sound source indicated by the first position/posture information.
  • the information indicating the position or posture is corrected so that the change rate is set as the threshold.
  • the rate of change of the rate of change of the user's head position or pose relative to the can be less than or equal to a threshold.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、音源が出力する音を示す音信号とを含むストリームを取得し(S101)、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し(S102)、第一位置姿勢情報に示される音源の位置または姿勢に対する、取得した第二位置姿勢情報に示される位置または姿勢の変化速度の変化率を小さくする補正を行うことで、第一位置姿勢情報と第二位置姿勢情報とを用いた音信号に対する立体音響処理に用いられる第二位置姿勢情報を取得する(S103)。

Description

情報処理方法、情報処理装置、および、プログラム
 本発明は、情報処理方法、情報処理装置、および、プログラムに関する。
 音源の位置および姿勢と、聴取者であるユーザの位置および姿勢とに応じて、出力する音の信号を処理(立体音響処理ともいう)し、ユーザに立体的な音響を体験させる技術がある(特許文献1参照)。
特表2020-524420号公報
「リアルタイム話速変換型受聴システム」、音響学会誌50巻7号、1994年、pp.509-520
 しかしながら、立体音響処理が施された音信号に基づいてユーザが認識する音源位置が急激に変化すると、音源が出力する音の内容をユーザが聞き取りにくいという問題がある。
 そこで、本発明は、音源が出力する音の内容の聞き取りにくさを抑制する情報処理方法などを提供する。
 本発明の一態様に係る情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する情報処理方法である。
 なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本発明の情報処理方法は、音源が出力する音の内容の聞き取りにくさを抑制することができる。
図1は、実施の形態におけるユーザと音源との位置関係の例を示す説明図である。 図2は、実施の形態における情報処理装置の機能構成を示すブロック図である。 図3は、実施の形態における立体音響処理の空間分解能の説明図である。 図4は、実施の形態における立体音響処理の時間応答長の説明図である。 図5は、実施の形態における立体音響処理のパラメータの第一例を示す説明図である。 図6は、実施の形態におけるヨー角の変化を示す第一の説明図である。 図7は、実施の形態におけるヨー角の変化を示す第二の説明図である。 図8は、実施の形態における情報処理装置の処理を示すフロー図である。 図9は、実施の形態の変形例における情報処理装置の機能構成を示すブロック図である。 図10は、実施の形態の変形例におけるヨー角の変化と音信号の遅延とを示す説明図である。 図11は、実施の形態の変形例における情報処理装置の処理を示すフロー図である。
 (本発明の基礎となった知見)
 本発明者は、「背景技術」の欄において記載した立体音響処理に関し、以下の問題が生じることを見出した。
 特許文献1に示される立体音響処理技術では、ユーザの姿勢に基づいて将来の予測姿勢情報を取得し、その予測姿勢情報を用いてメディアコンテンツを事前にレンダリングする。
 しかしながら、立体音響処理が施された音信号に基づいてユーザが認識する音源位置が急激に変化すると、音源が出力する音声の内容をユーザが聞き取りにくいという問題がある。ユーザが認識する音源位置の急激な変化は、例えば、ユーザが首を回すなどして頭部の姿勢が急激に変化した場合、または、ユーザが上半身または下半身を動かして頭部の姿勢が急激に変化した場合などに生じ得る。
 上記問題を解決するために、本発明の一態様に係る情報処理方法は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する情報処理方法である。
 上記態様によれば、補正後のユーザの頭部の位置または姿勢を用いて立体音響処理を行うので、ユーザの頭部の位置または姿勢に比較的大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。これにより、ユーザが音を聴取して認識する音源の位置の大きな変化が抑制され、ユーザが、音源が出力する音の内容の聞き取りやすくなる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。
 例えば、前記補正では、前記変化率が閾値を超える場合に、当該補正後の前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率が前記閾値となるように、前記第二位置姿勢情報を補正してもよい。
 上記態様によれば、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率が閾値を超える場合に、その変化率を閾値とするように位置または姿勢を示す情報を補正するので、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率を閾値以下にすることができる。その結果、ユーザの頭部の位置または姿勢に所定の基準を超える大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。
 例えば、前記補正では、前記変化率が閾値を超える場合に、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢より遅れた前記位置または前記姿勢を、当該補正後の前記第二位置姿勢情報が示すように、前記第二位置姿勢情報を補正してもよい。
 上記態様によれば、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率が閾値を超える場合に、その変化を遅らせるように補正をするので、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率を閾値以下にすることができる。その結果、ユーザの頭部の位置または姿勢に所定の基準を超える大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。
 例えば、前記位置または前記姿勢の変化速度の変化率は、前記位置または前記姿勢の、時間に関する二階微分値であってもよい。
 上記態様によれば、音源に対するユーザの頭部の位置または姿勢の時間に関する二階微分値を用いて、位置または姿勢の変化速度の変化率を容易に得ることができ、その変化率を用いて、ユーザの頭部の位置または姿勢を適切に補正することができる。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより容易に抑制することができる。
 例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記補正では、前記音信号が示す前記音が人間の音声であることが前記種別情報に示されている場合に、前記閾値を、より小さな値に変更してから前記補正をしてもよい。
 上記態様によれば、人間の音声についての立体音響処理において、より小さな閾値を用いて補正をするので、音声について特に、音源に対するユーザの頭部の位置または姿勢の変化速度の大きな変化を抑制する。よって、上記情報処理方法によれば、音源が出力する人間の音声の内容の聞き取りにくさを、より一層抑制することができる。
 例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記補正では、前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記閾値を、より大きな値に変更してから前記補正をしてもよい。
 上記態様によれば、人間の音声でない音についての立体音響処理では、より大きな閾値を用いて補正をするので、音源に対するユーザの頭部の位置または姿勢の変化速度のより大きな変化を許容することで、ユーザの頭部の位置または姿勢の変化の遅延を小さくする。人間の音声と比較して、人間の音声でない音について、その内容を聞き取りやすくする必要性が低い場合に、立体音響処理の遅延を小さくすることができる利点がある。よって、上記情報処理方法によれば、立体音響処理の遅延を抑制しながら、音源が出力する音の内容を聞き取りにくさを抑制することができる。
 例えば、前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、前記補正では、前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記補正を禁止してもよい。
 上記態様によれば、人間の音声でない音についての立体音響処理では、補正をしないので、ユーザの頭部の位置または姿勢の変化の遅延が生じない。人間の音声と比較して、人間の音声でない音について、その内容を聞き取りやすくする必要性が低い場合に、立体音響処理の遅延をより一層小さくすることができる利点がある。よって、上記情報処理方法によれば、立体音響処理の遅延を抑制しながら、音源が出力する音の内容を聞き取りにくさを抑制することができる。
 例えば、前記補正では、さらに、前記補正によって前記第二位置姿勢情報に示される前記位置または前記姿勢の変化を遅らせた時間である遅延時間で前記音信号を遅らせる遅延処理を施してもよい。
 上記態様によれば、補正によって第二位置姿勢情報に示される位置または姿勢の変化を遅らせた遅延時間で音信号を遅らせるので、ユーザの頭部の位置または姿勢に基づく立体音響処理と、その立体音響処理が施されるべき音信号とに生じ得る時間差を抑制することができる。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより一層抑制することができる。
 例えば、前記補正では、さらに、前記遅延処理を施した前記音信号より後の音信号である後続信号に対して、前記遅延処理により生じた遅れを抑制する抑制処理を施してもよい。
 上記態様によれば、遅延処理によって遅延させた音信号の遅延を、抑制処理によって取り戻すことに寄与する。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより一層抑制することができる。
 また、本発明の一態様に係る情報処理装置は、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得する復号部と、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得する取得部と、前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する補正部とを備える情報処理装置である。
 上記態様によれば、上記情報処理方法と同様の効果を奏する。
 また、本発明の一態様に係るプログラムは、上記の情報処理方法をコンピュータに実行させるプログラムである。
 上記態様によれば、上記情報処理方法と同様の効果を奏する。
 なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態)
 本実施の形態において、音源が出力する音の内容の聞き取りにくさを抑制する情報処理方法および情報処理装置などについて説明する。
 図1は、本実施の形態におけるユーザUと音源5との位置関係の例を示す説明図である。
 図1には、空間Sに存在しているユーザUと、ユーザUが認識している音源5とが示されている。図1において、空間Sは、x軸およびy軸を含む平面として表現されているが、z軸方向の広がりも有する。以降でも同様とする。
 空間Sには、壁面または物体が配置されてもよい。壁面には天井または床も含まれる。
 情報処理装置10(後述の図2参照)は、音源5が出力する音信号を含むストリームに基づいて、デジタル音響処理である立体音響処理を行うことで、ユーザUに聴取させる音信号を生成する。上記ストリームには、さらに、空間Sにおける音源5の位置および姿勢を示す位置姿勢情報が含まれている。情報処理装置10が生成した音信号は、スピーカにより音として出力され、ユーザUに聴取される。スピーカは、ユーザUに装着されるイヤホンまたはヘッドホンが備えるスピーカであることが想定されるが、これに限られない。
 音源5は、ストリームに基づいて生成された音信号を聴取したユーザUが、音源として認識する対象である、仮想的な音源(一般に音像ともいう)であり、言い換えれば、音を現実に発生している発生源ではない。なお、図1において、音源5として人間が示されているが、音源5は、人間に限られず、任意の音源であってよい。
 ユーザUは、情報処理装置10が生成した音信号に基づく音であって、スピーカから出力された音を聴取する。
 情報処理装置10が生成した音信号に基づいてスピーカから出力された音は、ユーザUの左右それぞれの耳に聴取される。ユーザUの左右それぞれの耳に聴取される音には、情報処理装置10により適切な時間差または位相差(時間差等とも記載)が設けられている。ユーザUは、左右それぞれの耳が聴取した音の時間差等に基づいて、ユーザUにとっての音源5の方向を感知する。
 また、ユーザUの左右それぞれの耳に聴取される音には、音源5から直接に到来する音(直接音と記載)に相当する音と、音源5が出力し壁面によって反射して到来する音(反射音と記載)に相当する音が、情報処理装置10により含められる。ユーザUは、聴取した音に含まれる直接音および反射音の時間間隔に基づいて、ユーザUから音源5までの距離を感知する。
 情報処理装置10が実行する立体音響処理では、上記ストリームに含まれる音信号に基づいて、直接音と反射音とがユーザUに到来するタイミング、ならびに、直接音と反射音との振幅および位相を算出し、直接音と反射音とを合成することで、スピーカから出力すべき音を示す音信号(出力用信号と記載)を生成する。
 音源5に対するユーザの姿勢の変化の速度が比較的大きいとき、ユーザUは、スピーカから出力される音の内容を聞き取ることが難しく、その内容を聞き取ることができないことがある。そこで、スピーカから出力される音の内容をユーザUが聞き取れるようにすることが求められる。
 また、音信号に人間の音声が含まれることもある。その場合、ユーザUは、スピーカから出力される音声の内容を聞き取ることが難しく、その内容を聞き取ることができないことがある。一般に、ユーザUが音声の内容を聞き取る必要性は、音声以外の音を聞き取る必要性よりも高い。そこで、スピーカから出力される音声の内容をユーザUが聞き取れるようにすることも求められる。ここで、音声は、人間の声を意味する。
 情報処理装置10は、ユーザUと音源5との相対的な位置または姿勢の変化速度に変化率に基づいて、上記位置または上記姿勢を調整することで、音源が出力する音の内容を聞き取りにくさの抑制に寄与する。
 図2は、本実施の形態における情報処理装置10の機能構成を示すブロック図である。
 図2に示されるように、情報処理装置10は、機能部として、復号部11と、取得部12と、調整部13と、処理部14と、補正部15とを備える。情報処理装置10が備える機能部は、情報処理装置10が備えるプロセッサ(CPU(Central Processing Unit)など)(不図示)が、メモリ(不図示)を用いて所定のプログラムを実行することで実現され得る。
 復号部11は、ストリームを復号する機能部である。ストリームは、具体的には、空間Sにおける音源5の位置および姿勢を示す位置姿勢情報(第一位置姿勢情報に相当)と、音源5が出力する音を示す音信号とを含む。ストリームは、音源5が出力する音が人間の音声であるか否かを示す種別情報を含んでもよい。
 復号部11は、ストリームを復号することで得た音信号を処理部14に提供し、また、ストリームを復号することで得た位置姿勢情報を調整部13に提供する。なお、ストリームは、情報処理装置10が外部の装置から取得したものであってもよいし、情報処理装置10が有する記憶装置に予め格納されたものであってもよい。
 ストリームは、所定の形式でエンコードされたストリームであり、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)(単に、「MPEG-H 3D Audio」ともいう)の形式でエンコードされたストリームである。
 音源5の位置および姿勢を示す位置姿勢情報は、より具体的には、音源5の3軸方向の座標(x、yおよびz)と、3軸周りの角度(ヨー角、ピッチ角およびロール角)とを含む、6自由度の情報である。音源5の位置姿勢情報によって、音源5の位置および姿勢が特定されることが可能である。なお、座標は、適当に設定される座標系における座標である。姿勢は、音源5について予め定められた方向(基準方向と記載)を示す3軸周りの角度である。基準方向は、音源5が音を出力する方向であってもよいし、その他、音源5について一意に定められる方向であればどのような方向であってもよい。
 ストリームは、一以上の音源5それぞれについて、当該音源5の位置および姿勢を示す位置姿勢情報と、当該音源5が出力する音を示す音信号とを含んでいてもよい。
 取得部12は、空間SにおけるユーザUの頭部の位置および姿勢を取得する機能部である。取得部12は、ユーザUの頭部の位置を示す情報(位置情報と記載)と、姿勢を示す情報(姿勢情報と記載)とを含む、位置姿勢情報(第二位置姿勢情報)をセンサ等により取得する。取得部12が取得したユーザUの頭部の位置姿勢情報は、補正部15によって補正されることがある(後述)。取得部12は、ユーザUの頭部の位置姿勢情報を調整部13に提供する。取得部12が調整部13に提供する位置姿勢情報は、取得したユーザUの頭部の位置姿勢情報であり、補正部15による補正がなされた場合には補正後のユーザUの頭部の位置姿勢情報である。
 ユーザUの頭部の位置姿勢情報は、より具体的には、ユーザUの頭部の3軸方向の座標(x、yおよびz)と、3軸周りの角度(ヨー角、ピッチ角およびロール角)とを含む、6自由度の情報である。ユーザUの頭部の位置姿勢情報によって、ユーザUの頭部の位置および姿勢が特定されることが可能である。なお、座標は、音源5について定められた座標系と共通の座標系における座標である。位置は、座標系における所定の位置(例えば原点)から所定の位置関係にある位置として定められ得る。姿勢は、ユーザUの頭部が向いている方向を示す3軸周りの角度である。
 センサ等は、例えば、慣性測定ユニット(IMU:Inertial Measurement Unit)、加速度計、ジャイロスコープ、磁気センサまたはこれらの組合せであってよい。センサ等は、ユーザUの頭部に装着されることが想定され、ユーザUに装着されているイヤホンまたはヘッドホンに固定されていてもよい。
 調整部13は、処理部14が実行する立体音響処理におけるパラメータ(つまり空間分解能および時間応答長)を用いて、空間SにおけるユーザUの位置姿勢情報を調整する機能部である。調整部13は、取得部12が取得したユーザUの頭部の位置情報を、空間分解能の整数倍の値のいずれかに変更することで調整する。変更の際には、調整部13は、空間分解能の整数倍である複数の値のうちから、取得部12が取得したユーザUの頭部の位置情報に最も近い値を採用してよい。調整部13は、調整後のユーザUの頭部の位置情報と、ユーザUの頭部の姿勢情報とを処理部14に提供する。
 処理部14は、復号部11が取得した音信号に対してデジタル音響処理である立体音響処理を施す機能部である。処理部14は、立体音響処理に用いる複数のフィルタを有している。フィルタは、例えば、周波数ごとに音信号の振幅および位相を調整する演算に用いられる。
 処理部14は、立体音響処理において、音源5からユーザUに到来する直接音および反射音の伝搬経路を算出し、また、直接音および反射音がユーザに到来するタイミングを算出する。また、処理部14は、ユーザUの頭部を中心とした角度方向の範囲ごとに、当該範囲からユーザUに到来する音(直接音および反射音)を示す信号に対して当該範囲に応じたフィルタを適用することで、ユーザUに到来する音の振幅および位相を算出する。
 処理部14は、ユーザUと音源5との相対的な位置および姿勢を用いて立体音響処理を施す。ユーザUと音源5との相対的な位置および姿勢は、音源5の位置及び姿勢を示すベクトル
Figure JPOXMLDOC01-appb-M000001
と、ユーザUの位置および姿勢を示すベクトル
Figure JPOXMLDOC01-appb-M000002
とを用いて、
Figure JPOXMLDOC01-appb-M000003
と表現され得る(図1参照)。
 補正部15は、取得部12が取得した、ユーザUの頭部の位置および姿勢を示す情報を補正する。具体的には、補正部15は、取得部12から提供されたユーザUの頭部の位置および姿勢を示す情報(第二位置姿勢情報に相当)に示される位置または姿勢の変化速度の変化率を小さくする補正をする。具体的には、補正部15が行う補正は、上記変化率が閾値を超える場合に、当該補正後の第二位置姿勢情報に示される位置または姿勢の変化速度の変化率が閾値となるようにする補正であってよい。補正部15が行う補正は、第二位置姿勢情報に示される位置または姿勢の急激な変化を抑制する補正であるともいえる。ここで、閾値は、位置または姿勢の変化速度の変化率に関する所定の基準に対応して定められてよい。
 また、補正部15が行う補正は、上記変化率が閾値を超える場合に、取得した第二位置姿勢情報に示される位置または姿勢より遅れた位置または姿勢を、当該補正後の第二位置姿勢情報が示すようにする補正であってよい。ここで、位置または姿勢の変化速度の変化率は、例えば、位置または姿勢の、時間に関する二階微分値として算出され得る。
 また、補正部15は、音信号が示す音が人間の音声であることが種別情報に示されている場合に、閾値を、より小さな値に変更してから補正をしてもよい。また、補正部15は、音信号が示す音が人間の音声でないことが種別情報に示されている場合に、閾値を、より大きな値に変更してから補正をしてもよい。
 なお、補正部15は、音信号が示す音が人間の音声でないことが種別情報に示されている場合に、補正をしないようにしてもよく、言い換えれば、補正を禁止してもよい。
 立体音響処理の空間分解能について図3を参照しながら説明する。
 図3は、本実施の形態における立体音響処理の空間分解能および時間応答長の説明図である。
 図3に示されるように、立体音響処理の空間分解能は、ユーザUを中心とした角度方向の範囲の分解能である。
 処理部14は、ユーザUを中心とした角度範囲30、31、32、・・・ごとに当該角度範囲に対応したフィルタを音信号に適用することで、角度範囲30、31、32、・・・それぞれからユーザUに到来する音を示す音信号を算出する(図3参照)。角度範囲30、31、32、・・・それぞれからユーザUに到来する音には、音源5からユーザUへの直接音および反射音が含まれ得る。
 ここで、空間分解能が高いことは、角度範囲が狭いことに対応し、反対に、空間分解能が低いことは、角度範囲が広いことに対応する。角度範囲は、同一のフィルタが適用される単位に相当する。
 立体音響処理の時間応答長について、図4を参照しながら説明する。
 図4は、本実施の形態における立体音響処理の応答時間長の説明図である。
 図4には、立体音響処理で生成される音信号が示されている。音信号は、音源5からユーザUに到来する直接音に対応する波形51と、音源5からユーザUに到来する反射音に対応する波形52、53、54、55および56とを含んでいる。反射音に対応する波形52、53、54、55および56それぞれは、空間Sにおける音源5、ユーザUおよび壁面の位置関係によって定められる遅延時間分だけ直接音から遅延し、また、伝搬する距離および壁面による反射などにより振幅が減少している。遅延時間は、10msec~100msec程度の範囲で定められる。
 時間応答長は、上記遅延時間の大きさの度合いを示す指標である。時間応答長が長いほど、遅延時間が大きくなり、また、時間応答長が短いほど、遅延時間が小さくなる。
 なお、時間応答長は、あくまで遅延時間の大きさの指標であり、反射音に対応する波形の遅延時間そのものを示すものではない。例えば、図4では、波形51から波形55までの時間幅と、時間応答長とが概ね等しいが、これに限られず、波形51から波形54までの時間幅と時間応答長とが概ね等しい場合があってもよいし、波形51から波形56までの時間幅と時間応答長とが概ね等しい場合があってもよい。
 図5は、本実施の形態における立体音響処理のパラメータを示す説明図である。
 図5は、ユーザUと音源5との距離Dの複数の範囲それぞれに、立体音響処理のパラメータである空間分解能と時間応答長とが対応付けられた対応テーブルを示している。
 図5において、ユーザUの頭部と音源5との距離Dが大きいほど、より低い空間分解能が対応付けられている。また、ユーザUの頭部と音源5との距離Dが大きいほど、より長い時間応答長が対応付けられている。
 例えば、1m未満の距離Dが、10度の空間分解能と10msecの時間応答長とに対応付けられている。
 同様に、1m以上3m未満、3m以上20m未満、および、20m以上の距離Dが、それぞれ、30度、45度、および、90度の空間分解能と、50msec、200msec、および、1secの時間応答長とに対応付けられている。
 処理部14は、図5に示される距離Dと空間分解能との対応テーブルを保有しており、対応テーブルを参照し、取得部12から取得したユーザUの頭部と音源5との距離Dに対応付けられた空間分解能および時間応答長を取得する。
 このようにして、処理部14は、空間SにおけるユーザUの頭部と音源5との距離Dが大きいほど、空間分解能をより低く設定し、言い換えれば、より低い空間分解能を示す値を設定する。また、処理部14は、空間SにおけるユーザUの頭部と音源5との距離Dが大きいほど、時間応答長をより大きく設定し、言い換えれば、より長い時間応答長を示す値を設定する。
 以降において、補正部15による位置姿勢情報の補正について説明する。ここでは、位置情報として、ユーザUの頭部のz軸周りの角度であるヨー角を用いて説明するが、ユーザUの頭部の座標(x、yもしくはz)、または、他の角度(ピッチ角またはロール角)についても同様の説明が成立する。
 図6は、本実施の形態におけるヨー角の変化を示す第一の説明図である。図6には、取得部12が取得した、ユーザUの頭部のヨー角60の時間的変化が示されている。図6に示されるヨー角60は、音源5の姿勢に対する、ユーザUの頭部の相対的な姿勢を示している。
 図6に示されるように、ヨー角60は、時刻T1以前においてψ1で一定であり、時刻T1から時刻T2の間において時間に対して線形に上昇してψ2となり、時刻T2以降においてψ2で一定である。ここで、時刻T1およびT3において、ψ(t)の傾きが不連続に変化している。つまり、時刻T1およびT3において、姿勢が急激に変化しており、言い換えれば、姿勢の変化速度の変化率が大きい。
 図7は、本実施の形態におけるヨー角の変化を示す第二の説明図である。図7には、図6に示されるヨー角60に対して補正部15が補正した後のヨー角61および62の時間的変化が示されている。
 ヨー角61は、補正部15が比較的大きな閾値を用いてヨー角60を補正した結果として得られる。ヨー角62は、補正部15が比較的小さな閾値を用いてヨー角60を補正した結果として得られる。上記「比較的小さな閾値」は、上記「比較的大きな閾値」より小さい。
 補正部15は、例えば、人間の音声に対して比較的小さな閾値を用いて補正をし、また、人間の音声でない音に対して比較的大きな閾値を用いて補正をする。補正部15は、補正の対象である音信号についての種別情報を参照し、補正の対象である音信号が人間の音声であると判定した場合には閾値をより小さな値に変更し、一方、補正の対象である音信号が人間の音声でないと判定した場合には閾値をより大きな値に変更する。
 ヨー角61は、時刻T1以前においてψ1で一定であり、時刻T1から時刻T2の間においてゆるやかに上昇し、時刻T3以降においてψ2で一定である。
 このようなヨー角61の時間的変化は、取得部12が取得したヨー角60の時間的変化に対して、急激な姿勢変化を抑制する補正が補正部15によりなされたことによって得られる。
 より具体的には、ヨー角61は、取得部12が繰り返し取得したヨー角ψ(t)から得られる、ヨー角ψ(t)の時間に対する変化率ψ’(t)の変化率ψ’’(t)を閾値以下にする補正により得られる。
 例えば、取得部12が取得したヨー角60の時間的変化ψ(t)を用いて、ヨー角ψ(t)の時間に対する変化率ψ’(t)は、
  ψ’(t)=ψ(t)/Δt
と表現され、変化率ψ’(t)の時間に対する変化率ψ’’(t)は、
  ψ’’(t)=ψ’(t)/Δt
と表現される。ここで、Δtは、前回にヨー角ψ(t-1)を取得した時刻と、今回にヨー角ψ(t)を取得した時刻との時間差であり、例えば、10msec~100msec程度である。
 Δtが、ユーザUの頭部の姿勢の変化に対して十分に小さいとみなせる場合、変化率ψ’’(t)は、ヨー角ψ(t)の時間に対する二階微分値として算出され得る。
 補正部15は、取得部12がヨー角60の時間的変化ψ(t)を取得した場合、ψ’(t)を算出し、さらにψ’’(t)を算出する。そして、補正部15は、ψ’’(t)が閾値Th1を超えるか否かを判定し、閾値Th1を超えると判定した場合には、ψ’’(t)を閾値Th1以下とするヨー角を算出してψ(t)とすることで補正する。補正部15は、より特定的には、ψ’’(t)を閾値Th1と等しくするヨー角を算出してψ(t)とすることで補正する。
 さらに、補正部15は、ψ(t)を補正した場合には、補正したψ(t)を用いて、その次回に取得するヨー角ψ(t+1)に対して上記と同様に補正の要否を判定し、補正が必要である場合には補正を行う。
 このようにして、図7に示されるヨー角61の時間的変化が得られる。ヨー角61の時間的変化において、ヨー角60の時間的変化に含まれていた、時刻T1およびT3におけるψ(t)の傾きの不連続さが解消されており、言い換えれば、ヨー角61の時間的変化の傾きがゆるやかに変化している。
 次に、ヨー角62は、時刻T1以前においてψ1で一定であり、時刻T1から時刻T2の間においてゆるやかに上昇し、時刻T4以降においてψ2で一定である。時刻T4は、時刻T3より進んだ時刻である。
 このようなヨー角62の時間的変化は、取得部12が取得したヨー角60の時間的変化に対して、急激な姿勢変化を抑制する補正が補正部15によりなされたことによって得られる。ヨー角62の時間的変化を得るときの補正部15による補正の強度は、ヨー角61の時間的変化を得るときの補正部15による補正の強度より大きい。言い換えれば、ヨー角62の時間的変化を得るときに補正部15が用いる閾値Th2は、ヨー角61の時間的変化を得るときに補正部15が用いる閾値Th1より小さい。
 その結果、ヨー角62の時間的変化において、ヨー角60の時間的変化に含まれていた、時刻T1およびT3におけるψ(t)の傾きの不連続さが解消されており、言い換えれば、ヨー角62の時間的変化の傾きがより一層ゆるやかに変化している。
 補正部15がヨー角62の時間的変化を得るときの計算処理は、ヨー角62の時間的変化を得るときの計算処理において閾値Th1の代わりに閾値Th2を用いるものに相当するので、詳細な説明を省略する。
 図8は、本実施の形態における情報処理装置10の処理を示すフロー図である。
 図8に示されるように、ステップS101において、復号部11は、ストリームを取得する。ストリームは、音源5の位置および姿勢を示す情報(第一位置姿勢情報に相当)と、音源5が出力する音を示す音信号とを含んでいる。
 ステップS102において、取得部12は、ユーザUの頭部の位置および姿勢を示す情報(第二位置姿勢情報に相当)を取得する。
 ステップS103において、補正部15は、取得部12がステップS102で取得した、ユーザUの頭部の位置および姿勢を示す情報の補正を行う。補正は、上記情報に示される位置または姿勢の変化の速度を閾値以下にする補正である。
 ステップS104において、処理部14は、ステップS103で補正がなされた後の位置または姿勢を用いて音信号に対して立体音響処理を施すことで、スピーカが出力すべき音信号を生成し出力する。出力された音信号は、スピーカに伝達され、音として出力され、ユーザUに聴取されることが想定される。
 これにより、情報処理装置10は、音源が出力する音の内容の聞き取りにくさを抑制することができる。
 (実施の形態の変形例)
 本変形例において、音源が出力する音の内容の聞き取りにくさを抑制する情報処理装置において、さらに、立体音響処理が施される音信号のタイミングの時間差を抑制する形態を説明する。
 図9は、本変形例における情報処理装置10Aの機能構成を示すブロック図である。
 図9に示されるように、情報処理装置10Aは、機能部として、復号部11と、取得部12と、調整部13と、処理部14と、補正部15と、遅延部16とを備える。情報処理装置10Aが備える機能部は、情報処理装置10Aが備えるプロセッサ(CPU(Central Processing Unit)など)(不図示)が、メモリ(不図示)を用いて所定のプログラムを実行することで実現され得る。
 情報処理装置10Aが備える復号部11と、取得部12と、調整部13と、処理部14と、補正部15とは、実施の形態の情報処理装置10が備えるものと同じである。遅延部16について以下で説明する。
 遅延部16は、ストリームに含まれる音信号を遅らせる遅延処理を実行する。遅延部16は、より具体的には、補正部15が補正によって第二位置姿勢情報に示される位置または姿勢の変化を遅らせた場合に、その遅らせた時間(遅延時間とも記載)で音信号を遅らせる遅延処理を施す。また、遅延部16は、遅延処理を施した音信号より後の音信号である後続信号に対して、遅延処理により生じた遅れを抑制する(または、遅延処理により生じた遅れを取り戻す)抑制処理を施す。
 遅延処理および抑制処理は、周知の話速変換技術によりなされ得る。話速変換技術によれば、再生される音の音程を変えずに再生速度を変更することができる(非特許文献1参照)。
 遅延部16が実行する遅延処理について図10を参照しながら説明する。
 図10は、本変形例におけるヨー角の変化と音信号の遅延とを示す説明図である。
 図10の(a)には、ユーザUの頭部のヨー角60の時間的変化と、補正部15による補正後のヨー角61の時間変化とが示されている。
 補正部15による補正によって、例えば、取得部12が時刻T12に取得したヨー角ψ2が、時刻T12より時間L2だけ遅れた時刻T12Aにおけるヨー角となるように補正されている。また、補正部15による補正によって、例えば、取得部12が時刻T13に取得したヨー角ψ3が、時刻T13より時間L3だけ遅れた時刻T13Aにおけるヨー角となるように補正されている。なお、取得部12が時刻T11および時刻T14に取得したヨー角ψ1およびψ4は、補正により変更されておらず、補正の前後で同一である。
 図10の(b)には、ストリームに含まれる音信号が示されている。具体的には、図10の(b)には、ストリームに含まれる音信号の例として、時刻T11に再生されるべき音信号71、時刻T12に再生されるべき音信号72、時刻T13に再生されるべき音信号73、および、時刻T14に再生されるべき音信号74が示されている。なお、ストリームには、上記の時刻以外の音信号も含まれ得る。
 図10の(c)には、遅延部16による遅延処理または抑制処理が施された後の音信号が示されている。具体的には、図10の(c)には、時刻T11に再生されるべき音信号71A、時刻T12に再生されるべき音信号72A、時刻T13に再生されるべき音信号73A、および、時刻T14に再生されるべき音信号74Aが示されている。
 音信号71Aは、補正前の音信号71と同じである。音信号71は、補正部15による補正がなされていないからである。
 音信号72Aは、補正前の音信号72が、時刻T12から時間L2だけ遅れて時刻T12Aに再生されるように遅延処理が施されたものである。補正部15により、時刻T12のヨー角ψ2が、時刻T12より時間L2だけ遅れた時刻T12Aにおけるヨー角となるように補正されたことに基づいて、遅延部16が音信号72に遅延処理を施したことによるものである。
 音信号73Aは、補正前の音信号73が、時刻T13から遅れて時刻T13Aに再生されるように遅延処理が施されたものである。補正部15により、時刻T13のヨー角ψ3が、時刻T13より時間L3だけ遅れた時刻T13Aにおけるヨー角となるように補正されたことに基づいて、遅延部16が音信号73に遅延処理を施したことによるものである。
 音信号74Aは、補正前の音信号74と同じである。音信号74は、補正部15による補正がなされていないからである。
 このように、遅延部16は、遅延時間が大きくなる傾向を有する期間P2においては、遅延時間を徐々に大きくしながら音信号に遅延を付与する。これは、音信号がゆっくり再生されていることに相当する。
 また、遅延部16は、遅延時間が小さくなる傾向を有する期間P3においては、遅延時間を徐々に小さくしながら音信号に遅延を付与する。これは、音信号が速く再生されていることに相当する。
 なお、遅延部16は、補正部15による補正が音信号に施されない期間P1およびP4については、遅延処理または抑制処理を実行しない。
 図11は、本変形例における情報処理装置10Aの処理を示すフロー図である。
 ステップS101~S103については、実施の形態の同名のステップと同じである。
 ステップS103Aにおいて、遅延部16は、音信号の遅延処理を実行する。なお、遅延部16は、既に音信号に遅延処理を施していた場合には、遅延処理を施した音信号より後の音信号である後続信号に対して、遅延処理により生じた遅れを抑制する抑制処理を施す。
 ステップS104において、処理部14は、ステップS103Aで遅延処理または抑制処理が施された後の位置または姿勢を用いて音信号に対して立体音響処理を施すことで、スピーカが出力すべき音信号を生成し出力する。出力された音信号は、スピーカに伝達され、音として出力され、ユーザUに聴取されることが想定される。
 これにより、情報処理装置10Aは、音源が出力する音の内容の聞き取りにくさを抑制するとともに、立体音響処理が施される音信号のタイミングの時間差を抑制することができる。
 以上のように、上記実施の形態または上記変形例における情報処理装置は、補正後のユーザの頭部の位置または姿勢を用いて立体音響処理を行うので、ユーザの頭部の位置または姿勢に比較的大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。これにより、ユーザが音を聴取して認識する音源の位置の大きな変化が抑制され、ユーザが、音源が出力する音の内容の聞き取りやすくなる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。
 また、情報処理装置は、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率が閾値を超える場合に、その変化率を閾値とするように位置または姿勢を示す情報を補正するので、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率を閾値以下にすることができる。その結果、ユーザの頭部の位置または姿勢に所定の基準を超える大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。
 また、情報処理装置は、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率が閾値を超える場合に、その変化を遅らせるように補正をするので、音源に対するユーザの頭部の位置または姿勢の変化速度の変化率を閾値以下にすることができる。その結果、ユーザの頭部の位置または姿勢に所定の基準を超える大きな変化があった場合に生じ得る、ユーザが聴取する音の比較的大きな変化を抑制することができる。このように、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさを抑制することができる。
 また、情報処理装置は、音源に対するユーザの頭部の位置または姿勢の時間に関する二階微分値を用いて、位置または姿勢の変化速度の変化率を容易に得ることができ、その変化率を用いて、ユーザの頭部の位置または姿勢を適切に補正することができる。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより容易に抑制することができる。
 また、情報処理装置は、人間の音声についての立体音響処理において、より小さな閾値を用いて補正をするので、音声について特に、音源に対するユーザの頭部の位置または姿勢の変化速度の大きな変化を抑制する。よって、上記情報処理方法によれば、音源が出力する人間の音声の内容の聞き取りにくさを、より一層抑制することができる。
 また、情報処理装置は、人間の音声でない音についての立体音響処理では、より大きな閾値を用いて補正をするので、音源に対するユーザの頭部の位置または姿勢の変化速度のより大きな変化を許容することで、ユーザの頭部の位置または姿勢の変化の遅延を小さくする。人間の音声と比較して、人間の音声でない音について、その内容を聞き取りやすくする必要性が低い場合に、立体音響処理の遅延を小さくすることができる利点がある。よって、上記情報処理方法によれば、立体音響処理の遅延を抑制しながら、音源が出力する音の内容を聞き取りにくさを抑制することができる。
 また、情報処理装置は、人間の音声でない音についての立体音響処理では、補正をしないので、ユーザの頭部の位置または姿勢の変化の遅延が生じない。人間の音声と比較して、人間の音声でない音について、その内容を聞き取りやすくする必要性が低い場合に、立体音響処理の遅延をより一層小さくすることができる利点がある。よって、上記情報処理方法によれば、立体音響処理の遅延を抑制しながら、音源が出力する音の内容を聞き取りにくさを抑制することができる。
 また、情報処理装置は、補正によって第二位置姿勢情報に示される位置または姿勢の変化を遅らせた遅延時間で音信号を遅らせるので、ユーザの頭部の位置または姿勢に基づく立体音響処理と、その立体音響処理が施されるべき音信号とに生じ得る時間差を抑制することができる。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより一層抑制することができる。
 また、情報処理装置は、遅延処理によって遅延させた音信号の遅延を、抑制処理によって取り戻すことに寄与する。よって、上記情報処理方法によれば、音源が出力する音の内容の聞き取りにくさをより一層抑制することができる。
 なお、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の情報処理装置などを実現するソフトウェアは、次のようなプログラムである。
 すなわち、このプログラムは、コンピュータに、音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する情報処理方法を実行させるプログラムである。
 以上、一つまたは複数の態様に係る情報処理装置などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
 本発明は、立体音響処理を行う情報処理装置に利用可能である。
  5  音源
 10、10A  情報処理装置
 11  復号部
 12  取得部
 13  調整部
 14  処理部
 15  補正部
 16  遅延部
 30、31、32  角度範囲
 51、52、53、54、55、56  波形
 60、61、62  ヨー角
 71、71A、72、72A、73、73A、74、74A  音信号
  P1、P2、P3、P4  期間
  S  空間
  U  ユーザ

Claims (11)

  1.  音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得し、
     ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得し、
     前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する
     情報処理方法。
  2.  前記補正では、
     前記変化率が閾値を超える場合に、当該補正後の前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率が前記閾値となるように、前記第二位置姿勢情報を補正する
     請求項1に記載の情報処理方法。
  3.  前記補正では、
     前記変化率が閾値を超える場合に、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢より遅れた前記位置または前記姿勢を、当該補正後の前記第二位置姿勢情報が示すように、前記第二位置姿勢情報を補正する
     請求項1または2に記載の情報処理方法。
  4.  前記位置または前記姿勢の変化速度の変化率は、前記位置または前記姿勢の、時間に関する二階微分値である
     請求項2または3に記載の情報処理方法。
  5.  前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
     前記補正では、
     前記音信号が示す前記音が人間の音声であることが前記種別情報に示されている場合に、前記閾値を、より小さな値に変更してから前記補正をする
     請求項2~4のいずれか1項に記載の情報処理方法。
  6.  前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
     前記補正では、
     前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記閾値を、より大きな値に変更してから前記補正をする
     請求項2~5のいずれか1項に記載の情報処理方法。
  7.  前記ストリームは、前記音信号が示す前記音が人間の音声であるか否かを示す種別情報をさらに含み、
     前記補正では、
     前記音信号が示す前記音が人間の音声でないことが前記種別情報に示されている場合に、前記補正を禁止する
     請求項1~6のいずれか1項に記載の情報処理方法。
  8.  前記補正では、さらに、
     前記補正によって前記第二位置姿勢情報に示される前記位置または前記姿勢の変化を遅らせた時間である遅延時間で前記音信号を遅らせる遅延処理を施す
     請求項3に記載の情報処理方法。
  9.  前記補正では、さらに、
     前記遅延処理を施した前記音信号より後の音信号である後続信号に対して、前記遅延処理により生じた遅れを抑制する抑制処理を施す
     請求項8に記載の情報処理方法。
  10.  音源の位置および姿勢を示す第一位置姿勢情報と、前記音源が出力する音を示す音信号とを含むストリームを取得する復号部と、
     ユーザの頭部の位置および姿勢を示す第二位置姿勢情報を取得する取得部と、
     前記第一位置姿勢情報に示される前記音源の前記位置または前記姿勢に対する、取得した前記第二位置姿勢情報に示される前記位置または前記姿勢の変化速度の変化率を小さくする補正を行うことで、前記第一位置姿勢情報と前記第二位置姿勢情報とを用いた前記音信号に対する立体音響処理に用いられる前記第二位置姿勢情報を取得する補正部とを備える
     情報処理装置。
  11.  請求項1~9のいずれか1項に記載の情報処理方法をコンピュータに実行させるプログラム。
PCT/JP2022/003592 2021-04-12 2022-01-31 情報処理方法、情報処理装置、および、プログラム WO2022219881A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202280024856.5A CN117121511A (zh) 2021-04-12 2022-01-31 信息处理方法、信息处理装置、以及程序
EP22787809.7A EP4325896A1 (en) 2021-04-12 2022-01-31 Information processing method, information processing device, and program
JP2023514345A JPWO2022219881A1 (ja) 2021-04-12 2022-01-31
US18/374,164 US20240031762A1 (en) 2021-04-12 2023-09-28 Information processing method, information processing device, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163173659P 2021-04-12 2021-04-12
US63/173,659 2021-04-12
JP2021-198497 2021-12-07
JP2021198497 2021-12-07

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/374,164 Continuation US20240031762A1 (en) 2021-04-12 2023-09-28 Information processing method, information processing device, and recording medium

Publications (1)

Publication Number Publication Date
WO2022219881A1 true WO2022219881A1 (ja) 2022-10-20

Family

ID=83639533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/003592 WO2022219881A1 (ja) 2021-04-12 2022-01-31 情報処理方法、情報処理装置、および、プログラム

Country Status (4)

Country Link
US (1) US20240031762A1 (ja)
EP (1) EP4325896A1 (ja)
JP (1) JPWO2022219881A1 (ja)
WO (1) WO2022219881A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112900A (ja) * 1987-10-26 1989-05-01 Sony Corp ヘッドホン装置
US20050271212A1 (en) * 2002-07-02 2005-12-08 Thales Sound source spatialization system
WO2007077696A1 (ja) * 2005-12-28 2007-07-12 Konami Digital Entertainment Co., Ltd. 音声処理装置、音声処理方法、プログラム、ならびに、情報記録媒体
US20180091922A1 (en) * 2016-09-23 2018-03-29 Apple Inc. Coordinated tracking for binaural audio rendering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112900A (ja) * 1987-10-26 1989-05-01 Sony Corp ヘッドホン装置
US20050271212A1 (en) * 2002-07-02 2005-12-08 Thales Sound source spatialization system
WO2007077696A1 (ja) * 2005-12-28 2007-07-12 Konami Digital Entertainment Co., Ltd. 音声処理装置、音声処理方法、プログラム、ならびに、情報記録媒体
US20180091922A1 (en) * 2016-09-23 2018-03-29 Apple Inc. Coordinated tracking for binaural audio rendering

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Real time voice speed converting system with small impairments", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 50, no. 7, 1994, pages 509 - 520

Also Published As

Publication number Publication date
JPWO2022219881A1 (ja) 2022-10-20
US20240031762A1 (en) 2024-01-25
EP4325896A1 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
US10812925B2 (en) Audio processing device and method therefor
US9918177B2 (en) Binaural headphone rendering with head tracking
US20180359594A1 (en) Sound processing apparatus, method, and program
US10708705B2 (en) Audio processing method and audio processing apparatus
WO2022061342A2 (en) Methods and systems for determining position and orientation of a device using acoustic beacons
CN110890100B (zh) 语音增强、多媒体数据采集、播放方法、装置及监控系统
WO2022219881A1 (ja) 情報処理方法、情報処理装置、および、プログラム
WO2021187147A1 (ja) 音響再生方法、プログラム、及び、音響再生システム
WO2022196135A1 (ja) 情報処理方法、情報処理装置、および、プログラム
CN117121511A (zh) 信息处理方法、信息处理装置、以及程序
CN116965064A (zh) 信息处理方法、信息处理装置、以及程序
JP6303519B2 (ja) 音響再生装置および音場補正プログラム
JP2011188444A (ja) ヘッドトラッキング装置および制御プログラム
WO2023106070A1 (ja) 音響処理装置、音響処理方法、及び、プログラム
TW201914315A (zh) 穿戴式音訊處理裝置及其音訊處理方法
US20240089687A1 (en) Spatial audio adjustment for an audio device
JP6907863B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2022131067A (ja) 音声信号処理装置、立体音響システムおよび音声信号処理方法
TW202431868A (zh) 用於音訊設備的空間音訊調節
WO2023122282A1 (en) Determination of movement direction
JP2024056580A (ja) 情報処理装置及びその制御方法及びプログラム
JP2023121744A (ja) 立体音響再生装置
JP2007166126A (ja) 音像提示方法および音像提示装置
RU2020130112A (ru) Способы, аппараты и системы для расширения трех степеней свободы (3dof+) mpeg-h 3d audio
JP2007318188A (ja) 音像提示方法および音像提示装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22787809

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023514345

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2022787809

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022787809

Country of ref document: EP

Effective date: 20231113