JPWO2017119318A1 - 音声処理装置および方法、並びにプログラム - Google Patents

音声処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JPWO2017119318A1
JPWO2017119318A1 JP2017560106A JP2017560106A JPWO2017119318A1 JP WO2017119318 A1 JPWO2017119318 A1 JP WO2017119318A1 JP 2017560106 A JP2017560106 A JP 2017560106A JP 2017560106 A JP2017560106 A JP 2017560106A JP WO2017119318 A1 JPWO2017119318 A1 JP WO2017119318A1
Authority
JP
Japan
Prior art keywords
head
related transfer
transfer function
harmonic
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017560106A
Other languages
English (en)
Other versions
JP6834985B2 (ja
Inventor
哲 曲谷地
哲 曲谷地
祐基 光藤
祐基 光藤
悠 前野
悠 前野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017119318A1 publication Critical patent/JPWO2017119318A1/ja
Application granted granted Critical
Publication of JP6834985B2 publication Critical patent/JP6834985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、より効率よく音声を再生することができるようにする音声処理装置および方法、並びにプログラムに関する。
頭部伝達関数合成部は、対角化された頭部伝達関数の行列を予め保持している。頭部伝達関数合成部は、音声を再生するための環状調和領域の入力信号と、予め保持している、対角化された頭部伝達関数とを合成する。環状調和逆変換部は、頭部伝達関数合成部による合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する。本技術は音声処理装置に適用することができる。

Description

本技術は音声処理装置および方法、並びにプログラムに関し、特に、より効率よく音声を再生することができるようにした音声処理装置および方法、並びにプログラムに関する。
近年、音声の分野において全周囲からの空間情報を収録、伝送、および再生する系の開発や普及が進んできている。例えばスーパーハイビジョンにおいては22.2チャネルの3次元マルチチャネル音響での放送が計画されている。
また、バーチャルリアリティの分野においても全周囲を取り囲む映像に加え、音声においても全周囲を取り囲む信号を再生するものが世の中に出回りつつある。
その中でアンビソニックスと呼ばれる、任意の収録再生系に柔軟に対応可能な3次元音声情報の表現手法が存在し、注目されている。特に次数が2次以上となるアンビソニックスは高次アンビソニックス(HOA(Higher Order Ambisonics))と呼ばれている(例えば、非特許文献1参照)。
3次元のマルチチャネル音響においては、音の情報は時間軸に加えて空間軸に広がっており、アンビソニックスでは3次元極座標の角度方向に関して周波数変換、すなわち球面調和関数変換を行って情報を保持している。また、水平面のみを考えれば、環状調和関数変換が行われている。球面調和関数変換や環状調和関数変換は、音声信号の時間軸に対する時間周波数変換に相当するものと考えることができる。
この方法の利点としては、マイクロホンの数やスピーカの数を限定せずに任意のマイクロホンアレイから任意のスピーカアレイに対して情報をエンコードおよびデコードすることができることにある。
一方で、アンビソニックスの普及を妨げる要因としては、再生環境に大量のスピーカからなるスピーカアレイが必要とされることや、音空間が再現できる範囲(スイートスポット)が狭いことが挙げられる。
例えば音の空間解像度を上げようとすると、より多くのスピーカからなるスピーカアレイが必要となるが、家庭などでそのようなシステムを作ることは非現実的である。また、映画館のような空間では音空間を再現できるエリアが狭く、全ての観客に対して所望の効果を与えることは困難である。
Jerome Daniel, Rozenn Nicol, Sebastien Moreau, "Further Investigations of High Order Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging," AES 114th Convention, Amsterdam, Netherlands, 2003.
そこで、アンビソニックスとバイノーラル再生技術とを組み合わせることが考えられる。バイノーラル再生技術は、一般に聴覚ディスプレイ(VAD(Virtual Auditory Display))と呼ばれており、頭部伝達関数(HRTF(Head-Related Transfer Function))が用いられて実現される。
ここで、頭部伝達関数とは、人間の頭部を取り囲むあらゆる方向から両耳鼓膜までの音の伝わり方に関する情報を周波数と到来方向の関数として表現したものである。
目的となる音声に対してある方向からの頭部伝達関数を合成したものをヘッドホンで提示した場合、聴取者にとってはヘッドホンからではなく、その用いた頭部伝達関数の方向から音が到来しているかのように知覚される。VADは、このような原理を利用したシステムである。
VADを用いて仮想的なスピーカを複数再現すれば、現実には困難な多数のスピーカからなるスピーカアレイシステムでのアンビソニックスと同じ効果を、ヘッドホン提示で実現することが可能となる。
しかしながら、このようなシステムでは、十分効率的に音声を再生することができなかった。例えば、アンビソニックスとバイノーラル再生技術とを組み合わせた場合、頭部伝達関数の畳み込み演算等の演算量が多くなるだけでなく、演算等に用いるメモリの使用量も多くなってしまう。
本技術は、このような状況に鑑みてなされたものであり、より効率よく音声を再生することができるようにするものである。
本技術の一側面の音声処理装置は、環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成する頭部伝達関数合成部と、前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する環状調和逆変換部とを備える。
前記頭部伝達関数合成部には、複数の頭部伝達関数からなる行列を環状調和関数変換により対角化して得られた対角行列と、環状調和関数の各次数に対応する前記入力信号からなるベクトルとの積を求めさせることで、前記入力信号と前記対角化された頭部伝達関数とを合成させることができる。
前記頭部伝達関数合成部には、前記対角行列の対角成分のうちの時間周波数ごとに設定可能な所定の前記次数の要素のみを用いて、前記入力信号と前記対角化された頭部伝達関数との合成を行わせることができる。
前記対角行列には、各ユーザで共通して用いられる前記対角化された頭部伝達関数が要素として含まれているようにすることができる。
前記対角行列には、ユーザ個人に依存する前記対角化された頭部伝達関数が要素として含まれているようにすることができる。
音声処理装置には、前記対角行列を構成する、各ユーザで共通する前記対角化された頭部伝達関数を予め保持するとともに、ユーザ個人に依存する前記対角化された頭部伝達関数を取得して、取得した前記対角化された頭部伝達関数と、予め保持している前記対角化された頭部伝達関数とから前記対角行列を生成する行列生成部をさらに設けることができる。
前記環状調和逆変換部には、各方向の環状調和関数からなる環状調和関数行列を保持させ、前記環状調和関数行列の所定方向に対応する行に基づいて、前記環状調和逆変換を行わせることができる。
音声処理装置には、前記ヘッドホン駆動信号に基づく音声を聴取するユーザの頭部の方向を取得する頭部方向取得部をさらに設け、前記環状調和逆変換部には、前記環状調和関数行列における前記ユーザの頭部の方向に対応する行に基づいて、前記環状調和逆変換を行わせることができる。
音声処理装置には、前記ユーザの頭部の回転を検出する頭部方向センサ部をさらに設け、前記頭部方向取得部には、前記頭部方向センサ部による検出結果を取得させることで、前記ユーザの頭部の方向を取得させることができる。
音声処理装置には、前記ヘッドホン駆動信号を時間周波数逆変換する時間周波数逆変換部をさらに設けることができる。
本技術の一側面の音声処理方法またはプログラムは、環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成するステップを含む。
本技術の一側面においては、環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とが合成され、前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号が生成される。
本技術の一側面によれば、より効率よく音声を再生することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
頭部伝達関数を用いた立体音響のシミュレートについて説明する図である。 一般的な音声処理装置の構成を示す図である。 一般手法による駆動信号の算出について説明する図である。 ヘッドトラッキング機能を追加した音声処理装置の構成を示す図である。 ヘッドトラッキング機能を追加した場合の駆動信号の算出について説明する図である。 提案手法による駆動信号の算出について説明する図である。 提案手法と拡張手法の駆動信号算出時の演算について説明する図である。 本技術を適用した音声処理装置の構成例を示す図である。 駆動信号生成処理を説明するフローチャートである。 次数切り捨てによる演算量削減について説明する図である。 提案手法と一般手法の演算量と必要メモリ量について説明する図である。 頭部伝達関数の行列の生成について説明する図である。 次数切り捨てによる演算量削減について説明する図である。 次数切り捨てによる演算量削減について説明する図である。 本技術を適用した音声処理装置の構成例を示す図である。 駆動信号生成処理を説明するフローチャートである。 仮想的なスピーカの配置について説明する図である。 仮想的なスピーカの配置について説明する図である。 仮想的なスピーカの配置について説明する図である。 仮想的なスピーカの配置について説明する図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、ある平面における頭部伝達関数自体を2次元極座標の関数ととらえ、同様に環状調和関数変換を行って、球面調和領域または環状調和領域の音声信号である入力信号のスピーカアレイ信号へのデコードを介さずに環状調和領域において入力信号と頭部伝達関数との合成を行うことで、演算量やメモリ使用量においてより効率のよい再生系を実現するものである。
例えば、球座標上での関数f(θ,φ)に対しての球面調和関数変換は、次式(1)で表される。また、2次元極座標上での関数f(φ)に対しての環状調和関数変換は、次式(2)で表される。
Figure 2017119318
Figure 2017119318
式(1)においてθおよびφは、それぞれ球座標における仰角および水平角を示しており、Yn m(θ,φ)は球面調和関数を示している。また、球面調和関数Yn m(θ,φ)上部に「−」が記されているものは、球面調和関数Yn m(θ,φ)の複素共役を表している。
また、式(2)においてφは、2次元極座標における水平角を示しており、Ym(φ)は環状調和関数を示している。環状調和関数Ym(φ)上部に「−」が記されているものは、環状調和関数Ym(φ)の複素共役を表している。
ここで球面調和関数Yn m(θ,φ)は、以下の式(3)により表される。また、環状調和関数Ym(φ)は、以下の式(4)により表される。
Figure 2017119318
Figure 2017119318
式(3)においてnおよびmは球面調和関数Yn m(θ,φ)の次数を示しており、−n≦m≦nである。また、jは純虚数を示しており、Pn m(x)は次式(5)で表されるルジャンドル陪関数である。同様に、式(4)においてmは環状調和関数Ym(φ)の次数を示しており、jは純虚数を示している。
Figure 2017119318
また、球面調和関数変換された関数Fn mから2次元極座標上の関数f(φ)への逆変換は次式(6)に示すようになる。さらに環状調和関数変換された関数Fmから2次元極座標上の関数f(φ)への逆変換は次式(7)に示すようになる。
Figure 2017119318
Figure 2017119318
以上のことから球面調和領域で保持される、半径方向の補正を行った後の音声の入力信号D’n m(ω)から、半径Rの円上に配置されたL個の各スピーカのスピーカ駆動信号S(xi,ω)への変換は、次式(8)に示すようになる。
Figure 2017119318
なお、式(8)においてxiはスピーカの位置を示しており、ωは音信号の時間周波数を示している。入力信号D’n m(ω)は、所定の時間周波数ωについての球面調和関数の各次数nおよび次数mに対応する音声信号であり、式(8)の計算では、入力信号D’n m(ω)のうちの|m|=nとなる要素のみが用いられている。すなわち、入力信号D’n m(ω)のうちの環状調和領域に対応するもののみが用いられている。
また、環状調和領域で保持される、半径方向の補正を行った後の音声の入力信号D’m(ω)から、半径Rの円上に配置されたL個の各スピーカのスピーカ駆動信号S(xi,ω)への変換は、次式(9)に示すようになる。
Figure 2017119318
なお、式(9)においてxiはスピーカの位置を示しており、ωは音信号の時間周波数を示している。入力信号D’m(ω)は、所定の時間周波数ωについての環状調和関数の各次数mに対応する音声信号である。
また、式(8)および式(9)における位置xiは、xi=(Rcosαi,Rsinαitであり、iはスピーカを特定するスピーカインデックスを示している。ここで、i=1,2,…,Lであり、αiはi番目のスピーカの位置を示す水平角を表している。
このような式(8)および式(9)により示される変換は、式(6)および式(7)に対応する環状調和逆変換である。また、式(8)や式(9)によりスピーカ駆動信号S(xi,ω)を求める場合、再現スピーカの数であるスピーカ数Lと、環状調和関数の次数N、つまり次数mの最大値Nとは次式(10)に示す関係を満たす必要がある。なお、以降においては、入力信号が環状調和領域の信号である場合について説明するが、入力信号が球面調和領域の信号であっても、その入力信号D’n m(ω)のうちの|m|=nとなる要素のみを用いることにより、同様の処理で同じ効果を得ることができる。すなわち、球面調和領域の入力信号についても環状調和領域の入力信号における場合と同じ議論が成立する。
Figure 2017119318
ところで、ヘッドホン提示により耳元で立体音響をシミュレートする手法として一般的なものは、例えば図1に示すように頭部伝達関数を用いた方法である。
図1に示す例では、入力されたアンビソニックス信号がデコードされて、複数の仮想的なスピーカである仮想スピーカSP11-1乃至仮想スピーカSP11-8のそれぞれのスピーカ駆動信号が生成される。このときデコードされる信号は、例えば上述した入力信号D’n m(ω)や入力信号D’m(ω)に対応する。
ここでは、各仮想スピーカSP11-1乃至仮想スピーカSP11-8が環状に並べられて仮想的に配置されており、各仮想スピーカのスピーカ駆動信号は、上述した式(8)または式(9)の計算により求められる。なお、以下、仮想スピーカSP11-1乃至仮想スピーカSP11-8を特に区別する必要のない場合、単に仮想スピーカSP11とも称することとする。
このようにして各仮想スピーカSP11のスピーカ駆動信号が得られると、それらの仮想スピーカSP11ごとに、実際に音声を再生するヘッドホンHD11の左右の駆動信号(バイノーラル信号)が頭部伝達関数を用いた畳み込み演算により生成される。そして、仮想スピーカSP11ごとに得られたヘッドホンHD11の各駆動信号の和が最終的な駆動信号とされる。
なお、このような手法は、例えば「ADVANCED SYSTEM OPTIONS FOR BINAURAL RENDERING OF AMBISONIC FORMAT(Gerald Enzner et. al. ICASSP 2013)」などに詳細に記載されている。
ヘッドホンHD11の左右の駆動信号の生成に用いられる頭部伝達関数H(x,ω)は、自由空間内において聴取者であるユーザの頭部が存在する状態での音源位置xから、ユーザの鼓膜位置までの伝達特性H1(x,ω)を、頭部が存在しない状態での音源位置xから頭部中心Oまでの伝達特性H0(x,ω)で正規化したものである。すなわち、音源位置xについての頭部伝達関数H(x,ω)は、次式(11)により得られるものである。
Figure 2017119318
ここで、頭部伝達関数H(x,ω)を任意の音声信号に畳み込み、ヘッドホンなどにより提示することで、聴取者に対してあたかも畳み込んだ頭部伝達関数H(x,ω)の方向、つまり音源位置xの方向から音が聞こえてくるかのような錯覚を与えることができる。
図1に示した例では、このような原理が用いられてヘッドホンHD11の左右の駆動信号が生成される。
具体的には各仮想スピーカSP11の位置を位置xiとし、それらの仮想スピーカSP11のスピーカ駆動信号をS(xi,ω)とする。
また、仮想スピーカSP11の数をL(ここではL=8)とし、ヘッドホンHD11の最終的な左右の駆動信号を、それぞれPlおよびPrとする。
この場合、スピーカ駆動信号S(xi,ω)をヘッドホンHD11提示でシミュレートすると、ヘッドホンHD11の左右の駆動信号Plおよび駆動信号Prは、次式(12)を計算することにより求めることができる。
Figure 2017119318
なお、式(12)において、Hl(xi,ω)およびHr(xi,ω)は、それぞれ仮想スピーカSP11の位置xiから聴取者の左右の鼓膜位置までの正規化された頭部伝達関数を示している。
このような演算により、環状調和領域の入力信号D’m(ω)を、最終的にヘッドホン提示で再生することが可能となる。すなわち、アンビソニックスと同じ効果をヘッドホン提示で実現することが可能となる。
以上のようにして、アンビソニックスとバイノーラル再生技術とを組み合わせる一般的な手法(以下、一般手法とも称する)によって、入力信号からヘッドホンの左右の駆動信号を生成する音声処理装置は、図2に示す構成とされる。
すなわち、図2に示す音声処理装置11は、環状調和逆変換部21、頭部伝達関数合成部22、および時間周波数逆変換部23からなる。
環状調和逆変換部21は、入力された入力信号D’m(ω)に対して、式(9)を計算することで環状調和逆変換を行い、その結果得られた仮想スピーカSP11のスピーカ駆動信号S(xi,ω)を頭部伝達関数合成部22に供給する。
頭部伝達関数合成部22は、環状調和逆変換部21からのスピーカ駆動信号S(xi,ω)と、予め用意された頭部伝達関数Hl(xi,ω)および頭部伝達関数Hr(xi,ω)とから、式(12)によりヘッドホンHD11の左右の駆動信号Plおよび駆動信号Prを生成し、出力する。
さらに、時間周波数逆変換部23は、頭部伝達関数合成部22から出力された時間周波数領域の信号である駆動信号Plおよび駆動信号Prに対して、時間周波数逆変換を行い、その結果得られた時間領域の信号である駆動信号pl(t)および駆動信号pr(t)を、ヘッドホンHD11に供給して音声を再生させる。
なお、以下では、時間周波数ωについての駆動信号Plおよび駆動信号Prを特に区別する必要のない場合、単に駆動信号P(ω)とも称し、駆動信号pl(t)および駆動信号pr(t)を特に区別する必要のない場合、単に駆動信号p(t)とも称する。また、頭部伝達関数Hl(xi,ω)および頭部伝達関数Hr(xi,ω)を特に区別する必要のない場合、単に頭部伝達関数H(xi,ω)とも称する。
音声処理装置11では、1×1、つまり1行1列の駆動信号P(ω)を得るために、例えば図3に示す演算が行われる。
図3では、H(ω)は、L個の頭部伝達関数H(xi,ω)からなる1×Lのベクトル(行列)を表している。また、D’(ω)は入力信号D’m(ω)からなるベクトルを表しており、時間周波数ωのビンの入力信号D’m(ω)の数をKとすると、ベクトルD’(ω)はK×1となる。さらにYαは、各次数の環状調和関数Ymi)からなる行列を表しており、行列YαはL×Kの行列となる。
したがって、音声処理装置11では、L×Kの行列YαとK×1のベクトルD’(ω)との行列演算から得られる行列Sが求められ、さらに行列Sと1×Lのベクトル(行列)H(ω)との行列演算が行われて、1つの駆動信号P(ω)が得られることになる。
また、ヘッドホンHD11を装着した聴取者の頭部が、2次元極座標の水平角により表される所定方向φjの方向に回転した場合、例えばヘッドホンHD11の左ヘッドホンの駆動信号Plj,ω)は、次式(13)に示すようになる。
Figure 2017119318
なお、式(13)において、駆動信号Plj,ω)は上述した駆動信号Plを示しており、ここでは位置、つまり方向φjと時間周波数ωを明確にするために駆動信号Plj,ω)と記されている。また、式(13)における行列u(φj)は、角度φjだけ回転を行う回転行列である。したがって、例えば所定の角度をφj=θとすると、行列u(φj)、つまり行列u(θ)は角度θだけ回転を行う回転行列であり、次式(14)で表される。
Figure 2017119318
一般的な音声処理装置11に対して、さらに例えば図4に示すように聴取者の頭部の回転方向を特定するための構成、すなわちヘッドトラッキング機能の構成を追加すれば、聴取者からみた音像位置を空間内に固定させることができる。なお、図4において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図4に示す音声処理装置11では、図2に示した構成に、さらに頭部方向センサ部51および頭部方向選択部52が設けられている。
頭部方向センサ部51は、聴取者であるユーザの頭部の回転を検出し、その検出結果を頭部方向選択部52に供給する。頭部方向選択部52は、頭部方向センサ部51からの検出結果に基づいて、聴取者の頭部の回転方向、つまり回転後の聴取者の頭部の方向を方向φjとして求め、頭部伝達関数合成部22に供給する。
この場合、頭部伝達関数合成部22は、頭部方向選択部52から供給された方向φjに基づいて、予め用意している複数の頭部伝達関数のうち、聴取者の頭部からみた各仮想スピーカSP11の相対的な座標u(φj)-1xiの頭部伝達関数を用いてヘッドホンHD11の左右の駆動信号を算出する。これにより、実スピーカを用いた場合と同様に、ヘッドホンHD11により音声を再生する場合においても、聴取者から見た音像位置を空間内で固定することができる。
以上において説明した一般手法や、一般手法にさらにヘッドトラッキング機能を追加した手法によりヘッドホンの駆動信号を生成すれば、スピーカアレイを用いることなく、また音空間が再現できる範囲が限定されてしまうことなく環状配置されたアンビソニックスと同じ効果を得ることができる。しかしながら、これらの手法では、頭部伝達関数の畳み込み演算等の演算量が多くなるだけでなく、演算等に用いるメモリの使用量も多くなってしまう。
そこで、本技術では、一般手法では時間周波数領域にて行われていた頭部伝達関数の畳み込みを、環状調和領域において行うようにした。これにより、畳み込みの演算量や必要メモリ量を低減させ、より効率よく音声を再生することができる。
それでは、以下、本技術による手法について説明する。
例えば左ヘッドホンに注目すると、聴取者であるユーザ(リスナ)の頭部の全回転方向に対する左ヘッドホンの各駆動信号Plj,ω)からなるベクトルPl(ω)は、次式(15)に示すように表される。
Figure 2017119318
なお、式(15)において、S(ω)はスピーカ駆動信号S(xi,ω)からなるベクトルであり、S(ω)=YαD’(ω)である。また、式(15)においてYαは以下の式(16)により示される、各次数および各仮想スピーカの角度αiの環状調和関数Ymi)からなる行列を表している。ここで、i=1,2,…,Lであり、次数mの最大値(最大次数)はNである。
D’(ω)は以下の式(17)により示される、各次数に対応する音声の入力信号D’m(ω)からなるベクトル(行列)を表している。各入力信号D’m(ω)は環状調和領域の信号である。
さらに、式(15)において、H(ω)は、以下の式(18)により示される、聴取者の頭部の方向が方向φjである場合における、聴取者の頭部からみた各仮想スピーカの相対的な座標u(φj)-1xiの頭部伝達関数H(u(φj)-1xi,ω)からなる行列を表している。この例では、方向φ1乃至方向φMの合計M個の方向について、各仮想スピーカの頭部伝達関数H(u(φj)-1xi,ω)が用意されている。
Figure 2017119318
Figure 2017119318
Figure 2017119318
聴取者の頭部が方向φjを向いているときの左ヘッドホンの駆動信号Plj,ω)の算出にあたっては、頭部伝達関数の行列H(ω)のうち、聴取者の頭部の向きである方向φjに対応する行、つまり頭部伝達関数H(u(φj)-1xi,ω)の行を選択して式(15)の計算を行なえばよい。
この場合、例えば図5に示すように必要な行のみ計算が行われる。
この例では、M個の各方向について頭部伝達関数が用意されているので、式(15)に示した行列計算は、矢印A11に示すようになる。
すなわち、時間周波数ωの入力信号D’m(ω)の数をKとすると、ベクトルD’(ω)はK×1、つまりK行1列の行列となる。また、環状調和関数の行列YαはL×Kとなり、行列H(ω)はM×Lとなる。したがって、式(15)の計算では、ベクトルPl(ω)はM×1となる。
ここで、行列YαとベクトルD’(ω)との行列演算(積和演算)を行ってベクトルS(ω)を求めると、駆動信号Plj,ω)の算出時には、矢印A12に示すように行列H(ω)のうち、聴取者の頭部の方向φjに対応する行を選択し、演算量を削減することができる。図5では、行列H(ω)における斜線の施された部分が、方向φjに対応する行を表しており、この行とベクトルS(ω)との演算が行われ、左ヘッドホンの所望の駆動信号Plj,ω)が算出される。
ここで、方向φ1乃至方向φMの合計M個の各方向についての入力信号D’m(ω)に対応する環状調和関数からなるM×Kの行列をYφとするものとする。つまり、各方向φ1乃至方向φMについての環状調和関数Ym1)乃至環状調和関数YmM)からなる行列をYφとする。また、その行列Yφのエルミート転置行列をYφ Hとする。
このとき、次式(19)に示すように行列H’(ω)を定義すると、式(15)に示したベクトルPl(ω)は以下の式(20)で表すことができる。
Figure 2017119318
Figure 2017119318
なお、式(20)において、ベクトルB’(ω)=H’(ω)D’(ω)である。
式(19)では、環状調和関数変換によって、頭部伝達関数、より詳細には時間周波数領域の頭部伝達関数からなる行列H(ω)を対角化する計算が行われている。また、式(20)の計算では、環状調和領域においてスピーカ駆動信号と頭部伝達関数の畳み込みが行われていることが分かる。なお、行列H’(ω)は事前に計算して保持しておくことが可能である。
この場合においても、聴取者の頭部が方向φjを向いているときの左ヘッドホンの駆動信号Plj,ω)の算出にあたっては、環状調和関数の行列Yφのうち、聴取者の頭部の方向φjに対応する行、つまり環状調和関数Ymj)からなる行を選択して式(20)の計算を行なえばよいことになる。
ここで、行列H(ω)の対角化が可能であれば、すなわち上述した式(19)により十分に行列H(ω)が対角化されれば、左ヘッドホンの駆動信号Plj,ω)を算出する際の計算は、次式(21)に示す計算のみとなる。これにより、大幅に演算量および必要メモリ量を削減することができる。なお、以下では、行列H(ω)の対角化が可能であり、行列H’(ω)が対角行列であるものとして説明を続ける。
Figure 2017119318
式(21)において、H’m(ω)は対角行列である行列H’(ω)の1つの要素、つまり行列H’(ω)における頭部の方向φjに対応する成分(要素)となる環状調和領域の頭部伝達関数を示している。頭部伝達関数H’m(ω)におけるmは、環状調和関数の次数mを示している。
同様にYmj)は、行列Yφのうちの頭部の方向φjに対応する行の1つの要素となる環状調和関数を示している。
このような式(21)に示す演算では、図6に示すように演算量が削減されている。すなわち、式(20)に示した計算は、図6の矢印A21に示すようにM×Kの行列Yφ、K×Mの行列Yφ H、M×Lの行列H(ω)、L×Kの行列Yα、およびK×1のベクトルD’(ω)の行列演算となっている。
ここで、式(19)で定義したようにYφ HH(ω)Yαが行列H’(ω)であるから、矢印A21に示した計算は、結局、矢印A22に示すようになる。特に、行列H’(ω)を求める計算は、オフラインで、つまり事前に行うことが可能であるので、行列H’(ω)を予め求めて保持しておけば、その分だけオンラインでヘッドホンの駆動信号を求めるときの演算量を削減することが可能である。
また、式(19)の計算、つまり行列H’(ω)を求める計算では、行列H(ω)の対角化が行われる。そのため、矢印A22に示すように行列H’(ω)はK×Kの行列であるが、対角化によって、実質的には斜線部分で表される対角成分のみの行列となる。つまり、行列H’(ω)では、対角成分以外の要素の値は0となり、その後の演算量を大幅に削減することができる。
このように予め行列H’(ω)が求められると、実際にヘッドホンの駆動信号を求めるときには、矢印A22および矢印A23に示す計算、つまり上述した式(21)の計算が行われることになる。
すなわち、矢印A22に示すように行列H’(ω)と、入力された入力信号D’m(ω)からなるベクトルD’(ω)とに基づいて、オンラインでK×1のベクトルB’(ω)が算出される。
そして、矢印A23に示すように行列Yφのうち、聴取者の頭部の方向φjに対応する行が選択されて、その選択された行と、ベクトルB’(ω)との行列演算により、左ヘッドホンの駆動信号Plj,ω)が算出される。図6では、行列Yφにおける斜線の施された部分が、方向φjに対応する行を表しており、この行を構成する要素が式(21)に示した環状調和関数Ymj)となる。
〈本技術による演算量等の削減について〉
ここで、図7を参照して、以上において説明した本技術による手法(以下、提案手法とも称する)と、一般手法にヘッドトラッキング機能を追加した手法(以下、拡張手法とも称する)との積和演算量および必要メモリ量の比較を行う。
例えばベクトルD’(ω)の長さをKとし、頭部伝達関数の行列H(ω)をM×Lとすると、環状調和関数の行列YαはL×Kとなり、行列YφはM×Kとなり、行列H’(ω)はK×Kとなる。
ここで、拡張手法では、図7の矢印A31に示すように、各時間周波数ωのビン(以下、時間周波数ビンωとも称する)に対して、ベクトルD’(ω)を時間周波数領域に変換する過程でL×Kの積和演算が発生し、左右の頭部伝達関数との畳み込みで2Lだけ積和演算が発生する。
したがって、拡張手法における場合の積和演算回数の合計は、(L×K+2L)となる。
また、積和演算の各係数が1バイトであるとすると、拡張手法による演算時に必要となるメモリ量は、各時間周波数ビンωに対して、(保持する頭部伝達関数の方向数)×2バイトであるが、保持する頭部伝達関数の方向の数は、図7の矢印A31に示すようにM×Lとなる。さらに、全ての時間周波数ビンωに共通の環状調和関数の行列YαについてL×Kバイトだけメモリが必要となる。
したがって、時間周波数ビンωの数をWとすると、拡張手法における必要メモリ量は、合計で(2×M×L×W+L×K)バイトとなる。
これに対して、提案手法では、図7の矢印A32に示す演算が時間周波数ビンωごとに行われる。
すなわち、提案手法では、各時間周波数ビンωに対して、片耳につき環状調和領域でのベクトルD’(ω)と頭部伝達関数の行列H’(ω)との畳み込みでK×Kの積和演算が発生し、さらに時間周波数領域への変換にKだけ積和演算が発生する。
したがって、提案手法における場合の積和演算回数の合計は、(K×K+K)×2となる。
しかし、上述したように頭部伝達関数の行列H(ω)に対して対角化が行われると、ベクトルD’(ω)と頭部伝達関数の行列H’(ω)との畳み込みによる積和演算は片耳につきKのみとなるため、合計の積和演算回数は4Kとなる。
また、提案手法による演算時に必要となるメモリ量は、各時間周波数ビンωに対して、頭部伝達関数の行列H’(ω)の対角成分のみでよいので2Kバイトとなる。さらに全ての時間周波数ビンωに共通の環状調和関数の行列YφについてM×Kバイトだけメモリが必要となる。
したがって、時間周波数ビンωの数をWとすると、提案手法における必要メモリ量は、合計で(2×K×W+M×K)バイトとなる。
いま、仮に環状調和関数の最大次数を12とすると、K=2×12+1=25となる。また、仮想スピーカの数Lは、Kより大きいことが必要であるためL=32であるとする。
このような場合、拡張手法の積和演算量は(L×K+2L)=32×25+2×32=864であるのに対して、提案手法の積和演算量は4K=25×4=100で済むので、大幅に演算量が低減されていることが分かる。
また、演算時に必要なメモリ量は、例えばW=100およびM=100とすると、拡張手法では(2×M×L×W+L×K)=2×100×32×100+32×25=640800である。これに対して、提案手法の演算時に必要なメモリ量は、(2×K×W+M×K)=2×25×100+100×25=7500となり、大幅に必要メモリ量が低減されることが分かる。
〈音声処理装置の構成例〉
次に、以上において説明した本技術を適用した音声処理装置について説明する。図8は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
図8に示す音声処理装置81は、頭部方向センサ部91、頭部方向選択部92、頭部伝達関数合成部93、環状調和逆変換部94、および時間周波数逆変換部95を有している。なお、音声処理装置81はヘッドホンに内蔵されていてもよいし、ヘッドホンとは異なる装置であってもよい。
頭部方向センサ部91は、例えば必要に応じてユーザの頭部に取り付けられた加速度センサや画像センサなどからなり、聴取者であるユーザの頭部の回転(動き)を検出して、その検出結果を頭部方向選択部92に供給する。なお、ここでいうユーザとは、ヘッドホンを装着したユーザ、つまり時間周波数逆変換部95で得られる左右のヘッドホンの駆動信号に基づいてヘッドホンにより再生された音声を聴取するユーザである。
頭部方向選択部92は、頭部方向センサ部91からの検出結果に基づいて、聴取者の頭部の回転方向、つまり回転後の聴取者の頭部の方向φjを求めて、環状調和逆変換部94に供給する。換言すれば、頭部方向選択部92は、頭部方向センサ部91からの検出結果を取得することで、ユーザの頭部の方向φjを取得する。
頭部伝達関数合成部93には、外部から環状調和領域の音声信号である各時間周波数ビンωについての環状調和関数の各次数の入力信号D’m(ω)が供給される。また、頭部伝達関数合成部93は、予め計算により求められた頭部伝達関数からなる行列H’(ω)を保持している。
頭部伝達関数合成部93は、供給された入力信号D’m(ω)と、保持している行列H’(ω)、つまり上述した式(19)により対角化された頭部伝達関数の行列との畳み込み演算を行うことで、環状調和領域で入力信号D’m(ω)と頭部伝達関数とを合成し、その結果得られたベクトルB’(ω)を環状調和逆変換部94に供給する。なお、以下では、ベクトルB’(ω)の要素をB’m(ω)とも記すこととする。
環状調和逆変換部94は、予め各方向の環状調和関数からなる行列Yφを保持しており、その行列Yφを構成する行のうち、頭部方向選択部92から供給された方向φjに対応する行、すなわち上述した式(21)の環状調和関数Ymj)からなる行を選択する。
環状調和逆変換部94は、方向φjに基づいて選択した行列Yφの行を構成する環状調和関数Ymj)と、頭部伝達関数合成部93から供給されたベクトルB’(ω)の要素B’m(ω)との積の和を計算することで、頭部伝達関数が合成された入力信号を環状調和逆変換する。
なお、頭部伝達関数合成部93における頭部伝達関数の畳み込み演算と、環状調和逆変換部94における環状調和逆変換は、左右のヘッドホンごとに行われる。これにより、環状調和逆変換部94では、時間周波数領域の左ヘッドホンの駆動信号Plj,ω)と、時間周波数領域の右ヘッドホンの駆動信号Prj,ω)とが時間周波数ビンωごとに得られる。
環状調和逆変換部94は、環状調和逆変換により得られた左右のヘッドホンの駆動信号Plj,ω)および駆動信号Prj,ω)を時間周波数逆変換部95に供給する。
時間周波数逆変換部95は、左右のヘッドホンごとに、環状調和逆変換部94から供給された時間周波数領域の駆動信号に対して時間周波数逆変換を行うことで、時間領域の左ヘッドホンの駆動信号plj,t)と、時間領域の右ヘッドホンの駆動信号prj,t)とを求め、それらの駆動信号を後段に出力する。後段のヘッドホン、より詳細にはイヤホンを含むヘッドホンなど、2チャネルで音声を再生する再生装置では、時間周波数逆変換部95から出力された駆動信号に基づいて音声が再生される。
〈駆動信号生成処理の説明〉
続いて、図9のフローチャートを参照して、音声処理装置81により行われる駆動信号生成処理について説明する。この駆動信号生成処理は、外部から入力信号D’m(ω)が供給されると開始される。
ステップS11において、頭部方向センサ部91は、聴取者であるユーザの頭部の回転を検出し、その検出結果を頭部方向選択部92に供給する。
ステップS12において、頭部方向選択部92は、頭部方向センサ部91からの検出結果に基づいて、聴取者の頭部の方向φjを求めて、環状調和逆変換部94に供給する。
ステップS13において、頭部伝達関数合成部93は、供給された入力信号D’m(ω)に対して、予め保持している行列H’(ω)を構成する頭部伝達関数H’m(ω)を畳み込み、その結果得られたベクトルB’(ω)を環状調和逆変換部94に供給する。
ステップS13では、環状調和領域において、頭部伝達関数H’m(ω)からなる行列H’(ω)と、入力信号D’m(ω)からなるベクトルD’(ω)との積の計算、つまり上述した式(21)のH’m(ω)D’m(ω)を求める計算が行われる。
ステップS14において、環状調和逆変換部94は、予め保持している行列Yφと、頭部方向選択部92から供給された方向φjとに基づいて、頭部伝達関数合成部93から供給されたベクトルB’(ω)に対して環状調和逆変換を行い、左右のヘッドホンの駆動信号を生成する。
すなわち、環状調和逆変換部94は、行列Yφから方向φjに対応する行を選択し、その選択した行を構成する環状調和関数Ymj)と、ベクトルB’(ω)を構成する要素B’m(ω)とから式(21)を計算することで、左ヘッドホンの駆動信号Plj,ω)を算出する。また、環状調和逆変換部94は、右ヘッドホンについても左ヘッドホンにおける場合と同様の演算を行って、右ヘッドホンの駆動信号Prj,ω)を算出する。
環状調和逆変換部94は、このようにして得られた左右のヘッドホンの駆動信号Plj,ω)および駆動信号Prj,ω)を時間周波数逆変換部95に供給する。
ステップS15において、時間周波数逆変換部95は、左右のヘッドホンごとに、環状調和逆変換部94から供給された時間周波数領域の駆動信号に対して時間周波数逆変換を行い、左ヘッドホンの駆動信号plj,t)、および右ヘッドホンの駆動信号prj,t)を算出する。例えば時間周波数逆変換として逆離散フーリエ変換が行われる。
時間周波数逆変換部95は、このようにして求めた時間領域の駆動信号plj,t)および駆動信号prj,t)を左右のヘッドホンに出力し、駆動信号生成処理は終了する。
以上のようにして音声処理装置81は、環状調和領域において入力信号に頭部伝達関数を畳み込み、その畳み込み結果に対して環状調和逆変換を行って、左右のヘッドホンの駆動信号を算出する。
このように、環状調和領域において頭部伝達関数の畳み込みを行うことで、ヘッドホンの駆動信号を生成する際の演算量を大幅に低減させることができるとともに、演算時に必要となるメモリ量も大幅に低減させることができる。換言すれば、より効率よく音声を再生することができる。
〈第1の実施の形態の変形例1〉
〈時間周波数ごとの次数の切捨てについて〉
ところで、行列H(ω)を構成する頭部伝達関数H(u(φj)-1xi,ω)は、環状調和領域において必要な次数が異なることが分かっており、このことは、例えば「Efficient Real Spherical Harmonic Representation of Head-Related Transfer Functions (Griffin D. Romigh et. al. , 2015)」などに記載されている。
例えば頭部伝達関数の行列H’(ω)の対角成分のうち、各時間周波数ビンωにおいて必要な次数m=N(ω)が分かっていれば、例えば以下の式(22)の計算により左ヘッドホンの駆動信号Plj,ω)を求めるようにするなどして、演算量を削減することが可能となる。これは右ヘッドホンについても同様である。
Figure 2017119318
式(22)の計算は、基本的には式(21)の計算と同じであるが、Σによる加算対象の範囲が、式(21)では次数m=-N乃至Nまでであったところを式(22)では次数m=-N(ω)乃至N(ω)(但し、N≧N(ω))までとする点で異なっている。
この場合、例えば図10に示すように頭部伝達関数合成部93において、行列H’(ω)の対角成分の一部分のみ、つまり次数m=-N(ω)乃至N(ω)の各要素のみが畳み込み演算に用いられることになる。なお、図10において図8における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図10では、文字「H’(ω)」が記された長方形が、頭部伝達関数合成部93に保持されている各時間周波数ビンωの行列H’(ω)の対角成分を表しており、それらの対角成分の斜線部分が必要な次数m、つまり次数-N(ω)乃至次数N(ω)の要素部分を表している。
このような場合、図9のステップS13およびステップS14では、式(21)ではなく式(22)の計算により頭部伝達関数の畳み込みと環状調和逆変換が行われる。
このように行列H’(ω)の必要な次数の成分(要素)のみを用いて畳み込み演算を行い、他の次数については演算を行わないようにすることで、演算量と必要メモリ量をさらに削減することが可能となる。なお、行列H’(ω)の必要な次数は、時間周波数ビンωごとに設定可能とされる、つまり時間周波数ビンωごとに設定されるようにしてもよいし、全時間周波数ビンωで、必要な次数として共通の次数が設定されるようにしてもよい。
ここで、一般手法と、上述した提案手法と、提案手法でさらに必要な次数mのみ演算を行う場合とでの演算量および必要メモリ量を図11に示す。
図11において「環状調和関数の次数」の欄は、環状調和関数の最大次数|m|=Nの値を示しており、「必要仮想スピーカ数」の欄は、正しく音場を再現するのに最低限必要となる仮想スピーカの数を示している。
また、「演算量(一般手法)」の欄は、一般手法によりヘッドホンの駆動信号を生成するのに必要な積和演算の回数を示しており、「演算量(提案手法)」の欄は、提案手法によりヘッドホンの駆動信号を生成するのに必要な積和演算の回数を示している。
さらに、「演算量(提案手法・次数-2)」の欄は、提案手法で、かつ次数N(ω)までを用いた演算によりヘッドホンの駆動信号を生成するのに必要な積和演算の回数を示している。この例では、特に次数mの上位2次分が切り捨てられて演算されない例となっている。
ここで、これらの一般手法、提案手法、提案手法で次数N(ω)までを用いた演算を行う場合の各演算量の欄では、各時間周波数ビンωでの積和演算回数が記されている。
また、「メモリ(一般手法)」の欄は、一般手法によりヘッドホンの駆動信号を生成するのに必要なメモリ量を示しており、「メモリ(提案手法)」の欄は、提案手法によりヘッドホンの駆動信号を生成するのに必要なメモリ量を示している。
さらに「メモリ(提案手法・次数-2)」の欄は、提案手法で、かつ次数N(ω)までを用いた演算によりヘッドホンの駆動信号を生成するのに必要なメモリ量を示している。この例では、特に次数|m|の上位2次分が切り捨てられて演算されない例となっている。
なお、図11において記号「**」が記されている欄では、次数-2が負となるので次数N=0として計算が行われたことを示している。
例えば図11に示す例において、次数N=4における演算量の欄に注目すると、提案手法での演算量は36となっている。これに対して、次数N=4で、ある時間周波数ビンωに対して必要な次数がN(ω)=2であった場合に、提案手法で、かつ次数N(ω)までを計算に用いる場合の演算量は4K=4(2×2+1)=20となっている。したがって、もともとの次数Nが4であった場合と比べて演算量を55%まで削減できていることが分かる。
〈第2の実施の形態〉
〈頭部伝達関数に関する必要メモリ量削減について〉
ところで、頭部伝達関数は、聴取者の頭部や耳介などの回折、反射により形成されるフィルタであるため、聴取者個人によって頭部伝達関数は異なる。そのため、頭部伝達関数を個人に最適化することはバイノーラル再生にとって重要なことである。
しかしながら、個人の頭部伝達関数を想定される聴取者分だけ保持することはメモリ量の観点からふさわしくない。これは、頭部伝達関数を環状調和領域で保持している場合にもあてはまる。
仮に個人に最適化された頭部伝達関数を提案手法を適用した再生系で用いる場合には、時間周波数ビンωごと、または全ての時間周波数ビンωにおいて、個人に依存しない次数と依存する次数を予め指定しておけば、必要な個人依存パラメータを削減することができる。また、身体形状などからの聴取者個人の頭部伝達関数の推定の際には、この環状調和領域での個人依存の係数(頭部伝達関数)を目的変数とすることも考えられる。
ここで、個人に依存する次数とは、伝達特性がユーザ個人ごとに大きく異なる、つまり頭部伝達関数H’m(ω)がユーザごとに異なる次数mである。逆に、個人に依存しない次数とは、各個人の伝達特性の差が十分に小さい頭部伝達関数H’m(ω)の次数mである。
このように個人に依存しない次数の頭部伝達関数と、個人に依存する次数の頭部伝達関数とから行列H’(ω)を生成する場合、例えば図8に示した音声処理装置81の例では、図12に示すように個人に依存する次数の頭部伝達関数が何らかの方法により取得される。なお、図12において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図12の例では、文字「H’(ω)」が記された長方形が時間周波数ビンωの行列H’(ω)の対角成分を表しており、その対角成分の斜線部分が、予め音声処理装置81に保持されている部分、つまり個人に依存しない次数の頭部伝達関数H’m(ω)の部分を表している。これに対して、対角成分のうちの矢印A91に示す部分は、個人に依存する次数の頭部伝達関数H’m(ω)の部分を表している。
この例では、対角成分における斜線部分で表されている、個人に依存しない次数の頭部伝達関数H’m(ω)が、全ユーザで共通して用いられる頭部伝達関数である。これに対して、矢印A91により示される、個人に依存する次数の頭部伝達関数H’m(ω)が、ユーザ個人ごとに最適化されたもの等、ユーザ個人ごとに異なるものが用いられる頭部伝達関数である。
音声処理装置81は、文字「個人別係数」が記された四角形により表される、個人に依存する次数の頭部伝達関数H’m(ω)を外部から取得し、その取得した頭部伝達関数H’m(ω)と、予め保持している個人に依存しない次数の頭部伝達関数H’m(ω)とから行列H’(ω)の対角線分を生成し、頭部伝達関数合成部93に供給する。
なお、ここでは、行列H’(ω)が全ユーザ共通で用いられる頭部伝達関数と、ユーザごとに用いられるものが異なる頭部伝達関数とから構成される例について説明するが、行列H’(ω)の0でない全要素がユーザごとに異なるものであるようにしてもよい。また、同じ行列H’(ω)が全ユーザで共通して用いられてもよい。
また、生成された行列H’(ω)が図13に示されるように時間周波数ビンωごとに異なる要素で構成され、図14に示すように演算が行われる要素が時間周波数ビンωごとに異なってもよい。なお、図14において図8における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図13では、矢印A101乃至矢印A106のそれぞれにより示される、文字「H’(ω)」が記された長方形が所定の時間周波数ビンωの行列H’(ω)の対角成分を表している。また、それらの対角成分の斜線部分が必要な次数mの要素部分を表している。
例えば矢印A101乃至矢印A103のそれぞれにより示される例では、行列H’(ω)の対角成分のうち、互いに隣接する要素からなる部分が必要な次数の要素部分となっており、対角成分におけるそれらの要素部分の位置(領域)は各例で異なる位置となっている。
これに対して、矢印A104乃至矢印A106のそれぞれにより示される例では、行列H’(ω)の対角成分のうち、互いに隣接する要素からなる複数の部分が必要な次数の要素部分となっている。これらの例では対角成分における必要な要素からなる部分の個数や位置、大きさは各例によって異なっている。
また、図14に示すように音声処理装置81は、環状調和関数変換により対角化された頭部伝達関数のデータベース、つまり各時間周波数ビンωの行列H’(ω)に加えて、時間周波数ビンωごとに必要な次数mを示す情報を同時にデータベースとして持つことになる。
図14では、文字「H’(ω)」が記された長方形が、頭部伝達関数合成部93に保持されている各時間周波数ビンωの行列H’(ω)の対角成分を表しており、それらの対角成分の斜線部分が必要な次数mの要素部分を表している。
この場合、頭部伝達関数合成部93において、例えば時間周波数ビンωごとに-N(ω)次からその時間周波数ビンωで必要な次数m=N(ω)まで、頭部伝達関数と入力信号D’m(ω)との積が求められる。つまり、上述した式(22)におけるH’m(ω)D’m(ω)の計算が行われる。これにより、頭部伝達関数合成部93において、不必要な次数の計算を削減することが可能となる。
〈音声処理装置の構成例〉
行列H’(ω)を生成する場合、音声処理装置81は、例えば図15に示すように構成される。なお、図15において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図15に示す音声処理装置81は、頭部方向センサ部91、頭部方向選択部92、行列生成部201、頭部伝達関数合成部93、環状調和逆変換部94、および時間周波数逆変換部95を有している。
図15に示す音声処理装置81の構成は、図8に示した音声処理装置81にさらに行列生成部201を設けた構成となっている。
行列生成部201は、個人に依存しない次数の頭部伝達関数を予め保持しており、外部から個人に依存する次数の頭部伝達関数を取得し、取得した頭部伝達関数と、予め保持している個人に依存しない次数の頭部伝達関数とから行列H’(ω)を生成し、頭部伝達関数合成部93に供給する。
〈駆動信号生成処理の説明〉
続いて、図16のフローチャートを参照して、図15に示した構成の音声処理装置81により行われる駆動信号生成処理について説明する。
ステップS71において、行列生成部201はユーザ設定を行う。例えば行列生成部201は、ユーザ等による入力操作等に応じて、今回再生される音声を聴取する聴取者に関する情報を特定するユーザ設定を行う。
そして、行列生成部201はユーザ設定に応じて、今回再生される音声を聴取する聴取者、つまりユーザについて、個人に依存する次数のユーザの頭部伝達関数を外部の装置等から取得する。なお、ユーザの頭部伝達関数は、例えばユーザ設定時にユーザ等による入力操作により指定されたものでもよいし、ユーザ設定で定められた情報に基づいて決定されるものでもよい。
ステップS72において、行列生成部201は、頭部伝達関数の行列H’(ω)を生成し、頭部伝達関数合成部93に供給する。
すなわち、行列生成部201は、個人に依存する次数の頭部伝達関数を取得すると、その取得した頭部伝達関数と、予め保持している個人に依存しない次数の頭部伝達関数とから行列H’(ω)を生成し、頭部伝達関数合成部93に供給する。このとき、行列生成部201は、予め保持している各時間周波数ビンωの必要な次数mを示す情報に基づいて、必要な次数の要素のみからなる行列H’(ω)を、時間周波数ビンωごとに生成する。
すると、その後、ステップS73乃至ステップS77の処理が行われて駆動信号生成処理は終了するが、これらの処理は図9のステップS11乃至ステップS15の処理と同様であるので、その説明は省略する。これらのステップS73乃至ステップS77では、環状調和領域において入力信号に頭部伝達関数が畳み込まれ、ヘッドホンの駆動信号が生成される。なお、行列H’(ω)の生成は、予め行われてもよいし、入力信号が供給されてから行われるようにしてもよい。
以上のようにして音声処理装置81は、環状調和領域において入力信号に頭部伝達関数を畳み込み、その畳み込み結果に対して環状調和逆変換を行って、左右のヘッドホンの駆動信号を算出する。
このように、環状調和領域において頭部伝達関数の畳み込みを行うことで、ヘッドホンの駆動信号を生成する際の演算量を大幅に低減させることができるとともに、演算時に必要となるメモリ量も大幅に低減させることができる。換言すれば、より効率よく音声を再生することができる。
特に、音声処理装置81では、個人に依存する次数の頭部伝達関数を外部から取得して行列H’(ω)を生成するようにしたので、メモリ量をさらに削減することができるだけでなく、ユーザ個人に適した頭部伝達関数を用いて適切に音場を再現することができる。
なお、ここでは音声処理装置81に対して、個人に依存する次数の頭部伝達関数を外部から取得して必要な次数の要素のみからなる行列H’(ω)を生成する技術を適用する例について説明した。しかし、そのような例に限らず、不要な次数の削減を行わないようにしてもよい。
〈対象となる入力と頭部伝達関数群について〉
ところで、以上で行ってきた議論では、保持する頭部伝達関数および初期頭部方向に対する仮想的なスピーカ配置がどのような平面に対して環状に置かれているかは問われない。
例えば、保持する頭部伝達関数および初期頭部位置に対する仮想的なスピーカの配置位置は、図17の矢印A111に示すように水平面上であってもよいし、矢印A112に示すように正中面上であってもよいし、また矢印A113に示すように冠状面上であってもよい。つまり、聴取者の頭部中心を中心とするどのような環(以下、環Aと称する)上に仮想的なスピーカが配置されてもよい。
矢印A111に示す例では、ユーザU11の頭部を中心とする水平面上の環RG11に仮想スピーカが環状に配置される。また、矢印A112に示す例では、ユーザU11の頭部を中心とする正中面上の環RG12に仮想スピーカが環状に配置され、矢印A113に示す例では、ユーザU11の頭部を中心とする冠状面上の環RG13に仮想スピーカが環状に配置される。
また、保持する頭部伝達関数および初期頭部方向に対する仮想的なスピーカの配置位置は、例えば図18に示すように、ある環Aが含まれる面と垂直な方向に、その環Aを移動させた位置とされてもよい。以下では、このような環Aを移動させたものを環Bと称することとする。なお、図18において図17における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図18の矢印A121に示す例では、ユーザU11の頭部を中心とする水平面上の環RG11を図中、上下方向に移動させた環RG21や環RG22に仮想スピーカが環状に配置される。この例では、環RG21や環RG22が環Bとなる。
また、矢印A122に示す例では、ユーザU11の頭部を中心とする正中面上の環RG12を図中、奥行き方向に移動させた環RG23や環RG24に仮想スピーカが環状に配置される。矢印A123に示す例では、ユーザU11の頭部を中心とする冠状面上の環RG13を図中、左右方向に移動させた環RG25や環RG26に仮想スピーカが環状に配置される。
さらに、保持する頭部伝達関数および初期頭部方向に対する仮想的なスピーカの配置について、図19に示すように、所定方向に並ぶ複数の環のそれぞれについて入力がある場合、それぞれの環に対して前述のシステムを組むことができる。但し、センサやヘッドホンなど共通化可能なものは適宜共通化してもよい。なお、図19において図18における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
例えば図19の矢印A131に示す例では、図中、上下方向に並ぶ環RG11、環RG21、および環RG22ごとに上述のシステムを組むことができる。同様に、矢印A132に示す例では、図中、奥行き方向に並ぶ環RG12、環RG23、および環RG24ごとに上述のシステムを組むことができ、矢印A133に示す例では、図中、左右方向に並ぶ環RG13、環RG25、および環RG26ごとに上述のシステムを組むことができる。
さらに、図20に示すように、聴取者であるユーザU11の頭部中心を通るある直線が含まれる面を持つ環Aの群(以下、環Adiと称する)について、対角化された頭部伝達関数の行列H’i(ω)を複数用意することもできる。なお、図20において図19における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図20に示す例では、例えば矢印A141乃至矢印A143のそれぞれに示される例では、ユーザU11の頭部の周囲にある複数の円のそれぞれが各環Adiを表している。
この場合、入力は初期頭部方向に対する環Adiの何れかについての頭部伝達関数の行列H’i(ω)とされ、ユーザの頭部方向の変化によって、最適な環Adiの行列H’i(ω)を選ぶプロセスが前述のシステムに対して加わえられることとなる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は、以下の構成とすることも可能である。
(1)
環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成する頭部伝達関数合成部と、
前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する環状調和逆変換部と
を備える音声処理装置。
(2)
前記頭部伝達関数合成部は、複数の頭部伝達関数からなる行列を環状調和関数変換により対角化して得られた対角行列と、環状調和関数の各次数に対応する前記入力信号からなるベクトルとの積を求めることで、前記入力信号と前記対角化された頭部伝達関数とを合成する
(1)に記載の音声処理装置。
(3)
前記頭部伝達関数合成部は、前記対角行列の対角成分のうちの時間周波数ごとに設定可能な所定の前記次数の要素のみを用いて、前記入力信号と前記対角化された頭部伝達関数との合成を行う
(2)に記載の音声処理装置。
(4)
前記対角行列には、各ユーザで共通して用いられる前記対角化された頭部伝達関数が要素として含まれている
(2)または(3)に記載の音声処理装置。
(5)
前記対角行列には、ユーザ個人に依存する前記対角化された頭部伝達関数が要素として含まれている
(2)乃至(4)の何れか一項に記載の音声処理装置。
(6)
前記対角行列を構成する、各ユーザで共通する前記対角化された頭部伝達関数を予め保持するとともに、ユーザ個人に依存する前記対角化された頭部伝達関数を取得して、取得した前記対角化された頭部伝達関数と、予め保持している前記対角化された頭部伝達関数とから前記対角行列を生成する行列生成部をさらに備える
(2)または(3)に記載の音声処理装置。
(7)
前記環状調和逆変換部は、各方向の環状調和関数からなる環状調和関数行列を保持しており、前記球面調和関数行列の所定方向に対応する行に基づいて、前記環状調和逆変換を行う
(1)乃至(6)の何れか一項に記載の音声処理装置。
(8)
前記ヘッドホン駆動信号に基づく音声を聴取するユーザの頭部の方向を取得する頭部方向取得部をさらに備え、
前記環状調和逆変換部は、前記環状調和関数行列における前記ユーザの頭部の方向に対応する行に基づいて、前記環状調和逆変換を行う
(7)に記載の音声処理装置。
(9)
前記ユーザの頭部の回転を検出する頭部方向センサ部をさらに備え、
前記頭部方向取得部は、前記頭部方向センサ部による検出結果を取得することで、前記ユーザの頭部の方向を取得する
(8)に記載の音声処理装置。
(10)
前記ヘッドホン駆動信号を時間周波数逆変換する時間周波数逆変換部をさらに備える
(1)乃至(9)の何れか一項に記載の音声処理装置。
(11)
環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、
前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する
ステップを含む音声処理方法。
(12)
環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、
前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
81 音声処理装置, 91 頭部方向センサ部, 92 頭部方向選択部, 93 頭部伝達関数合成部, 94 環状調和逆変換部, 95 時間周波数逆変換部, 201 行列生成部

Claims (12)

  1. 環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成する頭部伝達関数合成部と、
    前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する環状調和逆変換部と
    を備える音声処理装置。
  2. 前記頭部伝達関数合成部は、複数の頭部伝達関数からなる行列を環状調和関数変換により対角化して得られた対角行列と、環状調和関数の各次数に対応する前記入力信号からなるベクトルとの積を求めることで、前記入力信号と前記対角化された頭部伝達関数とを合成する
    請求項1に記載の音声処理装置。
  3. 前記頭部伝達関数合成部は、前記対角行列の対角成分のうちの時間周波数ごとに設定可能な所定の前記次数の要素のみを用いて、前記入力信号と前記対角化された頭部伝達関数との合成を行う
    請求項2に記載の音声処理装置。
  4. 前記対角行列には、各ユーザで共通して用いられる前記対角化された頭部伝達関数が要素として含まれている
    請求項2に記載の音声処理装置。
  5. 前記対角行列には、ユーザ個人に依存する前記対角化された頭部伝達関数が要素として含まれている
    請求項2に記載の音声処理装置。
  6. 前記対角行列を構成する、各ユーザで共通する前記対角化された頭部伝達関数を予め保持するとともに、ユーザ個人に依存する前記対角化された頭部伝達関数を取得して、取得した前記対角化された頭部伝達関数と、予め保持している前記対角化された頭部伝達関数とから前記対角行列を生成する行列生成部をさらに備える
    請求項2に記載の音声処理装置。
  7. 前記環状調和逆変換部は、各方向の環状調和関数からなる環状調和関数行列を保持しており、前記環状調和関数行列の所定方向に対応する行に基づいて、前記環状調和逆変換を行う
    請求項1に記載の音声処理装置。
  8. 前記ヘッドホン駆動信号に基づく音声を聴取するユーザの頭部の方向を取得する頭部方向取得部をさらに備え、
    前記環状調和逆変換部は、前記環状調和関数行列における前記ユーザの頭部の方向に対応する行に基づいて、前記環状調和逆変換を行う
    請求項7に記載の音声処理装置。
  9. 前記ユーザの頭部の回転を検出する頭部方向センサ部をさらに備え、
    前記頭部方向取得部は、前記頭部方向センサ部による検出結果を取得することで、前記ユーザの頭部の方向を取得する
    請求項8に記載の音声処理装置。
  10. 前記ヘッドホン駆動信号を時間周波数逆変換する時間周波数逆変換部をさらに備える
    請求項1に記載の音声処理装置。
  11. 環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、
    前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する
    ステップを含む音声処理方法。
  12. 環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、
    前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2017560106A 2016-01-08 2016-12-22 音声処理装置および方法、並びにプログラム Active JP6834985B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016002167 2016-01-08
JP2016002167 2016-01-08
PCT/JP2016/088379 WO2017119318A1 (ja) 2016-01-08 2016-12-22 音声処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2017119318A1 true JPWO2017119318A1 (ja) 2018-10-25
JP6834985B2 JP6834985B2 (ja) 2021-02-24

Family

ID=59273911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017560106A Active JP6834985B2 (ja) 2016-01-08 2016-12-22 音声処理装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US10412531B2 (ja)
EP (1) EP3402221B1 (ja)
JP (1) JP6834985B2 (ja)
BR (1) BR112018013526A2 (ja)
WO (1) WO2017119318A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595148B2 (en) 2016-01-08 2020-03-17 Sony Corporation Sound processing apparatus and method, and program
US10133544B2 (en) * 2017-03-02 2018-11-20 Starkey Hearing Technologies Hearing device incorporating user interactive auditory display
CN110637466B (zh) * 2017-05-16 2021-08-06 索尼公司 扬声器阵列与信号处理装置
WO2020196004A1 (ja) * 2019-03-28 2020-10-01 ソニー株式会社 信号処理装置および方法、並びにプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006506918A (ja) * 2002-11-19 2006-02-23 フランス テレコム ソシエテ アノニム オーディオデータ処理方法及びこの方法を実現する集音装置
US20100329466A1 (en) * 2009-06-25 2010-12-30 Berges Allmenndigitale Radgivningstjeneste Device and method for converting spatial audio signal
JP2015159598A (ja) * 2010-03-26 2015-09-03 トムソン ライセンシングThomson Licensing オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6215879B1 (en) * 1997-11-19 2001-04-10 Philips Semiconductors, Inc. Method for introducing harmonics into an audio stream for improving three dimensional audio positioning
US7231054B1 (en) 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US20050147261A1 (en) * 2003-12-30 2005-07-07 Chiang Yeh Head relational transfer function virtualizer
GB0815362D0 (en) * 2008-08-22 2008-10-01 Queen Mary & Westfield College Music collection navigation
EP2268064A1 (en) 2009-06-25 2010-12-29 Berges Allmenndigitale Rädgivningstjeneste Device and method for converting spatial audio signal
WO2014189550A1 (en) * 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
US10499176B2 (en) * 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
US9369818B2 (en) * 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10009704B1 (en) * 2017-01-30 2018-06-26 Google Llc Symmetric spherical harmonic HRTF rendering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006506918A (ja) * 2002-11-19 2006-02-23 フランス テレコム ソシエテ アノニム オーディオデータ処理方法及びこの方法を実現する集音装置
US20100329466A1 (en) * 2009-06-25 2010-12-30 Berges Allmenndigitale Radgivningstjeneste Device and method for converting spatial audio signal
JP2015159598A (ja) * 2010-03-26 2015-09-03 トムソン ライセンシングThomson Licensing オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置

Also Published As

Publication number Publication date
US20190014433A1 (en) 2019-01-10
EP3402221B1 (en) 2020-04-08
EP3402221A1 (en) 2018-11-14
BR112018013526A2 (ja) 2018-12-04
WO2017119318A1 (ja) 2017-07-13
EP3402221A4 (en) 2018-12-26
US10412531B2 (en) 2019-09-10
JP6834985B2 (ja) 2021-02-24

Similar Documents

Publication Publication Date Title
CN108370487B (zh) 声音处理设备、方法和程序
US9973874B2 (en) Audio rendering using 6-DOF tracking
EP2868119B1 (en) Method and apparatus for generating an audio output comprising spatial information
JP6284955B2 (ja) 仮想スピーカーを物理スピーカーにマッピングすること
JP6834985B2 (ja) 音声処理装置および方法、並びにプログラム
TW202133625A (zh) 基於運動選擇音訊串流
WO2017119320A1 (ja) 音声処理装置および方法、並びにプログラム
WO2017119321A1 (ja) 音声処理装置および方法、並びにプログラム
Villegas Locating virtual sound sources at arbitrary distances in real-time binaural reproduction
Cuevas-Rodriguez et al. An open-source audio renderer for 3D audio with hearing loss and hearing aid simulations
Geronazzo et al. Superhuman hearing-virtual prototyping of artificial hearing: a case study on interactions and acoustic beamforming
US20220159402A1 (en) Signal processing device and method, and program
US11252524B2 (en) Synthesizing a headphone signal using a rotating head-related transfer function
JPWO2020100670A1 (ja) 信号処理装置および方法、並びにプログラム
WO2022034805A1 (ja) 信号処理装置および方法、並びにオーディオ再生システム
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7440174B2 (ja) 音響装置、音響処理方法及びプログラム
EP4408024A1 (en) Information processing device, information processing method, and program
KR20150005438A (ko) 오디오 신호 처리 방법 및 장치
CN116193196A (zh) 虚拟环绕声渲染方法、装置、设备及存储介质
Nilsson et al. Superhuman Hearing-Virtual Prototyping of Artificial Hearing: a Case Study on Interactions and Acoustic Beamforming

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210118

R151 Written notification of patent or utility model registration

Ref document number: 6834985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151