JPWO2020171049A1 - 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 - Google Patents
音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 Download PDFInfo
- Publication number
- JPWO2020171049A1 JPWO2020171049A1 JP2021502010A JP2021502010A JPWO2020171049A1 JP WO2020171049 A1 JPWO2020171049 A1 JP WO2020171049A1 JP 2021502010 A JP2021502010 A JP 2021502010A JP 2021502010 A JP2021502010 A JP 2021502010A JP WO2020171049 A1 JPWO2020171049 A1 JP WO2020171049A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- masking
- sound source
- acoustic
- masking threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Abstract
Description
近年、標準的に使用されているMPEG−2 AAC、MPEG−4 AAC、MP3等の音響信号の符号化においては、このビット割り当てにおいて、周波数軸における聴覚のマスキング効果が利用されている。
特許文献1には、聴覚のマスキング効果が利用された音響信号符号化の技術の一例が記載されている。特許文献1の技術では、聴覚のマスキング効果を利用するために、マスキング効果のビット割り当ての閾値(以下、マスキング閾値という。)が計算されている。
本発明のプログラムは、符号化装置により実行される、複数のチャンネルの音響信号を符号化するプログラムであって、前記符号化装置に、聴覚の空間的マスキング効果に対応したマスキング閾値を算出させ、算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定させ、複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化させることを特徴とする。
本発明の符号化装置は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する符号化装置であって、聴覚の空間的マスキング効果に対応したマスキング閾値を算出するマスキング閾値算出部と、前記マスキング閾値算出部により算出された前記マスキング閾値により、各前記チャンネル及び/又は前記音源オブジェクトに割り振る情報量を決定する情報量決定部と、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化する符号化部とを備えることを特徴とする。
本発明の音響システムは、前記符号化装置と、復号化装置とを備えた音響システムであって、前記復号化装置は、受聴者の向いている方向を算出する方向算出部と、前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部と、前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備え、前記符号化装置の前記マスキング閾値算出部は、前記マスキング閾値を、前記受聴者の位置と前記方向に対する、各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出することを特徴とする。
本発明の復号化装置は、聴覚の空間的マスキング効果に対応したマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量が決定され、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化された信号を取得する信号取得部と、前記信号取得部により取得された信号から、符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部とを備えることを特徴とする。
〔音響システムXの制御構成〕
まず、図1を参照して、本発明の実施の形態に係る音響システムXの制御構成について説明する。
音響システムXは、複数のチャンネルの音響信号を取得し、符号化装置1により符号化し、伝送し、復号化装置2により復号化し、再生することが可能なシステムである。
方向算出部70、送信部80、復号化部90、立体音響再生部100、及びヘッドフォン110は、本実施形態の復号化装置2(受信側)として機能する。
さらに、マスキング閾値算出部40は、一旦、集音され、フラッシュメモリー、HDD、光学記録媒体等の記録媒体に格納された音響信号を取得したり、変換したりして、周波数マスキングを計算することも可能である。
または、マスキング閾値算出部40は、マスキング閾値を、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出してもよい。
より具体的には、マスキング閾値算出部40は、マスキング閾値を、チャンネル及び/又は音源オブジェクト間の空間的距離及び/又は方向が近づくほど相互に及ぼす影響が大きくなり、離れるほど相互に及ぼす影響が小さくなるような空間的マスキング効果に対応して算出してもよい。
加えて、マスキング閾値算出部40は、マスキング閾値を、受聴者からみて前後対称の位置にあるチャンネル及び/又は音源オブジェクトについては、音源オブジェクト間の空間的距離及び/又は方向についての相互に及ぼす影響の度合いを変化させるような空間的マスキング効果に対応して算出してもよい。
さらに、マスキング閾値算出部40は、マスキング閾値を、受聴者からみて後方の位置にあるチャンネル及び/又は音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在するような空間的マスキング効果に対応して算出してもよい。
下記の式(1)で調整してもよい。
T=β{max(y1,αy2)−1}
y1=f(x−θ)
y2=f(180−x−θ) …… 式(1)
ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは求める方向又はマスキーの方位を示す。
なお、f(x)として、f(x)=cos(x)のような式も、用いることが可能である。さらに、f(x)として、これ以外の、例えば、実際のマスカー、マスキーの実験結果から算出された関数等も用いることが可能である。
この上で、方向算出部70は、算出された方向情報に、受聴者に対する音源オブジェクトや複数チャンネルの音響信号についての位置の関係を考慮した位置情報を加えた位置方向情報を算出可能である。
次に、HRTFが畳み込まれた信号にビーム方向別の重み付けを行ってから加算することで、聴取者に提示する2チャンネルの両耳信号を生成する。このうち、ビーム方向別重み付けとは、L信号及びR信号である両耳信号が再現したい音空間における両耳信号により近づくような重み付けを行う処理である。具体的には、ある音空間に存在する各音源に音源方向のHRTFをそれぞれ畳み込んで加算することにより、両耳信号を生成する。その両耳信号を目標信号とし、出力として得られた両耳信号が目標信号と等しくなるように、出力信号に重みを付加する処理を行う。
立体音響再生部100は、上述のマスキング閾値とは別に、方向算出部70により算出された位置方向情報により、HRTFをアップデートし、立体音響を再生することが可能である。
加えて、符号化装置1及び復号化装置2は、記憶手段として、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリー、HDD(Hard Disk Drive)等の磁気記録媒体、光学記録媒体等である記憶部を含んでいる。この記憶部には、本発明の実施の形態に係る各方法を実現するための制御プログラムが格納されている。
さらに、符号化装置1及び復号化装置2は、液晶ディスプレイや有機ELディスプレイ等の表示手段、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力手段、LANボード、無線LANボード、シリアル、パラレル、USB(Universal Serial Bus)等のインターフェイスを含んでいてもよい。
なお、上述の構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
次に、図2及び図3を参照して、本発明の実施の形態に係る音響システムXによる音響信号符号化復号化処理の説明を行う。
本実施形態の音響信号符号化復号化処理は、主に符号化装置1及び復号化装置2において、それぞれ、制御部が記憶部に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
以下で、図2のフローチャートを参照して、音響信号符号化復号化処理の詳細をステップ毎に説明する。
まず、符号化装置1の周波数領域変換部30が、音声データ取得処理を行う。
ここでは、集音者がスタジアム等に赴き、マイクロホンアレイ10を用いて収音を行う。これにより、マイクロホンアレイ10を中心とした各方向(θ)の音声信号が取得される。この際に、収音側では、「空間サンプリング」の考え方に基づいて収音を行う。空間サンプリングは、音場を空間的に切り分けて多チャンネルで収音するものである。本実施形態では、例えば、左右0°〜360°を区切った特定ステップの音声信号を、複数チャンネルに対応して収音する。なお、上下方向の0°〜360°についても、特定ステップに区切って収音することが可能である。
周波数領域変換部30は、これらの集音された音声データ等を切り出し、DFT、MDCT等によって、時間領域から周波数領域の信号へ変換し、音響信号として記憶部に格納する。
ここで、復号化装置2の方向算出部70が、方向算出処理を行う。
方向算出部70は、受聴者の向いている方向情報と、音響データに対しての位置情報とを算出する。
次に、送信部80が、方向送信処理を行う。
送信部80は、方向算出部70により算出された位置方向情報を、符号化装置1へ送信する。
ここで、符号化装置1のマスキング閾値算出部40が、マスキング閾値算出処理を行う。本実施形態では、周波数領域でマスキング閾値Tを計算して、後述する空間的マスキングのマスキング閾値を更に算出し、ビット割り当てを決定する。このため、マスキング閾値算出部40は、まず、周波数帯域でのマスキング閾値Tを算出する。
マスキング効果は、周波数マスキング(同時マスキング)及び時間マスキング(継時マスキング)に大別される。周波数マスキングは、マスカーとマスキーが時間的に重なっている場合に生じるマスキングであり、時間マスキングは時間的に離れている場合に生じるマスキングである。
図3(a)のグラフにおいて、横軸は周波数、縦軸は信号のエネルギーである。すなわち、図3(a)は、ある信号に含まれるある1本のスペクトル(純音)をマスカーとしたときに、このマスカーによってマスクされるスペクトル(マスキー)の範囲及び閾値の例のグラフである。このように、信号成分の存在しないマスカーの周波数近傍についても、マスキーの閾値が上昇する。また、閾値が上昇する周波数範囲はマスカーの周波数に対して対称ではなく、マスカーに対してマスキーの周波数が高いほうが低い周波数の音よりマスクされやすい。したがって、聴覚的には、マスカーはマスカーの周波数だけではなくその両側に広がった成分を持つような状況が生じる。
マスキング閾値算出部40は、例えば、特許文献1に記載されたようなBarkスペクトルにマスキング閾値計算式(Spreading Function、以下、「SF」という。)を畳み込む。そして、マスキング閾値算出部40は、Spectral Flatness measure(SFM)及び調整係数を用いて、Spreadマスキング閾値Tspreadを算出する。この上で、マスキング閾値算出部40は、逆畳み込みにより、Spreadマスキング閾値Tspreadを、Barkスペクトルの領域に戻すことで、仮の閾値Tを算出する。この上で、本実施形態においては、マスキング閾値算出部40は、仮の閾値Tを、各Barkインデックスに該当するDFTスペクトルの本数で割ってから、絶対閾値と比較することで、仮の閾値Tが、周波数マスキングの最終的な閾値Tfinalに変換される。
Tqf=3.64(f/1000)-0.8−6.5exp{−0.6(f/1000−3.3)2}+10-3(f/1000)4+OLSB…… 式(3)
ここで、式(3)で加えられるOLSBは、周波数4kHzの時の絶対閾値Tq4000=min(Tqf)が、周波数4kHz/振幅1bitの信号のエネルギーに一致するようなオフセット値である。
従来の音響符号化方式におけるマスキング閾値の計算では、多くの場合で、自身のチャンネルのマスキング閾値は自身のチャンネルの信号成分のみを用いて計算している。つまり、チャンネルが複数存在する音響信号においては、対象チャンネル以外のチャンネルの信号によるマスキングを対象チャンネルのマスキングに考慮せず、各チャンネル独立にマスキング閾値を決定することとなる。
ここで、本実施形態で用いるような空間サンプリングされた音響信号は、隣接するチャンネル間での信号の相関が大きく、波形が類似した部分とそうでない部分が混在していると考えられる。したがって、マスキングの観点から考えると、空間サンプリングされた信号の符号化には、各チャンネルにおけるマスキングの情報をチャンネル間で相互に適用できる可能性がある。そこで本実施形態では、空間サンプリングされた信号の符号化のために、マスキング効果を空間領域に拡張した「空間的マスキング」を用いる。
計算手順は次のようになる。まず、各方向の信号に関して、従来の周波数領域マスキングと同様の考え方でマスキング閾値を計算する。次に、それらの各方向のマスキング閾値Tを得るために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重みを、上述の式(1)に対応した関数Tspatial(θ,x)により算出し、それぞれ重み付けする。ただし、自身すなわちi方向の信号のマスキング閾値に対する重み付けはゼロdB、すなわち、リニアスケールでは1となるようにする。次に、重み付けされた全方向のマスキング閾値をリニアスケールで総和する。これにより、空間的マスキングを考慮したi方向の信号のマスキング閾値が得られる。以上の処理を、他の方向の信号についても同様に行うことで、空間的マスキングを考慮した閾値を全周の信号に対して得ることができる。
本実施形態においては、マスカーの方位を[deg.]、マスキーの方位をx[deg.]として、関数Tspatial(θ,x)[dB]を、下記、式(4の2)で算出する。
ここで、α,βはスケーリング係数であり、0≦α≦1,0≦βである。maxは、引数内の最大値を返す関数である。fは、位相0°で最大値をとるような周期360°の任意の周期関数とする。
次に、情報量決定部50が、情報量決定処理を行う。
本実施形態の音響システムXでは、空間サンプリングされた信号の方向情報を利用し、空間領域を考慮したビット割り当てを周波数領域において行う。また、空間領域を考慮したビット割り当てを行うために、マスキング効果を用いる。
このため、情報量決定部50は、マスキング閾値算出部40により算出されたマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量を決定する。聴覚の空間的マスキング効果に対応したマスキング閾値を用いることで、空間領域を考慮した周波数軸上のビット割り当てを行うことが可能となる。すなわち、聴覚の空間的マスキング効果を用いることで伝送に必要な信号のビット数を聴覚的な品質を保持したまま削減可能となる。
このPEは、下記、式(5)により算出可能である。
次に、符号化部60が、符号化処理を行う。
符号化部60は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに音源オブジェクトの位置情報を、それぞれ割り振られた情報量で符号化する。
符号化されたデータは、受信側の復号化装置2へと伝送される。この伝送は、例えば、ピアツーピア通信により行われる。又は、データとしてダウンロードされたり、メモリーカードや光学記録媒体として復号化装置2に読み込まれたりしてもよい。
ここで、復号化装置2の、復号化部90が、復号化処理を行う。
復号化部90は、符号化装置1で符号化された複数のチャンネルの音響信号、及び/又は音源オブジェクトを音声信号に復号化する。具体的には、復号化装置2がスマートフォン等の場合、符号化装置1で伝送された音響信号を、特定のコーデック等のデコーダー等で復号化する。
次に、立体音響再生部100が、立体音響再生処理を行う。
立体音響再生部100は、復号化部90により復号化された音声信号を、受聴者に対する立体音響を再生するような立体音響信号に変換する。
具体的には、立体音響再生部100は、多チャンネルの音声信号を2チャンネルの音声信号として空間的情報を含めたまま再生する。これは、各音声信号に音源から人間の耳元までの音の伝達特性を付加し、全方向にわたって加算することにより実現可能である。つまり、立体音響再生部100は、方向別の音信号を合成し、ヘッドフォンを用いて再生させる。このため、各音声信号の方向に対応する頭部伝達関数(HRTF)を畳み込み、2チャンネルの音信号に変換する。具体的には、立体音響再生部100は、例えば、各音響信号に、各信号の方向に対応するHRTFの伝達特性を付加し、Lチャンネル、Rチャンネルそれぞれにおいて信号の総和をとって出力する。これにより、ヘッドフォンによる2チャンネルの音声信号として再生することが、収音側のチャンネル数に依存せず、手軽に再生できる。
以上により、本発明の実施の形態に係る音響信号符号化復号化処理を終了する。
近年、音響再生環境の多チャンネル化、あるいはAR(拡張現実)やVR(仮想現実)に於けるバイノーラル再生の普及とともに、3D音場の収音、伝送、再生、強調技術の重要性が増している。
例として、スマートフォン等を用いてインターネットを介して伝送することを考える。音楽配信サービスの1つであるSpotify(登録商標)では、ストリーミング再生時のビットレートは2チャンネルのステレオで最高320kbps程度となっている。空間サンプリングでは2チャンネルより多いチャンネル数の信号を伝送することが想定されるので、1チャンネルあたりのビットレートをより低ビットレート化する必要があった。
一方、従来、音響信号の符号化(MPEG等のデータ圧縮)に於いては、聴覚のマスキング効果が利用されてきた。しかしそのマスキングは、主に周波数軸上のマスキング効果のみが用いられてきた。MPEG−2 AAC、MPEG−4 AACや、MP3等の音響符号化においても、多チャンネル信号の符号化においても、チャンネル毎の周波数軸における聴覚のマスキング効果が利用されてきた。
しかし、一般に多チャンネル信号によって表現される音場は、空間的に散在する複数の音源から構成される。これについて、同時刻に複数の音源が空間的に配置された際の相互のマスキング効果や聞こえについては、その作用、効果が明らかにされておらず、応用に至っていなかった。すなわち、3次元空間に配置された音源が相互にどのようなマスキング効果を与え、どのように影響を及ぼしながら聴覚に関する知覚が形成されるのかについては、何も知られていなかった。すなわち、従来のマスキング閾値の計算では、チャンネル同士の空間的な関係は考慮されていなかった。
このように構成し、複数チャンネルの音響信号又は音源オブジェクトとその位置情報を符号化する際に、聴覚の空間的なマスキング効果を勘案して各チャンネル及び音源オブジェクトに割り振るビット数を決めることで、方向情報を持った多チャンネル信号の圧縮に応用できる。これにより、チャンネル同士の空間的な関係を考慮した符号化が可能となる。
これに対して、本発明の実施の形態に係る音響信号符号化方法では、多チャンネル信号によって表現される音場は、空間的に散在する複数の音源から構成される。空間サンプリングされた信号には空間的情報が含まれるため、従来の周波数領域に加えて空間領域も考慮したビット割り当てを行うことで、より伝送ビット数を削減することも可能になる。
これにより、22.2チャンネル等、チャンネル数が多い音響信号でも十分なビットレートでの符号化が可能な音響信号符号化方法を提供することができる。つまり、空間的に散在する複数の音源について、相互のマスキング効果に基づいてマスキング閾値を求め、その閾値に基づいたビット割り当てを行うことで、ビットレートを削減できる。本発明者らの実験によれば、従来より5〜20%ビットレートを削減可能である。
このように構成することで、上述の聴覚の空間的マスキング効果に対応したマスキング閾値を用いて符号化で符号化された音響信号を復号化する際に、ヘッドトラッキング等によって受聴者の向いている方向情報を算出し、音像の位置を制御する聴覚ディスプレイを実現できる。すなわち、各チャンネルの音源の位置、又は音源オブジェクトの位置と受聴者との相対的な位置関係を、符号化装置1にフィードバックし、その位置関係に基づいて符号化を行わせ、復号化を行わせることが可能となる。
これにより、360°、全天球の音空間をユーザー間で手軽に収音、伝送、再生して楽しむことができる音響システムを提供できる。
しかしながら、3D音響の再生技術としては、頭部伝達関数と定位に関する実施形態は盛んに行われているが、空間的マスキングとの関連は検討されていなかった。
これに対して、本発明の音響システムは、復号化装置2は、復号化部90により復号化された音声信号を、受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部100を更に備えることを特徴とする。
このように構成することで、3次元空間の音場に散在する複数の音源の相互関係やマスキング効果を適用して効率的に符号化された音響信号を、空間的な音響信号の知覚に関して、頭部伝達関数(HRTF)と関連付けて、2チャンネルで再生できる。すなわち、人間が3D音場をどのように捉えているかに対応して符号化された音響信号を立体音響として再生することで、従来よりも現実感の高い音場を再生できる。
これは、画像において「忠実に色再現するよりも、人間が受ける「印象」を「記憶色」として再現することでよりリアル感が増す」といった効果と同様の効果と考えられる。すなわち、より現実感が高い音場再現を実現することが可能となる。
このように構成し、例えば、各チャンネル間及び/又は各音源オブジェクト間の空間的距離若しくは方向に基づいて算出したモデルを用いて、空間的マスキング効果に基づいた符号化が可能となる。すなわち、ヒトが3次元空間上に散在する音を聴くときに、空間的に配置された音源の空間的距離及び/又は方向に基づいた相互のマスキング効果を符号化に応用することで、より効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
このように構成し、例えば、チャンネル及び/又は音源オブジェクト間の空間的距離あるいは方向が近づくほどチャンネル相互及び/又は音源オブジェクト相互に及ぼす影響が大きくなり、離れるほどその影響が小さくなるというモデルにより、空間的マスキング効果を算出することができる。このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
このように構成し、受聴者からみて前後対称の位置にあるチャンネル又は音源オブジェクトについては、必ずしも音源オブジェクト間の空間的距離あるいは方向が近づくほどチャンネル相互又は音源オブジェクト相互に及ぼす影響が大きくなり、離れるほどその影響が小さくなるというわけではないモデルにより、空間的マスキング効果を算出することができる。これにより、例えば、マスカーと前後対称の位置では空間的距離が離れるのに影響が強くなるといった空間的マスキング効果に対応して、マスキング閾値の上昇を大きく算出することが可能である。
このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
このように構成し、受聴者からみて後方の位置にあるチャンネル又は音源オブジェクトについては、前後対称の位置に該当する、鏡写しにした前方に当該チャンネル又は当該オブジェクトが存在する空間的マスキング効果を用いたマスキング閾値を算出することができる。すなわち、両耳を結ぶ直線を軸に、その軸より後方にある音源は、その軸を中心とする線対称の位置に該当する、軸の前方に移動するようにマスキング閾値を算出する。
このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
このように構成し、空間的マスキング効果として、各チャンネル信号又は音源オブジェクトが、トーン性の信号かノイズ性の信号かに応じて、各チャンネル信号又は音源オブジェクト信号相互に及ぼす影響の度合いを変化させるというモデルにより、マスキング閾値を算出することができる。
このように構成することで、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
T=β{max(y1、αy2)−1}
y1=f(x−θ)
y2=f(180−x−θ) …… 式(1)
ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは前記方向又はマスキーの方位を示すことを特徴とする。
このように構成することで、上述の各モデルに対応した空間的マスキング効果を容易に計算することができる。これにより、効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
これに対して、本発明の音響信号符号化方法は、チャンネル間にまたがる空間的マスキング効果を考慮して、PEにより、一サンプル当たりの平均ビット数が算出されることを特徴とする。
このように構成してマスキング閾値に対するビットの割り当てが行われると、データの伝送ビットレートを削減できる。本発明者らの実験によると、5〜25パーセント程度のビットレートを削減できることを確認している。
このように構成し、上述の符号化装置1で符号化された音響信号を復号化することで、伝送ビットレートが低くても、高品質な音響信号を再生可能となる。
なお、本発明の実施の形態においては、複数のチャンネルの音響信号の符号化として、22.2チャンネルの符号化について言及した。
これについて、本実施形態の音響信号符号化方法は、5.1チャンネルや7.1チャンネル等の多チャンネルの音響符号化から、空間をサンプリングした3D音響符号化、MPEG−H 3D AUDIOに代表されるオブジェクト符号化、又は、既存の2チャンネルのステレオ音響符号化にも適用可能である。
すなわち、符号化装置1は、上述の実施形態の図1に示したような、マイクロホンアレイ10を用いて収音を行わずに、図2のステップS101にて、既に集音された多チャンネルの音声データ、音声オブジェクト等からも音声データを取得可能であるのが当然である。
しかしながら、本実施形態の音響信号符号化方法、及び音響復号化方法は、3次元空間的に散在する音源に働く聴覚のマスキング効果を用いることが可能な音響システムであれば、任意のものに適用可能である。たとえば、それ以外の3D音場のキャプチャー、伝送、再生システムへの適用、VR/ARアプリケーションヘの適用等も可能である。
しかしながら、ヘッドフォン110は、実施例に示すように、据え置き型の複数個のスピーカー等であってもよいのが当然である。
この場合、立体音響再生部100は、位置方向情報に合わせて頭部伝達関数(HRTF)の畳み込みをアップデートしなくてもよい。
しかしながら、本実施形態の音響信号符号化方法、及び音響復号化方法は、かならずしも受聴者の向いている方向が分からなければならないということではない。このため、方向算出部70及び送信部80を具備しないような構成も可能である。
これに対して、周波数を時間に代用しても同様の空間的マスキング効果を算出することも可能である。さらに、空間的マスキング効果として、周波数、方向間でのマスキングと、時間、方向間でのマスキングとの組み合わせを用いることも可能である。
これに対して、単に高品質での符号化を行うのみならず、重要な音を強調したり定位感をデフォルメしたりして、符号化を行うことも可能である。または、空間的マスキング効果で聴覚上、重要な箇所に割り振る情報量を増大させたり、逆に、聴覚上で重要でない箇所に割り振る情報量を更に減少させたりすることで、臨場感を強調することも可能である。
しかしながら、この情報量の割り振りは、周波数帯域毎に単純にビット数を決定(割り当てる)のではなく、エントロピー符号化やその他の符号化に対応した情報量の割り振りであってもよい。
このため、位置方向情報のフィードバックの有無により、配信(伝送)のビットレートを変更するように構成することが可能である。すなわち、符号化装置1に対して、位置方向情報をフィードバックしてくる復号化装置2は、位置方向情報をフィードバックしてこない復号化装置2よりも低いビットレートでデータを伝送することが可能である。
このように構成することで、より廉価にコンテンツを提供するサービスを実現することが可能となる。
(実験方法)
図5、図6により、マスカー存在下でのマスキーの各周波数における閾値を、マスキーの各方位に関して測定する実験について説明する。
図5は、測定システムを示す構成図である。ここでは、被験者の正面を0°とし、反時計方向を正とする。そして、被験者の正面にPC(Personal Computer)が配置される。被験者は椅子に座り、スピーカで提示された刺激音を両耳で聴取する。スピーカは、被験者から1.5m離れた位置に、被験者を中心として全周を取り囲むように、45°間隔で8か所に配置される。なお、実験系の出力における音圧レベル[dBSPL]の校正は、騒音計(リオンNA−27)を用いて計測することにより行った。
実験方法を以下に記す。最初に、実験で使用する音源を被験者に把握させるために、各音源を個別に提示するデモを行う。次に、測定を開始する。測定中、マスカーは常時提示される。マスキーは継続時間0.7秒で提示され、0.7秒の無音をはさんだ後に提示が繰り返される。被験者は回答画面を見ながら、マスキーの各周波数、各音圧レベルに対し、マスキーが3回提示される間に、「マスカー音に変化を感じたかどうか」をPCに入力する。この際、被験者には頭部を動かさずに視線のみを移動させて回答を入力するよう指示を与える。ここで、「マスカー音に変化を感じた」とは、マスキーが知覚されたときだけでなく、マスカーでもマスキーでもない音が知覚された場合も含むこととする。例えば、周波数が少し異なる2つの純音が同時に提示されたとき、音波の干渉により2音の周波数の差に等しい周波数の音が知覚される「うなり」が挙げられる。そのような音が知覚された場合も、「マスカーに変化を感じた」場合に含む。
なお、実験方法に慣れさせるために、実験結果に反映しないテスト測定を初めに数回、行った。
図6において、横軸はマスキーのセット数、縦軸はマスキーの音圧レベルである。マスキーのセット数「1セット」とは、マスキーが3回提示される間のことを指し、これを音源提示の単位とする。
まず、マスキーの周波数をf1に固定し、音圧レベルSPLmaxで聴取者に提示する。続いて、音圧レベルをSPLminに変更して聴取者に提示する。SPLmaxは音圧レベルの測定範囲における最大値、SPLminは音圧レベルの測定範囲における最小値を指す。ここで、被験者が音圧レベルSPLmaxのマスキーを検知できなかった場合にはSPLmaxを閾値とみなし、音圧レベルSPLminのマスキーを検知できた場合にはSPLminを閾値とみなす。このとき、実際の閾値は測定範囲外に存在すると考えられる。以上のようにみなされる例として、図6における周波数f2のマスキーの閾値が挙げられる。図6では、周波数f2のマスキーは音圧レベルSPLminでも検知されなかったことを示している。このように、被験者が回答しなければならない音圧レベルのセット数は、被験者の応答によって変化する。マスキーが音圧レベルSPLminで提示された後は、被験者の回答に応じて閾値を2分探索的に探索する。すなわち、これまでの測定で検知できたマスキーの音圧レベルの最小値と、検知できなかったマスキーの音圧レベルの最大値の中間になるような値を、次の音圧レベルの値としてセットする。このような探索を続けると、最終的にセットできる音圧レベルが1つだけ残る。最終的に残った音圧レベルを周波数f1のマスキーの閾値とする。
以上のような探索を、図6のように周波数をf1、f2、f3、……の順に連続的に変化させて調査する。本実験においては、低周波数側から順にマスキーの閾値を調査する。
なお、聴取実験の回答用プログラムは、Cycling ’74社のMax ver.7にてコーディングを行っている。それ以外のプログラムについては、MathWorks 社のMATLAB ver.R2018aにてコーディングを行っている。
実験で使用するマスカーの一覧を下記の表1に示す。
実験条件としては、マスカーの数を1個とした場合及び2個とした場合の2種類について行った。いずれも無響室で実験を行い、音源信号のサンプリング周波数は48kHzとした。
まず、配置するマスカーの数が1個のときの条件を下記の表2に示す。
マスキーは純音1音源を用い、その周波数及び音圧レベルは以下の通りである。具体的には、マスキーの周波数は、マスカーの周波数(中心周波数)に近い周波数では密になるように決定した。なお、マスカーが純音の場合、マスキーの周波数がマスカーの周波数と完全に一致するとき(400Hz、1000Hz)には、あらゆる音圧レベルにおいてマスキーが知覚できないと考えられるので、そのような周波数は測定対象から外した。マスキーの音圧レベルは取りうる値を3dBおきとし、その最大レベルはマスカーの音圧レベル、最小レベルは20dBSPL又は18dBSPLとした。最大レベルは、マスキーの音圧レベルがマスカーの音圧レベルより大きいときには完全にマスキーを知覚できるという予想のもとに決定した。最小レベルは、実験場所である無響室内の暗騒音レベルを考慮し、測定範囲が概ね暗騒音レベルより15dB小さいところまでとなるように決定した。マスキーの方位は、45°又は315°とした。マスキーの方位が45°のときには、マスカーとマスキーの方位が一致するため、従来から検討されてきた周波数マスキングの閾値が結果として得られることとなる。対してマスキーの方位が315°のときには、マスカーとマスキーが互いに異なる方位に存在することとなるため、ステレオのチャンネル間でのマスキングすなわち空間的なマスキングの閾値が結果として得られることとなる。
マスキーの方位は、0°から45°おきに315°までの8方位のうちのいずれか1方位とした。
マスキーの方位は225°とした。
(実験結果と考察)
図8〜図11により、被験者aに関する実験結果について説明する。
ここで、j番目のマスカーの方位における平均二乗誤差MSE(j)は、下記の式(6)で算出する。
総当たりの結果、α,βの最適値がマスカーA〜マスカーDについて、下記の表5のように得られた。
各グラフの横軸はマスキーの方位、縦軸は音圧レベルである。マスカーの方位に該当する方位を縦の点線で示している。黒の実線はマスカーの音圧レベルが80dBSPLのときのマスキーの閾値の実測値、灰色の実線はマスカーの音圧レベルが60dBSPLのときのマスキーの閾値の実測値をそれぞれ表している。これに対して、赤の破線は関数Tsp atialを用いて赤の実線にフィッティングさせたもの、灰色の破線は関数Tspatialを用いて灰色の実線にフィッティングさせたものをそれぞれ表している。
なお、各破線は関数Tspatialの出力にオフセットLmasker azimuthを加えたものである。
図8〜図11によれば、各グラフとも概ね実測値にフィットしていることがわかる。ただし、例えば図8の左上のグラフや図9の左上のグラフなどのように、マスカーA、マスカーBのような帯域雑音の場合におけるマスカーとは前後対称の方位での閾値の上昇に関してみると、破線が実線にうまくフィットしていない部分が見受けられる。この理由は、マスカーが帯域雑音でマスカーの方位が90°のときには、閾値の方位による変化が比較的小さく、平均二乗誤差の総和を最小にしようとしたときに影響してαの値が小さくなるように働いたためであると考えられる。上記の部分をうまくフィットさせるためには、マスカーの方位が90°のときの実測値とモデル関数との間の誤差が大きくても構わない場合には、αの値をより大きく設定すれば良い。
また、本実施例では総当たりにより、α,βの値を求めたが、βの値に関しては、マスカーの調性(トーン性、ノイズ性)を判別するような指標をベースに決定することができる。マスカーの調性を判別するような指標としては、例えば自己相関やSpectral
Flatness Measure(SFM)等がある。これらの指標を用いることで、βをパラメトリックに決定しフィッティングすることが可能となる。
本実施例では、空間的マスキングを確認するために基礎的な聴取実験を行うとともに、実験により得られた知見を反映し、空間的マスキングを考慮したマスキング閾値計算法及びモデル化をすることが可能となった。
まず聴取実験において、マスカーとマスキーを異なる方位に存在する場合でもマスカーの周波数近傍での閾値の上昇がみられたことから、空間的マスキングの存在を確認した。
マスキング閾値はマスカーの方位とマスキーの方位によって変化し、基本的にはマスキーの方位がマスカーの方位から離れるほど閾値が低下する。2チャンネルステレオ環境に関しては、自身のチャンネルの信号が自身のチャンネルに及ぼすマスキングの閾値に15dBの重みを付加したものを、自身のチャンネルの信号が他方のチャンネルの信号に及ぼすマスキングの閾値として用いてもよい。全方位に関しては、マスカーが帯域雑音のときは、マスカーに対して前後対称の方位でその周囲の方向よりマスキーの閾値の上昇がみられ、それはマスカーの中心周波数が低いほど顕著である。また、マスカーが純音のときは、マスキーの方位による閾値の変化はフラットである。
さらに、各マスカーが単独で存在するときの、マスカーと同一の方位の信号のマスキング閾値とそれ以外の方位の信号のマスキングの閾値とのリニアスケールでの和を、自身の方位の信号に加えそれ以外の方位の信号も考慮したマスキング閾値として用いても差し支えない。
マスカーが0°のときは、マスキーの位置が0°のものが、もっとも閾値が高い。45°、90°と、マスキー位置がマスカーから離れるほど、閾値は下がった。しかし、135°から上昇を始め、180°では0°の場合とほぼ同程度まで、閾値が上昇した。すなわち、マスカーによるマスキング閾値の値が、受聴者の前後でほぼ対称の関係となっていた。
マスカーが45°のときは、マスキー位置が45°のときが、もっとも閾値が高くなった。90°では、閾値が下がった。135°で更に下がると思われたが、予想に反し、閾値が上がり、45°の時の閾値に近づいた。180°では閾値は下がり、225°では更に下がった。これは、マスカーが0°のときと同様に、マスキング閾値は、受聴者の前後で、ほぼ対称の関係となっている。すなわち、90°〜270°を結ぶ線を中心に線対称であった。
マスカーが90°、マスカー135°でも、同様の傾向であった。
すなわち、上述の式(1)により、マスキング閾値を計算可能となる。これに基づいてマスキング閾値を計算することで、信号の伝送に必要なビット数を削減することができる。
2 復号化装置
10 マイクロホンアレイ
20 集音部
30 周波数領域変換部
40 マスキング閾値算出部
50 情報量決定部
60 符号化部
70 方向算出部
80 送信部
90 復号化部
100 立体音響再生部
110 ヘッドフォン
X 音響システム
Claims (18)
- 符号化装置により実行される、複数のチャンネルの音響信号を符号化する音響信号符号化方法であって、
聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、
算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定し、
複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化する
ことを特徴とする音響信号符号化方法。 - 符号化装置により実行される、音源オブジェクト及び該音源オブジェクトの位置情報を符号化する音響信号符号化方法であって、
聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、
算出された前記マスキング閾値により、前記音源オブジェクトに割り振る情報量を決定し、
前記音源オブジェクト及び前記音源オブジェクトの位置情報を、割り振られた前記情報量で符号化する
ことを特徴とする音響信号符号化方法。 - 前記マスキング閾値は、
各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出される
ことを特徴とする請求項1又は2に記載の音響信号符号化方法。 - 前記マスキング閾値は、
前記チャンネル及び/又は前記音源オブジェクト間の空間的距離及び/又は方向が近づくほど相互に及ぼす影響が大きくなり、離れるほど相互に及ぼす影響が小さくなる前記空間的マスキング効果に対応して算出される
ことを特徴とする請求項3に記載の音響信号符号化方法。 - 前記マスキング閾値は、
受聴者からみて前後対称の位置にある前記チャンネル及び/又は前記音源オブジェクトについては、前記音源オブジェクト間の空間的距離及び/又は方向についての相互に及ぼす影響の度合いを変化させる前記空間的マスキング効果に対応して算出される
ことを特徴とする請求項3又は4に記載の音響信号符号化方法。 - 前記マスキング閾値は、
前記受聴者からみて後方の位置にある前記チャンネル及び/又は前記音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在する前記空間的マスキング効果に対応して算出される
ことを特徴とする請求項3乃至5のいずれか1項に記載の音響信号符号化方法。 - 前記マスキング閾値は、
各前記チャンネル及び/又は前記音源オブジェクトの信号が、トーン性の信号かノイズ性の信号かに対応して、各前記チャンネル及び/又は音源オブジェクトの信号の相互に及ぼす影響の度合いを変化させる前記空間的マスキング効果に対応して算出される
ことを特徴とする請求項3乃至6のいずれか1項に記載の音響信号符号化方法。 - 前記マスキング閾値は、
下記式(1)で調整される
T=β{max(y1、αy2)−1}
y1=f(x−θ)
y2=f(180−x−θ) …… 式(1)
ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは前記方向又はマスキーの方位を示す
ことを特徴とする請求項7に記載の音響信号符号化方法。 - Perceptual Entropy(PE)により、一サンプル当たりの平均ビット数が算出される
ことを特徴とする請求項1乃至8のいずれか1項に記載の音響信号符号化方法。 - 復号化装置により実行される音響信号復号化方法であって、
請求項1乃至9に記載の音響信号符号化方法により符号化された複数の前記チャンネルの音響信号を復号化する
ことを特徴とする音響信号復号化方法。 - 符号化装置により実行される、複数のチャンネルの音響信号を符号化するプログラムであって、前記符号化装置に、
聴覚の空間的マスキング効果に対応したマスキング閾値を算出させ、
算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定させ、
複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化させる
ことを特徴とするプログラム。 - 複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する符号化装置であって、
聴覚の空間的マスキング効果に対応したマスキング閾値を算出するマスキング閾値算出部と、
前記マスキング閾値算出部により算出された前記マスキング閾値により、各前記チャンネル及び/又は前記音源オブジェクトに割り振る情報量を決定する情報量決定部と、
複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化する符号化部とを備える
ことを特徴とする符号化装置。 - 請求項12に記載の符号化装置と、復号化装置とを備えた音響システムであって、
前記復号化装置は、
前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備える
ことを特徴とする音響システム。 - 請求項12に記載の符号化装置と、復号化装置とを備えた音響システムであって、
前記復号化装置は、
受聴者の向いている方向を算出する方向算出部と、
前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部と、
前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備え、
前記符号化装置の前記マスキング閾値算出部は、
前記マスキング閾値を、前記受聴者の位置と前記方向に対する、各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出する
ことを特徴とする音響システム。 - 前記復号化装置は、
前記復号化部により復号化された音声信号を、前記受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部を更に備える
ことを特徴とする請求項13又は14に記載の音響システム。 - 聴覚の空間的マスキング効果に対応したマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量が決定され、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化された信号を取得する信号取得部と、
前記信号取得部により取得された信号から、符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部とを備える
ことを特徴とする復号化装置。 - 受聴者の向いている方向を算出する方向算出部と、
前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部とを更に備える
ことを特徴とする請求項16に記載の復号化装置。 - 前記復号化部により復号化された音声信号を、前記受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部を更に備える
ことを特徴とする請求項16又は17に記載の復号化装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019027035 | 2019-02-19 | ||
JP2019027035 | 2019-02-19 | ||
PCT/JP2020/006211 WO2020171049A1 (ja) | 2019-02-19 | 2020-02-18 | 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020171049A1 true JPWO2020171049A1 (ja) | 2021-11-25 |
JP7232546B2 JP7232546B2 (ja) | 2023-03-03 |
Family
ID=72144598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021502010A Active JP7232546B2 (ja) | 2019-02-19 | 2020-02-18 | 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230136085A1 (ja) |
EP (1) | EP3929918A4 (ja) |
JP (1) | JP7232546B2 (ja) |
CN (1) | CN113574596A (ja) |
WO (1) | WO2020171049A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2023286698A1 (ja) * | 2021-07-12 | 2023-01-19 | ||
WO2024024468A1 (ja) * | 2022-07-25 | 2024-02-01 | ソニーグループ株式会社 | 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014016625A (ja) * | 2008-01-04 | 2014-01-30 | Dolby International Ab | オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法 |
JP2015531078A (ja) * | 2012-07-31 | 2015-10-29 | インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. | オーディオ信号処理方法および装置 |
JP2016518788A (ja) * | 2013-04-29 | 2016-06-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 動的閾値を用いた周波数帯域圧縮 |
JP2016524726A (ja) * | 2013-05-28 | 2016-08-18 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 球面調和係数に対して空間マスキングを実行すること |
JP2016224472A (ja) * | 2010-12-21 | 2016-12-28 | ドルビー・インターナショナル・アーベー | 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10107642A (ja) * | 1996-06-14 | 1998-04-24 | Texas Instr Inc <Ti> | デジタルオーディオ符号化信号におけるマスキングしきい値を計算する方法 |
US7333930B2 (en) * | 2003-03-14 | 2008-02-19 | Agere Systems Inc. | Tonal analysis for perceptual audio coding using a compressed spectral representation |
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
WO2009067741A1 (en) * | 2007-11-27 | 2009-06-04 | Acouity Pty Ltd | Bandwidth compression of parametric soundfield representations for transmission and storage |
US8219409B2 (en) * | 2008-03-31 | 2012-07-10 | Ecole Polytechnique Federale De Lausanne | Audio wave field encoding |
CN101847413B (zh) * | 2010-04-09 | 2011-11-16 | 北京航空航天大学 | 一种使用新型心理声学模型和快速比特分配实现数字音频编码的方法 |
CN102737635B (zh) * | 2011-04-08 | 2014-04-30 | 华为终端有限公司 | 一种音频编码方法以及音频编码设备 |
US9466305B2 (en) * | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
DE102013217367A1 (de) * | 2013-05-31 | 2014-12-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zur raumselektiven audiowiedergabe |
EP3373604B1 (en) * | 2017-03-08 | 2021-09-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for providing a measure of spatiality associated with an audio stream |
US10075802B1 (en) * | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
-
2020
- 2020-02-18 WO PCT/JP2020/006211 patent/WO2020171049A1/ja unknown
- 2020-02-18 EP EP20759801.2A patent/EP3929918A4/en active Pending
- 2020-02-18 JP JP2021502010A patent/JP7232546B2/ja active Active
- 2020-02-18 CN CN202080015479.XA patent/CN113574596A/zh active Pending
- 2020-02-18 US US17/432,098 patent/US20230136085A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014016625A (ja) * | 2008-01-04 | 2014-01-30 | Dolby International Ab | オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法 |
JP2016224472A (ja) * | 2010-12-21 | 2016-12-28 | ドルビー・インターナショナル・アーベー | 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置 |
JP2015531078A (ja) * | 2012-07-31 | 2015-10-29 | インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. | オーディオ信号処理方法および装置 |
JP2016518788A (ja) * | 2013-04-29 | 2016-06-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 動的閾値を用いた周波数帯域圧縮 |
JP2016524726A (ja) * | 2013-05-28 | 2016-08-18 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 球面調和係数に対して空間マスキングを実行すること |
Non-Patent Citations (1)
Title |
---|
加藤巧大ほか: "聴覚の空間的マスキング効果を考慮した3D音響信号の符号化に関する基礎検討", 電子情報通信学会技術研究報告, vol. 第118巻, 第497号, JPN6020022687, 7 March 2019 (2019-03-07), JP, pages 271 - 278, ISSN: 0004813281 * |
Also Published As
Publication number | Publication date |
---|---|
US20230136085A1 (en) | 2023-05-04 |
CN113574596A (zh) | 2021-10-29 |
WO2020171049A1 (ja) | 2020-08-27 |
EP3929918A4 (en) | 2023-05-10 |
JP7232546B2 (ja) | 2023-03-03 |
EP3929918A1 (en) | 2021-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2736274C1 (ru) | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий | |
KR101471798B1 (ko) | 다운믹스기를 이용한 입력 신호 분해 장치 및 방법 | |
Shilling et al. | Virtual auditory displays | |
JP4921470B2 (ja) | 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置 | |
Zahorik | Perceptually relevant parameters for virtual listening simulation of small room acoustics | |
KR20180108766A (ko) | 증강 현실 헤드폰 환경 렌더링 | |
Grimm et al. | Spatial acoustic scenarios in multichannel loudspeaker systems for hearing aid evaluation | |
KR20160015317A (ko) | 오디오 장면 장치 | |
Cubick et al. | Validation of a virtual sound environment system for testing hearing aids | |
Neidhardt et al. | Perceptual matching of room acoustics for auditory augmented reality in small rooms-literature review and theoretical framework | |
JP7232546B2 (ja) | 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 | |
Genovese et al. | Acoustic perturbations in HRTFs measured on mixed reality headsets | |
WO2018193163A1 (en) | Enhancing loudspeaker playback using a spatial extent processed audio signal | |
Völk | Interrelations of virtual acoustics and hearing research by the example of binaural synthesis | |
Hládek et al. | Communication conditions in virtual acoustic scenes in an underground station | |
Xie | Spatial sound: Principles and applications | |
WO2021261385A1 (ja) | 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム | |
Guthrie | Stage acoustics for musicians: A multidimensional approach using 3D ambisonic technology | |
Steffens et al. | Auditory orientation and distance estimation of sighted humans using virtual echolocation with artificial and self-generated sounds | |
US10999694B2 (en) | Transfer function dataset generation system and method | |
CN109688531B (zh) | 获取高音质音频变换信息的方法、电子装置及记录介质 | |
US10555105B2 (en) | Successive decompositions of audio filters | |
KR20160136716A (ko) | 오디오 신호 처리 방법 및 장치 | |
Sunder et al. | Modeling distance-dependent individual head-related transfer functions in the horizontal plane using frontal projection headphones | |
Ahrens | Characterizing auditory and audio-visual perception in virtual environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220826 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7232546 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |