JPWO2020171049A1 - 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 - Google Patents

音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 Download PDF

Info

Publication number
JPWO2020171049A1
JPWO2020171049A1 JP2021502010A JP2021502010A JPWO2020171049A1 JP WO2020171049 A1 JPWO2020171049 A1 JP WO2020171049A1 JP 2021502010 A JP2021502010 A JP 2021502010A JP 2021502010 A JP2021502010 A JP 2021502010A JP WO2020171049 A1 JPWO2020171049 A1 JP WO2020171049A1
Authority
JP
Japan
Prior art keywords
signal
masking
sound source
acoustic
masking threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021502010A
Other languages
English (en)
Other versions
JP7232546B2 (ja
Inventor
正之 西口
巧大 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Akita Prefectural University
Original Assignee
Akita Prefectural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Akita Prefectural University filed Critical Akita Prefectural University
Publication of JPWO2020171049A1 publication Critical patent/JPWO2020171049A1/ja
Application granted granted Critical
Publication of JP7232546B2 publication Critical patent/JP7232546B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Abstract

チャンネル数が多い音響信号でも十分なビットレートで符号化が可能な音響信号符号化方法を提供する。この音響信号符号化方法では、符号化装置1により実行される、複数のチャンネルの音響信号を符号化する。まず、聴覚の空間的マスキング効果に対応したマスキング閾値を算出する。そして、算出されたマスキング閾値により、複数チャンネルの音響信号を各チャンネルに割り振る情報量を決定する。この上で、複数のチャンネルの音響信号を、それぞれ割り振られた情報量で符号化する。これにより、複数のチャンネルの音響信号でも十分なビットレートでの符号化も可能となる。

Description

本発明は、特に音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び複合化装置に関する。
従来、音響信号(オーディオ信号)の符号化においては、複数のチャンネルに入力した音響信号のチャンネル毎の量子化におけるビット数を時間軸又は周波数軸で適応的に割り当てるビットアロケーション(ビット割り当て)による音響符号化技術がある。
近年、標準的に使用されているMPEG−2 AAC、MPEG−4 AAC、MP3等の音響信号の符号化においては、このビット割り当てにおいて、周波数軸における聴覚のマスキング効果が利用されている。
この聴覚におけるマスキング効果とは、ある音が他の音の存在によって聴こえにくくなる効果である。
特許文献1には、聴覚のマスキング効果が利用された音響信号符号化の技術の一例が記載されている。特許文献1の技術では、聴覚のマスキング効果を利用するために、マスキング効果のビット割り当ての閾値(以下、マスキング閾値という。)が計算されている。
特開平5−248972号公報
Andreas Spanias他著、「Audio Sigal Processing and Coding」、米国、、Wiley−Interscience,John Wiley & Sons,Inc、2007年
しかし、従来のマスキング閾値の計算では、複数のチャンネル同士の空間的な関係は考慮されていなかった為、チャンネル数が多い音響信号ではビットレート(帯域)が不足するおそれが生じるという問題があった。
本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。
本発明の音響信号符号化方法は、符号化装置により実行される、複数のチャンネルの音響信号を符号化する音響信号符号化方法であって、聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定し、複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化することを特徴とする。
本発明のプログラムは、符号化装置により実行される、複数のチャンネルの音響信号を符号化するプログラムであって、前記符号化装置に、聴覚の空間的マスキング効果に対応したマスキング閾値を算出させ、算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定させ、複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化させることを特徴とする。
本発明の符号化装置は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する符号化装置であって、聴覚の空間的マスキング効果に対応したマスキング閾値を算出するマスキング閾値算出部と、前記マスキング閾値算出部により算出された前記マスキング閾値により、各前記チャンネル及び/又は前記音源オブジェクトに割り振る情報量を決定する情報量決定部と、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化する符号化部とを備えることを特徴とする。
本発明の音響システムは、前記符号化装置と、復号化装置とを備えた音響システムであって、前記復号化装置は、受聴者の向いている方向を算出する方向算出部と、前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部と、前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備え、前記符号化装置の前記マスキング閾値算出部は、前記マスキング閾値を、前記受聴者の位置と前記方向に対する、各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出することを特徴とする。
本発明の復号化装置は、聴覚の空間的マスキング効果に対応したマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量が決定され、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化された信号を取得する信号取得部と、前記信号取得部により取得された信号から、符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部とを備えることを特徴とする。
本発明によれば、聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、算出されたマスキング閾値により、複数チャンネルの音響信号を各前記チャンネルに割り振る情報量を決定し、割り振られた情報量で符号化することで、チャンネル数が多い音響信号でも十分なビットレートでの符号化が可能な音響信号符号化方法を提供することができる。
本発明の実施の形態に係る音響システムのシステム構成図である。 本発明の実施の形態に係る音響符号化復号化処理のフローチャートである。 図2に示す音響符号化復号化処理の概念図である。 図2に示す音響符号化復号化処理の概念図である。 本発明の実施例に係る聴取実験の測定システムを示す概念図である。 本発明の実施例に係る聴取実験における閾値探索を示す概念図である。 本発明の実施例に係る聴取実験における回答画面の画面例である。 本発明の実施例に係るマスカーの方位が0°の際のマスキング閾値のピーク値を、横軸をマスキーの方位としてプロットしたグラフである。 本発明の実施例に係るマスカーの方位が45°の際のマスキング閾値のピーク値を、横軸をマスキーの方位としてプロットしたグラフである。 本発明の実施例に係るマスカーの方位が90°の際のマスキング閾値のピーク値を、横軸をマスキーの方位としてプロットしたグラフである。 本発明の実施例に係るマスカーの方位が135°の際のマスキング閾値のピーク値を、横軸をマスキーの方位としてプロットしたグラフである。
<実施の形態>
〔音響システムXの制御構成〕
まず、図1を参照して、本発明の実施の形態に係る音響システムXの制御構成について説明する。
音響システムXは、複数のチャンネルの音響信号を取得し、符号化装置1により符号化し、伝送し、復号化装置2により復号化し、再生することが可能なシステムである。
符号化装置1は、音響信号を符号化する装置である。本実施形態において、符号化装置1は、例えば、PC(Personal Computer)、サーバー、これらに装着するエンコーダーボード、専用のエンコーダー等である。本実施形態の符号化装置1は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する。たとえば、符号化装置1は、MPEG−2 AAC、MPEG−4 AAC、MP3、Dolby(登録商標)Digital、DTS(登録商標)等の音響符号化の方式に対応して、2チャンネル、5.1チャンネル、7.1チャンネル、22.2チャンネル等の複数チャンネルの音響信号についての符号化を行う。
復号化装置2は、復号化装置2により符号化された音響信号を復号化する装置である。本実施形態において、復号化装置2は、例えば、VR(Virtual Reality)やAR(Augmented Reality)用のHMD(Head-Mounted Display)、スマートフォン(Smart Phone)、ゲーム専用機、家庭用テレビ、無線接続ヘッドフォン、仮想多チャンネルヘッドフォン、映画館やパブリックビューイング会場の機器、専用のデコーダー及びヘッドトラッキングセンサー等である。復号化装置2は、符号化装置1で符号化され、有線や無線で伝送された音響信号を復号化して、再生する。
音響システムXは、主に、マイクロホンアレイ10、集音部20、周波数領域変換部30、マスキング閾値算出部40、情報量決定部50、符号化部60、方向算出部70、送信部80、復号化部90、立体音響再生部100、及びヘッドフォン110を含んで構成される。
このうち、周波数領域変換部30、マスキング閾値算出部40、情報量決定部50、及び符号化部60は、本実施形態の符号化装置1(送信側)として機能する。
方向算出部70、送信部80、復号化部90、立体音響再生部100、及びヘッドフォン110は、本実施形態の復号化装置2(受信側)として機能する。
マイクロホンアレイ10は、様々な音が様々な場所に存在するような空間である音空間の音声を収音する。具体的には、例えば、マイクロホンアレイ10は、360°の複数方向の音波を取得する。この際、ビームフォーミング処理によって指向性を制御し、各方向にビームを向けることで、音空間の空間サンプリングを行い、多チャンネルの音声ビーム信号を取得することが可能である。具体的には、本実施形態のビームフォーミングでは、マイクロホンアレイ10の各マイクロホンに到来する音波の位相差をフィルターにより制御し、各マイクロホンに到来する方向の信号を強調する。この上で、空間サンプリングとして、音場を空間的に切り分けて、空間的情報を含めたまま、多チャンネルで集音する。
集音部20は、複数のチャンネルの音声をまとめて、音響信号として符号化装置1に送信するミキサー等のデバイスである。
周波数領域変換部30は、空間サンプリングすることで得られた方向別の音声ビーム信号を数マイクロ秒〜数十ミリ秒程度のウィンドウ(フレーム)に切り出し、DFT(discrete Fourier transformation、離散フーリエ変換)やMDCT(Modified Discrete Cosine Transform、変形離散コサイン変換)等によって、時間領域から周波数領域へ変換する。このフレームは、例えば、サンプリング周波数48kHz、量子化ビット数16ビットで、2048サンプル程度を用いることが好適である。周波数領域変換部30は、このフレームを、各チャンネルの音響信号として出力する。すなわち、本実施形態の音響信号は、周波数領域の信号となる。
マスキング閾値算出部40は、周波数領域変換部30により変換された各チャンネルの音響信号から、聴覚の空間的マスキング効果に対応したマスキング閾値を算出する。この際、マスキング閾値算出部40は、空間的マスキング効果を考慮したモデルを適用して、その上で、周波数領域でのマスキング閾値を計算する。この周波数領域でのマスキング閾値の計算自体は、例えば、非特許文献1に記載の方式で実現することが可能である。
または、マスキング閾値算出部40は、音源オブジェクトを取得し、同様に、聴覚の空間的マスキング効果に対応したマスキング閾値を算出することも可能である。この音源オブジェクトは、空間的に異なる位置から発生された複数の音響信号のそれぞれを示す。この音源オブジェクトは、例えば、位置情報が付された音響信号である。これは、例えば、オーケストラの各楽器を収録するようなマイクの出力信号、ゲーム等で用いるサンプリングされた音声信号等が、周波数領域の音響信号に変換されたものでもよい。
さらに、マスキング閾値算出部40は、一旦、集音され、フラッシュメモリー、HDD、光学記録媒体等の記録媒体に格納された音響信号を取得したり、変換したりして、周波数マスキングを計算することも可能である。
具体的には、上述の空間的マスキング効果のモデルとして、マスキング閾値算出部40は、マスキング閾値を、受聴者の位置方向情報に対する、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出することも可能である。
または、マスキング閾値算出部40は、マスキング閾値を、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出してもよい。
より具体的には、マスキング閾値算出部40は、マスキング閾値を、チャンネル及び/又は音源オブジェクト間の空間的距離及び/又は方向が近づくほど相互に及ぼす影響が大きくなり、離れるほど相互に及ぼす影響が小さくなるような空間的マスキング効果に対応して算出してもよい。
加えて、マスキング閾値算出部40は、マスキング閾値を、受聴者からみて前後対称の位置にあるチャンネル及び/又は音源オブジェクトについては、音源オブジェクト間の空間的距離及び/又は方向についての相互に及ぼす影響の度合いを変化させるような空間的マスキング効果に対応して算出してもよい。
さらに、マスキング閾値算出部40は、マスキング閾値を、受聴者からみて後方の位置にあるチャンネル及び/又は音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在するような空間的マスキング効果に対応して算出してもよい。
具体的には、マスキング閾値算出部40は、マスキング閾値を算出する際、
下記の式(1)で調整してもよい。

T=β{max(y1,αy2)−1}
y1=f(x−θ)
y2=f(180−x−θ) …… 式(1)

ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは求める方向又はマスキーの方位を示す。
より具体的に説明すると、本実施形態において、聴こえを妨害する音を「マスカー」といい、聴こえが妨害される音を「マスキー」という。maxは、引数内の最大値を返す関数である。定数については、マスカーが400Hzの場合、α=1、マスカーが1kHzの場合、α=0.8のような値を用いることが可能である。マスカーがノイズ性の場合は、β=11〜14、純音(トーン性)の場合は3〜5程度の値を用いることが可能である。すなわち、マスカーがトーン性の場合は、Tは、xの値にかかわらず、全てのθについてフラットとなる。
この式(1)のf(x)は、例えば、下記の式(2)に示す三角波のようなリニアな関数を用いることが可能である。
Figure 2020171049
このうち、xは、求める方位、又は、マスキーの方位を用いることが可能である。この方位は、マイクロホンのビームフォーミングの方向、音源オブジェクトの方向等に対応する。
なお、f(x)として、f(x)=cos(x)のような式も、用いることが可能である。さらに、f(x)として、これ以外の、例えば、実際のマスカー、マスキーの実験結果から算出された関数等も用いることが可能である。
マスキング閾値算出部40は、マスキング閾値を、各チャンネル及び/又は音源オブジェクトの信号が、トーン性の信号かノイズ性の信号かに対応して、各チャンネル及び/又は音源オブジェクトの信号の相互に及ぼす影響の度合いを変化させる空間的マスキング効果に対応して算出してもよい。
情報量決定部50は、マスキング閾値算出部40により算出されたマスキング閾値により、音源オブジェクトに割り振る情報量を決定する。本実施形態では、この情報量として、マスキング閾値に基づいた各音響信号のビット割り当てが行われる。情報量決定部50は、このビット割り当てとして、Perceptual Entropy(以下、「PE」という。)により、一サンプル当たりの平均ビット数を、マスキング閾値算出部40により算出されたマスキング閾値に対応して算出することが可能である。
符号化部60は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに音源オブジェクトの位置情報を、それぞれ割り振られた情報量で符号化する。本実施形態では、符号化部60は、情報量決定部50により割り当てられたビット数に基づいて各音響信号を量子化し、伝送路へ送信する。この伝送路は、例えば、Bluetooth(登録商標)、HDMI(登録商標)、WiFi、USB(Universal Serial Bus)、その他の有線や無線の情報伝送手段を用いることが可能である。より具体的には、インターネットやWiFi等のネットワークを介した、ピアツーピア(Peer to Peer)通信によって伝送可能である。
方向算出部70は、受聴者の向いている方向を算出する。方向算出部70は、例えば、ヘッドトラッキングが可能な加速度センサー、ジャイロセンサー、地磁気センサー等と、これらの出力を方向情報に変換する回路とを含む。
この上で、方向算出部70は、算出された方向情報に、受聴者に対する音源オブジェクトや複数チャンネルの音響信号についての位置の関係を考慮した位置情報を加えた位置方向情報を算出可能である。
送信部80は、方向算出部70により算出された位置方向情報を符号化装置1に送信する。送信部80は、例えば、音響信号の伝送路と同様の有線や無線の伝送により、位置方向情報をマスキング閾値算出部40で受信可能に送出することが可能である。
復号化部90は、符号化装置1で符号化された複数のチャンネルの音響信号、及び/又は音源オブジェクトを音声信号に復号化する。復号化部90は、例えば、まず、伝送路から受信した信号を逆量子化する。次に、IDFT(Inverse Discrete Fourier Transform、逆離散フーリエ変換、離散フーリエ逆変換)、IMDCT(Inverse Modified Discrete Cosine Transform、逆変形離散コサイン変換)等により、周波数領域の信号を時間領域に戻して、各チャンネルの音声信号に変換する。
立体音響再生部100は、復号化部90により復号化された音声信号を、受聴者に対する立体音響を再生するような立体音響信号に変換する。具体的には、立体音響再生部100は、時間領域に戻された方向別のビーム信号をその方向にある音源から発せられた信号とみなして、ビーム方向のHRTF(Head-Related Transfer Function、頭部伝達関数)をそれぞれ畳み込む。HRTFは、耳殻、人頭及び肩までふくめた周辺物によって生じる音の変化を伝達関数として表現したものである。
次に、HRTFが畳み込まれた信号にビーム方向別の重み付けを行ってから加算することで、聴取者に提示する2チャンネルの両耳信号を生成する。このうち、ビーム方向別重み付けとは、L信号及びR信号である両耳信号が再現したい音空間における両耳信号により近づくような重み付けを行う処理である。具体的には、ある音空間に存在する各音源に音源方向のHRTFをそれぞれ畳み込んで加算することにより、両耳信号を生成する。その両耳信号を目標信号とし、出力として得られた両耳信号が目標信号と等しくなるように、出力信号に重みを付加する処理を行う。
立体音響再生部100は、上述のマスキング閾値とは別に、方向算出部70により算出された位置方向情報により、HRTFをアップデートし、立体音響を再生することが可能である。
ヘッドフォン110は、復号化され、立体音響化された音響を受聴者が再生するデバイスである。ヘッドフォン110は、D/Aコンバーター、アンプ(Amplifier)、電磁ドライバー、ユーザーの装着する耳当て等を備えている。
これに加え、符号化装置1及び復号化装置2は、例えば、各種回路として、ASIC(Application Specific Processor、特定用途向けプロセッサー)、DSP(Digital Signal Processor)、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の制御演算手段である制御部を含んでいる。
加えて、符号化装置1及び復号化装置2は、記憶手段として、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリー、HDD(Hard Disk Drive)等の磁気記録媒体、光学記録媒体等である記憶部を含んでいる。この記憶部には、本発明の実施の形態に係る各方法を実現するための制御プログラムが格納されている。
さらに、符号化装置1及び復号化装置2は、液晶ディスプレイや有機ELディスプレイ等の表示手段、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力手段、LANボード、無線LANボード、シリアル、パラレル、USB(Universal Serial Bus)等のインターフェイスを含んでいてもよい。
また、符号化装置1及び復号化装置2は、主に記憶手段に格納された各種プログラムを用いて制御部が実行することで、本発明の実施の形態に係る各方法を、ハードウェア資源を用いて実現することができる。
なお、上述の構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
〔音響システムXによる音響符号化復号化処理〕
次に、図2及び図3を参照して、本発明の実施の形態に係る音響システムXによる音響信号符号化復号化処理の説明を行う。
本実施形態の音響信号符号化復号化処理は、主に符号化装置1及び復号化装置2において、それぞれ、制御部が記憶部に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
以下で、図2のフローチャートを参照して、音響信号符号化復号化処理の詳細をステップ毎に説明する。
(ステップS101)
まず、符号化装置1の周波数領域変換部30が、音声データ取得処理を行う。
ここでは、集音者がスタジアム等に赴き、マイクロホンアレイ10を用いて収音を行う。これにより、マイクロホンアレイ10を中心とした各方向(θ)の音声信号が取得される。この際に、収音側では、「空間サンプリング」の考え方に基づいて収音を行う。空間サンプリングは、音場を空間的に切り分けて多チャンネルで収音するものである。本実施形態では、例えば、左右0°〜360°を区切った特定ステップの音声信号を、複数チャンネルに対応して収音する。なお、上下方向の0°〜360°についても、特定ステップに区切って収音することが可能である。
周波数領域変換部30は、これらの集音された音声データ等を切り出し、DFT、MDCT等によって、時間領域から周波数領域の信号へ変換し、音響信号として記憶部に格納する。
(ステップS201)
ここで、復号化装置2の方向算出部70が、方向算出処理を行う。
方向算出部70は、受聴者の向いている方向情報と、音響データに対しての位置情報とを算出する。
(ステップS202)
次に、送信部80が、方向送信処理を行う。
送信部80は、方向算出部70により算出された位置方向情報を、符号化装置1へ送信する。
(ステップS102)
ここで、符号化装置1のマスキング閾値算出部40が、マスキング閾値算出処理を行う。本実施形態では、周波数領域でマスキング閾値Tを計算して、後述する空間的マスキングのマスキング閾値を更に算出し、ビット割り当てを決定する。このため、マスキング閾値算出部40は、まず、周波数帯域でのマスキング閾値Tを算出する。
図3(a)により、聴覚におけるマスキング効果について説明する。聴覚におけるマスキング効果は、ある音が他の音の存在によって聴こえにくくなる効果である。以下、聴こえを妨害する音を「マスカー」といい、聴こえが妨害される音を「マスキー」という。
マスキング効果は、周波数マスキング(同時マスキング)及び時間マスキング(継時マスキング)に大別される。周波数マスキングは、マスカーとマスキーが時間的に重なっている場合に生じるマスキングであり、時間マスキングは時間的に離れている場合に生じるマスキングである。
図3(a)のグラフにおいて、横軸は周波数、縦軸は信号のエネルギーである。すなわち、図3(a)は、ある信号に含まれるある1本のスペクトル(純音)をマスカーとしたときに、このマスカーによってマスクされるスペクトル(マスキー)の範囲及び閾値の例のグラフである。このように、信号成分の存在しないマスカーの周波数近傍についても、マスキーの閾値が上昇する。また、閾値が上昇する周波数範囲はマスカーの周波数に対して対称ではなく、マスカーに対してマスキーの周波数が高いほうが低い周波数の音よりマスクされやすい。したがって、聴覚的には、マスカーはマスカーの周波数だけではなくその両側に広がった成分を持つような状況が生じる。
図3(b)により、符号化における周波数マスキング適用の概念を示す。このグラフにおいて、横軸は周波数、縦軸は信号のエネルギーである。太い黒曲線は信号のスペクトルを表す。また、灰色の曲線はマスキング閾値を表す。ここで、図3(b)において塗りつぶされている範囲が、周波数マスキングによってマスクされ知覚されない部分となる。このとき、図3(b)において実際に音の知覚に寄与する部分は、信号のスペクトルを表す曲線とマスキング閾値を表す曲線に挟まれた部分となる。また、図3(b)における高域のように、信号スペクトルのエネルギーがマスキング閾値より小さくなる周波数は、音の知覚に寄与しない。つまり、信号スペクトルのエネルギーからマスキング閾値を引いたエネルギーに応じたビットのみを割り当てることによっても、聴覚的には劣化が知覚されない状態で信号を伝送することが可能となる。このように、周波数領域でのマスキング効果を用いることで、伝送に必要なビット数を聴覚的な品質を保持したまま削減することが可能である。
なお、図3(b)のような全帯域にわたるマスキング閾値を表す曲線は、単一のスペクトル又は雑音に関するマスキングの知見を用いて、各周波数成分に関するマスキング閾値を計算し、それらを総合することによって得られる。
ここで、この周波数帯域でのマスキング閾値Tの詳細な計算方法について説明する。
マスキング閾値算出部40は、例えば、特許文献1に記載されたようなBarkスペクトルにマスキング閾値計算式(Spreading Function、以下、「SF」という。)を畳み込む。そして、マスキング閾値算出部40は、Spectral Flatness measure(SFM)及び調整係数を用いて、Spreadマスキング閾値Tspreadを算出する。この上で、マスキング閾値算出部40は、逆畳み込みにより、Spreadマスキング閾値Tspreadを、Barkスペクトルの領域に戻すことで、仮の閾値Tを算出する。この上で、本実施形態においては、マスキング閾値算出部40は、仮の閾値Tを、各Barkインデックスに該当するDFTスペクトルの本数で割ってから、絶対閾値と比較することで、仮の閾値Tが、周波数マスキングの最終的な閾値Tfinalに変換される。
より具体的に説明すると、マスキング閾値算出部40が仮の閾値Tと比較する絶対閾値として、周波数f(Hz)における絶対閾値の近似式Tqf[dBSPL]は、下記の式(3)により算出される。

qf=3.64(f/1000)-0.8−6.5exp{−0.6(f/1000−3.3)2}+10-3(f/1000)4+OLSB…… 式(3)

ここで、式(3)で加えられるOLSBは、周波数4kHzの時の絶対閾値Tq4000=min(Tqf)が、周波数4kHz/振幅1bitの信号のエネルギーに一致するようなオフセット値である。
具体的には、マスキング閾値算出部40は、周波数マスキングのi番目の周波数帯域(最終帯域)における閾値Tfinalを、下記の式(4)により算出する。
Figure 2020171049
この上で、マスキング閾値算出部40は、この周波数帯域の閾値Tfinalから、聴覚の空間的マスキング効果に対応したマスキング閾値を更に算出する。この際、マスキング閾値算出部40は、音響信号の方向情報を用いて、空間的マスキングを考慮した周波数マスキング閾値を計算する。
図3(c)により、聴覚の空間的マスキング効果に対応したマスキング閾値について説明する。
従来の音響符号化方式におけるマスキング閾値の計算では、多くの場合で、自身のチャンネルのマスキング閾値は自身のチャンネルの信号成分のみを用いて計算している。つまり、チャンネルが複数存在する音響信号においては、対象チャンネル以外のチャンネルの信号によるマスキングを対象チャンネルのマスキングに考慮せず、各チャンネル独立にマスキング閾値を決定することとなる。
ここで、本実施形態で用いるような空間サンプリングされた音響信号は、隣接するチャンネル間での信号の相関が大きく、波形が類似した部分とそうでない部分が混在していると考えられる。したがって、マスキングの観点から考えると、空間サンプリングされた信号の符号化には、各チャンネルにおけるマスキングの情報をチャンネル間で相互に適用できる可能性がある。そこで本実施形態では、空間サンプリングされた信号の符号化のために、マスキング効果を空間領域に拡張した「空間的マスキング」を用いる。
図3(c)の概念図では、横軸は信号の空間的方向、奥行きは周波数、縦軸は信号のエネルギーを表す。マスカーの信号の裾野にある四角錐の内側の領域がこの信号によりマスクされるであろう領域を表す。図3(b)の周波数マスキングと比較すると、図3(c)では、方向の次元が追加されており、次元が一つ増えていることがわかる。なお、空間的方向には方位角及び仰角が含まれる。図3(c)のように、空間的マスキングでは、マスキング閾値を表す曲線は3次元的になる。つまり、空間方向においてもマスキングが及び、マスクされる信号が生じる。このような空間的マスキングでは、両耳情報が相互作用する聴覚の中枢系に関わるマスキングとなる。
図4により、空間的マスキングのマスキング閾値の計算について説明する。図4は、1からNまでのN方向の信号のうち、i方向の信号に対して、空間的マスキングを考慮したマスキング閾値を計算する例である。各グラフの横軸は周波数、縦軸は信号のエネルギーである。各グラフ共に、黒実線が信号スペクトルを表し、灰色実線がそれらより計算されるマスキング閾値を表す。黒の破線は、各方向の信号のマスキング閾値に重み付けを行ったものである。灰色の点線は、各方向の信号によるマスキングをすべて考慮した、i方向の信号のマスキング閾値を表す。
より具体的に説明すると、本発明者らは、後述する実施例の聴取実験の結果を踏まえ、全方位音源における空間的マスキングを考慮したマスキングモデルを作成し、下記のように計算を行った。
計算手順は次のようになる。まず、各方向の信号に関して、従来の周波数領域マスキングと同様の考え方でマスキング閾値を計算する。次に、それらの各方向のマスキング閾値Tを得るために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重みを、上述の式(1)に対応した関数Tspatial(θ,x)により算出し、それぞれ重み付けする。ただし、自身すなわちi方向の信号のマスキング閾値に対する重み付けはゼロdB、すなわち、リニアスケールでは1となるようにする。次に、重み付けされた全方向のマスキング閾値をリニアスケールで総和する。これにより、空間的マスキングを考慮したi方向の信号のマスキング閾値が得られる。以上の処理を、他の方向の信号についても同様に行うことで、空間的マスキングを考慮した閾値を全周の信号に対して得ることができる。
関数Tspatialの詳細について以下に説明する。関数Tspatialは、マスカーの方位及びマスキーの方位を変数として入力したときに、マスカーの存在する方位からのマスキング閾値の減衰量をデシベルで出力する関数である。したがって、Tspatialはマスカーの存在する方位で最大値が0[dB]となるように決定する。
本実施形態においては、マスカーの方位を[deg.]、マスキーの方位をx[deg.]として、関数Tspatial(θ,x)[dB]を、下記、式(4の2)で算出する。
spatial(θ,x)=β{max(f(x−θ ),αf(180°−x−θ))−1} …… 式(4の2)

ここで、α,βはスケーリング係数であり、0≦α≦1,0≦βである。maxは、引数内の最大値を返す関数である。fは、位相0°で最大値をとるような周期360°の任意の周期関数とする。
本実施形態においては、この周期関数f(x)として、例えば、上述の式(2)と同様の三角波を用いることが可能である。このように関数fを定義すると、f(x−θ)は、マスカーの存在する方位で0dBとなり、それとは正反対の方位、すなわち180°進んだ方位でレベルが最小となるような閾値の変化を表す。それに対して、f(180−x−θ)はマスカーの存在する方位に対して前後対称の方位で0dBとなり、それとは正反対の方位、すなわち180°進んだ方位でレベルが最小となるような閾値の変化を示す。つまり、「マスカーの存在する方位からの閾値の減衰」及び「マスカーの存在する方位に対して前後対称となる方位からの閾値の減衰」をそれぞれ表現するように位相を合わせた関数fを2つ用意し、それらの最大値をとってスケーリングすることにより、「マスキーがマスカーから離れた方位にあるほど閾値が減少する現象」及び「閾値が前頭面で折り返されるような現象」の2つを同時に表現したマスキング閾値を算出可能となる。
スケーリング係数α(0≦α≦1)は、「マスカーの周波数(中心周波数)が低いほど、マスキーがマスカーに対して前後対称の方位にあるときの閾値の上昇が顕著にみられる」というマスキング効果を反映するための係数である。αは、マスカーの周波数が低いほど1に近づき、マスカーの周波数が高いほど0に近づくように決定する。そうすることで、f(180−x−θ)を、マスカーの周波数に応じてスケーリングし、閾値の前頭面での折り返し度合いを調整することが可能となる。
スケーリング係数β(0≦β)は、「マスカーが純音のときには、マスキーの方位による閾値の変化はフラットである」という知見を反映するための係数である。βはマスカーの調性がトーン性であるほど0に近づき、マスカーの調性がノイズ性であるほど値が大きくなるように決定する。そうすることで、θ及びxが変化したときの、関数Tspatial全体としての値の振れ幅を、マスカーが純音かノイズかに応じて調整することが可能となる。
このように、本実施形態では、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重みTを適用する。この重みを乗じた各方向の周波数領域マスキングの閾値を足し合わせることで、当該方向(x方向)のマスキング閾値が(周波数軸上で)算出可能となる。
なお、α,βは、実施例で示したように、実際の実験により総当たりすることにより、周波数及びSFMに対応した最適値を算出し、これをテーブルとして当てはめることも可能である。
(ステップS103)
次に、情報量決定部50が、情報量決定処理を行う。
本実施形態の音響システムXでは、空間サンプリングされた信号の方向情報を利用し、空間領域を考慮したビット割り当てを周波数領域において行う。また、空間領域を考慮したビット割り当てを行うために、マスキング効果を用いる。
このため、情報量決定部50は、マスキング閾値算出部40により算出されたマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量を決定する。聴覚の空間的マスキング効果に対応したマスキング閾値を用いることで、空間領域を考慮した周波数軸上のビット割り当てを行うことが可能となる。すなわち、聴覚の空間的マスキング効果を用いることで伝送に必要な信号のビット数を聴覚的な品質を保持したまま削減可能となる。
本実施形態において、情報量決定部50は、聴覚のマスキング効果を積極的に利用するため、例えば、PEを用いて、情報量としてビット割り当てを算出する。マスキング閾値未満の信号には人間の聴覚にとって意味のある情報は無い、すなわち量子化雑音に埋もれても良いものとして音楽信号の持つ平均情報量を計算したものがPEである。
このPEは、下記、式(5)により算出可能である。
Figure 2020171049
ここで、Tiは、Bark領域での臨界帯域の閾値となり、Ti/ki=Tfinal iとして挿入される。
(ステップS104)
次に、符号化部60が、符号化処理を行う。
符号化部60は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに音源オブジェクトの位置情報を、それぞれ割り振られた情報量で符号化する。
符号化されたデータは、受信側の復号化装置2へと伝送される。この伝送は、例えば、ピアツーピア通信により行われる。又は、データとしてダウンロードされたり、メモリーカードや光学記録媒体として復号化装置2に読み込まれたりしてもよい。
(ステップS203)
ここで、復号化装置2の、復号化部90が、復号化処理を行う。
復号化部90は、符号化装置1で符号化された複数のチャンネルの音響信号、及び/又は音源オブジェクトを音声信号に復号化する。具体的には、復号化装置2がスマートフォン等の場合、符号化装置1で伝送された音響信号を、特定のコーデック等のデコーダー等で復号化する。
(ステップS204)
次に、立体音響再生部100が、立体音響再生処理を行う。
立体音響再生部100は、復号化部90により復号化された音声信号を、受聴者に対する立体音響を再生するような立体音響信号に変換する。
具体的には、立体音響再生部100は、多チャンネルの音声信号を2チャンネルの音声信号として空間的情報を含めたまま再生する。これは、各音声信号に音源から人間の耳元までの音の伝達特性を付加し、全方向にわたって加算することにより実現可能である。つまり、立体音響再生部100は、方向別の音信号を合成し、ヘッドフォンを用いて再生させる。このため、各音声信号の方向に対応する頭部伝達関数(HRTF)を畳み込み、2チャンネルの音信号に変換する。具体的には、立体音響再生部100は、例えば、各音響信号に、各信号の方向に対応するHRTFの伝達特性を付加し、Lチャンネル、Rチャンネルそれぞれにおいて信号の総和をとって出力する。これにより、ヘッドフォンによる2チャンネルの音声信号として再生することが、収音側のチャンネル数に依存せず、手軽に再生できる。
以上により、本発明の実施の形態に係る音響信号符号化復号化処理を終了する。
以上のように構成することで、以下のような効果を得ることができる。
近年、音響再生環境の多チャンネル化、あるいはAR(拡張現実)やVR(仮想現実)に於けるバイノーラル再生の普及とともに、3D音場の収音、伝送、再生、強調技術の重要性が増している。
ここで、空間サンプリングされた信号の符号化では、聴取者を取り囲む全周の音信号を対象とする必要があるため、サンプリングする方向が増えるほどチャンネル数が膨大となり、より高い合計ビットレートが必要となる。
例として、スマートフォン等を用いてインターネットを介して伝送することを考える。音楽配信サービスの1つであるSpotify(登録商標)では、ストリーミング再生時のビットレートは2チャンネルのステレオで最高320kbps程度となっている。空間サンプリングでは2チャンネルより多いチャンネル数の信号を伝送することが想定されるので、1チャンネルあたりのビットレートをより低ビットレート化する必要があった。
一方、従来、音響信号の符号化(MPEG等のデータ圧縮)に於いては、聴覚のマスキング効果が利用されてきた。しかしそのマスキングは、主に周波数軸上のマスキング効果のみが用いられてきた。MPEG−2 AAC、MPEG−4 AACや、MP3等の音響符号化においても、多チャンネル信号の符号化においても、チャンネル毎の周波数軸における聴覚のマスキング効果が利用されてきた。
しかし、一般に多チャンネル信号によって表現される音場は、空間的に散在する複数の音源から構成される。これについて、同時刻に複数の音源が空間的に配置された際の相互のマスキング効果や聞こえについては、その作用、効果が明らかにされておらず、応用に至っていなかった。すなわち、3次元空間に配置された音源が相互にどのようなマスキング効果を与え、どのように影響を及ぼしながら聴覚に関する知覚が形成されるのかについては、何も知られていなかった。すなわち、従来のマスキング閾値の計算では、チャンネル同士の空間的な関係は考慮されていなかった。
これに対して、本発明の実施の形態に係る符号化装置1は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する符号化装置であって、聴覚の空間的マスキング効果に対応したマスキング閾値を算出するマスキング閾値算出部40と、マスキング閾値算出部40により算出されたマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量を決定する情報量決定部50と、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに音源オブジェクトの位置情報を、それぞれ割り振られた情報量で符号化する符号化部60とを備えることを特徴とする。
このように構成し、複数チャンネルの音響信号又は音源オブジェクトとその位置情報を符号化する際に、聴覚の空間的なマスキング効果を勘案して各チャンネル及び音源オブジェクトに割り振るビット数を決めることで、方向情報を持った多チャンネル信号の圧縮に応用できる。これにより、チャンネル同士の空間的な関係を考慮した符号化が可能となる。
ここで、従来のマスキング閾値の計算では、チャンネル同士の空間的な関係は考慮されていなかったため、22.2チャンネル音響等、より臨場感を高めたチャンネル数が多い音響信号では、ビット割り当てによる圧縮が十分できず、伝送時等のビットレート(帯域)が不足するおそれがあった。
これに対して、本発明の実施の形態に係る音響信号符号化方法では、多チャンネル信号によって表現される音場は、空間的に散在する複数の音源から構成される。空間サンプリングされた信号には空間的情報が含まれるため、従来の周波数領域に加えて空間領域も考慮したビット割り当てを行うことで、より伝送ビット数を削減することも可能になる。
これにより、22.2チャンネル等、チャンネル数が多い音響信号でも十分なビットレートでの符号化が可能な音響信号符号化方法を提供することができる。つまり、空間的に散在する複数の音源について、相互のマスキング効果に基づいてマスキング閾値を求め、その閾値に基づいたビット割り当てを行うことで、ビットレートを削減できる。本発明者らの実験によれば、従来より5〜20%ビットレートを削減可能である。
本発明の音響システムXは、記載の符号化装置1と、復号化装置2とを備えた音響システムであって、復号化装置2は、受聴者の向いている方向を算出する方向算出部70と、方向算出部70により算出された方向を符号化装置1に送信する送信部80と、符号化装置1で符号化された複数のチャンネルの音響信号、及び/又は音源オブジェクトを音声信号に復号化する復号化部90を備え、符号化装置1のマスキング閾値算出部40は、マスキング閾値を、受聴者の位置と方向に対する、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出することを特徴とする。
このように構成することで、上述の聴覚の空間的マスキング効果に対応したマスキング閾値を用いて符号化で符号化された音響信号を復号化する際に、ヘッドトラッキング等によって受聴者の向いている方向情報を算出し、音像の位置を制御する聴覚ディスプレイを実現できる。すなわち、各チャンネルの音源の位置、又は音源オブジェクトの位置と受聴者との相対的な位置関係を、符号化装置1にフィードバックし、その位置関係に基づいて符号化を行わせ、復号化を行わせることが可能となる。
これにより、360°、全天球の音空間をユーザー間で手軽に収音、伝送、再生して楽しむことができる音響システムを提供できる。
従来、3D(三次元)音場再生技術としては、音楽や放送・映画コンテンツを、ヘッドフォンや2個のフロントスピーカーでサラウンドとして楽しむバイノーラル/トランスオーラルによる聴覚ディスプレイ技術、ホームシアター向けの5.1チャンネルや7.1チャンネルサラウンド再生環境で実在するホールや劇場の音場を模擬する音場再現技術等が開発されてきた。更にスピーカーアレーによる波面合成を用いた3D音場再生技術の開発も進んでいる。このような再生方式の進化とともに、収音及びコンテンツ表現の多チャンネル化が一般化してきている。
しかしながら、3D音響の再生技術としては、頭部伝達関数と定位に関する実施形態は盛んに行われているが、空間的マスキングとの関連は検討されていなかった。
これに対して、本発明の音響システムは、復号化装置2は、復号化部90により復号化された音声信号を、受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部100を更に備えることを特徴とする。
このように構成することで、3次元空間の音場に散在する複数の音源の相互関係やマスキング効果を適用して効率的に符号化された音響信号を、空間的な音響信号の知覚に関して、頭部伝達関数(HRTF)と関連付けて、2チャンネルで再生できる。すなわち、人間が3D音場をどのように捉えているかに対応して符号化された音響信号を立体音響として再生することで、従来よりも現実感の高い音場を再生できる。
これは、画像において「忠実に色再現するよりも、人間が受ける「印象」を「記憶色」として再現することでよりリアル感が増す」といった効果と同様の効果と考えられる。すなわち、より現実感が高い音場再現を実現することが可能となる。
本発明の音響信号符号化方法は、マスキング閾値は、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出されることを特徴とする。
このように構成し、例えば、各チャンネル間及び/又は各音源オブジェクト間の空間的距離若しくは方向に基づいて算出したモデルを用いて、空間的マスキング効果に基づいた符号化が可能となる。すなわち、ヒトが3次元空間上に散在する音を聴くときに、空間的に配置された音源の空間的距離及び/又は方向に基づいた相互のマスキング効果を符号化に応用することで、より効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
本発明の音響信号符号化方法は、マスキング閾値は、チャンネル及び/又は音源オブジェクト間の空間的距離及び/又は方向が近づくほど相互に及ぼす影響が大きくなり、離れるほど相互に及ぼす影響が小さくなる空間的マスキング効果に対応して算出されることを特徴とする。
このように構成し、例えば、チャンネル及び/又は音源オブジェクト間の空間的距離あるいは方向が近づくほどチャンネル相互及び/又は音源オブジェクト相互に及ぼす影響が大きくなり、離れるほどその影響が小さくなるというモデルにより、空間的マスキング効果を算出することができる。このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
本発明の音響信号符号化方法は、マスキング閾値は、受聴者からみて前後対称の位置にあるチャンネル及び/又は音源オブジェクトについては、音源オブジェクト間の空間的距離及び/又は方向についての相互に及ぼす影響の度合いを変化させる空間的マスキング効果に対応して算出されることを特徴とする。
このように構成し、受聴者からみて前後対称の位置にあるチャンネル又は音源オブジェクトについては、必ずしも音源オブジェクト間の空間的距離あるいは方向が近づくほどチャンネル相互又は音源オブジェクト相互に及ぼす影響が大きくなり、離れるほどその影響が小さくなるというわけではないモデルにより、空間的マスキング効果を算出することができる。これにより、例えば、マスカーと前後対称の位置では空間的距離が離れるのに影響が強くなるといった空間的マスキング効果に対応して、マスキング閾値の上昇を大きく算出することが可能である。
このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
本発明の音響信号符号化方法は、マスキング閾値は、受聴者からみて後方の位置にあるチャンネル及び/又は音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在する空間的マスキング効果に対応して算出されることを特徴とする。
このように構成し、受聴者からみて後方の位置にあるチャンネル又は音源オブジェクトについては、前後対称の位置に該当する、鏡写しにした前方に当該チャンネル又は当該オブジェクトが存在する空間的マスキング効果を用いたマスキング閾値を算出することができる。すなわち、両耳を結ぶ直線を軸に、その軸より後方にある音源は、その軸を中心とする線対称の位置に該当する、軸の前方に移動するようにマスキング閾値を算出する。
このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
本発明の音響信号符号化方法は、マスキング閾値は、各チャンネル及び/又は音源オブジェクトの信号が、トーン性の信号かノイズ性の信号かに対応して、各チャンネル及び/又は音源オブジェクトの信号の相互に及ぼす影響の度合いを変化させる空間的マスキング効果に対応して算出されることを特徴とする。
このように構成し、空間的マスキング効果として、各チャンネル信号又は音源オブジェクトが、トーン性の信号かノイズ性の信号かに応じて、各チャンネル信号又は音源オブジェクト信号相互に及ぼす影響の度合いを変化させるというモデルにより、マスキング閾値を算出することができる。
このように構成することで、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
本発明の音響信号符号化方法は、マスキング閾値は、下記式(1)で調整される

T=β{max(y1、αy2)−1}
y1=f(x−θ)
y2=f(180−x−θ) …… 式(1)

ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは前記方向又はマスキーの方位を示すことを特徴とする。
このように構成することで、上述の各モデルに対応した空間的マスキング効果を容易に計算することができる。これにより、効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
従来、ステレオ信号の各チャンネルの周波数領域におけるマスキング効果のみを考慮してPEを算出するのが一般的であった。
これに対して、本発明の音響信号符号化方法は、チャンネル間にまたがる空間的マスキング効果を考慮して、PEにより、一サンプル当たりの平均ビット数が算出されることを特徴とする。
このように構成してマスキング閾値に対するビットの割り当てが行われると、データの伝送ビットレートを削減できる。本発明者らの実験によると、5〜25パーセント程度のビットレートを削減できることを確認している。
本発明の音響信号復号化方法は、復号化装置2により実行される音響信号復号化方法であって、上述の音響信号符号化方法により符号化された複数のチャンネルの音響信号を復号化することを特徴とする。
このように構成し、上述の符号化装置1で符号化された音響信号を復号化することで、伝送ビットレートが低くても、高品質な音響信号を再生可能となる。
〔他の実施の形態〕
なお、本発明の実施の形態においては、複数のチャンネルの音響信号の符号化として、22.2チャンネルの符号化について言及した。
これについて、本実施形態の音響信号符号化方法は、5.1チャンネルや7.1チャンネル等の多チャンネルの音響符号化から、空間をサンプリングした3D音響符号化、MPEG−H 3D AUDIOに代表されるオブジェクト符号化、又は、既存の2チャンネルのステレオ音響符号化にも適用可能である。
すなわち、符号化装置1は、上述の実施形態の図1に示したような、マイクロホンアレイ10を用いて収音を行わずに、図2のステップS101にて、既に集音された多チャンネルの音声データ、音声オブジェクト等からも音声データを取得可能であるのが当然である。
さらに、上述の実施の形態では、音響システムXが、伝送された音響信号を復号化する復号化装置2としてヘッドトラッキングが可能なヘッドフォンを用いる例について記載した。
しかしながら、本実施形態の音響信号符号化方法、及び音響復号化方法は、3次元空間的に散在する音源に働く聴覚のマスキング効果を用いることが可能な音響システムであれば、任意のものに適用可能である。たとえば、それ以外の3D音場のキャプチャー、伝送、再生システムへの適用、VR/ARアプリケーションヘの適用等も可能である。
具体的な例を挙げて説明すると、上述の実施の形態では、立体音響を再生するヘッドフォン110として、装着可能なヘッドフォンやイヤフォン等を用いる例について説明した。
しかしながら、ヘッドフォン110は、実施例に示すように、据え置き型の複数個のスピーカー等であってもよいのが当然である。
さらに、上述の実施の形態では、ヘッドフォンから位置方向情報を符号化装置1へフィードバックをするように記載したものの、これをしなくてもよい。このように、位置方向情報のフィードバックを行わない場合、当然、当該位置方向情報を用いずに、マスキング閾値を算出することも可能である。
この場合、立体音響再生部100は、位置方向情報に合わせて頭部伝達関数(HRTF)の畳み込みをアップデートしなくてもよい。
加えて、上述の実施の形態では、復号化装置2が方向算出部70及び送信部80を備えている構成について説明した。
しかしながら、本実施形態の音響信号符号化方法、及び音響復号化方法は、かならずしも受聴者の向いている方向が分からなければならないということではない。このため、方向算出部70及び送信部80を具備しないような構成も可能である。
上述の実施の形態では周波数マスキングを拡張した空間的マスキング効果を算出する例について記載した。
これに対して、周波数を時間に代用しても同様の空間的マスキング効果を算出することも可能である。さらに、空間的マスキング効果として、周波数、方向間でのマスキングと、時間、方向間でのマスキングとの組み合わせを用いることも可能である。
さらに、上述の実施の形態では空間的マスキング効果により、ビットレートを低く抑えたままで伝送する例について説明した。すなわち、従来の高ビットレートの音響符号化と同等の品質で、複数のチャンネルの音響信号を符号化する例について記載した。
これに対して、単に高品質での符号化を行うのみならず、重要な音を強調したり定位感をデフォルメしたりして、符号化を行うことも可能である。または、空間的マスキング効果で聴覚上、重要な箇所に割り振る情報量を増大させたり、逆に、聴覚上で重要でない箇所に割り振る情報量を更に減少させたりすることで、臨場感を強調することも可能である。
加えて、上述の実施の形態では、情報量の割り振りとして、ビット割り当てを行う例について記載した。
しかしながら、この情報量の割り振りは、周波数帯域毎に単純にビット数を決定(割り当てる)のではなく、エントロピー符号化やその他の符号化に対応した情報量の割り振りであってもよい。
さらに、上述の実施の形態に記載しているように、位置方向情報のフィードバックがある場合は、当該位置方向情報を用いて、効率的なマスキング閾値を算出することが可能である。
このため、位置方向情報のフィードバックの有無により、配信(伝送)のビットレートを変更するように構成することが可能である。すなわち、符号化装置1に対して、位置方向情報をフィードバックしてくる復号化装置2は、位置方向情報をフィードバックしてこない復号化装置2よりも低いビットレートでデータを伝送することが可能である。
このように構成することで、より廉価にコンテンツを提供するサービスを実現することが可能となる。
次に図面に基づき本発明を実施例によりさらに説明するが、以下の具体例は本発明を限定するものではない。
(空間的マスキングを考慮したマスキングモデルの実験)
(実験方法)
図5、図6により、マスカー存在下でのマスキーの各周波数における閾値を、マスキーの各方位に関して測定する実験について説明する。
図5は、測定システムを示す構成図である。ここでは、被験者の正面を0°とし、反時計方向を正とする。そして、被験者の正面にPC(Personal Computer)が配置される。被験者は椅子に座り、スピーカで提示された刺激音を両耳で聴取する。スピーカは、被験者から1.5m離れた位置に、被験者を中心として全周を取り囲むように、45°間隔で8か所に配置される。なお、実験系の出力における音圧レベル[dBSPL]の校正は、騒音計(リオンNA−27)を用いて計測することにより行った。
実験方法を以下に記す。最初に、実験で使用する音源を被験者に把握させるために、各音源を個別に提示するデモを行う。次に、測定を開始する。測定中、マスカーは常時提示される。マスキーは継続時間0.7秒で提示され、0.7秒の無音をはさんだ後に提示が繰り返される。被験者は回答画面を見ながら、マスキーの各周波数、各音圧レベルに対し、マスキーが3回提示される間に、「マスカー音に変化を感じたかどうか」をPCに入力する。この際、被験者には頭部を動かさずに視線のみを移動させて回答を入力するよう指示を与える。ここで、「マスカー音に変化を感じた」とは、マスキーが知覚されたときだけでなく、マスカーでもマスキーでもない音が知覚された場合も含むこととする。例えば、周波数が少し異なる2つの純音が同時に提示されたとき、音波の干渉により2音の周波数の差に等しい周波数の音が知覚される「うなり」が挙げられる。そのような音が知覚された場合も、「マスカーに変化を感じた」場合に含む。
なお、実験方法に慣れさせるために、実験結果に反映しないテスト測定を初めに数回、行った。
図6に、本実験における閾値探索方法の説明図を示す。本実験における閾値の探索方法は適応法に準じた方法で行う。適応法とは、被験者の応答に応じて実験者が刺激の物理パラメータ値を調整し、閾値を決定する方法のことである。
図6において、横軸はマスキーのセット数、縦軸はマスキーの音圧レベルである。マスキーのセット数「1セット」とは、マスキーが3回提示される間のことを指し、これを音源提示の単位とする。
まず、マスキーの周波数をf1に固定し、音圧レベルSPLmaxで聴取者に提示する。続いて、音圧レベルをSPLminに変更して聴取者に提示する。SPLmaxは音圧レベルの測定範囲における最大値、SPLminは音圧レベルの測定範囲における最小値を指す。ここで、被験者が音圧レベルSPLmaxのマスキーを検知できなかった場合にはSPLmaxを閾値とみなし、音圧レベルSPLminのマスキーを検知できた場合にはSPLminを閾値とみなす。このとき、実際の閾値は測定範囲外に存在すると考えられる。以上のようにみなされる例として、図6における周波数f2のマスキーの閾値が挙げられる。図6では、周波数f2のマスキーは音圧レベルSPLminでも検知されなかったことを示している。このように、被験者が回答しなければならない音圧レベルのセット数は、被験者の応答によって変化する。マスキーが音圧レベルSPLminで提示された後は、被験者の回答に応じて閾値を2分探索的に探索する。すなわち、これまでの測定で検知できたマスキーの音圧レベルの最小値と、検知できなかったマスキーの音圧レベルの最大値の中間になるような値を、次の音圧レベルの値としてセットする。このような探索を続けると、最終的にセットできる音圧レベルが1つだけ残る。最終的に残った音圧レベルを周波数f1のマスキーの閾値とする。
以上のような探索を、図6のように周波数をf1、f2、f3、……の順に連続的に変化させて調査する。本実験においては、低周波数側から順にマスキーの閾値を調査する。
図7に、被験者に提示する回答画面を示す。マスカーが1音源のときの回答画面は図7(a)であり、マスカーが2音源のときの回答画面は図7(b)である。画面には、マスカーの方位、マスカーの音圧レベル、マスキーの方位、マスキーの周波数、マスキー再生中に点灯するランプ、マスキーの再生回数を示すカウンタ、マスキーの検知の有無を入力するボタンがそれぞれ表示される。被験者は、各音源がどの方向からどのような大きさでいつ提示されるのかが知覚可能である。マスキーの周波数を表示する理由は、測定がマスカーの周波数(マスカーの種類)を連続的に変化させながら調査するものであるので、被験者が現在どのマスキーに関する回答を入力しているのかを明確にし、回答の混乱を防ぐためである。被験者は自ら、マスキーの検知の有無を入力するボタンをオンにすることで「マスキーを検知した」ことをPCへ知らせ、またボタンをオフにすることで「マスキーが検知できなかった」ことをPCへ知らせる。なお、マスキーの再生回数を示すカウンタの初期値は0であり、マスキーの再生回数に応じて、0、1、2、3、0 ……と変化する。0がカウントされると、回答がリセットすなわちマスキーの検知の有無を入力するボタンがオフになり、マスキーは次の音圧レベル又は周波数に移行する。被験者は、このカウンタが1、2、3を表示している間に検知の有無を入力しなければならない。
なお、聴取実験の回答用プログラムは、Cycling ’74社のMax ver.7にてコーディングを行っている。それ以外のプログラムについては、MathWorks 社のMATLAB ver.R2018aにてコーディングを行っている。
(マスカーの一覧)
実験で使用するマスカーの一覧を下記の表1に示す。
Figure 2020171049
マスカーには、周波数(中心周波数)を400Hz又は1000Hzとした帯域雑音及び純音を用意した。以降では、これらのマスカーを、マスカーA(masker A)〜マスカーD(masker D)までの名前で記述することとする。なお、帯域雑音の帯域幅は、臨界帯域の帯域幅に概ね合致するように決定した。ある純音のマスクに寄与する雑音成分は、その純音を中心周波数とする帯域雑音における、ある帯域幅の成分に限られるということが知られている。臨界帯域とは、そのような純音のマスクに寄与する帯域のことである。
(実験条件)
実験条件としては、マスカーの数を1個とした場合及び2個とした場合の2種類について行った。いずれも無響室で実験を行い、音源信号のサンプリング周波数は48kHzとした。
まず、配置するマスカーの数が1個のときの条件を下記の表2に示す。
Figure 2020171049
被験者は、健聴な20代の男性2名(被験者a、被験者b)である。マスカーには、上述のマスカーA〜マスカーDまでの音源のうちのいずれか1つを用いた。マスカーの音圧レベルは、60dBSPL及び80dBSPLの2通りを用いた。マスカーの方位は、0°、45°、90°、135°の4つの方位のうちのいずれか1方位とした。すなわち、マスカーの方位は左耳側の4方位のみ対象とした。上記のようにマスカーの方位を4方位用意して実験を行うと、被検者に関する半周分の閾値のデータが得られることとなる。人間の頭部形状が左右対称であると仮定すれば、閾値は正中面で対称になると考えられるので、本実験で得られない残り半周分の閾値のデータは本実験で得られたデータと対称の結果となる。
マスキーは純音1音源を用い、その周波数及び音圧レベルは以下の通りである。具体的には、マスキーの周波数は、マスカーの周波数(中心周波数)に近い周波数では密になるように決定した。なお、マスカーが純音の場合、マスキーの周波数がマスカーの周波数と完全に一致するとき(400Hz、1000Hz)には、あらゆる音圧レベルにおいてマスキーが知覚できないと考えられるので、そのような周波数は測定対象から外した。マスキーの音圧レベルは取りうる値を3dBおきとし、その最大レベルはマスカーの音圧レベル、最小レベルは20dBSPL又は18dBSPLとした。最大レベルは、マスキーの音圧レベルがマスカーの音圧レベルより大きいときには完全にマスキーを知覚できるという予想のもとに決定した。最小レベルは、実験場所である無響室内の暗騒音レベルを考慮し、測定範囲が概ね暗騒音レベルより15dB小さいところまでとなるように決定した。マスキーの方位は、45°又は315°とした。マスキーの方位が45°のときには、マスカーとマスキーの方位が一致するため、従来から検討されてきた周波数マスキングの閾値が結果として得られることとなる。対してマスキーの方位が315°のときには、マスカーとマスキーが互いに異なる方位に存在することとなるため、ステレオのチャンネル間でのマスキングすなわち空間的なマスキングの閾値が結果として得られることとなる。
マスキーの方位は、0°から45°おきに315°までの8方位のうちのいずれか1方位とした。
次に、配置するマスカーの数が2個のときの条件を下記の表3に示す。
Figure 2020171049
被験者は、被験者aのみである。マスカーは、マスカーAを方位45°に、マスカーBを方位315°にそれぞれ配置した。マスキーは純音1音源を用いた。マスキーの周波数は、マスカーの周波数(中心周波数)が400Hzのときの条件及び1000Hzのときの条件を合わせたものを用いた。なお、配置するマスカー(マスカーA、マスカーB)がいずれもバンドノイズであるため、マスキーの周波数がマスカーの中心周波数と完全に一致するとき(400Hz、1000Hz)においても、純音とは異なり、ある音圧レベル以上ではマスキーを知覚できるようになると考えられる。したがって、400Hz及び1000Hzも測定対象に加えた。また、マスキーの音圧レベルの最大値は、表2よりも9dB大きくとった。これは、マスカーが2音源存在することにより、聴取する音の音圧レベルが最大で6dBほど上昇することを考慮したものである。
マスキーの方位は225°とした。
(マスキング閾値の計算)
(実験結果と考察)
図8〜図11により、被験者aに関する実験結果について説明する。
上述の式(5)に記載したα,βを、下記の表4に示す値の範囲で探索した。
Figure 2020171049
本実施例では、α,βの最適値は次のように算出した。まず、あるα,βの値におけるTspatialと、実験結果として得られたマスキーの各方位における閾値の最大値との間の平均二乗誤差(Mean Squared Error、MSE)を、マスカーの種類(マスカーA〜マスカーD)、方位、音圧レベルのすべての組み合わせに対して計算する。次に、計算された平均二乗誤差を、マスカーの種類ごとに総和をとる。以上の操作を、α,βの値を変化させて繰り返し行い、平均二乗誤差のマスカーの種類ごとの総和が最小になったときの、α,βの組を、α,βの最適値とする。
ここで、j番目のマスカーの方位における平均二乗誤差MSE(j)は、下記の式(6)で算出する。
Figure 2020171049
ここで、式(6)において、Tspatial(i)はi番目のマスキーの方位[deg。]における関数Tspatialの出力値、Tmeasured(i)はi番目のマスキーの方位[deg。]におけるマスキーの閾値の実験により得られた実測値を表す。Lmasker azimuthはマスカーの存在する方位におけるマスキーの閾値[dBSPL]を表す。これは、Tspatia lがマスカーの存在する方位からの閾値の減衰量を表すものであるため、TspatialとTme asuredとの間のオフセットを調整する役割をもつ。NはTspatial及びTmeasuredのエントリー数(マスキーの方位の総数)である。本計算ではマスキーの方位の刻みを0°から360°までの1°刻みとしたため、N=361である。ただし、Tmeasuredはマスキーの方位の刻みが実測値として45°刻みであるため、1°刻みとしたときに欠損する部分は線形補間を行うことにより値を推定した。
総当たりの結果、α,βの最適値がマスカーA〜マスカーDについて、下記の表5のように得られた。
Figure 2020171049
図8〜図11に、表5の値を用いてTspatialをマスキーの閾値の実測値にフィッティングさせたものをそれぞれ示す。各図の左上のグラフはマスカーAに関する結果、右上のグラフはマスカーBに関する結果、左下のグラフはマスカーCに関する結果、右下のグラフはマスカーDに関する結果である。
各グラフの横軸はマスキーの方位、縦軸は音圧レベルである。マスカーの方位に該当する方位を縦の点線で示している。黒の実線はマスカーの音圧レベルが80dBSPLのときのマスキーの閾値の実測値、灰色の実線はマスカーの音圧レベルが60dBSPLのときのマスキーの閾値の実測値をそれぞれ表している。これに対して、赤の破線は関数Tsp atialを用いて赤の実線にフィッティングさせたもの、灰色の破線は関数Tspatialを用いて灰色の実線にフィッティングさせたものをそれぞれ表している。
なお、各破線は関数Tspatialの出力にオフセットLmasker azimuthを加えたものである。
図8〜図11によれば、各グラフとも概ね実測値にフィットしていることがわかる。ただし、例えば図8の左上のグラフや図9の左上のグラフなどのように、マスカーA、マスカーBのような帯域雑音の場合におけるマスカーとは前後対称の方位での閾値の上昇に関してみると、破線が実線にうまくフィットしていない部分が見受けられる。この理由は、マスカーが帯域雑音でマスカーの方位が90°のときには、閾値の方位による変化が比較的小さく、平均二乗誤差の総和を最小にしようとしたときに影響してαの値が小さくなるように働いたためであると考えられる。上記の部分をうまくフィットさせるためには、マスカーの方位が90°のときの実測値とモデル関数との間の誤差が大きくても構わない場合には、αの値をより大きく設定すれば良い。
また、本実施例では総当たりにより、α,βの値を求めたが、βの値に関しては、マスカーの調性(トーン性、ノイズ性)を判別するような指標をベースに決定することができる。マスカーの調性を判別するような指標としては、例えば自己相関やSpectral
Flatness Measure(SFM)等がある。これらの指標を用いることで、βをパラメトリックに決定しフィッティングすることが可能となる。
(まとめ)
本実施例では、空間的マスキングを確認するために基礎的な聴取実験を行うとともに、実験により得られた知見を反映し、空間的マスキングを考慮したマスキング閾値計算法及びモデル化をすることが可能となった。
まず聴取実験において、マスカーとマスキーを異なる方位に存在する場合でもマスカーの周波数近傍での閾値の上昇がみられたことから、空間的マスキングの存在を確認した。
マスキング閾値はマスカーの方位とマスキーの方位によって変化し、基本的にはマスキーの方位がマスカーの方位から離れるほど閾値が低下する。2チャンネルステレオ環境に関しては、自身のチャンネルの信号が自身のチャンネルに及ぼすマスキングの閾値に15dBの重みを付加したものを、自身のチャンネルの信号が他方のチャンネルの信号に及ぼすマスキングの閾値として用いてもよい。全方位に関しては、マスカーが帯域雑音のときは、マスカーに対して前後対称の方位でその周囲の方向よりマスキーの閾値の上昇がみられ、それはマスカーの中心周波数が低いほど顕著である。また、マスカーが純音のときは、マスキーの方位による閾値の変化はフラットである。
さらに、各マスカーが単独で存在するときの、マスカーと同一の方位の信号のマスキング閾値とそれ以外の方位の信号のマスキングの閾値とのリニアスケールでの和を、自身の方位の信号に加えそれ以外の方位の信号も考慮したマスキング閾値として用いても差し支えない。
以下で、これらの結果をまとめると:
マスカーが0°のときは、マスキーの位置が0°のものが、もっとも閾値が高い。45°、90°と、マスキー位置がマスカーから離れるほど、閾値は下がった。しかし、135°から上昇を始め、180°では0°の場合とほぼ同程度まで、閾値が上昇した。すなわち、マスカーによるマスキング閾値の値が、受聴者の前後でほぼ対称の関係となっていた。
マスカーが45°のときは、マスキー位置が45°のときが、もっとも閾値が高くなった。90°では、閾値が下がった。135°で更に下がると思われたが、予想に反し、閾値が上がり、45°の時の閾値に近づいた。180°では閾値は下がり、225°では更に下がった。これは、マスカーが0°のときと同様に、マスキング閾値は、受聴者の前後で、ほぼ対称の関係となっている。すなわち、90°〜270°を結ぶ線を中心に線対称であった。
マスカーが90°、マスカー135°でも、同様の傾向であった。
以上のような知見から、空間的マスキングを考慮したマスキング閾値計算法を次のように提案した:2チャンネルのステレオ環境では、自身のチャンネルのマスキング閾値と、他方のチャンネルのマスキング閾値に、−15dB重み付けしたものをリニアスケールで和をとる。全方位に関しては、周期360°の任意の周期関数と、その周期関数を90°及び270°で線対称になるように位相シフトしたものを利用して、マスキーの閾値のピークの方位による変化をモデル化する。そのモデル化した関数を用いて、各チャンネルのマスキング閾値に重み付けをしてからリニアスケールで総和をとる。
すなわち、上述の式(1)により、マスキング閾値を計算可能となる。これに基づいてマスキング閾値を計算することで、信号の伝送に必要なビット数を削減することができる。
なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
本発明の生物配列分析方法は、聴覚の空間的マスキング効果を利用することで、従来よりもビットレートを抑えた音響信号符号化方法を提供することができ、産業上に利用することができる。
1 符号化装置
2 復号化装置
10 マイクロホンアレイ
20 集音部
30 周波数領域変換部
40 マスキング閾値算出部
50 情報量決定部
60 符号化部
70 方向算出部
80 送信部
90 復号化部
100 立体音響再生部
110 ヘッドフォン
X 音響システム

Claims (18)

  1. 符号化装置により実行される、複数のチャンネルの音響信号を符号化する音響信号符号化方法であって、
    聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、
    算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定し、
    複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化する
    ことを特徴とする音響信号符号化方法。
  2. 符号化装置により実行される、音源オブジェクト及び該音源オブジェクトの位置情報を符号化する音響信号符号化方法であって、
    聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、
    算出された前記マスキング閾値により、前記音源オブジェクトに割り振る情報量を決定し、
    前記音源オブジェクト及び前記音源オブジェクトの位置情報を、割り振られた前記情報量で符号化する
    ことを特徴とする音響信号符号化方法。
  3. 前記マスキング閾値は、
    各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出される
    ことを特徴とする請求項1又は2に記載の音響信号符号化方法。
  4. 前記マスキング閾値は、
    前記チャンネル及び/又は前記音源オブジェクト間の空間的距離及び/又は方向が近づくほど相互に及ぼす影響が大きくなり、離れるほど相互に及ぼす影響が小さくなる前記空間的マスキング効果に対応して算出される
    ことを特徴とする請求項3に記載の音響信号符号化方法。
  5. 前記マスキング閾値は、
    受聴者からみて前後対称の位置にある前記チャンネル及び/又は前記音源オブジェクトについては、前記音源オブジェクト間の空間的距離及び/又は方向についての相互に及ぼす影響の度合いを変化させる前記空間的マスキング効果に対応して算出される
    ことを特徴とする請求項3又は4に記載の音響信号符号化方法。
  6. 前記マスキング閾値は、
    前記受聴者からみて後方の位置にある前記チャンネル及び/又は前記音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在する前記空間的マスキング効果に対応して算出される
    ことを特徴とする請求項3乃至5のいずれか1項に記載の音響信号符号化方法。
  7. 前記マスキング閾値は、
    各前記チャンネル及び/又は前記音源オブジェクトの信号が、トーン性の信号かノイズ性の信号かに対応して、各前記チャンネル及び/又は音源オブジェクトの信号の相互に及ぼす影響の度合いを変化させる前記空間的マスキング効果に対応して算出される
    ことを特徴とする請求項3乃至6のいずれか1項に記載の音響信号符号化方法。
  8. 前記マスキング閾値は、
    下記式(1)で調整される

    T=β{max(y1、αy2)−1}
    y1=f(x−θ)
    y2=f(180−x−θ) …… 式(1)

    ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは前記方向又はマスキーの方位を示す
    ことを特徴とする請求項7に記載の音響信号符号化方法。
  9. Perceptual Entropy(PE)により、一サンプル当たりの平均ビット数が算出される
    ことを特徴とする請求項1乃至8のいずれか1項に記載の音響信号符号化方法。
  10. 復号化装置により実行される音響信号復号化方法であって、
    請求項1乃至9に記載の音響信号符号化方法により符号化された複数の前記チャンネルの音響信号を復号化する
    ことを特徴とする音響信号復号化方法。
  11. 符号化装置により実行される、複数のチャンネルの音響信号を符号化するプログラムであって、前記符号化装置に、
    聴覚の空間的マスキング効果に対応したマスキング閾値を算出させ、
    算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定させ、
    複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化させる
    ことを特徴とするプログラム。
  12. 複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する符号化装置であって、
    聴覚の空間的マスキング効果に対応したマスキング閾値を算出するマスキング閾値算出部と、
    前記マスキング閾値算出部により算出された前記マスキング閾値により、各前記チャンネル及び/又は前記音源オブジェクトに割り振る情報量を決定する情報量決定部と、
    複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化する符号化部とを備える
    ことを特徴とする符号化装置。
  13. 請求項12に記載の符号化装置と、復号化装置とを備えた音響システムであって、
    前記復号化装置は、
    前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備える
    ことを特徴とする音響システム。
  14. 請求項12に記載の符号化装置と、復号化装置とを備えた音響システムであって、
    前記復号化装置は、
    受聴者の向いている方向を算出する方向算出部と、
    前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部と、
    前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備え、
    前記符号化装置の前記マスキング閾値算出部は、
    前記マスキング閾値を、前記受聴者の位置と前記方向に対する、各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出する
    ことを特徴とする音響システム。
  15. 前記復号化装置は、
    前記復号化部により復号化された音声信号を、前記受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部を更に備える
    ことを特徴とする請求項13又は14に記載の音響システム。
  16. 聴覚の空間的マスキング効果に対応したマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量が決定され、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化された信号を取得する信号取得部と、
    前記信号取得部により取得された信号から、符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部とを備える
    ことを特徴とする復号化装置。
  17. 受聴者の向いている方向を算出する方向算出部と、
    前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部とを更に備える
    ことを特徴とする請求項16に記載の復号化装置。
  18. 前記復号化部により復号化された音声信号を、前記受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部を更に備える
    ことを特徴とする請求項16又は17に記載の復号化装置。
JP2021502010A 2019-02-19 2020-02-18 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 Active JP7232546B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019027035 2019-02-19
JP2019027035 2019-02-19
PCT/JP2020/006211 WO2020171049A1 (ja) 2019-02-19 2020-02-18 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置

Publications (2)

Publication Number Publication Date
JPWO2020171049A1 true JPWO2020171049A1 (ja) 2021-11-25
JP7232546B2 JP7232546B2 (ja) 2023-03-03

Family

ID=72144598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021502010A Active JP7232546B2 (ja) 2019-02-19 2020-02-18 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置

Country Status (5)

Country Link
US (1) US20230136085A1 (ja)
EP (1) EP3929918A4 (ja)
JP (1) JP7232546B2 (ja)
CN (1) CN113574596A (ja)
WO (1) WO2020171049A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2023286698A1 (ja) * 2021-07-12 2023-01-19
WO2024024468A1 (ja) * 2022-07-25 2024-02-01 ソニーグループ株式会社 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016625A (ja) * 2008-01-04 2014-01-30 Dolby International Ab オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JP2015531078A (ja) * 2012-07-31 2015-10-29 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
JP2016518788A (ja) * 2013-04-29 2016-06-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 動的閾値を用いた周波数帯域圧縮
JP2016524726A (ja) * 2013-05-28 2016-08-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated 球面調和係数に対して空間マスキングを実行すること
JP2016224472A (ja) * 2010-12-21 2016-12-28 ドルビー・インターナショナル・アーベー 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10107642A (ja) * 1996-06-14 1998-04-24 Texas Instr Inc <Ti> デジタルオーディオ符号化信号におけるマスキングしきい値を計算する方法
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
WO2009067741A1 (en) * 2007-11-27 2009-06-04 Acouity Pty Ltd Bandwidth compression of parametric soundfield representations for transmission and storage
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
CN101847413B (zh) * 2010-04-09 2011-11-16 北京航空航天大学 一种使用新型心理声学模型和快速比特分配实现数字音频编码的方法
CN102737635B (zh) * 2011-04-08 2014-04-30 华为终端有限公司 一种音频编码方法以及音频编码设备
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
DE102013217367A1 (de) * 2013-05-31 2014-12-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur raumselektiven audiowiedergabe
EP3373604B1 (en) * 2017-03-08 2021-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing a measure of spatiality associated with an audio stream
US10075802B1 (en) * 2017-08-08 2018-09-11 Qualcomm Incorporated Bitrate allocation for higher order ambisonic audio data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016625A (ja) * 2008-01-04 2014-01-30 Dolby International Ab オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JP2016224472A (ja) * 2010-12-21 2016-12-28 ドルビー・インターナショナル・アーベー 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置
JP2015531078A (ja) * 2012-07-31 2015-10-29 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
JP2016518788A (ja) * 2013-04-29 2016-06-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 動的閾値を用いた周波数帯域圧縮
JP2016524726A (ja) * 2013-05-28 2016-08-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated 球面調和係数に対して空間マスキングを実行すること

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
加藤巧大ほか: "聴覚の空間的マスキング効果を考慮した3D音響信号の符号化に関する基礎検討", 電子情報通信学会技術研究報告, vol. 第118巻, 第497号, JPN6020022687, 7 March 2019 (2019-03-07), JP, pages 271 - 278, ISSN: 0004813281 *

Also Published As

Publication number Publication date
US20230136085A1 (en) 2023-05-04
CN113574596A (zh) 2021-10-29
WO2020171049A1 (ja) 2020-08-27
EP3929918A4 (en) 2023-05-10
JP7232546B2 (ja) 2023-03-03
EP3929918A1 (en) 2021-12-29

Similar Documents

Publication Publication Date Title
RU2736274C1 (ru) Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий
KR101471798B1 (ko) 다운믹스기를 이용한 입력 신호 분해 장치 및 방법
Shilling et al. Virtual auditory displays
JP4921470B2 (ja) 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置
Zahorik Perceptually relevant parameters for virtual listening simulation of small room acoustics
KR20180108766A (ko) 증강 현실 헤드폰 환경 렌더링
Grimm et al. Spatial acoustic scenarios in multichannel loudspeaker systems for hearing aid evaluation
KR20160015317A (ko) 오디오 장면 장치
Cubick et al. Validation of a virtual sound environment system for testing hearing aids
Neidhardt et al. Perceptual matching of room acoustics for auditory augmented reality in small rooms-literature review and theoretical framework
JP7232546B2 (ja) 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
Genovese et al. Acoustic perturbations in HRTFs measured on mixed reality headsets
WO2018193163A1 (en) Enhancing loudspeaker playback using a spatial extent processed audio signal
Völk Interrelations of virtual acoustics and hearing research by the example of binaural synthesis
Hládek et al. Communication conditions in virtual acoustic scenes in an underground station
Xie Spatial sound: Principles and applications
WO2021261385A1 (ja) 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム
Guthrie Stage acoustics for musicians: A multidimensional approach using 3D ambisonic technology
Steffens et al. Auditory orientation and distance estimation of sighted humans using virtual echolocation with artificial and self-generated sounds
US10999694B2 (en) Transfer function dataset generation system and method
CN109688531B (zh) 获取高音质音频变换信息的方法、电子装置及记录介质
US10555105B2 (en) Successive decompositions of audio filters
KR20160136716A (ko) 오디오 신호 처리 방법 및 장치
Sunder et al. Modeling distance-dependent individual head-related transfer functions in the horizontal plane using frontal projection headphones
Ahrens Characterizing auditory and audio-visual perception in virtual environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230213

R150 Certificate of patent or registration of utility model

Ref document number: 7232546

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150