TWI590229B - 用於輸入信號之直接、擴散分解的方法及設備 - Google Patents

用於輸入信號之直接、擴散分解的方法及設備 Download PDF

Info

Publication number
TWI590229B
TWI590229B TW101133461A TW101133461A TWI590229B TW I590229 B TWI590229 B TW I590229B TW 101133461 A TW101133461 A TW 101133461A TW 101133461 A TW101133461 A TW 101133461A TW I590229 B TWI590229 B TW I590229B
Authority
TW
Taiwan
Prior art keywords
direct
channels
input signal
correlation coefficient
output signal
Prior art date
Application number
TW101133461A
Other languages
English (en)
Other versions
TW201322252A (zh
Inventor
傑夫 湯普森
布蘭登 史密斯
艾隆 華納
蘇爾安 菲索
珍 馬克 嘉特
Original Assignee
Dts股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dts股份有限公司 filed Critical Dts股份有限公司
Publication of TW201322252A publication Critical patent/TW201322252A/zh
Application granted granted Critical
Publication of TWI590229B publication Critical patent/TWI590229B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Stereophonic System (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

用於輸入信號之直接、擴散分解的方法及設備 著作權及商業外觀聲明
本專利文件之部分揭示內容含有受著作權保護之材料。本專利文件可顯示及/或描述係為或可能變成擁有者的商業外觀之主旨。當本專利出現在專利商標局的專利檔案或記錄時,著作權及商業外觀擁有者並不反對任何人複製專利文件或專利揭示文,若不然則保有全部著作權及商業外觀權利。
參考相關申請案
本案請求下列臨時專利申請案之優先權:美國臨時專利申請案第61/534,235號,名稱直接/擴散分解,申請日2011年9月13日;及美國臨時專利申請案第61/676,791號,名稱直接/擴散分解,申請日2012年7月27日。
發明領域
領域
本文揭示係有關於音訊信號處理,及更明確言之,係有關於將音訊信號分解成直接及擴散成分之方法。
發明背景
相關技術說明
音訊信號常見係由具有各項空間特性的聲音成分之混合物組成。舉個簡單實例,臺上由一獨唱音樂家所產生的聲音可由多具麥克風捕捉。各具麥克風捕捉從該音 樂家直接行進至該麥克風的一直接聲音成分,以及其它聲音成分包括由該音樂家所產生的聲音混響、聽眾噪音、及從一擴延的或擴散的來源所發出的其它背景聲音。由各具麥克風所產生的信號被視為含有一直接成分及一擴散成分。
於許多音訊信號處理應用中,有利地將一信號分開成離散的空間成分,使得各個成分可被獨立地分析與處理。更明確言之,將一任意音訊信號分離成直接及擴散成分乃常見工作。舉例言之,空間格式轉換演算法可獨立地處理直接及擴散成分,使得直接成分維持高度可侷限性,而擴散成分保有期望的包圍意義。又,雙耳渲染方法可對直接及擴散成分施加獨立處理,於該處直接成分係渲染為虛擬點音源,而擴散成分係渲染成擴散音域。於本案中,將一信號分離成直接及擴散成分將稱作為「直接-擴散分解」。
本案中使用的術語與相關參考文獻中採用的術語略有差異。於相關文章中,直接及擴散成分俗稱作一次及周圍成分,或稱作非擴散及擴散成分。本案使用「直接」及「擴散」二詞以強調直接及擴散成分具有不同的空間特性;換言之,直接成分通常係由高度方向性的聲音事件組成,及擴散成分通常係由空間分散的聲音事件組成。此外,於本案中,「相關性」及「相關性係數」等詞係指以零時間延遲評估二信號間之標準化交互相關性度量。
依據本發明之一實施例,係特地提出一種具有多個聲道之一輸入信號之直接-擴散分解方法,該方法係包含估計得自該等信號中之各對信號間的相關性係數;組成有關該等多個聲道各自的經估算得的相關性係數與直接能量分量的方程式之一線性系統;解出該線性系統以估計該等直接能量分量;及部分基於該等直接能量分量而產生一直接成分輸出信號及一擴散成分輸出信號。
圖式簡單說明
圖1為一種直接-擴散分解方法之流程圖。
圖2為另一種直接-擴散分解方法之流程圖。
圖3為另一種直接-擴散分解方法之流程圖。
圖4為另一種直接-擴散分解方法之流程圖。
圖5為一種運算裝置之方塊圖。
於全文說明書中,出現在圖式中的元件係以三位數元件符號標示,於該處最高有效位數為介紹該元件的該圖號碼,及兩個最低有效位數為該元件所特有。關聯一圖式描述的一元件可推定為具有與先前描述的具有相同元件符號之元件的相同特性與功能。
詳細說明
方法說明
圖1為包括多個聲道之輸入信號x i [n]之直接-擴散分解方法100之流程圖。輸入信號X i [n]可為由如下信號模型表示的複合N-通道音訊信號 於該處D[n]為直接基底,F i [n]為擴散基底,ai 2為直接能量,bi 2為擴散能量,θi為直接成分相移,i為聲道指數,及n為時間指數。於本案其餘部分中,「直接成分」一詞係指,及「擴散成分」一詞係指b i F i [n]。假設針對各個聲道直接及擴散基底為複合零平均靜態隨機變數,直接能量及擴散能量為正實數常數,直接成分相移為一常數值。也假設針對全部聲道直接及擴散基底為一單位而不喪失其通用性E{|D|2}=E{|F i |2}=1 (2)於該處E{˙}表示預期值。雖然直接及擴散基底的預期能量假設為一單位,但針對各個聲道的任意直接及擴散能量位準許可純量ai及bi。雖然假設針對整個信號持續時間直接及擴散成分為靜態,但實際體現將一信號劃分成為時間侷限化節段,於該處各個節段內部的該等成分假設為靜態。
有關該等直接及擴散成分的空間性質可做出多項假設。更明確言之,可假設直接成分係橫過該輸入信號的各聲道為相關性,而擴散成分係橫過該等聲道為非相關性且與該等直接成分為不相關。假設橫過多個聲道直接成分為相關性係於方程式(1)表示為該單一直接基底D[n]橫過多個聲道為相同,而不似聲道相依性能量ai 2及相移θi。假設擴散成分為不相關係於方程式(1)中以針對各個聲道的獨特擴散基底F i [n]表示。基於假設直接及擴散成分為非相關性,預期混合信號X i [n]的能量為 E{|X i |2}=a i 2+b i 2 (3)注意此種信號模型係與聲道位置獨立無關;換言之,並未基於特定聲道位置做假設。
聲道i與j間的相關性係數係定義為 於該處()*表示複合軛合,及分別為聲道i及j的標準差。一般而言,相關性係數為複合值。相關性係數的幅值具有被界限在零與一間的性質,於該處幅值趨向於1指示聲道i及j為相關性,而幅值趨向於0指示聲道i及j為不相關性。相關性係數的相位指示聲道i與j間之相位差。
施加方程式(1)的直接-擴散信號模型至方程式(4)的相關性係數獲得 於該處
如前文描述,直接成分可假設為橫跨聲道的相關性,而擴散成分可假設為橫跨聲道為非相關性且與直接成分為非相關性二者。此等空間假設可以聲道i與j間的相關性係數正式表示為
針對直接-擴散信號模型的相關性係數之幅值,可藉施用方程式(2)的直接及擴散能量假設及方程式(7)的空間假設至方程式(5)獲得下式而推衍出 顯然直接-擴散信號模型的相關性係數之幅值係只取決於聲道i及j的直接及擴散能量位準。
同理,直接-擴散信號模型的相關性係數之相位可藉施加直接-擴散空間假設獲得下式而推衍出 顯然直接-擴散信號模型的相關性係數之相位係只取決於聲道i及j的直接成分相移。
於110,可估算成對聲道間的相關性係數。聲道i與j間的相關性係數估值的通式係給定為 於該處T代表加法長度。本方程式係意圖針對靜態信號,於該處加法係對信號全長進行。但真實世界的關注信號通常為非靜態,故連續時間侷限化相關性係數估值使用適當短的加法時間T為較佳。雖然此種辦法可充分地追蹤時間變異 的直接及擴散成分,但要求真值平均計算(亦即歷經整個時間間隔T的加法),結果導致高的運算及記憶體需求。
可用在110的更有效辦法為使用指數移動平均估算真值平均近似值為 於該處γ ij [n]=λγ ij [n-1]+(1-λ)X i [n]X j *[n]γ ii [n]=λγ ii [n-1]+(1-λ)X i [n]X i *[n]γ jj [n]=-λr jj [n-1]+(1-λ)X j [n]X j *[n] (12)及λ為在[0,1]範圍的遺忘因子,其控制相關性係數估值的有效平均長度。此種遞歸函式之優點為比較方程式(10)之方法需要較少的運算及記憶體資源,同時維持時間變異的直接及擴散成分追蹤上的彈性控制。相關性係數估值的時間常數τ為遺忘因子λ的函式呈 於該處f c 為信號X i [n]的取樣率(針對時頻體現,f c 為有效子帶取樣率)。
當使用小型遺忘因子λ以遞歸函式運算時,相關性係數估值的幅值可被顯著地高估。此種朝向1的偏移係由於目前時間樣本比較信號過去史的加權相當高,注意針對加法長度T=1或遺忘因子λ=0,相關性係數的幅值係等於1。基於高估的經驗上分析為遺忘因子λ之函式如下,估計得的 相關性係數可選擇性地補償於120 於該處乃已經補償的相關性係數估值的幅值。此種補償方法係基於經驗上觀察平均相關性係數之範圍係從[0,1]壓縮至[1-λ,1]。如此,補償方法將於[1-λ,1]範圍的相關性係數線性放大至[0,1],於該處原先低於1-λ的係數係藉max{}運算元而被設定為零。
於130,線性系統可從全部獨特聲道對的逐對相關性係數及一多聲道信號的全部聲道的直接能量分量(DEF)組成。第i聲道的DEFφ i 係定義為直接能量對總能量之比
從方程式(8)及(15)顯然易知,一對聲道i及j的相關性係數係與該等聲道的DEF有直接相關為 施加該演算法獲得
針對具有任意聲道數目N的一多聲道信號,有 個獨特聲道對(對N2為有效)。線性系統可從M個 逐對相關性係數及N個每聲道的直接能量分量(DEF)組成為 或表示為一矩陣方程式 於該處為由針對全部聲道i及j的對數-幅值逐對相關性係數所組成的長度向量M,K係為針對相對應於聲道對指數的列/行指數之非零元件所組成的大小MxN的一稀疏矩陣,及為由針對各個聲道i的對數每聲道DEF所組成的長度向量N。
舉個實例,於130,5-聲道信號的線性系統可組成為 於該處有10個獨特方程式,10個逐對相關性係數各有一個。
於典型情況下,任意N-聲道音訊信號的真值每聲道DEF為未知。但於110及120,可計算逐對相關性係數的估值,及然後於140,藉解方程式(18)的線性系統而用來估 計每聲道DEF。
為針對一對聲道i及j的樣本相關性係數;亦即方程式(4)的正式期望之估值。若針對全部獨特聲道對i及j估計樣本相關性係數,則於140,可實現與解方程式(18)的線性系統而用來估計每聲道i的DEF
針對具有N>3的一多聲道信號,具有比較每聲道DEF估值更多的逐對相關性係數估值,結果導致高估決定系統。於140,最小平方方法可用來估計高估決定線性系統的解。舉例言之,線性最小平方方法最小化各個方程式的誤差平方和。線性最小平方方法可施用為 於該處為由針對各個聲道i的對數每聲道DEF估值所組成的長度向量N,為由針對全部獨特聲道i及j的對數-幅值逐對相關性係數估值所組成的長度向量M,()T表示矩陣轉位,()-1表示矩陣反轉。線性最小平方方法的優點為運算複雜度相當低,於該處全部需要的矩陣反轉只運算一次。線性最小平方方法的潛在弱點為並無對誤差分散的明確控制。舉例言之,可能期望對直接成分最小化誤差而犧牲擴散成分的誤差增加。若期望對誤差的分散做控制,則可應用加權最小平方方法,於該處針對各個方程式的加權誤差平方和為最小化。加權最小平方方法可施用為 於該處W為針對沿對角線的各個方程式,由權值所組成的大小MxM之對角線矩陣。基於期望表現,權值可經選擇以 減小針對具有某些性質的方程式之近似誤差(例如強直接成分、強擴散成分、相對高能量成分等)。加權最小平方方法的弱點為運算複雜度顯著較高,於該處對各個線性系統估算執行矩陣反轉。
針對一多聲道信號具有N=3,具有相等數目的逐對相關性係數估值及每聲道DEF估值,結果導致一臨界系統。但並不保證該線性系統將符合一致,原因在於該等逐對相關性係數估值典型地具有實質變量。類似該過度決定情況,於140,即便當該臨界系統為不一致時,線性最小平方方法或加權最小平方方法仍可採用來運算一近似值解。
針對一2-聲道立體聲信號具有N=2,具有比逐對相關性係數估值更多的每聲道DEF估值,結果導致一低估決定系統。於此種情況下,需要進一步信號假設來運算解,諸如每個聲道相等的DEF估值或相等的擴散能量。
於140,藉解線性系統而已經估計各個聲道的DEF後,於150,可使用每聲道DEF估值以產生直接及擴散遮罩。「遮罩」一詞常見係指乘法修正,施加至一信號以達成一信號成分之期望的放大或衰減。遮罩常係施加於時頻分析-合成架構,於該處常稱作為「時頻遮罩」。直接-擴散分解可藉施加一真值乘法遮罩至該多聲道輸入信號進行。
基於該多聲道輸入信號X i [n],Y D,i [n]及Y F,i [n]分別係定義為一直接成分輸出信號及一擴散成分輸出信號。從方程式(3)及(15),從DER推衍的真值遮罩可施用為 使得分解後直接及擴散成分的預期能量約等於真值直接及擴散能量
於此種情況下,Y D,i [n]乃一多聲道輸出信號,於該處Y D,i [n]之各個聲道係具有與該多聲道輸入信號X i [n]之相對應聲道的直接成分相同的預期能量。同理,Y F,i [n]乃一多聲道輸出信號,於該處Y F,i [n]之各個聲道係具有與該多聲道輸入信號X i [n]之相對應聲道的擴散成分相同的預期能量。
雖然分解後的直接及擴散輸出信號之預期能量係近似輸入信號的真值直接及擴散能量,但分解成分之和並非必要等於觀察值,亦即X i [n]≠Y D,i [n]+Y F,i [n]對0<<1。因使用真值遮罩以分解觀察得的信號,故結果所得之直接及擴散成分輸出信號係全然具有相關性,打破先前假設直接及擴散成分為不相關。
若期望輸出信號Y D,i [n]與Y F,i [n]之和係等於觀察得的輸入信號X i [n],則單純標準化可施用至該等遮罩 注意此種標準化影響分解後直接成分及擴散成分輸出信號的能量位準,使得方程式(24)不再有效。
直接成分及擴散成分輸出信號Y D,i [n]與Y F,i [n]可從150,藉將該多聲道輸入信號X i [n]的一延遲拷貝乘以該等直接及擴散遮罩而產生。於160,該多聲道輸入信號可延遲等於完成動作110-150所需處理時間以產生該等直接及擴散遮罩。現在該等直接成分及擴散成分輸出信號係用在下列用途,諸如先前所述空間格式轉換或雙耳渲染。
雖然為了容易說明顯示為一串列循序的動作,但方法100可藉並聯處理器執行及/或呈管線執行,使得針對多個聲道及多個時間樣本並列地執行不同動作。
類似圖1之方法100,一種多聲道直接-擴散分解方法可於一時頻分析框架內體現。更明確言之,於方程式(1)至方程式(3)建立的信號模型及於方程式(4)至方程式(25)摘要的分析被視為針對一任意時頻表示型態的各個頻帶為有效。
時頻框架係受多項因素激勵。第一,時頻辦法許可含有多個直接成分的信號之獨立分析與分解,但附加條件為該等直接成分的頻率並非實質上重疊。第二,具有時間侷限化分析的一時頻辦法許可具有時變直接及擴散能量的非靜態信號穩健地分解。第三,時頻辦法係符合心理聲學搜尋,提示人類聽覺系統提取空間提示為時間及頻率之函數,於該處雙耳提示的頻率解析度係約略遵循相等矩形帶寬(ERB)尺規。基於此等因素,當然係在時頻框架內部執 行直接-擴散分解。
圖1為於時頻框架中,一多聲道信號X i [n]之直接/擴散分解方法200之流程圖。於210,該多聲道信號X i [n]可分開或分割成多個頻帶。表示法X i [m,k]係用來表示複合時頻信號,於該處m表示時框指數,及k表示頻率指數。舉例言之,多聲道信號X i [n]可運用短時間富利葉變換(STFT)分離成多個頻帶。針對額外實例,由兩個複合調變正交鏡像濾波器組(QMF)的一串級所組成的一混成濾波器組可用來將該多聲道信號分離成多個頻帶。混成QMF之優點為:由於高頻的頻率解析度一般可接受地減低故,比較STFT對記憶體的要求減少。
於220,可針對各頻帶的各對聲道做相關性係數估值。各個相關性係數估值可關聯方法100的動作110完成。選擇性地,各個相關性係數估值可如關聯方法100的動作120所述而予補償。
於230,得自220的相關性係數估值可分組成為知覺帶。舉例言之,得自220的相關性係數估值可分組成為咳嗽聲頻帶帶,可依據相等矩形帶寬尺規而分組,或以某種方式分組成帶。得自220的相關性係數估值可分組,使得相鄰帶間的知覺差約略相等。相關性係數估值可分組,例如藉針對相同知覺帶內部的各頻帶求取相關性係數估值的平均而分組。
於240,如關聯方法100的動作130及140所述,針對各個知覺帶可產生與解出線性系統。於250,如關聯方法 100的動作150所述,針對各個知覺帶可產生直接及擴散遮罩。
於260,得自250的直接及擴散遮罩可被解除分組,換言之,於230用來將頻帶分組的動作可於260逆轉而提供針對各個頻帶的直接及擴散遮罩。舉例言之,若於230三個頻帶組合成為單一知覺帶,則於260,該知覺帶的該遮罩須施用至3頻帶之各個頻帶。
直接成分及擴散成分輸出信號Y D,i [m,k]與Y F,i [m,k]分別可藉該多頻帶多聲道輸入信號X i [m,k]乘以得自260的已解除分組的直接及擴散遮罩而決定。該多頻帶多聲道輸入信號於270可被延遲等於完成動作220-260需要的處理時間之一時間週期以產生直接及擴散遮罩。直接成分及擴散成分輸出信號Y D,i [m,k]與Y F,i [m,k]分別可藉合成濾波器組280而轉換成時域信號Y D,i [n]與Y F,i [n]。
雖然為了容易說明顯示為一串列循序的動作,但方法100可藉並聯處理器執行及/或呈管線執行,使得針對多個聲道及多個時間樣本並列地執行不同動作。
方法100及方法200使用真值遮罩,用於全然由直接或擴散成分組成的信號的效果良好。但真值遮罩用在含有直接及擴散成分之混合物的信號分解上較非有效,原因在於真值遮罩保有混合成分的相位。換言之,分解後的直接成分輸出信號將含有來自輸入信號的擴散成分之相位資訊,及反之亦然。
圖3為基於一多聲道信號之DEF,估計直接成分 及擴散成分輸出信號之方法300之流程圖。於已經計算DEF後,開始方法300,例如使用方法100的動作110至140或方法200的動作210至240。於後述情況下,方法300可針對各個知覺帶獨立地進行。方法300探討下述假設,潛在直接成分橫過多個聲道係完全相同以完全估計該直接成分的幅值及相位二者。
設已分解的直接成分輸出信號Y D,i [n]為真值直接成分的估值 於該處為真值直接基底的估值,為真值直接能量的估值,及為真值直接成分相移的估值。於方法300中假設已分解的直接成分輸出信號及已分解的擴散成分輸出信號遵照原先添加物信號模型,亦即X i [n]=Y D,i [n]+Y F,i [n]。用於本方法之目的,有助於以極性形式表示複合值直接基底估值,獲得 於該處為直接基底的真值幅值的估值,及為真值相位之估值。直接成分輸出信號Y D,i [n]可藉獨立地估計各成分、及而估算。
於372,直接能量估值可決定為 於該處為如方程式(6)表示的聲道i的總能量之估值。從方程式(3)及(15),顯然估計的直接能量的預期值係約等於真值直接能量,亦即
於374,可估計直接基底的幅值。直接及擴散基底為隨機數量。雖然直接及擴散成分的預期能量於統計上係由a i 2b i 2決定,但各個時樣n的瞬時能量為隨機的。直接基底的隨機本質係假設於全部聲道為完全相同,原因在於假設直接成分橫過各聲道為相關性。為了估計直接基底的瞬時幅值,觀察得信號的瞬時幅值之加權平均|X i [n]|係橫過全部聲道i運算。藉由對具有更高直接能量比的聲道給予更大的權值,直接基底的瞬時幅值可穩健地估計而極少有來自擴散成分的影響為 如上藉標準化,確保如方程式(2)建立的適當預期能量,亦即
於376,可估計相角。針對一給定通道i的每聲道相移估值可從樣本相關性係數的相位計算,其依據方程式(9)估算聲道i與j的直接成分相移間之差。為了估計絕對相移,需要以已知的絕對相移固定一參考聲道,於此處選用為零弧度。設指數l表示具有最大DEF估值的聲道,然後針對全部聲道i的每聲道相移運算為 假設針對具有直接能量之高比例的通道之估計相位差為更準確,計算相對於聲道l的每聲道相移係藉前述假設激勵。
使用所決定每聲道相移的估值,可運算瞬時相位的估值。類似於該幅值,該等直接及擴散基底的瞬時相位針對各個時樣n為隨機的。為了估計直接基底的瞬時相位,觀察信號的瞬時相位∠X i [n]之加權平均可橫過全部聲道i運算為 類似方程式(29),權值係選用為DEF估值以強調具有較高直接能量比的聲道。須從各個聲道i去除每聲道相移,使得當橫過各聲道求取平均時,直接基底的瞬時相位為排齊。
於378,分解後直接成分輸出信號Y D,i [n]可使用方程式(27)針對各個聲道i及得自372的估值、得自374的估值、及得自376的之估值而產生。
Y F,i [n]=X i [n]-Y D,i [n] (32)
圖4為多聲道信號X i [n]於一時頻框架內的直接-擴散分解方法400之流程圖。該方法400係類似方法200。動作410、420、430、440、450、460、470、及480具有與方法200中之對偶動作的相同功能。將不再就圖4重複此等動作之說明。
業已發現方法200難以將分開的成分識別為直接成分,原因在於相關性係數方程式乃係與位準獨立無關。為了彌補此項問題,針對一給定聲道對的相關性係數估值,若該聲道對含有具相對低能量的一聲道,則可偏移為高。於425,可針對各個聲道對決定相對聲道能量及/或絕 對聲道能量間之差。若一聲道對間之相對或絕對能量差超過一預定臨界值,則於420對該聲道對所做的相關性係數估值可偏移為高或高估。另外,針對一聲道基於該聲道的估計能量,例如藉使用方法400之動作410、420、430、及440所計算的直接能量分量(DEF)可偏移為高或高估。
也業已發現方法200難以識別過渡信號成分為直接成分,原因在於相關性係數估值的計算歷經相當長的時間窗。為了補償此一問題,若一給定聲道對含有具有經識別的過渡之一聲道,則針對該聲道對的相關性係數估值也可偏移為高。於415,於各聲道的各頻帶可檢測得過渡。若一聲道對的至少一個聲道含有一過渡,則針對該聲道對於420所做相關性係數估值可偏移為高或高估。另外,針對一聲道決定含有一過渡,例如藉使用方法400之動作410、420、430、及440所計算的直接能量分量(DEF)可偏移為高或高估。
純粹擴散信號成分的相關性係數估值可具有實質上比直接信號的相關性係數估值更高的變量。可於435決定感官知覺帶的相關性係數估值之變量。若在一感官知覺帶,針對一給定聲道對的相關性係數估值之變量係超過一預定臨界值變量值,則可決定該聲道對含有全部擴散信號。
於455,直接與擴散遮罩可通過時間及/或頻率變平滑化以減少處理假影。舉例言之,可施加指數加權移動平均濾波器以平滑化通過時間的直接與擴散遮罩值。該平滑化於時間上可為動態或可變。例如,如於435決定,平滑 化程度可取決於相關性係數估值的變量。具有相對低直接能量成分的聲道之遮罩值也可通過頻率而平滑化。舉例言之,遮罩值的幾何平均可通過本地頻率區域(亦即多個相鄰頻帶)計算,及該平均值可用作為具有極少或無直接能量成分之聲道的遮罩值。
設備說明
圖5為用於一多聲道輸入信號X i [n]之直接-擴散分解設備500的方塊圖。該設備500可包括此處所述用以提供功能及特徵的軟體及/或硬體。該設備500可包括一處理器510、一記憶體520、及一儲存裝置530。
該處理器510可經組配來接收該多聲道輸入信號X i [n],及針對k頻帶,分別地輸出該等直接成分及擴散成分輸出信號Y D,i [m,k]及Y F,i [m,k]。該等直接成分及擴散成分輸出信號可被輸出成為行進通過導線或其它傳播媒體至處理器510外部實體的信號。該等直接成分及擴散成分輸出信號可被輸出成為資料串流至在處理器510上運算的另一處理。該等直接成分及擴散成分輸出信號可以某種其它方式輸出。
處理器510可包括下列中之一或多者:類比電路、數位電路、韌體、及一或多個處理裝置諸如微處理器、數位信號處理器、可現場程式規劃閘陣列(FPGA)、特定應用積體電路(ASIC)、可程式規劃邏輯裝置(PLD)及可規劃邏輯陣列(PLA)。處理器的硬體可包括各種提供此處描述的功能及特徵之特定單元、電路、及介面。處理器510可包括能夠並列執行多項操作的多個處理器核心或處理通道。
處理器510可耦接至記憶體520。處理器510例如可為靜態或動態隨機存取記憶體。處理器510可儲存資料包括輸入信號資料、中間結果、及輸出資料於記憶體520。
處理器510可耦接至儲存裝置530。儲存裝置530可儲存指令,該等指令當由處理器510執行時,使得設備500執行此處所述方法。一儲存裝置乃許可讀及/或寫至非依電性儲存媒體的一裝置。儲存裝置包括硬碟機、DVD驅動裝置、快閃記憶體裝置及其它。儲存裝置530可包括儲存媒體。此等儲存媒體例如包括磁性媒體諸如硬碟;光學媒體諸如光碟(CD-ROM及CD-RW)及數位影音碟(DVD及DVD±RW);快閃記憶體裝置及其它儲存媒體。「儲存媒體」一詞表示儲存資料的實體媒體,而排除過渡媒體諸如傳播信號及波形。
雖然為求容易說明,於圖5中顯示為分開的功能元件,但處理器510、記憶體520、及儲存裝置530全部各部分皆可封裝在單一實體裝置諸如可現場程式規劃閘陣列或數位信號處理器電路內部。
結論
於本詳細說明部分全文中,所顯示的實施例及實例須視為舉例說明而非限制所揭示或請求專利的設備及程序。雖然此處呈示的許多實例步及方法動作或系統元件的特定組合,但須瞭解該等動作及該等元件可以其它方式組合以達成相同目的。至於有關流程圖,可有額外的及更少的步驟,如圖所示之步驟可組合或進一步精製以達成此處 所述之方法。只係聯結一個實施例討論的動作、元件及特徵並非意圖排除於其它實施例中的類似角色。
如此處使用「多個」表示2或以上。如此處使用,項目之一「集合」可包括此等項目中之一或多者。無論係於書面詳細說明部分或申請專利範圍中,如此處使用「包含」、「包括」、「具有」、「含有」、「涉及」等詞須瞭解係指末端開放式,亦即表示包括但非限於。只有過渡片語「係由其組成」及「主要係由其組成」分別為有關申請專利範圍的封閉式或半封閉式過渡片語。於申請專利範圍各項中使用序數術語諸如「第一」、「第二」、「第三」等以修飾一申請專利範圍元件本身並不代表任何優先順序、偏好、或一個申請專利範圍元件的排序係超過另一個元件、或執行一方法的動作之時間順序,反而係僅用作為標示以區別具有某個名稱的一個申請專利範圍元件與具有相同名稱的另一個申請專利範圍元件(但係用於序數術語)來區別該等申請專利範圍元件。如此處使用「及/或」表示所列表的項目為替代方案,但該等替代方案也包括所列表的項目之任一種組合。
100、200、300、400‧‧‧方法
110-160、210-280、372-380、410-480‧‧‧處理方塊、動作
500‧‧‧設備
510‧‧‧處理器
520‧‧‧記憶體
530‧‧‧儲存裝置
圖1為一種直接-擴散分解方法之流程圖。
圖2為另一種直接-擴散分解方法之流程圖。
圖3為另一種直接-擴散分解方法之流程圖。
圖4為另一種直接-擴散分解方法之流程圖。
圖5為一種運算裝置之方塊圖。
100‧‧‧方法
110-160‧‧‧處理方塊、動作

Claims (20)

  1. 一種用於具有三個或更多個聲道之一輸入信號之直接、擴散分解的方法,該方法係包含:估計得自該等三個或更多個聲道中之各對聲道間的相關性係數;建構關聯經估計之該等相關性係數與該等三個或更多個聲道各者之直接能量分量的方程式之一線性系統;解出該線性系統以估計該等直接能量分量;及部分基於該等直接能量分量而產生一直接成分輸出信號及一擴散成分輸出信號。
  2. 如申請專利範圍第1項之方法,其係進一步包含:將該等三個或更多個聲道之各者分離成多個頻帶;及針對該等多個頻帶各自獨立地進行該等估計、建構、解出、及產生之步驟。
  3. 如申請專利範圍第1項之方法,其中於該線性系統中之各個方程式具有下示形式 其中:為該等多個聲道的聲道ij間之該相關性係數,及φ i φ j 為聲道ij的該等直接能量分量。
  4. 如申請專利範圍第1項之方法,其中估計各對聲道間之該相關性係數係使用一遞歸公式進行。
  5. 如申請專利範圍第4項之方法,其係進一步包含:藉下列動作而補償該等遞歸相關性係數估值:設定低於一預定值的相關性係數估值為零,及線性放大大於或等於該預定值的相關性係數估值之該範圍為範圍[0,1]。
  6. 如申請專利範圍第1項之方法,其中產生一直接成分輸出信號及一擴散成分輸出信號係進一步包含:基於該等三個或更多個聲道各自的該等直接能量分量而產生直接及擴散遮罩;及將該輸入信號乘以該等直接及擴散遮罩以提供該直接成分輸出信號及該擴散成分輸出信號。
  7. 如申請專利範圍第1項之方法,其中產生一直接成分輸出信號及一擴散成分輸出信號係進一步包含:部分基於該等三個或更多個聲道之該等直接能量分量而估計一直接基底之一幅值及相角;部分基於該等個別直接能量分量而估計針對該等三個或更多個聲道之各者的一直接成分能量及相移;及從該個別直接成分能量及相移以及該直接基底之該幅值及相角而產生針對該等三個或更多個聲道各自的一直接成分輸出信號。
  8. 如申請專利範圍第7項之方法,其係進一步包含:藉由從一個別聲道中扣除該個別估計之直接成分 而估計針對該等三個或更多個聲道之各者之一擴散成分輸出信號。
  9. 如申請專利範圍第1項之方法,其中解出該線性系統係進一步包含:使用一線性最小平方方法及一加權最小平方方法中之一者以解出方程式的一高估決定系統。
  10. 一種用於具有三個或更多個輸入信號聲道之一輸入信號之直接、擴散分解的方法,該方法係包含:將該等三個或更多個輸入信號聲道之各者分離成多個頻帶;針對該等多個頻帶之各者從該等三個或更輸入信號聲道估計各對輸入信號聲道間之相關性係數;針對該等多個頻帶之各者建構關聯該估計之相關性係數及直接能量分量的方程式之線性系統;針對該等多個頻帶之各者解出該等線性系統以估計針對該等三個或更多個輸入信號聲道各自的該等直接能量分量;及部分基於該等直接能量分量而產生針對該等多個頻帶各自的一直接成分輸出信號及一擴散成分輸出信號。
  11. 如申請專利範圍第10項之方法,其中針對該等多個頻帶之各者該線性系統中的各個方程式具有下示形式 其中:為該等多個輸入信號聲道的輸入信號聲道ij間之該相關性係數,及φ i φ j 為輸入信號聲道ij的該等直接能量分量。
  12. 如申請專利範圍第11項之方法,其中估計各對輸入信號聲道間之該相關性係數係使用一遞歸公式進行。
  13. 如申請專利範圍第12項之方法,其係進一步包含:藉下列動作而補償該等遞歸相關性係數估值:設定低於一預定值的相關性係數估值為零,及線性放大大於或等於該預定值的相關性係數估值之該範圍為範圍[0,1]。
  14. 如申請專利範圍第10項之方法,其中產生一直接成分輸出信號及一擴散成分輸出信號係進一步包含:基於該等三個或更多個輸入信號聲道各自的該等直接能量分量而針對該等多個頻帶之各者產生直接及擴散遮罩;及針對該等多個頻帶之各者,將該輸入信號乘以該等直接及擴散遮罩以提供該直接成分輸出信號及該擴散成分輸出信號。
  15. 如申請專利範圍第14項之方法,其係進一步包含:橫過時間及/或頻率,平滑化該等直接及擴散遮罩。
  16. 如申請專利範圍第15項之方法,其中平滑化該等直接及擴散遮罩係進一步包含: 部分基於針對該等三個或更多個輸入信號聲道及該等多個頻帶的該等相關性係數估值之變量的一估值而平滑化該等直接及擴散遮罩。
  17. 如申請專利範圍第10項之方法,其中於該等多個頻帶之一者中估計來自該等三個或更多個輸入信號聲道之一對輸入信號聲道間的該相關性係數係進一步包含:若該對輸入信號聲道間的一差值係超過一預定臨界值,則高估該對輸入信號聲道間之該相關性係數。
  18. 如申請專利範圍第10項之方法,其中於該等多個頻帶中之一者中估計來自該等三個或更多個輸入信號聲道之一對信號間的該相關性係數係進一步包含:若該對輸入信號聲道中之一者係包括一過渡,則高估該對輸入信號聲道間之該相關性係數。
  19. 如申請專利範圍第10項之方法,其中解出該等線性系統係進一步包含:使用一線性最小平方方法及一加權最小平方方法中之一者以解出方程式的一高估決定系統。
  20. 一種用於具有三個或更多個聲道之一輸入信號之直接、擴散分解的設備,該設備係包含:一處理器;耦接至該處理器之一記憶體;及耦接至該處理器之一儲存裝置,該儲存裝置係儲存指令,而該等指令當由該處理器執行時使得運算裝置執行包括下列之動作: 估計得自該等三個或更多個聲道中之各對聲道間的相關性係數;建構關聯該等經估計之相關性係數與該等三個或更多個聲道各者之直接能量分量的方程式之一線性系統;解出該線性系統以估計該等直接能量分量;及部分基於該等直接能量分量而產生一直接成分輸出信號及一擴散成分輸出信號。
TW101133461A 2011-09-13 2012-09-13 用於輸入信號之直接、擴散分解的方法及設備 TWI590229B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161534235P 2011-09-13 2011-09-13
US201261676791P 2012-07-27 2012-07-27

Publications (2)

Publication Number Publication Date
TW201322252A TW201322252A (zh) 2013-06-01
TWI590229B true TWI590229B (zh) 2017-07-01

Family

ID=47883722

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101133461A TWI590229B (zh) 2011-09-13 2012-09-13 用於輸入信號之直接、擴散分解的方法及設備

Country Status (9)

Country Link
US (1) US9253574B2 (zh)
EP (1) EP2756617B1 (zh)
JP (1) JP5965487B2 (zh)
KR (1) KR102123916B1 (zh)
CN (1) CN103875197B (zh)
BR (1) BR112014005807A2 (zh)
PL (1) PL2756617T3 (zh)
TW (1) TWI590229B (zh)
WO (1) WO2013040172A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6270208B2 (ja) * 2014-01-31 2018-01-31 ブラザー工業株式会社 雑音抑圧装置、雑音抑圧方法、及びプログラム
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
CA3078420A1 (en) 2017-10-17 2019-04-25 Magic Leap, Inc. Mixed reality spatial audio
IL276510B2 (en) 2018-02-15 2024-02-01 Magic Leap Inc Virtual reverberation in mixed reality
ES2909343T3 (es) * 2018-04-05 2022-05-06 Fraunhofer Ges Forschung Aparato, método o programa informático para estimar una diferencia de tiempo entre canales
US10779082B2 (en) 2018-05-30 2020-09-15 Magic Leap, Inc. Index scheming for filter parameters
EP4049466A4 (en) 2019-10-25 2022-12-28 Magic Leap, Inc. REVERBER FOOTPRINT ESTIMATION

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185805A (en) * 1990-12-17 1993-02-09 David Chiang Tuned deconvolution digital filter for elimination of loudspeaker output blurring
US7412380B1 (en) * 2003-12-17 2008-08-12 Creative Technology Ltd. Ambience extraction and modification for enhancement and upmix of audio signals
US8019614B2 (en) 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
US8180067B2 (en) 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US9088855B2 (en) * 2006-05-17 2015-07-21 Creative Technology Ltd Vector-space methods for primary-ambient decomposition of stereo audio signals
US8204237B2 (en) 2006-05-17 2012-06-19 Creative Technology Ltd Adaptive primary-ambient decomposition of audio signals
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
WO2008046530A2 (en) 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
US8374355B2 (en) * 2007-04-05 2013-02-12 Creative Technology Ltd. Robust and efficient frequency-domain decorrelation method
JP2010538571A (ja) * 2007-09-06 2010-12-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
US8107631B2 (en) 2007-10-04 2012-01-31 Creative Technology Ltd Correlation-based method for ambience extraction from two-channel audio signals
US8103005B2 (en) * 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
EP2196988B1 (en) 2008-12-12 2012-09-05 Nuance Communications, Inc. Determination of the coherence of audio signals
US8660281B2 (en) * 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
US9197978B2 (en) * 2009-03-31 2015-11-24 Panasonic Intellectual Property Management Co., Ltd. Sound reproduction apparatus and sound reproduction method
US8705769B2 (en) * 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
EP2464146A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve

Also Published As

Publication number Publication date
BR112014005807A2 (pt) 2019-12-17
US9253574B2 (en) 2016-02-02
EP2756617A1 (en) 2014-07-23
WO2013040172A1 (en) 2013-03-21
CN103875197B (zh) 2016-05-18
KR20140074918A (ko) 2014-06-18
KR102123916B1 (ko) 2020-06-17
PL2756617T3 (pl) 2017-05-31
CN103875197A (zh) 2014-06-18
JP5965487B2 (ja) 2016-08-03
US20130182852A1 (en) 2013-07-18
TW201322252A (zh) 2013-06-01
EP2756617B1 (en) 2016-11-09
JP2014527381A (ja) 2014-10-09
EP2756617A4 (en) 2015-06-03

Similar Documents

Publication Publication Date Title
TWI590229B (zh) 用於輸入信號之直接、擴散分解的方法及設備
ES2773794T3 (es) Aparato y procedimiento para estimar una diferencia de tiempos entre canales
CN107004427B (zh) 增强多声道音频信号内语音分量的信号处理装置
RU2568926C2 (ru) Устройство и способ извлечения прямого сигнала/сигнала окружения из сигнала понижающего микширования и пространственной параметрической информации
Emiya et al. Subjective and objective quality assessment of audio source separation
US8107631B2 (en) Correlation-based method for ambience extraction from two-channel audio signals
EP2671222B1 (en) Determining the inter-channel time difference of a multi-channel audio signal
US8504181B2 (en) Audio signal loudness measurement and modification in the MDCT domain
EP3257044B1 (en) Audio source separation
EP3133833B1 (en) Sound field reproduction apparatus, method and program
TW201444383A (zh) 用於音訊信號處理之多聲道直接-周圍分解之裝置及方法
ES2755675T3 (es) Aparato y método para escalado de señales centrales y mejora estereofónica basada en una relación señal a mezcla a dos canales
US10718742B2 (en) Hypothesis-based estimation of source signals from mixtures
US20150312663A1 (en) Source separation using a circular model
KR20170101614A (ko) 분리 음원을 합성하는 장치 및 방법
Pishdadian et al. A multi-resolution approach to common fate-based audio separation
US20180090150A1 (en) Ambience extraction from stereo signals based on least-squares approach
JP5333257B2 (ja) 符号化装置、符号化システムおよび符号化方法
Rosell Methods of measuring impulse responses in architectural acoustics
Kalinichenko Dynamic gain control of the center channel for increasing the spaciousness
Ma Variational models in image and signal enhancement
He et al. Ambient Spectrum Estimation-Based Primary Ambient Extraction
JP2017173456A (ja) インパルス応答推定装置及びプログラム
Frey et al. Convolution and Filtering