TWI441167B - 用於編碼音訊信號或解碼已編碼音訊信號之裝置及方法、及相關電腦程式 - Google Patents
用於編碼音訊信號或解碼已編碼音訊信號之裝置及方法、及相關電腦程式 Download PDFInfo
- Publication number
- TWI441167B TWI441167B TW098122759A TW98122759A TWI441167B TW I441167 B TWI441167 B TW I441167B TW 098122759 A TW098122759 A TW 098122759A TW 98122759 A TW98122759 A TW 98122759A TW I441167 B TWI441167 B TW I441167B
- Authority
- TW
- Taiwan
- Prior art keywords
- domain
- signal
- audio signal
- converter
- encoded
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 121
- 238000000034 method Methods 0.000 title claims description 37
- 238000004590 computer program Methods 0.000 title claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 16
- 230000001131 transforming effect Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 239000006185 dispersion Substances 0.000 claims 1
- 230000005284 excitation Effects 0.000 description 62
- 238000012545 processing Methods 0.000 description 56
- 238000010586 diagram Methods 0.000 description 42
- 230000006870 function Effects 0.000 description 27
- 238000007781 pre-processing Methods 0.000 description 23
- 238000013139 quantization Methods 0.000 description 18
- 230000001953 sensory effect Effects 0.000 description 11
- 238000012805 post-processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000009172 bursting Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003446 memory effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/0008—Algebraic codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本發明係關於音訊編碼,特定言之,係關於低位元率音訊編碼方案。
技藝界已知頻域編碼方案諸如MP3或AAC。此等頻域編碼器係基於一時域/頻域變換;一隨後量化階段,其中該量化誤差係使用得自心理聲學模組之資訊控制;及一編碼階段,其中該已量化的頻譜係數及相對應的旁資訊係使用代碼表進行熵編碼。
另一方面,有些編碼器極為適合用於語音處理諸如述於3GPP TS 26.290之AMR-WB+。此種語音編碼方案進行時域信號之線性預測濾波。此種LP濾波係衍生自該輸入時域信號之線性預測分析。所果所得LP濾波係數然後經量化/編碼及傳輸作為旁資訊。該方法稱作為線性預測編碼(LPC)。於該濾波器之輸出端,該預測剩餘信號或預測誤差信號其也稱作為激勵信號係使用該ACELP編碼器之藉合成分析階段編碼,或另外,係使用變換編碼器編碼,該變換編碼器係使用具有一重疊之傅立葉變換。ACELP編碼與變換編碼的激勵編碼其也稱作為TCX編碼間之判定係使用閉環或開環演繹法則進行。
頻域音訊編碼方案諸如高效率-AAC編碼方案,其組合AAC編碼方案及譜帶複製技術,也可組合聯合立體聲或多頻道編碼工具,該工具已知屬於「MPEG環繞」一詞。
另一方面,語音編碼器諸如AMR-WB+也有一高頻加強階段及一立體功能。
頻域編碼方案之優點在於其對音樂信號於低位元率顯示高品質。但問題在於語音信號於低位元率的品質。
語音編碼方案即使於低位元率對語音信號也顯示高品質,但對音樂信號於低位元率顯示品質不佳。
本發明之一目的係提供一種改良式編碼/解碼構想。
本目的係藉如申請專利範圍第1項之用於編碼一音訊信號之裝置、如申請專利範圍第12項之用於編碼一音訊信號之方法、如申請專利範圍第13項之用於解碼一已編碼之音訊信號之裝置、如申請專利範圍第21項之用於解碼一已編碼音訊信號之方法或如申請專利範圍第22項之電腦程式達成。
於根據本發明之編碼器中,使用兩個域變換器,其中第一域變換器將一音訊信號由第一域諸如時域變換入第二域諸如LPC域。第二域變換器係操作來由輸入域變換至輸出域,且第二域變換器接收第一域變換器之一輸入信號或可切換旁路,其係連結用來跳過該第一域變換器之一輸出信號作為輸入信號。換言之,如此表示第二域變換器接收第一域諸如時域之音訊信號,或另外,接收第一域變換器之輸出信號,亦即已經由一個域變換至一不同域之音訊信號作為輸入信號。第二域變換器之輸出信號係藉第一處理器處理來產生第一已處理信號,而第一域變換器之輸出信號係藉第二處理器處理俾便產生第二已處理信號。較佳,該可變換旁路額外也連結至第二處理器,使得輸入第二處理器之輸入信號為該時域音訊信號,而非第一域變換器之輸出信號。
此種極為具有彈性的編碼構想特別可用於高品質高位元有效音訊編碼,原因在於其允許至少於3個不同域編碼音訊信號;以及當可切換旁路也額外連結至第二處理器時,甚至允許編碼於4域的音訊信號。可藉由控制式切換該可切換旁路,俾便跳過該時域音訊信號之某個部分或橋聯第一域變換器或否。即使已跳過第一域變換器,仍然存在有編碼時域音訊信號的兩種不同可能,亦即透過連結至第二域變換器之第一處理器或第二處理器達成。
較佳,第一處理器及第二域變換器共同形成資訊匯集模型編碼器,諸如由MPEG 1第3層或MPEG 4(AAC)為已知之心理聲學驅動音訊編碼器。
較佳,另一個編碼器亦即第二個處理器為時域編碼器,例如為由ACELP編碼器為已知之殘餘編碼器,此處LPC殘餘信號係使用用於LPC殘餘信號或時域信號之殘餘編碼器諸如向量量化編碼器編碼。於一個實施例中,當旁路為開啟時,本時域編碼器接收LPC域信號作為輸入。此種編碼器為資訊來源模型編碼器,原因在於與資訊匯集模型編碼器相反,資訊來源模型編碼器特別設計來利用語音產生模型之規格。但當旁路被關閉時,輸入第二處理器之輸入信號將為時域信號而非LPC域信號。
但若可切換旁路被解除啟動,表示來自第一域之音訊信號於進一步處理之前被變換成第二域,則再度有兩種不同可能,亦即於第二域例如可能為LPC域編碼第一域變換器之輸出信號;或另外,將第二域信號變換至第三域,其可能為頻譜域。
較佳,頻譜域變換器亦即第二域變換器自適應實施相同演繹法則,而與輸入第二域變換器之輸入信號是否於第一域諸如時域或於第二域諸如LCP域無關。
於解碼器端,存在有兩個不同的解碼分支,此處一個解碼分支包含域變換器,亦即第二域變換器;而另一個解碼分支只包括一反向處理器,但不包括域變換器。依據於編碼器端設定之實際旁路而定,亦即依據旁路是否為作用狀態而定,可跳過於解碼器之第一變換器或否。特定言之,當第二變換器之輸出信號已經於目標域,諸如第一域或時域時,可跳過於解碼器之第一變換器。但若於解碼器之第二變換器之輸出信號係於與第一域不同之域,則解碼器旁路被解除作用狀態,而信號由不同域被轉換成目標域,亦即於較佳實施例中的第一域。於一個實施例中,第二已處理信號係於相同域,亦即於第二域;但於其它實施例中,其中於編碼器之可切換旁路也連結至第二處理器,於解碼器端之第二反向處理器之輸出信號也已經於第一域。於此種情況下,係使用於解碼器端之可切換旁路而跳過第一變換器,因此解碼器輸出信號組合器接收輸入信號,其表示音訊信號之不同部分,且係於相同域。此等信號可藉組合器而時間多工化,或可藉解碼器輸出信號組合器而交叉衰減。
於較佳實施例中,編碼裝置包含用於壓縮輸入信號之一共通前處理階段。本共通前處理階段包括多頻道處理器及/或頻譜帶寬複製處理器,使得對全部不同編碼模式該共通前處理階段之輸出信號相對於輸入該共通前處理階段之輸入信號為已壓縮版本。相對應地,解碼器端組合器之輸出信號可藉一共通後處理階段後處理,該階段可操作來執行頻譜帶寬複製合成及/或多頻道擴展運算,諸如多頻道升混運算,該運算較佳係使用由編碼器端傳送至解碼器端之參數型多頻道資訊指導。
於較佳實施例中,輸入編碼器之音訊信號及藉解碼器輸出之音訊信號所位在的第一域為時域。於較佳實施例中,第一域變換器之輸出信號所位在的第二域為LPC域,故第一域變換器為LPC分析階段。於額外實施例中,第三域亦即第二域變換器之輸出信號所位在之該域為頻譜域,或為藉第一域變換器所產生之LPC域信號之頻譜域。連結至第二域變換器之第一處理器較佳係實施為資訊匯集編碼器諸如量化器/定標器連同熵減少碼諸如連結至霍夫曼編碼器或算術編碼器之心理聲學驅動量化器,其執行相同功能,而與輸入信號係於頻譜域或LPC頻譜域無關。
於又一較佳實施例中,於一全功能裝置中,用於處理第一域變換器之輸出信號或用於處理可切換旁路之輸出信號之第二處理器為時域編碼器,諸如用於ACELP編碼器或用於任何其它CELP編碼器之殘餘信號編碼器。
隨後將就附圖說明本發明之較佳實施例,附圖中:第1a圖為根據本發明之第一面相之編碼方案之方塊圖;第1b圖為根據本發明之第一面相之解碼方案之方塊圖;第1c圖為根據本發明之又一面相之編碼方案之方塊圖;第1d圖為根據本發明之又一面相之解碼方案之方塊圖;第2a圖為根據本發明之第二面相之編碼方案之方塊圖;第2b圖為根據本發明之第二面相之解碼方案之方塊圖;第2c圖為第2a圖之較佳共通前處理之方塊圖;及第2d圖為第2b圖之較佳共通後處理之方塊圖;第3a圖示例顯示根據本發明之又一面相之編碼方案之方塊圖;第3b圖示例顯示根據本發明之又一面相之解碼方案之方塊圖;第3c圖示例顯示具有級聯開關之編碼裝置/方法之示意代表圖;第3d圖顯示其中使用級聯組合器之用於解碼之裝置或解碼之方法之示意圖;第3e圖示例顯示時域信號之示意說明圖及已編碼信號之相對應之代表圖,示例顯示含括於二已編碼信號之短交叉衰減區;第4a圖示例顯示具有一開關位於該等編碼分支前方之方塊圖;第4b圖顯示具有該開關位於編碼分支後方之編碼方案之方塊圖;第4c圖示例顯示較佳組合器實施例之方塊圖;第5a圖示例顯示作為準週期或脈衝狀信號節段之時域語音節段之波形圖;第5b圖示意顯示該第5a圖之節段之頻譜;第5c圖示例顯示作為仿雜訊節段之一實例之無聲語音之時域語音節段;第5d圖示意顯示第5c圖之時域波形之頻譜;第6圖示例顯示藉合成CELP編碼器進行分析之方塊圖;第7a至7d圖示例顯示作為脈衝狀信號之有聲-無聲激勵信號;第7e圖示例顯示提供短期預測資訊及預測誤差(激勵)信號之編碼器端LPC階段;第7f圖示例顯示用於產生加權信號之LPC裝置之又一個實施例;第7g圖示例顯示如第2b圖之變換器537之要求,經由應用反相加權操作及隨後激勵分析,用於將加權信號變換成激勵信號之實施例;第8圖示例顯示根據本發明之一實施例多頻道合併演繹法則之方塊圖;第9圖示例顯示頻寬擴展演繹法則之較佳實施例;第10a圖示例顯示當執行開環判定時,該開關之詳細說明;及第10b圖示例顯示當於閉環決策模式操作時該開關之示例說明。
第1a圖顯示本發明之一實施例,其中有兩個域變換器510、410及可切換旁路50。可切換旁路50自適應回應於輸入可切換旁路50之切換控制輸入端之一控制信號51而為作用狀態或非作用狀態。若該可切換旁路為作用狀態,則於音訊信號輸入端99、195之音訊信號並未饋入第一域變換器510,而反饋入可切換旁路50,使得第二域變換器410直接於輸入端99、195接收該音訊信號。於一個實施例中,將關聯第1c圖及第1d圖討論,可切換旁路50另外係連結至第二處理器520,而未連結至第二域變換器410,使得可切換旁路50之輸出信號只透過第二處理器520處理。
但若可切換旁路50係藉控制信號51而設定於非作用狀態,則於音訊信號輸入端99或195之音訊信號係輸入第一域變換器510,且於第一域變換器510之輸出端,輸入第二域變換器410或輸入第二處理器520。至於第一域變換器輸出信號係輸入第二域變換器410或第二處理器520時之決定也係基於開關控制信號作決定,但另外也可透過其它手段諸如母資料或基於信號分析作決定。另外,第一域變換器信號510甚至可輸入兩個裝置410、520,那一個處理信號係輸入輸出介面來表示於某個時間部分之音訊信號,係透過如就第4b圖討論之處理器與輸出介面間連結的開關作選擇。另一方面,決定那一個信號將輸入輸出資料流也可於輸出介面800本身內部作選擇。
於第1a圖之示例說明,用於編碼音訊信號來獲得一已編碼音訊信號之本發明裝置,此處於輸入端99/195之該音訊信號係於第一域,該裝置包含用於將音訊信號由第一域變換入第二域之第一域變換器。此外,提供跳過第一域變換器510之可切換旁路54,或用於將該音訊信號回應於旁路開關控制信號51而藉第一域變換器變換。如此,作用狀態,可切換旁路跳過第一域變換器;而於非作用狀態,音訊信號係輸入第一域變換器。
此外,提供第二域變換器410,用於將接收自可切換旁路50或第一域變換器之音訊信號變換成第三域。第三域係與第二域不同。此外,提供第一處理器420,用於根據第一編碼演繹法則編碼第三域音訊信號來獲得第一已處理信號。此外,提供第二處理器520,用於根據第二編碼演繹法則編碼接收自該第一域變換器之音訊信號,此處該第二編碼演繹法則係與該第一編碼演繹法則不同。第二處理器提供第二已處理信號。特別,該裝置係自適應於具有對該音訊信號之一部分之一已編碼音訊信號於其輸出端,此處此已編碼信號包括第一已處理信號或第二已處理信號。當然可有交越區,但為了加強編碼效應,目標係將交越區維持儘可能地小,可能時消除交越區,故獲得最大位元率壓縮。
第1b圖示例顯示於較佳實施例中,於第1a圖之編碼器相對應之解碼器。第1b圖中用於解碼已編碼音訊信號之裝置接收包含於第三域之第一已處理信號及於第二域之第二已處理信號之一已編碼音訊信號作為輸入信號,此處該第二域與第三域係彼此不同。特別,輸入輸入介面900之信號係類似於第1a圖之介面800之輸出信號。解碼裝置包含用於反相處理第一已處理信號之一第一反相處理器430;及用於反相處理第二已處理信號之一第二反相處理器530。此外,提供第二變換器440,用於將第一已反相處理信號由第三域變換至不同域。此外,提供一第一變換器540,用於將第二已反相處理信號變換至第一域,或當該不同域非為第一域時,用於將該第一已反相處理信號變換至第一域。如此表示當第一已處理信號並非已經於第一域時,亦即其中於前處理電路/後處理電路之已解碼音訊信號或中間音訊信號將所在的目標域時,第一已反相處理信號只藉該第一變換器變換。此外,解碼器包含一旁路52,用於當該不同域為第一域時跳過該第一變換器540。第1b圖之電路額外包含一組合器600用於組合第一變換器540之輸出信號及旁路輸出信號,亦即旁路52輸出之信號來獲得一已組合已解碼音訊信號699,其可就此使用,或甚至可使用共通後處理階段解壓縮,容後詳述。
第1c圖示例顯示本發明之音訊編碼器之較佳實施例,其中提供於心理聲學模型300之信號分類器,用來分類輸入由MPEG環繞編碼器101及已加強頻帶複製處理器102所形成之一共通前處理階段之音訊信號。此外,第一域變換器510為LPC分析階段,可切換旁路係連結於LPC分析階段510之輸入端與輸出端間,作為第一域變換器。
LPC裝置通常輸出LPC域信號,其可為於LPC域之任何信號,諸如第7e圖之激勵信號或第7f圖之加權信號或已經經由應用LPC濾波係數至一音訊信號所產生的任何其它信號。此外,LPC裝置也可決定此等係數,也可量化/編碼此等係數。
此外,開關200設置於第一域變換器之輸出端,使得於旁路50及LPC階段510之共通輸出端之信號係前傳至第一編碼分支400或第二編碼分支500。第一編碼分支400包含得自第1a圖之第二域變換器410及第一處理器420;第二編碼分支500包含得自第1a圖之第二處理器520。於第1c圖之編碼器實施例中,第一域變換器510之輸入端係連結至可切換旁路50之輸入端,而可切換旁路50之輸出端係連結至第一域變換器510之輸出端來形成一共通輸出端,而此共通輸出端係輸入開關200,此處該開關包含二輸出端,或甚至可包含用於額外編碼處理器之額外輸出端。
較佳,於第一編碼分支400之第二域變換器410包含MDCT變換,此外係組合可切換時間翹曲(TW)功能。MDCT頻譜係使用定標器/量化器編碼,其係基於由位在信號分類器區塊300內部之心理聲學模型所提供之資訊而執行輸入值的量化。另一方面,第二處理器包含用於將輸入信號進行時域編碼之一時域編碼器。於一個實施例中,開關200係控制成於作用狀態/閉合旁路50之情況下,開關200自動設定至上編碼分支400。但於又一實施例中,即使當旁路為作用狀態/閉合時,開關200也可控制成與可切換旁路50獨立無關地控制,故時域編碼器520可直接接收時域音訊信號輸入信號。
第1d圖示例顯示相對應之解碼器,此處LPC合成區塊540係與第1b圖之第一變換器相對應,且可透過旁路52而被跳過,旁路52較佳為透過由位元流解多工器900所產生之一旁路信號控制的一可切換旁路。位元流解多工器900可產生此一信號,及產生用於編碼分支430、530或SBR合成區塊701或MPEG環繞解碼器區塊702來自輸入位元流899之全部其它控制信號;或可由信號分析來源或任何其它分開的資訊來源接收用於此等控制線之資料。
隨後,將於第1c圖對編碼器及第1d圖對解碼器之實施例作進一步細節說明。
較佳實施例包含混成音訊編碼器,其組合成功的MPEG技術諸如AAC、SBR及MPEG環繞技術與成功的於一編碼器技術之強度。所得編碼解碼器包含用於全部信號類別之共通前處理,係由MPEG環繞與加強型SBR(eSBR)所組成。藉心理聲學模型控制且基於信號類別,以逐一訊框為基準,選定資訊匯集或來源導算的編碼器架構。
所提示之編碼解碼器優異地使用編碼工具,例如MPEG環繞、SBR及AAC基本編碼器。此等具有接收變化及加強來改良語音效能且於極低位元率。於較高位元率,AAC之效能為至少匹配,原因在於新穎編碼解碼器可能落回至極為接近於AAC的模式。實施加強型無雜訊編碼模式,其平均提供略為更佳的無雜訊編碼效能。對約32kbps或更低的位元率,額外工具被啟動來改良基本編碼器對語音信號及其它信號的效能。此等工具的主要組件為基於LPC的頻率成形,基於MDCT編碼器及時域編碼器之更多視窗長度替代選項。新穎頻寬擴展技術係用作為SBR工具的擴張,其更適合用於低交越頻率及用於語音。MPEG環繞工具經由提供降混及參數化立體音效而提供立體聲信號或多頻道信號之參數表示型態。對給定之測試案例,只用來編碼立體聲信號,但經由使用得自MPEG-D之既有MPEG環繞功能,其也適合用於多頻道輸入信號。
於編碼解碼器鏈之全部工具(MDCT編碼器除外)較佳只用於低位元率。
MPEG環繞技術係用來透過M個音訊傳送頻道傳送N個音訊輸入頻道。如此,系統之特性為可實施多頻道。MPEG環繞技術已經加強來提高低位元率及語音狀信號的效能。
基本操作模式係由立體聲輸入信號形成高品質單聲降混。此外,擷取空間參數之集合。於解碼器端,使用已解碼單聲降混組合所擷取的且所傳輸的空間參數而產生一立體聲輸出信號。於MPEG環繞升混中,使用由單一個OTT(一對二)框所組成的簡單樹狀結構,低位元率2-1-2模式已經加至MPEG環繞中既有的5-x-5或7-x-7運算點。若干組件接收修改來更佳自適應於語音重製。用於較高資料率,諸如64kbps或以上,核心碼係使用離散立體聲編碼(中間/旁邊或L/R),MPEG環繞並未用於此運算點。
本技術中提示的頻寬擴展係基於MPEG SBR技術。所使用的濾波器組係與MPEG環繞及SBR中所使用的QMF濾波器組相同,可共享MPEG環繞與SBR間之QMF域樣本而無需額外的合成/分析。比較標準化SBR工具,eSBR導入加強型處理演繹法則,其對於語音及音訊兩項內容皆為最適化。包括擴展至SBR,SBR較佳適用於極低位元率及低交越頻率。
如由SBR及AAC之組合為已知,本特徵可通用地被解除作用狀態,留下全頻範圍之編碼與核心編碼器。
所提示之系統之核心編碼器部分可視為選擇性的LPC濾波器與可切換頻域/時域核心編碼器之組合。
如由語音編碼器架構可知,LPC濾波器提供人類語音來源模型的基礎。LPC處理可通用地致能或去能(被跳過)或基於逐一訊框基礎。
於LPC濾波器之後,LPC域信號使用時域或基於變換的頻率變換器架構編碼。介於此二分支間切換可藉延伸型心理聲學模型控制。
時域編碼器架構係基於ACELP技術,提供特別適合用於低位元率語音信號之最適當編碼效能。
基於頻域之編碼解碼器分支係基於具有定標器/量化器及熵編碼之MDCT架構。
選擇性地,可利用時間翹曲工具來經由更佳緊密信號表示型態,而加強於較高位元率(諸如64kbps及以上)之語音信號之編碼效率。
如由現有MPEG技術為已知,基於MDCT之架構傳遞於較低位元率之良好品質且朝向透明度定標。可收歛成於較佳位元率之AAC模式。
緩衝器要求係與AAC相同,亦即於輸入緩衝器之最大位元數為每個核心編碼器頻道6144:每個單聲頻道元件6144位元,每個立體聲成對頻道元件12288位元。
位元儲存器係於編碼器控制,其允許編碼程序自適應於目前位元需求。位元儲存器之特性係與AAC相同。
編碼器及解碼器係控制成於12kbps單聲與64kpbs立體聲之不同位元率間運算。
解碼器複雜度係以PCU載明。對基本解碼器,要求約11.7PCU複雜度。於使用時間翹曲工具之情況下,如同對64kbps測試模式,解碼器複雜度增加至22.2PCU。
對較佳立體聲解碼器之RAM及ROM之要求為:
RAM:約24千字組
ROM:約150千字組
藉通知熵編碼器,可獲得只有約98千字組之總ROM大小。
於使用時間翹曲工具之情況下,RAM需求增加約3千字組,ROM需求增加約40千字組。
理論演繹法則延遲係取決於編碼解碼鏈所使用的工具(例如MPEG環繞)等:所提示之技術之演繹法則延遲係於編碼解碼器取樣率依據每個運算點顯示。下文給定之數值不包括訊框化延遲,亦即以處理第一訊框所需樣本數填補編碼器輸入緩衝器所需的延遲。本訊框化延遲對所有載明的運算模式皆為2048樣本。下表含有最小演繹法則延遲及所使用之實施例延遲。再取樣48kHz輸入PCM檔案至編碼解碼器取樣率之額外延遲係以「(.)」規定。
本編碼解碼器的主要貢獻摘述如下:所提示之技術優異地使用技藝界現況之語音及音訊編碼技術,而未犧牲編碼語音或音樂內容的效能。如此導致一種編碼解碼器,其可對於下述範圍之語音內容、音樂內容及混合內容傳遞技藝界現況的品質,該位元率係始於極低位元率(12kbps),升高至高資料率諸如128kbps及以上,於該位元率,編碼解碼器達到透明品質。
單聲信號、立體聲信號或多頻道信號係輸入第2a圖之共通前處理階段100。共通前處理方案具有聯合立體聲功能、環繞功能、及/或頻寬擴展功能。於區塊100之輸出端,有單聲頻道、立體聲頻道或多數頻道,其係輸入旁路50與變換器510之一集合或多數此類型集合。
當階段100有兩個或多個輸出端,亦即當階段100輸出立體聲信號或多頻道信號時,對階段100之各個輸出端可存在有該旁路50與變換器510之集合。舉例言之,立體聲信號之第一頻道可為語音頻道,立體聲信號之第二頻道可為音樂頻道。於此種情況下,同一個瞬間兩個頻道間之決策階段之決策可不同。
旁路50係藉決策階段300控制。決策階段接收輸入區塊100之信號或由區塊100輸出之信號作為輸入信號。另外,決策階段300也接收含括於單聲信號、立體聲信號或多頻道信號之旁資訊,或至少關聯例如當原先產生該單聲信號、立體聲信號或多頻道信號時所產生的存在有此種旁資訊之信號。
於一個實施例中,決策階段並未控制前處理階段100,區塊300與區塊100間之箭頭不存在。於又一實施例中,區塊100之處理係藉決策階段300控制至某個程度,俾便基於該決策設定區塊100中之一個或多個參數。但不影響區塊100之一般演繹法則,故區塊100之主要功能處於作用狀態而與階段300的決策無關。
決策階段300致動旁路50來將共通前處理階段之輸出信號饋至第1a圖上分支所示頻率編碼部400,或饋入LPC域變換器510,LPC域變換器510可為示於第2a圖之下分支且具有元件510、520之第二編碼部500之一部分。
於一個實施例中,該旁路跳過單域變換器。於額外實施例中,對不同編碼分支諸如第三編碼分支或甚至第四編碼分支,或甚至更多編碼分支,有額外域變換器。於有三個編碼分支之實施例中,第三編碼分支可類似第二編碼分支,但可包括於與第二分支500之激勵編碼器不同之一激勵編碼器。於本實施例中,第二分支包含LPC階段510及基於碼簿之激勵編碼器諸如ACELP之激勵編碼器;第三分支包含LPC階段及於LPC階段輸出信號之頻譜表示型態上運算之一激勵編碼器。
頻域編碼分支之關鍵元件為頻譜變換區塊410,其可運算來將共通前處理階段輸出信號變換成頻譜域。頻譜變換區塊包括MDCT演繹法則、QMF、FFT演繹法則、子波分析或濾波器組諸如有某個數目之濾波器組頻道之經臨界取樣的濾波器組,此處於本濾波器組之子頻帶信號可為實數值信號或複合數值信號。頻譜變換區塊410之輸出信號係使用頻譜音訊編碼器420編碼,如由AAC編碼方案已知可包括處理區塊。
於下編碼分支500,關鍵元件為來源模型分析器諸如LPC 510,於本實施例中,來源模型分析器為域變換器510且輸出兩種信號。一種信號為LPC資訊信號,其係用來控制LPC合成濾波器之濾波特性。此LPC資訊傳送至解碼器。另一種LPC階段510輸出信號為激勵信號或LPC域信號,其係輸入激勵編碼器520。激勵編碼器520可來自任何來源濾波器模型編碼器諸如CELP編碼器、ACELP編碼器或任何其它處理LPC域信號之編碼器。
另一個較佳激勵編碼器實施例為激勵信號或LCP域信號之變換編碼。於本實施例中,激勵信號未使用ACELP碼簿機制編碼,反而激勵信號被變換成頻譜表示型態,頻譜表示型態數值諸如濾波器組情況下之子頻道信號或變換諸如FFT情況下之頻率係數經編碼來獲得資料壓縮。此種激勵編碼器之實施例為由AMR-WB+為已知之TCX編碼模式。本模式係經由將LPC階段510輸出端連結至頻譜變換器410獲得。如由3GPP TS 26.290已知之TCX模式係於變換域處理感官式加權的信號。傅立葉變換加權信號係使用帶有雜訊因子量化之分裂多速率格狀量化(代數VQ)量化。變換係於1024、512或256樣本視窗計算。激勵信號係藉通過反相加權濾波器反相濾波該已量化的已加權的信號而復原。
於第1a圖或第1c圖中,LPC區塊510接著為時域編碼器,其可為ACELP區塊或變換域編碼器其可為TCX區塊527。ACELP說明於3GPP TS 26.190及TCX說明於3GPP TS 26.290。通常,ACELP區塊接收如第7e圖所述程序計算之LPC激勵信號。TCX區塊527接收如第7f圖產生之已加權信號。
於TCX,變換係應用至藉通過基於LPC之加權濾波器濾波輸入信號運算得之該已加權信號。本發明之較佳實施例使用的加權濾波器係以(1-A(z/γ))/(1-μz-1
)表示。如此,已加權信號為LPC域信號,而其變換為LPC譜域。藉ACELP區塊526處理之信號為激勵信號,且與藉區塊527處理之信號不同,但二信號皆係於LPC域。
於解碼器端,於反相頻譜變換後,應用加權濾波器之反相,亦即(1-μz-1
)/A(z/γ)。然後,信號通過(1-A(z))濾波而進入LPC激勵域。如此,變換至LPC域,TCX-1
運算包括反相變換,然後通過濾波而由加權信號域變換至激勵域。
雖然項目510示例說明單一區塊,但區塊510可輸出不同信號,只要此等信號係於LPC域即可。區塊510之實際模式諸如激勵信號模式或加權信號模式可取決於實際切換狀態。另外,區塊510具有兩個並列處理裝置,此處一個裝置係類似於第7e圖實施,而另一個裝置係如同第7f圖實施。如此,於區塊510輸出信號之LPC域可表示LPC激勵信號或LPC加權信號或任何其它LPC域信號。
於LPC模式中,當旁路為非作用狀態時,亦即當有ACELP/TCX編碼時,信號於編碼前較佳通過濾波器1-0.68z-1
前置加強。於ACELP/TCX解碼器,所合成的信號係以濾波器1/(1-0.68z-1
)解除加強。前置加強可為LPC區塊510之一部分,此處該信號係於LPC分析及量化前前置加強。同理,解除加強可為LPC合成區塊LPC-1
540之一部分。
存在有若干LPC域。第一LPC域表示LPC激勵信號,第二LPC域表示LPC加權信號。換言之,第一LPC域信號係經由(1-A(z))濾波而變換成LPC殘餘/激勵域;第二LPC域信號係經由通過濾波器(1-A(z/γ))/(1-μz-1
)而變換至LPC加權域。
決策階段之決策可為信號自適應性,使得決策階段執行音樂/語音鑑別且控制旁路50,及若存在時,控制第1c圖之開關200,使得音樂信號輸入上分支400,而語音信號輸入下分支500。於一個實施例中,決策階段將其決策資訊饋入輸出位元流,使得解碼器可使用本決策資訊來執行正確的解碼運算。
此種解碼器顯示於第2b圖。頻譜音訊編碼器420輸出之信號於傳送後,係輸入頻譜音訊解碼器430。頻譜音訊解碼器430之輸出信號係輸入時域變換器440。同理,第2a圖激勵編碼器之輸出信號係輸入激勵解碼器530,其輸出LPC域信號。LPC域信號輸入LPC合成階段540,其接收由相對應LPC分析階段510所產生之LPC資訊作為額外輸入信號。時域變換器440之輸出信號及/或LPC合成階段540之輸出信號係輸入一可切換旁路52。旁路52係透過旁路控制信號控制,該旁路控制信號例如係由決策階段300產生,或由外部提供諸如由原先單聲信號、立體聲信號或多頻道信號之形成器提供。
旁路540或階段540之輸出信號係輸入組合器600,其為完整單聲信號,隨後係輸入一共通後處理階段700,該階段執行聯合立體聲處理或頻寬擴展處理等。依據共通後處理階段之特定功能,單聲信號、立體聲信號或多頻道信號被輸出,當共通後處理階段700執行頻寬擴展運算時,具有比輸入區塊700之信號更大的頻寬。
於一個實施例中,旁路52係自適應於來跳過單一變換器540。於又一實施例中,可有額外變換器定義之額外解碼分支諸如第三解碼分支或甚至第四解碼分支或甚至更多個解碼分支。於一個有三個解碼分支之實施例中,第三解碼分支係類似第二解碼分支,但可包括與第二分支530、540中之激勵解碼器530不同的一激勵解碼器。於本實施例中,第二分支包含LPC階段540及基於碼薄之激勵解碼器諸如於ACELP;而第三分支包含一LPC階段及於該LPC階段540之輸出信號之頻譜表示型態上運算之一激勵解碼器。
如前文說明,第2c圖示例顯示根據本發明之第二面相之較佳編碼方案。第1a圖之位於100之共通前處理方案現在包含環繞/聯合立體聲區塊101,其產生聯合立體聲參數及一單聲輸出信號作為輸出信號,該單聲輸出信號係經由將有兩個或多個頻道之輸入信號降混所產生。通常,於區塊101之輸出信號中之信號也可為有多個頻道之信號,但由於區塊101之降混功能,於區塊101之輸出信號中之頻道數目將小於輸入區塊101之頻道數目。
區塊101之輸出信號係輸入頻寬擴展區塊102,於第2c圖之解碼器中,區塊102輸出頻帶受限制之信號諸如低頻帶信號或低通信號於其輸出信號。此外,對輸入區塊102之信號之高頻帶,產生如由HE-AAC側寫資料為已知之頻寬擴展參數諸如頻譜封包參數、反相濾波參數、雜訊底位準參數等,且前傳至一位元流多工器800。
較佳,決策階段300接收輸入區塊101或輸入區塊102之信號來於例如音樂模式或語言模式間作判定。於音樂模式中,選擇上編碼分支400;而於語音模式,選用下編碼分支500。較佳決策階段額外控制聯合立體聲區塊101及/或頻寬擴展區塊102來讓此等區塊之功能自適應於特定信號。如此,當決策階段判定輸入信號之某個時間部分具有第一模式諸如音樂模式時,則區塊101及/或區塊102之特定特徵可藉決策階段300控制。另外,當決策階段300判定該信號係於語音模式或通常係於LPC域編碼模式時,則區塊101及區塊102之特定特徵可根據決策階段的輸出信號控制。
依據開關決策而定,開關決策可由開關200輸入信號導算出,或由外部來源諸如輸入階段200之信號潛在的原先音訊信號產生器所導算出,開關介於頻率編碼分支400與LPC編碼分支500間切換。頻率編碼分支400包含頻譜變換階段及隨後連結之量化/頻譜階段。量化/編碼階段包括如由近代頻域編碼器諸如AAC編碼器所已知之任一種功能。此外,於量化/編碼階段之量化操作可透過心理聲學模組控制,該模組產生心理聲學資訊諸如對頻率之心理聲學遮蔽臨界值,此處之資訊係輸入該量化/編碼階段。
較佳,頻譜變換係使用MDCT運算進行,甚至更佳為時間翹曲的MDCT運算,此處強度或通常為翹曲強度可介於零與高翹曲強度間控制。於零翹曲強度,第1c圖之區塊400之MDCT操作為技藝界已知之直通式MDCT操作。時間翹曲強度連同時間翹曲旁資訊可傳送/輸入位元流多工器800作為旁資訊。因此,若使用TW-MDCT,時間翹曲旁資訊須送至如第1c圖以424指示之位元流,而於解碼器端,時間翹曲旁資訊須接受自位元流,如第1d圖以項目434示例說明。
於LPC編碼分支,LPC域編碼器可包括一ACELP核心,其計算音高增益、音高滯後及/或碼薄資訊諸如碼薄指數及碼增益。
於第一編碼分支400,頻譜變換器較佳包含具有某些視窗函數之一已特別自適應的MDCT運算,接著為一量化/熵編碼階段,其可為向量量化階段,但較佳為類似於頻域編碼分支中之量化器/編碼器之一量化器/編碼器。
第2d圖示例顯示與第2c圖之編碼方案相對應之一解碼方案。由位元流多工器所產生之位元流係輸入一位元流解多工器。依據例如透過模式檢測區塊而由位元流導算出之資訊而定,解碼器端開關係控制為前傳來自於上分支之信號或來自於下分支之信號至頻寬擴展區塊701。頻寬擴展區塊701接收來自於位元流解多工器之旁資訊,且基於此旁資訊之模式決策之輸出信號,基於例如第1d圖之組合器600所輸出的低頻帶輸出信號而重構高頻帶信號。
由區塊701所產生之全頻帶信號係輸入聯合立體聲/環繞處理階段702,其重構兩個立體聲頻道或數個多頻道。通常區塊702將輸出比輸入本區塊更多個頻道。依據應用而定,輸入區塊702之輸入信號甚至包括兩個頻道諸如於立體聲時,或可包括多個頻道,只要由本區塊之輸出具有比本區塊之輸入更多個頻道即可。
第1c圖之開關200已經顯示於二分支間切換,故只有一個分支接收欲處理信號,而另一分支並未接收欲處理信號,通常如第4a圖所示。但開關也可設置於例如音訊編碼器420及激勵編碼器520後方,表示兩個分支400、500並列處理同一個信號。但為了不要讓位元率加倍,只選定由該等編碼分支400或500中之一者輸出的信號來寫入輸出位元流。隨後決策階段將運算,使得寫入位元流之信號最小化某個代價函數,此處該代價函數可為所產生之位元流或所產生之感官失真或位元率/感官失真組合代價函數。因此,於本模式或於附圖示例顯示之模式中,決策階段也可以閉環模式操作來確保最終只有編碼分支輸出信號係寫入位元流,該位元流對一給定的感官失真具有最低位元率,或對一給定之位元率具有最低的感官失真。
大致上,分支400之處理為基於感官之模型或資訊匯集模型之處理。如此,本分支將人類聽覺系統接收聲音模型化。相反地,分支500的處理係產生於激勵、殘餘或LPC域之一信號。通常,分支500之處理係於語音模型或資訊產生模型。對語音信號而言,本模型為人類語音/聲音產生系統產生聲音的模型。但若,欲編碼來自要求不同的聲音產生模型之不同來源的聲音,則分支500的處理可不同。
雖然第1a圖至第4c圖係以裝置之方塊圖示例說明,但此等圖示同時也是方法之示例說明,此處方塊功能係與方法步驟相對應。
第3c圖示例顯示用於編碼音訊輸入信號195之音訊編碼器。音訊輸入信號195係存在於第一域,第一域例如可為時域,但也可為任何其它域諸如頻域、LPC域、LPC譜域或任何其它域。通常,由一個域轉換至另一個域係藉轉換演繹法則執行,諸如眾所周知之時間/頻率變換演繹法則或頻率/時間變換演繹法則中之任一者執行。
由時域之另一種變換例如LPC域為基於LPC濾波時域信號結果導致LPC剩餘信號或激勵信號的結果。視情況而定,產生已濾波信號對變換前之實質信號樣本數目有影響之任何其它濾波操作也可用作為變換演繹法則。因此,使用基於LPC之加權濾波器加權音訊信號為另一種變換,其產生於LPC域之信號。於時間/頻率變換中,單一頻譜值的修改將對變換前之全部時域值造成影響。類似地,任何時域樣本的修改將對各個頻域樣本產生影響。同理,於LPC域情況之激勵信號樣本的修改,由於LPC濾波器長度,將對LPC濾波前之樣本實質數目產生影響。同理,於LPC變換前之樣本修改將由於LPC特有之記憶效應而對藉此LPC變換所得之多個樣本產生影響。
第3c圖之音訊編碼器包括產生第一已編碼信號之第一編碼分支522。此第一已編碼信號可於第四域,於較佳實施例中,第四域為時間-頻譜域,亦即當時域信號透過時間/頻率變換處理時所得的域。
因此,用於編碼音訊信號之第一編碼分支522使用第一編碼演繹法則來獲得第一已編碼信號,此處此種第一編碼演繹法則可包括或可未包括時間/頻率變換演繹法則。
此外,音訊編碼器包括用於編碼音訊信號之第二編碼分支523。第二編碼分支523使用與該第一編碼演繹法則不同的第二編碼演繹法則來獲得第二已編碼信號。
此外音訊編碼器包括第一開關521用於介於第一編碼分支522與第二編碼分支523、524間切換,因此對部分音訊輸入信號,於區塊522輸出端之第一已編碼信號或於第二編碼分支輸出端之第二已編碼信號係含括於編碼器輸出信號。如此,當用於音訊輸入信號195之某個部分,於第四域之該第一已編碼信號係含括於該編碼器輸出信號,屬於第二域之第一已處理信號或第三域之第二已處理信號之該第二已編碼信號並未含括於該編碼器輸出信號。如此確保此種編碼器為位元率有效。於實施例中,含括於兩個不同編碼信號之音訊信號的任何時間部分比較訊框之訊框長度小,容後關聯第3e圖討論。此等小部分可於開關事件中用來由一個已編碼信號交叉衰減至另一個已編碼信號,俾便減少無任何交叉衰減時可能發生的假信號。因此除了交叉衰減區之外,各個時域區塊係由只有單一域之已編碼信號表示。
如第3c圖示例顯示,第二編碼分支523包含一變換器521,用以將第一域之音訊信號亦即信號195變換入第二域及旁路50。此外,第一處理分支522獲得第一已處理信號,其較佳也於第二域,因此第一處理分支522並未進行域改變,或其係於第一域。
第二處理分支523、524其將於第二域之音訊信號變換成第三域,該第三域係與第一域不同,也與第二域不同,而獲得於該第二處理分支523、524之輸出端之第二已處理信號。
此外,該編碼器包含一開關521,用以介於第一處理分支522與第二處理分支523、524間切換,此處此開關係與第1c圖之開關200相對應。
第3d圖示例顯示用於解碼由第3c圖之編碼器所產生之已編碼音訊信號之相對應的解碼器。通常第一域音訊信號之各個區塊係以第二域信號或第一域信號、或以第三域信號或第四域編碼信號表示,任選的交叉衰減區除外,該區比較一個訊框之訊框長度較佳為短,俾便獲得儘可能於臨界取樣極限之系統。已編碼音訊信號包括第一已編碼信號、第二已編碼信號,其中該第一已編碼信號及第二已編碼信號皆關係該已解碼音訊信號之不同時間部分,及其中對已解碼音訊信號之第二域、第三域及第一域係彼此不同。
解碼器包含用於基於第一編碼演繹法則解碼之第一解碼分支。第一解碼分支示例顯示於第3d圖之531。
第3d圖之解碼器額外包含第二解碼分支533、534其包含數個元件。
此外,解碼器包含第一組合器532,用以組合第一反相已處理信號及第二反相已處理信號而獲得於第一域或第二域之信號,此處此種已組合的信號於第一時間瞬間只受第一反相已處理信號的影響,而於後來時間瞬間只受第二反相已處理信號的影響。
此外,解碼器包含變換器540用以將已組合信號變換至第一域及可切換旁路52。
最後,第3d圖示例顯示之解碼器包含第二組合器600,用以組合得自旁路52之已解碼第一信號及變換器540輸出信號而獲得於第一域之已解碼輸出信號。再度,於第一域之已解碼輸出信號於第一時間瞬間只受由變換器540輸出之信號的影響,而於後來時間瞬間只受已分路的信號的影響。
此種情況由編碼器觀點,示例顯示於第3e圖。第3e圖之上部以示意代表圖示例顯示第一域音訊信號諸如時域音訊信號,此處時間指數係由左增至右,項目3可視為表示第3c圖之信號195之音訊樣本流。第3e圖示意顯示訊框3a、3b、3c、3d,其可藉第一已編碼信號與第3e圖顯示於項目4之第二已編碼信號間切換產生。第一已編碼信號及第二已編碼信號全部皆於不同域,為了確保不同域間切換不會導致解碼器端的假信號,時域信號之訊框3a、3b、3c、...具有一重疊範圍其指示為交叉衰減區。但介於訊框3d、3c間不存在有此種交叉衰減區,表示訊框3d也以與前一信號3c於同一域的信號表示,訊框3c與3d間並無域改變。
因此通常,當無域改變時,較佳未提供交叉衰減區;當有域改變,亦即兩個開關中之任一者有切換動作時,較佳提供一交叉衰減區,亦即音訊信號由兩個隨後已編碼/已處理信號編碼之部分。
於該實施例中,其中第一已編碼信號或第二已處理信號已經藉具有例如50%重疊之MDCT處理產生,各個時域樣本係含括於兩個隨後訊框。但因MDCT之特性,如此並未導致額外處理資料量,原因在於MDCT為臨界取樣系統。於本上下文中,臨界取樣表示頻譜值數目係與時域值數目相同。MDCT之優點在於並無特定交越區而提供交越效果,因此提供由MDCT區塊交越至下一個MDCT區塊,而無任何違反臨界取樣要求之額外處理資料量。
較佳,於第一編碼分支之第一編碼演繹法則係基於資訊匯集模型,而於第二編碼分支之第二編碼演繹法則係基於資訊來源模型或SNR模型。SNR模型為並未特別關係特定聲音產生機制的模型,反而是一種可基於例如閉環決策,而於多個編碼模型中選定的一種編碼模型。如此,SNR模型為任何可用的編碼模型,但並非必要與聲音產生器之實體組成相關,反而為可藉閉環決策選定,特定言之,經由比較得自不同模型之不同SNR結果,而選定之與資訊匯集模型不同的任何參數或編碼模型。
如第3c圖示例顯示,設置控制器300、525。此種控制器可包括第1c圖之決策階段300之功能。大致上,控制器係用來以信號自適應方式控制旁路及第1c圖之開關200。控制器經操作而分析輸入旁路之信號或由第一編碼分支或第二編碼分支輸出之信號、或經由第一及第二編碼分支就目標函數編碼及解碼所得信號。另外或此外,控制器操作來分析輸入開關之信號、或由第一處理分支或第二處理分支輸出之信號,或再度係就目標函數,藉得自第一處理分支及第二處理分支之處理及反相處理所得信號。
於一個實施例中,第一編碼分支或第二編碼分支包含一頻疊導入時間/頻率變換演繹法則,諸如MDCT或MDST演繹法則,其係與直通FET變換不同,後者並未導入頻疊效應。此外,一個分支或兩個分支包含量化器/熵編碼器區塊。特定言之,只有第二編碼分支之第二處理分支包括時間/頻率變換器導入頻疊操作;而第二編碼分支之第一處理分支包含量化器及/或熵編碼器,並未導入任何頻疊效應。頻疊導入時間/頻率變換器較佳包含視窗器用以施加分析視窗及MDCT變換演繹法則。特定言之,視窗器操作而以重疊方式施加視窗功能至隨後訊框,使得已視窗化信號之樣本出現於至少兩個隨後已視窗化訊框。
於一個實施例中,第一處理分支包含ACELP編碼器,第二處理分支包含MDCT頻譜變換器及量化器用以量化頻譜組件獲得已量化之頻譜組件,此處各個已量化之頻譜組件為零,或由多個不同可能的量化器指數中之一個量化器指數定義。
如前文說明,二編碼分支操作而以逐一區塊方式編碼音訊信號,其中該旁路或開關係以逐一區塊方式切換,因此至少於具有一信號之預定數目之樣本之一區塊之後,進行切換或旁路動作,該預定數目形成相對應開關之訊框長度。如此,藉第一開關切換之解析度例如可為2048或1028個樣本之區塊;而該旁路切換時所植基的訊框長度為可變,但較佳係固定於此種相當長週期。
相反地,開關200長度,亦即當開關200模式切換成另一個模式時的區塊長度實質上係小於第一開關之區塊長度。較佳兩個開關之區塊長度係經選擇,使得較長區塊長度為較短區塊長度的整數倍數。於較佳實施例中,第一開關之區塊長度為2048個樣本,而第二開關之區塊長度為1024個樣本,更佳512,又更佳256,甚至又更佳128個樣本,因此於最大時,當旁路只改變單次時,該開關可切換16次。
於又一個實施例中,控制器300係操作來執行第一開關之語音/音樂鑑別,因此對語音的判定係優於對音樂的判定。於本實施例中,即使第一開關少於50%訊框部分為語音,而超過50%訊框部分為音樂時,仍然判定採取語音。
此外,控制器之操作係於相當小部分第一訊框為語音時,特定言之,部分第一訊框為語音,亦即較小的第二訊框長度的50%為語音時,控制器之操作已經切換至語音模式。如此,即使與第一開關之訊框長度相對應之一個區塊只有6%或12%為語音時,較佳語音/優先切換決策已經準備切換至語音。
本程序為較佳,俾便完全探勘第一處理分支之位元率節省能力,於一個實施例中,具有有聲語音核心,而即使對大的第一訊框非語音的其餘部分也未放鬆任何品質,原因在於實際上第二處理分支包括一變換器,因此可用於也有非語音信號之音訊信號。較佳本第二處理分支包括一重疊MDCT,其係臨界取樣,甚至於小型視窗尺寸,提供高度有效且頻疊的自由操作,原因在於時域頻疊抵銷處理,諸如於解碼器端之重疊及加法。此外,較佳為AAC狀MDCT編碼分支之第一編碼分支之大型區塊長度有用,原因在於非語音信號通常相當穩態,長的變換視窗提供高頻解析度,因而提供高品質,此外,由於心理聲學控制的量化模組也提供位元率效率,也可應用於第二編碼分支之第二處理分支中基於變換之編碼模式。
考慮第3d圖解碼器之示例顯示,較佳所傳輸的信號包括一外顯指示器作為旁資訊4a,如第3e圖所示。此種旁資訊4a係藉第3d圖中未顯示之位元流剖析器擷取,俾便前傳相對應之第一已處理信號或第二已處理信號至正確的處理器,諸如第3d圖之第一反相處理分支或第二反相處理分支。因此已編碼信號不僅具有已編碼信號/已處理信號,同時也包括此等信號相關的旁資訊。但於其它實施例中,可能有內隱傳訊,其允許解碼器端位元流剖析器區別某些信號。參考第3e圖,摘述第一已處理信號或第二已處理信號為第二編碼分支之輸出信號,因此為第二已編碼信號。
較佳,第一解碼分支及/或第二反相處理分支包括MDCT變換用於由譜域變換至時域。為了達成此項目的,提供重疊-加法器來執行時域頻疊抵銷功能,同時提供交叉衰減效應以避免遮蔽假信號。通常,第一解碼分支將於第四域編碼之一信號轉成第一域,同時第二反相處理分支執行由第三域變換至第二域,隨後變換器連結至第一組合器提供由第二域變換至第一域,因此於組合器600之輸出端只有第一域信號,於第3d圖之實施例中,表示已解碼的輸出信號。
第4c圖示例顯示較佳解碼器實施例之又一個面相。特別於下述情況,其中第一解碼器為時間頻疊產生的解碼器或一般稱做頻域解碼器,而第二解碼器為時域解碼器之情況,為了避免聽覺假信號,由第一解碼器450及第二解碼器550所輸出之區塊或訊框間的邊界不可完全連續,特別於切換情況尤為如此。如此,當第一解碼器450之第一區塊輸出時,以及對隨後時間部分,當第二解碼器區塊輸出時,較佳執行如交叉衰減區塊607示例說明之交叉衰減操作。為了達成此項目的,交叉衰減區塊607可如第4c圖所示於607a、607b及607c實施。各個分支必需有個加權器具有於規度化天平上之加權因數m1
為0至1,此處如作圖609指示,加權因數可改變,此種交叉衰減規則確保進行連續平順的交叉衰減,此外,確保使用者不會察覺任何音量變化。非線性交叉衰減規則諸如sin2
交叉衰減規則可用來替代線性交叉衰減規則。
於某些情況下,使用視窗產生第一解碼器之最末區塊,此處該視窗實際上執行本區塊的淡出。於此種情況下,區塊607a之加權因數m1
係等於1,實際上,本分支要求絲毫也未加權。
當進行由第二解碼器切換至第一解碼器,且當第二解碼器包括一視窗其實際上淡出該輸出信號至該區塊結束時,則不需要以「m2
」指示之加權器,或整個交叉衰減區之加權參數可設定為1。
當使用視窗操作於開關之後產生第一區塊時,且當此視窗實際上執行淡入操作時,則相對應之加權因數也可設定為1,因此實際上不需要加權器。因此,當最末區塊經視窗化俾便藉解碼器淡出時,且當開關後之第一區塊使用解碼器視窗化,俾便提供淡入時,則絲毫也無需加權器607a、607b,藉加法器607c執行的加法操作即足。
於此種情況下,最末訊框之淡出部分及下一個訊框之淡入部分定義區塊609指示的交叉衰減區。此外,較佳於此種情況下,一個解碼器之最末區塊與另一個解碼器之第一區塊有若干時間重疊。
若不需要或不可能或不期望交叉衰減操作,且若由一個解碼器至另外一個解碼器只有一個硬體開關,則較佳於該音訊信號之無聲通過時執行此種切換,或至少於音訊信號之低能通過,亦即感知為無聲或接近無聲通過時執行此種切換。較佳,於此種實施例中,決策階段300確保開關200只於該切換事件之後的相對應時間部分具有下述能量時才被作動,該能量例如係低於該音訊信號之平均能量,且較佳係低於例如該音訊信號之兩個或甚至多個時部/訊框相關的該音訊信號之平均能量之50%。
較佳第二編碼規則/解碼規則為基於LPC之編碼演繹法則。於基於LPC之語音編碼中,進行準週期性脈衝狀激勵信號節段或信號部分與雜訊狀激勵信號節段或信號部分間之區別。此係對如第7b圖之極低位元率LPC聲碼器(2.4kbps)進行。但於中間速率CELP編碼器,對得自自適應碼簿及固定碼簿之定規向量之加法獲得激勵。
準週期性脈衝狀激勵信號節段,亦即具有特定音高之信號節段係以與雜訊狀激勵信號不同之機制編碼。雖然準週期性脈衝狀激勵信號係關聯有聲語音,但雜訊狀信號係與無聲語音相關。
例如參考第5a圖至第5d圖。此處準週期性脈衝狀激勵信號節段或信號部分及雜訊狀信號節段或信號部分係舉例討論。特定言之,如第5a圖顯示於時域及第5b圖顯示於頻域之有聲語音及討論作為準週期性脈衝狀信號部分之實例;而作為雜訊狀信號部分之實例之無聲語音節段係就第5c圖及第5d圖做討論。語音通常分類為有聲、無聲、或混音。用於取樣有聲節段及無聲節段之時域及頻域作圖顯示於第5a圖至第5d圖。有聲語音於時域為準週期性而於頻域為諧波結構;而無聲語音為隨機狀且寬頻。有聲語音之頻譜時間短係以其精細諧振共振峰結構為其特徵。精細諧振結構係由於語音之準週期性的結果,且可歸因於聲帶的振動。共振峰結構(頻譜封包)係由於來源與聲道交互作用的結果。聲道係由咽和口腔所組成。「符合」有聲語音之短時間頻譜之頻譜封包形狀係與聲道之傳輸特性以及由於聲門脈衝之頻譜傾斜(六分貝/八音度)有關。頻譜封包係以一組稱作為共振峰之波峰為其特徵。共振峰為聲道之共振模式。平均聲道有三個至五個5kHz以下之共振峰。前三個共振峰通常出現於低於3kHz,該等共振峰之振幅及位置就語音合成及感官式而言相當重要。較高共振峰對寬頻及無聲語音呈現也相當重要。語音之性質係與實體語音產生系統相關,如下述。有聲語音係以振動聲帶產生的準週期性聲門空氣脈衝激勵聲道而產生。週期性脈衝頻率稱作為基本頻率或音高。無聲語音係經由強迫空氣通過聲道的狹窄處產生。鼻音係由於鼻道與聲道的聲學耦合產生,而爆裂聲係由突然釋放蓄積於聲道閉合部後方之空氣壓產生。
如此,音訊信號之雜訊狀部分既未顯示任何脈衝狀時域結構,也未顯示諧波頻域結構,如第5c圖及第5d圖所示,其係與準週期性脈衝狀部分不同,例如於第5a圖及第5b圖所示。但容後詳述,於激勵信號之LPC後,也觀察得雜訊狀部分與準週期性脈衝狀部分間之區別。LPC為將聲道模型化且由信號擷取聲道激勵之方法。
此外,準週期性脈衝狀部分及雜訊狀部分可以定時方式發生,亦即表示部分時間之音訊信號為雜訊,另一部分時間之音訊信號為準週期性,亦即調性。另外或此外,一信號之特性於不同頻帶可不同。如此,判定音訊信號為雜訊或調性也可藉頻率選擇性進行,因此某個頻帶或數個頻帶被視為雜訊,而其它頻帶被視為調性。於此種情況下,該音訊信號之某個時間部分可包括調性組分及雜訊組分。
第7a圖示例顯示語音產生系統之線性模型。本系統假設二階段式激勵,亦即如第7c圖指示之有聲語音之脈衝串列,及如第7d圖指示無聲語音之隨機雜訊。聲道被模型化為全極點濾波器70,其處理由聲門模型72所產生之第7c圖或第7d圖之脈衝。如此第7a圖之系統可縮小至第7b圖之全極點模型,具有一增益階段77、一前傳徑路78、一回授徑路79、及一加法階段80。於回授徑路79,有個預測濾波器81,第7b圖示例顯示之全來源模型合成系統可以z域函數表示如下:
S(z)=g/(1-A(z))‧X(z),
此處g表示增益,A(z)為由LP分析測定之預測濾波器,X(z)為激勵信號,而S(z)為合成語音輸出信號。
第7c圖及第7d圖顯示使用線性來源系統模型進行有聲及無聲語音合成之圖解時域說明。本系統及於前述方程式中之激勵參數為未知,必需由語音樣本之有限集合決定。A(z)之係數係使用輸入信號之線性預測及濾波係數之量化獲得。於第p階前傳線性預測器中,語音順序之目前樣本係由p個通過的樣本之線性組合預測。預測器係數可藉眾所周知之演繹法則諸如雷文森杜賓(Levinson-Durbin)演繹法則或通常藉自動交互相關法或反映法測定。
第7e圖示例顯示LPC分析區塊510之進一步細節實施例。音訊信號輸入濾波器測定區塊,其測定濾波器資訊A(z)。本資訊輸出為解碼器要求之短期預測資訊。如例如由AMR-WB+規格為已知,本資訊係藉量化器81而量化。短期預測資訊為實際預測濾波器85所需。於減法器86中,輸入音訊信號之目前樣本,扣除目前樣本之預測值,對本樣本而言,於線84產生預測誤差信號。此種預測誤差信號樣本之順序示意顯示於第7c圖或第7d圖。因此第7a圖及第7b圖可視為一種已整流的脈衝狀信號。
雖然第7e圖顯示計算激勵信號之較佳方式,但第7f圖顯示計算已加權信號之較佳方式。與第7e圖相反,當γ非為1時,濾波器85為不同。小於1之數值用於γ為較佳。此外,存在有區塊87,μ較佳為小於1之數目。通常於第7e圖及第7f圖中之元件可如於3GPP TS 26.190或於3GPP TS 26.290實施。
第7g圖示例顯示反相處理,可應用於解碼器端,諸如第2b圖之元件537。特定言之,區塊88由已加權信號產生未加權信號,及區塊89計算得自未加權信號之激勵。通常,第7g圖中未加權信號以外的全部信號係於LPC域,但激勵信號及已加權信號為同一個域中的不同信號。區塊89輸出一激勵信號,然後可連同區塊536之輸出信號一起使用。然後可於第2b圖之區塊540進行共通反相LPC變換。
隨後,將關聯第6圖討論分析/合成CELP編碼器,俾便示例顯示應用於本演繹法則之修改。本CELP編碼器之細節係討論於「語音編碼:輔助教學綜論」,Andreas Spanias,IEEE議事錄82卷第10期1994年10月,1541-1582頁。如第6圖示例顯示之CELP編碼器包括一長期預測組件60及一短期預測組件62。此外使用一碼簿,指示於64。感官式加權濾波器W(z)實施於66,而誤差最小化控制器設置於68。s(n)為時域輸入信號。已經經過感官式加權後,已加權信號輸入減法器69,計算於區塊66輸出信號之已加權合成信號與原先已加權信號sw
(n)間之誤差。通常短期預測濾波係數A(z)係藉LP分析階段計算,其係數於量化,如第7e圖指示。長期預測資訊AL
(z)包括長期預測增益g及向量量化指數,亦即碼簿參考數字係基於於LPC分析階段輸出信號之預測誤差信號計算,第7e圖標示為10a。LTP參數為音高延遲及增益。於CELP,通常實施為含合格激勵信號(非餘數)之自適應碼簿。自適應碼簿延遲及增益可藉最小化均方加權誤差(閉環音高搜尋)找出。
CELP演繹法則使用例如高斯序列之碼簿,編碼於短期及長期預測後所得餘數信號。ACELP演繹法則具有特定代數設計的碼簿,此處「A」表示「代數」。
碼簿可含有更多或更少向量,此處各向量為數個樣本長度。增益因數g定規碼向量,已經增益之碼藉長期預測合成濾波器及短期預測合成濾波器濾波。「最適」碼向量經選定,讓於減法器69輸出端之已感官式加權的均方差變最小化。於CELP之搜尋處理係藉第6圖示例顯示之分析/合成最適化執行。
用於特定情況,當訊框為無聲語音與有聲語音之混合物或當出現語音超過音樂時,TCX編碼更適合用於編碼於LPC域之激勵。TCX編碼處理於頻域之已加權信號,而未做任何激勵產生的假設。則TCX編碼比CELP編碼更加一般性,且未限於激勵之有聲或無聲來源模型。TCX編碼仍然為使用線性預測濾波器用於模型化語音狀信號之共振峰之來源濾波器模型編碼。
於AMR-WB+狀編碼中,由AMR-WB+說明已知進行不同TCX模式與ACELP模式間之選擇。TCX模式之差異在於區塊狀離散傅立葉變換之長度係對不同模式為不同;藉分析/合成辦法或藉直接「前饋」模式選用。
如關聯第2c圖及第2d圖之討論,共通前處理階段100較佳包括一聯合多頻道(環繞/聯合立體聲裝置)101,此外,包括一頻寬擴展階段102。相對應地,解碼器包括一頻寬擴展階段701及隨後連結的聯合多頻道階段702。較佳聯合多頻道階段101就編碼器而言係於頻寬擴展階段102之前連結;於解碼器端,就信號處理方向而言,頻寬擴展階段701係在聯合多頻道階段702之前連結。但另外,共通前處理階段可包括一聯合多頻道階段而無隨後連結之頻寬擴展階段,或包括一頻寬擴展階段而無連結的聯合多頻道階段。
於編碼器端101a、101b及解碼器端702a及702b,聯合多頻道階段之較佳實例示例說明於第8圖之上下文。數目E個原先輸入頻道係輸入降混器101a,故降混器產生數目K個已傳輸的頻道,此處數目K係大於或等於1而小於或等於E。
較佳,E個輸入頻道係輸入聯合多頻道參數分析器101b其產生參數資訊。本參數資訊較佳諸如藉差編碼以及隨後霍夫曼編碼或另外,隨後的算術編碼進行熵編碼。由區塊101d輸出的已編碼的參數資訊傳輸至參數解碼器702b,其可能為第2b圖之項目702之一部分。參數解碼器702b解碼已傳輸的參數資訊,且前傳已解碼的參數資訊至升混器702a。升混器702a接收K個已傳輸的頻道且產生數目L個輸出頻道,此處數目L係大於或等於K而小於或等於E。
參數資訊可包括頻道間位準差、頻道間時間差、頻道間相位差及/或頻道間相干性測量值,如由BCC技術為已知,或如MPEG環繞標準為已知且詳細說明。已傳輸之頻道數目可為單一單聲頻道用於超低位元率用途,或可包括可相容之立體聲應用,或可包括可相容的立體聲信號,亦即兩個頻道。典型地E個輸入頻道數目可為5個或甚至更高。另外,E個輸入頻道數目也可為E個音訊物件,如於空間音訊物件編碼(SAOC)之上下文為已知。
於一個實施例中,降混器執行原先E個輸入頻道之加權加法或未加權加法或E個輸入音訊物件的加法。於音訊物件作為輸入頻道之情況下,聯合多頻道參數分析器101b將計算音訊物件參數,諸如音訊物件間之相關性矩陣較佳係對各個時間部分計算,又更佳係對各個頻帶計算。為了達成此項目的,總頻率範圍可分割成至少10個且較佳32個或64個頻帶。
第9圖示例顯示第2a圖之頻寬擴展階段102及第2b圖之相對應的頻寬擴展階段701之較佳具體實施例。於編碼器端,頻寬擴展區塊102較佳包括一低通濾波區塊102b、一降取樣器區塊,該區塊係接在低通區塊後方,或構成反相QMF之一部分,其只作用在半數QMF頻帶,及一高頻帶分析器102a。輸入頻寬擴展區塊102之原先音訊信號經低通濾波而產生低頻帶信號,然後該信號輸入編碼分支及/或開關。低通濾波器具有於3kHz至10kHz之範圍之截斷頻率。此外,頻寬擴展區塊102額外包括一高頻帶分析器用以計算頻寬擴展參數諸如頻譜封包參數資訊、一雜訊底位準參數資訊、一反相濾波參數資訊,於高頻帶某些諧波線相關的進一步參數資訊及於頻帶複製相關章節中所討論的MPEG-4標準中進一步細節討論的額外參數。
於解碼器端,頻寬擴展區塊701包括一修補器701a、一調整器701b及一組合器701c。組合器701c組合已解碼低頻帶信號及調整器701b所輸出的已重建且已調整之高頻帶信號。調整器701b之輸入信號係由修補器提供,修補器操作來諸如藉頻帶複製,或通常藉頻寬擴展,而由低頻帶信號導出高頻帶信號。藉修補器701a執行的修補可為以諧波方式或非諧波方式進行的修補。修補器701a產生之信號隨後由調整器701b使用所傳送之參數頻寬擴展資訊調整。
如第8圖及第9圖指示,所述區塊具有於較佳實施例之模式控制輸入信號。此種模式控制輸入信號係由決策階段300之輸出信號導出。於此種較佳實施例中,相對應之區塊之特性可調整配合決策階段之輸出信號,亦即於較佳實施例中,對音訊信號之某個時間部分判定為語音或判定為音樂。較佳,模式控制只關聯此等區塊之功能中之一者或多者,而非關聯該等區塊之全部功能。舉例言之,決策可能只影響修補器701a而不影響第9圖之其它區塊,或例如只影響第8圖之聯合多頻道參數分析器101a而不影響第8圖之其它區塊。本實施例較佳使得經由於共通前處理階段提供彈性,獲得更高彈性且更高品質及較低位元率之輸出信號。但另一方面,對兩種信號於共通前處理階段使用演繹法則,允許實施有效編碼/解碼方案。
第10a圖及第10b圖示例顯示決策階段300之不同實施例。第10a圖中指示開環決策。此處,於決策階段之信號分析器300a有某個規則來判定輸入信號之某個時間部分或某個頻率部分是否具有一種特性,其要求此一信號部分係藉第一編碼分支400或籍第二編碼分支500編碼。為了達成此項目的,信號分析器300a可分析輸入該共通前處理階段之音訊輸入信號,或可分析由該共通前處理階段輸出之音訊信號,亦即音訊中間信號,或可分析共通前處理階段之一中間信號,諸如降混器信號之輸出信號,其可為單聲信號或可為具有第8圖指示之k個頻道之信號。於輸出端,信號分析器300a產生切換決策用以控制編碼器端之開關200及解碼器端之相對應的開關600或組合器600。
另外,決策階段300可執行閉環決策,表示編碼分支對音訊信號之同一部分執行工作,兩個已編碼信號係藉相對應之編碼分支300c、300d解碼。裝置300c及300d之輸出信號係輸入比較器300b,比較器比較解碼裝置之輸出信號來輸出例如音訊中間信號之相對應部分。然後,依據代價函數諸如每個分支之信號對雜訊比而定,做切換決策。此閉環決策比開環決策的複雜度增高,但此複雜度只存在於編碼器端,解碼器不具有來自此種處理的任何缺點,原因在於解碼器可有利地使用本編碼決策之輸出信號。因此,由於應用上的複雜度及品質考量,以閉環模式為佳,其中解碼器及複雜度不成問題,諸如於廣播應用,此處只有少數編碼器但有大量的解碼器,此外必須為智慧型而價廉。
藉比較器300d施加的代價函數可為由品質面相驅動的代價函數,或可為由雜訊面相驅動的代價函數,或可為由位元率面相驅動的代價函數,或可為由位元率、品質、雜訊(藉編碼假信號所導入,特別藉量化所導入)等之任一種組合所驅動的組合型代價函數。
較佳,第一編碼分支或第二編碼分支包括於編碼端及相對應地於解碼器端之時間翹曲功能。於一個實施例中,第一編碼分支包含用於依據音訊信號之一部分計算可變翹曲特性之一時間翹曲器模組;用於根據該所測定的翹曲特性再取樣之一再取樣器;一時域/頻域變換器;及用於將時域/頻域變換結果變換成已編碼表示時之一熵編碼器。可變翹曲特性係含括於該已編碼音訊信號。本資訊係由時間翹曲加強型解碼分支讀取及處理,最終具有於非翹曲時間標度的一輸出信號。舉例言之,解碼分支執行熵解碼、解量化及由頻域變換返回時域。於時域中,可應用解翹曲,接著為相對應的再取樣運算,來獲得具有非翹曲時間標度之一離散音訊信號。
依據本發明之某些實務要求,本發明方法可於硬體或於軟體實施。可使用數位儲存媒體,特別為其上儲存可電子式讀取的控制信號之碟片、DVD或CD實施,該等信號與可規劃電腦系統協力合作因而可執行本發明方法。因此,大致上,本發明為一種具有程式碼儲存於機器可讀取載體上之一種電腦程式產品,當該電腦程式產品於電腦上跑時,該程式碼可運算用於執行本發明方法。換言之,本發明方法為具有程式碼用於當電腦程式於電腦上跑時執行本發明方法中之至少一者之一種電腦程式。
本發明之已編碼音訊信號可儲存於數位儲存媒體上,或可透過傳輸媒體諸如無線傳輸媒體或有線傳輸媒體諸如網際網路傳送。
前述實施例僅供舉例說明本發明之原理。須了解此處所述配置及細節之修改及變化為熟諳技藝人士顯然易知。因此意圖僅受隨附之申請專利範圍之範圍所限,而非限制於此處實施例之敘述及解說中呈現的特定細節。
3...音訊樣本流
3a-d...訊框
4...第二已編碼信號
10a...LPC分析階段
50...可切換旁路
51...控制信號
52...旁路
54...可切換旁路
60...長期預測組件
62...短期預測組件
64...碼簿
66...感官式加權濾波器
68...誤差最小化控制器
69...減法器
70...全極點濾波器
72...聲門模型
77...增益階段
78...前傳階段
79...回授徑路
80...加法階段
81...預測濾波器、量化器
84...產生預測誤差信號
85...實際預測濾波器
86...減法器
87...區塊
88...區塊
89...區塊
99...音訊信號輸入端
100...共通前處理階段
101...MPEG環繞編碼器
101a...降混器
101b...聯合多頻道參數分析器
102...加強型頻帶複製處理器
102a...高頻帶分析器
102b...低通濾波區塊
195...音訊信號輸入端、音訊輸入信號
200...開關
300...信號分類器區塊、心理聲學模型、決策階段
300a...信號分析器
300c-d...解碼分枝、裝置
300d...比較器
400...第一編碼分支、頻率編碼部分
410...第二域變換器
420...第一處理器、頻譜音訊編碼器、量化/編碼階段、量化器/定標器區塊
424...時間翹曲旁資訊送至位元流
430...第一反相處理器、頻譜音訊解碼器、解碼/再量化階段
434...時間翹曲旁資訊接收自位元流
440...第二反相器、時域變換器
450...第一解碼分支
500...第二編碼分支、LPC域編碼部分
510...第一域變換器、LPC分析區塊
520...第二處理器、擷取編碼器
521...第一開關
522...第一編碼分支、第一處理分支
523...第二編碼分支、第二處理分支
524...第二編碼分支、第二處理分支
525...控制器、開關控制裝置
527...TCX區塊
530...第二反相處理器、激勵解碼器
531...第一反相處理區塊
532...第一組合器
533...第二反相處理分支、第二解碼分支
534...第二反相處理分支、第二解碼分支
540...變換器、LPC合成階段
550...第二解碼分支
600...組合器
609...作圖
699...已組合的已解碼音訊信號
700...共通後處理階段
701...頻寬擴展區塊
701a...修補器
701b...調整器
701c...組合器
702...MPEG環繞解碼器區塊、聯合立體聲環繞處理階段、聯合多頻道階段
702a...升混器
702b...參數解碼器
799...已解碼音訊信號
800...輸出介面、位元流多工器
899...輸入位元流
900...輸入介面、位元流解多工器
第1a圖為根據本發明之第一面相之編碼方案之方塊圖;
第1b圖為根據本發明之第一面相之解碼方案之方塊圖;
第1c圖為根據本發明之又一面相之編碼方案之方塊圖;
第1d圖為根據本發明之又一面相之解碼方案之方塊圖;
第2a圖為根據本發明之第二面相之編碼方案之方塊圖;
第2b圖為根據本發明之第二面相之解碼方案之方塊圖;
第2c圖為第2a圖之較佳共通前處理之方塊圖;及
第2d圖為第2b圖之較佳共通後處理之方塊圖;
第3a圖示例顯示根據本發明之又一面相之編碼方案之方塊圖;
第3b圖示例顯示根據本發明之又一面相之解碼方案之方塊圖;
第3c圖示例顯示具有級聯開關之編碼裝置/方法之示意代表圖;
第3d圖顯示其中使用級聯組合器之用於解碼之裝置或解碼之方法之示意圖;
第3e圖示例顯示時域信號之示意說明圖及已編碼信號之相對應之代表圖,示例顯示含括於二已編碼信號之短交叉衰減區;
第4a圖示例顯示具有一開關位於該等編碼分支前方之方塊圖;
第4b圖顯示具有該開關位於編碼分支後方之編碼方案之方塊圖;
第4c圖示例顯示較佳組合器實施例之方塊圖;
第5a圖示例顯示作為準週期或脈衝狀信號節段之時域語音節段之波形圖;
第5b圖示意顯示該第5a圖之節段之頻譜;
第5c圖示例顯示作為仿雜訊節段之一實例之無聲語音之時域語音節段;
第5d圖示意顯示第5c圖之時域波形之頻譜;
第6圖示例顯示藉合成CELP編碼器進行分析之方塊圖;
第7a至7d圖示例顯示作為脈衝狀信號之有聲-無聲激勵信號;
第7e圖示例顯示提供短期預測資訊及預測誤差(激勵)信號之編碼器端LPC階段;
第7f圖示例顯示用於產生加權信號之LPC裝置之又一個實施例;
第7g圖示例顯示如第2b圖之變換器537之要求,經由應用反相加權操作及隨後激勵分析,用於將加權信號變換成激勵信號之實施例;
第8圖示例顯示根據本發明之一實施例多頻道合併演繹法則之方塊圖;
第9圖示例顯示頻寬擴展演繹法則之較佳實施例;
第10a圖示例顯示當執行開環判定時,該開關之詳細說明;及
第10b圖示例顯示當於閉環決策模式操作時該開關之示例說明。
50‧‧‧可切換旁路
51‧‧‧控制信號
99‧‧‧音訊信號輸入端
195‧‧‧音訊信號輸入端
410‧‧‧第二域變換器
420‧‧‧第一處理器
510‧‧‧第一域變換器
520‧‧‧第二處理器
800‧‧‧輸出介面
Claims (19)
- 一種用於編碼音訊信號來獲得已編碼音訊信號之裝置,該音訊信號係於一第一域,該裝置包含:一第一域變換器,用於將該音訊信號由該第一域變換至一第二域;一可切換旁路,用於跳過該第一域變換器,或用於回應於一旁路切換控制信號造成藉該第一域變換器變換該音訊信號;一第二域變換器,用於將接收自該可切換旁路或該第一域變換器之一音訊信號變換至一第三域,該第三域係與該第二域不同;一第一處理器,用於根據一第一編碼演繹法則,編碼該第三域音訊信號;及一第二處理器,用於根據與該第一編碼演繹法則不同之一第二編碼演繹法則,編碼接收自該第一域變換器之音訊信號來獲得一第二已處理信號,其中對該音訊信號之一部分已編碼信號係包括該第一已處理信號或該第二已處理信號。
- 如申請專利範圍第1項之裝置,其中該第一域變換器包含用於LPC濾波該音訊信號而獲得一LPC殘餘信號及LPC參數資料之一LPC分析濾波器。
- 如申請專利範圍第1或2項之裝置,其中該第二域變換器包含用於將一輸入信號變換成其頻譜表示型態之一時間-頻率變換器。
- 如申請專利範圍第1項之裝置,其中該第二處理器係運算來產生一已編碼輸出信號,使得該已編碼輸出信號係於輸入該第二處理器之一輸入信號之同一域。
- 如申請專利範圍第1項之裝置,其中該第一處理器包含一量化器及一熵編碼器;及其中該第二處理器包含一基於碼薄之來源編碼器。
- 如申請專利範圍第1項之裝置,其中該第一處理器係基於一資訊匯集模型,及該第二處理器係基於一資訊來源模型。
- 如申請專利範圍第1項之裝置,進一步包含連結於該第一域變換器之一輸出端與該第二域變換器之一輸入端及該第二處理器之一輸入端間之一切換階段,其中該切換階段係自適應於回應於一切換階段控制信號而於該第二域變換器之輸入端與該第二處理器之輸入端間切換。
- 如申請專利範圍第1項之裝置,其中該可切換旁路之一輸出端係連結至該第一域變換器之一輸出端,及該可切換旁路之一輸入端係連結至該第一域變換器之一輸入端。
- 如申請專利範圍第1項之裝置,進一步包含一信號分類器用於依據對該音訊信號部分之分析結果,對該音訊信號之該部分控制可切換旁路。
- 如申請專利範圍第1項之裝置,其中該第二域變換器可操作來以基於區塊之方式變換一輸入信號;及其中該 第二域變換器係運算來回應於一音訊信號之分析執行基於區塊之切換,使得該第二域變換器經控制而不同長度之區塊係依據該音訊信號之內容而變換。
- 一種編碼音訊信號來獲得已編碼音訊信號之方法,該音訊信號係於一第一域,該方法包含:將該音訊信號由該第一域變換至一第二域;跳過該音訊信號由該第一域變換至該第二域之步驟,或回應於一旁路切換控制信號,造成一音訊信號由該第一域變換至一第二域;將一已分路的音訊信號或於該第二域之一音訊信號變換至一第三域,該第三域係與該第二域不同;根據第一編碼演繹法則,編碼由該變換已分路的音訊信號之步驟所產生之該第三域音訊信號或於第二域之音訊信號;及根據與該第一編碼演繹法則不同之一第二編碼演繹法則,編碼於該第二域之音訊信號來獲得一第二已處理信號,其中對該音訊信號之一部分之一編碼信號包括第一已處理信號或第二已處理信號。
- 一種用於解碼已編碼音訊信號之裝置,該已編碼音訊信號包含於一第三域之一第一已處理信號及於一第二域之一第二已處理信號,其中該第二域與第三域係彼此不同,該裝置包含:一第一反相處理器,用於反相處理該第一已處理信 號;一第二反相處理器,用於反相處理該第二已處理信號;一第二變換器,用於將該第一已反相處理信號由該第三域變換至一不同域;一第一變換器,用於將該第二反相已處理信號變換至一第一域,或當不同域非為第一域時,用於將該已變換至一不同域之該第一已反相處理信號變換至該第一域;以及一旁路,用於當該不同域為該第一域時,跳過該第一變換器。
- 如申請專利範圍第12項之裝置,進一步包含一組合器,用於將該第一變換器之一輸出信號及該旁路之一輸出信號組合來獲得一已組合的已解碼音訊信號。
- 如申請專利範圍第12項之裝置,進一步包含一輸入介面,用於由一已編碼音訊信號擷取該第一已處理信號、該第二已處理信號及該控制信號指示對某個第一已反相處理信號,是否欲藉該旁路跳過該第一變換器。
- 如申請專利範圍第12項之裝置,其中該第一變換器包含一線性預測編碼(LPC)合成階段,及其中該第二變換器包含一頻譜-時間變換器,用於將一音訊信號之頻譜表示型態變換成該音訊信號之一時間表示型態。
- 如申請專利範圍第12項之裝置,其中該第一反相處理器 包含一熵解碼器及一解量化器;及其中該第二反相處理器包含該基於碼薄之來源解碼器。
- 如申請專利範圍第12項之裝置,其中該第二變換器可運算來執行一合成濾波運算,諸如藉含括於該已編碼音訊信號之額外資訊可控制之反相已時間翹曲修改型離散餘弦變換濾波運算。
- 一種解碼已編碼音訊信號之方法,該已編碼音訊信號包含於一第三域之一第一已處理信號及於一第二域之一第二已處理信號,其中該第二域及該第三域係彼此不同,該方法包含:反相處理該第一已處理信號;反相處理該第二已處理信號;將該第一已反相處理信號進行第二域變換由該第三域變換至一不同域;當不同域非為第一域時,將該第二已反相處理信號變換成一第一域,或將該第一已反相處理信號變換成該第一域;及當該不同域為該第一域時,跳過該第一域變換步驟。
- 一種電腦程式,用以於在一電腦上運作時,執行如申請專利範圍第11項之編碼音訊信號之方法,或如申請專利範圍第18項之解碼已編碼音訊信號之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US8158608P | 2008-07-17 | 2008-07-17 | |
EP09002270.8A EP2146344B1 (en) | 2008-07-17 | 2009-02-18 | Audio encoding/decoding scheme having a switchable bypass |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201009814A TW201009814A (en) | 2010-03-01 |
TWI441167B true TWI441167B (zh) | 2014-06-11 |
Family
ID=40718647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098122759A TWI441167B (zh) | 2008-07-17 | 2009-07-06 | 用於編碼音訊信號或解碼已編碼音訊信號之裝置及方法、及相關電腦程式 |
Country Status (17)
Country | Link |
---|---|
US (2) | US8321210B2 (zh) |
EP (2) | EP2146344B1 (zh) |
JP (1) | JP5613157B2 (zh) |
KR (1) | KR101224884B1 (zh) |
CN (1) | CN102099856B (zh) |
AR (1) | AR072551A1 (zh) |
AU (1) | AU2009270524B2 (zh) |
BR (1) | BRPI0910999B1 (zh) |
CA (1) | CA2727883C (zh) |
ES (2) | ES2592416T3 (zh) |
HK (2) | HK1138673A1 (zh) |
MX (1) | MX2011000534A (zh) |
PL (2) | PL2146344T3 (zh) |
PT (1) | PT2146344T (zh) |
RU (1) | RU2483364C2 (zh) |
TW (1) | TWI441167B (zh) |
WO (1) | WO2010006717A1 (zh) |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8356127B2 (en) * | 2004-12-09 | 2013-01-15 | Rambus Inc. | Memory interface with workload adaptive encode/decode |
MX2009013519A (es) * | 2007-06-11 | 2010-01-18 | Fraunhofer Ges Forschung | Codificador de audio para codificar una señal de audio que tiene una porcion similar a un impulso y una porcion estacionaria, metodos de codificacion, decodificador, metodo de decodificacion, y señal de audio codificada. |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
PL2311034T3 (pl) * | 2008-07-11 | 2016-04-29 | Fraunhofer Ges Forschung | Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio |
MY152252A (en) * | 2008-07-11 | 2014-09-15 | Fraunhofer Ges Forschung | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
MY159110A (en) * | 2008-07-11 | 2016-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
KR101649376B1 (ko) | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
WO2010044593A2 (ko) | 2008-10-13 | 2010-04-22 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
KR101797033B1 (ko) | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
US8515768B2 (en) * | 2009-08-31 | 2013-08-20 | Apple Inc. | Enhanced audio decoder |
WO2011048099A1 (en) | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule |
BR122021008583B1 (pt) | 2010-01-12 | 2022-03-22 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo |
EP2375410B1 (en) | 2010-03-29 | 2017-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal |
MX2012011532A (es) * | 2010-04-09 | 2012-11-16 | Dolby Int Ab | Codificacion a estereo para prediccion de complejos basados en mdct. |
EP4398248A3 (en) * | 2010-07-08 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder using forward aliasing cancellation |
HRP20240863T1 (hr) * | 2010-10-25 | 2024-10-11 | Voiceage Evs Llc | Kodiranje generičkih audio signala pri niskim bitskim brzinama i malim kašnjenjem |
TWI479160B (zh) * | 2010-12-20 | 2015-04-01 | Hon Hai Prec Ind Co Ltd | 測試裝置及方法 |
RU2554554C2 (ru) * | 2011-01-25 | 2015-06-27 | Ниппон Телеграф Энд Телефон Корпорейшн | Способ кодирования, кодер, способ определения величины периодического признака, устройство определения величины периодического признака, программа и носитель записи |
CN103534754B (zh) | 2011-02-14 | 2015-09-30 | 弗兰霍菲尔运输应用研究公司 | 在不活动阶段期间利用噪声合成的音频编解码器 |
DK3998607T3 (da) * | 2011-02-18 | 2024-04-15 | Ntt Docomo Inc | Taleafkoder |
IN2014DN03022A (zh) * | 2011-11-03 | 2015-05-08 | Voiceage Corp | |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
US9728194B2 (en) | 2012-02-24 | 2017-08-08 | Dolby International Ab | Audio processing |
RU2725416C1 (ru) * | 2012-03-29 | 2020-07-02 | Телефонактиеболагет Лм Эрикссон (Пабл) | Расширение полосы частот гармонического аудиосигнала |
WO2013186344A2 (en) | 2012-06-14 | 2013-12-19 | Dolby International Ab | Smooth configuration switching for multichannel audio rendering based on a variable number of received channels |
JP6133422B2 (ja) * | 2012-08-03 | 2017-05-24 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 |
ES2595220T3 (es) * | 2012-08-10 | 2016-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y métodos para adaptar información de audio a codificación de objeto de audio espacial |
AR090703A1 (es) * | 2012-08-10 | 2014-12-03 | Fraunhofer Ges Forschung | Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
PL2942958T3 (pl) * | 2013-01-07 | 2018-08-31 | Nec Corporation | Sygnalizowanie podziału jednostki kodowania dla bloków kodowanych PCM |
KR101732137B1 (ko) * | 2013-01-07 | 2017-05-02 | 삼성전자주식회사 | 원격 제어 장치 및 전력 제어 방법 |
PL2951820T3 (pl) * | 2013-01-29 | 2017-06-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób wyboru jednego spośród pierwszego algorytmu kodowania i drugiego algorytmu kodowania |
ES2626809T3 (es) * | 2013-01-29 | 2017-07-26 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Concepto para compensación de conmutación del modo de codificación |
RU2676242C1 (ru) * | 2013-01-29 | 2018-12-26 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора |
JP6179122B2 (ja) * | 2013-02-20 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
US9148721B2 (en) * | 2013-03-14 | 2015-09-29 | Dunlop Manufacturing, Inc. | System, method and apparatus for silent true bypass switching |
CN117253498A (zh) * | 2013-04-05 | 2023-12-19 | 杜比国际公司 | 音频信号的解码方法和解码器、介质以及编码方法 |
CN105247613B (zh) * | 2013-04-05 | 2019-01-18 | 杜比国际公司 | 音频处理系统 |
TWI546799B (zh) * | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
PL3011557T3 (pl) | 2013-06-21 | 2017-10-31 | Fraunhofer Ges Forschung | Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830048A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
EP2830055A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
CN103413553B (zh) * | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
US9666202B2 (en) | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
WO2015036352A1 (en) | 2013-09-12 | 2015-03-19 | Dolby International Ab | Coding of multichannel audio content |
US10083708B2 (en) * | 2013-10-11 | 2018-09-25 | Qualcomm Incorporated | Estimation of mixing factors to generate high-band excitation signal |
CN103841244A (zh) * | 2013-12-03 | 2014-06-04 | 华为技术有限公司 | 一种终端及终端的录音方法 |
KR101841380B1 (ko) * | 2014-01-13 | 2018-03-22 | 노키아 테크놀로지스 오와이 | 다중-채널 오디오 신호 분류기 |
CN105336339B (zh) * | 2014-06-03 | 2019-05-03 | 华为技术有限公司 | 一种语音频信号的处理方法和装置 |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP3000110B1 (en) * | 2014-07-28 | 2016-12-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
US20160057463A1 (en) * | 2014-08-19 | 2016-02-25 | Gatesair, Inc. | Hybrid time-divisional multiplexed modulation |
KR20160081844A (ko) | 2014-12-31 | 2016-07-08 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
WO2016108655A1 (ko) * | 2014-12-31 | 2016-07-07 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
EP3067887A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
TWI758146B (zh) | 2015-03-13 | 2022-03-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
CN107925837B (zh) * | 2015-08-31 | 2020-09-22 | 杜比国际公司 | 对压缩hoa信号逐帧组合解码和渲染的方法以及对压缩hoa信号逐帧组合解码和渲染的装置 |
CN105242111B (zh) * | 2015-09-17 | 2018-02-27 | 清华大学 | 一种采用类脉冲激励的频响函数测量方法 |
WO2017050398A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
CN107710323B (zh) | 2016-01-22 | 2022-07-19 | 弗劳恩霍夫应用研究促进协会 | 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 |
US10224042B2 (en) * | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10872598B2 (en) | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10573326B2 (en) * | 2017-04-05 | 2020-02-25 | Qualcomm Incorporated | Inter-channel bandwidth extension |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US11017761B2 (en) * | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
FR3075443A1 (fr) * | 2017-12-19 | 2019-06-21 | Orange | Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural |
GB2582916A (en) * | 2019-04-05 | 2020-10-14 | Nokia Technologies Oy | Spatial audio representation and associated rendering |
US10755721B1 (en) | 2019-04-30 | 2020-08-25 | Synaptics Incorporated | Multichannel, multirate, lattice wave filter systems and methods |
JP7242903B2 (ja) * | 2019-05-14 | 2023-03-20 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置 |
CN110730408A (zh) * | 2019-11-11 | 2020-01-24 | 北京达佳互联信息技术有限公司 | 一种音频参数切换方法、装置、电子设备及存储介质 |
US10978083B1 (en) | 2019-11-13 | 2021-04-13 | Shure Acquisition Holdings, Inc. | Time domain spectral bandwidth replication |
JPWO2021261235A1 (zh) * | 2020-06-22 | 2021-12-30 | ||
KR20220125026A (ko) * | 2021-03-04 | 2022-09-14 | 삼성전자주식회사 | 오디오 처리 방법 및 이를 포함하는 전자 장치 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3211762B2 (ja) * | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | 音声及び音楽符号化方式 |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
JP2002304196A (ja) * | 2001-04-03 | 2002-10-18 | Sony Corp | オーディオ信号記録制御方法、プログラムおよび記録媒体、オーディオ信号再生制御方法、プログラムおよび記録媒体、オーディオ信号入力制御方法、プログラムおよび記録媒体 |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
JP2005510925A (ja) * | 2001-11-30 | 2005-04-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 信号コード化 |
US7424434B2 (en) | 2002-09-04 | 2008-09-09 | Microsoft Corporation | Unified lossy and lossless audio compression |
TW584835B (en) | 2002-12-13 | 2004-04-21 | Univ Nat Chiao Tung | Method and architecture of digital coding for transmitting and packing audio signals |
US7876966B2 (en) * | 2003-03-11 | 2011-01-25 | Spyder Navigations L.L.C. | Switching between coding schemes |
DE10345995B4 (de) * | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7516064B2 (en) * | 2004-02-19 | 2009-04-07 | Dolby Laboratories Licensing Corporation | Adaptive hybrid transform for signal analysis and synthesis |
US7596486B2 (en) | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
US7418394B2 (en) | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
CN101086845B (zh) * | 2006-06-08 | 2011-06-01 | 北京天籁传音数字技术有限公司 | 声音编码装置及方法以及声音解码装置及方法 |
TWI371925B (en) | 2006-09-08 | 2012-09-01 | Via Tech Inc | Apparatus for processing multiple signals with a single analog-to-digital converter and method thereof |
CN101197576A (zh) * | 2006-12-07 | 2008-06-11 | 上海杰得微电子有限公司 | 一种音频信号编码、解码方法 |
ATE547898T1 (de) * | 2006-12-12 | 2012-03-15 | Fraunhofer Ges Forschung | Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms |
-
2009
- 2009-02-18 PT PT90022708T patent/PT2146344T/pt unknown
- 2009-02-18 EP EP09002270.8A patent/EP2146344B1/en active Active
- 2009-02-18 PL PL09002270T patent/PL2146344T3/pl unknown
- 2009-02-18 ES ES09002270.8T patent/ES2592416T3/es active Active
- 2009-07-06 ES ES09797423T patent/ES2391715T3/es active Active
- 2009-07-06 RU RU2010154749/08A patent/RU2483364C2/ru active IP Right Revival
- 2009-07-06 WO PCT/EP2009/004875 patent/WO2010006717A1/en active Application Filing
- 2009-07-06 MX MX2011000534A patent/MX2011000534A/es active IP Right Grant
- 2009-07-06 PL PL09797423T patent/PL2301024T3/pl unknown
- 2009-07-06 AU AU2009270524A patent/AU2009270524B2/en active Active
- 2009-07-06 BR BRPI0910999-4A patent/BRPI0910999B1/pt active IP Right Grant
- 2009-07-06 JP JP2011517779A patent/JP5613157B2/ja active Active
- 2009-07-06 CA CA2727883A patent/CA2727883C/en active Active
- 2009-07-06 EP EP09797423A patent/EP2301024B1/en active Active
- 2009-07-06 KR KR1020117001103A patent/KR101224884B1/ko active IP Right Grant
- 2009-07-06 CN CN2009801279156A patent/CN102099856B/zh active Active
- 2009-07-06 TW TW098122759A patent/TWI441167B/zh active
- 2009-07-07 AR ARP090102542A patent/AR072551A1/es active IP Right Grant
-
2010
- 2010-04-08 HK HK10103486.3A patent/HK1138673A1/zh unknown
-
2011
- 2011-01-14 US US13/007,412 patent/US8321210B2/en active Active
- 2011-09-29 HK HK11110282.3A patent/HK1156143A1/xx unknown
-
2012
- 2012-11-06 US US13/670,323 patent/US8959017B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
PT2146344T (pt) | 2016-10-13 |
HK1138673A1 (zh) | 2010-08-27 |
RU2483364C2 (ru) | 2013-05-27 |
TW201009814A (en) | 2010-03-01 |
BRPI0910999A2 (pt) | 2019-05-14 |
US8321210B2 (en) | 2012-11-27 |
US20110202355A1 (en) | 2011-08-18 |
JP5613157B2 (ja) | 2014-10-22 |
PL2301024T3 (pl) | 2012-12-31 |
HK1156143A1 (en) | 2012-06-01 |
KR20110055515A (ko) | 2011-05-25 |
BRPI0910999B1 (pt) | 2020-03-10 |
EP2146344B1 (en) | 2016-07-06 |
MX2011000534A (es) | 2011-04-27 |
ES2391715T3 (es) | 2012-11-29 |
AR072551A1 (es) | 2010-09-08 |
EP2301024A1 (en) | 2011-03-30 |
US8959017B2 (en) | 2015-02-17 |
PL2146344T3 (pl) | 2017-01-31 |
WO2010006717A1 (en) | 2010-01-21 |
AU2009270524A1 (en) | 2010-01-21 |
US20130066640A1 (en) | 2013-03-14 |
AU2009270524B2 (en) | 2012-03-15 |
KR101224884B1 (ko) | 2013-02-06 |
CN102099856A (zh) | 2011-06-15 |
CA2727883A1 (en) | 2010-04-21 |
JP2011528129A (ja) | 2011-11-10 |
CA2727883C (en) | 2014-09-02 |
EP2146344A1 (en) | 2010-01-20 |
RU2010154749A (ru) | 2012-07-10 |
ES2592416T3 (es) | 2016-11-30 |
EP2301024B1 (en) | 2012-07-25 |
CN102099856B (zh) | 2012-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI441167B (zh) | 用於編碼音訊信號或解碼已編碼音訊信號之裝置及方法、及相關電腦程式 | |
US11676611B2 (en) | Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains | |
TWI463486B (zh) | 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體 |