TWI587288B - 利用水平相校正處理音訊信號之音訊處理器及方法 - Google Patents
利用水平相校正處理音訊信號之音訊處理器及方法 Download PDFInfo
- Publication number
- TWI587288B TWI587288B TW104120800A TW104120800A TWI587288B TW I587288 B TWI587288 B TW I587288B TW 104120800 A TW104120800 A TW 104120800A TW 104120800 A TW104120800 A TW 104120800A TW I587288 B TWI587288 B TW I587288B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio signal
- phase
- signal
- frequency
- sub
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims description 455
- 238000012937 correction Methods 0.000 title claims description 249
- 238000000034 method Methods 0.000 title claims description 132
- 238000012545 processing Methods 0.000 title claims description 56
- 238000005259 measurement Methods 0.000 claims description 169
- 230000002829 reductive effect Effects 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 33
- 230000004069 differentiation Effects 0.000 claims description 29
- 230000002123 temporal effect Effects 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 238000009499 grossing Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 description 132
- 230000008439 repair process Effects 0.000 description 56
- 230000001052 transient effect Effects 0.000 description 54
- 238000010586 diagram Methods 0.000 description 46
- 238000004422 calculation algorithm Methods 0.000 description 38
- 230000000694 effects Effects 0.000 description 25
- 230000005540 biological transmission Effects 0.000 description 21
- 230000003595 spectral effect Effects 0.000 description 21
- 238000007906 compression Methods 0.000 description 16
- 230000006835 compression Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 11
- 230000008447 perception Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 230000002194 synthesizing effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013144 data compression Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000001010 compromised effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012074 hearing test Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000010587 phase diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 229910001369 Brass Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000010951 brass Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002989 correction material Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Amplifiers (AREA)
- Synchronisation In Digital Transmission Systems (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Television Receiver Circuits (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Description
本發明係關於用於處理音訊信號之音訊處理器及方法、用於解碼音訊信號之解碼器及方法以及用於編碼音訊信號之編碼器及方法。此外,描述用於決定相位校正資料、音訊信號及用於執行先前提及的方法之一的電腦程式之方法。換言之,本發明展示用於感知音訊編解碼器或基於感知重要性來校正QMF域中的頻寬擴展信號之相位頻譜的相位微分校正及頻寬擴展(BWE)。
感知音訊編碼
至今所見的感知音訊編碼遵循若干共用主題,包括時域/頻域處理、冗餘縮減(熵編碼)及貫穿感知效應之發音利用的不相干性移除[1]的使用。通常,輸入信號藉由分析濾波器組分析,該分析濾波器組將時域信號轉換成頻譜(時間/頻率)表示。轉換成頻譜係數允許取決於信號分量之頻率內容而選擇性地處理信號分量(例如具有單獨泛音結
構的不同樂器)。
平行地,關於輸入信號之感知性質分析輸入信號,亦即,特定而言,計算時間相依及頻率相依遮罩臨限值。時間相依/頻率相依遮罩臨限值藉由呈用於每一頻帶及編碼時間框之絕對能量值或遮罩信號比(MSR)形式的目標編碼臨限值傳遞至量化單元。
藉由分析濾波器組傳遞的頻譜係數經量化以降低對於表示信號而言所需要的資料速率。此步驟隱含資訊損失且將編碼失真(誤差、雜訊)引入信號中。為最小化此編碼雜訊之可聞影響,根據用於每一頻帶及框之目標編碼臨限值來控制量化器步驟大小。理想地,注入至每一頻帶中的編碼雜訊低於編碼(遮罩)臨限值,且因此主觀音訊中之降級為不可感知的(不相干性之移除)。量化雜訊根據心裡聲學要求的對頻率及時間之此控制導致複雜雜訊成形效應,且使編碼器成為感知音訊編碼器。
隨後,現代音訊編碼器對量化頻譜資料執行熵編碼(例如,霍夫曼編碼、算術編碼)。熵編碼為無損編碼步驟,該無損編碼步驟進一步節約位元速率。
最後,所有編碼後頻譜資料及相關額外參數(旁資訊,如例如用於每一頻帶之量化器設定)一起緊縮至位元串流中,該位元串流為意欲用於檔案儲存或傳輸的最終編碼後表示。
頻寬擴展
在基於濾波器組的感知音訊編碼中,所消耗位元速率之主要部分通常花費在量化頻譜係數上。因此,以極低的位元速率,不足的位元可利用來以達成感知上未受損的再現所需要的精確度來表示所有係數。藉此,低位元速率要求有效地設定對可藉由感知音訊編碼獲得的音訊頻寬的限制。頻寬擴展[2]消除此長期基本限制。頻寬擴展之中心思想將藉由額外高頻率處理器來補充帶限感知編解碼器,該額外高頻率處理器傳輸且復原呈緊密參數形式的遺漏高頻率內容。高頻率內容可基於基帶信號之單邊帶調變、如在頻譜帶複製(SBR)[3]中使用的向上複製技術或如例如聲碼器[4]的音高移位技術之施加來產生。
數位音訊效應
時間拉伸或音高移位效應通常藉由施加如同步化重疊-相加(SOLA)的時域技術或頻域技術(聲碼器)來獲得。另外,已提議在子頻帶中施加SOLA處理的混合系統。聲碼器及混合系統通常遭受可歸因於垂直相位同調之損失的稱為相位錯亂(phasiness)[8]的假影。一些出版品有關於藉由在垂直相位同調重要的情況下保留垂直相位同調進行的對時間拉伸演算法之聲音品質的改良[6][7]。
最新技術音訊編碼器[1]通常藉由忽略將要編碼的信號之重要相位性質而使音訊信號之感知品質折中。在[9]中解決了在感知音訊編碼器中校正相位同調之一般提議。
然而,並非所有種類的相位同調誤差可同時經校
正,且並非所有相位同調誤差為感知上重要的。例如,在音訊頻寬擴展中,自最新技術並不明確應當以最高優先權校正哪些相位同調有關的誤差及哪些誤差可保持僅部分校正,或關於誤差之無意義感知影響而被完全忽略。
尤其由於音訊頻寬擴展[2][3][4]之施加,通常折損在頻率上及在時間上的相位同調。結果為展現聽覺粗糙度且可含有另外感知的音調的渾濁聲音,該等另外感知的音調自原始信號中的聽覺物件分裂,且因此另外獨立地感知為原始信號之聽覺物件。此外,聲音亦可似乎來自遠距離,「嗡嗡聲」較低,且因此喚醒極少聽眾參與[5]。
因此,需要改良方法。
本發明之一目標在於提供用於處理音訊信號之改良概念。此目標由獨立申請專利範圍項之標的解決。
該本發明係基於發現可根據藉由音訊處理器或解碼器計算的目標相位來校正音訊信號之相位。目標相位可視為未處理音訊信號之相位之表示。因此,處理後音訊信號之相位經調整以較好地適合未處理音訊信號之相位。具有例如音訊信號之時間頻率表示,可針對子頻帶中的後續時間框調整音訊信號之相位,或可在用於後續頻率子頻帶之時間框中調整相位。因此,發現計算器自動偵測且選擇最適合的校正方法。所述發現可實行於不同實施例中或共同實行於解碼器及/或編碼器中。
實施例展示用於處理音訊信號之音訊處理器,該音訊處理器包含音訊信號相位量測計算器,該音訊信號相位量測計算器經組配以用於計算用於時間框之音訊信號之相位量測。此外,音訊信號包含:目標相位量測決定器,其用於決定用於該時間框之目標相位量測;以及相位校正器,其經組配以用於使用所計算相位量測及目標相位量測來校正用於時間框之音訊信號之相位,以獲得處理後音訊信號。
根據進一步實施例,音訊信號可包含用於時間框之多個子頻帶信號。目標相位量測決定器經組配以用於決定用於第一子頻帶信號之第一目標相位量測及用於第二子頻帶信號之第二目標相位量測。此外,音訊信號相位量測計算器決定用於第一子頻帶信號之第一相位量測及用於第二子頻帶信號之第二相位量測。相位校正器經組配以用於使用音訊信號之第一相位量測及第一目標相位量測來校正第一子頻帶信號之第一相位,且用於使用音訊信號之第二相位量測及第二目標相位量測來校正第二子頻帶信號之第二相位。因此,音訊處理器可包含音訊信號合成器,該音訊信號合成器用於使用校正後第一子頻帶信號及校正後第二子頻帶信號來合成校正後音訊信號。
根據本發明,音訊處理器經組配以用於在水平方向上校正音訊信號之相位,亦即時間上的校正。因此,音訊信號可再分成一組時間框,其中每一時間框之相位可根據目標相位加以調整。目標相位可為原始音訊信號之表
示,其中音訊處理器可為用於解碼音訊信號之解碼器之部分,該音訊信號為原始音訊信號之編碼後表示。選擇性地,若音訊信號在時間-頻率表示中為可利用的,則可針對音訊信號之若干子頻帶單獨地施加水平相位校正。音訊信號之相位之校正可藉由自音訊信號之相位減去目標相位之時間上的相位微分與音訊信號之相位的偏差來執行。
因此,因為時間上的相位微分為頻率(=f,其中φ為相位),所以所描述之相位校正對於音訊信號之每一子頻帶執行頻率調整。換言之,可減少音訊信號之每一子頻帶與目標頻率之差異以獲得音訊信號之較佳品質。
為決定目標相位,目標相位決定器經組配以用於獲得用於當前時間框之基本頻率估計,且用於使用用於時間框之基本頻率估計來計算用於時間框之該等多個子頻帶中之每一子頻帶之頻率估計。頻率估計可使用子頻帶之總數及音訊信號之抽樣頻率轉換成時間上的相位微分。在又一實施例中,音訊處理器包含:目標相位量測決定器,其用於決定用於時間框中的音訊信號之目標相位量測;相位誤差計算器,其用於使用音訊信號之相位及目標相位量測之時間框來計算相位誤差;以及相位校正器,其經組配以用於使用相位誤差來校正音訊信號之相位及時間框。
根據進一步實施例,音訊信號在時間頻率表示中為可利用的,其中音訊信號包含用於時間框之多個子頻帶。目標相位量測決定器決定用於第一子頻帶信號之第一目標相位量測及用於第二子頻帶信號之第二目標相位量
測。此外,相位誤差計算器形成相位誤差之向量,其中向量之第一元素代表第一子頻帶信號之相位及第一目標相位量測之第一偏差,且其中向量之第二元素代表第二子頻帶信號之相位及第二目標相位量測之第二偏差。另外,此實施例之音訊處理器包含音訊信號合成器,該音訊信號合成器用於使用校正後第一子頻帶信號及校正後第二子頻帶信號來合成校正後音訊信號。此相位校正產生平均校正後相位值。
另外或替代地,該等多個子頻帶分組成基帶及頻率修補之集合,其中基帶包含音訊信號之一子頻帶,且頻率修補之集合包含在高於基帶中之至少一子頻帶之頻率的頻率處的基帶之至少一子頻帶。
進一步實施例展示相位誤差計算器,該相位誤差計算器經組配以用於計算代表第二數目個頻率修補中之第一修補的相位誤差之向量之元素之平均值,以獲得平均相位誤差。相位校正器經組配以用於使用加權平均相位誤差來校正修補信號之頻率修補之集合中之第一頻率修補及後續頻率修補中的子頻帶信號之相位,其中平均相位誤差根據頻率修補之索引來劃分以獲得修改後修補信號。此相位校正在交越頻率處提供良好品質,該等交越頻率為兩個後續頻率修補之間的邊界頻率。
根據又一實施例,兩個先前描述之實施例可經組合以獲得校正後音訊信號,該校正後音訊信號包含平均起來良好且在交越頻率處的相位校正後值。因此,音訊信號
相位微分計算器經組配以用於計算用於基帶之頻率上的相位微分之平均值。相位校正器藉由將藉由當前子頻帶索引加權的頻率上的相位微分之平均值加至具有音訊信號之基帶中的最高子頻帶索引的子頻帶信號之相位,來計算具有最佳化第一頻率修補的又一修改後修補信號。此外,相位校正器可經組配以用於計算修改修補信號及又一修改後修補信號之加權平均值以獲得組合修改後修補信號,且用於藉由將藉由當前子頻帶之子頻帶索引加權的頻率上的相位微分之平均值加至具有組合修改後修補信號之先前頻率修補中的最高子頻帶索引的子頻帶信號之相位,來基於頻率修補遞迴地更新組合修改後修補信號。
為決定目標相位,目標相位量測決定器可包含資料串流擷取器,該資料串流擷取器經組配以用於自資料串流擷取音訊信號之當前時間框中的尖峰位置及及尖峰位置之基本頻率。替代地,目標相位量測決定器可包含音訊信號分析器,該音訊信號分析器經組配以用於分析當前時間框以計算當前時間框中的尖峰位置及尖峰位置之基本頻率。此外,目標相位量測決定器包含目標頻譜產生器,該目標頻譜產生器用於使用尖峰位置及尖峰位置之基本頻率來估計當前時間框中的進一步尖峰位置。詳細地,目標頻譜產生器可包含產生產生時間之脈波列的尖峰偵測器,用以根據尖峰位置之基本頻率調整脈波列之頻率的信號形成器、用以根據位置調整脈波列之相位的脈波定位器,及用以產生調整後脈波列之相位頻譜的頻譜分析器,其中時域
信號之相位頻譜為目標相位量測。目標相位量測決定器之所描述實施例對於產生用於音訊信號之目標頻譜為有利的,該目標頻譜具有含尖峰的波形。
第二音訊處理器之實施例描述垂直相位校正。垂直相位校正在所有子頻帶上調整一個時間框中的音訊信號之相位。針對每一子頻帶獨立地施加的音訊信號之相位之調整在合成音訊信號之子頻帶之後導致不同於未校正音訊信號的音訊信號之波形。因此,例如可能重新成形模糊的尖峰或暫態。
根據又一實施例,展示用於決定用於音訊信號之相位校正資料的計算器,該計算器具有用於在第一變分模式及第二變分模式中決定音訊信號之相位之變分的變分決定器、用於比較使用位相位變分模式決定的第一變分及使用第二變分模式決定的第二變分的變分比較器,及用於基於比較之結果來根據第一變分模式或第二變分模式計算相位校正的校正資料計算器。
又一實施例展示變分決定器,該變分決定器用於在第一變分模式中決定用於音訊信號之多個時間框的時間上的相位微分(PDT)之標準偏差量測作為相位之變分,或在第二變分模式中決定多個子頻帶的頻率上的相位微分(PDF)之標準偏差量測作為相位之變分。變分比較器針對音訊信號之時間框比較作為第一變分模式的時間上的相位微分之量測及作為第二變分模式的頻率上的相位微分之量測。根據又一實施例,變分決定器經組配以用於在第三變分模式
中決定音訊信號之相位之變分,其中第三變分模式為暫態偵測模式。因此,變分比較器比較三個變分模式,且校正資料計算器基於比較之結果來根據第一變分模式、第二變分或第三變分模式計算相位校正。
可如下校正資料計算器之決策規則。若偵測到暫態,則根據用於暫態之相位校正來校正相位以恢復暫態之形狀。另外,若第一變分小於或等於第二變分,則施加第一變分模式之相位校正,或若第二變分大於第一變分,則施加根據第二變分模式的相位校正。若偵測到無暫態且若第一變分及第二變分兩者超過臨限時,則不施加相位校正模式。
計算器可經組配以用於例如在音訊編碼級段中分析音訊信號,以決定最佳相位校正模式且計算用於所決定相位校正模式之有關參數。在解碼級段中,參數可用來獲得解碼後音訊信號,該解碼後音訊信號具有與使用最新技術編解碼器解碼的音訊信號相比的較佳品質。必須注意,計算器針對音訊信號之每一時間框自主地偵測正確的校正模式。
實施例展示用於解碼音訊信號之解碼器,該解碼器具有用於使用第一校正資料來產生用於音訊信號之第二信號之第一時間框的目標頻譜,及用於校正以相位校正演算法決定的音訊信號之第一時間框中的子頻帶信號之相位的第一相位校正器,其中校正係藉由減少音訊信號之第一時間框中的子頻帶信號之量測與目標頻譜之差異來執行。
另外,解碼器包含音訊子頻帶信號計算器,該音訊子頻帶信號計算器用於使用用於時間框之校正後相位來計算用於第一時間框之音訊子頻帶信號,且用於使用第二時間框中的子頻帶信號之量測或使用根據不同於相位校正演算法的又一相位校正演算法的校正後相位計算來計算用於不同於第一時間框的第二時間框之音訊子頻帶信號。
根據進一步實施例,解碼器包含等效於第一目標頻譜產生的第二目標頻譜產生器及第三目標頻譜產生器,及等效於第一相位校正器的第二相位校正器及第三相位校正器。因此,第一相位校正器可執行水平相位校正,第二相位校正器可執行垂直相位校正,且第三相位校正器可執行相位校正暫態。根據又一實施例,解碼器包含核心解碼器,該核心解碼器經組配以用於解碼具有相關於音訊信號的降低數目之子頻帶的時間框中的音訊信號。此外,解碼器可包含修補器,該修補器用於修補具有降低數目之子頻帶的核心解碼後音訊信號之子頻帶之集合中,其中子頻帶之集合形成對時間框中鄰接於降低數目之子頻帶的進一步子頻帶之第一修補,以獲得具有規則數目之子頻帶的音訊信號。此外,解碼器可包含用於處理時間框中的音訊子頻帶信號之量級值的量級處理器,及用於合成音訊子頻帶信號或處理後音訊子頻帶信號之量級以獲得合成解碼後音訊信號的音訊信號合成器。此實施例可建立用於頻寬擴展之解碼器,該頻寬擴展包含解碼後音訊信號之相位校正。
因此,用於編碼音訊信號之編碼器包含:相位決
定器,其用於決定音訊信號之相位;計算器,其用於基於音訊信號之所決定相位來決定用於音訊信號之相位校正資料;核心編碼器,其經組配以用於核心編碼音訊信號,以獲得具有相關於音訊信號的降低數目之子頻帶的核心編碼後音訊信號;以及參數擷取器,其經組配以用於擷取音訊信號之參數,以用於獲得用於未包括在核心編碼後音訊信號中的子頻帶之第二集合的低解析度參數表示;以及音訊信號形成器,其形成輸出信號,該輸出信號包含參數、核心編碼後音訊信號,且相位校正資料可形成用於頻寬擴展之編碼器。
所有先前描述之實施例可全部或以組合方式見於例如用於以解碼後音訊信號之相位校正的頻寬擴展之編碼器及/或解碼器中。替代地,亦可能不關於彼此而獨立地考慮所有所描述之實施例。
A‧‧‧方塊
10‧‧‧時間頻率頻塊
15‧‧‧時間框
17‧‧‧時間跳躍大小
20‧‧‧子頻帶
25‧‧‧所傳輸頻帶/音訊信號
30‧‧‧基帶信號
30a‧‧‧第一修補
32‧‧‧音訊信號
35‧‧‧重建音訊信號/音訊信號
40‧‧‧量級校正後修補/頻率修補
40’‧‧‧修改後修補信號
40"‧‧‧又一修改後修補信號
40'''、40a'''、40b'''‧‧‧組合修改後修補信號
40a‧‧‧第一修補/頻率修補
40b‧‧‧頻率修補
45a~45d‧‧‧相位
45‧‧‧相位/相位值
45a’‧‧‧相位角/相位
45b’‧‧‧相位值/相位
45c’‧‧‧相位
45b"‧‧‧新相位值
45d’、45d"‧‧‧相位
47‧‧‧量級/量級值
50‧‧‧音訊處理器
50’‧‧‧音訊處理器
55‧‧‧音訊信號
60‧‧‧音訊信號相位量測計算器
65‧‧‧目標相位量測決定器
65’‧‧‧目標相位量測決定器
65a‧‧‧第一目標頻譜產生器
65b‧‧‧第二目標頻譜產生器
70‧‧‧相位校正器
70’‧‧‧相位校正器
70a‧‧‧第一相位校正器/水平校正
70b‧‧‧第二相位校正器/校正模式
70c‧‧‧第三相位校正器/校正模式
75‧‧‧時間框
75a‧‧‧先前時間框/第一時間框
75b‧‧‧當前時間框/第二時間框
75c‧‧‧未來時間框/第三時間框
80‧‧‧相位量測/時間上的相位微
分
80a‧‧‧第一相位量測
80b‧‧‧第二相位量測
85‧‧‧目標相位量測/目標相位微分/基本頻率估計/頻率估計/輸出/目標函數
85’‧‧‧目標相位量測
85a‧‧‧第一目標相位量測/頻率估計
85a’‧‧‧第一目標相位量測
85a”、85b”、85c”‧‧‧目標頻譜
85b‧‧‧第二目標相位量測/基本頻率估計/頻率估計
85b’‧‧‧第二目標相位量測
90‧‧‧處理後音訊信號/頻率組合處理後音訊信號
90’‧‧‧校正後音訊信號/處理後音訊信號
90a’‧‧‧校正後第一子頻帶信號
90b’‧‧‧校正後第二子頻帶信號
91‧‧‧校正後相位
91a‧‧‧校正後相位/相位校正後子頻帶信號/先前時間框
95‧‧‧子頻帶信號/子頻帶/校正
後子頻帶信號/當前子頻帶
95a‧‧‧第一子頻帶信號/處理後第一子頻帶信號
95b‧‧‧第二子頻帶信號/處理後第二子頻帶信號
95c、95d、95e、95f‧‧‧子頻帶
100‧‧‧音訊信號合成器/合成器
105‧‧‧偏差
105’‧‧‧相位誤差
105"‧‧‧平均相位誤差
105a、105a’‧‧‧第一偏差
105b、105b’‧‧‧第二偏差
110、110’、110”‧‧‧解碼器
114‧‧‧基本頻率
115‧‧‧核心解碼器
120‧‧‧修補器
125‧‧‧頻寬擴展參數施加器
125’‧‧‧量級處理器
130、130’‧‧‧資料串流擷取器
135‧‧‧資料串流/輸出信號/音訊信號
140‧‧‧基本頻率/基本頻率估計
145‧‧‧編碼後音訊信號/核心編
碼後音訊信號/核心編碼後信號
150‧‧‧基本頻率分析器
155、155’、155”‧‧‧編碼器
160‧‧‧核心編碼器
170‧‧‧輸出信號形成器
175、175’‧‧‧基本頻率分析器
180‧‧‧低通濾波器
185‧‧‧高通濾波器
190‧‧‧參數
195‧‧‧框序列
200‧‧‧相位誤差計算器
210‧‧‧音訊信號相位微分計算器
215‧‧‧頻率上的相位微分
220a、220b‧‧‧開關
225‧‧‧音訊信號分析器
230‧‧‧尖峰位置/尖峰位置估計
235‧‧‧尖峰位置之基本頻率/尖峰位置之基本頻率估計
240‧‧‧目標頻譜產生器
245‧‧‧尖峰產生器
250‧‧‧信號形成器
255‧‧‧脈波定位器
260‧‧‧頻譜分析器
265‧‧‧脈波列
270‧‧‧計算器
275‧‧‧變分決定器
280‧‧‧變分比較器
285‧‧‧校正資料計算器
285a~285c‧‧‧校正資料計算器
290a‧‧‧第一變分/變分
290b‧‧‧第二變分/變分
290c‧‧‧第三變分
295‧‧‧相位校正資料/校正資料
295’‧‧‧相位校正資料/元資料串流
295a‧‧‧第一校正資料
295b‧‧‧第二校正資料
295c‧‧‧第三校正資料
300a‧‧‧PDT計算器
300b‧‧‧PDF計算器
305a‧‧‧時間上的相位微分
305b‧‧‧頻率上的相位微分
310a‧‧‧三角標準偏差計算器
310b‧‧‧三角標準偏差計算器
315a‧‧‧第一三角標準偏差
315b‧‧‧第二三角標準偏差
320‧‧‧比較器
325‧‧‧最小值
330‧‧‧組合器
335a‧‧‧平均標準偏差量測
335b‧‧‧標準偏差量測
340a、340b‧‧‧平滑器
345a‧‧‧平滑平均標準偏差量測/平滑後平均標準偏差量測
345b‧‧‧平滑標準偏差量測/平滑後標準偏差量測
350‧‧‧音訊子頻帶信號計算器
355‧‧‧音訊子頻帶信號/校正後音訊信號
360‧‧‧分析器
365‧‧‧啟動資料
375‧‧‧先前時間框
380‧‧‧相位決定器
385‧‧‧校正模式計算器
390‧‧‧元資料形成器
2300、2400、2500、3400、3500、3600、4200、5800、5900‧‧‧方法
2305~2315、2405~2415、2505~2515、3405~3415、3505
~3515、3605~3620、4205~4215、5805~5815、5905
~5925‧‧‧步驟
隨後將參考隨附圖式論述本發明之實施例,在隨附圖式中:圖1a展示時間頻率表示中的小提琴信號之量級頻譜;圖1b展示對應於圖1a之量級頻譜的相位頻譜;圖1c展示時間頻率表示中的QMF域中之長號信號之量級頻譜;圖1d展示對應於圖1c之量級頻譜的相位頻譜;圖2展示包含由時間框及子頻帶定義的時間頻率頻塊(例如,QMF頻格、正交鏡相濾波器組頻格)的時間頻率圖;
圖3a展示音訊信號之示範性頻率圖,其中在十個不同子頻帶上描繪頻率之量級;圖3b展示在例如在中間步驟處的解碼過程期間的接收之後的音訊信號之示範性頻率表示;圖3c展示重建音訊信號Z(k,n)之示範性頻率表示;圖4a展示時間-頻率表示中使用直接向上複製SBR的QMF域中的小提琴信號之量級頻譜;圖4b展示對應於圖4a之量級頻譜的相位頻譜;圖4c展示時間-頻率表示中使用直接向上複製SBR的QMF域中的長號信號之量級頻譜;圖4d展示對應於圖4c之量級頻譜的相位頻譜;圖5展示具有不同相位值的單個QMF頻格之時域表示;圖6展示信號之時域及頻域呈現,該信號具有一非零頻帶且相位以固定值改變,該固定值為π/4(上)及3π/4(下);圖7展示信號之時域及頻域呈現,該信號具有一非零頻帶且相位隨機地改變;圖8在四個時間框及四個頻率子頻帶之時間頻率表示中展示關於圖6所描述之效應,其中僅第三子頻帶包含不同於零的頻率;圖9展示信號之時域及頻域呈現,該信號具有一非零時間框且相位以固定值改變,該固定值為為π/4(上)及3π/4(下);圖10展示信號之時域及頻域呈現,該信號具有一非零
時間框且相位隨機地改變;圖11展示類似於圖8中所示之時間頻率圖的時間頻率圖,僅第三時間框包含不同於零的頻率;圖12a展示時間-頻率表示中的QMF域中之小提琴信號之時間上的相位微分;圖12b展示對應於圖12a中所示之時間上的相位微分的相位微分頻率;圖12c展示時間-頻率表示中的QMF域中之長號信號之時間上的相位微分;圖12d展示圖12c之對應時間上的相位微分之頻率上的相位微分;圖13a展示時間-頻率表示中使用直接向上複製SBR的QMF域中的小提琴信號之時間上的相位微分;圖13b展示對應於圖13a中所示之時間上的相位微分的頻率上的相位微分;圖13c展示時間-頻率表示中使用直接向上複製SBR的QMF域中之長號信號之時間上的相位微分;圖13d展示對應於圖13c中所示之時間上的相位微分的頻率上的相位微分;圖14a在單位圓中示意性地展示例如後續時間框或頻率子頻帶的四個相位;圖14b展示在SBR處理之後的圖14a中所例示之相位且在虛線中展示校正後相位;圖15展示音訊處理器50之示意性方塊圖;
圖16根據又一實施例在示意性方塊圖中展示音訊處理器;圖17展示時間-頻率表示中使用直接向上複製SBR的QMF域中之小提琴信號之PDT中的平滑誤差;圖18a展示時間-頻率表示中用於校正後SBR之QMF域中之小提琴信號之PDT中的誤差;圖18b展示對應於圖18a中所示之誤差的時間上的相位微分;圖19展示解碼器之示意性方塊圖;圖20展示編碼器之示意性方塊圖;圖21展示可為音訊信號的資料串流之示意性方塊圖;圖22展示根據又一實施例之圖21之資料串流;圖23展示用於處理音訊信號之方法的示意性方塊圖;圖24展示用於解碼音訊信號之方法的示意性方塊圖;圖25展示用於編碼音訊信號之方法的示意性方塊圖;圖26展示根據又一實施例之音訊處理器的示意性方塊圖;圖27展示根據一較佳實施例之音訊處理器的示意性方塊圖;圖28a展示音訊處理器中之相位校正器的示意性方塊圖,該示意性方塊圖更詳細地例示信號流程;圖28b自與圖26至圖28a相比的另一觀點展示相位校正之步驟;圖29展示音訊處理器中之目標相位量測決定器的示意
性方塊圖,該示意性方塊圖更詳細地例示目標相位量測決定器;圖30展示音訊處理器中之目標頻譜產生器的示意性方塊圖,該示意性方塊圖更詳細地例示目標頻譜產生器;圖31展示解碼器之示意性方塊圖;圖32展示編碼器之示意性方塊圖;圖33展示可為音訊信號的資料串流之示意性方塊圖;圖34展示用於處理音訊信號之方法的示意性方塊圖;圖35展示用於解碼音訊信號之方法的示意性方塊圖;圖36展示用於解碼音訊信號之方法的示意性方塊圖;圖37展示時間-頻率表示中使用直接向上複製SBR的QMF域中之長號信號之相位頻譜中的誤差;圖38a展示時間-頻率表示中使用校正後SBR的QMF域中之長號信號之相位頻譜中的誤差;圖38b展示對應於圖38a中所示之誤差的頻率上的相位微分;圖39展示計算器之示意性方塊圖;圖40展示計算器之示意性方塊圖,該示意性方塊圖更詳細地例示變分決定器中之信號流程;圖41展示根據又一實施例之計算器的示意性方塊圖;圖42展示用於決定用於音訊信號之相位校正資料之方法的示意性方塊圖;圖43a展示時間-頻率表示中的QMF域中之小提琴信號之時間上的相位微分之標準偏差;
圖43b展示對應於關於圖43a所示之時間上的相位微分之標準偏差的頻率上的相位微分之標準偏差;圖43c展示時間-頻率表示中的QMF域中之長號信號之時間上的相位微分之標準偏差;圖43d展示對應於圖43c中所示之時間上的相位微分之標準偏差的頻率上的相位微分之標準偏差;圖44a展示時間-頻率表示中的QMF域中之小提琴+鼓掌信號之量級;圖44b展示對應於圖44a中所示之量級頻譜的相位頻譜;圖45a展示時間-頻率表示中的QMF域中之小提琴+鼓掌信號之時間上的相位微分;圖45b展示對應於圖45a中所示之時間上的相位微分的頻率上的相位微分;圖46a展示時間頻率表示中使用校正後SBR的QMF域中之小提琴+鼓掌信號之時間上的相位微分;圖46b展示對應於圖46a中所示之時間上的相位微分的頻率上的相位微分;圖47展示時間-頻率表示中的QMF頻帶之頻率;圖48a展示與時間-頻率表示中所示之原始頻率相比的QMF頻帶直接向上複製SBR之頻率;圖48b展示與時間-頻率表示中之原始頻率相比的使用校正後SBR的QMF頻帶之頻率;圖49展示與時間-頻率表示中的原始信號之QMF頻帶
之頻率相比的諧波之估計頻率;圖50a展示時間-頻率表示中使用具有壓縮校正資料之校正後SBR的QMF域中之小提琴信號之時間上的相位微分中的誤差;圖50b展示對應於圖50a中所示之時間上的相位微分之誤差的時間上的相位微分;圖51a展示時間圖中的長號信號之波形;圖51b展示對應於圖51a中的長號信號之時域信號,該時域信號僅含有估計尖峰;其中已使用所傳輸元資料獲得尖峰之位置;圖52a展示時間-頻率表示中使用具有壓縮校正資料之校正後SBR的QMF域中之長號信號之相位頻譜中的誤差;圖52b展示對應於圖52a中所示之相位頻譜中之誤差的頻率上的相位微分;圖53展示解碼器之示意性方塊圖;圖54展示根據一較佳實施例之示意性方塊圖;圖55展示根據又一實施例之解碼器的示意性方塊圖;圖56展示編碼器之示意性方塊圖;圖57展示可用於圖56中所示之編碼器中的計算器之方塊圖;圖58展示用於解碼音訊信號之方法的示意性方塊圖;以及圖59展示用於編碼音訊信號之方法的示意性方塊圖。
在下文中,將進一步詳細地描述本發明之實施例。個別圖中所示之具有相同或類似功能性的元件將與相同參考符號相關聯。
將關於特定信號處理來描述本發明之實施例。因此,圖1至圖14描述施加於音訊信號的信號處理。即使關於此特殊信號處理描述實施例,本發明亦不限於此處理,且亦可進一步施加於許多其他處理方案。此外,圖15至圖25展示可用於音訊信號之水平相位校正的音訊處理器之實施例。圖26至圖38展示可用於音訊信號之垂直相位校正的音訊處理器之實施例。此外,圖39至圖52展示用於決定用於音訊信號之相位校正資料之計算器的實施例。計算器可分析音訊信號且決定施加先前提及之音訊處理器中之哪一個,或若音訊處理器中無一者適合於音訊信號,則將音訊處理器中無一者施加於音訊信號。圖53至圖59展示可包含第二處理器及計算器的解碼器及編碼器之實施例。
1 介紹
感知音訊編碼已激增為允許數位技術用於使用具有有限容量的傳輸或儲存通道將音訊及多媒體提供至消費者的所有類型之應用程式的主流。要求現代感知音訊編解碼器以愈來愈低的位元速率傳遞令人滿意的音訊品質。繼而,一個人必須忍受由大多數聽眾最可容忍的某些編碼假影。音訊頻寬擴展(BWE)為用以藉由以引入某些假影為代價的所傳輸低頻帶信號部分至高頻帶之頻譜轉移或換位
來人工地擴展音訊編碼器之頻率範圍的技術。
發現,此等假影中之一些與人工擴展的高頻帶內的相位微分之變化有關。此等假影之一為頻率上的相位微分(亦參見「垂直」相位同調)[8]之變化。該相位微分之保留對於具有如時域波形的脈衝列及相當低的基本頻率的音調信號而言為知覺上重要的。與垂直相位微分之變化有關的假影對應於在時間方面的能量之局部分散,且常見於已藉由BWE技術處理的音訊信號中。另一假影為對於任何基本頻率之多泛音音調信號而言知覺上重要的時間上的相位微分(亦參見「水平」相位同調)之變化。與水平相位微分之變化有關的假影對應於在音高方面的局部頻率偏移,且常見於已藉由BWE技術處理的音訊信號中。
本發明呈現用於在此性質已藉由所謂的音訊頻寬擴展(BWE)之施加折中時重新調整此類信號之垂直相位微分或水平相位微分之構件。進一步構件經提供來決定相位微分之恢復是否為知覺上有益的,及調整垂直相位微分或調整水平相位微分為知覺上較佳的。
頻寬擴展方法諸如頻譜帶複製(SBR)[9]通常用於低位元速率編解碼器中。該等方法允與關於較高頻帶的參數資訊一起傳輸僅相對窄的低頻率區。因為參數資訊之位元速率係小的,所以可獲得編碼效率方面之顯著改良。
通常,用於較高頻帶之信號係藉由簡單地自所傳輸低頻率區複製該信號來獲得。處理通常在複雜調變正交鏡相濾波器組(QMF)[10]域中執行,在下文中亦採用該複雜
調變正交鏡相濾波器組域。向上複製信號係藉由基於所傳輸參數來使該向上複製信號之量級頻譜與適合增益相乘來處理。目標將獲得與原始信號之量級頻譜類似的量級頻譜。相反地,向上複製信號之相位頻譜通常完全不處理,但實情為直接使用向上複製相位頻譜。
在下文中研究直接使用向上複製相位頻譜之感知後果。基於所觀察的效應,提議用於偵測知覺上最顯著效應的兩個度量。此外,提議如何基於該兩個度量來校正相位頻譜的方法。最後,提議用於最小化用於執行校正的所傳輸參數值之量的策略。
本發明係關於發現相位微分之保留或恢復能夠補救由音訊頻寬擴展(BWE)技術引起的顯著假影。例如,其中相位微分之保留重要的典型信號為具有多諧波泛音內容的音調,諸如有聲語音、銅管樂器或弓弦。
本發明進一步提供構件,用以決定對於給定信號框相位微分之恢復是否為知覺上有益的,及調整垂直相位微分或調整水平相位微分為知覺上較佳的。
本發明使用以下態樣教導用於使用BWE技術的音訊編解碼器中之相位微分校正之設備及方法:
1. 相位微分校正之「重要性」之量化
2. 垂直(「頻率」)相位微分校正或水平(「時間」)相位微分校正之信號相依優先化
3. 校正方向(「頻率」或「時間」)之信號相依切換
4. 用於暫態之專用垂直相位微分校正模式
5. 獲得用於平滑校正之穩定參數
6. 校正參數之緊密旁資訊傳輸格式
2 QMF域中的信號之呈現
時域信號x(m)可例如使用複雜調變正交鏡像濾波器組(QMF)在時間-頻率域中加以呈現,其中m為離散時間。所得信號為X(k,n),其中k為頻帶索引且n為時間框索引。對於視覺化及實施例採用64個頻帶之QMF及48kHz之抽樣頻率。因此,每一頻帶之頻寬f BW為375Hz,且時間跳躍大小 t 跳躍 (圖2中之17)為1.33ms。然而,處理不限於此變換。或者,可替代地使用MDCT(修改型離散餘弦轉換)或DFT(離散傅立葉變換)。
所得信號為X(k,n),其中k為頻帶索引且n為時間框索引。因此,亦可使用量級X 量級(k,n)及相位分量X 相位(k,n)來呈現該信號,其中j為複數
音訊信號主要使用X 量級(k,n)及X 相位(k,n)來呈現(參見針對兩個實例之圖1)。
圖1a展示小提琴信號之量級頻譜X 量級(k,n),其中圖1b展示對應相位頻譜X 相位(k,n),兩者皆在QMF域中。此外,圖1c展示長號信號之量級頻譜X 量級(k,n),其中圖1d在對應QMF域中再次展示對應相位頻譜。關於圖1a及圖1c中之量級頻譜,色彩漸層指示自紅色=0dB至藍色=-80dB的量級。此外,對於圖1b及圖1d中之相位頻譜,色彩漸層指示
自紅色=π至藍色=-π的相位。
3 音訊資料
用來展示所描述音訊處理之效應的音訊資料對於長號之音訊信號命名為『長號』,對於小提琴之音訊信號命名為『小提琴』,且對於中間增添有拍掌的小提琴信號命名為『小提琴+鼓掌』。
4 SBR之基本操作
圖2展示包含由時間框15及子頻帶20定義的時間頻率頻塊10(例如QMF頻格、正交鏡像濾波器組頻格)的時間頻率圖5。音訊信號可使用QMF(正交鏡像濾波器組)變換、MDCT(修改型離散餘弦變換)或DFT(離散傅立葉變換)變換成此時間頻率表示。音訊信號在時間框中之劃分可包含音訊信號之重疊部分。在圖1之下部分中,展示時間框15之單個重疊,其中最多兩個時間框同時重疊。此外,亦即,若需要更多冗餘,則亦可使用多重疊來劃分音訊信號。在多重疊演算法中,三個或三個以上時間框可包含在一定時間點處的音訊信號之相同部分。重疊之持續時間為跳躍大小 t 跳躍 17。
假定信號X(k,n),頻寬擴展(BWE)信號Z(k,n)係藉由向上複製所傳輸低頻率頻帶之某些部分來自輸入信號X(k,n)獲得。SBR演算法藉由選擇將要傳輸的頻率區開始。在此實例中,選擇自1至7的頻帶:
將要傳輸的頻帶之量取決於所要的位元速率。各
圖及方程式係使用7個頻帶產生,且將5至11個頻帶用於對應音訊資料。因此,所傳輸頻率區與較高頻帶之間的交越頻率分別自1875Hz至4125Hz。此區以上的頻帶完全不傳輸,但實情為創建參數元資料以用於描述該等頻帶。X 傳輸(k,n)經編碼且經傳輸。為簡化起見,假定即使必須看出進一步處理不限於所採用狀況,編碼亦不以任何方式修改信號。
在接收端中,將所傳輸頻率區直接用於對應頻率。
對於較高頻帶,可使用所傳輸信號以某種方式創建信號。一方法簡單地將所傳輸信號複製至較高頻率。在此使用稍微修改版本。首先,選擇基帶信號。該基帶信號可為整個所傳輸信號,但在此實施例中,省略第一頻帶。此舉之原因在於相位頻譜在許多狀況下對於第一頻帶係通知為不規則的。因此,將要向上複製的基帶被定義為
其他頻寬亦可用於所傳輸信號及基帶信號。使用基帶信號,創建用於較高頻率之原始信號Y 原始(k,n,i)=X 基帶(k,n), (4)其中Y 原始(k,n,i)為用於頻率修補i之複雜QMF信號。藉由使原始頻率修補信號與增益g(k,n,i)相乘來根據所傳輸元資料調變原始頻率修補信號Y(k,n,i)=Y 原始(k,n,i)g(k,n,i)。 (5)
應注意,增益為實值,且因此僅量級頻譜受影響
且藉此適用於所要的目標值。已知方法展示如何獲得增益。目標相位在該已知方法中保持未校正。
將要再制的最終信號係藉由序連所傳輸信號及修補信號以用於無縫地擴展頻寬以獲得所要頻寬之BWE信號來獲得。在此實施例中,假定i=7。
Z(k,n)=X 傳輸(k,n)Z(k+6i+1,n)=Y(k,n,i)。 (6)
圖3以圖解表示展示所描述之信號。圖3a展示音訊信號之示範性頻率圖,其中在十個不同子頻帶上描繪頻率之量級。前七個子頻帶反映所傳輸頻帶X 傳輸(k,n)25。基帶X 基帶(k,n)30係藉由選取第二至第七子頻帶而得自所傳輸頻帶。圖3a展示原始音訊信號,亦即,傳輸或編碼之前的音訊信號。圖3b展示在例如在中間步驟處的解碼過程期間的接收之後的音訊信號之示範性頻率表示。音訊信號之頻譜包含所傳輸頻帶25及複製至頻譜之較高子頻帶的七個基帶信號30,該等所傳輸頻帶及基帶信號形成音訊信號32,該音訊信號包含比基帶中之頻率較高的頻率。完整的基帶信號亦被稱為頻率修補。圖3c展示重建音訊信號Z(k,n)35。與圖3b相比,使基帶信號之修補單獨乘以增益因數。因此,音訊信號之頻譜包含主頻譜25及若干量級校正後修補Y(k,n,1)40。此修補方法被稱為直接向上複製修補。儘管本發明不限於此修補演算法,將直接向上複製修補示範性地用來描述本發明。可使用的又一修補演算法為例如諧波修
補演算法。
假定較高頻帶之參數表示為理想的,亦即,重建信號之量級頻譜與原始信號之量級頻譜相同Z 量級(k,n)=X 量級(k,n)。 (7)
然而,應注意,相位頻譜並未藉由該演算法以任何方式校正,因此即使演算法極佳地工作該相位頻譜亦為不正確的。因此,實施例展示如何將Z(k,n)之相位頻譜另外調適且校正至目標值,使得獲得感知品質之改良。在實施例中,可使用三個不同處理模式,亦即,「水平」、「垂直」及「暫態」來執行校正。在下文中單獨地論述此等模式。
Z 量級(k,n)及Z 相位(k,n)針對小提琴及長號信號描繪於圖4中。圖4展示使用具有直接向上複製修補的頻譜頻寬複製(SBR)的重建音訊信號35之示範性頻譜。小提琴之量級頻譜Z 量級(k,n)展示於圖4a中,其中圖4b展示對應相位頻譜Z 相位(k,n)。圖4c及圖4d展示用於長號信號之對應頻譜。所有信號呈現於QMF域中。如已在圖1中所見,色彩漸層指示自紅色=0dB至藍色=80dB的量級及自紅色=π至藍色=-π的相位。可看出,該等信號之相位頻譜不同於原始信號之頻譜(參見圖1)。由於SBR,小提琴經感知為含有不諧和性,且長號經感知為含有在交越頻率下的調變雜訊。然而,相位圖看起來相當隨機,且實在難以說明該等相位圖如何不同及差異之感知效應為何。此外,發送用於此種類的隨機資料之校正資料在需要低位元速率的編碼應用程式中為不可
行的。因此,需要理解相位頻譜之感知效應及找到用於描述該等感知效應之度量。在以下章節中論述此等主題。
5 QMF域中的相位頻譜之意義
通常認為頻帶之索引定義單個音調分量之頻率,量級定義單個音調分量之位準,且相位定義單個音調分量之『定時』。然而,QMF頻帶之頻寬為相對大的,且資料經過抽樣。因此,時間-頻率頻塊(亦即,QMF頻格)之間的相互作用實際上定義所有此等性質。
具有三個不同相位值,亦即,X 量級(3,1)=1且X 相位(3,1)=0、π/2或π的單個QMF頻格之時域表示描繪於圖5中。結果為具有13.3ms之長度的類辛克函數(sinc-like function)。函數之精確形狀由相位參數定義。
考慮對於所有時間框僅一頻帶係非零的狀況,亦即,
藉由以固定值α在時間框之間改變相位,亦即,X 相位(k,n)=X 相位(k,n-1)+α, (9)創建正弦曲線。所得信號(亦即,逆QMF變換後的時域信號)在具有α=π/4(頂部)及3π/4(底部)之值的情況下呈現於圖6中。可看出,正弦曲線之頻率肥實相位變化影響。頻域展示於右側,其中信號之時域展示於圖6之左側。
相應地,若隨機選擇相位,則結果為窄帶雜訊(參見圖7)。因此,可以說QMF頻格之相位控制對應頻帶內部的頻率內容。
圖8在四個時間框及四個頻率子頻帶之時間頻率表示中展示關於圖6所描述之效應,其中僅第三子頻帶包含不同於零的頻率。此導致來自圖6的示意性地呈現在圖8之右側的頻域信號,且導致圖6之示意性地呈現在圖8之底部的時域表示。
考慮對於所有頻帶僅一時間框係非零的狀況,亦即,
藉由以固定值α在頻帶之間改變相位,亦即X 相位(k,n)=X 相位(k-1,n)+α, (11)
創建暫態。所得信號(亦即,逆QMF變換後的時域信號)在具有α=π/4(頂部)及3π/4(底部)之值的情況下呈現於圖9中。可看出,暫態之時間位置受相位變化影響。頻域展示於圖9之右側,其中信號之時域展示於圖9之左側。
相應地,若隨機選擇相位,則結果為短雜訊猝發(參見圖10)。因此,可以說QMF頻格之相位亦控制對應時間框內部的諧波之時間位置。
圖11展示類似於圖8中所示之時間頻率圖的時間頻率圖。在圖11中,僅第三時間框包含不同於零的值,具有自一子頻帶至另一子頻帶的π/4的時間遷移。變換成頻域,獲得來自圖9之右側的頻域信號,該頻域信號示意性地呈現於圖11之右側。圖9左部分之時域表示的示意圖展示在圖11之底部。此信號藉由將時間頻率域變換成時域信號來得出。
6 用於描述相位頻譜之知覺上相關的性質之量測
如第4章中所論述,相位頻譜本質上看起來相當混亂,且難以直接看出相位頻譜對知覺的效應為何。第5章呈現可由操縱QMF域中的相位頻譜引起的兩個效應:(a)時間上的恆定相位變化產生正弦曲線且相位變化之量控制正弦曲線之頻率,及(b)頻率上的恆定相位變化產生暫態且相位變化之量控制暫態之時間位置。
分音之頻率及時間位置對於人類感知為明顯顯著的,因此偵測此等性質為潛在有用的。可藉由計算時間上的相位微分(PDT)及藉由計算頻率上的相位微分(PDF)來估計該等性質X pdt(k,n)=X 相位(k,n+1)-X 相位(k,n) (12)
X pdf(k,n)=X 相位(k+1,n)-X 相位(k,n)。 (13)
X pdt(k,n)與頻率有關且X pdf(k,n)與分音之時間位置有關。由於QMF分析之性質(鄰接時間框之調變器之相位在暫態之位置處如何匹配),將π增添至圖中的X pdf(k,n)之平均埋單框,以用於視覺化目的以便產生平滑曲線。
接著,檢驗此等量測對於示例性信號看起起來如何。圖12展示用於小提琴及長號信號之微分。更具體而言,圖12a展示QMF域中之原始(亦即,未處理)小提琴音訊信號之時間上的相位微分X pdt(k,n)。圖12b展示對應頻率上的相位微分X pdf(k,n)。圖12c及圖12d分別展示用於長號信號之時間上的相位微分及頻率上的相位微分。色彩漸層指示自紅色=π至藍色=-π的相位值。對於小提琴,量級頻譜基本上為雜
訊,直至約0.13秒為止(參見圖1),且因此微分亦為雜訊。自約0.13秒開始,X pdt似乎隨時間推移具有相對穩定的值。此將意味信號含有強烈的、相對穩定的正弦曲線。此等正弦曲線之頻率藉由X pdt值決定。相反地,X pdf圖似乎為相對有雜訊的,因此未發現相關資料以用於小提琴使用該資料。
對於長號,X pdt為相對有雜訊的。相反地,X pdf似乎在所有頻率處具有約相同的值。實際上,此意味所有諧波分量在時間上對準,從而產生暫態類信號。暫態之時間位置藉由X pdf值決定。
亦可針對SBR處理後信號Z(k,n)計算相同微分(參見圖13)。圖13a至圖13d與圖12a至圖12d直接有關,藉由使用先前所描述之直接向上複製SBR演算法得出。因為相位頻譜係簡單地自基帶複製至較高修補,所以頻率修補之PDT與基帶之PDT相同。因此,對於小提琴,PDT隨時間推移為相對平滑的,從而產生穩定正弦曲線,如在原始信號之狀況下。然而,Z pdt之值不同於原始信號X pdt之情況下的該等值,此狀況使所產生正弦曲線具有相較於原始信號中的不同頻率。在第7章中論述此狀況之感知效應。
相應地,頻率修補之PDF另外與基帶之PDF相同,但在交越頻率處,PDF實際上為隨機的。在交越處,PDF實際上計算為介於頻率修補之最後相位值與第一相位值之間,亦即,Z pdt(7,n)=Z 相位(8,n)-Z 相位(7,n)=Y 相位(1,n,i)-Y 相位(6,n,i) (14)
此等值取決於實際PDF及交越頻率,且該等值不
與原始信號之值匹配。
對於長號,除交越頻率之外,向上複製信號之PDF值為正確的。因此,大部分諧波之時間位置在正確地方,但在交越頻率處的諧波事實上在隨機位置處。第7章中論述此狀況之感知效應。
7 相位誤差之人類感知
聲音可大致上分為兩個種類:諧波及雜訊類信號。雜訊類信號已藉由定義具有雜訊相位性質。因此,假定由SBR引起的相位誤差在具有相位誤差的情況下並非知覺上顯著的。實情為,集中於諧波信號。大多數樂器以及語音對信號產生諧波結構,亦即,音調含有在頻率方面由基本頻率間隔的強正弦分量。
通常假定人類聽力表現為似乎人類聽力含有被稱為聽覺濾波器的重疊帶通濾波器之組。因此,可採用聽力來處理複雜聲音,使得聽覺濾波器內部的分音聲音經分析為一個實體。此等濾波器之寬度可近似遵循等效矩形頻寬(ERB)[11],該等效矩形頻寬可根據以下方程式決定:ERB=24.7(4.37 f c +1), (15)其中f c 為頻帶之中心頻率(以kHz為單位)。如第4章中所論述,基帶與SBR修補之間的交越頻率為約3kHz。在此等頻率處,ERB為約350Hz。QMF頻帶之頻寬實際上相對接近於此ERB,為375Hz。因此,可假定QMF頻帶之頻寬在感興趣的頻率處遵循ERB。
在第6章中觀察可由於錯誤的相位頻譜而出錯的
聲音之兩個性質:分音分量之頻率及定時。集中於頻率,問題為,人類聽力可感知單獨諧波之頻率嗎?若人類聽力可以,則應校正SBR引起的頻率偏移,且若人類聽力不可以,則不需要校正。
分解及未分解諧波[12]之概念可用來闡明此主題。若在ERB內部存在僅一個諧波,則諧波稱為分解的。通常假定人類聽力單獨地處理分解諧波,且因此對分解諧波之頻率敏感。實際上,改變分解諧波之頻率經感知為引起不諧和性。
相應地,若在ERB內部存在多個諧波,則諧波稱為未分解的。假定人類聽力並不單獨地處理此等諧波,但實情為,該等諧波之共同努力由聽覺系統感覺到。結果為週期信號,且週期之長度係由諧波之間隔決定。音高感知與週期之長度有關,因此假定人類聽力對週期之長度敏感。然而,若使SBR中的頻率修補內部之所有諧波移位相同量,則諧波之間的間隔及因此所感知音高保持相同。因此,在未分解諧波之狀況下,人類聽力並不將頻率偏移感知為不諧和性。
接著考慮由SBR引起的定時有關的誤差。藉由定時,意味著諧波分量之時間位置或相位。此不應與QMF頻格之相位混淆。在[13]中詳細研究了定時有關的誤差之感知。觀察到,對於大多數信號而言,人類聽力對諧波分量之定時或相位不敏感。然而,存在人類聽力藉以對分音之定時極其敏感的某些信號。該等信號包括例如長號及小號
聲音及語音。使用此等信號,某一相位角在與所有諧波相同的時間瞬時處發生。在[13]中模擬不同聽覺頻帶之神經引發速率。發現,使用此等相位敏感的信號,所產生神經引發速率在所有聽覺頻帶處為有尖峰的,且尖峰在時間方面對準。改變甚至一單諧波之相位可改變此等信號之情況下的神經引發速率之峰度。根據正式的聽聞試驗之結果,人類聽力對於此為敏感的[13]。所產生效應為在相位經修改的頻率處增添的正弦分量或窄帶雜訊之感知。
另外,發現,對定時有關的效應的敏感性取決於和聲音之基本頻率[13]。基本頻率愈低,所感知效應愈大。若基本頻率超過約800Hz,則聽覺系統對於定時有關的效應完全不敏感。
因此,若基本頻率為低的,且若諧波之相位在頻率上對準(此意味,諧波之時間位置對準),則諧波之定時或換言之相位方面的變化可由人類聽力感知。若基本頻率為高的及/或諧波之相位在頻率上未對準,則人類聽力對諧波之定時方面的變化不敏感。
8 校正方法
在第7章中,注意到,人類對分解的諧波之頻率中之誤差敏感。另外,若基本頻率為低的,且若諧波在頻率上對準,則人類對諧波之時間位置中之誤差敏感。SBR可引起此等誤差中兩者,如第6章中所論述,因此可藉由校正該等誤差來改良所感知品質。在本章節中提議用於如此進行的方法。
圖14示意性地例示校正方法之基本思想。圖14a在單位圓中示意性地展示例如後續時間框或頻率子頻帶之四個相位45a-d。相位45a-d藉由90°相等地間隔。圖14b展示SBR處理之後的相位且以虛線展示校正後相位。處理之前的相位45a可移位至相位角45a’。相同情況適用於相位45b至45d。可表明,可在SBR處理之後破壞處理(亦即相位微分)後的相位之間的差異。例如,相位45a’與相位45b’之間的差異在SBR處理之後為110°,在處理之前為90°。校正方法將使相位值45b’改變至新相位值45b"以擷取90°之舊相位微分。將相同校正施加於相位45d’及45d"。
8.1 校正頻率誤差--水平相位微分校正
如第7章中所論述,人類主要在一ERB內部存在僅一個諧波時可感知諧波之頻率中之誤差。此外,QMF頻帶之頻寬可用來估計在第一交越處的ERB。因此,頻率僅在一頻帶內部存在一個諧波時必須經校正。此為極其便利的,因為第5章表明,若存在每頻帶一個諧波,則所產生PDT值為穩定的,或隨時間推移緩慢地改變,且可潛伏地使用低位元速率來校正。
圖15展示用於處理音訊信號55之音訊處理器50。音訊處理器50包含音訊信號相位量測計算器60、目標相位量測決定器65及相位校正器70。音訊信號相位量測計算器60經組配以用於計算用於時間框75之音訊信號55之相位量測80。目標相位量測決定器65經組配以用於決定用於該時間框75之目標相位量測85。此外,相位校正器經組配
以用於使用所計算相位量測80及目標相位量測85來校正用於時間框75之音訊信號55之相位45,以獲得處理後音訊信號90。選擇性地,音訊信號55包含用於時間框75之多個子頻帶信號95。音訊處理器50之進一步實施例關於圖16予以描述。根據一實施例,目標相位量測決定器65經組配用於決定用於第二子頻帶信號95b之第一目標相位量測85a及第二目標相位量測85b。因此,音訊信號相位量測計算器60經組配以用於決定用於第一子頻帶信號95a之第一相位量測80a及用於第二子頻帶信號95b之第二相位量測80b。相位校正器經組配以用於使用音訊信號55之第一相位量測80a及第一目標相位量測85a來校正第一子頻帶信號95a之相位45a,且使用音訊信號55之第二相位量測80b及第二目標相位量測85b來校正第二子頻帶信號95b之第二相位45b。此外,音訊處理器50包含音訊信號合成器100,該音訊信號合成器用於使用處理後第一子頻帶信號95a及處理後第二子頻帶信號95b來合成處理後音訊信號90。根據進一步實施例,相位量測80為時間上的相位微分。因此,音訊信號相位量測計算器60可針對多個子頻帶中每一子頻帶95計算當前時間框75b之相位值45及未來時間框75c之相位值。因此,相位校正器70可針對當前時間框75b之該等多個子頻帶中每一子頻帶95計算目標相位微分85與時間上的相位微分80之間的偏差,其中藉由相位校正器70執行的校正係使用該偏差來執行。
實施例展示相位校正器70經組配以用於校正時
間框75內的音訊信號55之不同子頻帶之子頻帶信號95,使得校正後子頻帶信號95之頻率具有和諧地分配給音訊信號55之基本頻率的頻率值基本頻率為存在於音訊信號55中的最低頻率,或換言之為音訊信號55之第一諧波。
此外,相位校正器70經組配以用於平滑該等多個子頻帶中每一子頻帶95在先前時間框75a、當前時間框75b及未來時間框75c上的偏差105,且經組配以用於減少子頻帶95內的偏差105之急劇變化。根據進一步實施例,平滑為加權平均,其中相位校正器70經組配以用於計算先前時間框75a、當前時間框75b及未來時間框75c上的加權平均值,該加權平均值係藉由先前時間框75a、當前時間框75b及未來時間框75c中之音訊信號55之量級來加權。
實施例表明先前所描述之處理步驟係基於向量的。因此,相位校正器70經組配以用於形成偏差105之向量,其中向量之第一元素代表用於該等多個子頻帶中第一子頻帶95a之第一偏差105a,且向量之第二元素代表用於自先前時間框75a至當前時間框75b的該等多個子頻帶中第二子頻帶95b之第二偏差105b。此外,相位校正器70可將偏差105之向量施加於音訊信號55之相位45,其中將向量之第一元素施加於音訊信號55之多個子頻帶中第一子頻帶95a中的音訊信號55之相位45a,且將向量之第二元素施加於音訊信號55之該等多個子頻帶中第二子頻帶95b中的音訊信號55之相位45b。
自另一觀點,可以說音訊處理器50中的全部處理
係基於向量的,其中每一向量表示時間框75,其中該等多個子頻帶中每一子頻帶95包含向量之元素。進一步實施例集中論述目標相位量測決定器,該目標相位量測決定器經組配以用於獲得用於當前時間框75b之基本頻率估計85b,其中目標相位量測決定器65經組配以用於使用用於時間框75之基本頻率估計85來計算用於時間框75之該等多個子頻帶中每一子頻帶之頻率估計85。此外,目標相位量測決定器65可使用子頻帶95之總數及音訊信號55之抽樣頻率來將用於該等多個子頻帶中每一子頻帶95之頻率估計85轉換成時間上的相位微分。為達闡明,必須注意,目標相位量測決定器65之輸出85可為頻率估計或時間上的相位微分,此取決於實施例。因此,在一實施例中,頻率估計已包含用於進一步在相位校正器70中處理的正確格式,其中在另一實施例中,頻率估計必須經轉換成適合格式,該適合格式可為時間上的相位微分。
因此,目標相位量測決定器65亦可視為基於向量的。因此,目標相位量測決定器65可形成用於該等多個子頻帶中每一子頻帶95之頻率估計85之向量,其中向量之第一元素代表用於第一子頻帶95a之頻率估計85a,且向量之第二元素代表用於第二子頻帶95b之頻率估計85b。另外,目標相位量測決定器65可使用基本頻率之倍數來計算頻率估計85,其中當前子頻帶95之頻率估計85為最接近於子頻帶95之中心的基本頻率之該倍數,或其中若基本頻率之倍數中無一者在當前子頻帶95內,則當前子頻帶之頻率估計
85為當前子頻帶95之邊界頻率。
換言之,用於使用音訊處理器50來校正諧波之頻率中的誤差之所提議演算法作用如下。首先,PDT經計算且為SBR處理後信號Z pdt。Z pdt(k,n)=Z 相位(k,n+1)-Z 相位(k,n)。接著計算該PDT與用於水平校正之目標PDT之間的差異:
此刻,目標PDT可假定為等於輸入信號之輸入之PDT
稍後,將呈現可如何使用低位元速率來獲得目標PDT。
使用韓恩視窗(Hann window)W(l)來在時間上平滑此值(亦即誤差值105)。適合長度為例如QMF域中之41個樣本(對應於55ms之間隔)。平滑係藉由對應時間-頻率頻塊之量級來加權
其中circmeam{a,b}表示計算用於藉由值b加權的角度值a的角度平均。PDT(k,n)中的平滑誤差針對使用直接向上複製SBR的QMF域中之小提琴信號描繪於圖17中。色彩漸層指示自紅色=π至藍色=-π的相位值。
接著,創建調變器矩陣以用於修改相位頻譜以便獲得所要的PDT
使用此矩陣處理相位頻譜
圖18a展示用於校正後SBR之QMF域中之小提琴信號之時間上的相位微分(PDT)(k,n)中之誤差。圖18b展示對應時間上的相位微分(k,n),其中圖18a中所示之PDT中之誤差係藉由將圖12a中所呈現之結果與圖18b中所呈現之結果進行比較來得出。再次,色彩漸層指示自紅色=π至藍色=-π的相位值。PDT係針對校正後相位頻譜(k,n)加以計算(參見圖18b)。可看出,校正後相位頻譜之PDT很好地提醒原始信號之PDT(參見圖12),且誤差對於含有顯著能量的時間-頻率頻塊為小的(參見圖18a)。可注意到,非校正SBR資料之不諧和性大量消失。此外,演算法似乎不引起顯著假影。
使用X pdt(k,n)作為目標PDT,可能傳輸用於每一時間-頻率頻塊之PDT誤差值(k,n)。在第9章中展示計算目標PDT使得降低用於傳輸之頻寬的又一方法。
在進一步實施例中,音訊處理器50可為解碼器110之部分。因此,用於解碼音訊信號55之解碼器110可包含音訊處理器50、核心解碼器115及修補器(patcher)120。核心解碼器115經組配以用於核心解碼時間框75中具有相關於音訊信號55的降低數目之子頻帶的音訊信號25。修補器
修補具有降低數目之子頻帶的核心解碼後音訊信號25之子頻帶95之集合,其中子頻帶之集合形成對時間框75中鄰接於降低數目之子頻帶的進一步子頻帶之第一修補30a,以獲得具有規則數目之子頻帶的音訊信號55。另外,音訊處理器50經組配以用於根據目標函數85來校正第一修補30a之子頻帶內的相位45。音訊處理器50及音訊信號55已關於圖15及圖16予以描述,在圖15及圖16中解釋了圖19中未描繪之參考符號。根據該等實施例之音訊處理器執行相位校正。取決於實施例,音訊處理器可進一步包含藉由將BWE或SBR參數施加於修補的頻寬擴展參數施加器(applicator)125進行的音訊信號之量級校正。此外,音訊處理器可包含用於組合(亦即合成)音訊信號之子頻帶以獲得規則音訊檔案之合成器100,例如,合成濾波器組。
根據進一步實施例,修補器120經組配以用於修補音訊信號25之子頻帶95之集合,其中子頻帶之集合形成對時間框之鄰接於第一修補的進一步子頻帶之第二修補,且其中音訊處理器50經組配以用於校正第二修補之子頻帶內的相位45。替代地,修補器120經組配以用於修補對時間框之鄰接於第一修補的進一步子頻帶之校正後第一修補。
換言之,在第一選項中,修補器自音訊信號之所傳輸部分構建具有規則數目之子頻帶的音訊信號,且隨後校正音訊信號之每一修補之相位。第二選項首先相關於音訊信號之所傳輸部分校正第一修補之相位,且隨後使用已校正後第一修補來構建具有規則數目之子頻帶的音訊信
號。
進一步實施例展示解碼器110,該解碼器包含資料串流擷取器130,該資料串流擷取器經組配以用於自資料串流135擷取音訊信號55之當前時間框75之基本頻率114,其中資料串流進一步包含具有降低數目之子頻帶的編碼後音訊信號145。替代地,解碼器可包含基本頻率分析器150,該基本頻率分析器經組配以用於分析核心解碼後音訊信號25,以便計算基本頻率140。換言之,用於得出基本頻率140之選項為例如在解碼器中或在編碼器中分析音訊信號,其中在於編碼器中分析音訊信號之狀況下,基本頻率可以較高資料速率為代價而更加準確,因為值必須自編碼器傳輸至解碼器。
圖20展示用於編碼音訊信號55之編碼器155。編碼器包含核心編碼器160,該核心編碼器用於核心編碼音訊信號55以獲得具有相關於音訊信號的降低數目之子頻帶的核心編碼後音訊信號145,且編碼器包含基本頻率分析器175,該基本頻率分析器用於分析音訊信號55或音訊信號55之低通濾波版本以用於獲得音訊信號之基本頻率估計。此外,編碼器包含參數擷取器165,該參數擷取器用於擷取音訊信號55之未包括在核心編碼後音訊信號145中的子頻帶之參數,且編碼器包含輸出信號形成器170,該輸出信號形成器用於形成輸出信號135,該輸出信號包含核心編碼後音訊信號145、參數及基本頻率估計。在此實施例中,編碼器155可包含在核心解碼器160前面的低通濾波器及在參數擷
取器165前面的高通濾波器185。根據進一步實施例,輸出信號形成器170經組配以用於形成輸出信號135至框序列中,其中每一框包含核心編碼後信號145、參數190,且其中僅每一第n框包含基本頻率估計140,其中n2。在實施例中,核心編碼器160可為例如AAC(先進音訊編碼)編碼器。
在一替代性實施例中,可將智慧型間隙填充編碼器用於編碼音訊信號55。因此,核心編碼器編碼全頻寬音訊信號,其中省去音訊信號之至少一子頻帶。因此,參數擷取器165擷取用於重建自核心編碼器160之編碼過程省去的子頻帶之參數。
圖21展示輸出信號135之示意圖。輸出信號為音訊信號,該音訊信號包含具有相關於原始音訊信號55的降低數目之子頻帶的核心編碼後音訊信號145、表示音訊信號之未包括在核心編碼後音訊信號145中的子頻帶的參數190,及音訊信號135或原始音訊信號55之基本頻率估計140。
圖22展示音訊信號135之一實施例,其中音訊信號係形成為框序列195,其中每一框195包含核心編碼後音訊信號145、參數190,且其中僅每一第n框195包含基本頻率估計140,其中n2。此可描述用於例如每一第二十框之等間隔基本頻率估計傳輸,或其中基本頻率估計例如按需要或有目的地不規則地傳輸。
圖23展示用於處理音訊信號之方法2300,其中步驟2305「以音訊信號相位微分計算器計算用於時間框之音
訊信號之相位量測」,步驟2310「以目標相位微分決定器決定用於該時間框之目標相位量測」,且步驟2315「使用計算相位量測及目標相位量測來以相位校正器校正用於時間框之音訊信號之相位,以獲得處理後音訊信號」。
圖24展示用於解碼音訊信號之方法2400,其中步驟2405「解碼具有相關於音訊信號的降低數目之子頻帶的時間框中之音訊信號」,步驟2410「修補具有降低數目之子頻帶的解碼後音訊信號之子頻帶之集合,其中子頻帶之集合形成對時間框中鄰接於降低數目之子頻帶的進一步子頻帶之第一修補,以獲得具有規則數目之子頻帶的音訊信號」,且步驟2415「以音訊處理根據目標函數來校正第一修補之子頻帶內的相位」。
圖25展示用於編碼音訊信號之方法2500,其中步驟2505「以核心編碼器核心編碼音訊信號,以獲得具有相關於音訊信號的降低數目之子頻帶的核心編碼後音訊信號」,步驟2510「以基本頻率分析器分析音訊信號或音訊信號之低通濾波版本,以用於獲得用於音訊信號之基本頻率估計」,步驟2515「以參數擷取器擷取音訊信號之未包括在核心編碼後音訊信號中的子頻帶之參數」,且步驟2520「以輸出信號形成器形成輸出信號,該輸出信號包含核心編碼後音訊信號、參數及基本頻率估計」。
所描述之方法2300、2400及2500可實行於電腦程式之程式碼中,當電腦程式在電腦上運行時,電腦程式用於執行該等方法。
8.2 校正時間誤差--垂直相位微分校正
如先前所論述,若諧波在頻率上同步且若基本頻率為低的,則人類可感知諧波之時間位置中的誤差。在第5章中,表明若頻率上的相位微分在QMF域中為恆定的,則諧波同步。因此,在每一頻帶中具有至少一諧波為有利的。否則,「空」頻帶將具有隨機相位且將干擾此量測。幸運地,人類僅在基本頻率為低時對諧波之時間位置敏感(參見第7章)。因此,可將頻率上的相位微分用作用於決定歸因於諧波之時間移動的感知上顯著的效應的量測。
圖26展示用於處理音訊信號55之音訊處理器50’的示意性方塊圖,其中音訊處理器50’包含目標相位量測決定器65’、相位誤差計算器200及相位校正器70’。目標相位量測決定器65’決定用於時間框75中之音訊信號55之目標相位量測85’。相位誤差計算器200使用時間框75中之音訊信號55之相位及目標相位量測85’來計算相位誤差105’。相位校正器70’使用相位誤差105’來校正時間框中之音訊信號55之相位,從而形成處理後音訊信號90’。
圖27展示根據又一實施例之音訊處理器50’的示意性方塊圖。因此,音訊信號55包含用於時間框75之多個子頻帶95。因此,目標相位量測決定器65’經組配以用於決定用於第一子頻帶信號95a之第一目標相位量測85a’及用於第二子頻帶信號95b之第二目標相位量測85b’。相位誤差計算器200形成相位誤差105’之向量,其中向量之第一元素代表第一子頻帶信號95之相位及第一目標相位量測85a’之第
一偏差105a’,且其中向量之第二元素代表第二子頻帶信號95b之相位及第二目標相位量測85b’之第二偏差105b’。此外,音訊處理器50’包含音訊信號合成器100,該音訊信號合成器用於使用校正後第一子頻帶信號90a’及校正後第二子頻帶信號90b’來合成校正後音訊信號90’。
關於進一步實施例,該等多個子頻帶95分組成基帶30及頻率修補之集合40,基帶30包含音訊信號55之一子頻帶95,且頻率修補之集合40包含在高於基帶中之至少一子頻帶之頻率的頻率處的基帶30之至少一子頻帶95。必須注意到,音訊信號之修補已經關於圖3予以描述,且因此在描述之此部分中將不詳細描述。必須提及的是,頻率修補40可為複製至乘以增益因數的較高頻率的原始基帶信號,其中可施加相位校正。此外,根據一較佳實施例,增益之相乘及相位校正可經交換,使得在乘以增益因數之前將原始基帶信號之相位複製至較高頻率。實施例進一步展示相位誤差計算器200,該相位誤差計算器計算代表頻率修補之集合40之第一修補40a的相位誤差105’之向量之元素的平均值以獲得平均相位誤差105"。此外,展示音訊信號相位微分計算器210,該音訊信號相位微分計算器用於計算用於基帶30之頻率上的相位微分215之平均值。
圖28a在方塊圖中展示相位校正器70’之更詳細描述。在圖28a之頂部的相位校正器70’經組配以用於校正頻率修補之集合之第一及後續頻率修補40中的子頻帶信號95之相位。在圖28a之實施例中,例示子頻帶95c及95d屬於
修補40a,且子頻帶95e及95f屬於頻率修補40b。使用加權平均相位誤差來校正相位,其中平均相位誤差105係根據頻率修補40之索引加權以獲得修改後修補信號40’。
又一實施例描繪於圖28a之底部。在相位校正器70’之左上角中,展示用於自修補40及平均相位誤差105"獲得修改後修補信號40’的已描述之實施例。此外,相位校正器70’藉由將由當前子頻帶索引加權的頻率上的相位微分215之平均值加至具有音訊信號55之基帶30中之最高子頻帶索引的子頻帶信號之相位,來在初始化步驟中計算具有最佳化第一頻率修補的又一修改後修補信號40"。對於此初始化步驟,開關220a處於其左側位置中。對於任何進一步處理步驟,開關將處於形成垂直導向連接的另一位置中。
在又一實施例中,音訊信號相位微分計算器210經組配以用於計算包含相較於基帶信號30的較高頻率的多個子頻帶信號之頻率上的相位微分215之平均值,以偵測子頻帶信號95中之暫態。必須注意到,暫態校正類似於音訊處理器50’之垂直相位校正,差異在於基帶30中之頻率不反映暫態之較高頻率。因此,對於暫態之相位校正而言必須考慮此等頻率。
在初始化步驟之後,相位校正70’經組配以用於藉由將藉由當前子頻帶95之子頻帶索引加權的頻率上的相位微分215之平均值加至具有先前頻率修補中之最高子頻帶索引的子頻帶信號之相位,來基於頻率修補40遞迴地更新又一修改後修補信號40"。較佳實施例為先前所描述之實
施例之組合,其中相位校正器70’計算修改後修補信號40’及又一修改後修補信號40”之加權平均值以獲得組合修改後修補信號40'''。因此,相位校正器70’藉由將由當前子頻帶95之子頻帶索引加權的頻率上的相位微分215之平均值加至具有組合修改後修補信號40'''之先前頻率修補中的最高子頻帶索引的子頻帶信號之相位,來基於頻率修補40遞迴地更新組合修改後修補信號40'''。為獲得組合修改後修補40a'''、40b'''等,在每一遞迴之後將開關220b移位至下一位置,開始於用於初始化步驟之組合修改後48''',在第一遞迴之後切換至組合修改後修補40b'''等等。
此外,相位校正器70’可使用以第一特定加權函數加權的當前頻率修補中之修補信號40’之角度平均值及以第二特定加權函數加權的當前頻率修補中之修改後修補信號40”來計算修補信號40’及修改後修補信號40”之加權平均值。
為提供音訊處理器50與音訊處理器50’之間的互操作性,相位校正器70’可形成相位偏差之向量,其中相位偏差係使用組合修改後修補信號40'''及音訊信號55來計算。
圖28b自另一觀點例示相位校正之步驟。對於第一時間框75a,藉由將第一相位校正模式施加於音訊信號55之修補上來得出修補信號40’。修補信號40’在第二校正模式之初始化步驟中用來獲得修改後修補信號40”。修補信號40’及修改後修補信號40”之組合導致組合修改後修補信號
40'''。
因此將第二校正模式施加於組合修改後修補信號40'''上以獲得用於第二時間框75b之修改後修補信號40”。另外,將第一校正模式施加於第二時間框75b中的音訊信號55之修補以獲得修補信號40’。再次,修補信號40’及修改後修補信號40”之組合導致組合修改後修補信號40'''。據此,將針對第二時間框所描述之處理方案施加於第三時間框75c及音訊信號55之任何進一步時間框。
圖29展示目標相位量測決定器65’之詳細方塊圖。根據一實施例,目標相位量測決定器65’包含資料串流擷取器130’,該資料串流擷取器用於自資料串流135擷取音訊信號55之當前時間框中的尖峰位置230及尖峰位置之基本頻率235。或者,目標相位量測決定器65’包含音訊信號分析器225,該音訊信號分析器分析當前時間框中的音訊信號55以計算當前時間框中的尖峰位置230及尖峰位置之基本頻率235。另外,目標相位量測決定器包含目標頻譜產生器240,該目標頻譜產生器用於使用尖峰位置230及尖峰位置之基本頻率235來估計當前時間框中的進一步尖峰位置。
圖30例示圖29中所描述之目標頻譜產生器240之細節方塊圖。目標頻譜產生器240包含用於隨時間推移產生脈波列265的尖峰產生器245。信號形成器250根據尖峰位置之基本頻率235來調整脈波列之頻率。此外,脈波定位器255根據尖峰位置230來調整脈波列265之相位。換言之,信號形成器250改變脈波列265之隨機頻率之形式,使得脈波列
之頻率等於音訊信號55之尖峰位置之基本頻率。此外,脈波定位器255使脈波列之相位移位,使得脈波列之尖峰之一等於尖峰位置230。此後,頻譜分析器260產生調整後脈波列之相位頻譜,其中時域信號之相位頻譜為目標相位量測85’。
圖31展示用於解碼音訊信號55之解碼器110’的示意性方塊圖。解碼器110包含經組配以用於解碼基帶之時間框中的音訊信號25的核心解碼115,及用於修補解碼後基帶之子頻帶95之集合的修補器120,其中子頻帶之集合形成對時間框中鄰接於基帶的進一步子頻帶之修補,以獲得音訊信號32,該音訊信號包含比基帶中之頻率較高的頻率。此外,解碼器110’包含音訊處理器50’,該音訊處理器用於根據目標相位量測來校正修補之子頻帶之相位。
根據又一實施例,修補器120經組配以用於修補音訊信號25之子頻帶95之集合,其中子頻帶之集合形成對時間框之鄰接於修補的進一步子頻帶之又一修補,且其中音訊處理器50’經組配以用於校正又一修補之子頻帶內的相位。替代地,修補器120經組配以用於修補對時間框之鄰接於修補的進一步子頻帶之校正後修補。
又一實施例係關於用於解碼包含暫態的音訊信號之解碼器,其中音訊處理器50’經組配以校正暫態之相位。換言之,在第8.4章中描述暫態處置。因此,解碼器110包含又一音訊處理器50’,該音訊處理器用於接收頻率之又一相位微分且使用所接收的相位微分或頻率來校正音訊信
號32中的暫態。此外,必須注意到,圖31之解碼器110’類似於圖19之解碼器110,使得關於主要元件之描述在不涉及音訊處理器50及50’中之差異的該等狀況下係彼此可互換的。
圖32展示用於編碼音訊信號55之編碼器155’。編碼器155’包含核心編碼器160、基本頻率分析器175’、參數擷取器165及輸出信號形成器170。核心編碼器160經組配以用於核心編碼音訊信號55,以獲得具有相關於音訊信號55的降低數目之子頻帶的核心編碼後音訊信號145。基本頻率分析器175’分析音訊信號55中的尖峰位置230或音訊信號之低通濾波版本,以用於獲得音訊信號中的尖峰位置之基本頻率估計235。此外,參數擷取器165擷取音訊信號55之未包括在核心編碼後音訊信號145中的子頻帶之參數190,且輸出信號形成器170形成輸出信號135,該輸出信號包含核心編碼後音訊信號145、參數190、尖峰位置之基本頻率235及尖峰位置230中之一尖峰位置。根據實施例,輸出信號形成器170經組配以將輸出信號135形成為框序列,其中每一框包含核心編碼後音訊信號145、參數190,且其中僅每一第n框包含尖峰位置之基本頻率估計235及尖峰位置230,其中n2。
圖33展示音訊信號135之一實施例,該音訊信號包含包括相關於原始音訊信號55的降低數目之子頻帶的核心編碼後音訊信號145、表示音訊信號之未包括在核心編碼後音訊信號中的子頻帶的參數190、尖峰位置之基本頻率估
計235及音訊信號55之尖峰位置估計230。替代地,音訊信號135經形成為框序列,其中每一框包含核心編碼後音訊信號145、參數190,且其中僅每一第n框包含尖峰位置之基本頻率估計235及尖峰位置230,其中n2。已關於圖22描述了該思想。
圖34展示用於以音訊處理器處理音訊信號之方法3400。方法3400包含步驟3405「以目標相位量測決定用於時間框中的音訊信號之目標相位量測」、步驟3410「使用時間框中的音訊信號之相位及目標相位量測來以相位誤差計算器計算相位誤差」,及步驟3415「使用相位誤差來以相位校正校正時間框中的音訊信號之相位」。
圖35展示用於以解碼器解碼音訊信號之方法3500。方法3500包含步驟3505「以核心解碼器解碼基帶之時間框中的音訊信號」、步驟3510「以修補器修補解碼後基帶之子頻帶之集合,其中子頻帶之集合形成對時間框中鄰接於基帶的進一步子頻帶之修補,以獲得包含比基帶中的頻率較高的頻率的音訊信號」,及步驟3515「根據目標相位量測來以音訊處理器校正具有第一修補之子頻帶的相位」。
圖36展示用於以編碼器編碼音訊信號之方法3600。方法3600包含步驟3605「以核心編碼器核心編碼音訊信號,以獲得具有相關於音訊信號的降低數目之子頻帶的核心編碼後音訊信號」、步驟3610「以基本頻率分析器分析音訊信號或音訊信號之低通濾波版本,以用於獲得音訊信號中的尖峰位置之基本頻率估計」、步驟3615「以參數擷
取器擷取音訊信號之未包括在核心編碼後音訊信號中的子頻帶之參數」,及步驟3620「以輸出信號形成器形成輸出信號,該輸出信號包含核心編碼後音訊信號、參數、尖峰位置之基本頻率及尖峰位置」。
換言之,用於校正諧波函數之時間位置中的誤差之所提議演算法如下。首先,計算目標信號與SBR處理後信號((k,n)及Z 相位)之相位頻譜之間的差異
此描繪於圖37中。圖37展示使用直接向上複製SBR的QMF域中的長號信號之相位頻譜D 相位(k,n)中之誤差。此刻,可假定目標相位頻譜等於輸入信號之相位頻譜
稍後,將呈現可如何使用低位元速率來獲得目標相位頻譜。
使用兩種方法執行垂直相位微分校正,且最終校正後相位頻譜係以該等方法之混合獲得。
首先,可看出誤差在頻率修補內部係相對恆定的,且誤差在進入新頻率修補時跳轉至新值。此有意義,因為相位在原始信號中的所有頻率處以頻率上的恆定值改變。誤差形成於交越處,且誤差在修補內部保持恆定。因此,單個值對於校正用於全部頻率修補之相位誤差為足夠的。此外,較高頻率修補之相位誤差可使用與頻率修補之
索引數相乘之後的此相同誤差值加以校正。
因此,針對第一頻率修補計算相位誤差之角度平均值
可使用角度平均值來校正相位頻譜
若目標PDF,例如頻率上的相位微分X pdf(k,n)在所有頻率處完全恆定,則此原始校正產生準確結果。然而,如可在圖12中看出,通常在值中存在頻率上的輕微波動。因此,可藉由在交越處使用增強型處理來獲得較佳結果,以避免所產生PDF中之任何不連續性。換言之,此校正按平均產生PDF之校正值,但在頻率修補之交越頻率處可存在輕微不連續性。為避免該等不連續性,施加校正方法。最終校正後相位頻譜(k,n,i)係以兩個校正方法之混合獲得。
另一校正方法藉由計算基帶中的PDF之平均值開始
可藉由假定相位以此平均值改變來使用此量測校正相位頻譜,亦即,
其中為兩個校正方法之組合修補信號。
此校正在交越處提供良好品質,但可引起PDF中朝向較高頻率的漂移。為避免此狀況,藉由計算兩個校正方法之加權角度平均值來組合兩個校正方法
其中c表示校正方法或,且W fc(k,c)為加權函數W fc(k,1)=[0.2,0.45,0.7,1,1,1],W fc(k,2)=[0.8,0.55,0.3,0,0,0], (26a)
所得相位頻譜(k,n,i)即不因連續性亦不因漂移而受到損害。與原始頻譜相比的誤差及校正後相位頻譜之PDF描繪於圖38中。圖38a展示使用相位校正後SBR信號的QMF中的長號信號之相位頻譜(k,n)中的誤差,其中圖38b展示對應頻率上的相位微分(k,n)。可看出,誤差顯著地小於無校正的情況,且PDF不因主要不連續性而受損害。在某些時間框處存在顯著誤差,但此等框具有低能量(參見圖4),因此該等框具有不顯著的感知效應。具有顯著能量的時間框相對較好地經校正。可注意到,顯著地減輕非校正後SBR之假影。
校正後相位頻譜(k,n)係藉由序連校正後頻譜修補(k,n,i)來獲得。為與水平校正模式相容,亦可使用調變器矩陣(參見方程式18)來呈現垂直相位校正
8.3 不同相位校正方法之間的切換
第8.1章及第8.2章展示可藉由將PDT校正施加至小提琴及將PDF校正施加至長號來校正SBR引起的相位誤差。然而,此狀況不考慮如何知道應將校正中之哪一者施加至未知信號,或是否應施加該等校正中之任何校正。本章提出用於自動選擇校正方向之方法。校正方向(水平/垂直)係基於輸入信號之相位微分之變分來決定。
因此,在圖39中,展示用於決定用於音訊信號55之相位校正資料的計算器。變分決定器275在第一變分模式及第二變分模式中決定音訊信號55之相位45之變分。變分比較器280將使用第一變分模式決定的第一變分290a與使用第二變分模式決定的第二變分290b進行比較,且校正資料計算器基於比較器之結果來根據第一變分模式或第二變分模式計算相位校正資料295。
此外,變分決定器275可經組配以用於在第一變分模式中決定用於音訊信號55之多個時間框的時間上的相位微分(PDT)之標準偏差量測作為相位之變分290a,且用於在第二變分模式中決定用於音訊信號55之多個子頻帶的頻率上的相位微分(PDF)之標準偏差量測作為相位之變分
290b。因此,變分比較器280針對音訊信號之時間框比較作為第一變分290a的時間上的相位微分之量測及作為第二變分290b的頻率上的相位微分之量測。
實施例展示變分決定器275,該變分決定器用於決定音訊信號55之當前框及多個先前框之時間上的相位微分之三角標準偏差作為標準偏差量測,且用於決定用於當前時間框的音訊信號55之當前框及多個未來框之時間上的相位微分之三角標準偏差作為標準偏差量測。此外,變分決定器275在決定第一變分290a時計算兩個三角標準偏差之最小值。在又一實施例中,變分決定器275在第一變分模式中將變分290a計算為用於時間框75中的多個子頻帶95之標準偏差量測之組合,以形成頻率之平均標準偏差量測。變分比較器280經組配以用於藉由使用當前時間框75中的子頻帶信號95之量級值作為能量量測來計算該等多個子頻帶之標準偏差量測之能量加權平均值來執行標準偏差量測之組合。
在一較佳實施例中,變分決定器275在決定第一變分290a時,在當前時間框、多個先前時間框及多個未來時間框上平滑平均標準偏差量測。平滑作為根據使用對應時間框及開視窗功能計算的能量來加權。此外,變分決定器275經組配以用於在決定第二變分290b時,在當前時間框、多個先前時間框及多個未來時間框75上平滑標準偏差量測,其中平滑係根據使用對應時間框75及開視窗功能計算的能量來加權。因此,變分比較器280比較作為使用第一
變分模式決定的第一變分290a的平滑後平均標準偏差量測,且比較作為使用第二變分模式決定的第二變分290b的平滑後標準偏差量測。
一較佳實施例描繪於圖40中。根據此實施例,變分決定器275包含用於計算第一變分及第二變分之兩個處理路徑。第一處理修補包含PDT計算器300a,該PDT計算器用於自音訊信號55或音訊信號之相位計算時間上的相位微分305a之標準偏差量測。三角標準偏差計算器310a自時間上的相位微分305a之標準偏差量測決定第一三角標準偏差315a及第二三角標準偏差315b。藉由比較器320比較第一三角標準偏差315a及第二三角標準偏差315b。比較器320計算兩個三角標準偏差量測315a及315b之最小值325。組合器在頻率上組合最小值325以形成平均標準偏差量測335a。平滑器340a平滑平均標準偏差量測335a以形成平滑平均標準偏差量測345a。
第二處理路徑包含PDF計算器300b,該PDF計算器用於自音訊信號55或音訊信號之相位計算頻率上的相位微分305b。三角標準偏差計算器310b形成頻率上的相位微分305之標準偏差量測335b。標準偏差量測305藉由平滑器340b平滑以形成平滑標準偏差量測345b。平滑後平均標準偏差量測345a及平滑後標準偏差量測345b分別為第一變分及第二變分。變分比較器280比較第一變分及第二變分,且校正資料計算器285基於第一變分與第二變分之比較來計算相位校正資料295。
進一步實施例展示處置三個不同相位校正模式的計算器270。圖41中展示象徵性方塊圖。圖41展示變分決定器275進一步在第三變分模式中決定音訊信號55之相位之第三變分290c,其中第三變分模式為暫態偵測模式。變分比較器280將使用第一變分模式決定的第一變分290a、使用第二變分模式決定的第二變分290b及使用第三變分決定的第三變分290c進行比較。因此,校正資料計算器285基於比較之結果來根據第一校正模式、第二校正模式或第三校正模式計算相位校正資料295。對於在第三變分模式中計算第三變分290c,變分比較器280可經組配以用於計算當前時間框之即時能量估計及多個時間框75之時間平均能量估計。因此,變分比較器280經組配以用於計算即時能量估計與時間平均能量估計之比率,且經組配以用於將該比率與所定義臨限值進行比較以偵測時間框75中的暫態。
變分比較器280必須基於三個變分來決定適合的校正模式。基於此決策,若偵測到暫態,則校正資料計算器285根據第三變分模式計算相位校正資料295。此外,若偵測到無暫態且若在第一變分模式中決定的第一變分290a較小或等於在第二變分模式中決定的第二變分290b,則校正資料計算器85根據第一變分模式計算相位校正資料295。因此,若偵測到無暫態且若在第二變分模式中決定的第二變分290b小於在第一變分模式中決定的第一變分290a,則根據第二變分模式計算相位校正資料295。
校正資料計算器進一步經組配以用於計算用於
當前時間框、一或多個先前時間框及一或多個未來時間框的第三變分290c之相位校正資料295。因此,校正資料計算器285經組配以用於計算用於當前時間框、一或多個先前時間框及一或多個未來時間框的的第二變分模式290b之相位校正資料295。此外,校正資料計算器285經組配以用於計算用於水平相位校正及第一變分模式之校正資料295,計算用於第二變分模式中的垂直相位校正之校正資料295,及計算用於第三變分模式中的暫態校正之校正資料295。
圖42展示用於自音訊信號決定相位校正資料之方法4200。方法4200包含步驟4205「在第一變分模式及第二變分模式中以變分決定器決定音訊信號之相位之變分」、步驟4210「以變分比較器比較使用第一變分模式及第二變分模式決定的變分」,及步驟4215「基於比較之結果根據第一變分模式或第二變分模式來以校正資料計算器計算相位校正」。
換言之,小提琴之PDT在時間上為平滑的,而長號之PDF在頻率上為平滑的。因此,作為變分之量測的此等量測之標準偏差(STD)可用來選擇適當校正方法。時間上的相位微分之STD可計算為
且頻率上的相位微分之STD可計算為
其中circstd{}表示計算三角STD(角度值可潛在地藉由能量加權以避免歸因於雜訊低能量頻格之高STD,或STD計算可限制於具有充分能量的頻格)。用於小提琴及長號之STD分別展示於圖43a、圖43b及圖43c、圖43d中。圖43a及圖43c展示QMF域中的時間上的相位微分之標準偏差X stdt(k,n),其中圖43b及圖43d展示無相位校正的情況下的對應頻率上的標準偏差X stdf(n)。色彩漸層指示自紅色=1至藍色=0的值。可看出,PDT之STD對於小提琴較低,而PDF之STD對於長號較低(尤其對於具有高能量的時間-頻率頻塊而言)。
用於每一時間框之所使用校正方法係基於STD中之哪一者較低來選擇。對於該狀況,X stdt(k,n)值必須在頻率上組合。合併係藉由計算用於預定頻率範圍之能量加權平均值來執行
在時間上平滑偏差估計以便具有平滑的切換,且因此避免潛在假影。平滑係使用韓恩視窗來執行,且平滑藉由時間框之能量加權
其中W(l)為視窗函數,且為X 相位(k,n)在頻率上的各。對應方程式用於平滑X stdf(n)。
相位校正方法係藉由比較(n)及(n)來決定。預設方法為PDT(水平)校正,且若(n)<(n),則PDF(垂直)校正適用於區間[n-5,n+5]。若微分中兩者皆為大,例如,大於預定臨限值,則校正方法中無一者適用,且可進行位元率節省。
8.4 暫態處置--用於暫態之相位微分校正
中間增添有拍掌的小提琴信號呈現於圖44中。QMF域中的小提琴+鼓掌信號之量級X 量級(k,n)展示於圖44a中,且對應相位頻譜X 相位(k,n)展示於圖44b中。關於圖44a,色彩漸層指示自紅色=0dB至藍色=-80dB的量級值。因此,對於圖44b,相位漸層指示自紅色=π至藍色=-π的相位值。時間上的相位微分及頻率上的相位微分呈現於圖45中。QMF域中的小提琴+鼓掌信號之時間上的相位微分X pdt(k,n)展示於圖45a中,且對應頻率上的相位微分X pdf(k,n)展示於圖45b中。色彩漸層指示自紅色=π至藍色=-π的相位值。可看出,PDT對於鼓掌為有雜訊的,但PDF為稍微平滑的,至少在高頻率處為平滑的。因此,對於鼓掌應施加PDF校正以便維持鼓掌之銳度。然而,第8.2章中所提議之校正方法在此信號的情況下可不適當地工作,因為小提琴聲音在低頻率處干擾微分。因此,基帶之相位頻譜不反映高頻率,且因此使用單個值的頻率修補之相位校正可不工作。
此外,基於PDF值之變分偵測暫態(參見第8.3章)將由於低頻率處的雜訊PDF值而困難的。
該問題之解決方案為直接的。首先,使用簡單基於能量的方法偵測暫態。將中間頻率/高頻率之即時能量與平滑後能量估計進行比較。中間頻率/高頻率之即時能量經計算為
使用一階IIR濾波器執行平滑
若X magmh(n)/(n)>θ,則已偵測到暫態。臨限值θ可經微調以偵測暫態之所要的量。例如,可使用θ=2。所偵測框並未直接選擇為暫態框。實情為,自所偵測框周圍搜尋局部能量最大值。在當前實行方案中,選定的區間為[n-2,n+7]。將此區間內具有最大能量的時間框選擇為暫態。
理論上,垂直校正模式亦可適用於暫態。然而,在暫態之狀況下,基帶之相位頻譜通常不反映高頻率。此可導致處理後信號中的前回波及後回波。因此,對於暫態提議稍加修改的處理。
計算在高頻率處的暫態之平均PDF
如在方程式24中使用此恆定相位變化來合成用於暫態框之相位頻譜,但(n)由(n)替代。將相同校正施加於區間[n-2,n+2]內的時間框(由於QMF之性質,將π增添至框n-1及n+1之PDF,參見第6章)。此校正已對適合位置產生暫態,但暫態之形狀未必根據需要,且可由於QMF框之大量時間重疊而呈現顯著旁波瓣(亦即,額外暫態)因此,亦必須校正絕對相位角。絕對角係藉由計算合成相位頻譜與原始相位頻譜之間的平均誤差來校正。針對暫態之每一時間框單獨執行校正。
暫態校正之結果呈現於圖46中。展示使用相位校正後SBR的QMF域中的小提琴+鼓掌信號之時間上的相位微分X pdt(k,n)。圖47b展示對應頻率上的相位微分X pdf(k,n)。再次,色彩漸層指示自紅色=π至藍色=-π的相位值。雖然與直接向上複製相比的差異不大,但可覺察到相位校正後鼓掌具有與原始信號相同的銳度。因此,當僅啟用直接向上複製時,未必在所有狀槳葉下需要暫態校正。相反地,若啟用PDT校正,具有暫態處置為重要的,因為否則PDT校正將嚴重地模糊暫態。
9 校正資料之壓縮
第8章展示相位誤差可經校正,但完全未考慮用於校正之適當位元速率。本章提議如何以低位元率表示校正資料的方法。
9.1 PDT校正資料之壓縮--創建用於水平校正之目標頻譜
存在可經傳輸以啟用PDT校正的許多可能的參數。然而,因為(k,n)在時間上經平滑,所以其為用於低位元速率傳輸之潛在候選者。
首先,論述用於參數之適當更新速率。值僅針對每N個圖框更新且線性地內插在中間。用於良好品質之更新間隔為約40ms。對於某些信號,較少為有利的,且對於其他信號,較多為有利的。正式聽聞試驗將對於評估最佳更新速率為有用的。然而,相對長的更新間隔似乎為可接受的。
亦研究用於(k,n)之適當角度準確度。6個位元(64個可能的角度值)對於感知上良好的品質為足夠的。此外,測試傳輸僅值之變化。通常,值似乎僅改變少許,因此可施加不均勻量化以具有用於小變化之更大準確度。使用此方法,發現4個位元(16個可能的角度值)提供良好品質。
最後要考慮的是適當的頻譜準確度。如可在圖17中看出,許多頻帶看起來共享大致上相同值。因此,一個值或許可能用來表示若干頻帶。另外,在高頻率處,在一頻帶內部存在多個諧波,因此可能需要較小準確度。然而,發現另一潛在較佳的方法,因此未徹底地研究此等選項。在下文中論述所提議的更有效方法。
9.1.1 使用頻率估計來壓縮PDT校正資料
如第5章中所論述,時間上的相位微分基本上意指所產生正弦曲線之頻率。可使用以下方程式將所施加64頻帶複雜QMF之PDT變換至頻率
所產生頻率在區間f inter(k)=[f c (k)-f BW ,f c (k)+f BW]內,其中f c (k)為頻帶k之中心頻率,且f BW為375Hz。結果以用於小提琴信號之QMF頻帶之頻率X 頻率(k,n)之時間-頻率表示展示於圖47中。可看出,頻率似乎遵循音調之基本頻率之倍數,且諧波因此在頻率上藉由基本頻率間隔。另外,顫音似乎引起頻率調變。
相同圖表可應用於直接向上複製Z 頻率(k,n)及校正後(k,n)SBR(分別參見圖48a及圖48b)。圖48a展示與圖47中所示之原始信號X 頻率(k,n)相比的直接向上複製SBR信號Z 頻率(k,n)之QMF頻率之時間-頻率表示。圖48b展示用於校正後SBR信號(k,n)之對應圖表。在圖48a及圖48b之圖表中,原始信號以藍色繪製,其中直接向上複製SBR及校正後SBR信號以紅色繪製。直接向上複製SBR之不諧和性可見於圖中,尤其在樣本之開始及最後。另外,可看出,頻率調變深度明顯地小於原始信號之深度。相反地,在校正後SBR之狀況下,諧波之頻率似乎遵循原始信號之頻率。另外,調變深度似乎為正確的。因此,此圖表似乎證實所提議校正方法之效度。因此,接著集中於校正資料之實際壓縮。
因為X 頻率(k,n)之頻率藉由相同量間隔,所以若頻率之間的間隔經估計且傳輸,則可近似所有頻帶之頻率。
在諧波信號之狀況下,間隔應等於音調之基本頻率。因此,僅單個值必須經傳輸以用於表示所有頻帶。在更不規則信號之狀況下,需要更多值來描述諧波行為。例如,諧波之間隔在鋼琴音調之狀況下稍微增加[14]。為簡單起見,在下文中假定諧波係藉由相同量間隔。但是,此不限制所描述之音訊處理之一般性。
因此,估計音調之基本頻率以用於估計諧波之頻率。基本頻率之估計為廣泛研究的主題(例如,參見[14])。因此,實行簡單估計方法來產生用於進一步處理步驟的資料。方法基本上計算諧波之間隔,且根據一些試探法(多少能量、值在頻率及時間上多穩定等等)組合結果。在任何狀況下,結果為用於每一時間框之基本頻率估計(n)。換言之,時間上的相位微分涉及對應QMF頻格之頻率。另外,與PDT中的誤差有關的假影主要在諧波信號的情況下為可感知的。因此,提議可使用基本頻率f 0之估計來估計目標PDT(參見方程式16a)。基本頻率之估計為廣泛研究的主題,且存在可利用於獲得基本頻率之可靠估計量的許多強健方法。
在此,假定如解碼器在執行BWE及在BWE內使用發明性相位校正之前已知的基本頻率(n)。因此,有利的是,編碼級段傳輸估計基本頻率(n)。另外,對於改良之編碼效率,值可僅針對例如每一第二十時間框(對應於-27ms之間隔)加以更新,且內插在中間。
替代地,可在解碼級段中估計基本頻率,且無資
訊必須經傳輸。然而,若估計係在編碼級段中以原始信號執行,則可預期最佳估計值。
解碼器處理藉由獲得用於每一時間框之基本頻率估計值(n)開始。
諧波之頻率可藉由使該基本頻率估計值與索引向量相乘來獲得
結果描繪於圖49中。圖49展示與原始信號X 頻率(k,n)之QMF頻帶之頻率相比的諧波X 諧波(κ,n)之估計頻率的時間頻率表示。再次,藍色指示原始信號,且紅色指示估計信號。估計諧波之頻率極佳地匹配原始信號。此等頻率可被視為『容許』頻率。若演算法產生此等頻率,則應避免不諧和性有關的假影。
演算法之所傳輸參數為基本頻率(n)。對於改良之編碼效率,值僅針對每一第二十時間框(亦即,每27ms)加以更新。此值似乎基於非正式聆聽提供良好感知品質。然而,正式聽聞試驗對於評估更新速率之更最佳值為有用的。
演算法之下一步驟將找到用於每一頻帶之適合值。此係藉由選擇X 諧波(κ,n)之值來執行,該值最接近於每一頻帶之中心頻率f c (k)以反映該頻帶。若最接近的值在頻帶(f inter(k))之可能值之外,則使用頻帶之邊界值。所得矩陣(k,n)含有用於每一時間-頻率頻塊之頻率。
校正資料壓縮演算法之最終步驟用以將頻率資料轉換回PDT資料
其中mod()指示模數運算子。實際校正演算法如第8.1章中所呈現地工作。方程式16a中之(k,n)由(k,n)替換以作為目標PDT,且且如第8.1章中使用方程式17-19。使用壓縮校正資料的校正演算法之結果展示於圖50中。圖50展示使用壓縮校正資料的校正後SBR之QMF域中的小提琴信號之PDT(k,n)中的誤差。圖50b展示對應時間上的相位微分(k,n)。色彩漸層指示自紅色=π至藍色=-π的值。PDT值遵循原始信號之PDT值,具有與無資料壓縮情況下的校正方法類似的準確度(參見圖18)。因此,壓縮演算法係有效的。有及沒有校正資料之壓縮的情況下的感知品質係類似的。
實施例對於低頻率使用較大準確度且對於高頻率使用較小準確度,對於每一值使用總計12個位元。所得位元速率為約0.5kbps(無任何壓縮,諸如熵編碼)。此準確度產生如無量化的相同感知品質。然而,顯著較低的位元速率或許可能用於產生足夠良好的感知品質的許多狀況下。
用於低位元速率方案之一選項將在使用所傳輸信號解碼相位中估計基本頻率。在此狀況下,無值必須經傳輸。另一選項將使用所傳輸信號估計基本頻率,將該基
本頻率與使用寬帶信號獲得的估計值進行比較,且僅傳輸差異。可假定此差異可使用極低位元速率來表示。
9.2 PDF校正資料之壓縮
如第8.2章中所論述,用於PDF校正之適當資料為第一頻率修補之平均相位誤差(n)。校正可使用此值之知識針對所有頻率修補來執行,因此需要用於每一時間框之僅一值之傳輸。然而,對於每一時間框傳輸甚至單個值亦可產生過高的位元速率。
檢測針對長號的圖12,可看出,PDF在頻率上具有相對恆定的值,且相同值對於少量時間框存在。值在時間上為恆定的,只要相同暫態在QMF分析視窗之能量中佔優勢即可。當新暫態開始為佔優勢的時,新值存在。此等PDF值之間的角度改變似乎自一暫態至另一暫態為相同的。此有意義,因為PDF控制暫態之時間位置,且若信號具有恆定基本頻率,則暫態之間的間隔應為恆定的。
因此,PDF(或暫態之位置)可在時間上僅稀疏地傳輸,且在此等時間瞬時中間的PDF行為可使用基本頻率之知識來加以估計。可使用此資訊執行PDF校正。此思想實際上對於PDT校正為雙重的,其中諧波之頻率假定為等間隔的。在此,使用相同思想,但實情為,暫態之時間位置假定為等間隔的。在下文中提議一種方法,該方法係基於偵測波形中的尖峰之位置,且使用此資訊,針對相位校正創建參考頻譜。
9.2.1 使用尖峰偵測來壓縮PDF校正資料--創建用
於垂直校正之目標頻譜
必須估計尖峰之位置以用於執行成功的PDF校正。一解決方案將使用PDF值來計算尖峰之位置,與方程式34中類似地,且將使用估計基本頻率來估計中間尖峰的位置。然而,此方法將需要相對穩定的基本頻率估計。實施例展示簡單的、實行快速的替代性方法,該方法表明所提議壓縮方法係可能的。
長號信號之時域表示展示於圖51中。圖51a在時域表示中展示長號信號之波形。圖51b展示僅含有估計尖峰的對應時域信號,其中已使用所傳輸元資料獲得尖峰之位置。圖51b中之信號為例如關於圖30所描述之脈波列265。演算法藉由分析波形中的尖峰之位置開始。此係藉由搜尋局部最大值來執行。對於每一27ms(亦即,對於每20個QMF框),傳輸最接近於框之中心點的尖峰之位置。在所傳輸尖峰位置中間,假定尖峰在時間上均勻地間隔。因此,藉由知道基本頻率,可估計尖峰之位置。在此實施例中,傳輸所偵測尖峰之數目(應注意,此需要所有尖峰之成功偵測;基於基本頻率的估計將可能產生更強健的結果)。所得位元速率為約0.5kbps(無任何壓縮,諸如熵編碼),此位元速率由使用9個位元傳輸用於每27ms的尖峰之位置及在中間使用4個位元傳輸暫態之數目組成。發現此準確度產生如無量化的相同感知品質。然而,顯著較低的位元速率或許可能用於產生足夠良好的感知品質的許多狀況下。
使用所傳輸元資料,創建時域信號,該時域信號
由估計尖峰之位置中的脈波組成(參見圖51b)。針對此信號執行QMF分析,且計算相位頻譜(k,n)。另外如第8.2章中所提議地執行實際PDF校正,但方程式20a中之(k,n)由(k,n)替代。
具有垂直相位同調的信號之波形通常為有尖峰的,且使人想起脈波列。因此,提議可藉由將目標相位頻譜模型化為脈波列之相位頻譜來估計用於垂直校正之目標相位頻譜,該脈波列具有在對應位置及對應基本頻率處的尖峰。
針對例如每一第二十時間框(對應於-27ms之間隔)傳輸最接近於時間框之中心的位置。以相等速率傳輸的估計基本頻率用來將尖峰位置內插在所傳輸位置中間。
替代地,可在解碼級段中估計基本頻率及尖峰位置,且無資訊必須經傳輸。然而,若估計係在編碼級段中以原始信號執行,則可預期最佳估計值。
解碼器處理藉由獲得用於每一時間框之基本頻率估計(n)開始,且另外,估計波形中的尖峰位置。尖峰位置用來創建由此等位置處的脈波組成的時域信號。QMF分析用來創建對應相位頻譜(k,n)。此估計相位頻譜可在方程式20a中用作目標相位頻譜
所提議方法使用編碼級段來以例如27ms之更新速率傳輸僅估計尖峰位置及基本頻率。另外,應注意,垂
直相位微分中的誤差僅在基本頻率相對低時才可感知。因此,可以相對低的位元速率傳輸基本頻率。
使用壓縮校正資料的校正演算法之結果展示於圖52中。圖52a展示使用校正後SBR及壓縮校正資料的QMF域中的長號信號之相位頻譜(k,n)中的誤差。因此圖因此,圖52b展示對應頻率上的相位微分(k,n)。色彩漸層指示自紅色=π至藍色=-π的值。PDF值遵循原始信號之PDF值,具有與無資料壓縮情況下的校正方法類似的準確度(參見圖13)。因此,壓縮演算法係有效的。有及沒有校正資料之壓縮的情況下的感知品質係類似的。
9.3 暫態處置資料之壓縮
因為暫態可假定為相對稀疏的,所以可假定可直接傳輸此資料。實施例展示每暫態傳輸六個值:用於平均PDF之一值,及用於絕對相位角中的誤差之五個值(用於區間[n-2,n+2]內的每一時間框之一值)。一替代方案將傳輸暫態之位置(亦即,一值),且如在垂直校正之狀況下估計目標相位頻譜(k,n)。
若位元速率需要針對暫態加以壓縮,則可使用與用於PDF校正(看見第9.2章)的類似方法。簡單地,可傳輸暫態之位置,亦即,單個值。如在第9.2章中,可使用此位置值獲得目標相位頻譜及目標PDF。
替代地,可在解碼級段中估計暫態位置,且無資訊必須經傳輸。然而,若估計係在編碼級段中以原始信號執行,則可預期最佳估計值。
可與其他實施例分開地或以實施例之組合來考慮所有先前所描述之實施例。因此,圖53至圖57呈現組合早先所描述之實施例中之一些的編碼器及解碼器。
圖53展示用於解碼音訊信號之解碼器110”。解碼器110”包含第一目標頻譜產生器65a、第一相位校正器70a及音訊子頻帶信號計算器350。第一目標頻譜產生器65a(亦被稱為目標相位量測決定器)使用第一校正資料295a產生用於音訊信號32之子頻帶信號之第一時間框的目標頻譜85a”。第一相位校正器70a校正以相位校正演算法決定的音訊信號32之第一時間框中的子頻帶信號之相位45,其中校正係藉由減少音訊信號32之第一時間框中的子頻帶信號之量測與目標頻譜85”之間的差異來執行。音訊子頻帶信號計算器350使用用於時間框之校正後相位91a來計算用於第一時間框之音訊子頻帶信號355。替代地,音訊子頻帶信號計算器350使用第二時間框中的子頻帶信號85a”之量測或使用根據不同於相位校正演算法的又一相位校正演算法的校正後相位計算,來計算用於不同於第一時間框的第二時間框之音訊子頻帶信號355。圖53進一步展示分析器360,該分析器選擇性地關於量級47及相位45分析音訊信號32。該又一相位校正演算法可在第二相位校正器70b或第三相位校正器70c中執行。將關於圖54例示此等進一步相位校正器。音訊子頻帶信號計算器250使用用於第一時間框之校正後相位91及第一時間框之音訊子頻帶信號之量級值47來計算用於第一時間框之音訊子頻帶信號,其中量級值47為音
訊信號32在第一時間框中的量級或音訊信號35在第一時間框中的處理後量級。
圖54展示解碼器110”之又一實施例。因此,解碼器110”包含第二目標頻譜產生器65b,其中第二目標頻譜產生器65b使用第二校正資料295b來產生用於音訊信號32之子頻帶之第二時間框的目標頻譜85b”。偵測器110”另外包含第二相位校正器70b,該第二相位校正器用於校正以第二相位校正演算法決定的音訊信號32之時間框中的子頻帶之相位45,其中校正係藉由減少音訊信號之子頻帶之時間框之量測與目標頻譜85b”之間的差異來執行。
因此,解碼器110”包含第三目標頻譜產生器65c,其中第三目標頻譜產生器65c使用第三校正資料295c來產生用於音訊信號32之子頻帶之第三時間框的目標頻譜。此外,解碼器110”包含第三相位校正器70c,該第三相位校正器用於校正以第三相位校正演算法決定的音訊信號32之子頻帶信號及時間框之相位45,其中校正係藉由減少音訊信號之子頻帶之時間框之量測與目標頻譜85c之間的差異來執行。音訊子頻帶信號計算器350可使用第三相位校正器之相位校正來計算用於不同於第一時間框及第二時間框的第三時間框之音訊子頻帶信號。
根據一實施例,第一相位校正器70a經組配以用於儲存音訊信號之先前時間框之相位校正後子頻帶信號91a,或用於自第三相位校正器70c之第二相位校正器70b接收音訊信號之先前時間框375之相位校正後子頻帶信號。此
外,第一相位校正器70a基於先前時間框91a、375之所儲存或所接收相位校正後子頻帶信號來校正音訊子頻帶信號之當前時間框中的音訊信號32之相位45。
進一步實施例展示執行水平相位校正的第一相位校正器70a、執行垂直相位校正的第二相位校正器70b及執行暫態之相位校正的第三相位校正器70c。
自另一觀點,圖54展示相位校正演算法中之解碼級段的方塊圖。至處理的輸入為時間-頻率域中的BWE信號及元資料。再次,在實際應用中,發明性相位微分校正對於共同使用濾波器組或現有BWE方案之變換為較佳的。在當前實例中,此為如SBR中所使用的QMF域。第一解多工器(未描繪)自藉由發明性校正增強的BWE配備式感知編解碼器之位元串流擷取相位微分校正資料。
第二解多工器130(DEMUX)首先將所接收元資料135分用於不同校正模式的成啟動資料365及校正資料295a-c。基於啟動資料,針對正確校正模式啟動目標頻譜之計算(其他模式可為空閒)。使用目標頻譜,使用所要的校正模式對所接收的BWE信號執行相位校正。應注意,當遞迴地(換言之:取決於先前信號框)執行水平校正70a時,水平校正亦自其他校正模式70b、70c接收先前校正矩陣。最後,基於啟動資料將校正後信號或未處理信號設定為輸出。
在已校正相位資料之後,繼續進一步下游的下層BWE合成,在當前實例之狀況下為SBR合成。在相位校正恰好插入BWE合成信號流中的情況下,變分可存在。較佳
地,進行相位微分校正以作為具有相位Z 相位(k,n)的原始頻譜修補上的初始調整,且在進一步下游對校正後相位(k,n)執行所有額外BWE處理或調整步驟(在SBR中,此可為雜訊增添、逆濾波、遺漏正弦曲線等)。
圖55展示解碼器110”之又一實施例。根據此實施例,解碼器110”包含核心解碼器115、修補器120、合成器100及方塊A,該方塊為根據圖54中所示之先前實施例的解碼器110”。核心解碼器115經組配以用於解碼具有相關於音訊信號55的降低數目之子頻帶的時間框中之音訊信號25。修補器120修補具有降低數目之子頻帶的核心解碼後音訊信號25之子頻帶之集合,其中子頻帶之集合形成對時間框中鄰接於降低數目之子頻帶的進一步子頻帶之第一修補,以獲得具有規則數目之子頻帶的音訊信號32。量級處理器125’處理時間框中之音訊子頻帶信號355之量級值。根據先前解碼器110及110’,量級處理器可為頻寬擴展參數施加器125。
在交換信號處理器方塊的情況下可想到許多其他實施例。例如,可交換量級處理器125’及方塊A。因此,方塊A對重建音訊信號35工作,其中修補之量級值已經校正。替代地,音訊子頻帶信號計算器350可位於量級處理器125’之後,以便由音訊信號之相位校正後及量級校正後部分形成校正後音訊信號355。
此外,解碼器110”包含合成器100,該合成器用於合成相位及量級校正後音訊信號以獲得頻率組合處理後
音訊信號90。選擇性地,因為在核心解碼後音訊信號25上即不施加量級校正亦不施加相位校正,所以該音訊信號可直接傳輸至合成器100。亦可在解碼器110”中施加在先前所描述之解碼器110或110'之一中所施加的任何選擇性的處理區塊。
圖56展示用於編碼音訊信號55之編碼器155”。編碼器155”包含連接至計算器270的相位決定器380,核心編碼器160、參數擷取器165及輸出信號形成器170。相位決定器380決定音訊信號55之相位45,其中計算器270基於音訊信號55之所決定相位45來決定用於音訊信號55之相位校正資料295。核心編碼器160核心編碼音訊信號55,以獲得具有相關於音訊信號55的降低數目之子頻帶的核心編碼後音訊信號145。參數擷取器165自音訊信號55擷取參數190,以用於獲得用於未包括在核心編碼後音訊信號中的子頻帶之第二集合的低解析度參數表示。輸出信號形成器170形成輸出信號135,該輸出信號包含參數190、核心編碼後音訊信號145及相位校正資料295’。選擇性地,編碼器155”包含在核心編碼音訊信號55之間的低通濾波器180及在自音訊信號55擷取參數190之前的高通濾波器185。替代地,可使用間隙填充演算法,而非低通濾波或高通濾波音訊信號55,其中核心編碼器160核心編碼降低數目之子頻帶,其中子頻帶之集合內的至少一子頻帶未經核心編碼。此外,參數擷取器自未以核心編碼器160編碼的至少一子頻帶擷取參數190。
根據實施例,計算器270包含用於根據第一變分模式、第二變分模式或第三變分模式校正相位校正的校正資料計算器285a-c之集合。此外,計算器270決定用於啟動校正資料計算器285a-c之集合中之一校正資料計算器的啟動資料365。輸出信號形成器170形成輸出信號,該輸出信號包含啟動資料、參數、核心編碼後音訊信號及相位校正資料。
圖57展示計算器270之一替代性實行方案,該計算器可用於圖56中所示之編碼器155”中。校正模式計算器385包含變分決定器275及變分比較器280。啟動資料365為比較不同變分之結果。此外,啟動資料365根據所決定變分來啟動校正資料計算器185a-c之一。所計算校正資料295a、295b或295c可為編碼器155”之輸出信號形成器170之輸入且因此為輸出信號135之部分。
實施例展示包含元資料形成器390的計算器270,該元資料形成器形成元資料串流295’,該元資料串流包含所計算校正資料295a、295b或295c及啟動資料365。若校正資料自身不包含當前校正模式之充分資訊,則可將啟動資料365傳輸至解碼器。充分的資訊可為例如用來表示校正資料的位元之數目,該校正資料對於校正資料295a、校正資料295b及校正資料295c不同。此外,輸出信號形成器170可另外使用啟動資料365,使得可忽略元資料形成器390。
自另一觀點,圖57之方塊圖展示相位校正演算法
中之編碼級段。至處理的輸入為原始音訊信號55及時間-頻率域。在實際應用中,發明性相位微分校正對於共同使用濾波器組或現有BWE方案之變換為較佳的。在當前實例中,此為在SBR中所使用的QMF域。
校正模式計算區塊首先計算對於每一時間框施加的校正模式。基於啟動資料365,在正確校正模式中啟動校正資料295a-c計算(其他校正模式可為空閒)。最後,多工器(MUX)組合來自不同校正模式的啟動資料及校正資料。
又一多工器(未描繪)將相位微分校正資料合併至BWE及藉由發明性校正增強的感知編碼器之位元串流中。
圖58展示用於解碼音訊信號之方法5800。方法5800包含步驟5805「使用第一校正資料以第一目標頻譜產生器產生用於音訊信號之子頻帶信號之第一時間框的目標頻譜」、步驟5810「以用相位校正演算法決定的第一相位校正器校正音訊信號之第一時間框中的子頻帶信號之相位,其中校正係藉由減少音訊信號之第一時間框中的子頻帶信號之量測與目標頻譜之間的差異來執行」,及步驟5815「使用時間框之校正後相位以音訊子頻帶信號計算器計算用於第一時間框之音訊子頻帶信號,及用於使用第二時間框中的子頻帶信號之量測或使用根據不同於該相位校正演算法的又一相位校正演算法的校正後相位計算來計算用於不同於第一時間框的第二時間框之音訊子頻帶信號」。
圖59展示用於編碼音訊信號之方法5900。方法
5900包含步驟5905「以相位決定器決定音訊信號之相位」、步驟5910「基於音訊信號之所決定相位來以計算器決定用於音訊信號之相位校正資料」、步驟5915「以核心編碼器核心編碼音訊信號,以獲得具有相關於音訊信號的降低數目之子頻帶的核心編碼後音訊信號」、步驟5920「以參數擷取器自音訊信號擷取參數,以用於獲得用於未包括在核心編碼後音訊信號中的子頻帶之第二集合的低解析度參數表示」,及步驟5925「以輸出信號形成器形成輸出信號,該輸出信號包含參數、核心編碼後音訊信號及相位校正資料」。
方法5800及5900以及先前所描述之方法2300、2400、2500、3400、3500、3600及4200可實行於在電腦上執行的電腦程式中。
已注意到,將音訊信號55用作用於音訊信號之一般術語,尤其用於原始音訊信號(亦即未處理音訊信號)、音訊信號之所傳輸部分X 傳輸(k,n)25、基帶信號X 基帶(k,n)30、與原始音訊信號相比時包含較高頻率的處理後音訊信號32、重建音訊信號35、量級校正後頻率修補Y(k,n,i)40、音訊信號之相位45或音訊信號之量級47。因此,不同音訊信號可歸因於實施例之上下文而彼此交換。
替代性實施例涉及用於發明性時間-頻率處理的不同濾波器組或變換域,例如短時傅立葉變換(STFT)、複雜修改型離散餘弦變換(CMDCT)或離散傅立葉變換(DFT)域。因此,可考慮到與變換有關的特定相位性質。詳細地,若向上複製係數係自偶數複製至奇數或反之亦然,亦即,
如在實施例中所描述,將原始音訊信號之第二子頻帶複製至第九子頻帶而非第八子頻帶,則可將修補之共軛複數用於處理。相同狀況適用於修補之鏡像,而非使用例如向上複製演算法,以克服修補內的相位角之逆序。
其他實施例可放棄來自編碼器的旁資訊且在解碼器處原位估計一些或所有必要的校正參數。進一步實施例可具有其他下層BWE修補方案,該等下層BWE修補方案例如使用不同基帶部分、不同數目或大小的修補或不同換位技術,例如頻譜鏡像或單邊帶調變(SSB)。在相位校正恰好協調至BWE合成信號流中的情況下,變分可亦存在。此外,使用滑動韓恩視窗執行平滑,該滑動韓恩視窗可由例如一階IIR替換以用於較佳計算效率。
最新技術感知音訊編解碼器之使用通常折損音訊信號之頻譜分量之相位同調,尤其在低位元速率下,其中施加如頻寬擴展的參數編碼技術。此導致音訊信號之相位微分之變化。然而,在某些信號類型中,相位微分之保留係重要的。因此,折損此類聲音之感知品質。若相位微分之恢復係知覺上有益的,則本發明重新調整此類信號之頻率上(「垂直」)或時間上(「水平」)的相位微分。此外,做出調整垂直相位微分係知覺上較佳的或調整水平相位微分係知覺上較佳的之決策。需要僅極緊密的旁資訊之傳輸來控制相位微分校正處理。因此,本發明以適度旁資訊為代價來改良感知音訊編碼器之聲音品質。
換言之,頻譜帶複製(SBR)可引起相位頻譜中的
誤差。研究此等誤差之人類感知,顯示出兩個知覺上顯著的效應:諧波之頻率及時間位置中的差異。頻率誤差似乎僅在基本頻率足夠高使得在ERB頻帶內存在僅一個諧波時為可感知的。相應地,時間位置誤差似乎僅在基本頻率為低的情況下或在諧波之相位在頻率上對準的情況下為可感知的。
頻率誤差可藉由計算時間上的相位微分(PDT)來偵測。若PDT值在時間上為穩定的,則應校正SBR處理後信號與原始信號之間的PDT值之差異。此有效地校正諧波之頻率,且因此避免不諧和性之感知。
時間位置誤差可藉由計算頻率上的相位微分(PDF)來偵測。若PDF值在頻率上為穩定的,則應校正SBR處理後信號與原始信號之間的PDF值之差異。此有效地校正諧波之時間位置,且因此避免調變交越頻率處的雜訊之感知。
雖然已在方塊表示實際或邏輯硬體組件的方塊圖之上下文中描述本發明,但本發明亦可藉由電腦實行的方法來實行。在後者狀況下,方塊表示對應方法步驟,其中此等步驟代表由對應邏輯或實體硬體區塊執行的功能性。
儘管在設備之上下文中已描述了一些態樣,但清楚的是,此等態樣亦表示對應方法之描述,其中一區塊或裝置對應於一方法步驟或一方法步驟之一特徵。類似地,方法步驟之上下文中所描述之態樣亦表示對應設備之對應
區塊或項目或特徵的描述。方法步驟中之一些或全部可由(使用)硬體設備來執行,該硬體設備如例如微處理器、可規劃電腦或電子電路。在一些實施例中,最重要的方法步驟中之某一或多個可由此設備來執行。
發明性所傳輸或編碼後音訊信號可儲存於數位儲存媒體上或可在傳輸媒體上傳輸,該傳輸媒體諸如無線傳輸媒體或有線傳輸媒體,諸如網際網路。
取決於某些實行要求,本發明之實施例可在硬體中或軟體中實施。實行方案可使用數位儲存媒體來執行,該數位儲存媒體例如軟碟片、DVD、藍光、CD、ROM、PROM及EPROM、EEPROM或快閃記憶體,該數位儲存媒體上儲存有電子可讀的控制信號,該等電子可讀的控制信號與可規劃電腦系統合作(或能夠與可規劃電腦系統合作),使得執行個別方法。因此,數位儲存媒體可為電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等信號能夠與可規劃電腦系統合作以使得本文中描述的方法中之一者得以進行。
通常,本發明之實施例可實施為具有程式代碼之電腦程式產品,當該電腦程式產品在電腦上運行時,該程式代碼操作以用於進行該等方法中之一者。程式碼可例如儲存在機器可讀載體上。
其他實施例包括儲存於機器可讀載體上之用於進行本文所述方法中之一者的電腦程式。
換言之,本發明之方法的實施例因此為具有程式
代碼之電腦程式,當該電腦程式在電腦上運行時,該程式代碼用於進行本文所述之方法中的一者。
發明方法之另一實施例因此為資料載體(或諸如數位儲存媒體的非暫時性儲存媒體,或電腦可讀媒體),該資料載體包含記錄在該資料載體上之用於執行本文所描述之方法之一的電腦程式。資料載體、數位儲存媒體或記錄媒體通常為有形的且/或非暫時性的。
發明方法之又一實施例因此為表示用於執行本文所述方法之一的電腦程式之資料串流或信號序列。資料串流或信號序列可例如經組配來經由資料通訊連接例如經由網際網路傳輸。
又一實施例包含處理構件,例如,電腦或可程式化邏輯裝置,該處理構件經組配來或經調適來執行本文所述方法之一。
另一實施例包括一種電腦,其上面安裝有用於進行本文所述方法中之一者的電腦程式。
根據本發明之又一實施例包含設備或系統,該設備或系統經組配來將用於執行本文所述方法之一的電腦程式傳遞(例如,電子地或光學地)至接收器。接收器可例如為電腦、行動裝置、記憶體裝置等。設備或系統可例如包含用於將電腦程式傳遞至接收器的檔案伺服器。
在一些實施例中,一種可規劃邏輯裝置(例如,現場可規劃門陣列)可用以執行本文所述方法之功能性中的一些或全部。在一些實施例中,現場可規劃門陣列可與
微處理器協作,以便進行本文所述方法中之一者。通常,該等方法較佳由任何硬體設備進行。
上文所述之實施例僅例示本發明之原理。應理解,熟習此項技術者將明白本文所描述之佈置及細節之修改及變化。因此,意圖在於,僅受以下專利申請專利範圍之範疇限制且不受藉由本文實施例之描述及說明之方式呈現的特定細節限制。
參考文獻
[1] Painter, T.: Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pp. 451-513.
[2] Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Chapters 5, 6.
[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0. Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, April 2002, Preprint 5553.
[4] Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009.
[5] D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister
Tagung 2010.
[6] D. Dorran and R. Lawlor, "Time-scale modification of music using a synchronized subband/time domain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. IV 225-IV 228, Montreal, May 2004.
[7] J. Laroche, "Frequency-domain techniques for high quality voice modification," Proceedings of the International Conference on Digital Audio Effects, pp. 328-322, 2003.
[8] Laroche, J.; Dolson, M.;, "Phase-vocoder: about this phasiness business," Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., no., pp.4 pp., 19-22, Oct 1997
[9] M. Dietz, L. Liljeryd, K. Kjörling, and O. Kunz, “Spectral band replication, a novel approach in audio coding," in AES 112th Convention, (Munich, Germany), May 2002.
[10] P. Ekstrand, “Bandwidth extension of audio signals by spectral band replication," in IEEE Benelux Workshop on Model based Processing and Coding of Audio, (Leuven, Belgium), November 2002.
[11] B. C. J. Moore and B. R. Glasberg, “Suggested formulae for calculating auditory-filter bandwidths and excitation patterns," J. Acoust. Soc. Am., vol. 74, pp. 750-753,
September 1983.
[12] T. M. Shackleton and R. P. Carlyon, “The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination," J. Acoust. Soc. Am., vol. 95, pp. 3529-3540, June 1994.
[13] M.-V. Laitinen, S. Disch, and V. Pulkki, “Sensitivity of human hearing to changes in phase spectrum," J. Audio Eng. Soc., vol. 61, pp. 860 {877, November 2013.
[14] A. Klapuri, “Multiple fundamental frequency estimation based on harmonicity and spectral smoothness," IEEE Transactions on Speech and Audio Processing, vol. 11, November 2003.
50‧‧‧音訊處理器
55‧‧‧音訊信號
60‧‧‧音訊信號相位量測計算器
65‧‧‧目標相位量測決定器
70‧‧‧相位校正器
75a‧‧‧先前時間框/第一時間框
75b‧‧‧當前時間框/第二時間框
75c‧‧‧未來時間框/第三時間框
80‧‧‧相位量測/時間上的相位微分
85‧‧‧目標相位量測/目標相位微分/基本頻率估計/頻率估計/輸出/目標函數
90‧‧‧處理後音訊信號/頻率組合處理後音訊信號
95a‧‧‧第一子頻帶信號/處理後第一子頻帶信號
95b‧‧‧第二子頻帶信號/處理後第二子頻帶信號
Claims (19)
- 一種用於處理一音訊信號之音訊處理器,該音訊處理器包含:一音訊信號相位量測計算器,其經組配以用於計算用於一時間框之一音訊信號之一相位量測;一目標相位量測決定器,其用於決定用於該時間框之一目標相位量測;一相位校正器,其經組配以用於使用該所計算相位量測及該目標相位量測來校正用於該時間框之該音訊信號之相位,以獲得一處理後音訊信號。
- 如請求項1之音訊處理器,其中該音訊信號包含用於該時間框之多個子頻帶信號;其中該目標相位量測決定器經組配以用於決定用於一第一子頻帶信號之一第一目標相位量測及用於一第二子頻帶信號之一第二目標相位量測;其中該音訊信號相位量測計算器經組配以用於決定用於該第一子頻帶信號之一第一相位量測及用於該第二子頻帶信號之一第二相位量測;其中該相位校正器,其經組配以用於使用該音訊信號之該第一相位量測及該第一目標相位量測來校正該第一子頻帶信號之一第一相位,以獲得一第一處理後子頻帶信號,且用於使用該音訊信號之該第二相位量測及 該第二目標相位量測來校正該第二子頻帶信號之一第二相位,以獲得一第二處理後子頻帶信號;以及一音訊信號合成器,其用於使用該處理後第一子頻帶信號及該處理後第二子頻帶信號來合成該處理後音訊信號。
- 如請求項1之音訊處理器,其中該相位量測為一時間上的相位微分;其中該音訊信號相位量測計算器經組配以用於針對多個子頻帶之每一子頻帶計算一當前時間框之一相位值及一未來時間框之一相位值的該相位微分;其中該相位校正器經組配以用於針對該當前時間框之該等多個子頻帶之每一子頻帶計算該目標相位微分與該時間上的相位微分之間的一偏差;其中藉由該相位校正器執行的一校正係使用該偏差來執行。
- 如請求項1之音訊處理器,其中該相位校正器經組配以用於校正該時間框內的該音訊信號之不同子頻帶之子頻帶信號,以至於校正後子頻帶信號之頻率具有和諧地分配至該音訊信號之一基本頻率的頻率值。
- 如請求項1之音訊處理器,其中該相位校正器經組配以用於在一先前時間框、該當前時間框及一未來時間框上平滑化用於該等多個子頻帶之每一子頻帶的該偏差,且經組配以用於減少 一子頻帶內該偏差之急劇變化。
- 如請求項5之音訊處理器,其中該平滑化係一加權平均值;其中該相位校正器經組配以用於計算在該先前時間框、該當前時間框及該未來時間框上的該加權平均值,該加權平均值係藉由該先前時間框、該當前時間框及該未來時間框中的該音訊信號之一量級來加權。
- 如請求項1之音訊處理器,其中該相位校正器經組配以用於形成偏差之一向量,其中該向量之一第一元素代表用於該等多個子頻帶之該第一子頻帶的一第一偏差,且該向量之一第二元素代表用於自一先前時間框至一當前時間框的該等多個子頻帶之該第二子頻帶的一第二偏差;其中該相位校正器經組配以將偏差之該向量施加於該音訊信號之該等相位,其中將該向量之該第一元素施加至該音訊信號之多個子頻帶之一第一子頻帶中的該音訊信號之一相位,且將該向量之該第二元素施加至該音訊信號之該等多個子頻帶之一第二子頻帶中的該音訊信號之一相位。
- 如請求項1之音訊處理器,其中該目標相位量測決定器經組配以用於獲得用於一時間框之一基本頻率估計;其中該目標相位量測決定器經組配以用於使用用於該時間框之該基本頻率來計算用於該時間框之該等 多個子頻帶之每一子頻帶的一頻率估計。
- 如請求項8之音訊處理器,其中該目標相位量測決定器經組配以用於使用子頻帶之一總數及該音訊信號之一抽樣頻率來將用於該等多個子頻帶之每一子頻帶的該頻率估計轉換成一時間上的相位微分。
- 如請求項8之音訊處理器,其中該目標相位量測決定器經組配以用於形成用於該等多個子頻帶之每一子頻帶的頻率估計之一向量,其中該向量之該第一元素代表用於一第一子頻帶之一頻率估計,且該向量之一第二元素代表用於一第二子頻帶之一頻率估計;其中該目標相位量測決定器經組配以用於使用該基本頻率之倍數來計算該頻率估計,其中該當前子頻帶之該頻率估計為最接近於該子頻帶之中心的該基本頻率之該倍數,或其中若該基本頻率之該等倍數中無一者在該當前子頻帶內,則該當前子頻帶之該頻率估計為該當前子頻帶之一邊界頻率。
- 一種用於解碼一音訊信號之解碼器,該解碼器包含:如請求項1至10中一項之一音訊處理器;一核心解碼器,其經組配以用於核心解碼一時間框中具有相關於該音訊信號的一降低數目之子頻帶的一音訊信號;一修補器,其經組配以用於修補具有該降低數目之 子頻帶的該核心解碼後音訊信號之子頻帶之一集合,其中子頻帶之該集合形成對該時間框中鄰接於該降低數目之子頻帶的進一步子頻帶之一第一修補,以獲得具有一規則數目之子頻帶的一音訊信號;其中該音訊處理器經組配以用於根據一目標函數校正該第一修補之該等子頻帶內的相位。
- 如請求項11之解碼器,其中該修補器經組配以用於修補該音訊信號之子頻帶之該集合,其中子頻帶之該集合形成對該時間框之鄰接於該第一修補的進一步子頻帶之一第二修補;且其中該音訊處理器經組配以用於校正該第二修補之該等子頻帶內的該等相位;或其中該修補器經組配以用於修補對該時間框之鄰接於該第一修補的進一步子頻帶之該校正後第一修補。
- 如請求項11之解碼器,該解碼器包含:一資料串流擷取器,其經組配以用於自一資料串流擷取該音訊信號之該當前時間框之一基本頻率,其中該資料串流進一步包含具有該降低數目之子頻帶的該編碼後音訊信號;或一基本頻率分析器,其經組配以用於分析該核心解碼後音訊信號以便計算一基本頻率。
- 一種用於編碼一音訊信號之編碼器,該編碼器包含:一核心編碼器,其經組配以用於核心編碼該音訊信號,以獲得具有相關於該音訊信號的一降低數目之子頻 帶的一核心編碼後音訊信號;一基本頻率分析器,其用於分析該音訊信號或該音訊信號之一低通濾波版本,以用於獲得該音訊信號之一基本頻率估計;一參數擷取器,其經組配以用於擷取該音訊信號之未包括在該核心編碼後音訊信號中的子頻帶之參數;一輸出信號形成器,其經組配以用於形成一輸出信號,該輸出信號包含該核心編碼後音訊信號、該等參數及該基本頻率估計;其中該輸出信號形成器經組配以將該輸出信號形成為一框序列,其中每一框包含該核心編碼後音訊信號、該等參數,且其中僅每一第N框包含該基本頻率估計,其中N大於或等於2。
- 一種用於處理一音訊信號之方法,該方法包含以下步驟:以一音訊信號相位量測計算器計算用於一時間框的一音訊信號之一相位量測;以一目標相位量測決定器決定用於該時間框的一目標相位量測;使用該所計算相位量測及該目標相位量測來以一相位校正器校正用於該時間框的該音訊信號之相位,以獲得一處理後音訊信號。
- 一種用於解碼一音訊信號之方法,該方法包含以下步驟: 解碼一時間框中具有相關於該音訊信號的一降低數目之子頻帶的一音訊信號;修補具有該降低數目之子頻帶的該解碼後音訊信號之子頻帶之一集合,其中子頻帶之該集合形成對該時間框中鄰接於該降低數目之子頻帶的進一步子頻帶之一第一修補,以獲得具有一規則數目之子頻帶的一音訊信號;以該音訊處理器根據一目標函數來校正該第一修補之該等子頻帶內的該等相位。
- 一種用於編碼一音訊信號之方法,該方法包含以下步驟:以一核心編碼器核心編碼該音訊信號,以獲得具有相關於該音訊信號的一降低數目之子頻帶的一核心編碼後音訊信號;以一基本頻率分析器分析該音訊信號或該音訊信號之一低通濾波版本,以用於獲得該音訊信號之一基本頻率估計;以一參數擷取器擷取該音訊信號之未包括在該核心編碼後音訊信號中的子頻帶之參數;以一輸出信號形成器形成一輸出信號,該輸出信號包含該核心編碼後音訊信號、該等參數及該基本頻率估計;以及將該輸出信號形成為一框序列,其中每一框包含該核心編碼後音訊信號、該等參數,且其中僅每一第N框 包含該基本頻率估計,其中N大於或等於2。
- 一種電腦程式,其具有程式碼,當該電腦程式在一電腦上運行時,該程式碼用於執行如請求項15至17中一項之方法。
- 一種攜載有音訊信號之機器可存取媒體,該音訊信號包含:一核心編碼後音訊信號,其具有相關於一原始音訊信號的一降低數目之子頻帶;一參數,其表示該音訊信號之未包括在該核心編碼後音訊信號中的子頻帶;該音訊信號或該原始音訊信號之一基本頻率估計;其中該音訊信號係形成為一框序列,其中每一框包含該核心編碼後音訊信號、該等參數,且其中僅每一第N框包含該基本頻率估計,其中N大於或等於2。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14175202 | 2014-07-01 | ||
EP15151478.3A EP2963649A1 (en) | 2014-07-01 | 2015-01-16 | Audio processor and method for processing an audio signal using horizontal phase correction |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201618079A TW201618079A (zh) | 2016-05-16 |
TWI587288B true TWI587288B (zh) | 2017-06-11 |
Family
ID=52449941
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104120798A TWI591619B (zh) | 2014-07-01 | 2015-06-26 | 利用垂直相校正處理一音訊信號之音訊處理器及方法 |
TW104120801A TWI587289B (zh) | 2014-07-01 | 2015-06-26 | 用以決定用於音訊信號之相位校正資料的計算器及方法 |
TW104120799A TWI587292B (zh) | 2014-07-01 | 2015-06-26 | 用以解碼音訊信號之解碼器及方法、用以編碼音訊信號之編碼器及方法 |
TW104120800A TWI587288B (zh) | 2014-07-01 | 2015-06-26 | 利用水平相校正處理音訊信號之音訊處理器及方法 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104120798A TWI591619B (zh) | 2014-07-01 | 2015-06-26 | 利用垂直相校正處理一音訊信號之音訊處理器及方法 |
TW104120801A TWI587289B (zh) | 2014-07-01 | 2015-06-26 | 用以決定用於音訊信號之相位校正資料的計算器及方法 |
TW104120799A TWI587292B (zh) | 2014-07-01 | 2015-06-26 | 用以解碼音訊信號之解碼器及方法、用以編碼音訊信號之編碼器及方法 |
Country Status (19)
Country | Link |
---|---|
US (6) | US10529346B2 (zh) |
EP (8) | EP2963646A1 (zh) |
JP (4) | JP6553657B2 (zh) |
KR (4) | KR101944386B1 (zh) |
CN (4) | CN106663439B (zh) |
AR (4) | AR101082A1 (zh) |
AU (7) | AU2015282748B2 (zh) |
BR (3) | BR112016029895A2 (zh) |
CA (6) | CA2953426C (zh) |
ES (4) | ES2677250T3 (zh) |
MX (4) | MX356672B (zh) |
MY (3) | MY182904A (zh) |
PL (3) | PL3164873T3 (zh) |
PT (3) | PT3164873T (zh) |
RU (4) | RU2676414C2 (zh) |
SG (4) | SG11201610837XA (zh) |
TR (2) | TR201810148T4 (zh) |
TW (4) | TWI591619B (zh) |
WO (4) | WO2016001067A1 (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2963646A1 (en) * | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
JP6611042B2 (ja) * | 2015-12-02 | 2019-11-27 | パナソニックIpマネジメント株式会社 | 音声信号復号装置及び音声信号復号方法 |
ES2933287T3 (es) | 2016-04-12 | 2023-02-03 | Fraunhofer Ges Forschung | Codificador de audio para codificar una señal de audio, método para codificar una señal de audio y programa informático en consideración de una región espectral del pico detectada en una banda de frecuencia superior |
US10277440B1 (en) * | 2016-10-24 | 2019-04-30 | Marvell International Ltd. | Determining common phase error |
KR102590519B1 (ko) * | 2017-03-03 | 2023-10-17 | 다케다 야쿠힌 고교 가부시키가이샤 | 아데노-연관 바이러스 제제의 효력을 결정하는 방법 |
KR20180104872A (ko) | 2017-03-14 | 2018-09-27 | 현대자동차주식회사 | 주행 상황을 반영하는 주행 제어 시스템에서의 변속 장치 및 방법 |
CN107071689B (zh) * | 2017-04-19 | 2018-12-14 | 音曼(北京)科技有限公司 | 一种方向自适应的空间音频处理方法及系统 |
EP4354984A3 (en) * | 2017-06-16 | 2024-05-08 | Innovative Technology Lab Co., Ltd. | Method and apparatus for indication of synchronization signal block |
WO2019014074A1 (en) * | 2017-07-09 | 2019-01-17 | Selene Photonics, Inc. | ANTIVAL DISTRIBUTION SYSTEMS AND METHODS |
CN107798048A (zh) * | 2017-07-28 | 2018-03-13 | 昆明理工大学 | 一种用于射电日像仪海量数据管理的负数据库管理方法 |
CN107424616B (zh) * | 2017-08-21 | 2020-09-11 | 广东工业大学 | 一种相位谱去除掩模的方法与装置 |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
TWI702594B (zh) | 2018-01-26 | 2020-08-21 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建技術之回溯相容整合 |
CN110827206B (zh) * | 2018-08-14 | 2024-05-28 | 钰创科技股份有限公司 | 过滤信号的数位滤波器 |
CN111077371B (zh) * | 2018-10-19 | 2021-02-05 | 大唐移动通信设备有限公司 | 一种提高相位测量精度的方法和装置 |
WO2020118123A1 (en) * | 2018-12-05 | 2020-06-11 | Black Lattice Technologies, Inc. | Stochastic linear detection |
WO2020146827A1 (en) * | 2019-01-11 | 2020-07-16 | Boomcloud 360, Inc. | Soundstage-conserving audio channel summation |
CN112532208B (zh) * | 2019-09-18 | 2024-04-05 | 惠州迪芬尼声学科技股份有限公司 | 谐波发生器及用于生成谐波的方法 |
US11158297B2 (en) * | 2020-01-13 | 2021-10-26 | International Business Machines Corporation | Timbre creation system |
CN115552204A (zh) * | 2020-02-20 | 2022-12-30 | 日产自动车株式会社 | 图像处理装置及图像处理方法 |
CN111405419B (zh) * | 2020-03-26 | 2022-02-15 | 海信视像科技股份有限公司 | 音频信号处理方法、装置及可读存储介质 |
CN113259083B (zh) * | 2021-07-13 | 2021-09-28 | 成都德芯数字科技股份有限公司 | 一种调频同步网相位同步方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050165587A1 (en) * | 2004-01-27 | 2005-07-28 | Cheng Corey I. | Coding techniques using estimated spectral magnitude and phase derived from mdct coefficients |
US20070238415A1 (en) * | 2005-10-07 | 2007-10-11 | Deepen Sinha | Method and apparatus for encoding and decoding |
JP2013135433A (ja) * | 2011-12-27 | 2013-07-08 | Fujitsu Ltd | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
CN103490678A (zh) * | 2013-10-17 | 2014-01-01 | 双峰格雷斯海姆医药玻璃(丹阳)有限公司 | 主从机同步控制方法及系统 |
Family Cites Families (105)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2631906A (en) * | 1945-01-12 | 1953-03-17 | Automotive Prod Co Ltd | Sealing device for fluid pressure apparatus |
US4802225A (en) * | 1985-01-02 | 1989-01-31 | Medical Research Council | Analysis of non-sinusoidal waveforms |
DE3683767D1 (de) * | 1986-04-30 | 1992-03-12 | Ibm | Sprachkodierungsverfahren und einrichtung zur ausfuehrung dieses verfahrens. |
JP2940005B2 (ja) * | 1989-07-20 | 1999-08-25 | 日本電気株式会社 | 音声符号化装置 |
US5602959A (en) | 1994-12-05 | 1997-02-11 | Motorola, Inc. | Method and apparatus for characterization and reconstruction of speech excitation waveforms |
US5894473A (en) | 1996-02-29 | 1999-04-13 | Ericsson Inc. | Multiple access communications system and method using code and time division |
US5809459A (en) * | 1996-05-21 | 1998-09-15 | Motorola, Inc. | Method and apparatus for speech excitation waveform coding using multiple error waveforms |
GB2319379A (en) * | 1996-11-18 | 1998-05-20 | Secr Defence | Speech processing system |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6226661B1 (en) * | 1998-11-13 | 2001-05-01 | Creative Technology Ltd. | Generation and application of sample rate conversion ratios using distributed jitter |
JP4639441B2 (ja) * | 1999-09-01 | 2011-02-23 | ソニー株式会社 | ディジタル信号処理装置および処理方法、並びにディジタル信号記録装置および記録方法 |
NL1013500C2 (nl) | 1999-11-05 | 2001-05-08 | Huq Speech Technologies B V | Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving. |
GB0001585D0 (en) * | 2000-01-24 | 2000-03-15 | Radioscape Ltd | Method of designing,modelling or fabricating a communications baseband stack |
EP1259955B1 (en) * | 2000-02-29 | 2006-01-11 | QUALCOMM Incorporated | Method and apparatus for tracking the phase of a quasi-periodic signal |
US6701297B2 (en) * | 2001-03-02 | 2004-03-02 | Geoffrey Layton Main | Direct intermediate frequency sampling wavelet-based analog-to-digital and digital-to-analog converter |
US7146503B1 (en) * | 2001-06-04 | 2006-12-05 | At&T Corp. | System and method of watermarking signal |
DE60214027T2 (de) | 2001-11-14 | 2007-02-15 | Matsushita Electric Industrial Co., Ltd., Kadoma | Kodiervorrichtung und dekodiervorrichtung |
DE60326782D1 (de) * | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
EP1523863A1 (en) | 2002-07-16 | 2005-04-20 | Koninklijke Philips Electronics N.V. | Audio coding |
DE60327039D1 (de) | 2002-07-19 | 2009-05-20 | Nec Corp | Audiodekodierungseinrichtung, dekodierungsverfahren und programm |
JP4227772B2 (ja) * | 2002-07-19 | 2009-02-18 | 日本電気株式会社 | オーディオ復号装置と復号方法およびプログラム |
JP4380174B2 (ja) * | 2003-02-27 | 2009-12-09 | 沖電気工業株式会社 | 帯域補正装置 |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
KR20060083202A (ko) * | 2003-09-05 | 2006-07-20 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 낮은 비트율 오디오 인코딩 |
RU2374703C2 (ru) * | 2003-10-30 | 2009-11-27 | Конинклейке Филипс Электроникс Н.В. | Кодирование или декодирование аудиосигнала |
FR2865310A1 (fr) * | 2004-01-20 | 2005-07-22 | France Telecom | Procede de restauration de partiels d'un signal sonore |
US20090299756A1 (en) | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
US20060014299A1 (en) | 2004-04-12 | 2006-01-19 | Troup Jan M | Method for analyzing blood for cholesterol components |
DE102004021404B4 (de) | 2004-04-30 | 2007-05-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Wasserzeicheneinbettung |
DE102004021403A1 (de) * | 2004-04-30 | 2005-11-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung |
US7672835B2 (en) * | 2004-12-24 | 2010-03-02 | Casio Computer Co., Ltd. | Voice analysis/synthesis apparatus and program |
TW200627999A (en) * | 2005-01-05 | 2006-08-01 | Srs Labs Inc | Phase compensation techniques to adjust for speaker deficiencies |
EP1839297B1 (en) | 2005-01-11 | 2018-11-14 | Koninklijke Philips N.V. | Scalable encoding/decoding of audio signals |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7693225B2 (en) | 2005-07-21 | 2010-04-06 | Realtek Semiconductor Corp. | Inter-symbol and inter-carrier interference canceller for multi-carrier modulation receivers |
CN101091209B (zh) * | 2005-09-02 | 2010-06-09 | 日本电气株式会社 | 抑制噪声的方法及装置 |
US8259840B2 (en) | 2005-10-24 | 2012-09-04 | General Motors Llc | Data communication via a voice channel of a wireless communication network using discontinuities |
US8620644B2 (en) * | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
WO2007068861A2 (fr) * | 2005-12-15 | 2007-06-21 | France Telecom | Procede d'estimation de phase pour la modelisation sinusoidale d'un signal numerique |
EP1979899B1 (de) * | 2006-01-31 | 2015-03-11 | Unify GmbH & Co. KG | Verfahren und anordnungen zur audiosignalkodierung |
US7676374B2 (en) * | 2006-03-28 | 2010-03-09 | Nokia Corporation | Low complexity subband-domain filtering in the case of cascaded filter banks |
ATE448638T1 (de) * | 2006-04-13 | 2009-11-15 | Fraunhofer Ges Forschung | Audiosignaldekorrelator |
CN101086845B (zh) * | 2006-06-08 | 2011-06-01 | 北京天籁传音数字技术有限公司 | 声音编码装置及方法以及声音解码装置及方法 |
US7761078B2 (en) * | 2006-07-28 | 2010-07-20 | Qualcomm Incorporated | Dual inductor circuit for multi-band wireless communication device |
JP4753821B2 (ja) * | 2006-09-25 | 2011-08-24 | 富士通株式会社 | 音信号補正方法、音信号補正装置及びコンピュータプログラム |
RU2009116279A (ru) * | 2006-09-29 | 2010-11-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR) | Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов |
US7831001B2 (en) * | 2006-12-19 | 2010-11-09 | Sigmatel, Inc. | Digital audio processing system and method |
CN101051456B (zh) * | 2007-01-31 | 2010-12-01 | 张建平 | 音频相位检测和自动校正设备 |
KR101131880B1 (ko) | 2007-03-23 | 2012-04-03 | 삼성전자주식회사 | 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치 |
CN101046964B (zh) * | 2007-04-13 | 2011-09-14 | 清华大学 | 基于重叠变换压缩编码的错误隐藏帧重建方法 |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
WO2009008068A1 (ja) | 2007-07-11 | 2009-01-15 | Pioneer Corporation | 自動音場補正装置 |
CN101373594A (zh) * | 2007-08-21 | 2009-02-25 | 华为技术有限公司 | 修正音频信号的方法及装置 |
WO2009027886A2 (en) * | 2007-08-28 | 2009-03-05 | Nxp B.V. | A device for and method of processing audio signals |
EP2099027A1 (en) | 2008-03-05 | 2009-09-09 | Deutsche Thomson OHG | Method and apparatus for transforming between different filter bank domains |
KR101230479B1 (ko) * | 2008-03-10 | 2013-02-06 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법 |
US8036891B2 (en) * | 2008-06-26 | 2011-10-11 | California State University, Fresno | Methods of identification using voice sound analysis |
ES2796552T3 (es) * | 2008-07-11 | 2020-11-27 | Fraunhofer Ges Forschung | Sintetizador de señales de audio y codificador de señales de audio |
US8880410B2 (en) * | 2008-07-11 | 2014-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
EP2144229A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Efficient use of phase information in audio encoding and decoding |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
EP2345026A1 (en) | 2008-10-03 | 2011-07-20 | Nokia Corporation | Apparatus for binaural audio coding |
WO2010037426A1 (en) | 2008-10-03 | 2010-04-08 | Nokia Corporation | An apparatus |
PL4231290T3 (pl) | 2008-12-15 | 2024-04-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy |
UA99878C2 (ru) | 2009-01-16 | 2012-10-10 | Долби Интернешнл Аб | Гармоническое преобразование, усовершенствованное перекрестным произведением |
EP2214162A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
JP4945586B2 (ja) | 2009-02-02 | 2012-06-06 | 株式会社東芝 | 信号帯域拡張装置 |
EP2234103B1 (en) * | 2009-03-26 | 2011-09-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Device and method for manipulating an audio signal |
RU2452044C1 (ru) * | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот |
EP2239732A1 (en) * | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
KR101613975B1 (ko) | 2009-08-18 | 2016-05-02 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치 |
EP2502230B1 (en) | 2009-11-19 | 2014-05-21 | Telefonaktiebolaget L M Ericsson (PUBL) | Improved excitation signal bandwidth extension |
JP5651945B2 (ja) * | 2009-12-04 | 2015-01-14 | ヤマハ株式会社 | 音響処理装置 |
KR102020334B1 (ko) | 2010-01-19 | 2019-09-10 | 돌비 인터네셔널 에이비 | 고조파 전위에 기초하여 개선된 서브밴드 블록 |
CN102194457B (zh) * | 2010-03-02 | 2013-02-27 | 中兴通讯股份有限公司 | 音频编解码方法、系统及噪声水平估计方法 |
PL2545551T3 (pl) | 2010-03-09 | 2018-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Poprawiona charakterystyka amplitudowa i zrównanie czasowe w powiększaniu szerokości pasma na bazie wokodera fazowego dla sygnałów audio |
ES2522171T3 (es) | 2010-03-09 | 2014-11-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para procesar una señal de audio usando alineación de borde de patching |
KR101412117B1 (ko) * | 2010-03-09 | 2014-06-26 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 재생 속도 또는 피치를 변경할 때 오디오 신호에서 과도 사운드 이벤트를 처리하기 위한 장치 및 방법 |
CN102214464B (zh) | 2010-04-02 | 2015-02-18 | 飞思卡尔半导体公司 | 音频信号的瞬态检测方法以及基于该方法的时长调整方法 |
CN102314882B (zh) | 2010-06-30 | 2012-10-17 | 华为技术有限公司 | 声音信号通道间延时估计的方法及装置 |
BR112013004362B1 (pt) | 2010-08-25 | 2020-12-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | aparelho para a geração de um sinal descorrelacionado utilizando informação de fase transmitida |
EP2477188A1 (en) * | 2011-01-18 | 2012-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of slot positions of events in an audio signal frame |
WO2012131438A1 (en) * | 2011-03-31 | 2012-10-04 | Nokia Corporation | A low band bandwidth extender |
US9031268B2 (en) | 2011-05-09 | 2015-05-12 | Dts, Inc. | Room characterization and correction for multi-channel audio |
US9117440B2 (en) | 2011-05-19 | 2015-08-25 | Dolby International Ab | Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal |
US8990074B2 (en) | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
CN102800317B (zh) | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
JP6051505B2 (ja) | 2011-10-07 | 2016-12-27 | ソニー株式会社 | 音声処理装置および音声処理方法、記録媒体、並びにプログラム |
CN103258539B (zh) * | 2012-02-15 | 2015-09-23 | 展讯通信(上海)有限公司 | 一种语音信号特性的变换方法和装置 |
BR122021018240B1 (pt) * | 2012-02-23 | 2022-08-30 | Dolby International Ab | Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado |
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
EP2720222A1 (en) * | 2012-10-10 | 2014-04-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns |
WO2014106034A1 (en) | 2012-12-27 | 2014-07-03 | The Regents Of The University Of California | Method for data compression and time-bandwidth product engineering |
WO2014115225A1 (ja) | 2013-01-22 | 2014-07-31 | パナソニック株式会社 | 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法 |
US9728200B2 (en) | 2013-01-29 | 2017-08-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
US9881624B2 (en) | 2013-05-15 | 2018-01-30 | Samsung Electronics Co., Ltd. | Method and device for encoding and decoding audio signal |
JP6216553B2 (ja) | 2013-06-27 | 2017-10-18 | クラリオン株式会社 | 伝搬遅延補正装置及び伝搬遅延補正方法 |
US9449594B2 (en) | 2013-09-17 | 2016-09-20 | Intel Corporation | Adaptive phase difference based noise reduction for automatic speech recognition (ASR) |
KR20160087827A (ko) | 2013-11-22 | 2016-07-22 | 퀄컴 인코포레이티드 | 고대역 코딩에서의 선택적 위상 보상 |
US9990928B2 (en) * | 2014-05-01 | 2018-06-05 | Digital Voice Systems, Inc. | Audio watermarking via phase modification |
EP2963646A1 (en) * | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
US9933458B2 (en) | 2015-03-31 | 2018-04-03 | Tektronix, Inc. | Band overlay separator |
-
2015
- 2015-01-16 EP EP15151463.5A patent/EP2963646A1/en not_active Withdrawn
- 2015-01-16 EP EP15151478.3A patent/EP2963649A1/en not_active Withdrawn
- 2015-01-16 EP EP15151476.7A patent/EP2963648A1/en not_active Withdrawn
- 2015-01-16 EP EP15151465.0A patent/EP2963645A1/en not_active Withdrawn
- 2015-06-25 JP JP2016575802A patent/JP6553657B2/ja active Active
- 2015-06-25 PT PT15734098T patent/PT3164873T/pt unknown
- 2015-06-25 MY MYPI2016002276A patent/MY182904A/en unknown
- 2015-06-25 WO PCT/EP2015/064436 patent/WO2016001067A1/en active Application Filing
- 2015-06-25 CN CN201580036479.7A patent/CN106663439B/zh active Active
- 2015-06-25 ES ES15731358.6T patent/ES2677250T3/es active Active
- 2015-06-25 CA CA2953426A patent/CA2953426C/en active Active
- 2015-06-25 SG SG11201610837XA patent/SG11201610837XA/en unknown
- 2015-06-25 EP EP15732633.1A patent/EP3164870B1/en active Active
- 2015-06-25 AU AU2015282748A patent/AU2015282748B2/en active Active
- 2015-06-25 CA CA2998044A patent/CA2998044C/en active Active
- 2015-06-25 KR KR1020177002926A patent/KR101944386B1/ko active IP Right Grant
- 2015-06-25 MY MYPI2016002277A patent/MY192221A/en unknown
- 2015-06-25 ES ES15734098.5T patent/ES2683870T3/es active Active
- 2015-06-25 TR TR2018/10148T patent/TR201810148T4/tr unknown
- 2015-06-25 EP EP15734098.5A patent/EP3164873B1/en active Active
- 2015-06-25 JP JP2016575797A patent/JP6535037B2/ja active Active
- 2015-06-25 WO PCT/EP2015/064428 patent/WO2016001066A1/en active Application Filing
- 2015-06-25 CN CN201580036493.7A patent/CN106575510B/zh active Active
- 2015-06-25 SG SG11201610732WA patent/SG11201610732WA/en unknown
- 2015-06-25 KR KR1020177002928A patent/KR101978671B1/ko active IP Right Grant
- 2015-06-25 KR KR1020177002927A patent/KR101958361B1/ko active IP Right Grant
- 2015-06-25 CA CA2999327A patent/CA2999327C/en active Active
- 2015-06-25 KR KR1020177002929A patent/KR102025164B1/ko active IP Right Grant
- 2015-06-25 AU AU2015282746A patent/AU2015282746B2/en active Active
- 2015-06-25 BR BR112016029895A patent/BR112016029895A2/pt not_active Application Discontinuation
- 2015-06-25 CN CN201580036465.5A patent/CN106537498B/zh active Active
- 2015-06-25 CN CN201580036475.9A patent/CN106663438B/zh active Active
- 2015-06-25 CA CA2953421A patent/CA2953421C/en active Active
- 2015-06-25 MX MX2016016758A patent/MX356672B/es active IP Right Grant
- 2015-06-25 WO PCT/EP2015/064439 patent/WO2016001068A1/en active Application Filing
- 2015-06-25 MY MYPI2016002294A patent/MY182840A/en unknown
- 2015-06-25 AU AU2015282749A patent/AU2015282749B2/en active Active
- 2015-06-25 MX MX2016016770A patent/MX354659B/es active IP Right Grant
- 2015-06-25 SG SG11201610704VA patent/SG11201610704VA/en unknown
- 2015-06-25 EP EP15731358.6A patent/EP3164869B1/en active Active
- 2015-06-25 ES ES15732633.1T patent/ES2677524T3/es active Active
- 2015-06-25 BR BR112016030343-1A patent/BR112016030343B1/pt active IP Right Grant
- 2015-06-25 MX MX2016017286A patent/MX364198B/es active IP Right Grant
- 2015-06-25 WO PCT/EP2015/064443 patent/WO2016001069A1/en active Application Filing
- 2015-06-25 RU RU2017103107A patent/RU2676414C2/ru active
- 2015-06-25 RU RU2017103102A patent/RU2676416C2/ru active
- 2015-06-25 CA CA2953413A patent/CA2953413C/en active Active
- 2015-06-25 SG SG11201610836TA patent/SG11201610836TA/en unknown
- 2015-06-25 EP EP15732231.4A patent/EP3164872B1/en active Active
- 2015-06-25 PT PT157326331T patent/PT3164870T/pt unknown
- 2015-06-25 TR TR2018/09988T patent/TR201809988T4/tr unknown
- 2015-06-25 ES ES15732231.4T patent/ES2678894T3/es active Active
- 2015-06-25 PL PL15734098T patent/PL3164873T3/pl unknown
- 2015-06-25 MX MX2016016897A patent/MX359035B/es active IP Right Grant
- 2015-06-25 BR BR112016030149-8A patent/BR112016030149B1/pt active IP Right Grant
- 2015-06-25 AU AU2015282747A patent/AU2015282747B2/en active Active
- 2015-06-25 PT PT157313586T patent/PT3164869T/pt unknown
- 2015-06-25 PL PL15731358T patent/PL3164869T3/pl unknown
- 2015-06-25 PL PL15732633T patent/PL3164870T3/pl unknown
- 2015-06-25 JP JP2016575785A patent/JP6458060B2/ja active Active
- 2015-06-25 JP JP2016575800A patent/JP6527536B2/ja active Active
- 2015-06-25 CA CA2953427A patent/CA2953427C/en active Active
- 2015-06-25 RU RU2017103101A patent/RU2676899C2/ru active
- 2015-06-25 RU RU2017103100A patent/RU2675151C2/ru active
- 2015-06-26 TW TW104120798A patent/TWI591619B/zh active
- 2015-06-26 TW TW104120801A patent/TWI587289B/zh active
- 2015-06-26 TW TW104120799A patent/TWI587292B/zh active
- 2015-06-26 TW TW104120800A patent/TWI587288B/zh active
- 2015-07-01 AR ARP150102110A patent/AR101082A1/es active IP Right Grant
- 2015-07-01 AR ARP150102109A patent/AR101044A1/es active IP Right Grant
- 2015-07-01 AR ARP150102112A patent/AR101084A1/es active IP Right Grant
- 2015-07-01 AR ARP150102111A patent/AR101083A1/es unknown
-
2016
- 2016-12-28 US US15/392,459 patent/US10529346B2/en active Active
- 2016-12-28 US US15/392,425 patent/US10140997B2/en active Active
- 2016-12-28 US US15/392,776 patent/US10192561B2/en active Active
- 2016-12-28 US US15/392,485 patent/US10283130B2/en active Active
-
2017
- 2017-11-15 AU AU2017261514A patent/AU2017261514B2/en active Active
-
2018
- 2018-05-16 AU AU2018203475A patent/AU2018203475B2/en active Active
- 2018-06-29 AU AU2018204782A patent/AU2018204782B2/en active Active
- 2018-12-04 US US16/209,571 patent/US10770083B2/en active Active
-
2019
- 2019-01-27 US US16/258,604 patent/US10930292B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050165587A1 (en) * | 2004-01-27 | 2005-07-28 | Cheng Corey I. | Coding techniques using estimated spectral magnitude and phase derived from mdct coefficients |
US20070238415A1 (en) * | 2005-10-07 | 2007-10-11 | Deepen Sinha | Method and apparatus for encoding and decoding |
JP2013135433A (ja) * | 2011-12-27 | 2013-07-08 | Fujitsu Ltd | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
CN103490678A (zh) * | 2013-10-17 | 2014-01-01 | 双峰格雷斯海姆医药玻璃(丹阳)有限公司 | 主从机同步控制方法及系统 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI587288B (zh) | 利用水平相校正處理音訊信號之音訊處理器及方法 |