TWI721328B - 解碼器的雜訊衰減 - Google Patents

解碼器的雜訊衰減 Download PDF

Info

Publication number
TWI721328B
TWI721328B TW107137188A TW107137188A TWI721328B TW I721328 B TWI721328 B TW I721328B TW 107137188 A TW107137188 A TW 107137188A TW 107137188 A TW107137188 A TW 107137188A TW I721328 B TWI721328 B TW I721328B
Authority
TW
Taiwan
Prior art keywords
interval
item
information
value
context
Prior art date
Application number
TW107137188A
Other languages
English (en)
Other versions
TW201918041A (zh
Inventor
貴勞美 夫杰斯
斯納哈 達斯
湯姆 貝克斯托
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201918041A publication Critical patent/TW201918041A/zh
Application granted granted Critical
Publication of TWI721328B publication Critical patent/TWI721328B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

一種解碼器用於解碼在一位元流中的一頻率域輸入信號。一位元流讀取器從該位元流提供一輸入信號作為一幀序列,每個幀被細分為多個區間。一上下文定義器為處理中的一個區間定義一上下文,該上下文包括在至少一個附加區間,其與該處理中的區間有一預定的位置關係。依據該頻率域輸入信號的一版本及該上下文,一統計關係和/或信息估計器生成統計關係和/或信息。一數值估計器基於該估計的統計關係和/或信息和關於量化雜訊的統計關係和/或信息,來處理和獲得該處理中的區間的該值的一估計。一變換器將該估計信號變換為一時域信號。

Description

解碼器的雜訊衰減
本揭露涉及雜訊處理,並且特別是,涉及一解碼器的雜訊衰減。
一解碼器通常被用於解碼一位元流(例如,接收或儲存在一儲存設備中)。儘管如此,信號可能受到雜訊的影響,例如量化雜訊。因此,這種雜訊的衰減是一個重要目標。
本揭露的較佳實施例係隨後參照附圖描述。
依據一個觀點,本揭露提供一種解碼器,用於解碼在一位元流中定義的一頻率域信號,該頻率域輸入信號受到量化雜訊的影響,該解碼器包括:一位元流讀取器,其用於從該位元流提供該輸入信號的一版本作為一幀序列,每個幀被細分為多個區間,每個區間具有一採樣值;一上下文定義器,其被配置為一個處理中的區間定義一上下文,該上下文包括至少一個附加區間,其與該處理中的區間有一預定的位置關係;一統計關係和/或信息估計器,其被配置為提供該處理中的區間和該至少一個附加區間之間的統計關係和/或信息、和/或該處理中的區間和該至少一個附加區間的信息,其中該統計關係估計器包括一量化雜訊關係和/或信息估計器,其被配置為提供關於量化雜訊的統計關係和/或信息;一數值估計器,其被配置為基於該估計的統計關係和/或信息和關於量化雜訊的統計關係和/或信息,來處理和獲得該處理中的區間的該值的一估計;以及一變換器,用於將該估計信號變換為一時域信號。
依據一個觀點,本揭露提出一種解碼器,用於解碼在一位元流中定義的一頻率域信號,該頻率域輸入信號受到雜訊的影響,該解碼器包括:一位元流讀取器用於從該位元流提供該輸入信號的一版本作為一幀序列,每個幀被細分為多個區間,每個區間具有一採樣值;一上下文定義器被配置為一個處理中的區間定義一上下文,該上下文包括至少一個附加區間,其與該處理中的區間有一預定的位置關係;一統計關係和/或信息估計器被配置為提供關於該處理中的區間和該至少一個附加區間之間的統計關係和/或信息、和/或該處理中的區間和該至少一個附加區間的信息,其中該統計關係估計器包括一雜訊關係和/或信息估計器,其被配置為提供關於雜訊的統計關係和/或信息;一數值估計器其被配置為基於該估計的統計關係和/或信息和關於雜訊的統計關係和/或信息,來處理和獲得該處理中的區間的該值的一估計;以及一該變換器用於將該估計信號變換為一時域信號。
依據一個觀點,該雜訊係為非量化雜訊的雜訊。根據一個觀點,該雜訊是量化雜訊。
依據一個觀點,該上下文定義器被配置為在先前處理的區間中選擇該至少一個附加區間。
依據一個觀點,該上下文定義器被配置為基於該區間的該頻帶選擇該至少一個附加區間。
依據一個觀點,該上下文定義器被配置為在已經處理的那些區間中,在一預定閾值內選擇該至少一個附加區間。
依據一個觀點, 該上下文定義器被配置為針對在不同頻帶的區間選擇不同的上下文。
依據一個觀點,該數值估計器被配置為作為一維納(Wiener)濾波器操作,以提供該輸入信號的一最佳估計。
依據一個觀點,該數值估計器被配置為從該至少一個附加區間的至少一個採樣值獲得該處理中的區間的該值的該估計。
依據一個觀點,該解碼器其更包括一測量器,其被配置為提供與該上下文的該至少一個附加區間的該先前執行的估計相關聯的一測量值,其中,該數值估計器被配置為基於該測量值獲得該處理中的區間的該值的該估計。
依據一個觀點,該測量值是與該上下文的該至少一個附加區間的該能量相關聯的一值。
依據一個觀點,該測量值是與該上下文的該至少一個附加區間)相關聯的一增益。
依據一個觀點,該測量器被配置為獲得作為向量的該純量乘積的該增益,其中一第一向量包含該上下文的該至少一個附加區間的值,並且該第二個向量是該第一個向量的該轉置共軛向量。
依據一個觀點,該統計關係和/或信息估計器被配置為提供該統計關係和/或信息作為預定估計、和/或在該處理中的區間與該上下文的該至少一個附加區間之間的預期統計關係。
依據一個觀點,該統計關係和/或信息估計器被配置為提供該統計關係和/或信息作為關係,其係基於在該處理中的區間與該上下文的該至少一個附加區間之間的位置關係。
依據一個觀點,該統計關係和/或信息估計器被配置為提供該統計關係和/或信息,而不論該處理中的區間和/或該至少一個附加區間的該值為何。
依據一個觀點,該統計關係和/或信息估計器被配置為以方差、協方差、相關性和/或自相關值的該形式提供該統計關係和/或信息。
依據一個觀點,該統計關係和/或信息估計器被配置為以一矩陣的該形式提供統計關係和/或信息,以建立該處理中的區間和/或該上下文的該至少一個附加區間之間的方差、協方差、相關性和/或自相關值的關係。
依據一個觀點,該統計關係和/或信息估計器被配置為以一正規化矩陣的該形式提供該統計關係和/或信息,以建立該處理中的區間和/或該上下文的該至少一個附加區間之間的方差、協方差、相關性和/或自相關值的關係。
依據一個觀點,該矩陣經由離線訓練而被獲得。
依據一個觀點,該數值估計器被配置為經由一能量相關或增益值來縮放該矩陣的元素,以便考慮該處理中的區間和/或該上下文的該至少一個附加區間之間的該能量和/或增益變化。
依據一個觀點,該數值估計器被配置為基於一關係以獲得該處理中的區間的該值的該估計,該關係為
Figure 02_image001
其中
Figure 02_image003
Figure 02_image005
分別是雜訊和協方差矩陣,
Figure 02_image007
是具有
Figure 02_image009
維度的一雜訊觀測向量,
Figure 02_image011
是該上下文長度。
依據一個觀點,該數值估計器被配置為基於一關係以獲得該處理中的區間的該值的該估計
Figure 02_image013
其中,
Figure 02_image005
是一正規化協方差矩陣,
Figure 02_image005
是該雜訊協方差矩陣,
Figure 02_image007
是具有
Figure 02_image009
維度的一雜訊觀察向量,並且與該處理中的區間和該上下文的該至少一個附加區間相關聯,
Figure 02_image011
是該上下文長度,γ是一縮放增益。
依據一個觀點,該值估計器被配置為如果該上下文的每個該附加區間的該採樣值對應到該上下文的該附加區間的該估計值,就獲得該處理中的區間的該值的該估計。
依據一個觀點,該數值估計器被配置為如果該處理中的區間的該採樣值被預期在一上限值和一下限值之間,就獲得該處理中的區間的該值的該估計。
依據一個觀點,該數值估計器被配置為基於一似然性函數(likelihood function)的一最大值來獲得該處理中的區間的該值的該估計。
依據一個觀點,該數值估計器被配置為基於一期望值來獲得該處理中的區間的該值的該估計。
依據一個觀點,該數值估計器被配置為基於一多元高斯隨機變量的該期望值來獲得該處理中的區間的該值的該估計。
依據一個觀點,該數值估計器被配置為基於一條件多元高斯隨機變量的該期望值來獲得該處理中的區間的該值的該估計。
依據一個觀點,該採樣值在該對數幅度(Log-magnitude)域中。
依據一個觀點,該採樣值該在該感知域中。
依據一個觀點,該統計關係和/或信息估計器被配置為向該數值估計器提供該信號的一平均值。
依據一個觀點,該統計關係和/或信息估計器被配置為基於該處理中的區間與該上下文的至少一個附加區間之間的方差相關和/或協方差相關的關係,來提供該乾淨信號的一平均值。
依據一個觀點,該統計關係和/或信息估計器被配置為基於該處理中的區間的該預期值,來提供該乾淨信號的一平均值。
依據一個觀點,該統計關係和/或信息估計器被配置為基於該估計的上下文,以更新該信號的一平均值。
依據一個觀點,該其中統計關係和/或信息估計器被配置為向該數值估計器提供一方差相關和/或標準偏差值相關的值。
依據一個觀點,該統計關係和/或信息估計器被配置為基於該處理中的區間與該上下文的該至少一個附加區間之間的方差相關和/或協方差相關的關係,向該數值估計器提供一方差相關和/或標準偏差值相關的值。
依據一個觀點,該雜訊關係和/或信息估計器被配置為針對每個區間,提供用一上限值和一下限值,其係基於該信號在該上限值和該下限值之間的該預期,以估計該信號。
依據一個觀點,該輸入信號的該版本具有一量化值,該量化值是一量化等級,該量化等級是一數值,其選自量化等級中的一離散數目。
依據一個觀點,該量化等級的該數目和/或數值和/或比例係由該編碼器用信號通知和/或在該位元流中用信號通知。
依據一個觀點,該數值估計器被配置為獲得該處理中的區間的該值的該估計為:
Figure 02_image015
,其中
Figure 02_image017
是該處理中的區間的該估計,
Figure 02_image019
Figure 02_image021
分別是該當前量化區間的該下限和上限,並且
Figure 02_image023
是在給定
Figure 02_image025
下、
Figure 02_image027
的該條件機率,
Figure 02_image029
是一估計的上下文向量。
依據一個觀點,該數值估計器被配置為基於該期望,以獲得該處理中的區間的該值的該估計為:
Figure 02_image031
,其中,X是該處理中的區間的一特定值[X],表示為一截斷的高斯隨機變量,其中
Figure 02_image033
,其中
Figure 02_image019
是該下限值,
Figure 02_image021
是該上限值,
Figure 02_image035
Figure 02_image037
Figure 02_image039
,μ和σ是該分佈的平均值和方差。
依據一個觀點,該預定位置關係經由離線訓練而被獲得。
依據一個觀點,該處理中的區間和該至少一個附加區間之間的該統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息中的至少一個,係經由離線訓練而被獲得。
依據一個觀點,該量化雜訊關係和/或信息中的至少一個,係經由離線訓練而被獲得。
依據一個觀點,該輸入信號是一音頻信號。
依據一個觀點,該輸入信號是一語音信號。
依據一個觀點,該上下文定義器、該統計關係和/或信息估計器、該雜訊關係和/或信息估計器以及該值估計器中的至少一個被配置為執行一後濾波操作,以獲得該輸入信號的一乾淨估計。
依據一個觀點,該上下文定義器被配置為定義具有多個附加區間的該上下文。
依據一個觀點,該上下文定義器被配置為將該上下文定義為一頻率/時間圖中的區間的一簡單連接的鄰近區域。
依據一個觀點,該位元流讀取器被配置為從該位元流中,避免幀間信息的該解碼。
依據一個觀點,該解碼器進一步被配置為決定該信號的該位元率,並且在該位元率高於一預定位元率閾值的情況下,繞過該上下文定義器、該統計關係和/或信息估計器、該雜訊關係和/或信息估計器、該值估計器中的至少一個。
依據一個觀點,該解碼器進一步包括一處理區間儲存單元,其儲存關於該先前處理的區間的信息,該上下文定義器被配置為使用至少一個先前處理的區間作為該至少一個附加區間來定義該上下文。
依據一個觀點,該上下文定義器被配置為使用至少一個未處理的區間作為該至少一個附加區間來定義該上下文。
依據一個觀點,該統計關係和/或信息估計器被配置為以一矩陣的該形式提供該統計關係和/或信息,以建立該處理中的區間和該上下文的該至少一個附加區間之間的方差、協方差、相關性和/或自相關值的關係,其中,該統計關係和/或信息估計器被配置為基於與該輸入信號的該諧度相關聯的一矩陣,從多個預定義矩陣中選擇一個矩陣。
依據一個觀點,該雜訊關係和/或信息估計器被配置為以一矩陣的該形式提供關於雜訊的該統計關係和/或信息,以建立與該雜訊相關的方差、協方差、相關性和/或自相關的關係,其中,該統計關係和/或信息估計器被配置為基於與該輸入信號的該諧度相關聯的一矩陣,從多個預定義矩陣中選擇一個矩陣。
本揭露還提供了一種系統,包括根據以上和/或以下任一觀點的一編碼器和一解碼器,該編碼器被配置為提供具有編碼的該輸入信號的該位元流。
在範例中,本揭露提供了一種方法,包括:為一輸入信號的一個處理中的區間定義一上下文,該上下文包括至少一個附加區間,其在一頻率/時間空間中與該處理中的區間有一預定的位置關係;以及基於該處理中的區間和該至少一個附加區間之間的統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息、以及基於關於量化雜訊的統計關係和/或信息,估計該正在處理中的區間的該值。
在範例中,本揭露提供了一種方法,包括:為一輸入信號的一個處理中的區間定義一上下文,該上下文包括至少一個附加區間,其在一頻率/時間空間中與該處理中的區間有一預定的位置關係;以及基於該處理中的區間和該至少一個附加區間之間的統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息、以及基於關於不是量化雜訊之雜訊的統計關係和/或信息,估計該處理中的區間的該值。
上述方法之一可以使用上面和/或下面任何觀點中的任何一個的設備。
在範例中,本揭露提供了一種儲存指令的非暫時性儲存單元,該指令在由一處理器執行時,使該處理器執行上面和/或下面任何觀點的任何方法。
本揭露主題的各種目的、特徵、面向和優點將從以下對優選實施例的詳細描述以及附圖中變得更加明顯,附圖中相同的附圖標記表示相同的部件。
所示實施例在附圖中以例子,而非限制的方式顯示,其中相同的參考標號表示相似的元件。
1.1 例子
圖1.1係顯示一解碼器110的一範例。圖1.2係顯示由該解碼器110處理的一信號版本120的一表示。
該解碼器110可以解碼在一位元流111(數位資料流)中編碼的一頻率域輸入信號,該位元流111是由一編碼器生成的。該位元流111可以已經儲存在例如一記憶體中,或者被發送到與該解碼器110相關聯的一接收器設備。
當生成該位元流時,該頻率域輸入信號可能已經受到量化雜訊影響。在其他範例中,該頻率域輸入信號可能經受其他類型的雜訊影響。以下描述允許避免、限制或降低該雜訊的技術。
該解碼器110可以包括一位元流讀取器113(通信接收器、大容量記憶體讀取器等)。從該位元流111,該位元流讀取器113可以提供該原始輸入信號的一版本113’(在一時間/頻率二維空間中,以圖1.2中的120表示)。該輸入信號的版本113’、120可以被視為一幀序列121。在範例中,每個幀121可以是一頻率域(FD、frequency domain),用於針對一時隙的該原始輸入信號的表示。例如,每個幀121可以與20ms的一時隙相關聯(其他長度可以被定義)。每個幀121可以用離散時隙的一離散序列的一整數數字“t”來標識。例如,該第(t+1)幀緊接在該第t幀之後。每個幀121可以被細分為多個頻譜區間(這裡表示為123-126)。對於每個幀121,每個區間係與一特定頻率和/或特定頻帶相關聯。該頻帶可以預先決定,在該某種意義上,該幀的每個區間可以被預先分配給一特定頻帶。該頻帶可以以一離散序列編號,每個頻帶由一漸進數字“k”標識。例如,該第(k+1)頻帶的頻率可以高於該第k頻帶的頻率。
該位元流111(以及信號113’、120)可以每個時間/頻率區間與一特定值(例如,採樣值)相關聯的一方式被提供。該採樣值通常表示為Y(k, t),並且在某些情況下可以是一複數值。在一些範例中,該採樣值Y(k, t)可以是該解碼器110在該頻帶k的該時隙t處關於原始的該唯一知識。因此,因為在該編碼器處,量化該原始輸入信號的必要性會在生成該位元流時和/或在數位化該原始類比信號時會引入了近似誤差(其他類型的雜訊也可以在其他範例中被系統化),該採樣值Y(k, t)通常受到量化雜訊的損害,該採樣值Y(k, t)(吵雜的語音)可以被理解以表示為: Y(k, t)=X(k, t)+V(k, t), 其中X(k, t)是該乾淨信號(其為較佳地被獲得)、V(k, t)是量化雜訊信號(或其它類型的雜訊信號)。已經注意到的是,可以利用這裡描述的技術達到該乾淨信號的一適當的最佳估計。
操作可以提供每個區間在一個特定時間被處理,例如,以遞歸的方式。在每一次疊代時,要處理的一區間會被識別(例如,圖1.2中的區間123或C0 ,其係與時刻t=4和頻帶k=3相關聯,該區間被稱為「處理中的區間」)。關於該處理中的區間123,該信號120(113’)的其他區間可以分為兩類: - 一第一類未處理的區間126(在圖1.2中用虛線圓圈表示),例如,將在未來的疊代中處理的區間;以及 - 一第二類已經處理的區間124、125(在圖1.2中用方型表示),例如在先前的疊代中已經處理過的區間。
對於一個處理中的區間123,可以基於至少一個附加區間(其可以是圖1.2中的方型區間之一)獲得一最佳估計。該至少一個附加區間可以是多個區間。
該解碼器110可以包括一上下文定義器114,其針對一個處理中的區間123(C0 )定義一上下文114’(或上下文區塊)。該上下文114’包括在至少一個附加區間(例如,一組區間),其與該處理中的區間123有一預定的位置關係。在圖1.2的範例中,區間123(C0 )的該上下文114’係由C1 -C10 指示的十個附加區間124(118’)所形成(形成一個上下文的附加區間的該通用數量在此用“c”表示:在圖1.2中,c=10)。該附加區間124(C1 -C10 )可以是該處理中的區間123(C0 )一附近的區間和/或可以是已經處理的區間(例如,它們的值可能已經在先前的疊代期間被獲得)。該附加區間124(C1 -C10 )可以是最接近該處理中的區間123(C0 )(例如,與C0 的一距離小於一預定閾值的那些區間,例如,三個位置)的那些區間(例如,在已經處理過的區間)。該附加區間124(C1 -C10 )可以是該區間(例如,在該已經處理過的區間),其被預期與該處理中的區間123(C0 )具有最高相關性。該上下文114’可以被定義在一鄰近區域中以便避免在該頻率/時間表示中的「空洞(holes)」,所有該上下文區間124彼此緊鄰並且與該處理中的區間123緊密相鄰(該上下文區間124由此形成一「簡單連接」的鄰近區域)。 (該已經處理過的區間,儘管未被選擇用於該處理中的區間123的該上下文114’,其係用虛線方框顯示並用125表示)。該附加區間124(C1 -C10 )可以彼此具有一編號關係(例如,C1 、C2 、......、Cc ,其中c是該上下文114’中的區間的該數量,例如10)。該上下文114’的每個附加區間124(C1 -C10 )可以相對於該處理中的區間123(C0 )而處於一固定位置。該附加區間124(C1 -C10 )和該處理中的區間123(C0 )之間的該位置關係可以基於該特定頻帶122(例如,基於頻率/頻帶編號k)。在圖1.2的範例中,該處理中的區間123(C0 )係位於第3頻帶(k=3),並且在一時刻t(在這種情況下,t=4)。在這種情況下,其可以提供: - 該上下文114’的該第一個附加區間C1 是時刻t-1=3、頻帶k=3的區間; - 該上下文114’的第二個附加區間C2 是時刻t=4、頻帶k-1=2的區間; - 該上下文114’的第三個附加區間C3 時刻t-1=3、頻帶k-1=2的區間; - 該上下文114’的第四個附加區間C4 時刻t-1=3、頻帶k+1=4的區間; - 依此類推。 (在該本文件的該後續部分中,「上下文區間」可用於指示該上下文的一「附加區間」124)
在範例中,在處理了一通用第t幀的所有該區間之後,該後續第(t+1)幀的所有該區間可以被處理。對於每個通用第t幀,該第t幀的所有該區間可以被疊代地處理。儘管可以提供其他序列和/或路徑。
因此,對於每個第t幀,該處理中的區間123(C0 )與形成該上下文114’(120)的該附加區間124之間的該位置關係,可以基於該處理中的區間123(C0 )的該特定頻帶k來定義。當在一前一次疊代期間,該處理中的區間是現行指示為C6 (t=4、k=1)的區間時,一不同形狀的該上下文已經被選擇了,因為在k=1以下沒有頻帶被定義。然而,當該處理中的區間是t=3、k=3的區間(現行指示為C1 )時,該上下文具有與圖1.2的該上下文相同的形狀(但是向左錯開一個時刻)。例如,在圖2.1中,將圖2.1(a)的該區間123(C0 )的該上下文114’與當C2 是該處理中的區間時,先前使用的該區間C2 的該上下文114”進行比較:上下文114’和114”彼此不同。
因此,針對每個處理中的區間123(C0 ),該上下文定義器114可以是疊代地檢索附加區間124(118’,C1 -C10 )以形成包含已經處理的區間的一上下文114’的一單元,該已經處理的區間與該處理中的區間123(C0 )具有一預期的高相關性(具體地,該上下文的該形狀可以基於該處理中的區間123的該特定頻率)。
該解碼器110可以包括一統計關係和/或信息估計器115,以在該處理中的區間123(C0 )和該上下文區間118’、124之間提供統計關係和/或信息115’、119’。該統計關係和/或信息估計器115可以包括一量化雜訊關係和/或信息估計器119,以估計關於該量化雜訊的關係和/或信息119’、和/或影響該上下文114’的每個區間124(C1 -C10 )的該雜訊和/或該處理中的區間123(C0 )的該雜訊之間的統計雜訊相關關係。
在範例中,一預期關係115’可以包括一矩陣(例如,一協方差矩陣(a covariance matrix)),其包含區間之間(例如,該處理中的區間C0 和該上下文C1 -C10 的該附加區間)的預期協方差關係(或其他預期統計關係)。該矩陣可以是一方形矩陣,其中每行和每列與一區間相關聯。因此,該矩陣的該尺寸可以是(c+1)×(c+1)(例如,在圖1.2的範例中為11)。在範例中,該矩陣的每個元素可以指示與該矩陣的該行相關聯的該區間以及與該矩陣的該列相關聯的該區間之間的一預期協方差(和/或相關性、和/或另一統計關係)。該矩陣可以是埃爾米特(Hermitian)矩陣(在係數為實數的情況下是對稱的)。該矩陣可以在對角線上包括與每個區間相關聯的一方差值(variance value)。在範例中,可以使用其他形式的映射,以取代一矩陣。
在範例中,經由一統計關係,一預期雜訊關係和/或信息119’可以被形成。然而,在這種情況下,該統計關係可以指該量化雜訊。不同的協方差可以被用於不同的頻帶。
在範例中,該量化雜訊關係和/或信息119’可以包括一矩陣(例如,一協方差矩陣),其包含影響該等區間的該量化雜訊之間的預期協方差關係(或其他預期統計關係)。該矩陣可以是一方形矩陣,其中每行和每列與一區間相關聯。因此,該矩陣的該尺寸可以是(c+1)×(c+1)(例如,11)。在範例中,該矩陣的每個元素可以指示損害與該行相關聯的該區間的該量化雜訊以及損害與該列相關聯的該區間的該量化雜訊之間的一預期協方差(和/或相關性、和/或另一統計關係)。該協方差矩陣可以是Hermitian矩陣(在係數為實數的情況下是對稱的)。該矩陣可以在對角線中上包括與每個區間相關聯的一方差值。在範例中,可以使用其他形式的映射,以取代一矩陣。
已經注意到的是,經由使用該等區間之間的預期統計關係來處理該採樣值Y(k, t),可以獲得該乾淨值X(k,t)的一更好估計。
該解碼器110可以包括一數值估計器116,用於基於關於量化雜訊119’的該預期的統計關係和/或信息、和/或統計關係和/或信息119’來處理並獲得該信號113’的該採樣值X(k, t)(在該處理中的區間123,C0 )的一估計116’。
因此,該估計116’是該乾淨值X(k,t)的一良好估計,其可以被提供給一頻率域到時域(FD-to-TD)變換器117,以獲得一增強的時域輸出信號112。
該估計116’可以儲存在一處理區間儲存單元118上(例如,與時刻t和/或頻帶k相關聯)。在隨後的疊代中,該估計116’的該儲存值可以將該已經處理的估計116’作為附加區間118’(參見上文)而提供給該上下文定義器114,以便定義該等上下文區間124。
圖1.3係顯示一解碼器130的細節,在一些觀點,該解碼器130可以是該解碼器110。在這種情況下,在該值估計器116處,該解碼器130操作以作為一維納濾波器(Wiener filter)。
在範例中,該估計的統計關係和/或信息115’可以包括一正規化矩陣
Figure 02_image041
。該正規化矩陣
Figure 02_image041
可以是一正規化相關性矩陣,並且可以獨立於該特定採樣值Y(k, t)。該正規化矩陣
Figure 02_image041
可以是例如包含區間C0 -C10 之間的關係的一矩陣。該正規化矩陣
Figure 02_image041
可以是靜態的,並且可以儲存在例如一記憶體中。
在範例中,關於量化雜訊119’的該估計的統計關係和/或信息可以包括一雜訊矩陣
Figure 02_image043
。該矩陣可以是一相關性矩陣,並且可以關於該雜訊信號V(k, t)的關係,獨立於該特定採樣值Y(k, t)的該數值。該雜訊矩陣
Figure 02_image043
可以估計該等區間C0 -C10 之間的雜訊信號之間的關係的一矩陣,例如,與該乾淨語音值Y(k, t)無關。
在範例中,一測量器131(例如,增益估計器)可以提供該先前執行的估計116’的一測量值131’。該測量值131’可以是例如先前執行的估計116’的一能量值和/或增益γ(因此該能量值和/或增益γ可以取決於該上下文114’)。一般而言,處理中的區間123的該估計116’和該測量值131’可以被視為一向量
Figure 02_image045
,,其中
Figure 02_image047
是該處理中的區間123(C0 )的該採樣值和
Figure 02_image049
是針對該上下文區間124(C1 -C10 )的該先前獲得的值。可以對該向量
Figure 02_image051
進行正規化,以便獲得一正規化向量
Figure 02_image053
。經由該正規化向量和其轉置向量的該純量乘積也可以獲得該增益γ,例如,獲得
Figure 02_image055
(其中
Figure 02_image057
Figure 02_image059
的轉置,因此γ是一純量實數)。
一縮放器132可被用於經由該增益γ而縮放該正規化矩陣
Figure 02_image061
,以獲得一縮放矩陣132’,其考慮與該處理中的區間123的該競爭相關聯的能量測量(和/或增益γ)。這是為了考慮到語音信號的增益具有很大的波動。因此考慮該能量的一新矩陣
Figure 02_image063
可以被獲得。值得注意的是,雖然矩陣
Figure 02_image061
和矩陣
Figure 02_image043
(和/或包含預先儲存在一記憶體中的元素)可以是預定的,而該矩陣
Figure 02_image063
實際上經由處理來計算的。在替代範例中,替代計算該矩陣
Figure 02_image063
,一矩陣
Figure 02_image063
是可以從多個預先儲存的矩陣
Figure 02_image063
中被選擇,每個預先儲存的矩陣
Figure 02_image063
是與一特定範圍的測量增益和/或能量值相關聯。
在計算或選擇矩陣
Figure 02_image063
之後,可以使用一加法器133逐個元素地添加該矩陣
Figure 02_image063
的該元素與該雜訊矩陣
Figure 02_image043
的元素,以獲得一求和值133’(求和矩陣
Figure 02_image063
+
Figure 02_image043
)。在另外範例中,代替該計算,基於該測量的增益和/或能量值,該求和矩陣
Figure 02_image063
+
Figure 02_image043
可以在多個預先儲存的求和矩陣中被選擇。
在一反轉區塊134中,該求和矩陣
Figure 02_image063
+
Figure 02_image043
可以被反轉以獲得
Figure 02_image065
,以做為值134’。在替代範例中,代替該計算,基於該測量的增益和/或能量值,該反轉矩陣
Figure 02_image065
可以在多個預先儲存的反轉矩陣中被選擇。
該反轉矩陣
Figure 02_image065
(值134’)可乘以
Figure 02_image063
得到值135’作為
Figure 02_image067
。在替代範例中,代替該計算,基於該測量的增益和/或能量值,該矩陣
Figure 02_image067
可以在多個預先儲存的矩陣中被選擇。
此時,在一乘法器136處,該值135’可以乘以該向量輸入信號y。該向量輸入信號可以被視為一向量
Figure 02_image069
Figure 02_image071
,其包括與該處理中的區間123(C0 )和該上下文區間(C1 -C10 )相關聯的該嘈雜的輸入。
因此,該乘法器136的該輸出136’可以因此是
Figure 02_image073
,針對一維納濾波器(Wiener filter)。
在圖1.4中,其係顯示根據一範例的一方法140(例如,上述範例之一)。在步驟141,該處理中的區間123(C0 )(或處理區間)被定義為時刻t、頻帶k和採樣值Y(k, t)的該區間。在步驟142(例如,由該上下文定義器114處理),基於該頻帶k檢索該上下文的該形狀(取決於該頻帶k的該形狀可以儲存在一記憶體中)。在考慮了該時刻t和該頻帶k之後,該上下文的該形狀還定義了該上下文114’。在步驟143(例如,由該上下文定義器114處理),該上下文區間C1 -C10 (118’,124)因此被定義(例如,該先前處理的區間係在上下文中的)並且根據一預先定義的順序進行編號(它可以與該形狀一起儲存在該記憶體中,也可以基於該頻帶k)。在步驟144(例如,由該估計器115處理),矩陣可以被獲得(例如,正規化矩陣
Figure 02_image061
、雜訊矩陣
Figure 02_image075
、或上面討論的另一個矩陣等)。在步驟145(例如,由該數值估計器116處理),該處理中的區間C0 的該值可以例如使用該Wiener濾波器而被獲得。在範例中,與該能量相關聯的一能量值(例如,上面的該增益γ)如上所討論的可以被使用。在步驟146,驗證是否存在與該時刻t相關聯的其他頻帶且尚未處理的另一個區間126。如果存在需要處理的其他頻帶(例如,頻帶k+1),則在步驟147更新該頻帶的值(例如,k++),並且在時刻t和頻帶k+1處選擇一新的處理區間C0 ,重新疊代從步驟141的操作。如果在步驟146確認沒有其他頻帶需被處理(例如,因為在頻帶k+1處沒有要處理的其他頻段),則在步驟148更新該時刻t(例如,或者t++)並且選擇一第一頻帶(例如,k=1),以重複步驟141的該操作。
參考圖1.5。而圖1.5(a)對應於圖1.2,並且係顯示在一頻率/時間的空間中的一序列的採樣值Y(k, t)(每個與一區間相關聯)。圖1.5(b)係顯示針對該時刻t-1的一幅度/頻率圖中的一採樣值序列,以及圖1.5(c)係顯示針對該時刻t的一幅度/頻率圖中的一採樣值序列,其是與當前該處理中的區間123(C0 )相關聯的該時刻。該採樣值Y(k, t)被量化並在圖1.5(b)和圖1.5(c)中被表示。對於每個區間,多個量化等級QL(t, k)可以被定義(例如,該量化等級可以是量化等級的一離散的數目之一,以及該量化等級的該數目和/或數值和/或比例,例如,可以由該編碼器用信號通知,和/或可以在該位元流111中用信號通知。該採樣值Y(k, t)必然是該量化等級之一。該採樣值可以在該對數域(Log-domain)中。該採樣值可以在該感知域中。每個區間的每個值可以被理解為可以被選擇的該量化級別(其是離散數量)之一(例如,如在該位元流111中所寫)。為每個k和t定義一上層u(上限值)和一下層l(下限值)(為簡潔起見,這裡避免使用符號u(k, t)和u(k, t))。這些上限值和下限值可以由該雜訊關係和/或信息估計器119所定義。該等上限值和下限值確實是與用於量化該值X(k,t)的該量化單元有關的信息,並給出關於量化雜訊的該動態的信息。
可以建立每個區間的該值116’的一最佳估計,以作為該值X在該上限值u和該下限值l之間的該條件似然性的該期望值,如果該處理中的區間123(C0 )以及該上下文區間124的該量化採樣值分別等於該處理中的區間的該估計值以及該上下文的該附加區間的該估計值。以這種方式,可以估計該處理中的區間123(C0 )的該幅度。例如,基於該乾淨值X的平均值(μ)和標準偏差值(σ),其可以由該統計關係和/或信息估計器所提供,來獲得該期望值。
其可以基於下面詳細討論的一程序,獲得該乾淨值X的該平均值(μ)和該標準偏差值(σ),該程序可以是疊代的。
例如(參見1.3及其小節),該乾淨信號X的該平均值可以經由更新一非條件平均值(
Figure 02_image077
),其係針對該處理中的區間123計算的,而不考慮任何上下文,以獲得考慮上該下文區間124(C1 -C10 )的一新平均值(
Figure 02_image079
)。在每次疊代時,使用該處理中的區間123(C0 )與該上下文區間的估計值(用該向量
Figure 02_image029
表示)以及該上下文區間124的該平均值(用該向量
Figure 02_image081
表示)之間的差,該非條件計算平均值(
Figure 02_image077
)可以被修改。這些值可以乘以相關聯的值,其係與該處理中的區間123(C0 )和該上下文區間124(C1 -C10 )之間的該協方差和/或方差(covariance and/or variance)相關聯。
從在該處理中的區間123(C0 )和該上下文區間124(C1 -C10 )之間的方差和協方差關係(例如該協方差矩陣
Figure 02_image083
,該標準偏差值(σ)可以被獲得。
用於獲得該期望值(並因此針對估計該X值116’)的一方法的一範例,可以由以下虛擬碼提供:function estimation (k,t) // regarding Y(k,t) for obtaining an estimate X (116’) for t=1 to maxInstants // sequentially choosing the instant t for k=1 to Number_of_bins_at_instant_t // cycle all the bins QL <- GetQuantizationLevels(Y(k,t)) // to determine how many quantization levels are provided for Y(k,t) l,u <- GetQuantizationLimits(QL,Y(k,t)) // obtaining the quantized limits u and l (e.g., from noise relationship //and/or information estimator 119)
Figure 02_image085
//
Figure 02_image087
and
Figure 02_image089
(updated values) are obtained pdf
Figure 02_image091
truncatedGaussian(mu_up,sigma_up,l,u) // the probability distribution function is calculated
Figure 02_image093
Figure 02_image091
expectation(pdf) // the expectation is calculated end for end for endfunction
1.2 語音和音頻編碼的複數頻譜相關性的後濾波
在本節及其小節中的範例主要涉及用於語音和音頻編碼的具有複數頻譜相關性的後濾波技術。
在本範例中,以下的圖式被提及:
圖2.1:(a)大小為L=10的上下文區塊;和(b)該上下文區間
Figure 02_image095
的循環的上下文區塊。
圖2.2:(a)常規量化輸出的直方圖;(b)量化誤差的直方圖;(c)使用隨機化的量化輸出的直方圖;和(d)使用隨機化的量化誤差的直方圖。該輸入是一非相關的高斯分佈信號(uncorrelated Gaussian distributed signal)。
圖2.3:(i)真實語音的頻譜圖;(ii)量化語音的頻譜圖;和(iii)隨機化後量化語音的頻譜圖。
圖2.4:該所提出系統的方塊圖,包括用於測試目的之該編解碼器的模擬。
圖2.5:(a)顯示該pSNR的示意圖;(b)顯示後濾波後pSNR改善的示意圖;和(c)顯示不同上下文下的pSNR改善的示意圖。
圖2.6:MUSHRA聽力測試結果a)所有條件下所有項目的得分;b)針對每個輸入pSNR條件的男性和女性的平均差異得分。為清楚起見,省略了Oracle、下錨點(lower anchor)和隱藏參考(hidden reference)分數。
在該節和該小節中的範例還可以參考和/或圖1.3和圖1.4的詳細範例說明,更概括地,參考圖1.1、圖1.2、和圖1.5。
本語音編解碼器在品質、位元率和複雜性之間實現了良好的折衷。但是,在該目標位元率範圍之外,保持性能仍然具有挑戰性。為了提高性能,許多編解碼器使用前置和後置濾波技術,來降低量化雜訊的該感知效果。這裡,本揭露提出了一種後濾波方法來衰減量化雜訊,該方法使用語音信號的該複數頻譜相關性。由於傳統語音編解碼器不能傳輸具有時間依賴性的信息,因為傳輸錯誤可能導致嚴重的錯誤傳播,本揭露離線模擬該相關性、並在該解碼器處使用它們,因此不需要傳輸任何輔助信息。客觀評估表明,相對於該雜訊信號,使用基於上下文的後置濾波器的信號的該感知訊號雜訊比(pSNR、perceptual Signal Noise Ration)平均提高了4 dB,並且相對於傳統的Wiener濾波器平均提高了2 dB。在主觀聽力測試中,經由改善多達30個MUSHRA點而證實了這些結果。
1.2.1簡介
語音編碼是壓縮語音信號以進行有效傳輸和儲存的過程,是語音處理技術的一基本組成部分。它被用於涉及語音信號的該傳輸、儲存或渲染的幾乎所有設備中。在文獻[5]中,雖然標準語音編解碼器實現了圍繞目標位元率的透明性能,但在該目標位元率範圍之外的效率和複雜性方面,編解碼器的該性能受到影響。
特別是在較低位元率下,性能的該下降是因為該信號的大部分被量化為零,產生一稀疏信號,該稀疏信號經常在零和非零之間切換。這給該信號帶來了一失真的品質,其在感知上被表徵為音樂雜訊。像在文獻[3,15]中的EVS、USAC這樣的現代編解碼器經由實現文獻[5,14]中的後處理方法降低了量化雜訊的該影響。許多這些方法必須在該編碼器和解碼器兩處實現,因此需要改變該編解碼器的該核心結構,有時還需要附加輔助信息的該傳輸。此外,這些方法中的大多數都聚焦於減輕失真的影響,而不是失真的原因。
在語音處理中廣泛採用的該雜訊降低技術通常用作預濾波器,以減少語音編碼中的背景雜訊。然而,針對量化雜訊的該衰減的這些方法應用,尚未被充分探索。其原因是(i)經由單獨使用傳統濾波技術無法恢復來自零量化頻段的信息;以及(ii)在低位元率時,量化雜訊係與語音高度相關,針對雜訊的減少,因此區分語音和量化雜訊分佈是困難的;這些將在1.2.2節中進一步討論。
從根本上說,在文獻[9]中,語音是一種緩慢變化的信號,因此它具有很高的時間相關性。最近,在文獻[1,9,13]中,在語音中使用該內在時間和頻率相關性的最小變異無失真響應(MVDR、Minimum Variance Distortionless Response)和Wiener濾波器被提出了,並顯示出顯著的雜訊降低潛力。然而,語音編解碼器抑制發送具有這種時間依賴性的信息,以避免由於信息丟失而導致的錯誤傳播。因此,針對語音編碼或量化雜訊的該衰減的語音相關性的應用,直到最近還沒有被充分研究;針對量化雜訊降低,一隨附的論文[10]提出了將該相關性結合到該語音幅度頻譜中的優點。
這項工作的該貢獻如下:(i)對該複數語音頻譜進行建模,以結合語音中本質的該上下文的信息,(ii)制定問題,使該模型獨立於語音信號中的該大波動,以及樣本之間的該相關性重現使我們能夠合併更大的上下文信息;(iii)獲得一解析解,使該得該濾波器在最小均方誤差意義上是最佳的。我們首先研究應用傳統雜訊降低技術針對量化雜訊的該衰減之可能性,並且然後對該複數語音頻譜進行建模,並在該解碼器中使用它,以估計來自一觀察到的已損壞信號的語音。該方法消除了傳輸任何附加輔助信息的需要。
1.2.2建模和方法
低位元率下,傳統的熵編碼方法產生一稀疏信號,這經常導致稱為音樂雜訊的一感知偽像。來自這些頻譜空洞的信息不能經由像Wiener濾波這樣的傳統方法來恢復,因為它們主要是對增益進行修改。此外,語音處理中使用的常見雜訊降低技術對該語音和雜訊特性進行建模,並經由區別它們來執行雜訊降低。然而,在低位元率下,量化雜訊與該基本的語音信號高度相關,因此難以區別它們。圖2.2至圖2.3說明了這些問題;圖2.2(a)係顯示極其稀疏的該解碼信號的該分佈;以及圖2.2(b)係顯示針對一白高斯(white Gaussian)輸入序列的該量化雜訊的該分佈。圖2.3(i)和圖2.3(ii)分別描繪了該真實語音的該頻譜圖、以及在一低位元率下模擬的該解碼語音的該頻譜圖。
在文獻[2,7,18]中,為了緩解這些問題,我們可以在編碼該信號之前應用隨機化。在文獻[11]中,隨機化是一種抖動,它先前已用於文獻[19]中的語音編解碼器,以改善感知信號品質,而在文獻[6,18]中的最近的工作,使我們能夠在不增加位元率的情況下應用隨機化。在編碼中應用隨機化的該效果如圖2.2(c)、圖2.2(d)以及圖2.3(c)所示;該圖式說明清楚地表明,隨機化保留了該解碼的語音分佈並防止信號稀疏化。此外,它還增添該量化雜訊一更不相關的特性,從而致能語音處理文獻[8]中的常見雜訊降低技術的該應用。
由於抖動,我們可以假設該量化雜訊是一個加成性和非相關的常態分佈過程,
Figure 02_image097
, (2.1) 其中
Figure 02_image099
Figure 02_image101
Figure 02_image103
分別是該雜訊、乾淨的語音和雜訊信號的複數值短時間頻率域值。k表示在該時間幀t中的該頻率區間。此外,我們假設
Figure 02_image101
Figure 02_image103
是零平均值高斯隨機變量。我們的目標是從一觀測值
Figure 02_image105
估計
Figure 02_image107
以及使用先前估計的
Figure 02_image029
樣本。我們將
Figure 02_image029
稱為
Figure 02_image107
的該上下文。
該乾淨的語音信號的該估計
Figure 02_image109
,在文獻[8]中稱為該Wiener濾波器,定義如下:
Figure 02_image111
(2.2) 其中
Figure 02_image113
分別是該語音和雜訊協方差矩陣(covariance matrices),
Figure 02_image115
是具有c+1維的該雜訊觀測向量,c是該上下文長度。公式2.2中的該協方差(covariance)表示時間頻率區間之間的該相關性,我們將其稱為該上下文鄰域。該協方差矩陣(covariance matrices)係從一語音信號資料庫離線訓練。對該目標雜訊類型(量化雜訊)進行建模,類似於語音信號,關於該雜訊特性的信息還被結合到該過程中。由於我們知道該編碼器的該設計,我們確切地知道該量化特性,因此構造該雜訊協方差
Figure 02_image117
是一項簡單的任務。
上下文鄰域:大小為10的該上下文鄰域的一範例係呈現在圖2.1(a)。在該圖中,該區塊
Figure 02_image119
表示所考慮的該頻率區間。區塊
Figure 02_image121
,
Figure 02_image123
是在該鄰近區域中的該考慮的頻率區間。在該特定範例中,該上下文區間跨越該當前時間幀和兩個先前時間幀,以及兩個下部和上部頻率區間。該上下文鄰域僅包括乾淨語音已經被估計的那些頻率區間。這裡的該上下文鄰域的結構類似於該編碼應用,其中在文獻[12]中,上下文信息被用於提高熵編碼的該效率。除了結合來自該鄰近上下文區域中的信息之外,該上下文區塊中的該區間的該上下文鄰域也被集成在該濾波過程中,導致使用一更大的上下文信息,類似於無限脈衝響應(IIR、Infinite Impulse Response)濾波。這在圖2.1(b)中被描繪,其中藍線描繪了該上下文區間
Figure 02_image095
的該上下文區塊。該鄰近的該數學公式在下一節中詳細說明。
正規化協方差和增益建模:語音信號在增益和頻譜包絡結構中具有大的波動。在文獻[4]中,為了有效地模擬該頻譜精細結構,我們使用正規化來消除這種波動的該影響。在雜訊衰減期間,根據該當前區間中的該Wiener增益和該先前頻率區間中的該估計,該增益被計算。該正規化協方差和該估計增益一起被使用,以獲得該當前頻率樣本的該估計。這一步驟很重要,因為它使我們能夠使用該實際的語音統計資料來降低雜訊,儘管該波動很大。
定義該上下文向量
Figure 02_image125
,因此該正規化的上下文向量是
Figure 02_image127
。該語音協方差定義為
Figure 02_image129
,其中
Figure 02_image003
是該正規化協方差,γ表示增益。在該後濾波期間基於已處理的值,該增益被計算為
Figure 02_image131
,其中
Figure 02_image133
是由該處理中的區間和該上下文的該已經處理值所形成的該上下文向量。該正規化協方差是根據該語音資料庫計算的,如下所示:
Figure 02_image135
。 (2.3)
從公式2.3,我們觀察到這種方法使我們能夠結合比該上下文大小更大的一鄰域的相關性和更多信息,從而節省計算資源。該雜訊統計計算如下:
Figure 02_image137
(2.4) 其中
Figure 02_image139
是在時刻t和頻率區間k定義的該上下文雜訊向量。請注意,在公式2.4,該雜訊模型不需要正規化。最後,該估計的乾淨語音信號的該等式是:
Figure 02_image141
(2.5)
由於該公式,該方法的該複雜性與該上下文大小成線性比例。所提出的方法與在文獻[17]中的二維Wiener濾波的不同之處在於,它使用該複數幅度頻譜進行操作,從而與傳統方法不同,不需要使用該雜訊相位來重建該信號。另外,與將一純量增益應用於該雜訊幅度頻譜的一維和二維Wiener濾波器相比,該所提出的濾波器結合來自該先前估計的信息以計算該向量增益。因此,相對於先前的工作,該方法的新穎性在於將該上下文信息結合到該濾波器中的該方式,從而使該系統能適應於語音信號的該變化。
1.2.3實驗和結果
使用客觀和主觀測試兩者,建議的方法被評估。我們使用在文獻[3,5]中的該感知訊號雜訊比(pSNR)作為該客觀測量,因為它近似於人類感知,並且它已經在典型的語音編解碼器中可用的。對於主觀評估,我們進行了一MUSHRA聽力測試。
1.2.3.1系統概述
一系統結構如圖2.4所示(在範例中,它可能類似於在文獻[3]中的3GPP EVS中的TCX模式)。首先,我們將STFT(區塊241)應用於該輸入聲音信號240’,以將其轉換為該頻率域中的一信號(242’)。我們可以在這裡使用該STFT而不是該標準的改進的離散餘弦變換(MDCT、Modified Discrete Cosine Transform),這樣該結果很容易轉移到語音增強應用程序。在文獻[8,5]中,非正式實驗驗證了變換的該選擇不會在結果中引入意外問題。
為了確保該編碼雜訊具有最小的感知效果,在區塊242處,該頻率域信號241’被感知加權,以獲得一加權的信號242’。在一預處理區塊243之後,基於該線性預測係數(LPC、Linear Prediction Coefficients),我們在區塊244處計算該感知模型(例如,在文獻[3]中,如EVS編解碼器中使用的)。在使用該感知包絡加權該信號之後,該信號被進行正規化和熵編碼(未示出)。為了直截了當的再現性,按照第1.2.2節中的討論,我們經由過感知加權的高斯雜訊在區塊244(其不是一市售產品的必要部分)中模擬量化雜訊。一編碼塊242”(可以是位元流111)因此可以被生成。
因此,在圖2.4中的該編解碼器/量化雜訊(QN)模擬區塊244的該輸出244’是該被破壞的解碼信號。該所提出的濾波方法是在此階段被應用。該增強區塊246可以從該區塊245(其可以包含具有該離線模型的一記憶體)獲取該離線訓練的語音和雜訊模型245’。該增強區塊246可以包括例如該估計器115和119。該增強區塊可以包括例如該數值估計器116。在該雜訊降低處理之後,該信號246’(其可以是該信號116’的一範例)在區塊247處經由該逆感知包絡而被加權,然後在區塊248處被變換回該時域,以獲得該增強的解碼語音信號249,其可以是例如一聲音輸出249。
1.2.3.2客觀評估
實驗設置:該過程分為訓練階段和測試階段。在該訓練階段,我們從該語音資料估計上下文大小
Figure 02_image143
的該靜態正規化語音協方差。對於訓練,我們從文獻[20]中的該TIMIT資料庫的該訓練集中選擇了50個隨機樣本。所有信號都使用12.8kHz採樣頻率而重新採樣,並且一正弦窗口(sine window)被應用於大小為20 ms的幀,且具有重疊率為50%。然後該加窗信號被變換到該頻率域。由於該增強係應用於該感知域,我們還在該感知域中對該語音進行建模。對於該感知域中的每個區間樣本,將該上下文鄰域組成矩陣,如1.2.2節所述,並且計算該協方差。我們類似地使用感知加權的高斯雜訊來獲得該雜訊模型。
為了測試,105個語音樣本從該資料庫中被隨機選擇。該語音和該模擬雜訊的相加,該雜訊樣本被產生。語音和雜訊的該水平係被控制,使得我們針對pSNR測試該方法,範圍從0-20dB,每個pSNR級別有5個樣本,以符合編解碼器的典型工作範圍。對於每個樣品,14種上下文大小被測試。作為參考,使用一oracle濾波器(oracle filter)增強該雜訊樣本,其中該傳統的Wiener濾波器使用該真實雜訊作為該雜訊估計,即,最佳Wiene增益係已知。
評估結果:該結果如圖2.5所示。該傳統Wiener濾波器、甲骨文濾波器、和使用上下文長度
Figure 02_image145
的濾波器的雜訊衰減的該輸出pSNR如圖2.5(a)所示。在圖2.5(b)中,針對該不同的濾波方法,在輸入pSNR的一範圍內繪製該差分輸出pSNR,該差分輸出pSNR是該輸出pSNR相對於被量化雜訊破壞的該信號的該pSNR的改善。這些圖式表明該傳統的Wiener濾波器顯著改善了該雜訊信號,在較低的pSNR下改善了3dB,在較高的pSNR時改善了1dB。另外,該上下文濾波器
Figure 02_image147
在較高pSNR時顯示6dB改善,在較低pSNR時改善約2dB。
圖2.5(c)係顯示在不同輸入pSNR的上下文大小的該影響。其可以觀察到,在較低的pSNR下,該上下文大小對雜訊衰減具有顯著影響;pSNR的該改善隨著上下文大小的增加而增加。然而,隨著該上下文大小的增加,關於上下文大小的該改進率降低,並且當
Figure 02_image149
時趨於飽和。在較高輸入pSNR時,該改善在相對較小的上下文大小處達到飽和。
1.2.3.3主觀評價
我們用在文獻[16]中的一主觀的MUSHRA聽力測試評估所提方法的該品質。該測試由六個項目所組成,每個項目由8個測試條件所組成。20至43歲的聆聽者之間,無論是專家還是非專家,都參與其中。然而,只有那些對該隱藏參考的得分大於90 MUSHRA點的參與者的該評分被選中,導致15名聆聽者的評分被包括在這個評估內。
從該TIMIT資料庫中被隨機選擇六個句子,以生成該測試項目。經由添加感知雜訊,以生成該項目,俾模擬編碼雜訊,使得該所得到信號的pSNR固定在2、5和8dB。對於每個pSNR,一個男性和一個女性項目被生成。按照MUSHRA標準,每個項目由8個條件組成:雜訊(無增強)、已知雜訊的理想增強(oracle)、習知Wiener濾波器、來自所提出方法的樣本且上下文大小分別為1(L=1)、六個(L=6)、十四個(L=14)、此外該3.5kHz低通信號作為該下錨點和該隱藏參考。
該結果如圖2.6所示。從圖2.6(a)可以看出,即使L=1的該最小上下文,所提出的方法一貫地顯示出對該損壞信號的一改進,在大多數情況下,該信心區間之間沒有重疊。在該傳統的維納濾波器和該所提出的方法之間,該條件L=1的平均值被評定為高於平均約10個點。類似地,L=14被評定為比該維納濾波器高約30個MUSHRA點。對於所有項目,L=14的該分數與該維納濾波器分數不重疊,並且接近該理想條件,尤其是在較高的pSNR時。這些觀察結果在該差異圖中得到進一步支持,如圖2.6(b)所示。每個pSNR的該得分在該男性和女性項目上取平均值。經由將該維納條件的該分數保持為參考並獲得該三個上下文大小條件和該無增強條件之間的該差異,該差異分數被獲得。從這些結果我們可以得出結論,除了在文獻[11]中的可以改善該解碼信號的該感知品質的抖動之外,使用傳統技術在該解碼器處應用雜訊降低,並且併入包含該複數語音頻譜中固有的相關性的模型可以顯著改善pSNR。
1.2.4結論
我們提出了一種基於時頻的濾波方法,其針對語音和音頻編碼中的量化雜訊的該衰減,其中該相關性在統計上被建模並在該解碼器處被使用。因此,該方法不需要任何附加的時間信息的該傳輸,因此消除了由於傳輸損耗導致的錯誤傳播的機會。經由併入該上下文信息,我們觀察到pSNR在該最佳情況下的改善為6dB,在一典型應用中為2dB;主觀上,10至30個MUSHRA點的一改善可被觀察到。在本節中,針對一特定上下文大小,我們固定該上下文鄰域的該選擇。雖然這為基於上下文大小的該預期改進提供了一基線,但有趣的是去檢查選擇一最佳上下文鄰域的該影響。此外,由於該最小變異無失真響應(MVDR、Minimum Variance Distortionless Response)濾波器在背景雜訊降低方面顯示出顯著改善,因此應考慮MVDR與該所提出的MMSE方法之間的比較。
總結的說,我們已經顯示該所提出的方法提高了主觀和客觀兩者的品質,並且它可以被用於改善任何語音和音頻編解碼器的品質。
1.2.5參考文獻 [1] Y. Huang and J. Benesty, “A multi-frame approach to the frequency-domain single-channel noise reduction problem,”IEEE Transactions on Audio, Speech, and Language Processing , vol. 20, no. 4, pp. 1256–1269, 2012. [2] T. Bäckström, F. Ghido, and J. Fischer, “Blind recovery of perceptual models in distributed speech and audio coding,” inInterspeech . 1em plus 0.5em minus 0.4em ISCA, 2016, pp. 2483–2487. [3] “EVS codec detailed algorithmic description; 3GPP technical specification,” http://www.3gpp.org/DynaReport/26445.htm . [4] T. Bäckström, “Estimation of the probability distribution of spectral fine structure in the speech source,” inInterspeech , 2017. [5]Speech Coding with Code-Excited Linear Prediction . 1em plus 0.5em minus 0.4em Springer, 2017. [6] T. Bäckström, J. Fischer, and S. Das, “Dithered quantization for frequency-domain speech and audio coding,” inInterspeech , 2018. [7] T. Bäckström and J. Fischer, “Coding of parametric models with randomized quantization in a distributed speech and audio codec,” inProceedings of the 12. ITG Symposium on Speech Communication . 1em plus 0.5em minus 0.4em VDE, 2016, pp. 1–5. [8] J. Benesty, M. M. Sondhi, and Y. Huang,Springer handbook of speech processing . 1em plus 0.5em minus 0.4em Springer Science & Business Media, 2007. [9] J. Benesty and Y. Huang, “A single-channel noise reduction MVDR filter,” inICASSP . 1em plus 0.5em minus 0.4em IEEE, 2011, pp. 273–276. [10] S. Das and T. Bäckström, “Postfiltering using log-magnitude spectrum for speech and audio coding,” inInterspeech , 2018. [11] R. W. Floyd and L. Steinberg, “An adaptive algorithm for spatial gray-scale,” inProc. Soc. Inf. Disp. , vol. 17, 1976, pp. 75–77. [12] G. Fuchs, V. Subbaraman, and M. Multrus, “Efficient context adaptive entropy coding for real-time applications,” inICASSP . 1em plus 0.5em minus 0.4em IEEE, 2011, pp. 493–496. [13] H. Huang, L. Zhao, J. Chen, and J. Benesty, “A minimum variance distortionless response filter based on the bifrequency spectrum for single-channel noise reduction,”Digital Signal Processing , vol. 33, pp. 169–179, 2014. [14] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbachet al. , “A novel scheme for low bitrate unified speech and audio coding–MPEG RM0,” inAudio Engineering Society Convention 126 . 1em plus 0.5em minus 0.4em Audio Engineering Society, 2009. [15] ——, “Unified speech and audio coding scheme for high quality at low bitrates,” inICASSP . 1em plus 0.5em minus 0.4em IEEE, 2009, pp. 1–4. [16] M. Schoeffler, F. R. Stöter, B. Edler, and J. Herre, “Towards the next generation of web-based experiments: a case study assessing basic audio quality following the ITU-R recommendation BS. 1534 (MUSHRA),” in1st Web Audio Conference . 1em plus 0.5em minus 0.4em Citeseer, 2015. [17] Y. Soon and S. N. Koh, “Speech enhancement using 2-D Fourier transform,”IEEE Transactions on speech and audio processing , vol. 11, no. 6, pp. 717–724, 2003. [18] T. Bäckström and J. Fischer, “Fast randomization for distributed low-bitrate coding of speech and audio,”IEEE/ACM Trans. Audio, Speech, Lang. Process. , 2017. [19] J.-M. Valin, G. Maxwell, T. B. Terriberry, and K. Vos, “High-quality, low-delay music coding in the OPUS codec,” inAudio Engineering Society Convention 135 . 1em plus 0.5em minus 0.4em Audio Engineering Society, 2013. [20] V. Zue, S. Seneff, and J. Glass, “Speech database development at MIT: TIMIT and beyond,”Speech Communication , vol. 9, no. 4, pp. 351–356, 1990.
1.3後濾波、例如使用對數幅度譜進行語音和音頻編碼
在本節和該小節中的範例主要涉及使用對數幅度譜針對語音和音頻編碼的後濾波技術。
本節和該小節中的範例可以更好地說明例如圖1.1和圖1.2的特定情況。
在該本範例中,提到了該以下的圖式:
圖3.1:大小為C=10的上下文鄰域。根據與該當前樣本的該距離,該先前估計的區間係被選擇和排序。
圖3.2:(a)線性域中語音幅度的直方圖(b)一任意頻率區間中的對數域中語音幅度的直方圖。
圖3.3:語音模型的訓練。
圖3.4:語音分佈的直方圖(a)真實語音分佈的直方圖(b)估計語音分佈的直方圖:ML(c)估計語音分佈的直方圖:EL。
圖3.5:使用針對不同上下文大小的所提出的方法所表示該SNR改善的圖。
圖3.6:系統概述。
圖3.7:(i)在所有時間範圍內的一固定頻段內,描繪該真實、量化和估計語音信號的樣本圖;(ii)在所有頻段範圍的一固定時間幀內,描繪該真實、量化和估計語音信號的樣本圖。
圖3.8:(a)針對C=1時,在零量化區間中該真實、量化和估計語音的散點圖;(b)針對C=40時,在零量化區間中該真實、量化和估計語音的散點圖。這些圖係顯示該估計和真實語音之間的該相關性。
先進編碼演算法在其目標位元率範圍內,產生具有良好編碼效率的高品質信號,但在該目標範圍外,其性能遭受損害。在較低的位元率下,性能的該下降是因為該解碼的信號是稀疏的,這給信號帶來了一感知上聲音變輕微和失真的特性。標準編解碼器經由應用雜訊填充和後置濾波方法來減少這種失真。在這裡,我們提出了一種基於該對數幅度頻譜中的該固有時間頻率相關性建模的一後處理方法。
一目標是改善該解碼信號的該感知SNR,並減少由信號稀疏性引起的該失真。針對輸入感知SNR在4到18 dB範圍內,客觀測量顯示了1.5 dB的一平均改善。在被量化為零的組件中,這種改進尤為突出。
1.3.1簡介
語音和音頻編解碼器是大多數音頻處理應用的組成部分,最近我們看到了編碼標準的快速發展,例如在文獻[18,16]中的MPEG USAC和在文獻[13]中的3GPP EVS。這些標準已朝著統一音頻和語音編碼的方向發展,實現了超寬帶和全頻帶語音信號的該編碼以及對網路電話(VoIP、Voice over IP)的更多支持。這些編解碼器中的該核心編碼演算法ACELP和TCX在其目標位元率範圍內,於中等至高位元率,產生感知透明品質。然而,當該編解碼器在此範圍之外運行時,該性能會下降。具體地,對於該頻率域中的低位元率編碼,性能的該下降是因為較少的位元可用於編碼,從而具有較低能量的區域被量化為零。在該解碼信號中的這種頻譜空洞使該信號產生一感知失真和聲音變輕微的特性,這對於該聆聽者來說可能是煩人的。
為了在目標位元率範圍之外獲得令人滿意的性能,像CELP這樣的標準編解碼器採用預處理和後處理方法,這些方法大部分基於啟發式方法。特別地,為了減少在低位元率下的量化雜訊引起的該失真,編解碼器在編碼過程中實現方法或嚴格地在該解碼器處實現一後置濾波器。在文獻[9]中,共振峰增強(Formant enhancement)和低音後置濾波器是常用的方法,它基於量化雜訊在感知上如何和在何處使信號失真的該知識來修改該解碼信號。共振峰增強會型塑該碼本,使其於本質上在容易產生雜訊的區域中具有較少能量,並且在該編碼器和解碼器兩處應用。相反地,低音後置濾波器消除了在諧波線之間的該雜訊類似的分量,並且僅在該解碼器中實現。
另一種常用的方法是雜訊填充,其中在文獻[16]中,虛擬隨機雜訊被添加到該信號,因為雜訊類似的分量的精確編碼對於感知不是必需的。此外,該方法有助於減少因稀疏性對信號造成的失真的該感知效應。經由參數化該雜訊類似信號,雜訊填充的該品質可以被改善,例如,在該編碼器處經由其增益,並將該增益發送到該解碼器。
後置濾波方法相較於其他方法的該優點在於它們僅在該解碼器中被實現,由此它們不需要對該編碼器-解碼器結構進行任何修改,它們也不需要傳輸任何輔助信息。然而,大多數這些方法都聚焦於解決該問題的該影響,而不是著重該產生原因。
在這裡,我們提出了一種後處理方法,經由對語音幅度頻譜中的固有時間頻率相關性進行建模,並研究使用該信息來減少量化雜訊的該潛力,從而在低位元率時改善信號品質。這種方法的該優點在於它不需要任何輔助信息的傳輸,並且僅使用該量化信號作為該觀察和離線訓練的該語音模型進行操作;由於它在該解碼過程之後應用在該解碼器,因此不需要對該編解碼器的該核心結構進行任何改變;該方法經由使用一來源模型,俾估計該編碼過程期間該丟失的信息,以解決該信號失真。這項工作的該新穎之處在於:(i)使用對數幅度建模,將該共振峰信息併入到語音信號中;(ii)將在該對數域中語音的該頻譜幅度中的該固有上下文信息表示為一多元高斯分佈;以及(iii)針對真實語音的該估計,找到該最佳值,作為一截斷高斯分佈的該預期似然性。
1.3.2語音幅度頻譜模型
共振峰是語音中語言內容的該基本指標,表現為語音的該頻譜幅度包絡,因此在文獻[10,21]中,該幅度頻譜是來源建模的一重要組成部分。在文獻[1,4,2,3]中的先前研究顯示,語音的頻率係數最好用一拉普拉斯分佈(Laplacian distribution)或伽瑪分佈(Gamma distribution)來表示。因此,語音的該幅度頻譜是一指數分佈,如圖3.2a所示。該圖顯示該分佈係集中在低幅度值。由於數值精度問題,這很難用作為一模型。此外,僅經由使用一般數學運算很難確保該估計是確實的。我們經由將該頻譜轉換為該對數幅度域來解決這個問題。由於對數是非線性的,因此它重新分配該幅度軸,使得一指數分佈幅度的該分佈類似於該對數表示中的該常態分佈(圖3.2b)。這使我們能夠使用一高斯機率密度函數(pdf、probability density function)來近似該對數幅度頻譜的該分佈。
近年來,在文獻[11]中,語音中的上下文信息引起了越來越多的關注。在文獻[11,5,14]中,於聲學信號處理中已經先前探索了該幀間和頻率間的相關性信息,用於雜訊降低。該MVDR和維納濾波技術使用先前的時間幀或頻率幀來獲得該當前時間-頻率區間中的該信號的一估計。該結果指示該輸出信號的該品質有一顯著改善。在這項工作中,我們使用類似的上下文信息來為語音建模。具體來說,我們探索了使用該對數幅度來為該上下文建模、並使用多元高斯分佈來表示它的該合理性。基於該上下文區間與該所考慮的區間的該距離,該上下文鄰域被選擇。圖3.1說明大小為10的一上下文鄰域,並指示該先前估計被同化到該上下文向量中的該順序。
在圖3.3中,該建模(訓練)過程330的概述被呈現。該輸入語音信號331被變換為該頻率域的一頻率域信號332’,其係在區塊332中藉由加窗操作然後應用短時傅立葉變換(STFT)。然後該頻率域信號332’在區塊333處被預處理,以獲得一預處理信號333’。經由計算例如類似於在文獻[7, 9]中的CELP的一感知包絡,該預處理信號333’係用來導出一感知模型。該感知模型在區塊334處被採用,以便對該頻率域信號332’進行感知加權,以獲得一感知加權信號334’。最後,針對每個採樣頻率區間,該上下文向量335’(例如,將構成要處理的每個區間的該上下文之該等區間)在區塊335處被提取,並且然後在區塊336處估計每個頻帶的該協方差矩陣336’,從而提供所需的該語音模型。
換句話說,該訓練模型336’包括: 用於定義該上下文的該規則(例如,基於頻帶k);和/或 一語音模型(例如,將用於該正規化協方差矩陣
Figure 02_image003
的值),其由該估計器115用於生成該處理中的區間和形成該上下文的至少一個附加區間之間的統計關係和/或信息115’、和/或關於該處理中的區間和形成該上下文的至少一個附加區間的信息;和/或 一雜訊模型(例如,量化雜訊),其將由該估計器119用於生成該雜訊的該統計關係和/或信息(例如,將用於定義該矩陣
Figure 02_image151
的值)。
我們探索了高達40的上下文大小,其包括大約四個先前的時間幀、每個時間幀的下部頻率和上部頻率。請注意,我們使用STFT而不是標準編解碼器中使用的MDCT進行操作,以便將此工作擴展到增強應用。將這項工作擴展到MDCT正在進行中,非正式測試提供了與本文檔類似的見解。
1.3.3問題制定
我們的目標是使用該統計先驗,從該有雜訊解碼信號的該觀察來估計該乾淨的語音信號。為此,我們將該問題制訂為在給定該觀察和該先前估計下的該當前樣本的該最大似然性(ML、maximum likelihood)。假設一樣本
Figure 02_image153
已被量化為一量化等級
Figure 02_image155
。然後我們可以表達我們的最佳化問題為:
Figure 02_image157
, (3.1) 其中
Figure 02_image017
是該當前樣本的該估計值,
Figure 02_image019
Figure 02_image021
分別是該當前量化區間的該下限和上限,並且
Figure 02_image159
是在給定
Figure 02_image025
下、
Figure 02_image027
的該條件機率。
Figure 02_image029
是該估計的上下文向量。圖3.1係顯示大小為
Figure 02_image161
的一上下文向量的該構造,其中該數字表示該頻率區間被併入的該順序。我們從該解碼信號中以及該編解碼器中使用的該量化方法的知識獲得該量化等級,我們可以定義該量化限制;一特定量化等級的該下限和上限分別定義為前一級和後一級之間的中間。
為了說明方程3.1的該性能,我們使用通用數值方法對它進行求解。圖3.4係顯示在量化為零的區間中經由(a)該真實語音和(b)估計語音的分佈的該結果。我們對該區間進行縮放,使得該變化的
Figure 02_image019
Figure 02_image021
分別固定為0、1,以便分析和比較在一量化區間內的該估計的該相對分佈。在(b)中,我們觀察到大約在1處的一高資料密度,這意味著該估計值被偏移向該上限。我們將此稱為該邊緣問題。為了緩解這個問題,在文獻[17,8]中,我們將該語音估計定義為該預期似然性(EL、expected likelihood),如下:
Figure 02_image163
。 (3.2)
使用EL的該語音分佈結果在圖3.4c中示出,其指示該估計語音分佈和該真實語音分佈之間的一相對更好的匹配。最後,為了獲得一解析解,我們將該約束條件併入到該建模本身中,在文獻[12]中,由此我們將該分佈建模為一截斷的高斯機率密度函數(pdf)。在附錄A和B(1.3.6.1和1.3.6.2)中,我們演示如何以一截斷的高斯分佈獲得該解。該以下演算法呈現估計方法的一概述。
Figure 02_image165
1.3.4實驗和結果
我們的目標是評估該對數幅度頻譜的建模的該優勢。由於包絡模型是在傳統編解碼器中對該幅度頻譜建模的該主要方法,因此我們評估在該整個頻譜方面以及僅用於該包絡時該統計先驗的該效果。因此,除了評估用於從語音的該雜訊幅度譜的語音的該估計所提出的該方法之外,我們還測試它用於經由該雜訊包絡的一觀察來估計該頻譜包絡。為了獲得該頻譜包絡,在將該信號變換到該頻率域之後,我們計算該倒譜(Cepstrum)並保留20個較低係數並將其轉換回該頻率域。該包絡建模的下一步與1.3.2節中和圖3.3呈現的頻譜幅度建模相同,即獲得該上下文向量和協方差估計。
1.3.4.1系統概述
一系統360的一總體方塊圖如圖3.6所呈現。在該編碼器360a處,信號361被分成幀(例如,具有50%重疊的20ms和例如正弦窗口)。然後,例如,可以使用該STFT在區塊362將該語音輸入361變換為一頻率域信號362’。在區塊363處的預處理並且在區塊364處經由該譜包絡對信號進行感知加權之後,在區塊365處量化該幅度譜並且在區塊366處使用文獻[19]中的算術編碼對其進行熵編碼,以獲得該編碼信號366(其可以是該位元流111的一個例子)。
在該解碼器360b處,在區塊367(其可以是該位元流讀取器113的一範例)處實現該反向過程以對該編碼信號366’進行解碼。該解碼信號366’可能被量化雜訊所破壞,並且我們的目的是使用該所提出的後處理方法來改善輸出品質。請注意,我們在該感知加權域中應用該方法。一對數變換區塊368被提供。
一後濾波區塊369(其可以實現上面討論的元件114、115、119、116和/或130)允許基於語音模型來減少如上述討論的該量化雜訊的該影響,該語音模型例如可為該訓練模型336’、和/或用於定義該上下文的規則(例如,基於該頻帶k)、和/或該處理中的區間和形成該上下文的至少一個附加區間之間的統計關係和/或信息115’(例如,正規化協方差矩陣
Figure 02_image167
)、和/或關於該處理中的區間和形成該上下文的至少一個附加區間的信息、和/或關於雜訊(例如,量化雜訊)的統計關係和/或信息119’(例如,矩陣
Figure 02_image169
)。
在後處理之後,經由在區塊369a處應用該逆感知權重並且在區塊369b處應用該逆頻率變換,該估計的語音被轉換回該時域。我們使用真實相位將該信號重建回時域。
1.3.4.2實驗設置
對於訓練,我們使用了來自文獻[22]中的該TIMIT資料庫的該訓練集的250個語音樣本。該訓練過程的該方塊圖如圖3.3所呈現。為了測試,10個語音樣本從該資料庫的該測試集中被隨機選擇。該編解碼器係基於文獻[6]中在TCX模式下的該EVS編解碼器,我們選擇了該編解碼器參數,使得文獻[6,9]中的該感知訊號雜訊比(pSNR)處於編解碼器典型的該範圍內。因此,我們模擬了在9.6到128 kbps之間的12種不同位元率的編碼,這使得pSNR值在大約4和18 dB的範圍內。請注意,該EVS該的TCX模式不包含後置濾波。對於每個測試用例,我們將該後置濾波器應用於上下文大小為∈{1,4,8,10,14,20,40}的該解碼信號。根據第1.3.2節和圖3.1中的描述,該上下文向量被獲得。對於使用該幅度頻譜的測試,將該後處理信號的該pSNR與該雜訊量化信號的該pSNR進行比較。對於基於頻譜包絡的測試,該真實包絡和該估計包絡之間的該訊號雜訊比(SNR)係被用作該定量測量。
1.3.4.3結果和分析
10個語音樣本的該定性測量的該平均值被繪製在圖3.4中。圖式(a)和(b)呈現使用該幅度頻譜的該評估結果,以及圖式(c)和(d)係對應於該頻譜包絡測試。對於該頻譜和該包絡兩者,上下文信息的併入顯示了在SNR的一個一致改進。該改進程度如圖式(b)和(d)所示。對於幅度頻譜,在低輸入pSNR的所有上下文中,該改善範圍在1.5和2.2 dB之間,並且在高輸入pSNR的改善範圍為0.2到1.2 dB。對於頻譜包絡,該趨勢是類似的;在較低輸入SNR下,對上下文的該改善在1.25至2.75 dB之間,在較高輸入SNR時在0.5至2.25 dB之間。在輸入SNR約為10dB時,對所有上下文大小均達到該改善的峰值。
對於該幅度頻譜,在上下文大小為1和4之間的品質的該改善非常大,在所有輸入pSNR上大約為0.5dB。經由增加該上下文大小,我們可以進一步改善該pSNR,但是對於4到40的大小,該改善率相對較低。此外,在較高輸入pSNR時,該改善率相當低。我們得出結論,大約10個樣本的一上下文大小是準確性和複雜性之間的一良好折衷。然而,上下文大小的該選擇還可以取決於要處理的該目標設備。例如,如果該設備具有可供使用的計算資源,則可以採用一高的上下文大小,來進行最大程度地改進。
圖3.7:描繪該真實、量化和估計語音信號的樣本圖(i)在所有時間幀的一固定頻段內;(ii)在所有頻段的一固定時間幀內。
該所提出的方法的性能在圖3.7和圖3.8中進一步說明,一輸入pSNR為8.2 dB。圖3.7中所有圖的一顯著觀察結果是,特別是在量化為零的區間中,該所提出的方法能夠估計幅度,其係接近該真實幅度的。此外,從圖3.7(ii),該估計似乎遵循該頻譜包絡,由此我們可以得出結論,高斯分佈主要地包含頻譜包絡信息而不是音調信息。因此,還可以解決用於該音調的附加建模方法。
圖3.8中的該散點圖表示針對C=1和C=40的零量化區間中的該真實、估計和量化語音幅度之間的相關性。這些圖進一步證明了該上下文在估計區間中的語音時是有用的,其中該區間不存在信息的。因此,該方法在雜訊填充演算法中可有益於估計頻譜幅度。在該散點圖中,該量化的、真實的和估計的語音幅度頻譜分別由紅色、黑色和藍色點表示;我們觀察到,雖然兩種尺寸的該相關性都是正的,但對於
Figure 02_image171
,該相關性顯著地更高,並且更加明確。
1.3.5討論和結論
在本節中,我們研究了語音中固有的上下文信息的該使用,以減少量化雜訊。我們提出了一種後處理方法,其聚焦在於使用統計先驗從量化信號中,以估計該解碼器處的語音樣本。結果指示,包括語音相關性不僅可以改善該pSNR,還可以為雜訊填充演算法提供頻譜幅度估計。雖然本文的一重點是對該頻譜幅度進行建模,但基於當前的見解和一隨附論文[20]的該結果,一聯合幅度相位建模方法是該自然的下一步。
本節還開始繼續經由併入該上下文鄰域的信息,以處理來自高度量化的雜訊包絡的頻譜包絡恢復。
1.3.6附錄
1.3.6.1附錄A:截斷高斯pdf
讓我們定義
Figure 02_image173
Figure 02_image175
,其中μ、σ是該分佈的該統計參數,erf是該誤差函數。然後,一單變量高斯隨機變量
Figure 02_image101
的期望值被計算為:
Figure 02_image177
。 (3.3)
傳統上,當
Figure 02_image179
時,在
Figure 02_image181
求解方程3.3的結果。然而,對於一截斷的高斯隨機變量,
Figure 02_image033
,該關係是:
Figure 02_image183
, (3.4) 它產生以下等式來計算一截斷的單變量高斯隨機變量的該期望值:
Figure 02_image185
。 (3.5)
1.3.6.2附錄B:條件高斯參數
令該上下文向量定義為
Figure 02_image187
,其中
Figure 02_image189
表示正在該考慮的當前區間,並且
Figure 02_image191
是該上下文。然後,
Figure 02_image193
,其中
Figure 02_image195
是該上下文大小。該統計模型由該平均向量
Figure 02_image197
和該協方差矩陣
Figure 02_image199
表示,使得
Figure 02_image201
其尺寸與
Figure 02_image203
Figure 02_image205
相同,並且該協方差為:
Figure 02_image207
。 (3.6)
Figure 02_image209
Figure 02_image211
的分割,其尺寸為
Figure 02_image213
Figure 02_image215
Figure 02_image217
Figure 02_image219
。因此,在文獻[15]中,基於該估計的上下文的該當前區間的該分佈的該更新統計是:
Figure 02_image221
, (3.7)
Figure 02_image223
。 (3.8)
1.3.7參考文獻 [1] J. Porter and S. Boll, “Optimal estimators for spectral restoration of noisy speech,” in ICASSP, vol. 9, Mar 1984, pp. 53–56. [2] C. Breithaupt and R. Martin, “MMSE estimation of magnitude-squared DFT coefficients with superGaussian priors,” in ICASSP, vol. 1, April 2003, pp. I–896–I–899 vol.1. [3] T. H. Dat, K. Takeda, and F. Itakura, “Generalized gamma modeling of speech and its online estimation for speech enhancement,” in ICASSP, vol. 4, March 2005, pp. iv/181–iv/184 Vol. 4. [4] R. Martin, “Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors,” in ICASSP, vol. 1, May 2002, pp. I–253–I–256. [5] Y. Huang and J. Benesty, “A multi-frame approach to the frequency-domain single-channel noise reduction problem,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 4, pp. 1256–1269, 2012. [6] “EVS codec detailed algorithmic description; 3GPP technical specification,” http://www.3gpp.org/DynaReport/26445.htm. [7] T. Bäckström and C. R. Helmrich, “Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes,” in ICASSP, April 2015, pp. 5127–5131. [8] Y. I. Abramovich and O. Besson, “Regularized covariance matrix estimation in complex elliptically symmetric distributions using the expected likelihood approach part 1: The over-sampled case,” IEEE Transactions on Signal Processing, vol. 61, no. 23, pp. 5807–5818, 2013. [9] T. Bäckström, Speech Coding with Code-Excited Linear Prediction. 1em plus 0.5em minus 0.4em Springer, 2017. [10] J. Benesty, M. M. Sondhi, and Y. Huang, Springer handbook of speech processing. 1em plus 0.5em minus 0.4em Springer Science & Business Media, 2007. [11] J. Benesty and Y. Huang, “A single-channel noise reduction MVDR filter,” in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2011, pp. 273–276. [12] N. Chopin, “Fast simulation of truncated Gaussian distributions,” Statistics and Computing, vol. 21, no. 2, pp. 275–288, 2011. [13] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache et al., “Overview of the EVS codec architecture,” in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2015, pp. 5698–5702. [14] H. Huang, L. Zhao, J. Chen, and J. Benesty, “A minimum variance distortionless response filter based on the bifrequency spectrum for single-channel noise reduction,” Digital Signal Processing, vol. 33, pp. 169–179, 2014. [15] S. Korse, G. Fuchs, and T. Bäckström, “GMM-based iterative entropy coding for spectral envelopes of speech and audio,” in ICASSP. 1em plus 0.5em minus 0.4em IEEE, 2018. [16] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach et al., “A novel scheme for low bitrate unified speech and audio coding–MPEG RM0,” in Audio Engineering Society Convention 126. 1em plus 0.5em minus 0.4em Audio Engineering Society, 2009. [17] E. T. Northardt, I. Bilik, and Y. I. Abramovich, “Spatial compressive sensing for direction-of-arrival estimation with bias mitigation via expected likelihood,” IEEE Transactions on Signal Processing, vol. 61, no. 5, pp. 1183–1195, 2013. [18] S. Quackenbush, “MPEG unified speech and audio coding,” IEEE MultiMedia, vol. 20, no. 2, pp. 72–78, 2013. [19] J. Rissanen and G. G. Langdon, “Arithmetic coding,” IBM Journal of research and development, vol. 23, no. 2, pp. 149–162, 1979. [20] S. Das and T. Bäckström, “Postfiltering with complex spectral correlations for speech and audio coding,” in Interspeech, 2018. [21] T. Barker, “Non-negative factorisation techniques for sound source separation,” Ph.D. dissertation, Tampere University of Technology, 2017. [22] V. Zue, S. Seneff, and J. Glass, “Speech database development at MIT: TIMIT and beyond,” Speech Communication, vol. 9, no. 4, pp. 351–356, 1990.
1.4進一步的例子
1.4.1系統結構
該所提出的方法在該時間頻率域中應用濾波,以降低雜訊。它被專門為衰減一語音和音頻編解碼器的量化雜訊而設計,但它適用於任何雜訊降低任務。圖1說明了一系統的結構。
該雜訊衰減演算法基於一正規化時間頻率域中的最佳濾波。這包含以下重要細節: 1.為了在保持性能的同時降低複雜性,濾波僅應用於每個時間頻率區間的該鄰近區域。這個鄰近區域在這裡被稱為該區間的該上下文。 2.該上下文包含該乾淨信號的估計值且當這是可行時,濾波是遞歸的。換句話說,當我們在每個時間頻率區間上疊代地應用雜訊衰減時,已經處理的那些區間被反饋到隨後的疊代中(參見圖2)。這會創建一個類似於自回歸濾波的一反饋循環。該好處有兩方面: 3.因為該先前估計的樣本使用與當前樣本不同的上下文,在該當前樣本的該估計時,我們可有效地使用一更大的上下文。經由使用更多資料,我們可能會獲得更好的品質。 4. 該先前估計的樣本通常不是完美的估計,這意味著該估計有一些誤差。經由將該先前估計的樣品視為它們是乾淨樣品,我們將該當前樣品偏置為與該先前估計的樣品類似的誤差。雖然這會增加該實際誤差,但該誤差更好地符合該來源模型,也就是說,該信號會更像是該所需信號的該統計資料。換句話說,對於一語音信號,該濾波的語音將更好地類似於語音,即使絕對誤差不一定被最小化。 5.如果我們假設該量化精度是恆定的,則該上下文的該能量在時間和頻率上都具有高的變化,但該量化雜訊能量實際上是恆定的。由於最佳化濾波器係基於協方差估計,因此該當前上下文恰好具有的能量的該量,因此對該協方差具有一很大影響,必然地對該最佳化濾波器具有很大影響。考慮到能量的這種變化,我們必須在過程的某些部分應用正規化。在該當前實現中,在被該上下文的該範數處理之前,我們正規化該所需要來源的該協方差,以匹配該輸入上下文(參見圖4.3)。根據該整體框架的該要求,正規化的其他實現容易地達到。 6.在該當前的工作中,我們使用了維納濾波,因為它是一種眾所周知的並且很好理解的方法,其用於推導最佳化濾波器。顯然,本領域技術人員可以選擇他選擇的任何其他濾波器設計,例如該最小變異無失真響應(MVDR)最佳化準則。
圖4.2是一所提出的估計的範例的該遞歸性質的一圖式說明。對於每個樣本,我們提取具有來該自雜訊輸入幀的樣本的該上下文、該先前乾淨幀的估計、和該當前幀中先前樣本的估計。然後這些上下文被使用,以找到該當前樣本的一估計,然後共同形成該乾淨當前幀的該估計。
圖4.3顯示了一單個樣本從其上下文的一最佳濾波,包括該當前上下文的該增益(範數)的估計,使用該增益對該來源協方差的正規化(縮放),使用該期望的來源信號的該縮放協方差和該量化雜訊的該協方差以計算該最佳濾波器,最後,應用該最佳濾波器以獲得該輸出信號的一估計。
1.4.2與現有技術相比的提案的效益
4.4.2.1傳統的編碼方法
一所提出的方法的一中心新穎性在於,它以一時間-頻率表示隨著時間的推移,考慮該語音信號的統計特性。習知通信編解碼器,例如3GPP EVS,在文獻[1]中,在熵編碼器使用該信號的統計以及在來源建模僅對該當前幀內的頻率。在文獻[2]中,諸如MPEG USAC之類的廣播編解碼器也會隨著時間的推移,在其熵編碼器中使用一些時間-頻率信息,但僅在一有限的範圍內。
厭惡使用幀間信息的該原因是如果信息在傳輸中丟失,那麼我們將無法正確地重建該信號。具體來說,我們不會只丟失已丟失的那一幀,但由於後續幀依賴於該丟失的幀,因此該後續幀也將被錯誤地重建或完全丟失。因此,在幀丟失的情況下,在編碼中使用幀間信息會導致顯著的誤差傳播。
相反地,該當前的提議不需要幀間信息的傳輸。對於該期望信號和該量化雜訊兩者,該信號的該統計以該上下文的協方差矩陣的形式被離線決定。因此,我們可以在該解碼器處使用幀間信息,而不會有錯誤傳播的風險,因為該幀間統計是被離線估計的。
該所提出的方法適用於任何編解碼器的一後處理方法。該主要限制是如果一傳統編解碼器在一非常低的位元率下操作,則該信號的大部分被量化為零,這顯著降低了該所提出方法的該效率。然而,在低速率下,於文獻[3,4]中,其可以使用隨機量化方法使該量化誤差更好地類似於高斯雜訊。這使得該所提出的方法至少適用: 1. 在中及高位元率時採用傳統編解碼器設計,以及 2. 在低位元率時使用隨機量化。
因此,該所提出的方法以兩種方式使用該信號的統計模型;使用傳統的熵編碼方法對該幀內信息進行編碼,並且在一後處理步驟中將幀間信息用於該解碼器中的雜訊衰減。該解碼器側的來源建模的這種應用在分佈式編碼方法中是熟悉的,其中在文獻[5]中,已經證明,無論是在該編碼器和解碼器兩處還是僅在該解碼器處應用統計建模都無關緊要。據目前我們所知,我們的方法是在該分佈式編碼應用之外的語音和音頻編碼中,首次應用此功能。
1.4.2.2雜訊衰減
最近已經證明,雜訊衰減應用經由在該時間頻率域中隨時間併入統計信息而大大受益。具體而言,在文獻[6, 7]中,Benesty等人已經應用了傳統的最佳濾波器例如MVDR在該時間頻率域中,以減少背景雜訊。雖然該所提出的方法的一主要應用是量化雜訊的衰減,但它自然也可以被應用於像Benesty那樣的該通用雜訊衰減問題。然而,一不同之處在於我們已經明確地將那些時間-頻率區間選擇到我們的上下文中,其與該當前區間具有該最高相關性。不同的是,Benesty僅應用在時間上的濾波,但沒有應用相鄰頻率。經由在該時間-頻率區間中更自由地選擇,我們可以選擇那些在品質上具有該最高改進的頻率區間、具有該最小的上下文尺寸,從而降低計算複雜度。
1.4.3擴展
有許多自然擴展其自然地遵循該所提出的方法,並且這些擴展可以被應用在揭露於以上和以下的該觀點和範例: 1.如上,該上下文僅包含該雜訊當前樣本和該乾淨信號的過去估計值。但是,該上下文還可以包括尚未處理的時間頻率鄰區。也就是說,我們可以使用包含該最有用的鄰區的一上下文,並且在可用時,我們使用該估計的乾淨樣本,否則使用該嘈雜的樣本。然後,該有雜訊的鄰區自然會對該雜訊具有與該當前樣本一相似的協方差。 2. 該乾淨信號的估計自然不完美,但也包含一些誤差,但在上面,我們假設該過去信號的該估計沒有誤差。為了提高品質,針對該過去信號,我們還可以包括殘餘雜訊的一估計。 3. 該目前的工作聚焦在量化雜訊的衰減,但很明顯,我們也可以包括背景雜訊。如在文獻[8]中,那麼我們只需要在該最小化過程中包含該適當的雜訊協方差。 4.此處呈現的該方法僅適用於單通道信號,如在文獻[8]中,但顯然地我們可以使用傳統方法將其擴展為多通道信號。 5. 該當前實現使用離線估計的協方差,並且僅對該期望來源的協方差進行縮放以適應於該信號。很明顯,如果我們有關於對信號的進一步信息,自適應協方差模型將是有用的。例如,如果我們具有一語音信號的該發聲量的一指示符,或者該諧波雜訊比(HNR、Harmonics to Noise Ratio)的一估計,我們可以調整該所需的來源協方差以分別匹配該發聲或HNR。類似地,如果量化器類型或模式逐幀改變,我們可以使用它來調整該量化雜訊協方差。經由確保該協方差與該觀測信號的該統計資料相匹配,我們顯然將獲得該所需信號的更好估計。 6.在該時間頻率網格中的該最近鄰區中,該當前實現中的上下文被選擇。然而,並沒有限制僅使用這些樣品;我們可以自由選擇任何有用的信息。例如,我們可以使用關於該信號的該諧波結構的信息來選擇該上下文中的該樣本,其對應於該諧波信號的該梳狀結構。此外,如果我們可以存取一包絡模型,我們可以使用它來估計頻譜頻率區間的該統計資料,類似於文獻[9]。一般化時,我們可以使用與該當前樣本相關的任何可用信息,來改進該乾淨信號的該估計。
1.4.4參考文獻 [1] 3GPP, TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12), 2014. [2] ISO/IEC 23003-3:2012, “MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding,” 2012. [3] T Bäckström, F Ghido, and J Fischer, “Blind recovery of perceptual models in distributed speech and audio coding,” in Proc. Interspeech, 2016, pp. 2483-2487. [4] T Bäckström and J Fischer, “Fast randomization for distributed low-bitrate coding of speech and audio,” accepted to IEEE/ACM Trans. Audio, Speech, Lang. Process., 2017. [5] R. Mudumbai, G. Barriac, and U. Madhow, “On the feasibility of distributed beamforming in wireless networks,” Wireless Communications, IEEE Transactions on, vol. 6, no. 5, pp. 1754-1763, 2007. [6] Y.A. Huang and J. Benesty, “A multi-frame approach to the frequency-domain single-channel noise reduction problem,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 4, pp. 1256-1269, 2012. [7] J. Benesty and Y. Huang, “A single-channel noise reduction MVDR filter,” in ICASSP. IEEE, 2011, pp. 273-276. [8] J Benesty, M Sondhi, and Y Huang, Springer Handbook of Speech Processing, Springer, 2008. [9] T Bäckström and C R Helmrich, “Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes,” in Proc. ICASSP, Apr. 2015, pp. 5127-5131.
1.5其他觀點
1.5.1附加規範和更多細節
在上面的範例中,不需要在該位元流111中編碼幀間信息。因此,在範例中,該上下文定義器114、該統計關係和/或信息估計器115、量化雜訊關係和/或信息估計器119以及該數值估計器116中的該至少一個利用在該解碼器處的幀間信息。因此,在資料包或位元丟失的情況下,減少了有效載荷和錯誤傳播的風險。
在上面的範例中,主要參考量化雜訊。然而,在其他範例中可以應對其他類型的雜訊。
已經注意到,上述大多數該技術對低位元率特別有效。因此,可以實現在以下之間進行選擇的一技術: -一較低位元率模式,其中使用該等上述技術;和 - 一更高位元率模式,其中該所提出的後濾波被繞過。
圖5.1係顯示在一些範例中可以由該解碼器110實現的一範例510。關於該位元率,一決定511被執行。如果該位元率低於一預定閾值,則在512處如上所述的一基於上下文的濾波被執行。如果該位元率超過一預定閾值,則在513處該基於上下文的濾波被跳過。
在範例中,該上下文定義器114可以使用至少一個未處理的區間126,來形成該上下文114’。參考圖1.5,在一些範例中,該上下文114’因此可以包括該帶圓圈的區間126中的至少一個。因此,在一些範例中,該已經處理區間儲存單元118可以被避免、或者經由一連接113”(圖1.1)而被補充,該連接113”向該上下文定義器114提供至少一個未處理的區間126。
在以上範例中,該統計關係和/或信息估計器115和/或該雜訊關係和/或信息估計器119可以儲存多個矩陣(例如,
Figure 02_image225
Figure 02_image117
)。要使用的該矩陣的該選擇可以基於該輸入信號上的一矩陣(例如,在該上下文114’中和/或在該處理中的區間123中)而被執行。因此,不同的諧度(例如,經由不同的諧度與雜訊比或其他矩陣來決定)可以與不同的矩陣
Figure 02_image225
Figure 02_image117
相關聯。
或者,該上下文的不同範數(例如,經由測量該未處理的區間值的該上下文的該範數或其他矩陣來決定)因此可以例如與不同的矩陣
Figure 02_image225
Figure 02_image117
相關聯。
1.5.2方法
上面揭露的該設備的操作可以是根據本揭露的方法。
方法的一個一般範例如圖5.2所示,其中涉及: - 一第一步驟521(例如,由該上下文定義器114執行),其中為一輸入信號的一個處理中的區間(例如123)定義一上下文(例如114’),該上下文(例如114’)包括在至少一個附加區間(例如118’、124),其在一頻率/時間空間中與該處理中的區間(例如123)有一預定的位置關係; - 一第二步驟522(例如,由該組件115、119、116中的至少一個執行),其中,基於該處理中的區間(例如,123)和該至少一個附加區間(例如118’、124)之間的統計關係和/或信息115’、和/或關於該處理中的區間(例如,123)和該至少一個附加區間(例如118’、124)的信息、以及基於關於雜訊(例如,量化雜訊和/或其他類型的雜訊)的統計關係和/或信息(例如119’),估計該正在處理中的區間(例如,123)的該值(例如116’)。
在範例中,可以重複該方法,例如,在步驟522之後,例如經由更新處理中的區間並經由選擇一新的上下文,步驟521被重新調用。
諸如方法520的方法可以經由上面討論的操作來補充。
1.5.3儲存單元
如圖5.3所示,上面公開的該設備(例如,113、114、116、118、115、117、119等)和方法的操作可以由基於一處理器的系統530而被實現。該後者可以包括一非暫時性儲存單元534,當由一處理器532執行時,其可以操作以降低該雜訊。一輸入/輸出(I/O)端口53被顯示,其可以例如從一接收天線和/或一儲存單元(例如,其中該輸入信號111被儲存)向該處理器532提供資料(諸如該輸入信號111)。
1.5.4系統
圖5.4係顯示一系統540,其包括一編碼器542和該解碼器130(或如上所述的另一編碼器)。該編碼器542被配置為提供具有編碼的該輸入信號的該位元流111,例如,無線地(例如,射頻和/或超音波和/或光通信)或者經由將該位元流111儲存在一儲存支持中。
1.5.5進一步的例子
通常,範例可以實現為具有程式指令的一計算機程式產品,當該計算機程式產品在一計算機上運行時,該程式指令可操作用於執行這些方法之一。程式指令可以例如儲存在機器可讀媒體上。
其他範例包括用於執行儲存在一機器可讀載體上的本文所述該方法之一的該計算機程式。
換句話說,一方法的範例因此是具有程式指令的一計算機程式,當該計算機程式在一計算機上運行時,該程式指令用於執行本文所述的方法之一。
因此,該方法的一另一範例因此是一資料載體媒體(或一數位儲存媒體,或一計算機可讀媒體),其包括記錄在其上的用於執行本文所述方法之一的該計算機程式。該資料載體媒體、該數位儲存媒體或該記錄媒體是有形的和/或非暫時的,而不是無形和暫時的信號。
因此,該方法的一另一個例子因此是表示用於執行本文所述方法之一的計算機程式的一資料串流或一信號序列。該資料串流或該信號序列可以例如經由一資料通信連接而被傳輸,例如經由該網際網路(Internet)傳輸。
一另一範例包括一處理裝置,例如一計算機或一可程式化邏輯設備,以執行本文描述的方法之一。
一另一範例包括在其上安裝有用於執行本文描述的方法之一的計算機程式的一計算機。
一另一範例包括將用於執行本文描述的方法之一的一計算機程式傳送(例如,電子地或光學地)到一接收器的一設備或一系統。該接收器可以是例如一計算機、一移動設備、或一記憶體設備等。該裝置或系統可以例如包括用於將計算機程式傳送到該接收器的檔案伺服器。
在一些範例中,一可程式化邏輯器件(例如,一現場可編輯閘陣列)可用於執行本文描述的方法的一些或全部功能。在一些範例中,一現場可編輯閘陣列可以與一微處理器協作,以便執行本文描述的方法之一。通常,該方法較佳地由任何硬體設備執行。
上述範例僅代表了本揭露該原理的一說明。應理解,本領域其他技術人員將理解本文所述的佈置和細節的任何修改和變化。上述實施例僅係為了方便說明而舉例而已,本揭露所主張之權利範圍自應以申請專利範圍該為準,而非僅限於上述實施例。
在借助附圖對本揭露的實施例進行詳細說明之前,應當注意的是,在不同的附圖中,相同的、功能上相同的和相等的元件、物件和/或結構被提供有相同的附圖標記,使得不同實施例中的這些元件的描述是可互換和/或相互適用的。
儘管已經在一設備的上下文中描述了一些觀點,但是應當理解,所述觀點還表示對應方法的一描述,使得一設備的一區塊或一結構組件也應被理解為一對應的方法步驟、或作為一方法步驟的一個特徵。經由類推,已經結合一方法步驟或作為一方法步驟描述的觀點也表示一對應設備的一對應區塊或細節或特徵的一描述。
110‧‧‧解碼器111‧‧‧位元流113’‧‧‧原始輸入信號的一版本114’‧‧‧上下文114‧‧‧上下文定義器118’‧‧‧區間115‧‧‧統計關係和/或信息估計器115’、119’‧‧‧統計關係和/或信息119‧‧‧量化雜訊關係和/或信息估計器116‧‧‧數值估計器116’‧‧‧估計117‧‧‧頻率域到時域變換器112‧‧‧時域輸出信號118‧‧‧處理區間儲存單元121‧‧‧幀序列123-126‧‧‧頻譜區間120‧‧‧信號版本122‧‧‧頻帶114”‧‧‧上下文130‧‧‧解碼器119’‧‧‧量化雜訊131‧‧‧測量器131’‧‧‧測量值132‧‧‧縮放器132’‧‧‧縮放矩陣133‧‧‧加法器133’‧‧‧求和值134‧‧‧反轉區塊134’‧‧‧值135’‧‧‧值136、135‧‧‧乘法器136’‧‧‧輸出140‧‧‧方法510‧‧‧範例511‧‧‧決定242‧‧‧感知加權區塊243‧‧‧預處理區塊244‧‧‧感知模型區塊242”‧‧‧編解碼區塊244‧‧‧編解碼器/量化雜訊(QN)模擬區塊244’‧‧‧輸出241’‧‧‧信號242’‧‧‧加權的信號245‧‧‧區塊245’‧‧‧離線訓練的語音和雜訊模型246‧‧‧增強區塊246’‧‧‧信號247‧‧‧區塊248‧‧‧區塊249‧‧‧解碼語音信號331‧‧‧輸入語音信號330‧‧‧建模(訓練)過程332’‧‧‧頻率域信號332‧‧‧區塊333‧‧‧區塊333’‧‧‧預處理信號334‧‧‧區塊334’‧‧‧感知加權信號335‧‧‧區塊335’‧‧‧上下文向量336‧‧‧區塊336’‧‧‧協方差矩陣336’‧‧‧訓練模型360‧‧‧系統360a‧‧‧編碼器361‧‧‧語音輸入362、363、364、365、366‧‧‧區塊362’‧‧‧頻率域信號366’‧‧‧編碼信號360b‧‧‧該解碼器367、369a、369b‧‧‧區塊369‧‧‧後濾波區塊368‧‧‧對數變換區塊113”‧‧‧連接520‧‧‧方法521‧‧‧第一步驟522‧‧‧第二步驟530‧‧‧系統534‧‧‧非暫時性儲存單元532‧‧‧處理器111‧‧‧輸入信號536‧‧‧輸入/輸出(I/O)端口542‧‧‧編碼器540‧‧‧系統
圖1.1係顯示根據一範例的一解碼器。 圖1.2係顯示一信號的一版本在一頻率/時間的空間圖中的一圖式,其指示了該上下文。 圖1.3係顯示根據一範例的一解碼器。 圖1.4係顯示根據一範例的一方法。 圖1.5係顯示一信號的一版本在一頻率/時間的空間圖以及幅度/頻率圖中的一圖式。 圖2.1係顯示一信號的一版本在頻率/時間的空間圖中的圖式,其指示了該上下文。 圖2.2係顯示用範例所獲得的直方圖。 圖2.3係顯示根據範例的語音的頻譜圖。 圖2.4:係顯示解碼器和編碼器的一範例。 圖2.5:係顯示用範例所獲得的結果圖。 圖2.6係顯示用範例所獲得的測試結果。 圖3.1係顯示一信號的一版本在一頻率/時間的空間圖中的一圖式,其指示了該上下文。 圖3.2係顯示用範例所獲得的直方圖。 圖3.3係顯示語音模型的該訓練的一方塊圖。 圖3.4係顯示用範例所獲得的直方圖。 圖3.5係顯示用範例表示在SNR的該改善的圖式。 圖3.6係顯示解碼器和編碼器的一範例。 圖3.7係顯示關於範例的圖式。 圖3.8係顯示一相關性的圖式。 圖4.1係顯示根據一範例的一系統。 圖4.2係顯示根據一範例的一方案。 圖4.3係顯示根據一範例的一方案。 圖5.1係顯示根據範例的一方法步驟。 圖5.2係顯示一個一般方法。 圖5.3係顯示根據一範例的一基於處理器的系統。 圖5.4係顯示根據一範例的一編碼器/解碼器系統。
110‧‧‧解碼器
111‧‧‧位元流
113’‧‧‧原始輸入信號的一版本
114’‧‧‧上下文
114‧‧‧上下文定義器
118’‧‧‧區間
115‧‧‧統計關係和/或信息估計器
115’、119’‧‧‧統計關係和/或信息
119‧‧‧量化雜訊關係和/或信息估計器
116‧‧‧數值估計器
116’‧‧‧估計
117‧‧‧頻率域到時域變換器
112‧‧‧時域輸出信號
118‧‧‧處理區間儲存單元

Claims (58)

  1. 一種解碼器,用於解碼在一位元流中定義的一頻率域信號,該頻率域輸入信號受到量化雜訊的影響,該解碼器包括:一位元流讀取器,用於從該位元流提供該輸入信號的一版本作為一幀序列,每個幀被細分為多個區間,每個區間具有一採樣值;一上下文定義器(context definer),被配置為一個處理中的區間定義一上下文,該上下文包括至少一個附加區間,其與該處理中的區間有一預定的位置關係;一統計關係和/或信息估計器,其被配置為提供關於該處理中的區間和該至少一個附加區間之間的統計關係和/或信息、和/或該處理中的區間和該至少一個附加區間的信息,其中該統計關係估計器包括一量化雜訊關係和/或信息估計器,其被配置為提供關於量化雜訊的統計關係和/或信息;一數值估計器,其被配置為基於該估計的統計關係和/或信息和關於量化雜訊的統計關係和/或信息,來處理和獲得該處理中的區間的該值的一估計;以及一變換器,用於將該估計信號變換為一時域信號;其中,該處理中的區間和該至少一個附加區間之間的該統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息中的至少一個,係經由離線訓練而被獲得;和/或該量化雜訊關係和/或信息中的至少一個,係經由離線訓練而被獲得。
  2. 一種解碼器,用於解碼在一位元流中定義的一頻率域信號,該頻率域輸入信號受到雜訊的影響,該解碼器包括:一位元流讀取器,用於從該位元流提供該輸入信號的一版本作為一幀序列,每個幀被細分為多個區間,每個區間具有一採樣值; 一上下文定義器,被配置為一個處理中的區間定義一上下文,該上下文包括至少一個附加區間,其與該處理中的區間有一預定的位置關係;一統計關係和/或信息估計器,其被配置為提供關於該處理中的區間和該至少一個附加區間之間的統計關係和/或信息、和/或該處理中的區間和該至少一個附加區間的信息,其中該統計關係估計器包括一雜訊關係和/或信息估計器,其被配置為提供關於雜訊的統計關係和/或信息;一數值估計器,其被配置為基於該估計的統計關係和/或信息和關於雜訊的統計關係和/或信息,來處理和獲得該處理中的區間的該值的一估計;以及一變換器,用於將該估計信號變換為一時域信號;其中,該處理中的區間和該至少一個附加區間之間的該統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息中的至少一個,係經由離線訓練而被獲得;和/或該雜訊關係和/或信息中的至少一個,係經由離線訓練而被獲得。
  3. 如申請專利範圍第2項之該解碼器,其中,雜訊係為非量化雜訊的雜訊。
  4. 如申請專利範圍第1項或第2項之該解碼器,其中,該上下文定義器被配置為在先前處理的區間中選擇該至少一個附加區間。
  5. 如申請專利範圍第1項或第2項之該解碼器,其中,該上下文定義器被配置為基於該區間的該頻帶選擇該至少一個附加區間。
  6. 如申請專利範圍第1項或第2項之該解碼器,其中,該上下文定義器被配置為在已經處理的那些區間中,在一預定閾值內選擇該至少一個附加區間。
  7. 如申請專利範圍第1項或第2項之該解碼器,其中,該上下文定義器被配置為針對在不同頻帶的區間選擇不同的上下文。
  8. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為作為一維納(Wiener)濾波器操作,以提供該輸入信號的一最佳估計。
  9. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為從該至少一個附加區間的至少一個採樣值獲得該處理中的區間的該值的該估計。
  10. 申請專利範圍第1項或第2項之該解碼器,其更包括一測量器,其被配置為提供與該上下文的該至少一個附加區間的該先前執行的估計相關聯的一測量值,其中,該數值估計器被配置為基於該測量值獲得該處理中的區間的該值的該估計。
  11. 如申請專利範圍第10項之該解碼器,其中,該測量值是與該上下文的該至少一個附加區間的該能量相關聯的一值。
  12. 如申請專利範圍第10項之該解碼器,其中,該測量值是與該上下文的該至少一個附加區間相關聯的一增益。
  13. 如申請專利範圍第12項之該解碼器,其中,該測量器被配置為獲得作為向量的該純量乘積的該增益,其中一第一向量包含該上下文的該至少一個附加區間的值,並且該第二個向量是該第一個向量的該轉置共軛向量。
  14. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為提供該統計關係和/或信息作為預定估計、和/或在該處理中的區間與該上下文的該至少一個附加區間之間的預期統計關係。
  15. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為提供該統計關係和/或信息作為關係,其係基於在該處理中的區間與該上下文的該至少一個附加區間之間的位置關係。
  16. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為提供該統計關係和/或信息,而不論該處理中的區間和/或該上下文的該至少一個附加區間的該值為何。
  17. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為以方差、協方差、相關性和/或自相關值的形式提供該統計關係和/或信息。
  18. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為以一矩陣的形式提供統計關係和/或信息,以建立該處理中的區間和/或該上下文的該至少一個附加區間之間的方差、協方差、相關性和/或自相關值的關係。
  19. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為以一正規化矩陣的形式提供該統計關係和/或信息,以建立該處理中的區間和/或該上下文的該至少一個附加區間之間的方差、協方差、相關性和/或自相關值的關係。
  20. 如申請專利範圍第18項之該解碼器,其中,該矩陣經由離線訓練(offline training)而被獲得。
  21. 如申請專利範圍第18項之該解碼器,其中,該數值估計器被配置為經由一能量相關或增益值來縮放該矩陣的元素,以便考慮該處理中的區間和/或該上下文的該至少一個附加區間之間的該能量和/或增益變化。
  22. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為基於一關係以獲得該處理中的區間的該值的該估計,該關係為:
    Figure 107137188-A0305-02-0069-34
    其中Λ X Λ N
    Figure 107137188-A0305-02-0070-43
    分別是雜訊和協方差矩陣,y
    Figure 107137188-A0305-02-0070-38
    是具有c+1維度的一雜訊觀測向量,c是該上下文長度。
  23. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為基於一關係以獲得該處理中的區間的該值的該估計,該關係為:
    Figure 107137188-A0305-02-0070-35
    其中,Λ N
    Figure 107137188-A0305-02-0070-39
    是一正規化協方差矩陣,Λ N
    Figure 107137188-A0305-02-0070-42
    是該雜訊協方差矩陣,y
    Figure 107137188-A0305-02-0070-41
    是具有c+1維度的一雜訊觀察向量,並且與該處理中的區間和該上下文的該至少一個附加區間相關聯,c是該上下文長度,γ是一縮放增益。
  24. 如申請專利範圍第1項或第2項之該解碼器,其中,該值估計器被配置為如果該上下文的每個該附加區間的該採樣值對應到該上下文的該附加區間的該估計值,就獲得該處理中的區間的該值的該估計。
  25. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為如果該處理中的區間的該採樣值被預期在一上限值和一下限值之間,就獲得該處理中的區間的該值的該估計。
  26. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為基於一似然性函數(likelihood function)的一最大值來獲得該處理中的區間的該值的該估計。
  27. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為基於一期望值來獲得該處理中的區間的該值的該估計。
  28. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為基於一多元高斯隨機變量(multivariate Gaussian random variable)的期望值來獲得該處理中的區間的該值的該估計。
  29. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為基於一條件多元高斯隨機變量(conditional multivariate Gaussian random variable)的期望值來獲得該處理中的區間的該值的該估計。
  30. 如申請專利範圍第1項或第2項之該解碼器,其中,該採樣值在該對數幅度(Log-magnitude)域中。
  31. 如申請專利範圍第1項或第2項之該解碼器,其中,該採樣值該在該感知域中。
  32. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為向該數值估計器提供該信號的一平均值。
  33. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為基於該處理中的區間與該上下文的至少一個附加區間之間的方差相關和/或協方差相關的關係,來提供該乾淨信號的一平均值。
  34. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為基於該處理中的區間的該預期值,來提供該乾淨信號的一平均值。
  35. 如申請專利範圍第34項之該解碼器,其中,該統計關係和/或信息估計器被配置為基於該估計的上下文,以更新該信號的一平均值。
  36. 如申請專利範圍第1項或第2項之該解碼器,其中,該其中統計關係和/或信息估計器被配置為向該數值估計器提供一方差相關和/或標準偏差值相關的值。
  37. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為基於該處理中的區間與該上下文的該至少一個附加區間之間的方差相關和/或協方差相關的關係,向該數值估計器提供一方差相關和/或標準偏差值相關的值。
  38. 如申請專利範圍第1項或第2項之該解碼器,其中,該雜訊關係和/或信息估計器被配置為針對每個區間,提供用一上限值和一下限值,其係基於該信號在該上限值和該下限值之間的該預期,以估計該信號。
  39. 如申請專利範圍第1項或第2項之該解碼器,其中,該輸入信號的該版本具有一量化值,該量化值是一量化等級,該量化等級是一數值,其選自量化等級中的一離散數目。
  40. 如申請專利範圍第1項或第2項之該解碼器,其中,該量化等級的該數目和/或數值和/或比例係由一編碼器用信號通知和/或在該位元流中用信號通知。
  41. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為獲得該處理中的區間的該值的該估計為:
    Figure 107137188-A0305-02-0072-1
    其中
    Figure 107137188-A0305-02-0072-7
    是該處理中的區間的該估計,lu分別是該當前量化區間的該下限和上限,並且P(a 1|a 2)是在給定a 2下、a 1的該條件機率,
    Figure 107137188-A0305-02-0072-3
    是一估計的上下文向量。
  42. 如申請專利範圍第1項或第2項之該解碼器,其中,該數值估計器被配置為基於該期望,以獲得該處理中的區間的該值的該估計為:
    Figure 107137188-A0305-02-0072-2
    其中,X是該處理中的區間的一特定值,表示為一截斷的高斯隨機變量,其中l<X<u,其中l是該下限值,u是該上限值,
    Figure 107137188-A0305-02-0072-6
    f 2(a)=
    Figure 107137188-A0305-02-0072-4
    μ=E(X),μσ是該分佈的平均值和方差。
  43. 如申請專利範圍第1項或第2項之該解碼器,其中,該預定位置關係經由離線訓練而被獲得。
  44. 如申請專利範圍第1項或第2項之該解碼器,其中,該輸入信號是一音頻信號。
  45. 如申請專利範圍第1項或第2項之該解碼器,其中,該輸入信號是一語音信號。
  46. 如申請專利範圍第1項或第2項之該解碼器,其中,該上下文定義器、該統計關係和/或信息估計器、該雜訊關係和/或信息估計器以及該值估計器中的至少一個被配置為執行一後濾波操作,以獲得該輸入信號的一乾淨估計。
  47. 如申請專利範圍第1項或第2項之該解碼器,其中,該上下文定義器被配置為定義具有多個附加區間的該上下文。
  48. 如申請專利範圍第1項或第2項之該解碼器,其中,該上下文定義器被配置為將該上下文定義為一頻率/時間圖中的區間的一簡單連接的鄰近區域。
  49. 如申請專利範圍第1項或第2項之該解碼器,其中,該位元流讀取器被配置為從該位元流中,避免幀間信息的該解碼。
  50. 如申請專利範圍第1項或第2項之該解碼器,其進一步被配置為決定該信號的該位元率,並且在該位元率高於一預定位元率閾值的情況下,繞過該上下文定義器、該統計關係和/或信息估計器、該雜訊關係和/或信息估計器、該值估計器中的至少一個。
  51. 如申請專利範圍第1項或第2項之該解碼器,其進一步包括一處理區間儲存單元,其儲存關於該先前處理的區間的信息,該上下文定義器被配置為使用至少一個先前處理的區間作為該至少一個附加區間來定義該上下文。
  52. 如申請專利範圍第1項或第2項之該解碼器,其中,該上下文定義器被配置為使用至少一個未處理的區間作為該至少一個附加區間來定義該上下文。
  53. 如申請專利範圍第1項或第2項之該解碼器,其中,該統計關係和/或信息估計器被配置為以一矩陣(Λ X )的形式提供該統計關係和/或信息,以建立該處理中的區間和該上下文的該至少一個附加區間之間的方差、協方差、相關性和/或自相關值的關係,其中,該統計關係和/或信息估計器被配置為基於與該輸入信號的該諧度相關聯的一矩陣,從多個預定義矩陣中選擇一個矩陣。
  54. 如申請專利範圍第1項或第2項之該解碼器,其中,該雜訊關係和/或信息估計器被配置為以一矩陣(Λ N )的形式提供關於雜訊的該統計關係和/或信息,以建立與該雜訊相關的方差、協方差、相關性和/或自相關的關係,其中,該統計關係和/或信息估計器被配置為基於與該輸入信號的該諧度相關聯的一矩陣,從多個預定義矩陣中選擇一個矩陣。
  55. 一種方法,用於解碼在一位元流中定義的一頻率域信號,該頻率域輸入信號受到量化雜訊的影響,該方法包括:為該輸入信號的一個處理中的區間定義一上下文,該上下文包括至少一個附加區間,其在一頻率/時間空間中與該處理中的區間有一預定的位置關係;以及基於該處理中的區間和該至少一個附加區間之間的統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息、以及基於關於量化雜訊的統計關係和/或信息,估計該正在處理中的區間的該值;其中,該處理中的區間和該至少一個附加區間之間的該統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息中的至少一個,係 經由離線訓練而被獲得;和/或該關於量化雜訊的統計關係和/或信息中的至少一個,係經由離線訓練而被獲得。
  56. 一種方法,用於解碼在一位元流中定義的一頻率域信號,該頻率域輸入信號受到不是量化雜訊之雜訊的影響,該方法包括:為該輸入信號的一個處理中的區間定義一上下文,該上下文包括在至少一個附加區間,其在一頻率/時間空間中與該處理中的區間有一預定的位置關係;以及基於該處理中的區間和該至少一個附加區間之間的統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息、以及基於關於不是量化雜訊之雜訊的統計關係和/或信息,估計該處理中的區間的該值;其中,該處理中的區間和該至少一個附加區間之間的該統計關係和/或信息、和/或關於該處理中的區間和該至少一個附加區間的信息中的至少一個,係經由離線訓練而被獲得;和/或該關於不是量化雜訊之雜訊的統計關係和/或信息中的至少一個,係經由離線訓練而被獲得。
  57. 如申請專利範圍第55或56項之該方法,使用申請專利範圍第1項或申請專利範圍第2項的該解碼器。
  58. 一種儲存指令的非暫時性儲存單元,該指令在由一處理器執行時,使該處理器執行申請專利範圍第55或56項之該方法。
TW107137188A 2017-10-27 2018-10-22 解碼器的雜訊衰減 TWI721328B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
EP17198991.6 2017-10-27
??17198991.6 2017-10-27
EP17198991 2017-10-27
PCT/EP2018/071943 WO2019081089A1 (en) 2017-10-27 2018-08-13 MITIGATION OF NOISE AT THE LEVEL OF A DECODER
??PCT/EP2018/071943 2018-08-13
WOPCT/EP2018/071943 2018-08-13

Publications (2)

Publication Number Publication Date
TW201918041A TW201918041A (zh) 2019-05-01
TWI721328B true TWI721328B (zh) 2021-03-11

Family

ID=60268208

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107137188A TWI721328B (zh) 2017-10-27 2018-10-22 解碼器的雜訊衰減

Country Status (10)

Country Link
US (1) US11114110B2 (zh)
EP (1) EP3701523B1 (zh)
JP (1) JP7123134B2 (zh)
KR (1) KR102383195B1 (zh)
CN (1) CN111656445B (zh)
AR (1) AR113801A1 (zh)
BR (1) BR112020008223A2 (zh)
RU (1) RU2744485C1 (zh)
TW (1) TWI721328B (zh)
WO (1) WO2019081089A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210151831A (ko) * 2019-04-15 2021-12-14 돌비 인터네셔널 에이비 오디오 코덱에서의 대화 향상
AU2020320270A1 (en) * 2019-08-01 2022-03-24 Dolby Laboratories Licensing Corporation Encoding and decoding IVAS bitstreams
IL276249A (en) 2020-07-23 2022-02-01 Camero Tech Ltd System and method for extracting signals with a high signal-to-noise ratio from signals with a low signal-to-noise ratio
RU2754497C1 (ru) * 2020-11-17 2021-09-02 федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации
CN114900246B (zh) * 2022-05-25 2023-06-13 中国电子科技集团公司第十研究所 噪声基底估计方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081026A1 (en) * 2009-10-01 2011-04-07 Qualcomm Incorporated Suppressing noise in an audio signal
US20130218577A1 (en) * 2007-08-27 2013-08-22 Telefonaktiebolaget L M Ericsson (Publ) Method and Device For Noise Filling
EP2887350B1 (en) * 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US8271287B1 (en) * 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
US6678647B1 (en) * 2000-06-02 2004-01-13 Agere Systems Inc. Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
EP1521242A1 (en) * 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20060009985A1 (en) * 2004-06-16 2006-01-12 Samsung Electronics Co., Ltd. Multi-channel audio system
TWI393120B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
ES2356492T3 (es) * 2005-07-22 2011-04-08 France Telecom Método de conmutación de tasa de transmisión en decodificación de audio escalable en tasa de transmisión y ancho de banda.
WO2007047505A2 (en) * 2005-10-18 2007-04-26 Telecommunication Systems, Inc. Automatic call forwarding to in-vehicle telematics system
KR20080033639A (ko) * 2006-10-12 2008-04-17 삼성전자주식회사 영상 재생 장치 및 영상 재생 장치에서의 음량 조절 방법
US8401845B2 (en) 2008-03-05 2013-03-19 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
WO2011110594A1 (en) 2010-03-10 2011-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
TW201143375A (en) * 2010-05-18 2011-12-01 Zyxel Communications Corp Portable set-top box
JP5325340B2 (ja) 2010-07-05 2013-10-23 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
US8826444B1 (en) * 2010-07-09 2014-09-02 Symantec Corporation Systems and methods for using client reputation data to classify web domains
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
KR20140036343A (ko) * 2011-06-08 2014-03-25 삼성전자주식회사 오디오 비디오 네트워크를 위한 향상된 스트림 예약 프로토콜
US8526586B2 (en) * 2011-06-21 2013-09-03 At&T Intellectual Property I, L.P. Methods, systems, and computer program products for determining targeted content to provide in response to a missed communication
US8930610B2 (en) * 2011-09-26 2015-01-06 Key Digital Systems, Inc. System and method for transmitting control signals over HDMI
US9082402B2 (en) * 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
CN103259999B (zh) * 2012-02-20 2016-06-15 联发科技(新加坡)私人有限公司 Hpd信号输出控制方法、hdmi接收端设备及系统
CN102710365A (zh) * 2012-03-14 2012-10-03 东南大学 应用于多小区协作系统的基于信道统计信息的预编码方法
CN110706715B (zh) 2012-03-29 2022-05-24 华为技术有限公司 信号编码和解码的方法和设备
WO2013155619A1 (en) * 2012-04-20 2013-10-24 Sam Pasupalak Conversational agent
US9736604B2 (en) * 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
KR101605862B1 (ko) * 2012-06-29 2016-03-24 삼성전자주식회사 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
PT3121813T (pt) * 2013-01-29 2020-06-17 Fraunhofer Ges Forschung Preenchimento de ruído sem informação lateral para codificadores do tipo celp
SI3537437T1 (sl) * 2013-03-04 2021-08-31 Voiceage Evs Llc Naprava in postopek za zmanjšanje kvantizacijskega šuma v časovnem dekoderju
CN103347070B (zh) * 2013-06-28 2017-08-01 小米科技有限责任公司 推送语音数据的方法、终端、服务器及系统
EP2830060A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US9620133B2 (en) * 2013-12-04 2017-04-11 Vixs Systems Inc. Watermark insertion in frequency domain for audio encoding/decoding/transcoding
CN104980811B (zh) * 2014-04-09 2018-12-18 阿里巴巴集团控股有限公司 遥控器装置、通话装置、通话系统及通话方法
US20150379455A1 (en) * 2014-06-30 2015-12-31 Authoria, Inc. Project planning and implementing
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
US9564130B2 (en) * 2014-12-03 2017-02-07 Samsung Electronics Co., Ltd. Wireless controller including indicator
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10365620B1 (en) * 2015-06-30 2019-07-30 Amazon Technologies, Inc. Interoperability of secondary-device hubs
US10847175B2 (en) * 2015-07-24 2020-11-24 Nuance Communications, Inc. System and method for natural language driven search and discovery in large data sources
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US10904727B2 (en) * 2016-12-13 2021-01-26 Universal Electronics Inc. Apparatus, system and method for promoting apps to smart devices
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
US10930276B2 (en) * 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10310082B2 (en) * 2017-07-27 2019-06-04 Quantenna Communications, Inc. Acoustic spatial diagnostics for smart home management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218577A1 (en) * 2007-08-27 2013-08-22 Telefonaktiebolaget L M Ericsson (Publ) Method and Device For Noise Filling
US20110081026A1 (en) * 2009-10-01 2011-04-07 Qualcomm Incorporated Suppressing noise in an audio signal
EP2887350B1 (en) * 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
R. Martin,"Noise power spectral density estimation based on optimal smoothing and minimum statistics",IEEE Transactions on Speech and Audio Processing ( Volume: 9 , Issue: 5 , Jul 2001 ),Page(s) 504 – 512. *

Also Published As

Publication number Publication date
EP3701523B1 (en) 2021-10-20
US20200251123A1 (en) 2020-08-06
RU2744485C1 (ru) 2021-03-10
AR113801A1 (es) 2020-06-10
EP3701523A1 (en) 2020-09-02
BR112020008223A2 (pt) 2020-10-27
CN111656445A (zh) 2020-09-11
US11114110B2 (en) 2021-09-07
JP7123134B2 (ja) 2022-08-22
CN111656445B (zh) 2023-10-27
KR102383195B1 (ko) 2022-04-08
JP2021500627A (ja) 2021-01-07
TW201918041A (zh) 2019-05-01
WO2019081089A1 (en) 2019-05-02
KR20200078584A (ko) 2020-07-01

Similar Documents

Publication Publication Date Title
TWI721328B (zh) 解碼器的雜訊衰減
RU2712125C2 (ru) Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием
CN106415716B (zh) 编码器、解码器以及用于编码和解码的方法
US20220223161A1 (en) Audio Decoder, Apparatus for Determining a Set of Values Defining Characteristics of a Filter, Methods for Providing a Decoded Audio Representation, Methods for Determining a Set of Values Defining Characteristics of a Filter and Computer Program
CN101622662A (zh) 编码装置和编码方法
Lim et al. Robust low rate speech coding based on cloned networks and wavenet
RU2636126C2 (ru) Устройство для кодирования речевого сигнала с использованием acelp в автокорреляционной области
Das et al. Postfiltering using log-magnitude spectrum for speech and audio coding
EP3544005B1 (en) Audio coding with dithered quantization
Bao et al. Speech enhancement based on a few shapes of speech spectrum
Das et al. Postfiltering with complex spectral correlations for speech and audio coding
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
RU2803449C2 (ru) Аудиодекодер, устройство для определения набора значений, задающих характеристики фильтра, способы для обеспечения декодированного аудиопредставления, способы для определения набора значений, задающих характеристики фильтра, и компьютерная программа
Prasad et al. Speech bandwidth extension using magnitude spectrum data hiding
Kim et al. Signal modification for robust speech coding
Erzin New methods for robust speech recognition
Pawig et al. Quality of network based acoustic noise reduction
Bäckström et al. Spectral Envelope and Perceptual Masking Models
Rashobh Multichannel equalization applied to speech dereverberation
JP2013057792A (ja) 音声符号化装置及び音声符号化方法
Kim KLT-based adaptive entropy-constrained vector quantization for the speech signals
Kim et al. The reduction of the search time by the pre-determination of the grid bit in the g. 723.1 MP-MLQ.
Liu et al. Speech enhancement based on analysis-synthesis framework with improved pitch estimation and spectral envelope enhancement
Islam Speech enhancement based on statistical modeling of teager energy operated perceptual wavelet packet coefficients and adaptive thresholding function