TWI407431B

TWI407431B - A perceptual parameter based objective voice quality estimation method

Info

Publication number: TWI407431B
Application number: TW98135710A
Authority: TW
Original assignee: Chunghwa Telecom Co Ltd
Priority date: 2009-10-22
Filing date: 2009-10-22
Publication date: 2013-09-01
Also published as: TW201115563A

Description

以感知參數為基礎之客觀語音品質估測方法

本發明係關於一種以感知參數為基礎之客觀語音品質估測方法，特別是關於一種利用一個同時考慮時間和頻率上變化的人耳聽覺模型來對語音品質做客觀的評量。

傳統上最可靠的語音品質評量方式，是找來一大群受試者直接來聽各種測試語音，並把語音品質好壞分成五個等級做評分，得到一個主觀的平均意見分數；但顯然的，這種主觀評估語音品質的方式相當耗費人力、金錢與時間，尤其當複雜的通信網路架構有一小部份地方改變了，整個主觀評量語音品質好壞的實驗又必須重做一次，所以主觀評量方式在實行上有相當困難。

在2004年五月，ITU(國際電信聯盟)發表了非侵入式的客觀語音品質估測方法的國際標準，P.563。它將通過通信網路後受到損傷的受損語音，透過一口腔發聲模型分析，進而估測出相對應之可能乾淨語音。並將此估測之乾淨語音與受損語音送入一人耳感知模型進行分析與比較，估算出受損語音之品質。在超過48個主觀聽測實驗語料庫中，展現出令人滿意的效能，對於窄頻語音電信網路中的大部分語音失真都有良好的評估結果。

而在2007年，另一演算法，ANIQUE+也被提出，並被認可為美國在非侵入式的客觀語音品質估測方法的國家標準。它是利用語音在時域上的封包變動，並結合人耳聽覺對語音分析的特性和大腦認知兩階段的處理，進而使用類神經網路反覆地去調整系統中各模型的參數，藉此估算出損傷語音的品質。在大量的主觀聽測實驗語料庫中評測，效能甚至直逼ITU的侵入式客觀語音品質評量的國際標準，P.862：PESQ。

然而先前這兩個非侵入式的客觀語音品質估測方法技術，都有一些令人感到不甚理想的缺點。在ITU發表出的國際標準，P.563中，係利用口腔發聲模型，預估出一相對應之乾淨語音再進行侵入式的客觀語音比較，此種方法之準確度將受限於口腔發聲模型之好壞，而且並不近似人對語音品質評量時的行為模式。而美國國家標準，ANIQUE+，分別考慮語音在頻率上的特性以及時域上的封包變動，但大腦對聲音的解析其實是對語音的時、頻域特性一起考慮，並非分別考慮。

由此可見，上述習用方式仍存在諸多缺失，實非一良善之設計者，因此亟待加以改良。

本案發明人鑑於上述習用方式所衍生的各項缺點，乃亟思加以改良創新，並經多年苦心孤詣潛心研究後，終於成功研發完成本件客觀語音品質估測方法。

本發明之目的即在於提供一種客觀評量語音品質好壞的系統以取代耗時及高成本的主觀評量方式，並藉由語音訊號在聽覺感知上的分析與研究，得到準確的語音品質評量分數。

達成上述發明目的之以感知參數為基礎之客觀語音品質估測方法，係先將語音送入一低階的耳蝸模型進行頻譜預估，再送入一高階的大腦皮質模型進行頻譜解析。此兩階段組合成一個結合時域、頻域的人耳聽覺運算模型，本發明使用此聽覺模型來分析語音訊號並進行語音品質預估。此聽覺模型是根據已知耳蝸之生物物理現象及大腦皮質聽覺區的神經反應而建立。這個多重解析的聽覺模型包含低階的聽覺感知現象(例如：聽覺頻寬、頻率遮蔽等現象)，及大腦皮質聽覺區對頻譜的分析模式。

「語音品質」本身即是人類認知後的描述，此描述應包含更多重感知維度的描述。本發明使用其中最重要的三個特徵參數，即語音的可理解度(Intelligibility)、清晰度(Clarity)與自然度(Naturalness)。本發明利用聽覺模型來分析語音，萃取並量化上述三個語音特徵參數，賦予不同的權重來估測語音品質。

此外，將代表可理解度、清晰度及自然度之三個特徵參數轉換為語音品質分數的方法也可以是用類神經網路的多層感知機(multilayer perceptrons)來進行這個轉換動作。作法是將代表可理解度、清晰度及自然度之三個特徵參數當做一個已經訓練好的多層感知機的輸入，再將多層感知機的輸出值當作估算的主觀語音品質分數。所用多層感知機的訓練方式是收集足夠多種受損傷情況的受損語音，這些受損語音分別經過人工標示語音品質分數，同時也求出每一個受損語音的代表可理解度、清晰度及自然度之三個特徵參數，然後將代表可理解度、清晰度及自然度之三個特徵參數當做輸入，其人工標示之語音品質分數則當做期望輸出而成為一組訓練資料，用這些訓練資料訓練多層感知機達到收斂條件為止。

請參閱圖一所示，為本發明之人耳聽覺模型中之第一個階段從人耳到中腦的頻譜估計流程圖，主要包含三個階段：第一個階段為基底膜耳蝸濾波器組分析101階段，是模擬耳蝸的基底膜經由行進波的振動針對聲波訊號的頻率進行解析；第二個階段為內毛髮細胞轉導102階段，是模擬耳蝸的內毛髮細胞將基底膜震動的壓力波轉換成神經衝動的電位訊號；第三個階段為側向抑制103階段，是模擬鄰近之神經元彼此壓抑的效果。其中第一個基底膜耳蝸濾波器組分析階段是做頻率分析，由於耳蝸對聲音頻率之解析呈對數分布，因此以一組128個等分於對數頻率軸上互相重疊的帶通濾波器組來模擬耳蝸解析頻率的功能。這些濾波器的中心頻率除以頻寬等於一固定常數Q，例如設定Q值為4。第二個內毛髮細胞轉導階段是描述內毛細胞做轉導的過程，又可以分為三個步驟：步驟一：用一個高通濾波器做微分將聲音的壓力波(淋巴液之位移)轉換成速度；步驟二：用一個雙彎曲函式(sigmoid function)模擬內毛細胞的轉導函式；步驟三：用一個低通濾波器模擬內毛細胞的神經電流漏損(leakage)現象。

第三個側向抑制階段是描述耳蝸核(cochlear nucleus)中鄰近之神經元彼此互相壓抑的現象，在此使用沿著對數頻率軸上的一階差分器來模擬此現象，而後接的半波整流104則用來模擬此側向抑制神經元的非線性反應。此低階耳蝸模型最後所接的時域積分器105則在描述中腦對神經訊號在時間軸上的變化較遲鈍的現象。此模型最後的輸出為一在時間軸及對數頻率軸上分佈之二維頻譜圖，在此稱之為聽覺頻譜圖(Auditory Spectrogram)。

根據神經生理學的發現，可以假設大腦皮質聽覺區基本上是把中腦輸出的聽覺頻譜圖當作二維圖像來進行處理。因此可將大腦神經細胞模擬為具有二維時、頻域脈衝響應(STRF：Spectro-Temporal Receptive Field)的濾波器組，不同的神經細胞有不同的二維脈衝響應。這個脈衝響應不但對二維時、頻域圖像在對數頻率上的變化率(scale)有選擇性，在時間上的變化率(rate)也有選擇性。除此之外，神經細胞對調頻(FM)信號的方向亦有選擇性。此二維時頻域脈衝響應(STRF：Spectro-Temporal Receptive Field)的濾波器組的產生步驟可包含：步驟一：頻域濾波器(scale filter)脈衝響應採用以Gaussian函數的二次微分當單邊頻帶(SSB)濾波器的實部，其脈衝響應為h _irs (x ；Ω)，其虛部為實部之希爾伯轉換(Hilbert Transform)即(x ；Ω)，故頻域單邊頻帶濾波器為步驟二：時域濾波器(rate filter)脈衝響應採用以正弦曲線調變的Gamma函數當單邊頻帶(5SB)濾波器的實部，其脈衝響應為h _irt (t ；ω )，其虛部為實部之希爾伯轉換(Hilbert Transform)即(t ；ω )，故時域單邊頻帶濾波器為；步驟三：將步驟一的頻域脈衝響應與步驟二的時域脈衝響應相乘後取實部，當做對往下移動(downward)的FM信號有最大反應的STRF；步驟四：將步驟一的頻域脈衝響應與步驟二的時域脈衝響應的共軛複數(複共軛；complex conjugate)相乘後取實部，當做對往上移動(upward)的FM信號有最大反應的STRF。

圖二中展示了兩個STRF，具有左邊STRF的神經細胞，將在中心頻率(1CF)對往下移動(downward)的FM信號(rate=16 Hz，scale=1 cycle/octave)有最大反應。而具有右邊STRF的神經細胞，將在中心頻率(1CF)對往上移動(upward)的FM信號(rate=32 Hz，scale=2 cycle/octave)有最大反應。

請參閱圖三所示，為本發明之人耳聽覺模型中之第二個階段從中腦到大腦皮質聽覺區對時域和頻域上的分析流程圖，則描述了高階的大腦皮質模型以及最後輸出資料的格式。簡而言之，大腦對於來自中腦的二維圖像，根據在時間軸及對數頻率軸上的變化率進行解析。因此，大腦皮質聽覺區可視為一群個別具有不同rate及scale特性的二維帶通濾波器301。其中一個二維濾波器(rate=4 Hz，scale=0.5 cycle/octave)的脈衝響應亦顯示於圖中。而這個大腦皮質模型將產生四維302的輸出，這四個維度分別為time(時間)、log.frequency(對數頻率)、rate(在時間軸上波封的變化率)及scale(在對數頻率軸上波封的變化率)，稱為time-log.frequency-rate-scale四維特徵矩陣。此圖中僅畫出在某一特定時間之time-rate-scale三維特徵矩陣所建構之三維立方體，其餘時間的三維立方體則以...略過。之後，將對其四維輸出在時間和對數頻率軸上取平均，僅對個別帶通濾波器所解析出的總能量進行分析，最後得到rate-scale二維特徵矩陣(rate-scale plot)及其所形成的rate-scale二維圖像 (rate-scale plot)。此特徵矩陣可視為大腦皮質聽覺區受激時之能量分佈圖。若僅對對數頻率軸上取平均，則可以得到time-rate-scale三維特徵矩陣。

請參閱圖四所示，為本發明之人耳聽覺模型應用於非侵入式客觀語音品質估測之完整流程圖，其步驟包含：步驟一401：將從通訊通道取得的受損語音送入低階的耳蝸模型(Early Auditory Processing)產生二維聽覺頻譜圖；步驟二402：將二維聽覺頻譜圖以高階的大腦皮質模型(Cortical Spectro-temporal Modulation Analysis)，並在時間及對數頻率軸上取平均，產生二維rate-scale特徵矩陣及其所形成的rate-scal二維圖像；步驟三403：將rate-scale二維特徵矩陣與長時間平均之乾淨語音模板之rate-scale二維特徵矩陣在本發明所定義與三個特徵參數(可理解度、清晰度與自然度)有高度相關之不同的rate-scale區塊(Rate-scale Region Selection)上做比較(Feature Distortion Calculation)；步驟四404：將上述受損語音與長時間平均之乾淨語音模板在這些rate-scale區塊上的差異，藉由多變量迴歸分析(Multiple Regression)而對應至主觀的語音品質分數。

前述之非侵入式客觀語音品質估測方法的一個實施例係將取樣頻率為8000Hz的受損語音送入人耳聽覺模型上兩個聽覺感知階段進行處理。第一個階段含有128個固定常數 Q(Q=4)的帶通濾波器組用以模擬耳蝸對頻率的解析，以及最後所接的時域積分器的時間常數設為0.5ms用以描述中腦無法對快速的變化即時反應。第二個階段我們使用108個二維帶通濾波器組來模擬大腦的分析功能，其scale(在對數頻率軸上波封的變化率)及rate(在時間軸上波封的變化率)分別為<0.25、0.5、1、2、4、8>cycle/octave及<2、4、8、16、32、64、128、256、512>Hz和<downward、upward>的組合。最後得到的是time、log.frequency、rate及scale四維之time-log.frequency-rate-scale四維特徵矩陣的輸出，之後對時間和對數頻率軸上取平均，得到二維rate-scale特徵矩陣。

將受損語音與經長時間平均後所得到的乾淨語音模板之rate-scale二維特徵矩陣計算L2距離，並透過選取特定不同的rate-scale區塊，抽取出本發明所定義的三個影響語音品質的特徵參數距離，並藉由迴歸函式去估算近似出主觀的語音品質。

本案係選取2Hz≦rate≦32Hz和0.5cycle/oct≦scale≦4cycle/oct的區域，來計算出代表可理解度的特徵參數。另外，本案係選取32≦rate≦128Hz和2≦scale≦8cycle/oct的區塊，來計算清晰度的特徵參數。最後，本案係選取128≦rate≦512Hz和0.25≦scale≦8cyc/oct，來計算自然度的特徵參數。

將這三個特徵參數，藉由雙彎曲函式(sigmoid function)進行正規化處理，使其個別失真量介於0與1之間。再使用複迴歸分析的方法，將其對真實的主觀平均意見分數做對應，藉此估計出主觀語音品質分數，再藉由計算估計值與主觀分數之間的cross-correlation(交叉相關性)，去評估此演算法之效能。

以ITU-T Supp.23語料庫中實驗一第一個男性語者語料為例，對可理解度、清晰度、自然度三個特徵參數的複迴歸分析係數個別選取為0.26、0.04、1.8，而估測的品質分數可由下列公式算出：5-估測分數=0.26(可理解度失真量)+0.04(清晰度失真量)+1.8(自然度失真量)+0.5

經此公式算出之客觀語音品質估測分數與主觀語音品質分數的cross-correlation可高達0.85，優於ITU標準P.563對主觀語音品質分數的cross-correlation(=0.77)。

請參閱圖五所示，為本發明之人耳聽覺模型應用於侵入式客觀語音品質估測之完整流程圖，其步驟包含：步驟一501：將乾淨語音及其通過通訊通道的受損語音分別送入低階的耳蝸模型(Early Auditory Processing)產生聽覺頻譜圖；步驟二502：將聽覺頻譜圖以高階的大腦皮質模型(Cortical Spectro-temporal Modulation Analysis)，並在時間及對數頻率軸上取平均，產生二維rate-scale特徵矩陣及其所形成的rate-scal二維圖像；步驟三503：將兩者之rate-scale二維特徵矩陣在本發明所定義與三個特徵參數(可理解度、清晰度與自然度)有高度相關之不同的rate-scale區塊(Rate-scale Region Selection)上做比較(Feature Distortion Calculation)；步驟四504：將兩者在這些rate-scale區塊上的差異，藉由多變量迴歸分析(Multiple Regression)而對應至主觀的語音品質分數。

侵入式客觀語音品質估測中的第二個實施例，其步驟包含：步驟一：將乾淨語音及其通過通訊通道的受損語音分別送入低階的耳蝸模型(Early Auditory Processing)產生聽覺頻譜圖；步驟二：將聽覺頻譜圖以高階的大腦皮質模型(Cortical Spectro-temporal Modulation Analysis)，並在對數頻率軸上取平均，得到time-rate-scale三維特徵矩陣；步驟三：將兩者之time-rate-scale三維特徵矩陣，按照時間對齊，並在每一個時間點於本發明所定義與三個特徵參數(可理解度、清晰度與自然度)有高度相關之不同的rate-scale區塊(Rate-scale Region Selection)上做比較(Feature Distortion Calculation)；步驟四：將兩者每個時間點在這些rate-scale區塊上的差異，藉由多變量迴歸分析(Multiple Regression)而對應至主觀的語音品質分數。上列詳細說明乃針對本發明在以感知參數為基礎之客觀語音品質估測方法之可行實施例進行具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

本發明所提供之以感知參數為基礎之客觀語音品質估測方法，與其他習用技術相互比較時，更具有下列之優點：

1.本發明係在於提供一種可以取代耗時及高成本的主觀評量方式，藉由語音訊號在聽覺感知上的分析與研究，得到準確的語音品質評量分數。

2.本發明係在於提供一種套用同時考慮時、頻域特性的人耳聽覺模型去估算語音品質，不同於傳統以口腔發聲模型為主的方法。因此，本發明亦可對感知編碼後的語音有較近似人類主觀結果的品質估計。

3.本發明係在於提供一種在三個感知特徵參數上對人類判斷語音品質時的行為模式進行分析，以產生近似人類判斷語音品質時的結果，因而將語音品質與人類認知行為緊密連接，提供語音品質評估領域一個嶄新而有效的做法。

綜上所述，本案不但在技術思想上確屬創新，並能較習用物品增進上述多項功效，應已充分符合新穎性及進步性之法定發明專利要件，爰依法提出申請，懇請貴局核准本件發明專利申請案，以勵發明，至感德便。

101‧‧‧基底膜耳蝸濾波器組分析階段

102‧‧‧內毛髮細胞轉導階段

103‧‧‧側向抑制階段

104‧‧‧半波整流

105‧‧‧時域積分器

301‧‧‧二維帶通濾波器

302‧‧‧四維

401‧‧‧步驟一

402‧‧‧步驟二

403‧‧‧步驟三

404‧‧‧步驟四

501‧‧‧步驟一

502‧‧‧步驟二

503‧‧‧步驟三

504‧‧‧步驟四

請參閱以下有關本發明一較佳實施例之詳細說明及其附圖，將可進一步瞭解本發明之技術內容及其目的功效；有關該實施例之附圖為：圖一為本發明所提供之以感知參數為基礎之客觀語音品質估測方法之人耳聽覺模型中之第一個階段從人耳到中腦的頻譜估計流程圖；圖二為該以感知參數為基礎之客觀語音品質估測方法之人耳聽覺模型中之大腦皮質聽覺區二維時、頻域脈衝響應(STRF)的例圖；圖三為該以感知參數為基礎之客觀語音品質估測方法之人耳聽覺模型中之第二個階段從中腦到大腦皮質聽覺區對時域和頻域上的分析流程圖；圖四為該以感知參數為基礎之客觀語音品質估測方法之人耳聽覺模型應用於非侵入式客觀語音品質估測之完整流程圖；以及圖五為該以感知參數為基礎之客觀語音品質估測方法之人耳聽覺模型應用於侵入式客觀語音品質估測之完整流程圖。

101．．．基底膜耳蝸濾波器組分析

102．．．內毛髮細胞轉導

103．．．側向抑制

104．．．半波整流

105．．．時域積分器

Claims

一種以感知參數為基礎之客觀語音品質估測方法，其步驟包括：步驟一：將從通訊通道取得的受損語音透過人耳聽覺模型處理，得到在時間軸及對數頻率軸上分佈的二維聽覺頻譜圖(Auditory Spectrogram)；步驟二：將上述的二維聽覺頻譜圖經過具有不同方向性，不同對數頻率上的變化率(scale)及不同時間上的變化率(rate)的二維時頻域脈衝響應(STRF：Spectro-Temporal Receptive Field)的濾波器組後，其輸出得到具有維度分別為time(時間)、log.frequency(對數頻率)、rate(在時間軸上波封的變化率)及scale(在對數頻率軸上波封的變化率)的time-log.frequency-rate-scale四維特徵矩陣，接著在時間和對數頻率軸上取平均，得到rate-scale二維特徵矩陣；步驟三：取得長時間乾淨語音模板，並依照上述相同步驟計算得到乾淨語音模板之rate-scale二維特徵矩陣；步驟四：將乾淨語音模板及上述受損語音之rate-scale二維特徵矩陣相減當做失真矩陣，並將此失真矩陣分割成數個區域，這些區域可以均勻或不均勻分割，然後為每個區域計算失真和，用來當做失真的特徵參數，如此得到一個失真的特徵參數向量；步驟五：將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音品質分數。
如申請專利範圍第1 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟五之轉換方式之步驟更包含：步驟一：將失真的特徵參數向量之每個特徵參數各自經過其相對應的轉換函數；步驟二：將上述每個特徵參數的轉換函數的輸出各自乘上相對應的權重值，總和後再加上一個偏移值而得到一個估算的主觀語音品質分數。
如申請專利範圍第2 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該轉換函數係可為雙彎曲函式(sigmoid function)。
如申請專利範圍第1 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟五之轉換方式之步驟更包含：將失真的特徵參數向量之每個特徵參數直接各自乘上相對應的權重值，總和後再加上一個偏移值而得到一個估算的主觀語音品質分數。
如申請專利範圍第1 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟五之轉換方式之步驟更包含：將失真的特徵參數向量之每個特徵參數當做一個已經訓練好的多層感知機(multilayer perceptrons)的輸入，再將多層感知機的輸出值當作估算的主觀語音品質分數。
如申請專利範圍第1 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟一將輸入語音透過人耳聽覺模型處理的步驟可包含：步驟一：將輸入語音在時域上通過一組分佈於對數頻率軸上互相重疊的帶通濾波器組來模擬耳蝸解析頻率的功能；步驟二：將帶通濾波器組的輸出各自通過一個高通濾波器做微分，將聲音的壓力波轉換成速度；步驟三：將上一步驟的輸出各自通過一個雙彎曲函式(sigmoid function)模擬內毛細胞的轉導函式的作用；步驟四：將上一步驟的輸出各自通過一個低通濾波器模擬內毛細胞的神經電流漏損(leakage)現象；步驟五：將上一步驟的輸出各自減去其相鄰頻道的輸出值，以此模擬鄰近之神經元側向抑制的現象；步驟六：將上一步驟的輸出各自經過半波整流，用來模擬側向抑制神經元的非線性反應；步驟七：將上一步驟的輸出各自通過時域積分器，用來模擬中腦對神經訊號在時間軸上的變化較遲鈍的現象。
如申請專利範圍第1 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟二中二維時頻域脈衝響應(STRF：Spectro-Temporal Receptive Field)的濾波器組的產生步驟可包含：步驟一：頻域濾波器(scale filter)脈衝響應採用以Gaussian函數的二次微分當單邊頻帶(SSB)濾波器的，其脈衝響應為h _irs (x ；Ω)，其虛部為實部之希爾伯轉換(Hilbert Transform)即(x ；Ω)，故頻域單邊頻帶濾波器為步驟二：時域濾波器(rate filter)脈衝響應採用以正弦曲線調變的Gamma函數當單邊頻帶(SSB)濾波器的實部，其脈衝響應為h _irt (t ；ω )，其虛部為實部之希爾伯轉換(Hilbert Transform)即(t ；ω )，故時域單邊頻帶濾波器為步驟三：將步驟一的頻域脈衝響應與步驟二的時域脈衝響應相乘後取實部，當做對往下移動(downward)的FM信號有最大反應的STRF；步驟四：將步驟一的頻域脈衝響應與步驟二的時域脈衝響應的共軛複數(複共軛；complex conjugate)相乘後取實部，當做對往上移動(upward)的FM信號有最大反應的STRF。
如申請專利範圍第1 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟四中失真的特徵參數向量，可包含可理解度失真的特徵參數、清晰度失真的特徵參數及自然度失真的特徵參數。
如申請專利範圍第8 項所述之以感知參數為基礎之客觀語音品質估測方法，其特徵為可從二維失真矩陣中，選取低頻帶的區域計算失真和，用來當做可理解度失真的特徵參數，其低頻帶的選擇方式可為：選取2Hz≦rate≦32Hz和0.5cycle/oct≦scale≦4cycle/oct的區塊。
如申請專利範圍第8 項所述之以感知參數為基礎之客觀語音品質估測方法，其特徵為可從二維失真矩陣中，選取中頻帶的區域計算失真和，用來當做清晰度失真的特徵參數，其中頻帶的選擇方式可為：選取32≦rate≦128Hz和2≦scale≦8cycle/oct的區塊。
如申請專利範圍第8 項所述之以感知參數為基礎之客觀語音品質估測方法，其特徵為可從二維失真矩陣中，選取高頻帶的區域計算失真和，用來當做自然度失真的特徵參數，其高頻帶的選擇方式可為：選取128≦rate≦512Hz和0.25≦scale≦8cyc/oct的區塊。
一種以感知參數為基礎之客觀語音品質估測方法，其步驟包括：步驟一：將由乾淨語音通過通訊通道而得的受損語音透過人耳聽覺模型處理，得到在時間軸及對數頻率軸上分佈的二維聽覺頻譜圖(Auditory Spectrogram)；步驟二：將上述的二維聽覺頻譜圖經過具有不同方向性，不同對數頻率上的變化率(scale)及不同時間上的變化率(rate)的二維時頻域脈衝響應(STRF：Spectro-Temporal Receptive Field)的濾波器組後，其輸出得到具有維度分別為time(時間)、log.frequency(對數頻率)、rate(在時間軸上波封的變化率)及scale(在對數頻率軸上波封的變化率)的time-log.frequency-rate-scale四維特徵矩陣，接著在時間和對數頻率軸上取平均，得到rate-scale二維特徵矩陣；步驟三：將乾淨語音依照上述相同步驟計算得到乾淨語音之rate-scale二維特徵矩陣；步驟四：將上述乾淨語音及受損語音的rate-scale二維特徵矩陣相減當做失真矩陣，並將此失真矩陣分割成數個區域，這些區域可以均勻或不均勻分割，然後每個區域計算失真和，用來當做失真的特徵參數，如此得到一個失真的特徵參數向量；步驟五：將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音品質分數。
如申請專利範圍第12 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟五之轉換方式之步驟更包含：步驟一：將失真的特徵參數向量之每個特徵參數各自經過其相對應的轉換函數；步驟二：將上述每個特徵參數的轉換函數的輸出各自乘上相對應的權重值，總和後再加上一個偏移值而得到一個估算的主觀語音品質分數。
如申請專利範圍第13 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該轉換函數係可為雙彎曲函式(sigmoid function)。
如申請專利範圍第12 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟五之轉換方式之步驟更包含：將失真的特徵參數向量之每個特徵參數直接各自乘上相對應的權重值，總和後再加上一個偏移值而得到一個估算的主觀語音品質分數。
如申請專利範圍第12 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟五之轉換方式之步驟更包含：將失真的特徵參數向量之每個特徵參數當做一個已經訓練好的多層感知機(multilayer perceptrons)的輸入，再將多層感知機的輸出值當作估算的主觀語音品質分數。
如申請專利範圍第12 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟一將由乾淨語音通過通訊通道而得的受損語音透過人耳聽覺模型處理的步驟可包含：步驟一：將上述受損語音在時域上通過一組分佈於對數頻率軸上互相重疊的帶通濾波器組來模擬耳蝸解析頻率的功能；步驟二：將帶通濾波器組的輸出各自通過一個高通濾波器做微分，將聲音的壓力波轉換成速度；步驟三：將上一步驟的輸出各自通過一個雙彎曲函式(sigmoid function)模擬內毛細胞的轉導函式的作用；步驟四：將上一步驟的輸出各自通過一個低通濾波器模擬內毛細胞的神經電流漏損(leakage)現象；步驟五：將上一步驟的輸出各自減去其相鄰頻道的輸出值，以此模擬鄰近之神經元側向抑制的現象；步驟六：將上一步驟的輸出各自經過半波整流，用來模擬側向抑制神經元的非線性反應；步驟七：將上一步驟的輸出各自通過時域積分器，用來模擬中腦對神經訊號在時間軸上的變化較遲鈍的現象。
如申請專利範圍第12項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟二中二維時頻域脈衝響應(STRF：Spectro-Temporal Receptive Field)的濾波器組的產生步驟可包含：步驟一：頻域濾波器(scale filter)脈衝響應採用以Gaussian函數的二次微分當單邊頻帶(SSB)濾波器的實部，其脈衝響應為h _irs (x ；Ω)，其虛部為實部之希爾伯轉換 (Hilbert Transform)即(x ；Ω)，故頻域單邊頻帶濾波器為步驟二：時域濾波器(rate filter)脈衝響應採用以正弦曲線調變的Gamma函數當單邊頻帶(SSB)濾波器的實部，其脈衝響應為h _irt (t ；ω )，其虛部為實部之希爾伯轉換(Hilbert Transform)即(t ；ω )，故時域單邊頻帶濾波器為步驟三：將步驟一的頻域脈衝響應與步驟二的時域脈衝響應相乘後取實部，當做對往下移動(downward)的FM信號有最大反應的STRF；步驟四：將步驟一的頻域脈衝響應與步驟二的時域脈衝響應的共軛複數(複共軛；complex conjugate)相乘後取實部，當做對往上移動(upward)的FM信號有最大反應的STRF。
如申請專利範圍第12 項所述之以感知參數為基礎之客觀語音品質估測方法，其中該步驟四中失真的特徵參數向量，可包含可理解度失真的特徵參數、清晰度失真的特徵參數及自然度失真的特徵參數。
如申請專利範圍第19 項所述之以感知參數為基礎之客觀語音品質估測方法，其特徵為可從二維失真矩陣中，選取低頻帶的區域計算失真和，用來當做可理解度失真的特徵參數，其低頻帶的選擇方式可為：選取 2Hz≦rate≦32Hz和0.5cycle/oct≦scale≦4cycle/oct的區塊。
如申請專利範圍第19項所述之以感知參數為基礎之客觀語音品質估測方法，其特徵為可從二維失真矩陣中，選取中頻帶的區域計算失真和，用來當做清晰度失真的特徵參數，其中頻帶的選擇方式可為：選取32≦rate≦128Hz和2≦scale≦8cycle/oct的區塊。
如申請專利範圍第19 項所述之以感知參數為基礎之客觀語音品質估測方法，其特徵為可從二維失真矩陣中，選取高頻帶的區域計算失真和，用來當做自然度失真的特徵參數，其高頻帶的選擇方式可為：選取128≦rate≦512Hz和0.25≦scale≦8cyc/oct的區塊。
一種以感知參數為基礎之客觀語音品質估測方法，其步驟包括：步驟一：將由乾淨語音通過通訊通道而得的受損語音透過人耳聽覺模型處理而得到在時間軸及對數頻率軸上分佈的二維聽覺頻譜圖(Auditory Spectrogram)；步驟二：將上述的二維聽覺頻譜圖經過具有不同方向性，不同對數頻率上的變化率(scale)及不同時間上的變化率(rate)的二維時頻域脈衝響應(STRF：Spectro-Temporal Receptive Field)的濾波器組後，其輸出得到具有維度分別為time(時間)、log.frequency(對數頻率)、rate(在時間軸上波封的變化率)及scale(在對數頻率軸上波封的變化率)的time-log.frequency-rate-scale四維特徵矩陣，接著在對數頻率軸上取平均，得到time-rate-scale三維特徵矩陣；步驟三：將乾淨語音依照上述相同步驟計算得到乾淨語音之time-rate-scale三維特徵矩陣；步驟四：將乾淨語音及上述受損語音的time-rate-scale三維特徵矩陣在時間軸上對齊後相減當做失真矩陣，並將此失真矩陣分割成數個區域，這些區域可以均勻或不均勻分割，然後每個區域計算失真和，用來當做失真的特徵參數，如此得到一個失真的特徵參數向量；步驟五：將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音品質分數。
一種以感知參數為基礎之客觀語音品質估測方法，其步驟包括：步驟一：將由乾淨語音通過通訊通道而得的受損語音透過人耳聽覺模型處理而得到在時間軸及對數頻率軸上分佈的二維聽覺頻譜圖(Auditory Spectrogram)；步驟二：將上述的二維聽覺頻譜圖經過具有不同方向性，不同對數頻率上的變化率(scale)及不同時間上的變化率(rate)的二維時頻域脈衝響應(STRF：Spectro-Temporal Receptive Field)的濾波器組後，其輸出得到具有維度分別為time(時間)、log.frequency(對數頻率)、rate(在時間軸上波封的變化率)及scale(在對數頻率軸上波封的變化率)的time-log.frequency-rate-scale四維特徵矩陣；步驟三：將乾淨語音依照上述相同步驟計算得到乾淨語音之time-log.frequency-rate-scale四維特徵矩陣；步驟四：將乾淨語音及上述受損語音的time-log.frequency-rate-scale四維特徵矩陣在時間軸上對齊後相減當做失真矩陣，並將此失真矩陣分割成數個區域，這些區域可以均勻或不均勻分割，然後每個區域計算失真和，用來當做失真的特徵參數，如此得到一個失真的特徵參數向量；步驟五：將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音品質分數。