TWI451404B

TWI451404B - 用來補償音訊換能器線性與非線性失真的類神經網路濾波技術

Info

Publication number: TWI451404B
Application number: TW096127788A
Authority: TW
Inventors: Dmitry V Shmunk
Original assignee: Dts Inc
Priority date: 2006-08-01
Filing date: 2007-07-30
Publication date: 2014-09-01
Also published as: CN101512938A; EP2070228A2; JP2009545914A; WO2008016531A3; JP5269785B2; WO2008016531A2; KR101342296B1; WO2008016531A4; EP2070228A4; JP2013051727A; TW200820220A; JP5362894B2; US7593535B2; KR20090038480A; US20080037804A1

Description

用來補償音訊換能器線性與非線性失真的類神經網路濾波技術

發明領域

本發明是關於音訊換能器補償，且特別是關於一種補償音訊換能器之線性與非線性失真的方法，該音訊換能器如揚聲器、麥克風或功率擴大機和廣播天線。

發明背景

音訊揚聲器較佳地展示一種一致且可預期的輸入/輸出(I/O)回應特性。理想地，耦接到一揚聲器之輸入的類比音訊信號是被提供給收聽者耳朵的信號。而實際上，到達收聽者耳朵的音訊信號是原始音訊信號加上由揚聲器本身引起的一些失真(例如，其構造和在其中的元件之交互作用)以及由收聽環境引起的一些失真(例如，該收聽者的位置、房間的聲學特性等)，該音訊信號必須在該收聽環境中行進以到達該收聽者的耳朵。在該揚聲器的製造期間有很多技術被執行以使由揚聲器本身引起的失真減到最少，以便提供所期望的揚聲器回應。另外，存在一些用於機械地手動調整揚聲器以進一步減少失真的技術。

Levy的美國專利號6,766,025描述了一可程式化的揚聲器，利用儲存在記憶體中的特性資料和數位地執行輸入音訊信號之轉換函數的數位信號處理(DSP)，以補償揚聲器的相關失真和收聽環境失真。在一製造環境下，一種藉由施加一參考信號和一控制信號到該可程式化之揚聲器的輸入，以調整揚聲器的非侵入式系統和方法被執行。一麥克風在該揚聲器之輸出處偵測對應於該輸入參考信號的一可聽見的信號，且將其回饋到一測試器，藉由比較該輸入參考信號和來自該揚聲器之該可聽見的輸出信號，該測試器分析該揚聲器的頻率回應。根據該比較的結果，該測試器提供具有新特性資料之一被更新的數位控制信號給該揚聲器，該新特性資料隨後被儲存在該揚聲器記憶體中且再次被用於對該輸入參考信號執行轉換函數。該調整回饋週期繼續，直到該輸入參考信號和來自該揚聲器之可聽見的輸出信號顯出由該測試器決定的期望頻率回應。在一消費者環境下，一麥克風被安置在所選擇的收聽環境內，且該調整裝置再次被用於更新該特性資料以補償由該所選擇的收聽環境內麥克風偵測到之失真影響。Levy依靠在信號處理領域眾所周知的用於提供反轉換之技術來補償揚聲器和收聽環境失真。

失真包括線性和非線性部分。非線性失真(例如“截波(clipping)”)是該輸入音訊信號之振幅的一函數，而線性失真不是。已知的補償技術解決該問題的線性部分而忽視了非線性部分，或反之亦然。儘管線性失真可能是主要部分，但非線性失真產生在該輸入信號中沒有呈現的額外頻譜部分。因此，該補償是不精確的，且從而不適用於某些高階音訊應用。

有很多解決該問題之線性部分的方法。最簡單的方法是利用一等化器，該等化器提供一組具有獨立增益控制的帶通濾波器。更詳述的技術包括相位和振幅校正。例如，Norcross等人在2005年10月7－10日Audio Engineering Society的“Adaptive Strategies for Inverse Filtering”描述了一頻域反濾波方法，其允許加權和調整項以偏移一些頻率處的一錯誤。儘管本方法在提供期望頻率特性上是良好的，但其沒有對該反回應之時域特性的控制，例如該等頻域計算無法減少最後(已校正的且經由揚聲器播放的)信號中的前回音。

用於補償非線性失真的技術較不成熟。Klippel等人在2005年10月7－10日AES的“Loudspeaker Nonlinearities－Causes,Parameters,Symptoms”描述了非線性失真測量和非線性之間的關係，該等非線性是揚聲器和其他換能器中信號失真的實體原因。Bard等人在2005年10月7－10日AES的“Compensation of nonlinearities of horn loudspeakers”根據頻域Volterra核心利用一反轉換以估計該揚聲器的非線性。藉由自前向頻域核心解析地計算反Volterra核心，該反轉被獲得。此方法對於穩定信號(例如一組正弦曲線)是良好的，但明顯的非線性可能發生在該音訊信號的瞬變非穩定區域中。

發明概要

以下是本發明的一發明內容，以提供對本發明之一些層面的基本理解。此發明內容不打算確定本發明的關鍵或重要元件，或描述本發明的範圍。其唯一目的是以一簡化形式介紹本發明的一些概念，作為隨後被介紹之詳細描述和定義的申請專利範圍的一開端。

本發明提供用於補償一音訊換能器(例如一揚聲器)之線性和非線性失真的有效率的、可靠的且精確的濾波技術。這些技術包括一種特徵化該音訊換能器以計算反轉移函數的方法，和一種實現那些用於再現之反轉移函數的方法。在一較佳的實施例中，利用如由線性和非線性類神經網路提供的時域計算，該等反轉移函數被擷取，相比習知的頻域或基於模型化的方法，其更精確表示音訊信號和該換能器的特性。雖然較佳的方法用於補償線性和非線性失真，但類神經網路濾波技術可被獨立使用。相同的技術也可被用於補償該換能器和收聽、記錄或廣播環境的失真。

在一示範性實施例中，一線性測試信號經由該音訊換能器被播放且同時被記錄。該原始的和被記錄的測試信號被處理，以擷取前向線性轉移函數且較佳地利用(例如)時域、頻域和時域/頻域技術來減少雜訊。一小波轉換為該前向轉換之“快照(snapshot)”的一平行應用，其使用轉換的時間標度(time－scaling)特性，特別適用於換能器脈衝回應特性。該反線性轉移函數被計算出且被映射到一線性濾波器的係數。在一較佳實施例中，一線性類神經網路被訓練以反轉該線性轉移函數，藉此該等網路權重被直接映射到該等濾波器係數。時域和頻域限制可經由錯誤函數被置於轉移函數上，以解決如前回音和過度放大的此等問題。

一非線性測試信號被施加到該音訊換能器且同步地被記錄。較佳地，該被記錄的信號被傳送經過該線性濾波器，以移除該裝置的線性失真。雜訊減少技術也可被用於該被記錄之信號。接著該被記錄之信號自該非線性測試信號被減去，以提供該非線性失真的一估計，根據該估計，該前向和反非線性轉移函數被計算出。在一較佳實施例中，一非線性類神經網路對該測試信號和非線性失真被訓練，以估計該前向非線性轉移函數。藉由遞迴地傳送一測試信號經過該非線性類神經網路且自該測試信號減去被加權的回應，使該反轉換被獲得。該遞迴公式的加權係數被(例如)一最小的均方誤差方法最佳化。用於此方法中的時域表示適用於處理音訊信號之瞬變區域中的非線性。

在再現時，該音訊信號被施加到一線性濾波器以提供一線性預先補償的音訊信號，該線性濾波器的轉移函數是音訊再現裝置的該反線性轉移函數的一估計。接著該線性地預先補償之音訊信號被施加到一非線性濾波器，該非線性濾波器之轉移函數是該反非線性轉移函數的一估計。藉由遞迴傳送該音訊信號經過該被訓練的非線性類神經網路和一最佳化的遞迴公式，該非線性濾波器被適當地實現。為了改良效率，該非線性類神經網路和遞迴公式可被用作一模型以訓練一單一傳送播放類神經網路。對於輸出換能器(例如揚聲器或放大的廣播天線)而言，該線性或非線性地預先補償之信號被傳送給該換能器。對於輸入換能器(例如一麥克風)而言，該線性和非線性補償被施加到該換能器之輸出。

圖式簡單說明

根據連同附圖和以下較佳實施例的詳細描述，對於本領域那些熟悉相關技藝者而言，本發明的這些和其他特徵及優點是明顯的，其中：第1a和1b圖是用於計算預先補償一音訊信號的反線性和非線性轉換函數的方塊圖和流程圖，該音訊信號用於在一音訊重現裝置上播放；第2圖是用於利用一線性類神經網路對前向線性轉移函數擷取並減少雜訊以及計算該反線性轉移函數的流程圖；第3a和3b圖是說明頻域濾波和快照重建的圖式，第3c圖是由此產生之前向線性轉移函數的頻率圖；第4a－4d圖是說明一小波轉換至該前向線性轉移函數之快照的平行應用的圖式；第5a和5b圖是雜訊減少的前向線性轉移函數圖；第6圖是一反轉該前向線性轉換之單層單神經元類神經網路的圖式；第7圖是用於利用一非線性類神經網路擷取該前向非線性轉移函數且利用一遞迴減法公式計算該反非線性轉移函數的流程圖；第8圖是一非線性類神經網路的圖式；第9a和9b圖是被組配成補償該揚聲器之線性和非線性失真之音訊系統的方塊圖；第10a和10b圖是用於補償一音訊信號在播放期間的線性和非線性失真的流程圖；第11圖是該揚聲器之原始和已補償的頻率回應圖；以及第12a和12b圖是在分別在補償之前和補償之後該揚聲器的脈衝回應圖。

較佳實施例之詳細說明

本發明提供用於補償一音訊換能器(例如一揚聲器、放大的廣播天線或可能一麥克風)之線性和非線性失真的有效率的、可靠且精確的濾波技術。這些技術包括一種特徵化該音訊換能器以計算反轉移函數的方法，和一種實現那些在播放、廣播或記錄期間用於再現(reproduction)之反轉移函數的方法。在一較佳實施例中，利用時域計算(例如由線性和非線性類神經網路提供的)，該等反轉移函數被擷取，相比習知的頻域或模型化方法，該等時域計算更精確地顯示音訊信號和音訊換能器的特性。儘管較佳的方法是用以補償線性和非線性失真，但該等類神經網路濾波技術可被獨立應用。相同的技術也可適用於補償該揚聲器和收聽、廣播或記錄環境的失真。

如本文所使用的，專有名詞“音訊換能器”指的是由來自一系統之能量被致動並以另一形式提供能量給另一系統的任何裝置，其中能量的一形式是電能，而另一形式是聲能或電能，且該裝置再現一音訊信號。該換能器可以是一輸出換能器(例如一揚聲器或放大的天線)或是一輸入換能器(例如一麥克風)。本發明的一示範性實施例現在對一擴音器被描述，該擴音器將一電輸入音訊信號轉換為一可聽見的聲音(acoustic)信號。

用於特徵化該揚聲器之失真特性的測試結構和用於計算反轉移函數的方法在第1a和1b圖中被說明。該測試結構適當包括一電腦10、一音效卡12、待測揚聲器14和一麥克風16。該電腦產生且傳送一音訊測試信號18給音效卡12，該音訊測試信號依次驅動該揚聲器。麥克風16獲得該可聽見的信號且將其轉換回一電信號。該音效卡將被記錄的音訊信號20傳送回該電腦用於分析。一全雙工音效卡適合被使用，從而該測試信號的播放和記錄根據一共用時鐘信號被執行，從而該等信號在一單一樣本期間內是時序一致的，且因此完全同步。

本發明的技術將特徵化且補償在自播放到記錄之信號路徑中的任何失真源。因此，一高品質的麥克風被使用，從而由該麥克風引起的任何失真可忽略。需注意的是，如果該待測換能器是一麥克風，則一高品質的揚聲器需被用於排除不想要的失真源。為了僅特徵化該揚聲器，“收聽環境”需被組配以最小化任何反射或其他失真源。另外，相同的技術可被用於特徵化(例如)消費者家庭影院中的揚聲器。在後一範例中，該消費者的接收器或揚聲器系統需被組配成執行該測試資料、分析資料以及組配該揚聲器用於播放。

相同的測試結構被用於特徵化該揚聲器的線性和非線性失真特性。該電腦產生不同的音訊測試信號18且對該被記錄之音訊信號20執行一不同的分析。該線性測試信號的頻譜內容應涵蓋該揚聲器的全分析頻率範圍和全振幅範圍。一示範性測試信號由兩列線性、全頻率連續變頻信號(chirp)組成：(a)頻率從0Hz到24kHz的700毫秒(ms)線性增加，頻率下降至0Hz的700毫秒線性遞減，接著重複，以及(b)頻率從0Hz到24kHz的300毫秒線性增加，頻率下降至0Hz的300毫秒線性遞減，接著重複。兩種連續變頻信號都在該信號之全部持續時間的相同時距被呈現在該信號內。連續變頻信號以此一方式被振幅調變，以產生時域的急劇上升和緩慢衰退。振幅調變之每一週期的長度是任意的且範圍近似從0毫秒到150毫秒。該非線性測試信號應較佳地包含各種振幅的音調和雜訊以及無音訊週期。對於類神經網路的成功訓練而言，應存在足夠的信號變化。一示範性非線性測試信號以一類似的方式被構建，但具有不同的時間參數：(a)頻率從0Hz到24kHz的4秒線性增加，頻率沒有降低，連續變頻信號的下一週期再次從0Hz開始，以及(b)頻率從0Hz到24kHz的250毫秒線性增加，頻率下降至0Hz的250毫秒線性降低。在此信號中的連續變頻信號被任意振幅變化調變。振幅比率可以於8毫秒內盡可能快地自0至滿標度。線性和非線性測試信號較佳地包含一些可被用於同步目的的標誌(例如一單一滿標度峰值)，但此不是強制性的。

如第1b圖中所描述的，為了擷取反轉移函數，該電腦執行一線性測試信號之一同步化的播放和記錄(步驟30)。該電腦處理該等測試和被記錄的信號，以擷取該線性轉移函數(步驟32)。該線性轉移函數(也可已知為“脈衝回應”)特徵化一delta函數或脈衝之應用的揚聲器之回應。該電腦計算該反線性轉移函數且將該等係數映射到一線性濾波器(例如一FIR濾波器)的係數(步驟34)。該反線性轉移函數可以任何方式被獲得，但如以下所詳細描述的，時域計算的使用(例如由一線性類神經網路所提供的)最精確地表示音訊信號和揚聲器的特性。

該電腦執行一非線性測試信號的一同步化播放和記錄(記錄36)。此步驟在該線性測試信號被紀錄的同時，可以在該線性轉移函數被擷取或離線(off－line)之後被執行。在較佳實施例中，該FIR濾波器被應用到該被記錄之信號以移除該線性失真部分(步驟38)。儘管不總是必需的，但大範圍測試已顯示出線性失真的移除大大改良了該特性，因此改良了該非線性失真的反轉移函數。該電腦自該被濾波之信號減去該測試信號，以提供僅該非線性失真部分的估計(步驟40)。接著該電腦處理該非線性失真信號，以擷取該非線性轉移函數(步驟42)且計算該反非線性轉移函數(步驟44)。利用時域計算，兩個轉移函數都被較佳地計算。

我們的模擬和測試已證實對該線性和非線性失真部分之反轉移函數的擷取改良了該揚聲器和其失真補償的特性。此外，藉由在特徵化之前移除該典型主要的線性失真，該解決方法之非線性部分的性能被大大改良。最後，用以計算該等反轉移函數之時域計算的使用也改良了性能。

線性失真特性

用於擷取前向和反線性轉移函數的一示範性實施例在第2圖至第6圖中被說明。該問題的第一部分是提供該前向線性轉移函數的一良好估計。此可以用很多方式被實現，包括簡單地施加一脈衝到該揚聲器，以及測量該回應或採用該被記錄和測試之信號頻譜之比率的反轉換。然而，我們已發現以時間、頻率及/或時間/頻率雜訊減少技術的組合修改該後一方法提供一非常乾淨之前向線性轉移函數。在該示範性實施例中，所有三種雜訊減少技術被使用，但其等任何一者或二者可被用於一給定的應用中。

該電腦對該被記錄之測試信號的多個週期求平均，以減少來自隨機源的雜訊(步驟50)。接著該電腦將該測試和記錄信號的週期分為盡可能多的片段M，但遵照每一片段必須超過該揚聲器之脈衝回應的持續時間的限制(步驟52)。如果此限制不符合，則該揚聲器之脈衝回應的部分將重疊，且不可能分開他們。藉由(例如)執行一FFT(步驟54)該電腦計算該等測試和記錄分段的頻譜，且接著形成該記錄頻譜和對應測試頻譜的比率，以在該揚聲器脈衝回應之頻域中形成M個“快照”(步驟56)。該電腦濾除橫跨該等M個快照的每一譜線，以選擇N<M的快照子集，所有子集對該譜線具有類似的振幅回應(步驟58)。此“最佳－N平均”是基於我們關於嘈雜環境中典型音訊信號的知識，一般存在一組快照，其中有關的譜線幾乎不受“音調”雜訊所影響。因此，此程序實際上避免了雜訊，而代替僅減少雜訊。在一示範性實施例中，(對於每一譜線而言)該最佳－N平均演算法是：1.對該譜線計算可得快照的平均值。

2.如果僅存在N個快照-則停止。

3.如果存在>N個快照-則找到譜線值最遠離所計算出平均值的快照，且根據進一步計算移除該快照。

4.從步驟1繼續。

該程序對於每一譜線的輸出是具有最佳譜線值的N個“快照”的子集。接著該電腦從在每一子集中列舉的快照映射該等譜線，以重建N個快照(步驟60)。

一簡單的範例在第3a圖和第3b圖中被提供，以說明最佳-N平均和快照重建的步驟。在圖式的左側是對應於M=10片段的10個“快照”70。在此範例中，每一快照的頻譜72由5條譜線74表示，且對於該平均演算法N=4。對於每一線(線1、線2、...線5)而言，最佳-4平均的輸出是快照的一子集(步驟76)。該第一快照”snap1”78是藉由附加屬於每一線1、線2、...線5中之第一項的快照所針對之譜線而被重建。該第二快照”snap2”是藉由附加屬於每一線中第二項的快照所針對之譜線而重建，並依此類推(步驟80)。

此程序可被以下各項演算式表示：S(i,j)=FFT(被記錄的片段(i,j))/FFT(測試片段(i,j))，其中S()是一快照70，且i=1-M片段，而j=1-P譜線；線(j,k)=F(S(i,j))，其中F()是最佳-4平均演算法，而k=1至N；以及RS(k,j)=線(j,k)，其中RS()是被重建的快照。

一最佳-4平均演算法的結果在第3c圖中被顯示出。如圖所示，自對每一譜線簡單平均所有快照產生的頻譜82非常嘈雜。“音調”雜訊在一些快照中非常強大。藉由比較，由最佳-4平均演算法產生的頻譜84具有很少雜訊。需特別注意到此平滑頻率回應不是簡單平均較多快照的結果，其可能使得其基本的轉移函數混亂且是反效果的。由於該平滑頻率回應是明智地避免頻域中雜訊源的結果，因此減少了雜訊位準同時保存基本資訊。

該電腦對該等N個頻域快照之每一執行一反FFT，以提供N個時域快照(步驟90)。在此點上，該等N個時域快照可被一起簡單地求平均，以輸出該前向線性轉移函數。然而，在該示範性實施例中，一額外的小波濾波程序對N個快照被執行(步驟92)，以移除在該小波轉換之時間/頻率表示中之多個時間標度中可被“局部化”的雜訊。小波濾波也導致該濾波結果中的少量“振鈴(ringing)”。

一種方法對該平均的時域快照執行一單一小波轉換、傳送“近似”係數，且用一預定能量位準對“詳細”係數進行臨界處理至零，且接著反轉換以擷取前向線性轉移函數。此方法在該小波轉換的不同分解位準上移除一般在“詳細”係數中發現的雜訊。

在第4a-4d圖中顯示的一較佳方法使用N個快照之每一94，且執行一“平行”小波轉換，該小波轉換對每一快照形成2D係數圖96且利用每一被轉換之快照係數的統計來決定哪些係數在輸出圖98中被設定為零。如果一係數橫跨N個快照是相對一致的，則該雜訊位準可能較低，且該係數應被求平均且被傳送。相反，如果該等係數的變化或偏離明顯，則其是雜訊的明顯指標。因此，一種方法是比較該偏離的一測量值和一臨界值。如果該偏離超過該臨界值，則該係數被設定為零。此基本原理可被用於所有係數，在此情形下，一些被假定為嘈雜且被設定為零的“詳細”係數可被保留，而一些另外被傳送的“近似”係數被設定為零，從而減少最後前向線性轉移函數100中的雜訊。另外，所有“詳細”係數可被設定為零，且該統計被用於獲取嘈雜的近似係數。在另一實施例中，該統計可以是一鄰近每一係數附近之變化的測量。

雜訊減少技術的有效性在第5a和5b圖中被說明，其等顯示一典型揚聲器之最後前向線性轉移函數100的頻率回應102。如圖所示，該頻率回應非常詳細和乾淨。

為了保持該前向線性轉移函數的精確性，我們需要一種反轉該轉移函數的方法，以合成(synthesize)可彈性適用於該揚聲器之時域和頻域特性的FIR濾波器和其脈衝回應。為了實現此，我們選擇一類神經網路。一線性作用函數(activation function)的使用限制了類神經網路結構為線性的選擇。利用作為輸入的該前向線性轉移函數100和作為目標的一目標脈衝信號，該線性類神經網路的權重被訓練(train)，以提供該揚聲器之反線性轉移函數A()的一估計(步驟104)。該錯誤函數可被限制以提供期望的時域限制或頻域限制特性。一旦被訓練，來自節點的權重被映射到該線性FIR濾波器的係數(步驟106)。

很多已知的類神經網路類型是合適的。在類神經網路架構和訓練演算法中本領域之目前狀態使得一前饋網路(一分層的網路，其中每一層僅接收來自先前層的輸入)為一優良的候選者。現有的訓練演算法提供穩定的結果和良好的普遍性。

如第6圖中所示，一單層單神經元的類神經網路117足以決定該反線性轉移函數。該時域前向線性轉移函數100經由一延遲線118被施加到該神經元。該層具有N個延遲元素，以合成具有N個抽頭之一FIR濾波器。每一神經元120計算該等延遲元素的一權重總和，使延遲輸入簡單經過。作用函數122是線性的，從而該權重總和作為該類神經網路之輸出被傳送。在一示範性實施例中，一1024-1前饋網路架構(1024個延遲元素和1神經元)對於一512點時域前向轉移函數和一1024-抽頭FIR濾波器被良好執行。包括一或多個隱藏層的更複雜網路可被使用。這可以增加一些彈性，但需要訓練演算法的修改和從隱藏層至輸入層的權重後向傳播，以將該等權重映射到該等FIR係數。

一離線管理的彈回傳播訓練演算法調整該等權重，根據該等權重，該時域前向線性轉移函數被傳送到該神經元。在管理學習下，為了測量訓練程序中的類神經網路性能，該神經元之輸出與一目標值相比較。為了反轉該前向轉移函數，目標序列包含一單“脈衝”，其中除了一個被設定為1(單一增益)，所有目標值Ti是零。比較由數學度量的平均值執行，例如均方誤差(MSE)。標準的MSE公式是：，其中N是輸出神經元數，Oi是神經元輸出值，而Ti是目標值序列。該訓練演算法經由網路“向後傳播”該等錯誤以調整所有權重。程序被重複，直到該MSE被最小化，且該等權重已收斂至一解式。這些權重接著被映射到該FIR濾波器。

因為該類神經網路執行一時域計算，即，該輸出和目標值在時域中，因此時域限制可被應用到該錯誤函數，以改良反轉移函數的特性。例如，前回音是一心理聲學現象，其中一不尋常明顯之人工聲音在來自被即時向後塗汙之時域瞬變能量的錄音中聽到。藉由控制其持續時間和振幅，我們可降低其能聽度，或由於存在“前向時間遮蔽”使其完全聽不見。

一種補償前回音的方法是以加權錯誤函數為時間函數。例如，一被限制之MSE由得出。我們可假定時間t<0對應於前回音，而在t<0的錯誤應被更大量加權。例如，D(-inf：-1)=100且D(0：inf)=1。該向後傳播演算法接著最佳化該等神經元權重Wi，以最小化此加權的MSEw函數。該等權重可被調整，以沿著時間遮蔽曲線，且除了個別的錯誤加權之外，存在其他方法對錯誤測量函數強加限制，(例如，在一選擇的範圍上限制所組合的錯誤)。

在一選擇範圍A：B上限制該組合錯誤的一可選擇之範例被得出：

其中：SSE _AB -在一些範圍A：B上的誤差平方和；O _i -網路輸出值；T _i -目標值；Lim -一些預定限制值；Err -最後錯誤(或度量)值。

雖然該類神經網路是一時域計算，但一頻域限制可被置於該網路上，以確保可期望之頻率特性。例如，“過量放大”可在反轉移函數中該揚聲器回應具有深下凹處的頻率上發生。過量放大將引起時域回應中的振鈴。為了防止過量放大，該目標脈衝的頻率波封(frequency envelop)(原始對於所有頻率等於1)在原始揚聲器回應具有深下凹處的頻率上被衰減，從而在該原始和目標之間的最大振幅差低於若干db限制。該限制MSE由以下得出：

T ^' =F ^-1 [A _f ．F (T )]

其中：T ’-限制目標向量；T -原始目標向量；O －網路輸出向量；F() －表示傅立葉轉換；F ^－1 () －表示反傅立葉轉換；A _f －目標衰減係數；N －在目標向量中的樣本數。

這將避免過量放大和時域中由此產生的振鈴。

另外，錯誤函數的錯誤貢獻可被頻譜性地加權。一種強加此限制的方式是計算個別錯誤、對這些個別錯誤執行一FFT且接著利用一些度量(例如，將更多權重置於高頻部分上)將該結果和零作比較。例如，一被限制的錯誤函數由以下得出：其中：S _f －頻譜權重；O －網路輸出向量；T －原始目標向量；F() －表示傅立葉轉換；Err －最後錯誤(或度量)值；N －頻譜線數。

藉由修改錯誤函數以合併時域和頻域限制或簡單地藉由將該等錯誤函數加在一起且最小化總和，時域和頻域限制可被同時應用。

用於擷取前向線性轉移函數的雜訊減少技術和支援時域與頻域限制的時域線性類神經網路之組合提供一用於整合FIR濾波器之可靠且精確的技術，以在播放期間預先補償該揚聲器的線性失真。

非線性失真特性

一種用於擷取該前向和反非線性轉移函數的示範性實施例在第7圖中被說明。如上所述，該FIR濾波器較佳地被用於被記錄之非線性測試信號，以有效率地移除線性失真部分。雖然這不是嚴格必需的，但我們已發現其大大改良了該反非線性濾波的性能。習知的雜訊減少技術(步驟130)可被用於減少隨機和其他雜訊源，但通常不是必需的。

為了解決該問題的非線性部分，我們使用一類神經網路來估計該非線性前向轉移函數(步驟132)。如第8圖所示，一前饋網路110一般包括一輸入層112、一或多個隱藏層114以及一輸出層116。適當地，該作用函數是一標準的非線性tanh()函數。利用作為到延遲線118之輸入的原始非線性測試信號I 115和作為輸出層中之目標的非線性失真信號，該非線性類神經函數的權重被訓練，以提供該前向非線性轉移函數F()的一估計。當一特定類型的換能器需要時，時域及/或頻域限制也可被用於該錯誤函數。在一示範性實施例中，一64－16－1前饋網路在8秒的測試信號上被訓練。該時域類神經網路計算在呈現重要非線性上表現的非常良好，該等非線性可能發生在一音訊信號的瞬變區域中，其比頻域Volterra核心好的多。

為了轉換該非線性轉移函數，我們使用一公式，該公式利用該非線性類神經網路遞迴應用前向非線性轉移函數F()到該測試信號I，且減去一第一階近似值Cj*F(I)以估計該揚聲器之一反非線性轉移函數RF()(步驟134)，其中Cj是來自測試信號I的第j個遞迴疊代的加權係數。利用(例如)一習知的最小平方最小化演算法，該等加權係數Cj被最佳化。

對於一單一疊代而言(沒有遞迴)，該反轉移函數的公式簡單地為Y=I-C1*F(I)。換句話說，對於該揚聲器之非線性失真而言，傳送一輸入音訊信號I(其中該線性失真已被適當移除)經過該前向轉換F()，且自該音訊信號I減去會產生一已被“預先補償”的信號Y。當音訊信號Y被傳送經過該揚聲器時，效應取消。不幸地是，該等效應並沒有確切取消，且典型地保留一非線性殘留信號。藉由遞迴疊代兩次或更多次，且從而具有用於最佳化的更多加權係數Ci，該公式可驅使該非線性殘留值越來越接近零。僅僅顯示兩次或三次疊代以改良效能。

例如，一個三次疊代公式由以下得出：Y=I-C3*F(I-C2*F(I-C1*F(I)))。

假定對於線性失真而言，I已被預先補償，則該實際的揚聲器輸出是Y+F(Y)。為了有效率地移除非線性失真，我們解出Y+F(Y)-I=0，且解出係數C1、C2和C3。

對於播放而言存在兩種選擇。該被訓練之類神經網路之權重和遞迴公式之加權係數Ci被提供給該揚聲器或接收器，以簡單複製該非線性類神經網路和遞迴公式。一種計算上更有效率的方式是使用該被訓練之類神經網路和該遞迴公式，以訓練一直接計算該反非線性轉移函數的“播放類神經網路”(PNN)(步驟136)。適當地該PNN也是一前饋網路，且可具有與原始網路相同的架構(例如，數層和數個神經元)。利用與被用於訓練該原始網路之輸入信號相同的信號和作為目標的該遞迴公式的輸出，該PNN可被訓練。另外，一不同的輸入信號可被傳送經過該網路和遞迴公式，且該輸入信號和產生的輸出信號被用於訓練該PNN。明顯的優點是該反轉移函數可在單次傳送經過一類神經網路而不是需要多次(例如3次)經過該網路時被執行。

失真補償和再現

為了補償該揚聲器之線性和非線性失真特性，該反線性和非線性轉移函數實際上必須在音訊信號之播放經過該揚聲器之前被用於該音訊信號。這可在數個不同的硬體組配和不同的反轉移函數應用中被實現，該等反轉移函數應用的兩個在第9a－9b圖和第10a－10b圖中被說明。

如第9a圖所示，具有三個放大器152和用於低音、中間範圍和高頻之換能器154組合的一揚聲器150也被提供處理器156和記憶體158，以預先補償該輸入音訊信號，以抵消或至少減少揚聲器失真。在一標準揚聲器中，該音訊信號被用於一交越網路，該網路將該音訊信號映射到低音、中間範圍和高頻輸出換能器。在此示範性實施例中，該揚聲器之低音、中間範圍和高頻部分之每一對於其等線性和非線性失真特性被個別特徵化。每一揚聲器元件的濾波器係數160和類神經網路權重162被儲存在記憶體158中。這些係數和權重可以在製造時被儲存在記憶體中，作為被執行的一服務以特徵化該特定揚聲器，或由該終端使用者藉由自一網頁下載它們且將其等導入到記憶體中。處理器156載入該等濾波器係數到一FIR濾波器164中，且載入該等權重到一PNN 166中。如第10a圖所示，該處理器將該FIR濾波器用於音訊中，以預先補償線性失真(步驟168)，且接著施加該信號到該PNN以預先補償非線性失真(步驟170)。另外，網路權重和遞迴公式係數可被儲存且載入到該處理器中。如第10b圖所示，該處理器將該FIR濾波器用於音訊中以預先補償線性失真(步驟172)，且接著施加該信號到NN(步驟174)和該遞迴公式(步驟176)以預先補償非線性失真。

如第9b圖所示，一音訊接收器180可被組配成執行一習知揚聲器182的預先補償，該揚聲器182具有一交越網路184和用於低音、中間範圍及高頻的放大/換能器元件186。雖然用於儲存該等濾波器係數190和網路權重192的記憶體188，以及用於實現該FIR濾波器196和PNN 198的處理器194被顯示為音訊解碼器200的各自或額外的元件，但將此功能設計於該音訊解碼器內是完全可行的。此音訊解碼器自一TV廣播或DVD接收該編碼的音訊信號、解碼該信號且將其分開為導入個別揚聲器之立體聲(L,R)或多聲道(L,R,C,Ls,Rs,LFE)聲道。如圖所示，對於每一聲道而言，該處理器將該FIR濾波器和PNN用於音訊信號，且將該預先補償的信號指引入該個別揚聲器182。

如先前所述，該揚聲器本身或該音訊接收器可被提供一麥克風輸入和處理及演算能力，以特徵化該揚聲器且訓練該等類神經網路，以提供播放所需之係數和權重。這可提供補償每一個別揚聲器(除了該揚聲器之失真特性之外)之特定收聽環境之線性和非線性失真的優點。

利用該等反轉移函數的預先補償將可對任何輸出音訊換能器(例如所描述的揚聲器或一放大的天線)進行運算。然而，在任何輸入換能器(例如一麥克風)的情形下，任何補償必須被執行(例如)自一可聽見的信號到一電信號的“後”換能。用於訓練該等類神經網路等的分析沒有改變。再現或播放的合成非常類似，除了發生後換能之外。

測試&結果

分別特徵化且補償該線性和非線性失真部分的一般方法闡述和基於解決方法之時域類神經網路的效率被一典型揚聲器測量之頻域和時域脈衝回應所證實。一脈衝被施加到具有校正和不具有校正之揚聲器，且該脈衝回應被記錄。如第11圖所示，未被校正之脈衝回應的頻譜210在橫跨從0Hz到近似22kHz的音訊頻寬上是非常不一致的。藉由比較，該校正脈衝回應的頻譜212在橫跨整個頻寬上是非常平坦的。如第12a圖所示，該未被校正之時域脈衝回應220包括相當大的振鈴。如果振鈴時間長或振幅高，則其可被人耳感知為加到一信號的交混迴響，或作為該信號的賦色(coloration)(頻譜特性的變化)。如第12b圖所示，該被校正之時域脈衝回應222非常乾淨。一乾淨的脈衝證明該系統的頻率特性接近單一增益，如第10圖所示。這是令人滿意的，因為其不增加賦色、交混迴響或其他失真到該信號。

儘管本方面的數個說明性實施例已被顯示和描述，但對於本領域熟悉相關技藝者而言，存在數種變化和可選擇的實施例。此等變化和可選擇之實施例是期望的，且沒有脫離附加之申請專利範圍所定義之本發明的精神和範圍。

10．．．電腦

12．．．音效卡

14，150，182．．．揚聲器

16．．．麥克風

30~44，50~60，76，80，90，92，104，106，130~136，168~176．．．步驟

94．．．快照

72，82，84，210，212．．．頻譜

74．．．譜線

78．．．第一快照

96．．．係數圖

98．．．輸出圖

100．．．前向線性轉移函數

102．．．頻率回應

110．．．前饋網路

112．．．輸入層

114．．．隱藏層

115．．．原始非線性測試信號

116．．．輸出層

117．．．類神經網路

118．．．延遲線

120．．．神經元

122．．．作用函數

152．．．放大器

154．．．換能器

156，194．．．處理器

158，188．．．記憶體

160，190．．．濾波器係數

162．．．類神經網路權重

164，196．．．FIR濾波器

166．．．播放類神經網路(PNN)

180．．．音訊接收器

184．．．交越網路

186．．．放大/換能器元件

192．．．網路權重

198．．．PNN

200．．．音訊解碼器

220，222．．．時域脈衝回應

第1a和1b圖是用於計算預先補償一音訊信號的反線性和非線性轉換函數的方塊圖和流程圖，該音訊信號用於在一音訊重現裝置上播放；第2圖是用於利用一線性類神經網路對前向線性轉移函數擷取並減少雜訊以及計算該反線性轉移函數的流程圖；第3a和3b圖是說明頻域濾波和快照重建的圖式，第3c圖是由此產生之前向線性轉移函數的頻率圖；第4a-4d圖是說明一小波轉換至該前向線性轉移函數之快照的平行應用的圖式；第5a和5b圖是雜訊減少的前向線性轉移函數圖；第6圖是一反轉該前向線性轉換之單層單神經元類神經網路的圖式；第7圖是用於利用一非線性類神經網路擷取該前向非線性轉移函數且利用一遞迴減法公式計算該反非線性轉移函數的流程圖；第8圖是一非線性類神經網路的圖式；第9a和9b圖是被組配成補償該揚聲器之線性和非線性失真之音訊系統的方塊圖；第10a和10b圖是用於補償一音訊信號在播放期間的線性和非線性失真的流程圖；第11圖是該揚聲器之原始和已補償的頻率回應圖；以及第12a和12b圖是在分別在補償之前和補償之後該揚聲器的脈衝回應圖。

30~44．．．步驟

Claims

一種決定一音訊換能器之反線性和非線性轉移函數的方法，該音訊換能器之反線性和非線性轉移函數係用於預先補償一再現於該音訊換能器上之音訊信號，該方法包含以下步驟：a)藉由該音訊換能器同步化一線性測試信號的播放和記錄；b)自該線性測試信號和其被記錄的版本為該音訊換能器擷取一前向線性轉移函數；c)反轉該前向線性轉移函數以給該換能器提供一反線性轉移函數A()的一估計；d)將該反線性轉移函數映射至一線性濾波器的對應係數；e)藉由該換能器同步化一非線性測試信號I的播放和記錄；f)將該線性濾波器用於該被記錄的非線性測試信號，且自該原始非線性測試信號減去該結果，以估計該換能器的一非線性失真；g)自該非線性失真擷取一前向非線性轉移函數F()；以及h)反轉該前向非線性轉移函數，以給該換能器提供一反非線性轉移函數RF()的一估計。
如申請專利範圍第1項所述之方法，其中該線性測試信號的播放和記錄根據一共用時鐘信號被執行，從而該等信號在一單一樣本週期內是時序一致的。
如申請專利範圍第1項所述之方法，其中該線性測試信號是週期性的，該前向線性轉移函數藉由以下步驟被擷取：將該被記錄之線性測試信號的複數週期平均為一平均的記錄信號；將該平均的記錄信號和該線性測試信號分成類似的複數M個時間片段；對類似紀錄和測試片段作頻率轉換及求比值，以構成類似複數快照，每一具有複數譜線；濾波每一譜線，以選擇N<M快照的子集，所有子集對該譜線具有類似的振幅回應；自每一子集中列舉的該等快照映射該等譜線以重建N個快照；反轉換該等重建的快照，以提供該前向線性轉移函數的N個時域快照；以及對該等N個時域快照進行小波濾波以擷取該前向線性轉移函數。
如申請專利範圍第3項所述之方法，其中該被平均的記錄信號被分成盡可能多的受限片段，每一片段必須超過該換能器脈衝回應之持續時間。
如申請專利範圍第3項所述之方法，其中該小波濾波器藉由以下各項被平行使用：將每一時域快照小波轉換為一2-D係數圖；計算橫跨該等圖的該等係數之統計；基於該等統計在該等2-D係數圖中對係數選擇性歸零；將該等2D係數圖平均成一平均圖；以及將該平均圖反小波轉換成該前向線性轉移函數。
如申請專利範圍第5項所述之方法，其中該統計測量在該等不同圖之相同位置中係數之間的偏差，如果該偏差超過一臨界值，則該等係數被歸零。
如申請專利範圍第1項所述之方法，其中該前向線性轉移函數包含該音訊換能器之一脈衝響應，該前向線性轉移函數藉由利用作為輸入的該脈衝響應和作為目標的一目標脈衝信號來訓練一線性類神經網路的權重而被反轉，以估計該反線性轉移函數A()。
如申請專利範圍第7項所述之方法，其中該等權重依據一錯誤函數被訓練，進一步包含將一時域限制置於該錯誤函數。
如申請專利範圍第8項所述之方法，其中該時域限制更大量加權一前回音部分中的錯誤。
如申請專利範圍第7項所述之方法，其中該等權重依據一錯誤函數被訓練，進一步包含將一頻域限制置於該錯誤函數。
如申請專利範圍第10項所述之方法，其中該頻域限制衰減該目標脈衝信號的波封，從而該目標脈衝信號和該原始脈衝回應之間的最大差異在一些預設的限制上被截波(clipped)。
如申請專利範圍第10項所述之方法，其中該頻域限制對該錯誤函數的頻譜部分不同地加權。
如申請專利範圍第7項所述之方法，其中該線性類神經網路包含N個使輸入經過的延遲元件、該等延遲輸入之每一上的N個權重以及一計算該等延遲輸入之一加權和為一輸出的單神經元。
如申請專利範圍第1項所述之方法，其中藉由利用作為該輸入之該原始非線性測試信號I和作為該目標之該非線性失真來訓練一非線性類神經網路的該等權重，該前向非線性轉移函數F()被擷取。
如申請專利範圍第1項所述之方法，其中係藉由將該前向非線性轉移函數F()遞迴用於該測試信號I，且自測試信號I減去Cj*F(I)以估計該反非線性轉移函數RF()，其中Cj是第j個遞迴疊代之一加權係數，其中j大於1。
一種決定換能器之一反線性轉移函數A()的方法，該換能器之一反線性轉移函數A()係用於預先補償一再現於該換能器上之音訊信號，該方法包含以下步驟：a)藉由該換能器同步化一線性測試信號的播放和記錄；b)自該線性測試信號和其被記錄的版本為該換能器擷取一脈衝響應；c)利用作為輸入的該脈衝響應和作為目標的一目標脈衝信號來訓練一線性類神經網路的權重，以給該換能器提供一反線性轉移函數A()的一估計；以及 d)將該等被訓練之權重自該類神經網路(NN)映射至一線性濾波器的對應係數。
如申請專利範圍第16項所述之方法，其中該測試信號是週期性的，該脈衝響應藉由以下各項被擷取：將該被記錄之信號的複數週期平均成一平均的記錄信號；將該平均的記錄信號和該線性測試信號分成類似的複數M時間片段；對類似紀錄和測試片段作頻率轉換及求比值，以構成類似複數快照，每一具有複數譜線；濾波每一譜線，以選擇N<M快照的子集，所有子集對該譜線具有類似的振幅回應；自每一子集中列舉的該等快照映射該等譜線以重建N個快照；反轉換該等重建的快照，以提供該脈衝響應的N個時域快照；以及對該等N個時域快照進行濾波以擷取該脈衝響應。
如申請專利範圍第17項所述之方法，其中該等時域快照藉由以下各項被平行濾波：將每一時域快照小波轉換為一2-D係數圖；計算橫跨該等圖的該等係數統計；基於該等統計在該等2-D係數圖中對係數選擇性歸零；將該等2D係數圖平均成一平均圖；以及將該平均圖反小波轉換成該脈衝響應。
如申請專利範圍第16項所述之方法，其中該前向線性轉移函數藉由以下各項被擷取：處理該等測試和記錄信號，以提供該脈衝響應的N個時域快照；將每一時域快照小波轉換成一2-D係數圖；計算橫跨該等圖之該等係數的統計；基於該等統計，在該等2-D係數圖中將係數選擇性歸零；將該等2D係數圖平均成一平均圖；以及將該平均圖反小波轉換成該脈衝響應。
如申請專利範圍第19項所述之方法，其中該統計測量該等不同圖的相同位置中係數之間的偏差，如果該偏差超過一臨界值，則該等係數被歸零。
如申請專利範圍第16項所述之方法，其中該線性類神經網路包含使輸入經過的N個延遲元件、該等延遲輸入之每一上的N個權重以及計算該等延遲輸入之一權重和為一輸出的一單神經元。
如申請專利範圍第16項所述之方法，其中該等權重依據一錯誤函數被訓練，進一步包含將一時域限制置於該錯誤函數。
如申請專利範圍第16項所述之方法，其中該等權重依據一錯誤函數被訓練，進一步包含將一頻域限制置於該錯誤函數。
一種決定換能器之一反非線性轉移函數的方法，該換能器之一反非線性轉移函數係用於預先補償一再現於一換能器上之音訊信號，該方法包含以下步驟：a)藉由該換能器同步化一非線性測試信號I的播放和記錄；b)自該被記錄的非線性測試信號估計該換能器之一非線性失真；c)利用作為輸入的該原始非線性測試信號I和作為目標的該非線性失真來訓練一非線性類神經網路的權重，以提供一前向非線性轉移函數F()的一估計；d)利用該非線性類神經網路將該前向非線性轉移函數F()遞迴用於該測試信號I，且自測試信號I減去Cj*F(I)以估計該換能器之一反非線性轉移函數RF()，其中Cj是第j個遞迴疊代的一加權係數；以及e)最佳化該等加權係數Cj。
如申請專利範圍第24項所述之方法，其中藉由自該被記錄的非線性測試信號移除該線性失真且自該原始非線性測試信號減去該結果，該非線性失真被估計。
如申請專利範圍第24項所述之方法，進一步包含以下步驟：利用一施加到該非線性類神經網路作為輸入的非線性輸入測試信號和作為目標的該遞迴應用之輸出來訓練一非線性播放類神經網路(PNN)，從而該PNN直接估計該反非線性轉移函數RF()。
一種預先補償一再現於一音訊換能器上之音訊信號X的方法，該換能器藉由一反線性轉移函數A()及一反非線性轉移函數RF()來特徵化，其中於特徵化之前線性失真已被移除，該方法包含以下步驟：a)施加該音訊信號X到一線性濾波器，該線性濾波器之轉移函數是該換能器之反線性轉移函數A()的一估計，以提供一線性預先補償的音訊信號X'=A(X)；以及b)施加該線性預先補償的音訊信號X'到一非線性濾波器，該非線性濾波器之轉移函數是該換能器之反非線性轉移函數RF()的一估計，以提供一預先補償的音訊信號Y=RF(X')，以及c)將該預先補償之音訊信號Y指引到該換能器。
如申請專利範圍第27項所述之方法，其中該線性濾波器包含一FIR濾波器，該FIR濾波器的係數自一線性類神經網路之權重被映射，該線性類神經網路的轉移函數估計該換能器之反線性轉移函數。
如申請專利範圍第27項所述之方法，其中該非線性濾波器藉由以下各項被實現：將X'作為一輸入施加到一類神經網路，該類神經網路之轉移函數F()是該換能器之前向非線性轉移函數的一表示，以輸出由該換能器產生的該非線性失真之一估計F(X')；以及自音訊信號I遞迴減去一加權的非線性失真Cj*F(X')以產生該預先補償的音訊信號Y=RF(X')，其中Cj是第j個遞迴疊代的一加權係數。
如申請專利範圍第27項所述之方法，其中該非線性濾波器藉由以下各項被實現：傳送X'經過一非線性播放類神經網路以產生預先補償的音訊信號Y=RF(X')，該非線性播放類神經網路之轉移函數是該反非線性轉移函數RF()的一估計，該類神經網路被訓練以模擬自音訊信號X'遞迴減去Cj*F(I)，其中F()是該換能器的一前向非線性轉移函數，且Cj是第j個遞迴疊代的一加權係數。
一種為一音訊換能器補償一音訊信號I的方法，包含以下步驟：a)提供作為一輸入的該音訊信號I到一類神經網路，以輸出由該換能器對音訊信號I產生之該非線性失真的一估計F(I)，該類神經網路的轉移函數F()是該換能器之該前向非線性轉移函數的一表示；b)自音訊信號I遞迴減去一加權的非線性失真Cj*F(I)以產生一補償的音訊信號Y，其中Cj是第j個遞迴疊代的一加權係數；以及c)將該補償的音訊信號Y導入該換能器。
一種為一音訊換能器補償一音訊信號I的方法，包含傳送該音訊信號I經過一非線性播放類神經網路以產生一預先補償的音訊信號Y，該非線性播放類神經網路的轉移函數RF()是該換能器之一反非線性轉移函數的一估計，以及將預先補償的音訊信號Y導入該換能器，該類神經網路被訓練以模擬自音訊信號I遞迴減去Cj*F(I)，其中F()是該換能器之一前向非線性轉移函數，且Cj是第 j個遞迴疊代的一加權係數。