TWI763207B

TWI763207B - 聲音訊號處理評估方法及裝置

Info

Publication number: TWI763207B
Application number: TW109146186A
Authority: TW
Inventors: 杜博仁; 張嘉仁; 曾凱盟
Original assignee: 宏碁股份有限公司
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-05-01
Also published as: US11636844B2; TW202226220A; CN114694689A; US20220208171A1

Abstract

本發明提供聲音訊號處理評估方法及裝置。對合成聲音訊號進行聲音訊號處理以產生經處理聲音訊號。此合成聲音訊號是對主要訊號加入次要訊號所產生，主要訊號僅有語音訊號，且聲音訊號處理相關於對合成聲音訊號濾除次要訊號。分別對經處理聲音訊號及主要訊號取得聲音特性。此聲音特性包括文字內容，且文字內容是對經處理聲音訊號及主要訊號進行語音轉文字處理所產生。依據經處理聲音訊號及主要訊號的聲音特性之間的比較結果評估此聲音訊號處理。此比較結果包括經處理聲音訊號的文字內容對應於主要訊號的正確性。藉此，可提供客觀的評估結果。

Description

聲音訊號處理評估方法及裝置

本發明是有關於一種訊號分析技術，且特別是有關於一種聲音訊號處理評估方法及裝置。

市面上已有許多提供雜訊或噪音消除技術的喇叭、耳機或其他多媒體播放器。不同廠商所推出的雜訊或噪音消除技術可能涉及到不同演算法或機制，更可能達到不同效果。然而，現今沒有可客觀評量不同消除技術的方案。

有鑑於此，本發明實施例提供一種聲音訊號處理評估方法及裝置，可針對語音相關訊號的聲音訊號處理提供客觀的評量。

本發明實施例的聲音訊號處理評估方法包括(但不僅限於)下列步驟：對合成聲音訊號進行聲音訊號處理以產生經處理聲音訊號。此合成聲音訊號是對主要訊號加入次要訊號所產生，主要訊號僅有語音訊號，且聲音訊號處理相關於對合成聲音訊號濾除次要訊號。分別對經處理聲音訊號及主要訊號取得聲音特性。此聲音特性包括文字內容，且文字內容是對經處理聲音訊號及主要訊號進行語音轉文字處理所產生。依據經處理聲音訊號及主要訊號的聲音特性之間的比較結果評估此聲音訊號處理。此比較結果包括經處理聲音訊號的文字內容對應於主要訊號的正確性。

本發明實施例的聲音訊號處理評估裝置包括(但不僅限於)儲存器及處理器。儲存器用以儲存數個軟體模組。處理器耦接儲存器，並用以載入且執行那些軟體模組。那些軟體模組包括聲音訊號處理模組、特性擷取模組及評估模組。聲音訊號處理模組對合成聲音訊號進行聲音訊號處理以產生經處理聲音訊號。此合成聲音訊號是對主要訊號加入次要訊號所產生，主要訊號僅有語音訊號，且聲音訊號處理相關於對合成聲音訊號濾除次要訊號。特性擷取模組分別對經處理聲音訊號及主要訊號取得聲音特性。此聲音特性包括文字內容，且文字內容是對經處理聲音訊號及主要訊號進行語音轉文字處理所產生。評估模組依據經處理聲音訊號及主要訊號的聲音特性之間的比較結果評估此聲音訊號處理。此比較結果包括經處理聲音訊號的文字內容對應於主要訊號的正確性。

基於上述，依據本發明實施例的聲音訊號處理評估方法及裝置，可判斷語音相關的原訊號及經聲音訊號處理的經處理聲音訊號兩者在聲音特性上的差異，並據以作為評估參考依據。其中，可判斷兩訊號經語音轉文字後的文字差異。藉此，可適用於評估針對語音訊號相關的聲音訊號處理。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的聲音訊號處理評估裝置100的方塊圖。請參照圖1，聲音訊號處理評估裝置100包括(但不僅限於)儲存器110及處理器150。聲音訊號處理評估裝置100可以是桌上型電腦、筆記型電腦、AIO電腦、智慧型手機、平板電腦、或伺服器等裝置。

儲存器110可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件。在一實施例中，儲存器110用以記錄程式碼、軟體模組(例如，合成模組111、聲音訊號處理模組113、特性擷取模組115及評估模組117)、組態配置、資料或檔案(例如，聲音訊號、聲音特性及評估結果)，並待後續實施例詳述。

處理器150耦接儲存器110，處理器150並可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)、神經網路加速器或其他類似元件或上述元件的組合。在一實施例中，處理器150用以執行聲音訊號處理評估裝置100的所有或部份作業，且可載入並執行儲存器110所記錄的各軟體模組、檔案及資料。

下文中，將搭配聲音訊號處理評估裝置100中的各項元件、模組及訊號說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖2是依據本發明一實施例的聲音訊號處理評估方法的流程圖。請參照圖2，聲音訊號處理模組113對合成聲音訊號S ^C進行聲音訊號處理以產生經處理聲音訊號S ^P(步驟S210)。具體而言，合成聲音訊號S ^C是合成模組111對主要訊號S ^M加入次要訊號S ^S所產生的。即，合成主要訊號S ^M及次要訊號S ^S可產生合成聲音訊號S ^C。假設主要訊號S ^M僅有語音訊號。即，單純人聲。而次要訊號S ^S可以是生物(例如，狗、貓、或嬰兒)所發出聲音、非生物(例如，冷氣機、吹風機或冰箱)運作聲、合成聲、環境聲(例如，風聲、樹枝拍打聲等)、物件互動作用的聲音(例如，手指敲擊鍵盤的聲音、碗摔落地面等)或其組合。只要是主要訊號S ^M以外的其他聲音都可視為次要訊號S ^S。

在一實施例中，合成模組111例如可對兩訊號S ^M, S ^S在頻譜上疊加或採用其他合成技術。在另一實施例中，聲音訊號處理評估裝置100可透過內建、外置或外部喇叭同時播放主要訊號S ^M及次要訊號S ^S，並進一步錄製，以取得合成聲音訊號S ^C。

另一方面，在一實施例中，聲音訊號處理模型113對合成聲音訊號S ^C所進行的聲音訊號處理是相關於對合成聲音訊號S ^C濾除次要訊號S ^S。例如，聲音訊號處理的目的之一在於還原主要訊號S ^M、或雜訊消除。雜訊/降噪抑制(或聲源分離)技術例如是產生與雜訊音波相位相反的訊號、或利用獨立成分分析(Independent Components Analysis，ICA)等方式自合成聲音訊號S ^C中消除雜訊(即，次要訊號S ^S)，本發明實施例不加以限制。

值得注意的是，基於不同技術的聲音訊號處理對相同輸入訊號所輸出的訊號在頻率、波形或振幅上可能有差異。若欲評估多種聲音訊號處理技術，聲音訊號處理模組113可整合這些聲音訊號處理技術，並分別採用不同聲音訊號處理技術來處理合成聲音訊號S ^C。此外，若欲了解特定聲音訊號處理對不同次要訊號S ^S的濾除能力，也可分別加入不同次要訊號S ^S。

在一實施例中，聲音訊號處理評估裝置100可透過內建、外置或外部喇叭分別播放主要訊號S ^M及經處理聲音訊號S ^P，並進一步分別錄製這兩訊號S ^M, S ^P，以作為後續分析使用。

特性擷取模組115可分別對經處理聲音訊號S ^P及主要訊號S ^M取得聲音特性F ^P, F ^M(步驟S230)。具體而言，評估的判斷依據是希望聲音訊號處理後可同時保存主要語音的聲紋特性且提高語意辨識度。在一實施例中，聲音特性F ^P, F ^M包括聲紋特徵。特性擷取模組115例如是採用有線性預估係數(Linear Predictive Coefficient，LPC)、倒譜係數、梅爾倒頻譜係數(Mel-frequency Cepstrum Coefficient，MFCC)或其他特徵參數擷取方法來取得聲紋特徵。聲紋特徵可用於區別不同人物所發出的聲音。由此可知，評估的判斷依據之一在於，希望聽者聆聽經處理聲音訊號S ^P後仍可辨識出主要訊號S ^M對應的相同人物。

圖3是依據本發明一實施例的比較與評估的流程圖。請參照圖3，在一實施例中，特性擷取模組115可進一步將經處理聲音訊號S ^P及主要訊號S ^M的聲紋特徵轉換成兩筆特徵向量F ₁ ^P, F ₁ ^M(步驟S231)。例如，特性擷取模組115對部分音段的聲紋特徵組合，並取其平均向量作為特徵向量。

在一實施例中，聲音特性F ^P, F ^M包括文字內容。特性擷取模組115可對經處理聲音訊號S ^P及主要訊號S ^M進行語音轉文字處理，以產生文字內容F ₂ ^P, F ₂ ^M(步驟S232)。語音轉文字處理例如是基於特徵擷取、聲學模型、發音詞典、語言模型、解碼器或其組合來輸出具有最大或相較大機率的詞串。文字內容即是聲音訊號中的說話內容(以文字形式表示)。文字內容可用於了解語意。由此可知，評估的判斷依據之一在於，希望聽者聆聽經處理聲音訊號S ^P後仍可辨識出主要訊號S ^M對應的正確內容。

在一實施例中，聲音特性F ^P, F ^M包括聲紋特徵及文字內容兩者。

評估模組117可依據經處理聲音訊號S ^P及主要訊號S ^M的聲音特性之間的比較結果評估聲音訊號處理模組113所執行的聲音訊號處理(步驟S250)。在一實施例中，針對聲紋特徵，比較結果包括聲紋相似性，且評估模組117可比較經處理聲音訊號S ^P及主要訊號S ^M的聲紋特徵之間的聲紋相似性。即，經處理聲音訊號S ^P的聲紋特徵是否相同或相似於主要訊號S ^M的聲紋特徵。

依據不同特徵擷取技術，聲紋比對的方法可能不同。請參照圖3，在一實施例中，聲紋相似性相關於經處理聲音訊號S ^P及主要訊號S ^M的特徵向量F ₁ ^P, F ₁ ^M之間的距離d ₁(步驟S251)。例如，距離d ₁是歐氏距離(Euclidean Distance)算法所決定的最短距離，但也可能是兩特徵向量F ₁ ^P, F ₁ ^M上其他點之間的距離。若距離d ₁值越小/近，則代表經處理聲音訊號S ^P及主要訊號S ^M的聲紋特徵越接近。即，評估模組117將距離d ₁越近者視為聲紋相似性越高者，並對應於較好的評估結果。若距離d ₁值越大/遠，則代表兩訊號S ^P, S ^M的聲紋特徵差異越大。即，評估模組117將距離d ₁越遠者視為聲紋相似性越低者，並對應於較差的評估結果。

在一實施例中，針對文字內容，比較結果包括經處理聲音訊號S ^P的文字內容對應於主要訊號S ^M的正確性。例如，兩筆訊號S ^P, S ^M對應文字內容中字元的正確性。

請參照圖3，在一實施例中，評估模組117可比較經處理聲音訊號S ^P及主要訊號S ^M的文字內容F ₂ ^P, F ₂ ^M中的字元差異。字元差異相關於兩筆訊號S ^P, S ^M的文字內容F ₂ ^P, F ₂ ^M中的對應字元是否相同。文字內容F ₂ ^P, F ₂ ^M的正確性相關於文字正確率。評估模組117可依據字元差異決定經處理聲音訊號S ^P相對於主要訊號S ^M的文字正確率d ₂(或稱辨識率)(步驟S252)。例如，文字正確率是經比對相同文字的數量所占文字內容F ₂ ^M的所有字元數的比例。評估模組117可將文字正確率d ₂越高者視為文字內容的正確性越高者並對應於較好的評估結果，且將文字正確率d ₂越低者視為文字內容的正確性越低者並對應於較差的評估結果。

在一實施例中，比較結果包括文字內容的正確性及聲紋相似性兩者。評估模組117可判斷聲紋相似性越高且文字內容的正確性越高者對應於較好的評估結果(即，聲音訊號處理的結果較好)，且評估模組117可判斷聲紋相似性越低或文字內容的正確性越低者對應於較差的評估結果(即，聲音訊號處理的結果較差)。

例如，評估模組117可計算完整度I(步驟S253)：

…(1) 其中，α為可變的調整參數(即，常數)，完整度I相關於評估結果。假設文字正確率

介於0~1之間，則完整度I會介於0~1之間。而完整度I相關於評估結果，其數值越大表示評估結果較好(例如，兩筆訊號S ^P, S ^M的特性越接近)，且其數值越小代表評估結果較差(例如，兩筆訊號S ^P, S ^M的特性越不接近)。

藉此，若欲應用在評估通話中降低雜訊的語音相關聲音訊號處理，則可判斷此語音相關聲音訊號處理是否能同時保存主要語音的聲紋特性且提高語意辨識度。

須說明的是，評估結果的量化方式不限於完整度I的方程式(1)，且應用者可依據實際需求而自行調整。

綜上所述，在本發明實施例的聲音訊號處理評估方法及裝置中，分析主要訊號與經處理聲音訊號的聲音特性，並依據針對文字正確性/辨識度及聲紋相似性決定聲音訊號處理的優劣。藉此，可提供客觀的評估標準。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:聲音訊號處理評估裝置 110:儲存器 111:合成模組 113:聲音訊號處理模組 115:特性擷取模組 117:評估模組 150:處理器 S ^M:主要訊號 S ^S:次要訊號 S ^C:合成聲音訊號 S ^P:經處理聲音訊號 F ^P、F ^M:聲音特性 F ₁ ^P、F ₁ ^M:特徵向量 F ₂ ^P、F ₂ ^M:文字內容 d ₁:距離 d ₂:文字正確率 I:完整度 S210~S250、S231~S232、S251~S253:步驟

圖1是依據本發明一實施例的聲音訊號處理評估裝置的方塊圖。圖2是依據本發明一實施例的聲音訊號處理評估方法的流程圖。圖3是依據本發明一實施例的比較與評估的流程圖。

S210~S250:步驟

Claims

一種聲音訊號處理評估方法，包括：對一合成聲音訊號進行一聲音訊號處理以產生一經處理聲音訊號，其中該合成聲音訊號是對一主要訊號加入一次要訊號所產生，該主要訊號僅有語音訊號，且該聲音訊號處理相關於對該合成聲音訊號濾除該次要訊號，其中該聲音訊號處理對不同的該次要訊號的濾除能力不同；分別對該經處理聲音訊號及該主要訊號取得一聲音特性，其中該聲音特性包括一文字內容與一聲紋特徵，且該文字內容是對該經處理聲音訊號及該主要訊號進行一語音轉文字處理所產生；以及依據該經處理聲音訊號及該主要訊號的該聲音特性之間的一比較結果評估該聲音訊號處理，其中評估該聲音訊號處理的步驟包括：比較該經處理聲音訊號及該主要訊號的該聲紋特徵之間的一聲紋相似性，其中該比較結果包括該經處理聲音訊號的該文字內容對應於該主要訊號的正確性與該聲紋相似性。
如請求項1所述的聲音訊號處理評估方法，其中評估該聲音訊號處理的步驟包括：比較該經處理聲音訊號及該主要訊號的該文字內容中的一字元差異，其中該字元差異相關於該文字內容中的對應字元是否相同；以及依據該字元差異決定該經處理聲音訊號相對於該主要訊號的一文字正確率，其中該文字內容的正確性相關於該文字正確率。
如請求項1所述的聲音訊號處理評估方法，其中評估該聲音訊號處理的步驟包括：判斷該聲紋相似性越高且該文字內容的正確性越高者對應於較好的評估結果；以及判斷該聲紋相似性越低或該文字內容的正確性越低者對應於較差的評估結果。
如請求項3所述的聲音訊號處理評估方法，其中該聲紋相似性相關於該經處理聲音訊號及該主要訊號的特徵向量之間的距離，該特徵向量是由該聲紋特徵轉換，且評估該聲音訊號處理的步驟包括：將該距離越近者視為該聲紋相似性越高者；以及將該距離越遠者視為該聲紋相似性越低者。
一種聲音訊號處理評估裝置，包括：一儲存器，儲存多個軟體模組；以及一處理器，耦接該儲存器，載入且執行該些軟體模組，其中該些軟體模組包括：一聲音訊號處理模組，對一合成聲音訊號進行一聲音訊號處理以產生一經處理聲音訊號，其中該合成聲音訊號是對一主要訊號加入一次要訊號所產生，該主要訊號僅有語音訊號，且該聲音訊號處理相關於對該合成聲音訊號濾除該次要訊號，其中該聲音訊號處理對不同的該次要訊號的濾除能力不同；一特徵擷取模組，分別對該經處理聲音訊號及該主要訊號取得一聲音特性，其中該聲音特性包括一文字內容與一聲紋特徵，且該文字內容是對該經處理聲音訊號及該主要訊號進行一語音轉文字處理所產生；以及一評估模組，依據該經處理聲音訊號及該主要訊號的該聲音特性之間的一比較結果評估該聲音訊號處理，其中該評估模組比較該經處理聲音訊號及該主要訊號的該聲紋特徵之間的一聲紋相似性，以及該比較結果包括該經處理聲音訊號的該文字內容對應於該主要訊號的正確性與該聲紋相似性。
如請求項5所述的聲音訊號處理評估裝置，其中該評估模組比較該經處理聲音訊號及該主要訊號的該文字內容中的一字元差異，且該評估模組依據該字元差異決定該經處理聲音訊號相對於該主要訊號的一文字正確率，其中該字元差異相關於該文字內容中的對應字元是否相同，且該文字內容的正確性相關於該文字正確率。
如請求項5所述的聲音訊號處理評估裝置，其中該評估模組判斷該聲紋相似性越高且該文字內容的正確性越高者對應於較好的評估結果，且該評估模組判斷該聲紋相似性越低或該文字內容的正確性越低者對應於較差的評估結果。
如請求項7所述的聲音訊號處理評估裝置，其中該聲紋相似性相關於該經處理聲音訊號及該主要訊號的特徵向量之間的距離，該特徵向量是由該聲紋特徵轉換，該評估模組將該距離越近者視為該聲紋相似性越高者，且該評估模組將該距離越遠者視為該聲紋相似性越低者。