TWI836607B

TWI836607B - 用以估計失真程度的方法及系統

Info

Publication number: TWI836607B
Application number: TW111135048A
Authority: TW
Inventors: 艾塔巴凱; 伊塔馬爾塔米爾
Original assignee: 新唐科技股份有限公司
Priority date: 2021-11-04
Filing date: 2022-09-16
Publication date: 2024-03-21
Also published as: US11941083B2; US20230136698A1; EP4177885A1; TW202320060A; JP2023070158A; CN116074721A; JP7496399B2

Abstract

一種包含記憶體及處理器的系統。記憶體被配置以儲存機器學習(ML)模型。處理器被配置以(i)取得多個訓練音訊訊號，上述訓練音訊訊號的每一個標註失真程度，(ii)將訓練音訊訊號分別轉換為第一圖像，(iii)訓練ML模型基於第一圖像估計失真程度，(iv)接收輸入音訊訊號(v)將輸入音訊訊號轉換為第二圖像，以及(vi)藉由將第二圖像應用於ML模型估計失真程度。

Description

用以估計失真程度的方法及系統

本發明是關於音訊訊號(audio signal)，特別是關於用以進行音訊訊號純度(purity)量化(quantification)的方法及系統。

通常來說，若是音訊系統的輸入訊號與作為系統本身的副產物(by-product)所加入的音訊假影(audio artefact)之間的比例維持在最小的話，音訊系統就會被認為是「高品質的」。音訊假影可分為雜訊(noise)、非諧波失真(non-harmonic distortion)以及諧波失真(harmonic distortion)。偵測並量化音訊假影對於設計更好的系統及提供自動調諧(automatic-tuning)系統的實時(real-time)控制來說都是有需要的。

偵測音訊訊號中之失真的技術先前已經在專利文件中提出過了。舉例來說，美國專利10,559,316描述了在音訊系統中提供失真偵測、失真預防，及/或失真感知低音增強(distortion-aware bass enhancement in audio systems)的系統及方法，能夠在多種應用中執行。偵測電路能夠基於輸入訊號產生統計(statistic)，並為輸入訊號產生聲音的(acoustic)輸出。在一些實施例中，上述偵測電路可以在揚聲器(speaker)的輸出使用從機器學習(machine learning)、統計學習(statistical learning)、預測學習(predictive learning)，或是人工智慧(artificial intelligence(AI))中選擇的技術，計算對應於失真的似然(likelihood)或是令人厭惡的(objectionable)、能夠感知的(perceptible)，或是能夠測量(measurable)的失真程度的軟指標(soft indicator)。

本發明的實施例提供一種用以估計失真程度的系統，包含一記憶體及一處理器。上述記憶體被配置以儲存一機器學習(ML)模型。上述處理器被配置以(i)取得多個訓練音訊訊號，上述多個訓練音訊訊號的每一個被標註(label)一失真程度；(ii)將上述多個訓練音訊訊號分別轉換為第一圖像(image)；(iii)訓練上述機器學習模型基於從上述第一圖像估計上述多個訓練音訊訊號的上述失真程度；(iv)接收一輸入音訊訊號；(v)將上述輸入音訊訊號轉換為一第二圖像；以及(vi)將上述第二圖像應用於訓練過的上述機器學習模型，以估計上述輸入音訊訊號的失真程度。

在一些實施例中，上述失真程度為總諧波失真(Total Harmonic Distortion (THD))的程度。

在一些實施例中，上述處理器被配置以藉由設定一給定圖像的多個像素(pixel)的值以表示一給定訓練音訊訊號的振幅(amplitude)對時間的函數，將上述給定的訓練音訊訊號轉換為上述給定的圖像。

在一些實施例中，上述多個第一圖像及上述第二圖像是二維(two-dimensional(2D))的。

在一些實施例中，上述多個第一圖像及上述第二圖像是三維或更多維的。

在一些實施例中，上述處理器被配置以藉由(i)接收具有第一時間長度的多個初始音訊訊號；以及(ii)將上述初始音訊訊號切割成具有第二時間長度的多個片段(slice)，上述第二時間長度小於上述第一時間長度，取得上述多個訓練音訊訊號，以便於產生上述多個訓練音訊資料。

在一些實施例中，上述機器學習模型包含一卷積神經網路(convolutional neural network(CNN))。

在一些實施例中，上述機器學習模型包含一生成對抗網路(generative adversary network(GAN))。

在一些實施例中，上述輸入音訊訊號是從非線性音訊處理電路(nonlinear audio processing circuitry)接收的。

在一些實施例中，上述機器學習模型根據上述多個訓練音訊訊號所標註的上述失真程度，將上述失真程度進行分類。

在其他實施例中，上述機器學習模型使用迴歸估計上述失真程度。

在一些實施例中，上述處理器更被配置以使用估計出的上述輸入音訊訊號的上述失真程度來控制產生上述輸入音訊訊號的一音訊系統。

另外，根據本發明的其他實施例提供一種用以估計失真程度的系統，包含一記憶體及一處理器。上述記憶體被配置以儲存一機器學習(ML)模型。上述處理器被配置以(i)取得多個初始音訊訊號，上述多個初始音訊訊號具有在一第一時間長度範圍內的第一時間長度，並且上述多個初始音訊訊號的每一個被標註一失真程度；(ii) 將上述多個初始音訊訊號切割成具有在第二時間長度範圍內的第二時間長度的多個片段，上述第二時間長度小於上述第一時間長度，以便產生多個訓練音訊訊號；(iii) 訓練上述機器學習模型基於上述多個訓練音訊訊號估計上述多個訓練音訊訊號的上述失真程度；(iv) 接收具有在上述第二時間長度範圍內的一時間長度的一輸入音訊訊號；以及(v)將上述輸入音訊訊號應用於訓練過的上述機器學習模型，估計上述輸入音訊訊號的上述失真程度。

在一些實施例中，上述處理器被配置以藉由(i)將上述多個訓練音訊訊號分別轉換為多個第一圖像；以及(ii)訓練上述機器學習模型根據上述多個第一圖像估計上述多個訓練音訊訊號的上述失真程度，以訓練上述機器學習L模型。

在一些實施例中，上述處理器被配置以藉由(i)將上述輸入音訊訊號轉換為一第二圖像；以及(ii) 將上述第二圖像應用於訓練過的上述機器學習模型，以估計上述輸入音訊訊號的上述失真程度。

在一些實施例中，上述多個第一圖像是二維(2D)的。

在一些實施例中，上述多個第一圖像是三維或更多維的。

另外，根據本發明的其他實施例提供一種用以估計失真程度的方法，包含取得多個訓練音訊訊號，上述多個訓練音訊訊號的每一個被標註一失真程度。將上述多個訓練音訊訊號分別轉換為多個第一圖像。訓練一機器學習(ML)模型基於上述多個第一圖像估計上述多個訓練音訊訊號的上述失真程度。接收一輸入音訊訊號。將上述輸入音訊訊號轉換為一第二圖像。將上述第二圖像應用於訓練過的上述機器學習模型，估計上述輸入音訊訊號的上述失真程度。

另外，根據本發明的其他實施例提供一種用以估計失真程度的方法，包含取得多個初始音訊訊號，上述多個初始音訊訊號具有在第一時間長度範圍內的第一時間長度，並且上述多個初始音訊訊號的每一個被標註一失真程度。將上述多個初始音訊訊號切割成具有在第二時間長度範圍內的第二時間長度的多個片段，上述第二時間長度小於上述第一時間長度，以便產生多個訓練音訊訊號。訓練一機器學習模型基於上述多個訓練音訊訊號估計上述多個訓練音訊訊號的上述失真程度。接收具有在上述第二時間長度範圍內的一時間長度的一輸入音訊訊號。將上述輸入音訊訊號應用於訓練過的上述機器學習模型，估計上述輸入音訊訊號的上述失真程度。

本發明從以下實施例的詳細說明，配合附帶的圖示能夠更好的理解。

概述

音訊(例如音樂或聲音)主要是指聲音的能量形式在連續或離散(discrete)的頻率區間上分佈。一種用以描述音訊裝置的音訊品質的技術為測量上述音訊裝置在輸入音訊訊號中所引入(introduce)的總諧波失真(THD)。THD能夠衡量訊號中的諧波失真，被定義為是所有諧波成份(harmonic component)的功率(power)的總和與基本頻率(fundamental frequency)的功率的比值，上述基本頻率為正弦波(sinewave)。

當衡量性能的主要準則(criterion)為原本的正弦波的「純度」時(也就是原本的頻率對其諧波的作用(contribution))，衡量的標準通常定義為較高諧波頻率的集合的均方根(root-mean-square(RMS)振幅 A，與第一諧波頻率或基本頻率的均方根振幅的比值：

在音訊系統中，較低的THD(也就是較低的失真)代表了音訊元件產生原本輸入音訊較準確的複製，音訊元件例如為擴音器(loudspeaker)、放大器(amplifier)、訊號處理單元(signal processing unit)、麥克風(microphone)，或是其他音訊設備。

舉例來說，相對於純正弦波的波型的失真可以藉由使用THD分析器(analyzer)將輸出的波分析成它的組成諧波(constituent harmonic)，並標註每個諧波相對於基本頻率的振幅，或是藉由使用陷波濾波器(notch filter)消除基本頻率，並對剩餘的訊號進行測量，上述剩餘的訊號將會是總諧波失真(total aggregate harmonic distortion)加上雜訊。

給定具有非常低內部(inherent)失真的正弦波產生器，上述產生器的輸出可以用來作為放大裝置的輸入，上述放大裝置在不同頻率及訊號位準(signal level)的失真可以藉由檢查上述放大裝置的輸出波型進行測量。雖然專用的電子裝置可以同時被用以產生正弦波及測量失真，裝有音效卡(sound card)及合適的軟體的通用數位電腦(general-purpose digital computer)可以執行諧波分析。

通常會使用基於數學積分(integration)的傅立葉轉換(Fourier transform)從輸入的時域(time-domain)訊號中辨識多個不同頻率。這樣的過程需要具有最小時間長度的訊號，以完成測量所需的特定頻譜分析(specific spectral resolution)。因此，THD只有在輸入時域訊號的足夠的週期(cycle)數上才能適當的定義。舉例來說，測量低頻率的正弦波(例如100赫茲(Hz)的低音單調(bass monotone)，具有對應的10毫秒(millisecond(mSec))週期) 時，輸入時域訊號必須在至少數百毫秒內(也就是至少數十個周期內)是穩定的(stable)。

這代表不能對「瞬間的(instantaneous)」音訊訊號估計THD，例如在鼓點的聲音主導(sound-dominant)部分內的音訊表現，通常只持續最多數十毫秒。然而，人耳依然可以分辨上述鼓點的失真。

特別是，缺少THD的測量將會無法 (a)使用測量結果設計更線性(linear)的系統(當失真是無意的(unintentional)時)，以及(b)使用測量結果(包含實時的)控制(例如限制)故意(intentional)失真的數量，例如由非線性音訊處理元件所造成的失真。

本發明揭露的實施例提供藉由機器學習(ML)模型(例如人工神經網路(ANN))及人工智慧(AI)技術(例如使用訓練過的ML模型)，定義及估計音訊訊號中之失真程度的系統及方法。一些實施例藉由定義及估計「虛擬THD(vTHD)」定義及估計諧波失真，上述虛擬THD可以被描述為瞬間THD的測量。對於THD有適當定義的音訊訊號而言，vTHD與THD在給定的容忍範圍內吻合(例如允許分類到已標註的THD值中最接近的那一個的分類錯誤，比如說比分類的THD值大一個或小一個已標註的THD值)。然而，當THD對時間長度非常短的音訊訊號失效時，vTHD提供了一種新的標準(standard)，以基於本發明實施例中用以對此類音訊訊號估計vTHD的技術估計音訊品質。

本發明揭露的解決方式的一些實施例是專注於在非常短的時間內偵測及量化諧波失真而不考慮雜訊。這樣的特徵使得本發明揭露的技術能夠應用於動態的(dynamic)(也就是變化迅速的)訊號，並提供一種用於系統工程的有力工具。

本發明揭露的ML技術能夠在複雜的訊號(例如鼓點)上，於很短的時間 (例如幾毫秒) 內系統地量化所謂的「瞬間」THD(也就是實體(entity)的vTHD)。

為了示意說明這樣的ML技術的挑戰及能力，舉例而言可以試著藉由動態範圍壓縮器 (DRC)非線性音訊裝置，將輸入的動態範圍在輸出端映射(map)到較小的動態範圍。通常是經由降低訊號的高能量部份達成此種壓縮。

DRC的響應時間(response time)與DRC作為副作用產生的諧波失真的量有很高的關聯。舉例而言，當非常快速的響應時間(例如1 mSec)設置在非常慢(例如100 Hz)的訊號上時，一旦壓縮器大幅地衰減(attenuate)輸出將產生失真。DRC可以具有能從中選擇的多個不同的響應時間操作樣態(profile)。因此，使用本發明揭露的技術能夠讓設計者及此類裝置的系統架構師使用vTHD刻度量化不同DRC設計的失真程度。

本發明揭露的技術絕不僅限於DRC。DRC的實施例將在後續詳細的描述，這是因為DRC是一種非常普遍的工具，且DRC的失真假影(artefact)是能夠控制的，使得DRC的實施例是用以解釋本技術的好工具。

在一些實施例中，本發明揭露的技術致力於在以圖像(例如2D資訊)呈現的音訊訊號中偵測音訊失真。為此，本發明揭露的技術根據訓練過的模型對失真的集合進行分類，上述模型是使用從具有可測量的THD的較長訊號切割的訊號進行訓練的。特別是，較長訊號的THD能夠使用實驗室等級的分析器進行測量。上述技術使用短(例如切割過的)訊號的集合訓練ML模型，以根據所標註的標籤(label)的集合對任何短的訊號進行分類，上述標籤被一對一的從THD轉換成vTHD，且失真的vTHD僅由推論(inference)的流程決定。

以下為能夠驗證這種有關轉換有效性的猜想的情境：假設一個能夠從中測量THD的長且穩定的訊號(例如持續數百週期)。藉由只切割長訊號的數個週期，可以得到非常短的訊號，雖然上述非常短的訊號無法定義THD但是仍然存在失真，因此vTHD刻度的有效定義可以遵循以下規定： vTHD(切割後的訊號):= THD(長訊號)

在一個實施例中，提供一種系統(包含被配置以儲存機器學習(ML)模型的一記憶體，以及一處理器)被配置以執行以下步驟： (i) 取得多個初始音訊訊號，上述初始音訊訊號具有在一第一時間長度範圍內的第一時間長度，並且上述初始音訊訊號的每一個標註了失真程度。在本發明的實施例的內容中，「取得」代表「從外面接收及/或內部產生」。 (ii) 藉由將上述初始音訊訊號切割成具有在一第二時間長度範圍內的第二時間長度的多個片段，將初始音訊訊號片段預處理(preprocess)，以產生訓練音訊訊號的集合，上述第二持續時間長度小於上述第一時間長度。 (iii) 基於上述訓練音訊訊號，訓練上述ML模型估計上述訓練音訊訊號的上述失真程度。舉例來說，訓練上述ML模型估計已預處理過的音訊訊號的vTHD。 (iv) 接收具有在上述第二時間長度範圍內的一時間長度的一輸入音訊訊號。 (v) 藉由將上述輸入音訊訊號應用於已訓練過的上述ML模型，估計上述輸入音訊訊號中的上述失真程度(例如vTHD的程度)。

在特定的實施例中，上述處理器被配置以藉由(i)將上述訓練音訊訊號分別轉換成多個圖像(例如二維(2D) 圖像，也稱為第一圖像)，以及(ii)訓練上述ML模型根據從上述訓練音訊訊號轉換的上述圖像(第一圖像)估計失真程度，藉以訓練上述ML模型。上述處理器被配置以藉由(i)將上述輸入音訊訊號轉換成一2D圖像(也稱為第二圖像)，以及(ii)對從上述輸入音訊訊號轉換的上述2D圖像(第二圖像)應用訓練過的上述ML模型，而在上述輸入音訊訊號中估計上述輸入音訊訊號的上述失真程度(例如上述輸入音訊訊號的vTHD)。然而，請注意本發明揭露的技術能夠將音訊訊號轉換成多維數學結構(例如3D或更多)，例如張量(tensor)，以達到例如充分利用專用(dedicated)計算硬體的目的，專用計算硬體例如圖形處理單元(graphics processing units (GPUs))或張量處理單元(tensor processing units (TPUs))。此外，給定已對其他數學結構優化(optimize)過的ML模型的類型(例如神經網路(neural network(NN))的類型)，本發明揭露的技術在經過適當的修改後可以將音訊訊號轉換為那種數學結構(例如3D RGB 圖像)，並對上述音訊訊號應用訓練過的給定種類的ML模型。

上述訓練音訊訊號通常根據上述THD的基準真相(ground truth)刻度，以達成例如在推論階段中，根據THD的不同標籤(label)，對新的預處理過的音訊訊號進行估計及分類。上述處理器運行上述ML模型以推論新的預處理過的音訊訊號，以及使用各自的vTHD將新的音訊訊號根據THD的不同標籤進行分類。然而，由於不能進行實際的THD測量，上述ML模型被訓練以識別短暫的(brief)訊號的失真模式(pattern)。如上所述，藉由這種方式 vTHD可以作為一種比較時間長度非常短的訊號的音訊處理效能的一致(consistent)刻度。

在一個實施例中，上述處理器被配置以藉由將每個音訊訊號分別轉換為多個2D圖像(第一圖像)，對上述訓練音訊訊號進行預處理。舉例來說，上述處理器如以下所述，被配置以藉由對音訊訊號在2D平面上進行二進位編碼(binary coding)，將每個音訊訊號轉換為各自的黑白2D圖像。上述二進位編碼以將由圖形限定的區域編碼成黑色，將上述2D圖像的其他部份編碼成白色的方式體現。上述2D平面包含時間軸(temporal axis)及訊號振幅軸(signal amplitude axis)。

在其他實施例中，訓練樣本(training sample)被切割，並以這樣的型式作為2D圖像輸入以進行訓練，而沒有進行額外的預處理(例如沒有進行黑白區域編碼)，而新的音訊訊號在ML模型於上述音訊訊號上進行推論之前沒有進行預處理。

在其他實施例中，ML模型使用ANN作為生成對抗網路(GAN)，在學習及推論任意波形上特別有彈性。一般來說，多個ML模型可以配合對於給定的ML模型進行優化的資料格式(例如從音訊樣本(audio sample)進行轉換)來使用。

此外，本發明揭露的技術在經過必要的修改後能夠辨識及估計諧波以外的音訊失真。舉例來說，本發明揭露的技術在經過適當的修改後可以應用於辨識及估計音訊訊號中的相位雜訊(phase noise)、線性調頻(chirp)，以及減振(damping)。

藉由提供基於ML的音訊失真刻度(被稱為虛擬THD)，音訊工程師可以量化使用現存技術無法量化的音訊效能。由DRC造成之短時間長度的音訊失真

對於音訊品質而言， DRC對增加的輸入訊號(「起音(attack)」)所需的響應(也就是壓縮)時間，或是DRC停止本身的處理(「釋放(release)」)所需的響應時間是重要的參數。因為極短的起音及釋放設定會造成諧波失真，使用者無法輕易地「設定起音及釋放」為最小值。此類假影(例如THD)是DRC設定與輸入訊號(及輸入訊號的屬性)相結合的副產物。

輸出訊號的THD(也就是為DRC設定的副產物的THD)是很容易會被人類聽眾注意到的，因此每個DRC都具有本身的起音及釋放旋鈕(knob)。此外，THD能夠在波形顯示器上查看。

令人驚訝的是，雖然對人類使用者而言能夠聽到且看到，卻沒有任何測量方式可以量化這種失真。無法量化導致DRC工程師及系統設計師缺少能夠藉由量化假影幫助未來DRC發展流程系統化的科學測量工具。如上所述，這不只是對DRC而言，對於任何非線性處理器(例如閘(gate)、限制器(limiter)、飽和器(saturator)等)而言都是如此。

第1圖為圖表10，展示了本發明的實施例中由動態範圍壓縮器 (DRC)進行之音訊壓縮的效果，上述動態範圍壓縮器配置了短的及長的響應時間。

在所展示的實施例中，壓縮器或DRC將輸入正弦波訊號的輸入動態範圍13映射到由使用者設定的目標動態範圍15。這個流程包含設定(或是自動設定)閥音訊能量(threshold audio energy)、壓縮的比例、起音及釋放。當訊號能量超過上述閥音訊能量時，DRC將壓縮訊號，反之DRC則不會修改訊號。

在第1圖的範例中，輸入訊號具有固定的1 KHz頻率，以及在DRC的閥值上下變動的振幅。在第1圖的範例測量中，DRC閥值為-15 dB，壓縮比(compression ratio)為1:99。使用兩種不同的起音時間(attack time)(10 mSec 與2 mSec)，輸出結果的失真在視覺上是非常的明顯。如同所見，短的起音時間導致訊號22高度地失真。另一方面，起音時間長的訊號12大致上是一個有調幅(amplitude modulation)的正弦波。然而，如上所述，目前為止訊號22及訊號12所展現的不同程度的失真無法量化。本發明所揭露的實施例可以量化不同的短時間長度的音訊失真(例如在小於數毫秒的時間長度內發生的失真)。系統描述

第2圖是方塊圖，根據為示意說明本發明的實施例中用以估計由音訊處理裝置101所輸出的短音訊樣本(121)的虛擬總諧波失真的系統201之一方塊圖。

如同所見，系統201耦接音訊處理裝置101。音訊處理裝置101包含不會使輸入訊號失真的線性增益(linear gain)電路103，以及可能使已線性放大的輸入訊號失真的非線性處理器105，例如前面所提到的DRC。輸出訊號被引導到輸出裝置107，例如擴音器。

用以估計vTHD的系統201被配置以藉由提供導因於非線性處理器105之無意的失真的虛擬總諧波失真(virtual total harmonic distortion (vTHD))210的分數(grade)，對音訊處理裝置101的非線性音訊效應(effect)進行估計，特別是非線性處理器105的非線性音訊效應。使用所估計的vTHD允許使用者或處理器對音訊處理裝置101的設定進行優化，以優化無意的失真的數量，例如將無意的失真限制於所需的程度內。

如進一步所見的，系統201以音訊訊號121作為輸入，音訊訊號121在經過非線性處理器105處理後是失真的。

處理器208或是預處理電路206藉由將音訊訊號121的1D波形轉換(例如編碼)為2D黑白的圖像211(例如第3圖中的圖像)，執行音訊訊號121的處理。換句話說，處理器208藉由設定2D圖像的像素(pixel)的值，將給定的訓練音訊訊號轉換為給定的2D圖像，以將給定的訓練音訊訊號的振幅以時間的函數表示。

處理器208之後運行儲存在記憶體209中的訓練完成的ANN 207(列舉兩個範例，可以為卷積ANN(CNN)或是GAN)，以執行圖像211的推論，對音訊訊號121的vTHD 210進行估計。

最後，處理器208及非線性處理器105之間的回饋線路283允許基於所估計的vTHD控制輸出的音訊訊號121中的假影。在處理器208及線性增益電路103之間可選擇地或可附加地使用這樣的回饋線路。

第2圖的實施例是以範例的方式描述，純粹是為了清楚起見。舉例來說，預處理電路206可以執行其他種類的處理，或是在給定合適的ML模型時，不執行音訊訊號121的預處理(例如除了在測量THD後進行切割之外)。

第2圖中展示的音訊處理裝置101及系統201的不同元件可以使用合適的硬體實現，例如一或多個分離的(discrete)元件、一或多個應用特定積體電路(Application-Specific Integrated Circuit (ASIC))，及/或一或多個場域可程式化邏輯閘陣列(Field-Programmable Gate Array(FPGA))。系統201的一些功能可以在一或多個以軟體編程的通用處理器中執行，以實現在此提到的多個功能。

軟體可以以電子(electronic)的型式經由網路或從主機被下載到處理器，或者舉例來說，可選擇地或可附加地被提供及/或儲存在非暫態有形媒體上(non-transitory tangible media)，例如磁性(magnetic)、光學(optical)或是電子的記憶體。音訊訊號為後續使用ANN決定vTHD所做的預處理

第3圖展示本發明實施例中用於在第2圖的系統中訓練人工神經網路(ANN)207的2D圖像的集合202。如同所見，集合202的圖像是有關於逐漸增加的THD程度。THD是在訓練音訊訊號上測量，且2D圖像是從上述訓練音訊訊號產生。每個上述訓練音訊訊號具有長度為48的週期(cycle) (也就是以1 kHz的頻率取樣，時間長度為48 mSec)。預處理過的2D圖像在訓練音訊樣本截斷(例如切割)只留下五個週期後產生。因此，使用短時間長度的樣本(例如1 kHz波的5個週期)訓練，每個樣本的總時間長度為5毫秒。如同以上所強調的，這樣的時間長度非常短且不允許進行例如諧波失真的有意義的FFT分析。原則上，訊號可以截斷到與一個周期的分數(fraction)一樣小(例如四分之一個週期)，本發明揭露的技術將會使用這種極短的音訊訊號產生失真的vTHD刻度。舉例來說，使用截斷後的訊號更允許最大化本發明揭露的技術對低訊號-雜訊比(signal-to-noise ratio)的容忍度，同時有助於分析極短時間長度的音訊諧波失真。

訓練圖像的集合202是一串預處理過的正弦波訊號，從最初的正弦波訊號開始具有增加的「數位飽和 (digital saturation)」程度，將正弦波在本身的最大及最小絕對值(absolute value)處截切(clip)。如同所見，一開始沒有削波(clipping)，也就是從具有THD=0的零削波開始，之後飽和效應逐漸增加一直到最大的削波造成類似矩形波的波形，並且上述類似矩形波的波形測量的(例如基準真相)THD為28。在給出的範例中，為了簡化表達，如第4圖所描述的實際上的測試是從4%THD(也就是THD=4)開始。

增加的THD程度反映了較高諧波 (3ω、5ω、7ω…)、純的(pure)、正弦的(sinus)諧波在ω對於訊號的相對作用(contribution)越來越大。

集合202的每個2D圖像是從1D波形接收的，就如同在第2圖中圖像211從音訊訊號121各自的波形接收一樣。

特別是，可以使用一種碼進行處理，使波封(envelope)與水平軸之間的區域212是黑色的，並維持每個圖像的其他部份是白色的。

在以第3圖做示範的特定範例中，資料處理包含以下步驟： 1. 資料數位化(8位元(bit))：在一個類似集合202的集合中，N個波形中的每個波形i由時序(sequence in time){S _j}取樣，其中j是時間指標(temporal index)。資料正規化(normalization)：將所有資料樣本的值正規為-1到1。 2.資料轉換(transformation)：為了使用ANN的卷積神經網路(CNN)結構，將資料從1D資料(序列資料-音訊訊號)轉換為2D資料： 2.1將每個正弦波樣本陣列(array)轉換成矩陣(matrix)(在灰階(greyscale picture)圖中呈現)。 2.2將所有矩陣元素初始化為白色。每一列i代表正弦波的振幅(使用給定的精度)。每一行代表取樣的時間j。 2.3填滿矩陣：使用以下等式轉換波形樣本i=1, 2, … , N的振幅：矩陣[(1 - 振幅[S _ij]) * 100][S _ij] = 0。(黑色)。藉由執行這些步驟，S _i振幅與零振幅列之間的所有區域以白色填滿，以在每個樣本中加入更多資料。此方法最大化訊號的對比以達到更好的圖像處理。 ANN在分類vTHD上的性能分析

在ML的領域中，特別是統計分類的問題上，混淆矩陣(也被稱為誤差矩陣(error matrix))是一種特殊的表格配置，使演算法的性能可視化，上述演算法通常是監督式(supervised)學習演算法(例如使用已標註的訓練資料進行學習的演算法)。矩陣的每一列代表實際類別中的實例，而每一行代表預測類別中的實例，或是反過來。混淆矩陣的名稱就來自於它能夠使人簡單的看出系統是否混淆兩種類別(例如經常將其中一個標註為另一個)。

第4圖示意說明將使用第2圖的系統201所估計出的vTHD 210，與第3圖的基準真相vTHD比較的混淆矩陣302。在每個THD程度上所推論的樣本數由刻度304指示，樣本的數量介於數個到超過20個之間。

如同所見，在THD大於4的部份，訓練完成的ANN 207在推論階段中做出的錯誤決定最多只偏差一個類別(例如一些THD為j的音訊樣本可能被分類為具有j+1或j-1的vTHD)。系統201準確地分類絕大多數的音訊樣本。

第4圖所展示的範例只是示範的型式。作為另一個範例，ML模型不是使用分類去估計vTHD與基準真相THD間的錯誤，而是使用基於迴歸的計分 (regression-based scoring)，如下所述。用以估計短音訊樣本的vTHD的方法

第5圖是示意說明本發明實施例使用第2圖的系統201估計短音訊樣本的vTHD之方法的流程圖。根據本發明的實施例，演算法執行分為訓練階段401及推論階段403的流程。

訓練階段從上傳步驟402開始。在上傳步驟402中，處理器208從記憶體209上傳短的(例如切割過的)訓練音訊樣本的集合，例如第3圖中使用的5週期音訊樣本。接著，在資料格式轉換步驟404中，預處理電路206將音訊樣本轉換為如第3圖所示的黑白圖像。

在ANN訓練步驟406中，處理器208訓練ANN 207使用黑白圖像估計音訊訊號的vTHD。

推論階段403從音訊樣本輸入步驟408開始。在音訊樣本輸入步驟408中，系統201接收短時間長度的音訊樣本(例如數毫秒的時間長度)作為輸入。

接著，在資料格式轉換步驟410中，預處理電路206將短的音訊樣本轉換為黑白圖像。接著，在vTHD估計步驟412中，處理器208運行訓練過的ANN 207以估計音訊樣本的vTHD值。最後，在vTHD輸出步驟414中，系統201的處理器208向使用者或處理器輸出所估計的vTHD，以達成例如根據所需的vTHD值調整非線性音訊階段(stage)的目的，例如調整由音訊處理裝置101的非線性處理器105所造成的飽和程度。

第5圖的流程圖是為了清楚起見純粹以示範的方式呈現。舉例來說，可以使用其他預處理步驟或是更少的步驟。基於迴歸的vTHD估計

如上所述，可以額外使用基於迴歸的計分，或是作為如第4圖所示的使用分類估計vTHD的替代方案。在基於迴歸的計分中，系統使用相同的已處理資料(已塗白的資料及/或已塗黑的資料都可以使用)。在這個實施例中，CNN使用預測均方差函數(predicts mean squared error function)作為損失函數(loss function)，以輸出指示了vTHD與基準真相THD值有多接近的數字。

演算法具有以下步驟：預處理： 1.使用與分類結構中相同的波形進行訓練。 2.對堆疊(stack)到Y向量的THD值進行正規化，並正規化為[0, 1]之間的值。 3.如同在分類網路中，使用隨機產生器(random generator)進行資料分裂(data splitting)。輸出： 1.正規化的vTHD值。 2.在已估計訓練音訊樣本的情況下，輸出CNN對樣本的vTHD的預測與在初始音訊訊號上測量的THD的實際值之間的估計誤差。舉例來說，假設模型給出的結果是vTHD為0.8(已正規化)。基準真相THD在[0.75 0.85]的範圍內。

分類的方法及基於迴歸的方法的準確度可以藉由資料取樣精確度(data sampling precision)改善，舉例來說，使用16-位元數位化的方案(scheme)取代之前使用的8-位元的方案。

應該注意的是，數學上來說分類問題及迴歸問題的資料集合在Y向量上不相同。在分類問題上，對於每個範例S _j都有一個1D分類向量。在迴歸問題上，對於每個範例S _j都有一個純量迴歸分數(scalar regression score)。

雖然在此描述的實施例主要是對於音訊工程套組及/或消費者等級設備解決音訊處理的問題，在此描述的方法及系統也可以使用在其他應用，例如音訊品質分析、濾波器設計，或是用於靜止圖像處理或是影片處理的濾波器的自動自我控制，在經過適當的修改後，也可以用於部分或完全基於FFT分析的資料壓縮編碼及解碼技術。

應該理解的是以上描述的實施例只是舉例，而本發明並不限於以上特定展示及描述的事物。相反的，本發明的範圍包含以上描述的多種特徵以及其中的變化及改動的組合及子組合，上述變化及改動是本領域的技術人員在閱讀以上未在先前的技術中揭露的描述時能夠想到的。本專利申請中通過引用而納入的資料應該被視為本發明的組成部份，但是如果這些納入的文件與本說明書中明確或隱含的定義相衝突時，則應該只考慮本說明書中的定義。

10:圖表 12、22:訊號 13:輸入動態範圍 15:目標動態範圍 101:音訊處理裝置 103:線性增益電路 105:非線性處理器 107:輸出裝置 121:音訊訊號 201:系統 202:集合 206:預處理電路 207:人工神經網路(ANN) 208:處理器 209:記憶體 210:虛擬總諧波失真(virtual total harmonic distortion (vTHD)) 211:圖像 212:區域 283:回饋線路 302:混淆矩陣 304:刻度 401:訓練階段 402:上傳步驟 403:推論階段 404:資料格式轉換步驟 406:ANN訓練步驟 408:音訊樣本輸入步驟 410:資料格式轉換步驟 412:vTHD估計步驟 414:vTHD輸出步驟

第1圖為用以展示本發明的實施例中由動態範圍壓縮器(Dynamic Range Compressor (DRC))進行的音訊壓縮的效果之一圖表，上述動態範圍壓縮器配置了短的及長的響應時間(response time)。第2圖為示意說明本發明的實施例中估計由音訊處理裝置所輸出的短音訊樣本的虛擬總諧波失真(virtual total harmonic distortion (vTHD))的系統之一方塊圖。第3圖展示本發明實施例中用於第2圖的系統中訓練人工神經網路(artificial neural network (ANN))的二維(2D) 圖像的集合。第4圖示意說明將使用第2圖的系統估計出的vTHD，與第3圖的基準真相vTHD比較的混淆矩陣(confusion matrix)。第5圖是示意說明本發明施實例中使用第2圖的系統估計短音訊樣本的vTHD之方法的流程圖。

401:訓練階段

402:上傳步驟

403:推論階段

404:資料格式轉換步驟

406:ANN訓練步驟

408:音訊樣本輸入步驟

410:資料格式轉換步驟

412:vTHD估計步驟

414:vTHD輸出步驟

Claims

一種用以估計失真程度的系統，包含：一記憶體，被配置以儲存一機器學習模型；以及一處理器，被配置以：取得多個訓練音訊訊號，上述多個訓練音訊訊號的每一個被標註一失真程度；將上述多個訓練音訊訊號分別轉換為多個第一圖像；訓練上述機器學習模型基於從上述多個第一圖像估計上述多個訓練音訊訊號的上述失真程度；接收一輸入音訊訊號；將上述輸入音訊訊號轉換為一第二圖像；以及將上述第二圖像應用於所訓練過的上述機器學習模型，以估計上述輸入音訊訊號的失真程度；其中，上述處理器被配置以藉由設定一給定的圖像的多個像素的值以表示一給定的訓練音訊訊號的振幅對時間的一函數，將上述給定的訓練音訊訊號轉換為上述給定的圖像。
如請求項1之系統，其中上述失真程度為一總諧波失真(THD)的程度。
如請求項1之系統，其中上述多個第一圖像及上述第二圖像是二維(2D)的。
如請求項1之系統，其中上述多個第一圖像及上述第二圖像是三維或更多維的。
如請求項1之系統，其中上述處理器被配置以藉由 (i)接收具有第一時間長度的多個初始音訊訊號，以及(ii)將上述初始音訊訊號切割成具有第二時間長度的多個片段，上述第二時間長度小於上述第一時間長度，而取得上述多個訓練音訊訊號，以便於產生上述多個訓練音訊訊號。
如請求項1之系統，其中上述機器學習模型包含一卷積神經網路(CNN)。
如請求項1之系統，其中上述機器學習模型包含一生成對抗網路(GAN)。
如請求項1之系統，其中上述輸入音訊訊號來自非線性音訊處理電路。
如請求項1之系統，其中上述機器學習模型根據上述多個訓練音訊訊號所標註的上述失真程度，將上述失真程度進行分類。
如請求項1之系統，其中上述機器學習模型使用迴歸估計上述失真程度。
如請求項1之系統，其中上述處理器更被配置以使用所估計出的上述輸入音訊訊號的上述失真程度，來控制產生上述輸入音訊訊號的一音訊系統。
一種用以估計失真程度的系統，包含：一記憶體，被配置以儲存一機器學習模型；以及一處理器，被配置以：取得多個初始音訊訊號，上述多個初始音訊訊號具有在一第一時間長度範圍內的第一時間長度，並且上述多個初始音訊訊號的每一個被標註一失真程度；將上述多個初始音訊訊號切割成具有在一第二時間長度範圍內的第二時間長度的多個片段，上述第二時間長度小於上述第一時間長度，以便產生多個訓練音訊訊號；訓練上述機器學習模型基於上述多個訓練音訊訊號估計上述多個訓練音訊訊號的上述失真程度；接收具有在上述第二時間長度範圍內的一時間長度的一輸入音訊訊號；以及將上述輸入音訊訊號應用於所訓練過的上述機器學習模型，估計上述輸入音訊訊號的上述失真程度；其中，上述處理器被配置以藉由設定一給定的圖像的多個像素的值以表示一給定的訓練音訊訊號的振幅對時間的一函數，將上述給定的訓練音訊訊號轉換為上述給定的圖像。
如請求項12之系統，其中上述失真程度為一總諧波失真(THD)的程度。
如請求項12之系統，其中上述處理器被配置以藉由(i)將上述多個訓練音訊訊號分別轉換為多個第一圖像，以及(ii)訓練上述機器學習模型根據上述多個第一圖像估計上述多個訓練音訊訊號的上述失真程度，以訓練上述機器學習模型。
如請求項14之系統，其中上述處理器被配置以藉由(i)將上述輸入音訊訊號轉換為一第二圖像，以及(ii)將上述第二圖像應用於所訓練過的上述機器學習模型，以估計上述輸入音訊訊號的上述失真程度。
如請求項14之系統，其中上述多個第一圖像是二維(2D)的。
如請求項14之系統，其中上述多個第一圖像是三維或更多維的。
如請求項12之系統，其中上述機器學習模型包含一卷積神經網路(CNN)。
如請求項12之系統，其中上述機器學習模型包含一生成對抗網路(GAN)。
如請求項12之系統，其中上述輸入音訊訊號來自非線性音訊處理電路。
如請求項12之系統，其中上述機器學習模型根據上述多個訓練音訊訊號所標註的上述失真程度，將上述失真程度進行分類。
如請求項12之系統，其中上述機器學習模型使用迴歸估計上述失真程度。
如請求項12之系統，其中上述處理器更被配置以使用所估計出的上述輸入音訊訊號的上述失真程度，來控制產生上述輸入音訊訊號的一音訊系統。
一種用以估計失真程度的方法，包含：取得多個訓練音訊訊號，上述多個訓練音訊訊號的每一個被標註一失真程度；將上述多個訓練音訊訊號分別轉換為多個第一圖像；訓練一機器學習模型基於上述多個第一圖像估計上述訓練音訊訊號的上述失真程度；接收一輸入音訊訊號；將上述輸入音訊訊號轉換為一第二圖像；以及將上述第二圖像應用於已訓練過的上述機器學習模型，以估計上述輸入音訊訊號的失真程度；其中，將一給定的訓練音訊訊號轉換為一給定的圖像，包含設定上述給定的圖像的多個像素的值，以表示上述給定的訓練音訊訊號的振幅對時間的一函數。
如請求項24之方法，其中上述失真程度為一總諧波失真(THD)的程度。
如請求項24之方法，其中上述多個第一圖像及上述第二圖像是二維(2D)的。
如請求項24之方法，其中取得上述多個訓練音訊訊號包含(i)接收具有第一時間長度的多個初始音訊訊號，以及(ii)將上述多個初始音訊訊號切割成具有第二時間長度的多個片段，以便於產生上述多個訓練音訊訊號，上述第二時間長度小於上述第一時間長度。
如請求項24之方法，其中上述機器學習模型包含一卷積神經網路(CNN)。
如請求項24之方法，其中上述機器學習模型包含一生成對抗網路(GAN)。
如請求項24之方法，其中接收上述輸入音訊訊號之步驟包含從非線性音訊處理電路接收上述輸入音訊訊號。
如請求項24之方法，其中上述機器學習模型根據標註上述多個訓練音訊訊號所標註的上述失真程度，將上述失真程度進行分類。
如請求項24之方法，其中上述機器學習模型使用迴歸估計上述失真程度。
如請求項24之方法，更包含使用所估計出的上述輸入音訊訊號的上述失真程度，來控制產生上述輸入音訊訊號的一音訊系統。
一種用以估計失真程度的方法，包含：取得多個初始音訊訊號，上述多個初始音訊訊號具有在一第一時間長度範圍內的第一時間長度，並且上述多個初始音訊訊號的每一個被標註一失真程度；將上述多個初始音訊訊號切割成具有在一第二時間長度範圍內的第二時間長度的多個片段，以便產生多個訓練音訊訊號，上述第二時間長度小於上述第一時間長度；訓練一機器學習模型基於上述多個訓練音訊訊號估計上述多個訓練音訊訊號的上述失真程度；接收具有在上述第二時間長度範圍內的一時間長度的一輸入音訊訊號；以及將上述輸入音訊訊號應用於所訓練過的上述機器學習模型，估計上述輸入音訊訊號的上述失真程度；其中，將一給定的訓練音訊訊號轉換為一給定的圖像，包含設定上述給定的圖像的多個像素的值，以表示上述給定的訓練音訊訊號的振幅對時間的一函數。
如請求項34之方法，其中上述失真程度為一總諧波失真(THD)的程度。
如請求項34之方法，其中訓練上述機器學習模型包含(i)將上述多個訓練音訊訊號分別轉換為多個第一圖像，以及 (ii)訓練上述機器學習模型根據上述多個第一圖像估計上述失真程度。
如請求項36之方法，其中估計上述輸入音訊訊號的上述失真程度包含(i)將上述輸入音訊訊號轉換為一第二圖像，以及(ii)將上述第二圖像應用於所訓練過的上述機器學習模型。
如請求項36之方法，其中上述多個第一圖像是二維(2D)的。
如請求項34之方法，其中上述機器學習模型包含一卷積神經網路(CNN)。
如請求項34之方法，其中上述機器學習模型包含一生成對抗網路(GAN)。
如請求項34之方法，其中上述輸入音訊訊號是從非線性音訊處理電路接收的。
如請求項34之方法，其中上述機器學習模型根據上述多個訓練音訊訊號所標註的上述失真程度，將上述失真程度進行分類。
如請求項34之方法，其中上述機器學習模型使用迴歸估計上述失真程度。
如請求項34之方法，其中更包含使用所估計出的上述輸入音訊訊號的上述失真程度，來控制產生上述輸入音訊訊號的一音訊系統。