TWI819478B

TWI819478B - 具端至端神經網路之聽力裝置及音訊處理方法

Info

Publication number: TWI819478B
Application number: TW111103346A
Authority: TW
Inventors: 陳鼎堯; 徐禎助; 劉耀鈞; 陳宗樑
Original assignee: 英屬開曼群島商意騰科技股份有限公司
Priority date: 2021-04-07
Filing date: 2022-01-26
Publication date: 2023-10-21
Also published as: TW202241147A; US11647344B2; US20220329953A1

Abstract

本發明揭露一種聽力裝置，包含：一主要麥克風、M個輔助麥克風、一轉換電路、一處理器、一儲存媒體以及一後處理電路。轉換電路，分別將來自上述麥克風的主要音訊訊號以及M個輔助音訊訊號的目前音框中的第一取樣值轉換為一主要頻譜代表式以及M個主要頻譜代表式。上述記憶體包含多個指令供該處理器執行一組操作，包含：利用一端對端神經網路，對該些第一取樣值進行主動降噪(ANC)，以產生多個第二取樣值；以及，利用該端對端神經網路，對該主要頻譜代表式以及該M個主要頻譜代表式進行音訊訊號處理操作，以產生一補償遮罩。該後處理電路以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式，以及，根據該些第二取樣值以及該補償後頻譜代表式，產生一輸出音訊訊號。

Description

具端至端神經網路之聽力裝置及音訊處理方法

本發明係有關於聽力裝置，特別地，尤有關於一種具端至端神經網路之聽力裝置，可藉由進行主動降噪(active noise cancellation，ANC)及音訊處理來降低梳狀濾波效應(comb-filtering effect)。

一般人很難適應助聽器。實際狀況是無論助聽器的性能有多好，聽起來永遠像一個助聽器。一個重要原因是梳狀濾波效應，產生的原因是因為助聽器中的數位訊號處理，會使被放大的聲音相對於洩漏途徑聲音(或直接聲音)產生延遲，其中該洩漏途徑聲音係透過排放至耳朵頂端以及耳朵頂端周圍的洩漏而進入耳朵。上述延遲是因為助聽器需要一段時間用來：(1)取樣及轉換一類比音訊訊號為一數位音訊訊號；(2)進行數位訊號處理；(3)將處理過的訊號轉換成一類比音訊訊號，以傳送給助聽器的揚聲器。先前的實驗顯示即使大約2毫秒(milliseconds，ms)的延遲都會造成梳狀濾波效應，但是小於0.5ms的延遲就不會。當一個人配戴一助聽器且聆聽周遭聲音(如語音及背景噪音)時，所感知到的上述延遲如同回音(echo)或混響(reverberation)一般。上述梳狀濾波效應會大幅降低聲音品質。

如業界所熟知的，透過進行主動降噪可以去除上述洩漏途徑的聲音(或直接聲音)，在去除上述直接聲音後，即可減少梳狀濾波效應。美國公開第20200221236A號專利文獻揭露一種具獨立ANC電路的聽力裝置，用以消除上述洩漏途徑的聲音。理論上，ANC電路可運作於時域或頻域。一般來說，因為ANC電路的訊號處理延遲被要求須小於50微秒( s)，故助聽器中的ANC電路通常會包含一個或更多的時域濾波器。對於運作於頻域的ANC電路而言，短時距傅立葉轉換(short-time Fourier Transform，STFT)以及逆短時距傅立葉轉換(inverse STFT)的處理時間就占用了上述ANC電路的訊號處理延遲的5到50ms，其中包含了ANC電路發揮作用的時間。然而，目前大部分最先進的音訊演算法都是在頻域中操作音訊訊號，以進行進階音訊訊號處理。

因此，業界亟需一種聽力裝置，可整合時域以及頻域音訊訊號處理、降低梳狀濾波效應、進行ANC及進階音訊訊號處理操作，以改善音訊品質。

有鑒於上述問題，本發明的目的之一是提供一種聽力裝置，可整合時域以及頻域音訊訊號處理，以改善音訊品質。

根據本發明之一實施例，係提供一種聽力裝置，包含：一主要麥克風、M個輔助麥克風、一轉換電路、至少一處理器、至少一儲存媒體以及一後處理電路。該主要麥克風以及M個輔助麥克風，分別產生一主要音訊訊號以及M個輔助音訊訊號。該轉換電路，分別將該主要音訊訊號以及該M個輔助音訊訊號的目前音框中的多數個第一取樣值轉換為一主要頻譜代表式以及M個主要頻譜代表式。該至少一儲存媒體，包含多個指令供該至少一處理器執行，以進行一組操作，包含：利用一端對端神經網路，對該些第一取樣值進行主動降噪(ANC)操作，以產生多個第二取樣值；以及，利用該端對端神經網路，對該主要頻譜代表式以及該M個主要頻譜代表式進行音訊訊號處理操作，以產生一補償遮罩。該後處理電路，以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式，以及，根據該些第二取樣值以及該補償後頻譜代表式，產生一輸出音訊訊號，其中M＞=0。

本發明之另一實施例，係提供一種音訊處理方法，適用於一聽力裝置，該方法包含：分別將一主要音訊訊號以及M個輔助音訊訊號的目前音框中的多數個第一取樣值轉換為一主要頻譜代表式以及M個主要頻譜代表式，其中該主要音訊訊號以及該M個輔助音訊訊號係分別來自該聽力裝置的一主要麥克風以及M個輔助麥克風；利用一端對端神經網路，對該些第一取樣值進行主動降噪(ANC)操作，以產生多個第二取樣值；利用該端對端神經網路，對該主要頻譜代表式以及該M個主要頻譜代表式進行音訊訊號處理操作，以產生一補償遮罩；以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式；以及，根據該些第二取樣值以及該補償後頻譜代表式，得到一輸出音訊訊號，其中M＞=0。

茲配合下列圖示、實施例之詳細說明及申請專利範圍，將上述及本發明之其他目的與優點詳述於後。

在通篇說明書及後續的請求項當中所提及的「一」及「該」等單數形式的用語，都同時包含單數及複數的涵義，除非本說明書中另有特別指明。在通篇說明書及後續的請求項當中所提及的相關用語定義如下，除非本說明書中另有特別指明。在通篇說明書中，具相同功能的電路元件使用相同的參考符號。

本發明的特色之一是利用一端對端神經網路(end-to-end neural network)，來同時進行ANC與進階音訊訊號處理操作，例如：噪音抑制、聲學回授消除(acoustic feedback cancellation，AFC)以及聲音放大等等。本發明的另一個特色以上述端對端神經網路接收來自各麥克風的一時域音訊訊號以及一頻域音訊訊號，以同時得到時域訊號處理之優點(即極低的系統延遲)以及頻域訊號處理之優點(即較佳的頻率分析)。相較於傳統ANC技術對低頻(介於50至1000赫茲)聲音特別有效，本發明端對端神經網路可同時降低低頻及高頻噪音成分。

圖1顯示本發明聽力裝置之一示意圖。參考圖1，本發明聽力裝置100包含Q個麥克風11~1Q、一前處理單元120、一端對端神經網路130、一後處理單元150以及一輸出電路160，其中Q＞=1。該聽力裝置100可以是以下類型的助聽器，耳背型(behind-the-ear，BTE)、耳道型(in-the-canal，ITC)、耳內型(in-the-ear，ITE)、或深耳道型(completely-in-the-canal，CIC)。

主要麥克風11係設在耳朵外側，用來收集周遭聲音以產生一主要音訊訊號au-1。若Q＞1，至少一輔助麥克風12~1Q產生至少一輔助音訊訊號au-2~au-Q。該前處理單元120用來接收Q個音訊訊號au-1~au-Q，以產生Q個時域數位音訊訊號s ₁[n]~s _Q[n]的目前音框i的音訊資料以及Q個目前頻譜代表式F1(i)~FQ(i) (係對應至該Q個時域數位音訊訊號s ₁[n]~s _Q[n]的目前音框i的音訊資料)，其中，n代表離散時間索引，而i代表該Q個時域數位音訊訊號s ₁[n]~s _Q[n]的音框索引。端對端神經網路130接收輸入參數、該Q個目前頻譜代表式F1(i)~FQ(i)以及該Q個時域數位音訊訊號s ₁[n]~s _Q[n]的目前音框i的音訊資料、執行ANC、AFC、噪音抑制以及聲音放大操作，以產生一頻域補償遮罩串流(mask stream) G ₁(i)~G _N(i)以及一時域數位資料串流u[n]的目前音框i的音訊資料。該後處理單元150接收該頻域補償遮罩串流G ₁(i)~G _N(i)以及該時域數位資料串流u[n]的目前音框i的音訊資料，以產生一時域數位音訊訊號y[n]的目前音框i的音訊資料，其中， N代表快速傅立葉轉換(fast fourier transform，FFT)的尺寸/大小。最後，該輸出電路160將該數位音訊訊號y[n]轉換成一聲音壓力訊號以播放於使用者的耳道。該輸出電路160包含一數位類比轉換器(DAC)161、一放大器162以及一揚聲器163。

圖2係根據本發明一實施例，顯示前處理單元120之示意圖。參考圖2，若該Q個麥克風11~1Q的輸出是類比音訊訊號，則前處理單元120包含Q個類比數位轉換器(ADC)121、Q個STFT部122以及Q個並行至串列轉換器(parallel to serial converter，PSC)123；若該Q個麥克風11~1Q的輸出是數位音訊訊號，則前處理單元120僅包含Q個STFT部122以及Q個PSC 123。因此，該些ADC 121並非必須，並在圖2中以虛線顯示。該些ADC 121分別將Q個類比音訊訊號au-1~au-Q轉換為Q個數位音訊訊號s ₁[n]~s _Q[n]。各STFT部122先利用一滑動窗(sliding window)，沿著時間軸，將數位音訊訊號s _j[n]分成多個音框，致使各音框間互相重疊以減少邊界的偽像(artifact)，之後，以FFT將時域各音框的音訊資料轉換成頻域的複數值(complex-valued)資料。假設各音框的取樣點數(或FFT尺寸)等於N、各音框的持續時間等於Td且各音框以Td/2的時間彼此重疊，各STFT部122分別將音訊訊號s _j[n]分割成多個音框，並計算對應音訊訊號s _j[n]的目前音框i內音訊資料的FFT以產生具有N個複數值取樣點(F _1,j(i)~F _N,j(i))及頻率解析度等於fs/N(=1/Td)的目前頻譜代表式(spectral representation) Fj(i)，其中，1＜=j＜=Q，fs表示音訊訊號s _j[n]的取樣頻率且各音框對應至音訊訊號s _j[n]的不同時間區段。一較佳實施例中，各音框的持續時間Td大約32毫秒。然而，上述持續時間Td僅是示例，而非本發明之限制，實際實施時，也能使用其他的持續時間。最後，各PSC123將對應的N個平行的複數值取樣點(F _1,j(i)~F _N,j(i))轉換成一個序列取樣點串流，起始於F _1,j(i)，終止於F _N,j(i)。請注意，從前處理單元120輸出的2*Q個資料串流((F1(i)~FQ(i))及s ₁[n]~s _Q[n])之間彼此同步，以致於該2*Q個資料串流((F1(i)~FQ(i))及s ₁[n]~s _Q[n])的各行的2*Q個成分(例如: 位在同一行的2*Q個成分F _1,1(i), s ₁[1],…, F _1,Q(i), s _Q[1])之間彼此對齊，同時被送到該端對端神經網路130。

該前處理單元120、該端對端神經網路130以及該後處理單元150之任一皆可由軟體、硬體、韌體、或其組合來實施。一實施例中，該前處理單元120、該端對端神經網路130以及該後處理單元150係以至少一處理器及至少一儲存媒體(圖未示)來實施；該至少一儲存媒體儲存多個指令/程式碼供該至少一處理器執行，致使該至少一處理器被組態以運作有如：該前處理單元120、該端對端神經網路130以及該後處理單元150。另一實施例中，僅該端對端神經網路130以至少一處理器及至少一儲存媒體(圖未示)來實施；該至少一儲存媒體儲存多個指令/程式碼供該至少一處理器執行，致使該至少一處理器被組態以運作有如：該端對端神經網路130。

該端對端神經網路130可以是一深度神經網路(deep neural network，DNN)、一循環神經網路(recurrent neural network，RNN)、一卷積神經網路(convolutional neural network，CNN)、一時延神經網路(time delay neural network，TDNN)或其組合。和監督式學習(supervised learning)有關的各種不同機器學習技術都可用來訓練該端對端神經網路130的模組(以下簡稱”模組130”)。用來訓練該端對端神經網路130的監督式學習技術包含，但不受限於，隨機梯度下降法(stochastic gradient descent ，SGD)。在監督式學習領域中，本發明利用四組附標籤的訓練樣本(將於稍後說明)來建立一個函數f(即模組130)，且各附標籤的訓練樣本包含一輸入特徵向量及一附標籤輸出。該端對端神經網路130利用上述四組附標籤的訓練樣本來學習或估測該函數f(即模組130)，再利用反向傳播(backpropagation)演算法及代價函數(cost function)來更新模組的權值。反向傳播演算法重複地計算該代價函數相對於各權值及偏移量(bias)的梯度(gradient)，再以相反於該梯度的方向更新權值及偏移量，以找出一局部最小值。該端對端神經網路130學習的目標是在給定上述四組附標籤的訓練樣本的情況下，最小化該代價函數。

圖3係根據本發明一實施例，顯示端對端神經網路130之示意圖。一較佳實施例中，參考圖3，端對端神經網路130包含一TDNN131、一頻域長短期記憶(frequency-domain long short term memory，FD-LSTM)網路132以及一時域長短期記憶(TD-LSTM)網路133。在本實施例中，具有”平移不變(shift invariance)”特性的TDNN 131是用來處理時間序列資料，”平移不變”的重要性在於避免了語音訊號的自動分段會被使用的平移時間窗階層(layers of shifting time-window)所分辨的困境。由於一時間序列中的重要事件之間有未知的期間延遲(lag)，因為LSTM 網路132~133具有回授連結，故非常適合根據時間序列資料來處理及進行預測。另外，TDNN131可擷取出短期(例如：小於100ms)音訊特色，例如：幅值(magnitude)、相位、音高(pitch)、或非穩定(non-stationary)聲音，至於LSTM網路132~133則可擷取出長期(例如: 從100ms到3秒的範圍內)音訊特色，例如：場景，以及與場景相關的聲音。須注意的是，上述實施例(TDNN131搭配二個LSTM 網路132~133)僅是示例，而非本發明之限制，實際實施時，也能以其他類型的網路來實施，此亦落入本發明的申請專利範圍。

根據輸入參數，端對端神經網路130平行接收該Q個目前頻譜代表式F1(i)~FQ(i)以及該Q個時域數位音訊訊號s ₁[n]~s _Q[n]的目前音框i的音訊資料、進行ANC與進階音訊訊號處理以及產生對應N個頻帶的一頻域補償遮罩串流(包含N個遮罩值G ₁(i)~G _N(i))以及一時域輸出取樣點串流u[n]。上述進階音訊訊號處理包含，但不受限於，噪音抑制、AFC、聲音放大、保留警示音、環境分類、到達方向及波束成形(direction of arrival and beamforming)、放大特定談話者的語音(speech separation)以及配戴偵測(wearing detection)。為清楚及方便描述，以下的例子及實施例皆以該進階音訊訊號處理僅包含噪音抑制、AFC以及聲音放大來做說明，應理解的是本發明端對端神經網路130的實施例不以此為限，亦可適用於其他類型的音訊處理，例如保留警示音、環境分類、到達方向及波束成形、放大特定談話者的語音以及配戴偵測等等。

對於聲音放大功能，端對端神經網路130的輸入參數包含，但不受限於，幅值增益、訊號z[n](逆STFT部154的輸出)的最大輸出功率值、對應上述N個遮罩值G ₁(i)~G _N(i)的一組N個修正增益g ₁~g _N，其中，該N個修正增益g ₁~g _N係用來修正該N個遮罩值G ₁(i)~G _N(i)的波形。對於噪音抑制、AFC及ANC功能，端對端神經網路130的輸入參數包含，但不受限於，抑制的強度或等級。對於噪音抑制功能，可藉由添加各種噪音至乾淨的語音資料，以人工方式來建立第一組附標籤的訓練樣本的輸入資料，而上述第一組附標籤的訓練樣本中各樣本的實際值(ground truth)(或附標籤輸出)則需要對應的乾淨語音資料之頻域補償遮罩串流(包含N個遮罩值G ₁(i)~G _N(i))。對於聲音放大功能，第二組附標籤的訓練樣本的輸入資料為微弱的語音資料，而上述第二組附標籤的訓練樣本中各樣本的實際值等於，基於對應輸入參數(包含一對應幅值增益、訊號z[n]的對應最大輸出功率值、對應的一組N個修正增益g ₁~g _N)而對應放大的語音資料之頻域補償遮罩串流(包含N個遮罩值G ₁(i)~G _N(i))。對於AFC功能，可藉由添加各種回授干擾資料至乾淨的語音資料，以人工方式來建立第三組附標籤的訓練樣本的輸入資料，而上述第三組附標籤的訓練樣本中各樣本的實際值則需要對應的乾淨語音資料之頻域補償遮罩串流(包含N個遮罩值G ₁(i)~G _N(i))。對於ANC功能，可藉由添加直接聲音(或洩漏途徑聲音)資料至乾淨的語音資料，以人工方式來建立第四組附標籤的訓練樣本的輸入資料，而上述第四組附標籤的訓練樣本中各樣本的實際值則需要對應乾淨語音資料之時域去噪音音訊資料u[n]的N個取樣值。對於語音資料，需收集大範圍的人類語音，例如不同性別、不同年齡、不同種族及不同語系等等。對於噪音資料，則收集不同噪音源，例如市場、電腦風扇、群眾、汽車、飛機、工地等等。對於回授干擾資料，則收集該揚聲器163及麥克風11~11Q之間不同耦合程度的干擾資料。對於直接聲音資料，則需大範圍的收集不同使用者從該聽力裝置的輸入端至使用者耳膜的聲音。以人工方式建立輸入資料的過程中，係以不同強度的噪音資料、回授干擾資料及各直接聲音資料來分別混和乾淨的語音資料，使上述四組附標籤的訓練樣本的輸入資料具有大範圍的SNR。

一訓練階段(training phase)中，利用上述第一組至第三組附標籤的訓練樣本以共同/聯合訓練TDNN 131及FD-LSTM 網路132，且各附標籤的訓練樣本被標註(labeled as)一對應的頻域補償遮罩串流(包含N個遮罩值G ₁(i)~G _N(i))；以及，利用上述第四組附標籤的訓練樣本以共同/聯合訓練TDNN 131及TD-LSTM 網路133，且各附標籤的訓練樣本被標註N個對應的音訊取樣值。在該訓練階段結束時，受訓過的TDNN 131及FD-LSTM 網路132即可處理新的且未附標籤的音訊資料，例如音訊特徵向量，來產生對應N個頻帶的N個遮罩值G ₁(i)~G _N(i)；而受訓過的TDNN 131及TD-LSTM 網路133即可處理新的且未附標籤的音訊資料，例如音訊特徵向量，來產生訊號u[n]的目前音框i的N個對應時域音訊取樣值。一實施例中，該N個遮罩值G ₁(i)~G _N(i)為對應目前頻譜代表式(F1(i)~FQ(i))內N個頻帶的N個頻帶增益值(數值範圍在Th1及Th2之間；且Th1＜Th2)。因此，任何頻帶增益值G _k(i)越接近Th1，表示存在於頻帶k中的訊號是噪音主導(noise-dominant)；反之，任何頻帶增益值G _k(i)越接近Th2，表示存在於頻帶k中的訊號是語音主導(speech-dominant)。在端對端神經網路130完成訓練後，頻帶k的SNR值越高，則頻域補償遮罩串流中的頻帶增益值G _k(i)也越大。

簡言之，時域訊號s ₁[n]~s _Q[n]進入該端對端神經網路130至該端對端神經網路130產生時域訊號u[n]的低時間延遲充分滿足ANC的要求(小於50微秒)。此外，端對端神經網路130於頻域中處理上述目前頻譜代表式F1(i)~FQ(i)，以達到抑制噪音、AFC及放大聲音的目的，故可大幅改善音訊品質。因此，本發明端對端神經網路130的架構，借助時域及頻域的音訊訊號，整合及利用跨領域的音訊特色來改善助聽器的性能。

圖4係根據本發明一實施例，顯示後處理單元150之示意圖。參考圖4，該後處理單元150包含一串列至平行轉換器(serial to parallel converter，SPC)151、一補償單元152、一逆STFT部154、一加法器155以及一乘法器156。該補償單元152包含一抑制器41及一阿爾發混和器(alpha blender)42。該SPC151用來將複數值資料串流G ₁(i)~G _N(i)轉換為N個平行的複數值資料，並同時將該N個平行的複數值資料傳送給該抑制器41。該抑制器41包含N個乘法器(圖未示)，分別將該N個遮罩值G ₁(i)~G _N(i)乘上主要頻譜代表式F1(i)的複數值資料(F _1,1(i)~F _N,1(i))，以得到N個乘積值(V ₁(i)~V _N(i))，亦即V _k(i)=G _k(i) F _k,1(i)。阿爾發混和器42包含N個平行地運作的混和單元42k，其中，1＜=k＜=N。圖5係根據本發明一實施例，顯示混和單元42k之示意圖。參考圖5，各混和單元42k包含二個乘法器501~502及一加法器503。各混和單元42k用來計算複數值資料Z _k(i)= F _k,1(i) +V _k(i) (1- )，其中，代表第k個頻帶的混和係數，用以調整噪音抑制及AFC的等級或強度。接著，逆STFT部154將頻域的複數值資料(Z ₁(i)~Z _N(i))轉換成時域音訊訊號z[n]的目前音框i的音訊資料。此外，乘法器156依序將音訊訊號u[n]的目前音框i的各取樣值乘上w，以得到音訊訊號p[n]的目前音框i的音訊資料，其中w代表調整ANC等級的權值。然後，加法器155依序相加二個訊號z[n]及p[n]的目前音框i的對應取樣點，以產生總和訊號y[n] 的目前音框i的音訊資料。接著，在DAC 161將數位音訊訊號y[n]轉換成一類比音訊訊號Y之後，放大器162放大該類比音訊訊號Y，以產生一放大訊號SA。最後，揚聲器163將該放大訊號SA轉換成一聲音壓力訊號，以播放於使用者的耳道。

上述實施例以及功能性操作可利用數位電子電路、具體化的電腦軟體或韌體、電腦硬體，包含揭露於說明書的結構及其等效結構、或者上述至少其一之組合等等，來實施。在第1-5圖揭露的運作方式與邏輯流程可利用至少一部電腦執行至少一電腦程式的方式，來執行其功能，或者可利用特殊目的邏輯電路來實施，例如：現場可程式閘陣列(FPGA)或特定應用積體電路(ASIC)等。適合執行該至少一電腦程式的電腦包含，但不限於，通用或特殊目的的微處理器，或任一型的中央處理器(CPU)。適合儲存電腦程式指令及資料的電腦可讀取的媒體包含所有形式的非揮發性記憶體、媒體及記憶體裝置，包含，但不限於，半導體記憶體裝置，例如，可抹除可規劃唯讀記憶體(EPROM)、電子可抹除可規劃唯讀記憶體(EEPROM)以及快閃(flash)記憶體裝置；磁碟，例如，內部硬碟或可移除硬碟；磁光碟(magneto-optical disk)，例如，CD-ROM或DVD-ROM。

上述僅為本發明之較佳實施例而已，而並非用以限定本發明的申請專利範圍；凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾，均應包含在下述申請專利範圍內。

11~1Q:麥克風 41:抑制器 42:阿爾發混和器 100:聽力裝置 120:前處理單元 121:類比數位轉換器 122:STFT部 123:並行至串列轉換器 130:端對端神經網路 131:時延神經網路 132:頻域長短期記憶網路 133:時域長短期記憶網路 150:後處理單元 151:串列至平行轉換器 152:補償單元 154:逆STFT部 155:加法器 156:乘法器 160:輸出電路 161:數位類比轉換器 162:放大器 163:揚聲器

圖1顯示本發明聽力裝置之一示意圖。圖2係根據本發明一實施例，顯示前處理單元120之示意圖。圖3根據本發明一實施例，顯示端對端神經網路130之示意圖。圖4係根據本發明一實施例，顯示後處理單元150之示意圖。圖5係根據本發明一實施例，顯示混和單元42k之示意圖。

100:聽力裝置

11~1Q:麥克風

120:前處理單元

130:端對端神經網路

150:後處理單元

160:輸出電路

161:數位類比轉換器

162:放大器

163:揚聲器

Claims

一種聽力裝置，包含：一主要麥克風，產生一主要音訊訊號；M個輔助麥克風，產生M個輔助音訊訊號；一轉換電路，分別將該主要音訊訊號以及該M個輔助音訊訊號的目前音框中的多數個第一取樣值轉換為一主要頻譜代表式以及M個輔助頻譜代表式；至少一處理器；至少一儲存媒體，包含多個指令供該至少一處理器來執行一組操作，包含：利用一端對端神經網路，對該些第一取樣值進行主動降噪(ANC)操作，以產生多個第二取樣值；以及利用該端對端神經網路，對該主要頻譜代表式以及該M個輔助頻譜代表式進行音訊訊號處理操作，以產生一補償遮罩；以及一後處理電路，以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式，以及，根據該些第二取樣值以及該補償後頻譜代表式，產生一輸出音訊訊號，其中M>0。
如請求項1之裝置，其中該補償遮罩包含多個頻帶增益，且各頻帶增益指出對應的頻帶是語音主導或噪音主導。
如請求項1之裝置，其中該端對端神經網路為一深度神經網路、一循環神經網路、一卷積神經網路、一時延神經網路或其組合。
如請求項1之裝置，其中該端對端神經網路包含：一時延神經網路；一第一長短期記憶網路，耦接至該時延神經網路的輸出端；以及一第二長短期記憶網路，耦接至該時延神經網路的輸出端；其中，該時延神經網路及該第一長短期記憶網路係被聯合地訓練，以根據一第一參數對該些第一取樣值進行主動降噪操作，以產生該些第二取樣值；以及其中，該時延神經網路及該第二長短期記憶網路係被聯合地訓練，以根據一第二參數對該主要頻譜代表式以及該M個輔助頻譜代表式進行該音訊訊號處理，以產生該補償遮罩。
如請求項4之裝置，其中該第一參數是一第一抑制強度；其中，若該音訊訊號處理操作包含噪音抑制以及聲學回授消除之至少其一，則該第二參數是一第二抑制強度；以及其中，若該音訊訊號處理操作包含聲音放大，則該第二參數是包含一幅值增益、與該補償後頻譜代表式有關的一時域訊號的最大輸出功率值、以及對應至該補償遮罩的一組修正增益。
如請求項1之裝置，其中該音訊訊號處理操作包含聲音放大、噪音抑制以及聲學回授消除之至少其一。
如請求項1之裝置，其中該後處理電路包含：一抑制器，分別將該主要頻譜代表式中多個第一成分乘上該補償遮罩中對應的遮罩值，以產生該補償後頻譜代表式中的多個第二成分；一逆轉換器，耦接至該抑制器的輸出端，用以將與該補償後頻譜代表式有關之一特定頻譜代表式逆轉換為多個第三取樣值；以及一加法器，該加法器的一第一輸入端耦接至該逆轉換器的輸出端，該加法器的一第二輸入端耦接至該至少一處理器，其中，該加法器依序將各第三取樣值及與該些第二取樣值相關的一對應第四取樣值相加，以產生該輸出音訊訊號的目前音框中的一對應第五取樣值。
如請求項7之裝置，其中該後處理電路更包含：一乘法器，耦接在該至少一處理器及該加法器的第二輸入端之間，用以依序將各第二取樣值及一ANC權值相乘，以產生該對應第四取樣值。
如請求項7之裝置，其中該後處理電路更包含：一混和器，耦接在該抑制器及該逆轉換器之間，根據對應至該主要頻譜代表式中多個頻帶的混和權值，混和該主要頻譜代表式中該些第一成分及該補償後頻譜代表式中對應的第二成分，以產生該特定頻譜代表式。
如請求項1之裝置，更包含：一數位類比轉換器，將該輸出音訊訊號轉換為一類比音訊訊號；以及一揚聲器，將該類比音訊訊號轉換成一聲音壓力訊號。
一種音訊處理方法，適用於一聽力裝置，該方法包含：分別將一主要音訊訊號以及M個輔助音訊訊號的目前音框中的多數個第一取樣值轉換為一主要頻譜代表式以及M個輔助頻譜代表式，其中該主要音訊訊號以及該M個輔助音訊訊號係分別來自該聽力裝置的一主要麥克風以及M個輔助麥克風；利用一端對端神經網路，對該些第一取樣值進行主動降噪(ANC)操作，以產生多個第二取樣值；利用該端對端神經網路，對該主要頻譜代表式以及該M個輔助頻譜代表式進行音訊訊號處理操作，以產生一補償遮罩；以該補償遮罩修正該主要頻譜代表式以產生一補償後頻譜代表式；以及根據該些第二取樣值以及該補償後頻譜代表式，得到一輸出音訊訊號，其中M>0。
如請求項11之方法，其中該補償遮罩包含多個頻帶增益，且各頻帶增益指出對應的頻帶是語音主導或噪音主導。
如請求項11之方法，其中該端對端神經網路為一深度神經網路、一循環神經網路、一卷積神經網路、一時延神經網路或其組合。
如請求項11之方法，其中該音訊訊號處理操作包含聲音放大、噪音抑制以及聲學回授消除之至少其一。
如請求項11之方法，其中該端對端神經網路包含一時延神經網路、一第一長短期記憶網路以及一第二長短期記憶網路；其中，該時延神經網路及該第一長短期記憶網路係被聯合地訓練，以根據一第一參數對該些第一取樣值進行主動降噪操作，以產生該些第二取樣值；以及，其中，該時延神經網路及該第二長短期記憶網路係被聯合地訓練，以根據一第二參數對該主要頻譜代表式以及該M個輔助頻譜代表式進行該音訊訊號處理，以產生該補償遮罩。
如請求項15之方法，其中該第一參數是一第一抑制強度；其中，若該音訊訊號處理操作包含噪音抑制以及聲學回授消除之至少其一，該第二參數是一第二抑制強度；以及其中，若該音訊訊號處理操作包含聲音放大，該第二參數是包含一幅值增益、與該補償後頻譜代表式有關的一時域訊號的最大輸出功率值、以及對應至該補償遮罩的一組修正增益。
如請求項11之方法，其中該得到該輸出音訊訊號步驟包含：分別將該主要頻譜代表式中多個第一成分乘上該補償遮罩中對應的遮罩值，以產生該補償後頻譜代表式中的多個第二成分；將與該補償後頻譜代表式有關之一特定頻譜代表式逆轉換為多個第三取樣值；以及依序將各第三取樣值及與該些第二取樣值相關的一對應第四取樣值相加，以產生該輸出音訊訊號的目前音框中的一對應第五取樣值。
如請求項17之方法，其中該得到該輸出音訊訊號步驟更包含：於該依序相加步驟之前及於該進行ANC操作步驟之後，依序將各第二取樣值及一ANC權值相乘，以產生該對應第四取樣值。
如請求項17之方法，其中該得到該輸出音訊訊號步驟更包含：於該逆轉換步驟之前及於該分別將該主要頻譜代表式中該些第一成分乘上該補償遮罩中對應的遮罩值步驟之後，根據對應至該主要頻譜代表式中多個頻帶的混和權值，混和該主要頻譜代表式中該些第一成分及該補償後頻譜代表式中對應的第二成分，以產生該特定頻譜代表式。
如請求項11之方法，更包含：將該輸出音訊訊號轉換為一類比音訊訊號；以及將該類比音訊訊號轉換成一聲音壓力訊號。