TW202336741A

TW202336741A - 執行聲學回聲消除的設備及方法

Info

Publication number: TW202336741A
Application number: TW111111788A
Authority: TW
Inventors: 于小汐; 黃瀚韜; 楊子昂; 楊佳興; 鄭力維
Original assignee: 新加坡商聯發科技（新加坡）私人有限公司
Priority date: 2022-03-07
Filing date: 2022-03-29
Publication date: 2023-09-16
Also published as: CN116781829A; TWI840775B; US20230282197A1; US11984110B2

Abstract

一種用於執行聲學迴聲消除的設備，可包括：揚聲器，用於在設備上輸出遠端信號；麥克風，用於至少接收近端信號和來自該揚聲器的遠端信號以產生麥克風輸出；人工智能（AI）加速器，用於根據第一神經網絡模型和第二神經網絡模型執行神經網絡（NN）操作，以輸出迴聲抑制後的信號；和數位信號處理（DSP）單元，用於：執行自適應濾波以從該麥克風輸出中去除該遠端信號的至少一部分，以產生濾波後的近端信號；和執行快速傅里葉變換（FFT）和逆向FFT（IFFT）以分別產生該第一NN模型的輸入和該第二NN 模型的輸入。

Description

執行聲學回聲消除的設備及方法

本發明的實施例涉及用於聲學迴聲（acoustic echo）消除的異構計算系統（heterogeneous computing system），其中該異構計算系統包括數位信號處理組件和人工智能（Artificial Intelligence，AI）組件。

在音頻或視頻通話中，當遠端人的語音傳輸到近端揚聲器（loudspeaker）並被近端麥克風（microphone）拾取時會出現聲學迴聲。揚聲器和麥克風之間的耦合會顯著降低語音通信的質量。減少聲學迴聲可以提高語音清晰度和質量。

現代視頻會議（teleconference）系統執行聲學迴聲消除以抑制迴聲效應。傳統的聲學迴聲消除方法通常基於自適應有限脈衝響應（Finite Impulse Response，FIR）濾波器，該濾波器實時連續適應聲學路徑。從聲學路徑信號中減去該濾波器的輸出以產生迴聲的線性部分基本被消除的信號輸出。然而，FIR 濾波器通常無法去除迴聲的非線性部分。

因此，需要可改進已有技術的聲學迴聲消除機制以產生高質量的迴聲抑制後的信號。

本發明提供執行聲學回聲消除的設備及方法，可產生高質量的迴聲抑制後的信號。

本發明提供的一種用於執行聲學迴聲消除的設備，可包括：揚聲器，用於在設備上輸出遠端信號；麥克風，用於至少接收近端信號和來自該揚聲器的遠端信號以產生麥克風輸出；人工智能（AI）加速器，用於根據第一神經網絡模型和第二神經網絡模型執行神經網絡（NN）操作，以輸出迴聲抑制後的信號；和數位信號處理（DSP）單元，用於：執行自適應濾波以從該麥克風輸出中去除該遠端信號的至少一部分，以產生濾波後的近端信號；和執行快速傅里葉變換（FFT）和逆向FFT（IFFT）以分別產生該第一NN模型的輸入和該第二NN 模型的輸入。

本發明提供的一種包括多級流水線的設備，可包括：兩個或更多個數位信號處理（DSP）級，用於執行自適應濾波、快速傅里葉變換（FFT）和逆向FFT（IFFT）；和兩個或更多個神經網絡級，用於根據第一NN模型和第二NN模型執行神經網絡操作，其中該自適應濾波從麥克風輸出中去除遠端信號的至少一部分，以產生濾波後的近端信號作為FFT的輸入，以及其中該第二NN模型接收該IFFT的輸出並產生迴聲抑制後的信號。

本發明提供的一種用於聲學迴聲消除的方法，可包括：由數位信號處理（DSP）單元執行自適應濾波，以從麥克風輸出中去除遠端信號的至少一部分，以產生濾波後的近端信號；由該DSP 單元執行快速傅里葉變換（FFT）以計算該遠端信號和該濾波後的近端信號的頻譜以產生第一神經網絡（NN）模型的輸入；由人工智能（AI）加速器根據該第一NN模型對該頻譜執行第一NN操作；由DSP單元對該第一NN模型的輸出執行逆向FFT（IFFT）以產生時域信號作為該第二NN模型的輸入；和由該AI加速器根據該第二NN模型進行第二NN操作，以輸出迴聲抑制後的信號。

由上可知，本發明的聲學迴聲消除方案包括自適應濾波、快速傅里葉變換（FFT）、逆向FFT（IFFT）以及神經網絡操作，由此可產生高質量的迴聲抑制後的信號。

在說明書及申請專利範圍當中使用了某些詞彙來指稱特定的元件。所屬技術領域具有通常知識者應可理解，硬體製造商可能會用不同的名詞來稱呼同一個元件。本說明書及申請專利範圍並不以名稱的差異來作為區分元件的方式，而是以元件在功能上的差異來作為區分的準則。在通篇說明書及申請專利範圍當中所提及的“包含”及“包括”為一開放式的用語，故應解釋成“包含但不限定於”。“大體上”或“大約”是指在可接受的誤差範圍內，所屬技術領域具有通常知識者能夠在一定誤差範圍內解決所述技術問題，基本達到所述技術效果。此外，“耦接”或“耦合”一詞在此包含任何直接及間接的電性連接手段。因此，若文中描述一第一裝置耦接在一第二裝置，則代表該第一裝置可直接電性連接於該第二裝置，或通過其它裝置或連接手段間接地電性連接至該第二裝置。以下所述為實施本發明的較佳方式，目的在於說明本發明的精神而非用以限定本發明的保護範圍，本發明的保護範圍當視之後附的申請專利範圍所界定者為准。

接下面的描述為本發明預期的最優實施例。這些描述用於闡述本發明的大致原則而不應用於限制本發明。本發明的保護範圍應在參考本發明的申請專利範圍的基礎上進行認定。

本發明的實施例提供了一種異構計算系統來執行混合（hybrid）聲學迴聲消除（Acoustic Echo Cancellation，AEC）操作。該異構計算系統包括數位信號處理（Digital Signal Processing，DSP）電路和神經網絡電路。DSP電路和神經網絡電路可以形成多級流水線（multi-stage pipeline）以有效地執行混合AEC操作。混合 AEC 操作包括DSP操作和神經網絡操作。DSP 操作可能包括自適應濾波、快速傅里葉變換（Fast Fourier Transform，FFT）、逆向FFT（IFFT）等。神經網絡操作可能包括卷積、長短期記憶（Long Short-Term Memory，LSTM）網絡、全連接（fully-connected）層、sigmoid 激活和層歸一化（layer normalization）等。本文公開的異構計算架構不僅提高了AEC操作的實時計算效率，而且提高了全雙工語音通信系統的語音質量。

圖1圖示了根據一個實施例的可操作以執行混合AEC操作的系統100。系統100包括DSP單元110和人工智能（AI）加速器120。DSP單元110還可以包括類比數位轉換器（Analog-to-Digital Converter，ADC）111、數位類比轉換器（Digital-to-Analog Converter，DAC）112、DSP記憶體113和DSP電路115。DSP單元110用於執行數位處理操作，例如自適應濾波、FFT、IFFT等。AI加速器120還可以包括神經網絡（Neural Network，NN）電路125和NN記憶體123。NN電路125用於執行神經網絡操作，例如卷積、LSTM網絡、全連接層、sigmoid激活和層歸一化等。DSP電路115和NN電路125可以是可編程電路和/或固定功能電路。系統100可以是計算機、智能手機、音頻系統、多媒體系統、視頻會議系統或提供雙向語音通信的任何設備或系統的一部分。

在一個實施例中，系統100包括主機130，其可以是控制器電路、處理器（例如，中央處理單元（CPU）、圖形處理單元（GPU）等）等，以指示DSP單元110和AI加速器120執行混合AEC操作。系統100還包括用於接收聲音信號的麥克風140和用於產生聲音信號的揚聲器150（也稱為喇叭）。系統100還包括系統記憶體160；例如動態隨機存取記憶體（DRAM），用於存儲第一NN模型161、第二NN模型162、輸入/輸出（I/O）緩衝區163及其他信息。第一NN模型161和第二NN模型162已經被訓練為包括用於進行迴聲消除的權重和參數。該訓練可以在系統100中執行或將訓練的模型161和162下載到系統100的服務器計算機上執行。I/O緩衝區163可以被DSP單元110和/或AI加速器120用來存儲中間（intermediate）結果。

圖2圖示了根據一個實施例的由系統100執行的混合AEC操作。麥克風輸出d(n)包括遠端信號f(n)的迴聲z(n)、近端信號x(n)和背景噪聲v(n)，可以表示為： d(n) = z(n) + x(n) + v(n) （1）

自適應濾波器210可以表示為應用於遠端信號f(n)的濾波器響應函數h(n)。自適應濾波器210可以是最小均方（Least Mean Squares，LMS）濾波器、歸一化LMS濾波器、自適應卡爾曼濾波器或任何其他自適應濾波器。濾波器輸出 z’(n)可以表示為： z’(n) = h(n) * f(n) （2）其中 * 表示卷積操作。

濾波後的近端信號y(n)通過從麥克風輸出d(n)中減去濾波器輸出 z’(n)來計算： y(n) = d(n) − z’(n) （3）

因此，自適應濾波器210從麥克風輸出d(n)中去除遠端信號f(n)的至少一部分以產生濾波後的近端信號y(n)。遠端信號f(n)和濾波後的近端信號y(n)是後續操作的輸入信號，後續操作包括：FFT 220、根據第一NN模型161的操作、IFFT 240以及根據第二NN模型162的操作。FFT 220和第二NN模型162都接收遠端信號f(n)作為輸入。輸出信號 Xout(n) 是迴聲抑制後的信號。

在一個實施例中，DSP單元110執行自適應濾波器210、FFT 220和IFFT 240。AI加速器120用於根據第一NN模型161和第二NN模型162執行NN操作。DSP單元110和AI加速器120可以包括可以加速這些操作的執行的專用電路和/或指令集架構。

圖3是圖示根據一個實施例的第一NN模型161和第二NN模型162的圖。第一NN模型161和第二NN模型162一起形成雙信號變換長短期記憶（LSTM）網絡（DTLN）。

第一NN模型161包括第一核心網絡330，其進一步包括兩個LSTM層、全連接（FC）層和sigmoid激活。第一核心網絡330接收兩個輸入信號的歸一化和級聯（concatenated）頻譜，其中輸入信號是濾波後的近端信號y(n)和遠端信號f(n)。

每個輸入信號的頻譜通過短時傅里葉變換（Short-Time Fourier Transformation，STFT）計算，該頻譜包括輸入信號的分段（segmentation），隨後執行FFT。在 FFT 之後，每個輸入信號通過即時層歸一化（instant Layer Normalization，iLN）單獨歸一化，並將 iLN 的輸出級聯起來。

第一核心網絡330預測時頻掩碼，該時頻掩碼與濾波後的近端信號y(n)的STFT的非歸一化幅度相乘。第一神經網絡模型161的輸出通過 IFFT 變換回時域信號 y'(n)。

第二NN模型162包括第二核心網絡350，其進一步包括兩個LSTM層、全連接（FC）層和sigmoid激活。第二NN模型162接收分段的（segmented）遠端信號f(n)和時域信號y'(n)，並使用各自的一維卷積層（1D convolution layer）創建兩個信號的學習特徵表示。在相應的 1D 卷積層中應用相同的權重，但使用 iLN 的歸一化是單獨執行的，以便為每個特徵表示啟用單獨的縮放（scale）和偏移（bias）。第二核心網絡350接收歸一化和級聯特徵表示並產生預測掩碼。第二核心網絡 350 的預測掩碼與1D 卷積之後的未歸一化特徵表示 y'(n) 相乘。乘法輸出通過一維卷積轉換回時域。為了重構連續時間信號，可以使用重疊相加（overlap-add）過程。

圖4是圖示根據一個實施例的用於混合聲學迴聲消除的方法400的流程圖。方法400可由系統執行，例如圖1中的系統100、圖5中的系統5、或具有DSP和AI處理能力的任何系統。

在步驟410，系統中的DSP單元執行自適應濾波以從麥克風輸出中去除遠端信號的至少一部分，從而產生濾波後的近端信號。在步驟420，DSP單元執行FFT以計算遠端信號和濾波後的近端信號的頻譜，以產生用於第一神經網絡（NN）模型的輸入。在步驟430，系統中的AI加速器根據第一NN模型對頻譜執行第一神經網絡操作。在步驟440，DSP單元對第一NN模型的輸出執行IFFT以產生時域信號作為第二NN模型的輸入。在步驟450，AI加速器根據第二NN模型執行第二NN操作以產生迴聲抑制後的信號。

在一個實施例中，根據第一NN模型對與濾波後的近端信號的歸一化頻譜級聯的遠端信號的歸一化頻譜執行第一NN操作。根據第二NN模型對分段的遠端信號和IFFT的輸出執行第二NN操作。在一個實施例中，自適應濾波、FFT、第一NN模型、IFFT、第二NN模型在多級流水線中執行。在一個實施例中，FFT是短時傅里葉變換（STFT）。

圖5是根據一個實施例的AEC流水線500的示意圖。AEC流水線500可以是圖1中系統100的一部分。AEC流水線500包括五級。級1是自適應濾波級，級2是FFT級，級3是第一NN模型級，級4是IFFT級，級5是第二NN模型級。級 1、2 和 4 是DSP級，級 3 和 5 是NN級。AEC流水線500包括用於每個流水線級的硬件電路，使得所有的流水線級可以並行（parallel）執行。

在另一個實施例中，一些級可以合併為一個級，或者一些級可以分成多個級。例如，AEC 流水線可以包括兩個或更多個數位信號處理級以執行自適應濾波、FFT 和 IFFT；兩個或更多個神經網絡級，用於根據第一神經網絡模型和第二神經網絡模型執行神經網絡操作。自適應濾波從麥克風輸出中去除遠端信號的至少一部分，以產生濾波後的近端信號作為FFT的輸入。 FFT 計算遠端信號和濾波後的近端信號的頻譜，以產生第一NN 模型的輸入。第一NN 模型對與濾波後的近端信號的歸一化頻譜級聯的遠端信號的歸一化頻譜進行操作。 IFFT 對第一NN 模型的輸出進行操作以產生時域信號作為第二NN 模型的輸入。第二NN 模型對分段的遠端信號和 IFFT 的輸出進行操作，以產生迴聲抑制後的信號。

本文已經描述了各種功能組件、單元或塊。如所屬技術領域具有通常知識者將理解的，功能塊將優選地通過電路（專用電路或通用電路，其在一個或複數個處理器和編碼指令的控制下操作）實現，其通常包括電晶體，這些電晶體被配置為根據這裡描述的功能和操作來控制電路的操作。

已經參照圖 1 和 5 的示例性實施例描述了圖 4 的流程圖的操作。然而，應該理解的是，圖 4 的流程圖的操作可以由除了參考圖1和5討論的那些實施例之外的實施例來執行。參考圖1和5討論的實施例可以執行與參考流程圖討論的那些不同的操作。雖然圖4的流程圖示出了由本發明的某些實施例執行的操作的特定順序，但是應該理解這種順序是示例性的（例如，替代實施例可以以不同的順序執行操作、組合某些操作、重疊某些操作等）。

本發明雖以較佳實施例揭露如上，然其並非用以限定本發明的範圍，任何所屬技術領域具有通常知識者，在不脫離本發明的精神和範圍內，當可做些許的更動與潤飾，因此本發明的保護範圍當視申請專利範圍所界定者為准。

100:系統 130:主機 110:數位信號處理單元 111:類比數位轉換器 112:數位類比轉換器 113:DSP記憶體 115:DSP電路 120:AI加速器 125:神經網絡電路 123:神經網絡記憶體 140:麥克風 150:揚聲器 160:系統記憶體 161,162:神經網絡模型 163:輸入/輸出緩衝區 240:逆向快速傅里葉變換 220:快速傅里葉變換 210:自適應濾波器 330,350:核心網絡 400:方法 410,420,430,440,450:步驟 500:AEC流水線

圖1圖示了根據一個實施例可操作以執行混合聲學迴聲消除（AEC）的系統。圖2圖示了根據一個實施例的混合AEC操作。圖3是圖示根據一個實施例的兩個神經網絡模型的圖。圖4是圖示根據一個實施例的用於混合AEC的方法的流程圖。圖5是根據一個實施例的AEC流水線的示意圖。

100:系統

130:主機

110:數位信號處理單元

111:類比數位轉換器

112:數位類比轉換器

113:DSP記憶體

115:DSP電路

120:AI加速器

125:神經網絡電路

123:神經網絡記憶體

140:麥克風

150:揚聲器

160:系統記憶體

161,162:神經網絡模型

163:輸入/輸出緩衝區

Claims

一種用於執行聲學迴聲消除的設備，包括：揚聲器，用於在設備上輸出遠端信號；麥克風，用於至少接收近端信號和來自該揚聲器的遠端信號以產生麥克風輸出；人工智能加速器，用於根據第一神經網絡模型和第二神經網絡模型執行神經網絡操作，以輸出迴聲抑制後的信號；和數位信號處理單元，用於：執行自適應濾波以從該麥克風輸出中去除該遠端信號的至少一部分，以產生濾波後的近端信號；和執行快速傅里葉變換和逆向快速傅里葉變換以分別產生該第一神經網絡模型的輸入和該第二神經網絡模型的輸入。
根據請求項1所述的設備，其中在執行該快速傅里葉變換時該數位信號處理單元進一步用於：計算該遠端信號和該濾波後的近端信號的頻譜，以產生該第一神經網絡模型的輸入。
根據請求項1所述的設備，其中在執行該逆向快速傅里葉變換時該數位信號處理單元進一步用於：對該第一神經網絡模型的輸出執行逆向快速傅里葉變換，以產生時域信號作為該第二神經網絡模型的輸入。
根據請求項1所述的設備，該數位信號處理單元和該人工智能加速器形成流水線，該流水線包括：兩個或更多個數位信號處理級，由該數位信號處理單元執行該自適應濾波、該快速傅里葉變換和該逆向快速傅里葉變換；和兩個或更多個神經網絡級，由該人工智能加速器根據該第一神經網絡模型和該第二神經網絡模型執行神經網絡操作。
根據請求項1所述的設備，其中該數位信號處理單元和該人工智能加速器形成5級流水線，該5級流水線包括：第一數位信號處理電路，為該數位信號處理單元的第一部分，用於執行該自適應濾波；第二數位信號處理電路，為該數位信號處理單元的第二部分，用於執行該快速傅里葉變換；第一神經網絡電路，為該人工智能加速器的第一部分，用於根據該第一神經網絡模型操作；第三數位信號處理電路，為該數位信號處理單元的第三部分，用於執行該逆向快速傅里葉變換；和第二神經網絡電路，為該人工智能加速器的第二部分，用於根據該第二神經網絡模型操作。
根據請求項1所述的設備，其中該遠端信號被輸入到該快速傅里葉變換和該第二神經網絡模型。
根據請求項1所述的設備，其中該人工智能加速器用於根據該第一神經網絡模型對與該濾波後的近端信號的歸一化頻譜相級聯的該遠端信號的歸一化頻譜執行操作。
根據請求項1所述的設備，其中該人工智能加速器用於根據該第二神經網絡模型對分段的遠端信號和該逆向快速傅里葉變換的輸出執行操作。
根據請求項1所述的設備，其中該快速傅里葉變換是短時傅里葉變換。
根據請求項1所述的設備，其中該第一神經網絡模型和該第二神經網絡模型均包括兩層長短期記憶、全連接層和sigmoid激活。
一種包括多級流水線的設備，包括：兩個或更多個數位信號處理級，用於執行自適應濾波、快速傅里葉變換和逆向快速傅里葉變換；和兩個或更多個神經網絡級，用於根據第一神經網絡模型和第二神經網絡模型執行神經網絡操作，其中該自適應濾波從麥克風輸出中去除遠端信號的至少一部分，以產生濾波後的近端信號作為快速傅里葉變換的輸入，以及其中該第二神經網絡模型接收該逆向快速傅里葉變換的輸出並產生迴聲抑制後的信號。
根據請求項11所述的設備，其中該多級流水線包括：第一數位信號處理電路，用於執行該自適應濾波；第二數位信號處理電路，用於執行該快速傅里葉變換以計算該遠端信號和該濾波後的近端信號的頻譜，以產生該第一神經網絡模型的輸入；第一神經網絡電路，用於根據該第一神經網絡模型對該頻譜執行操作；第三數位信號處理電路，用於對該第一神經網絡模型的輸出執行逆向快速傅里葉變換以產生時域信號作為該第二神經網絡模型的輸入；和第二神經網絡電路，用於根據該第二神經網絡模型操作。
根據請求項11所述的設備，其中該神經網絡級中的一個用於根據該第一神經網絡模型對與該濾波後的近端信號的歸一化頻譜級聯的該遠端信號的歸一化頻譜進行操作。
根據請求項11所述的設備，其中該神經網絡級中的一個用於根據該第二神經網絡模型對分段的遠端信號和該逆向快速傅里葉變換的輸出執行操作。
根據請求項11所述的設備，其中該快速傅里葉變換是短時傅里葉變換。
根據請求項11所述的設備，其中該第一神經網絡模型和該第二神經網絡模型均包括兩層長短期記憶、全連接層和sigmoid激活。
一種用於聲學迴聲消除的方法，包括：由數位信號處理單元執行自適應濾波，以從麥克風輸出中去除遠端信號的至少一部分，以產生濾波後的近端信號；由該數位信號處理單元執行快速傅里葉變換以計算該遠端信號和該濾波後的近端信號的頻譜以產生第一神經網絡模型的輸入；由人工智能加速器根據該第一神經網絡模型對該頻譜執行第一神經網絡操作；由數位信號處理單元對該第一神經網絡模型的輸出執行逆向快速傅里葉變換以產生時域信號作為該第二神經網絡模型的輸入；和由該人工智能加速器根據該第二神經網絡模型進行第二神經網絡操作，以輸出迴聲抑制後的信號。
根據請求項17所述的方法，其中執行該第一神經網絡操作進一步包括：根據該第一神經網絡模型對與該濾波後的近端信號的歸一化頻譜級聯的該遠端信號的歸一化頻譜進行第一神經網絡操作。
根據請求項17所述的方法，其中執行該第二神經網絡操作進一步包括：根據該第二神經網絡模型對分段的遠端信號和該逆向快速傅里葉變換的輸出執行第二神經網絡操作。
根據請求項17所述的方法，其中該自適應濾波、該快速傅里葉變換、該第一神經網絡模型、該逆向快速傅里葉變換、該第二神經網絡模型在多級流水線中執行。