TWI790718B

TWI790718B - 會議終端及用於會議的回音消除方法

Info

Publication number: TWI790718B
Application number: TW110130678A
Authority: TW
Inventors: 杜博仁; 張嘉仁; 曾凱盟
Original assignee: 宏碁股份有限公司
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2023-01-21
Also published as: US20230058981A1; TW202309878A; US11804237B2

Abstract

本發明實施例提供一種會議終端及用於會議的回音消除方法。在方法中，接收合成語音訊號。這合成語音訊號包括那些會議終端中的第一會議終端對應的發話者的使用者語音訊號、以及第一會議終端對應的聲音浮水印訊號。偵測收音訊號中聲音浮水印訊號所對應的一個或更多個延遲時間。這收音訊號是透過那些會議終端中的第二會議終端的收音器所錄製。依據延遲時間消除收音訊號中的回音。藉此，可減少回音消除的收斂時間。

Description

會議終端及用於會議的回音消除方法

本發明是有關於一種語音會議，且特別是有關於一種會議終端及用於會議的回音消除方法。

遠端會議可讓不同位置或空間中的人進行對話，且會議相關設備、協定及/或應用程式也發展相當成熟。值得注意的是，在實際情況中，可能有多人各自使用自己的通話裝置處於同一空間中參與電話或視訊會議。當這些通話裝置共同通話時，裝置上的麥克風會收到許多其他裝置的喇叭所播出聲音，形成許多不穩定的迴授機制，更造成明顯的囂叫聲，進而影響通話會議的進行。雖然現今已有消除回音(echo cancellation)的相關演算法，但實際情況中的通話裝置彼此間的位置可能會改變，進而影響消除回音的延遲時間。此外，通話的語音訊號不斷地變化，在電話會議中消除回音將難以立即達到收斂效果。

有鑑於此，本發明實施例提供一種會議終端及用於會議的回音消除方法，利用浮水印訊號加快收斂速度。

本發明實施例的用於會議的回音消除方法適用於多台會議終端，且各會議終端包括收音器及揚聲器。回音消除方法包括(但不僅限於)下列步驟：接收合成語音訊號。這合成語音訊號包括那些會議終端中的第一會議終端對應的發話者的使用者語音訊號、以及第一會議終端對應的聲音浮水印訊號。偵測收音訊號中聲音浮水印訊號所對應的一個或更多個延遲時間。這收音訊號是透過那些會議終端中的第二會議終端的收音器所錄製。依據延遲時間消除收音訊號中的回音。

本發明實施例的會議終端包括(但不僅限於)收音器、揚聲器、通訊收發器及處理器。收音器用以收音以取得輸入聲音訊號。揚聲器用以播放聲音。通訊收發器用以傳送或接收資料。處理器耦接收音器、揚聲器及通訊收發器。處理器經配置用以接收合成語音訊號，偵測收音訊號中聲音浮水印訊號所對應的一個或更多個延遲時間，並依據延遲時間消除收音訊號中的回音。這合成語音訊號包括那些會議終端中的第一會議終端對應的發話者的使用者語音訊號、以及第一會議終端對應的聲音浮水印訊號。這收音訊號是透過那些會議終端中的第二會議終端所錄製。

基於上述，依據本發明實施例的會議終端及用於會議的回音消除方法，使用已知且固定的聲音浮水印訊號來進行回音消除，並藉以降低回音消除所需的收斂時間。此外，聲音浮水印訊號可能不會被使用者聽到，並使會議能順利進行。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的會議系統1的示意圖。請參照圖1，會議系統1包括(但不僅限於)多台會議終端10a,10c、多台本地訊號管理裝置30及分配伺服器50。

各會議終端10a,10c可以是有線電話、行動電話、平板電腦、桌上型電腦、筆記型電腦或智慧型喇叭。各會議終端10a,10c包括(但不僅限於)收音器11、揚聲器13、通訊收發器15、記憶體17及處理器19。

收音器11可以是動圈式(dynamic)、電容式(Condenser)、或駐極體電容(Electret Condenser)等類型的麥克風，收音器11也可以是其他可接收聲波(例如，人聲、環境聲、機器運作聲等)而轉換為聲音訊號的電子元件、類比至數位轉換器、濾波器、及音訊處理器之組合。在一實施例中，收音器11用以對發話者收音/錄音，以取得收音訊號。這收音訊號可能包括發話者的聲音、揚聲器13所發出的聲音及/或其他環境音。

揚聲器13可以是喇叭或擴音器。在一實施例中，揚聲器13用以播放聲音。

通訊收發器15例如是支援乙太網路(Ethernet)、光纖網路、或電纜等有線網路的收發器(其可能包括(但不僅限於)連接介面、訊號轉換器、通訊協定處理晶片等元件)，也可能是支援Wi-Fi、第四代(4G)、第五代(5G)或更後世代行動網路等無線網路的收發器(其可能包括(但不僅限於)天線、數位至類比/類比至數位轉換器、通訊協定處理晶片等元件)。在一實施例中，通訊收發器15用以傳送或接收資料。

記憶體17可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件。在一實施例中，記憶體17用以記錄程式碼、軟體模組、組態配置、資料(例如，聲音訊號、或延遲時間等)或檔案。

處理器19耦接收音器11、揚聲器13、通訊收發器15及記憶體17。處理器19可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)或其他類似元件或上述元件的組合。在一實施例中，處理器19用以執行所屬會議終端10a, 10c的所有或部份作業，且可載入並執行記憶體17所記錄的各軟體模組、檔案及資料。

本地訊號管理裝置30分別經由網路連接會議終端10a, 10c。本地訊號管理裝置30可以是電腦系統、伺服器或訊號處理裝置。在一實施例中，會議終端10a, 10c可作為本地訊號管理裝置30。在另一實施例中，本地訊號管理裝置30可作為不同於會議終端10a, 10c的獨立中繼裝置。在一些實施例中，本地訊號管理裝置30包括(但不僅限於)相同或相似的通訊收發器15、記憶體17及處理器19，且元件的實施態樣及功能將不再贅述。

此外，在一實施例中，假設連接相同本地訊號管理裝置30的會議終端處於相同區域(例如，特定空間、範圍、隔間或樓層)。而圖1中的會議終端10a, 10c分處於不同區域。然而，任一台本地訊號管理裝置30所連接的會議終端的數量不限於一台。

分配伺服器50經由網路連接本地訊號管理裝置30。分配伺服器50可以是電腦系統、伺服器或訊號處理裝置。在一實施例中，會議終端10a, 10c或本地訊號管理裝置30可作為分配伺服器50。在另一實施例中，分配伺服器50可作為不同於會議終端10a, 10c或本地訊號管理裝置30的獨立雲端伺服器。在一些實施例中，分配伺服器50包括(但不僅限於)相同或相似的通訊收發器15、記憶體17及處理器19，且元件的實施態樣及功能將不再贅述。

下文中，將搭配會議系統1中的各項裝置、元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

另需說明的是，為了方便說明，相同元件可實現相同或相似的操作，且將不再贅述。例如，由於會議終端10a, 10c可作為本地訊號管理裝置30或分配伺服器50，且本地訊號管理裝置30也可作為分配伺服器50，因此在一些實施例中會議終端10a, 10c、本地訊號管理裝置30及分配伺服器50的處理器19皆可實現本發明實施例相同或相似的方法。

圖2是依據本發明一實施例的用於會議的回音消除方法的流程圖。請參照圖1及圖2，假設會議終端10a, 10c建立通話會議。例如，透過視訊軟體、語音通話軟體或撥打電話等方式建立會議，發話者即可開始說話。會議終端10a的處理器19可透過通訊收發器15接收合成語音訊號C ^W(步驟S210)。具體而言，這合成語音訊號C ^W包括會議終端10c對應的發話者的使用者語音訊號C’、以及會議終端10c對應的聲音浮水印訊號M ^C。

舉例而言，圖3是依據本發明一實施例說明合成語音訊號C ^W之產生的示意圖。請參照圖3，使用者語音訊號C’是會議終端10c透過其收音器11錄製所產生。使用者語音訊號C’可能包括發話者的聲音、揚聲器13所播放的聲音及/或其他環境聲音。分配伺服器50可在時域透過展頻(Spread spectrum)、回音隱藏(Echo hiding)、相位編碼(Phase encoding)等方式在會議終端10a對應的發話者的使用者語音訊號C’中加入聲音浮水印訊號M ^C，以形成合成語音訊號C ^W。或者，分配伺服器50可在頻域透過調變載波(Modulated carries)、扣除頻帶(Subtracting frequency bands)等方式在會議終端10a對應的發話者的使用者語音訊號C’中加入聲音浮水印訊號M ^C，以形成合成語音訊號C ^W。須說明的是，本發明實施例不加以限制浮水印嵌入的演算法。

在一實施例中，聲音浮水印訊號M ^C的頻率高於16千赫茲(kHz)，從而避免人類聽到。在另一實施例中，聲音浮水印訊號M ^C的頻率也可能低於16 kHz。

在一實施例中，聲音浮水印訊號M ^C用於識別會議終端10c。例如，聲音浮水印訊號M ^C為記錄會議終端10c的識別碼的聲音、圖片或編碼。然而，在一些實施例中，本發明不加以限制聲音浮水印訊號M ^C的內容。此外，聲音浮水印訊號M ^A及合成語音訊號A ^W甚至是其他會議裝置的聲音浮水印訊號及合成語音訊號之產生可參酌前述說明，且於此不再贅述。

分配伺服器50將合成語音訊號C ^W傳送給本地訊號管理裝置30。本地訊號管理裝置30將合成語音訊號C ^W作為預期會議終端10a播放的輸出聲音訊號A”，並據以傳送給會議終端10a，使會議終端10a接收到合成語音訊號C ^W。

會議終端10a的處理器19可透過揚聲器13播放輸出聲音訊號A”(在本實施例為合成語音訊號C ^W)。另一方面，會議終端10a的處理器19可透過收音器11錄音/收音/錄製以取得的收音訊號A。

會議終端10a的處理器19可偵測收音訊號A中聲音浮水印訊號M ^C所對應的一個或更多個延遲時間(步驟S230)。具體而言，假設會議終端10a已知其他會議終端(例如，會議終端10c)對應的聲音浮水印訊號。值得注意的是，會議終端10a的處理器19可依據所屬區域中的所有或部分會議終端(例如，本實施例是會議終端10a)自身的揚聲器13所播放的輸出聲音訊號A”消除自身收音器11所收到的收音訊號A中的回音。

而輸出聲音訊號A”包括合成語音訊號C ^W。在一實施例中，若欲偵測收音器訊號A中的合成語音訊號C ^W對應的延遲時間，則會議終端10a的處理器19可依據收音訊號A與聲音浮水印訊號M ^C之間的相關性決定初始延遲時間τ ₁ ^CA, τ ₂ ^CA(假設對應到兩個時間，但不以此為限)。這些初始延遲時間τ ₁ ^CA, τ ₂ ^CA為相關性越高者所對應的時間。例如，處理器19可依據收音訊號A與聲音浮水印訊號M ^C的交叉相關(cross-correlation)中的峰值(即，相關性最高者)估測聲音浮水印訊號M ^C經揚聲器13傳遞至收音器11的初始延遲時間。由於峰值可能不指一個，因此初始延遲時間τ ₁ ^CA, τ ₂ ^CA的數量可能超過一個。須說明的是，估測延遲時間的演算法還有很多種，且本發明實施例不加以限制。

在一實施例中，處理器19可依據那些初始延遲時間τ ₁ ^CA, τ ₂ ^CA產生對應於使用者語音訊號C’的一個或更多個初始延遲訊號C ^W( n-τ ₁ ^CA ), C ^W( n-τ ₂ ^CA )。這些初始延遲訊號C ^W( n-τ ₁ ^CA ), C ^W( n-τ ₂ ^CA )相對於使用者語音訊號C’的延遲時間為初始延遲時間τ ₁ ^CA, τ ₂ ^CA。值得注意的是，在時變系統下，整個傳遞系統的延遲時間將跟隨空間的變化而有所不同。因此，處理器19可將合成語音訊號C ^W或聲音浮水印訊號M ^C的延遲時間定義成未知的延遲時間 Δt ^C 。收音訊號A即包括發話者的聲音訊號a( n)及屬於會議終端10c的合成語音訊號C ^W( n-Δt ^C )。而回音消除的目的即是找出正確的延遲時間 Δt ^C ，並據以將多餘的聲音(例如，合成語音訊號C ^W( n-Δt ^C ))消除，讓使用者語音訊號A’僅留下發話者的聲音訊號a( n)。

處理器19可依據初始延遲訊號C ^W( n-τ ₁ ^CA ), C ^W( n-τ ₂ ^CA )估測回音路徑。具體而言，聲音浮水印訊號M ^C經這回音路徑後延遲那經收斂的延遲時間，且回音路徑是收音器11及揚聲器13之間的通道。處理器19可將初始延遲訊號C ^W( n-τ ₁ ^CA ), C ^W( n-τ ₂ ^CA )帶入各類型自適性濾波器(例如，最小均方誤差(Least Mean Square，LMS)、次帶自適性濾波器(Sub-band Adaptive Filter，SAF)或正規化最小均方誤差(Normalized Least Mean Square，NLMS))，並據以估測回音路徑的脈衝響應且使濾波器收斂。當濾波器收斂至穩態時，處理器19使用穩態下的濾波器係數來估測經回音路徑延遲的合成語音訊號C ^W( n-Δt ^C )，並據以得出延遲時間 Δt ^C 。

會議終端10a的處理器19可依據延遲時間 Δt ^C 消除收音訊號A中的回音(步驟S250)。具體而言，假設收音訊號A中的回音是合成語音訊號C ^W( n-Δt ^C )。由於合成語音訊號C ^W及 Δt ^C 皆已知，因此處理器19可產生合成語音訊號C ^W( n-Δt ^C )，並對收音訊號A消除合成語音訊號C ^W( n-Δt ^C )，即達成回音消除。

須說明的是，本發明實施例不限於圖1所示的一對一的會議。以下再舉一實施例說明：

圖4是依據本發明一實施例的會議系統1’的示意圖。請參照圖4，會議系統1’包括(但不僅限於)多台會議終端10a~10e、多台本地訊號管理裝置30及分配伺服器50。

會議終端10b, 10c, 10d, 10e、本地訊號管理裝置30及分配伺服器50的實施態樣及其功能可分別參酌圖1~圖3針對前述會議終端10a、本地訊號管理裝置30及分配伺服器50的說明，於此不再贅述。

在本實施例中，依據不同本地訊號管理裝置30來分區，會議終端10a,10b在第一區域，會議終端10c在第二區域，且會議終端10d, 10e在第三區域。分配伺服器50可分別在會議終端10a~10e對應的發話者的使用者語音訊號A’~E’中加入聲音浮水印訊號M ^A~M ^E，以形成合成語音訊號A ^W~E ^W。分配伺服器50將來自第二區域及第三區域的合成語音訊號C ^W~E ^W傳送給第一區域的本地訊號管理裝置30，將來自第一區域及第三區域的合成語音訊號A ^W, B ^W, D ^W, E ^W傳送給第二區域的本地訊號管理裝置30，並將來自第一區域及第二區域的合成語音訊號A ^W~C ^W傳送給第三區域的本地訊號管理裝置30。

值得注意的是，與圖1不同之處在於，圖4的會議終端10a的輸出聲音訊號A”可包括合成語音訊號C ^W~E ^W。因此，除了聲音浮水印訊號M ^C，會議終端10a的處理器19進一步偵測收音訊號A中聲音浮水印訊號M ^D, M ^E所對應的一個或更多個延遲時間。

具體而言，圖5是依據本發明一實施例的用於會議的回音消除方法的流程圖。請參照圖5，會議終端10a的處理器19取得聲音浮水印訊號M ^C~M ^E(步驟S510)。這些聲音浮水印訊號M ^C~M ^E可能已事先儲存、經使用者輸入或自網路下載。處理器19偵測聲音浮水印訊號M ^C~M ^E在收音器11所錄製的收音訊號A中的初始延遲時間τ ₁ ^CA, τ ₂ ^CA, τ ₁ ^DA, τ ₂ ^DA, τ ₁ ^EA, τ ₂ ^EA(步驟S530)(假設各聲音浮水印訊號分別對應到兩個延遲時間)。處理器19依據這些初始延遲時間τ ₁ ^CA, τ ₂ ^CA, τ ₁ ^DA, τ ₂ ^DA, τ ₁ ^EA, τ ₂ ^EA決定聲音浮水印訊號M ^C~M ^E的初始延遲訊號C ^W( n-τ ₁ ^CA), C ^W( n-τ ₂ ^CA), D ^W( n-τ ₁ ^DA), D ^W( n-τ ₂ ^DA), E ^W( n-τ ₁ ^EA), E ^W( n-τ ₂ ^EA)(步驟S550)。處理器19自收音訊號A中分別消除初始延遲訊號C ^W( n-τ ₁ ^CA), C ^W( n-τ ₂ ^CA), D ^W( n-τ ₁ ^DA), D ^W( n-τ ₂ ^DA), E ^W( n-τ ₁ ^EA), E ^W( n-τ ₂ ^EA)，以加快回音消除的收斂時間，進而消除收音訊號A中屬於合成語音訊號C ^W~E ^W的成分(步驟S570)。

綜上所述，在本發明實施例的會議裝置及用於會議的回音消除方法中，利用已知的聲音浮水印訊號估計所欲消除合成語音訊號的延遲時間，並據以消除這些其他會議裝置的合成語音訊號。其中，本發明實施例先得出聲音浮水印訊號對應的初始延遲時間，可減少回音消除的收斂時間。即便會議裝置之間的位置關係不斷地變動，仍可達到預期的收斂效果。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

1、1’:會議系統

10a~10e:會議終端

30:本地訊號管理裝置

50:分配伺服器

11:收音器

13:揚聲器

15:通訊收發器

17:記憶體

19:處理器

A~E:收音訊號

A’~E’:使用者語音訊號

A”~E”:輸出聲音訊號

M ^A~M ^E:聲音浮水印訊號

A ^W~ E ^W:合成語音訊號

τ ₁ ^CA、τ ₂ ^CA、τ ₁ ^DA、τ ₂ ^DA、τ ₁ ^EA、τ ₂ ^EA:初始延遲時間

C ^W( n-τ ₁ ^CA)、C ^W( n-τ ₂ ^CA)、D ^W( n-τ ₁ ^DA)、D ^W( n-τ ₂ ^DA)、E ^W( n-τ ₁ ^EA)、E ^W( n-τ ₂ ^EA):初始延遲訊號

S210~S250、S510~S570:步驟

圖1是依據本發明一實施例的會議系統的示意圖。圖2是依據本發明一實施例的用於會議的回音消除方法的流程圖。圖3是依據本發明一實施例說明合成語音訊號之產生的示意圖。圖4是依據本發明一實施例的會議系統的示意圖。圖5是依據本發明一實施例的用於會議的回音消除方法的流程圖。

S210~S250:步驟

Claims

一種用於會議的回音消除方法，適用於多個會議終端，每一該會議終端包括一收音器及一揚聲器，且該回音消除方法包括：接收一合成語音訊號，其中該合成語音訊號包括該些會議終端中的一第一會議終端對應的發話者的一使用者語音訊號、該第一會議終端對應的一聲音浮水印訊號、該些會議終端中的一第二會議終端對應的發話者的一第二使用者語音訊號、以及該第二會議終端對應的一第二聲音浮水印訊號；偵測在一時變系統下的一收音訊號中的該聲音浮水印訊號及該第二聲音浮水印訊號相對於該合成語音訊號的至少一延遲時間，其中該收音訊號是透過該些會議終端中的一第三會議終端的該收音器所錄製，且偵測該至少一延遲時間包括：將至少一初始延遲訊號帶入一自適性濾波器並使該自適性濾波器收斂以估測一回音路徑的脈衝響應，其中該至少一初始延遲訊號相對於該使用者語音訊號的延遲時間為該收音訊號中的該聲音浮水印訊號與該合成音訊號中的該聲音浮水印訊號之間的至少一初始延遲時間，該聲音浮水印訊號經該時變系統下的該回音路徑而延遲該至少一延遲時間，該回音路徑是該收音器及該揚聲器之間的通道，當該自適性濾波器至一穩態時，以該穩態下的該自適性濾波器的濾波器係數估測經該回音路徑延遲的該合成語音訊號，且將該經該回音路徑延遲的該合成語音訊號的延遲時間作為該至少一延遲時間；以及依據該至少一延遲時間消除該收音訊號中的一回音，其中將經該至少一延遲時間的該合成語音訊號作為該回音。
如請求項1所述的用於會議的回音消除方法，其中偵測該收音訊號中該聲音浮水印訊號所對應的該至少一延遲時間的步驟包括：依據該收音訊號與該聲音浮水印訊號的交叉相關性中的至少一峰值決定該至少一初始延遲時間。
如請求項2所述的用於會議的回音消除方法，其中偵測該收音訊號中該聲音浮水印訊號所對應的該至少一延遲時間的步驟包括：依據該至少一初始延遲時間產生對應於該使用者語音訊號的至少一初始延遲訊號，其中該至少一初始延遲訊號相對於該使用者語音訊號的延遲時間為該至少一初始延遲時間；以及依據該至少一初始延遲訊號估測一回音路徑，其中該聲音浮水印訊號經該回音路徑後延遲該至少一延遲時間，且該回音路徑是該收音器及該揚聲器之間的通道。
如請求項1所述的用於會議的回音消除方法，其中該聲音浮水印訊號的頻率高於16千赫茲(kHz)。
一種會議終端，包括：一收音器，用以錄音以取得對應的發話者的一收音訊號；一揚聲器，用以播放聲音；一通訊收發器，用以傳送或接收資料；一處理器，耦接該收音器、該揚聲器及該通訊收發器，並經配置用以：透過該通訊收發器接收一合成語音訊號，其中該合成語音訊號包括一第二會議終端對應的發話者的一使用者語音訊號、該第二會議終端對應的一聲音浮水印訊號、該些會議終端中的一第三會議終端對應的發話者的一第二使用者語音訊號、以及該第三會議終端對應的一第二聲音浮水印訊號；偵測在一時變系統下的該收音訊號中的該聲音浮水印訊號及該第二聲音浮水印訊號相對於該合成語音訊號的至少一延遲時間，且偵測該至少一延遲時間包括：將至少一初始延遲訊號帶入一自適性濾波器並使該自適性濾波器收斂以估測一回音路徑的脈衝響應，其中該至少一初始延遲訊號相對於該使用者語音訊號的延遲時間為該收音訊號中的該聲音浮水印訊號與該合成音訊號中的該聲音浮水印訊號之間的至少一初始延遲時間，該聲音浮水印訊號經該回音路徑而延遲該至少一延遲時間，該回音路徑是該收音器及該揚聲器之間的通道，當該自適性濾波器至一穩態時，以該穩態下的該自適性濾波器的濾波器係數估測經該回音路徑延遲的該合成語音訊號，且將該經該回音路徑延遲的該合成語音訊號的延遲時間作為該至少一延遲時間；以及依據該至少一延遲時間消除該收音訊號中的一回音，其中將經該至少一延遲時間的該合成語音訊號作為該回音。
如請求項5所述的會議終端，其中該處理器更經配置用以：依據該收音訊號與該聲音浮水印訊號的交叉相關中的至少一峰值決定該至少一初始延遲時間。
如請求項6所述的會議終端，其中該處理器更經配置用以：依據該至少一初始延遲時間產生對應於該使用者語音訊號的至少一初始延遲訊號，其中該至少一初始延遲訊號相對於該使用者語音訊號的延遲時間為該至少一初始延遲時間；以及依據該至少一初始延遲訊號估測一回音路徑，其中該聲音浮水印訊號經該回音路徑後延遲該至少一延遲時間，且該回音路徑是該收音器及該揚聲器之間的通道。
如請求項5所述的會議終端，其中該聲音浮水印訊號的頻率高於16kHz。