TWI784594B

TWI784594B - 會議終端及聲音浮水印的嵌入方法

Info

Publication number: TWI784594B
Application number: TW110122715A
Authority: TW
Inventors: 杜博仁; 張嘉仁; 曾凱盟
Original assignee: 宏碁股份有限公司
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-11-21
Also published as: TW202301319A; US20220406317A1; US11915710B2

Abstract

本發明實施例提供一種會議終端及聲音浮水印的嵌入方法。在方法中，分別接收第一語音訊號及第一聲音浮水印訊號。第一語音訊號相關於另一台會議終端對應的發話者的語音內容，且第一聲音浮水印訊號對應於這另一台會議終端。將第一語音訊號分配至主機路徑以輸出第二語音訊號，並將第一聲音浮水印訊號分配至卸載路徑以輸出第二聲音浮水印訊號。這主機路徑所提供的數位訊號處理音效多於卸載路徑。合成第二語音訊號及第二聲音浮水印訊號以輸出合成聲音訊號。這合成聲音訊號用於音訊播放。藉此，可輸出完整的聲音浮水印訊號。

Description

會議終端及聲音浮水印的嵌入方法

本發明是有關於一種語音會議，且特別是有關於一種會議終端及聲音浮水印的嵌入方法。

遠端會議可讓不同位置或空間中的人進行對話，且會議相關設備、協定及/應用程式也發展相當成熟。值得注意的是，部分即時會議程式可能會合成語音訊號及聲音浮水印訊號。然而，一般語音訊號處理技術(例如，頻帶濾波、雜訊抑制、動態範圍壓縮(Dynamic Range Compression，DRC)、回音消除等)是針對一般語音訊號所設計，因此只會保留語音訊號並排除非語音訊號。在訊號傳輸路徑中，若對語音訊號及聲音浮水印訊號使用相同的語音訊號處理，則聲音浮水印訊號可能被視為雜訊或非語音訊號並被濾除。

有鑑於此，本發明實施例提供一種會議終端及聲音浮水印的嵌入方法，在終端執行聲音浮水印嵌入，並透過多路徑保留聲音浮水印。

本發明實施例的聲音浮水印的嵌入方法適用於會議終端。聲音浮水印的嵌入方法包括(但不僅限於)下列步驟：分別接收第一語音訊號及第一聲音浮水印訊號。第一語音訊號相關於另一台會議終端對應的發話者的語音內容，且第一聲音浮水印訊號對應於這另一台會議終端。將第一語音訊號分配至主機(host)路徑以輸出第二語音訊號，並將第一聲音浮水印訊號分配至卸載(offload)路徑以輸出第二聲音浮水印訊號。這主機路徑所提供的數位訊號處理(Digital Signal Processing，DSP)音效多於卸載路徑。合成第二語音訊號及第二聲音浮水印訊號以輸出合成聲音訊號。這合成聲音訊號用於音訊播放。

本發明實施例的會議終端包括(但不僅限於)收音器、揚聲器、通訊收發器及處理器。收音器用以收音。揚聲器用以播放聲音。通訊收發器用以傳送或接收資料。處理器耦接收音器、揚聲器及通訊收發器。處理器經配置用以透過通訊收發器分別接收第一語音訊號及第一聲音浮水印訊號，將第一語音訊號分配至主機路徑以輸出第二語音訊號，將第一聲音浮水印訊號分配至卸載路徑以輸出第二聲音浮水印訊號，並合成第二語音訊號及第二聲音浮水印訊號以輸出合成聲音訊號。第一語音訊號相關於另一台會議終端對應的發話者的語音內容，且第一聲音浮水印訊號對應於這另一台會議終端。這主機路徑所提供的數位訊號處理音效多於卸載路徑。這合成聲音訊號用於音訊播放。

基於上述，依據本發明實施例的會議終端及聲音浮水印的嵌入方法，在終端提供兩條傳輸路徑分別給語音訊號及聲音浮水印訊號，讓聲音浮水印訊號受到較少的訊號處理，並據以合成訊號。藉此，會議終端可完整地播放出另一端發話者的語音訊號及聲音浮水印訊號，更可降低環境中的雜訊。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的會議系統1的示意圖。請參照圖1，會議系統1包括(但不僅限於)多台會議終端10a,10c及雲端伺服器50。

各會議終端10a,10c可以是有線電話、行動電話、平板電腦、桌上型電腦、筆記型電腦或智慧型喇叭。各會議終端10a,10c包括(但不僅限於)收音器11、揚聲器13、通訊收發器15、記憶體17及處理器19。

收音器11可以是動圈式(dynamic)、電容式(Condenser)、或駐極體電容(Electret Condenser)等類型的麥克風，收音器11也可以是其他可接收聲波(例如，人聲、環境聲、機器運作聲等)而轉換為聲音訊號的電子元件、類比至數位轉換器、濾波器、及音訊處理器之組合。在一實施例中，收音器11用以對發話者收音/錄音，以取得語音訊號。在一些實施例中，這語音訊號可能包括發話者的聲音、揚聲器13所發出的聲音及/或其他環境音。

揚聲器13可以是喇叭或擴音器。在一實施例中，揚聲器13用以播放聲音。

通訊收發器15例如是支援乙太網路(Ethernet)、光纖網路、或電纜等有線網路的收發器(其可能包括(但不僅限於)連接介面、訊號轉換器、通訊協定處理晶片等元件)，也可能是支援Wi-Fi、第四代(4G)、第五代(5G)或更後世代行動網路等無線網路的收發器(其可能包括(但不僅限於)天線、數位至類比/類比至數位轉換器、通訊協定處理晶片等元件)。在一實施例中，通訊收發器15用以傳送或接收資料。

記憶體17可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件。在一實施例中，記憶體17用以記錄程式碼、軟體模組、組態配置、資料(例如，聲音訊號)或檔案。

處理器19耦接收音器11、揚聲器13、通訊收發器15及記憶體17。處理器19可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)或其他類似元件或上述元件的組合。在一實施例中，處理器19用以執行所屬會議終端10a, 10c的所有或部份作業，且可載入並執行記憶體17所記錄的各軟體模組、檔案及資料。

在一實施例中，處理器19包括主處理器191及次處理器193。例如，主處理器191是CPU，且次處理器193是平台路徑控制器(Platform Controller Hub，PCH)或其他相較於CPU更低功耗的晶片或處理器。然而，在一些實施例中，主處理器191及次處理器193的功能及/或元件可能整合在一起。

雲端伺服器50經由網路直接或間接連接會議終端10a, 10c。雲端伺服器50可以是電腦系統、伺服器或訊號處理裝置。在一實施例中，會議終端10a, 10c也可作為雲端伺服器50。在另一實施例中，雲端伺服器50可作為不同於會議終端10a, 10c的獨立雲端伺服器。在一些實施例中，雲端伺服器50包括(但不僅限於)相同或相似的通訊收發器15、記憶體17及處理器19，且元件的實施態樣及功能將不再贅述。

下文中，將搭配會議系統1中的各項裝置、元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

另需說明的是，為了方便說明，相同元件可實現相同或相似的操作，且將不再贅述。例如，會議終端10a, 10c的處理器19皆可實現本發明實施例相同或相似的方法。

圖2是依據本發明一實施例的聲音浮水印的嵌入方法的流程圖。請參照圖1及圖2，假設會議終端10a, 10c建立通話會議。例如，透過視訊軟體、語音通話軟體或撥打電話等方式建立會議，發話者即可開始說話。會議終端10a的處理器19可透過通訊收發器15(即，經由網路介面)分別接收語音訊號S _B及聲音浮水印訊號W _B(步驟S210)。具體而言，語音訊號S _B相關於會議終端10c對應的發話者的語音內容(例如，會議終端10c的收音器11對其發話者收音所得的語音訊號)。而聲音浮水印訊號W _B對應於會議終端10c。

舉例而言，圖3是依據本發明一實施例說明語音訊號S _B及聲音浮水印訊號W _B之產生的流程圖。請參照圖3，雲端伺服器50經由網路介面接收來自會議終端10c透過其收音器11所錄製的語音訊號S _b’(步驟S310)。語音訊號S _b’可能包括發話者的聲音、揚聲器13所播放的聲音及/或其他環境聲音。雲端伺服器50可對語音訊號S _b’進行諸如雜訊抑制、增益調整等語音訊號處理(步驟S330)，並據以產生語音訊號S _B。然而，在一些實施例中，也可忽略語音訊號處理，並直接將語音訊號S _b’作為語音訊號S _B。

另一方面，雲端伺服器50可依據語音訊號S _B產生針對會議終端10c的聲音浮水印訊號W _B。具體而言，圖4是依據本發明一實施例說明聲音浮水印訊號W _B之產生的流程圖。請參照圖4，雲端伺服器50可透過心理聲學(psychoacoustics)模型評估浮水印適用的參數(例如，增益、時間差及/或頻帶)(步驟S410)。心理聲學模型是用於模仿人類聽覺機制的數學模型，並可據以得出人耳無法聽到的頻帶。雲端伺服器50可依據欲傳遞的原始浮水印w ₀ ^B及浮水印金鑰k _w ^B產生成聲音浮水印訊號W _B(步驟S430)。須說明的是，步驟S430所用的金鑰演算法是用於資安及完整性保護。在一些實施例中，聲音浮水印訊號W _B也可能未加入浮水印金鑰k _w ^B，且原始浮水印w ₀ ^B可直接作為聲音浮水印訊號W _B。

須說明的是，關於如何取得針對會議終端10a的語音訊號S _a’、語音訊號S _A及聲音浮水印訊號W _A的說明，可參酌前述針對語音訊號S _b’、語音訊號S _B及聲音浮水印訊號W _B的說明，且於此不再贅述。例如，雲端伺服器50可依據欲傳遞的原始浮水印w ₀ ^A及浮水印金鑰k _w ^A產生成聲音浮水印訊號W _A。

在一實施例中，原始浮水印w ₀ ^A及聲音浮水印訊號W _A用於識別會議終端10a，或者原始浮水印w ₀ ^B及聲音浮水印訊號WB用於識別會議終端10c。例如，聲音浮水印訊號W _A為記錄會議終端10a的識別碼的聲音。然而，在一些實施例中，本發明不加以限制聲音浮水印訊號W _A, W _B的內容。

請參照圖3，雲端伺服器50可將接收語音訊號S _B及聲音浮水印訊號W _B經由網路介面傳送給會議終端10a，使會議終端10a接收到語音訊號S _B及聲音浮水印訊號W _B傳送給會議終端10a(步驟S370)。或者，雲端伺服器50可將接收語音訊號S _A及聲音浮水印訊號W _A傳送給會議終端10c，使會議終端10c接收到語音訊號S _A及聲音浮水印訊號W _A傳送給會議終端10c。

在一實施例中，處理器19可透過通訊收發器15經由網路接收網路封包。這網路封包包括語音訊號S _B及聲音浮水印訊號W _B兩者。處理器19可依據網路封包中的識別符辨識語音訊號S _B及聲音浮水印訊號W _B。這識別符用於指示網路封包的資料負載中的某一部分為語音訊號S _B且另一部分為聲音浮水印訊號W _B。例如，識別符指示語音訊號S _B及聲音浮水印訊號W _B在網路封包中的起始位置。

在一實施例中，處理器19可透過通訊收發器15經由網路第一網路封包。這第一網路封包包括語音訊號S _B。此外，處理器19可透過通訊收發器15經由網路第二網路封包。這第二網路封包包括聲音浮水印訊號W _B。也就是說，處理器19透過兩筆或更多筆網路封包來區別語音訊號S _B及聲音浮水印訊號W _B。

請參照圖2，處理器19可將語音訊號S _B分配至主機(host)路徑以輸出語音訊號S _B’ (步驟S231)，並將聲音浮水印訊號W _B分配至卸載(offload)路徑以輸出聲音浮水印訊號W _B(步驟S233)。具體而言，會議裝置10a可提供一個或更多個數位訊號處理(Digital Signal Processing，DSP)音效給音訊串流。數位訊號處理音效例如是等化處理、混響(reverb)、回音消除、增益控制或其他音訊處理。這些音效也可能進一步封裝成一個或更多個音訊處理物件(Audio Processing Objects，APOs)。例如，串流音效(Stream Effect，SFX)、模式音效(Mode Effect，MFX)及端點音效(Endpoint Effect，EFX)。

圖5是依據本發明一實施例的音訊處理架構的示意圖。請參照圖5，在音訊處理架構中，第一層L1為應用程式APP1, APP2，第二層L2是音訊引擎，第三層L3是驅動程式，且第四層L4是硬體。應用程式APP1可被稱為主要應用。針對應用程式APP1，音訊引擎可提供串流音效SFX、模式音效MFX及端點音效EFX。應用程式APP2可被稱為次要應用，並提供系統腳位(pin)給驅動程式。針對應用程式APP2，音訊引擎可提供卸載串流音效OSFX(Offload Stream Effect)及卸載模式音效OMFX(Offload Mode Effect)，並提供卸載腳位給驅動程式。

在本發明實施例中，主機路徑所提供的數位訊號處理(Digital Signal Processing，DSP)音效多於卸載路徑。由此可知，相較於語音訊號S _B，聲音浮水印訊號W _B可能未受數位訊號處理音效或受較少的數位訊號處理音效。例如，處理器19對語音訊號S _B進行雜訊抑制，但聲音浮水印訊號W _B未受雜訊抑制。或者，聲音浮水印訊號W _B可能僅經增益調整且未受語音相關的訊號處理。

須說明的是，圖2所示為處理器19對語音訊號S _B進行接收端語音訊號處理，且聲音浮水印訊號W _B未經接收端語音訊號處理(即，卸載路徑的輸出仍為聲音浮水印訊號W _B)。然而，在一些實施例中，聲音浮水印訊號W _B也可進行部分的接收端語音訊號處理(即，卸載路徑的輸出為新的聲音浮水印訊號W _B)。

在一實施例中，主機路徑經組態用於諸如語音通話或多媒體播放等主要應用。例如，視窗(Windows)系統中的多媒體播放器(Media player)、或通話軟體。而卸載路徑經組態用於諸如提示音、鈴聲或音樂播放等次要應用。例如，純音樂播放器。處理器19可將語音訊號S _B與主要應用連結，使語音訊號S _B可輸入至主要應用所用的主機路徑。另一方面，處理器19可將聲音浮水印訊號W _B與次要應用連結，使聲音浮水印訊號W _B可輸入至次要應用所用的卸載路徑。

在一實施例中，主處理器191執行主機路徑上的訊號處理，且次處理器193執行卸載路徑上的訊號處理。換句而言，主處理器191對語音訊號S _B提供主機路徑對應的數位訊號處理音效。而次處理器193對聲音浮水印訊號W _B提供卸載路徑對應的數位訊號處理音效。例如，次處理器193提供給模式音效的儲存空間相較少於主處理器191所提供的儲存空間。

請參照圖2，處理器19合成語音訊號S _B’及聲音浮水印訊號W _B以輸出合成聲音訊號S _B’+W _B(步驟S250)。例如，處理器19可在時域透過展頻(Spread spectrum)、回音隱藏(Echo hiding)、相位編碼(Phase encoding)等方式在語音訊號S _B’中加入聲音浮水印訊號W _B，以形成合成聲音訊號S _B’+W _B。或者，處理器19可在頻域透過調變載波(Modulated carries)、扣除頻帶(Subtracting frequency bands)等方式在語音訊號S _B’中加入聲音浮水印訊號W _B。而這合成聲音訊號S _B’+W _B可用於音訊播放系統251。例如，處理器19透過揚聲器13播放合成聲音訊號S _B’+W _B。由此可知，可音訊播放系統251輸出完整或失真較少的聲音浮水印訊號W _B。

另一方面，處理器19可透過音訊接收系統271取得其發話者的語音訊號S _a。例如，處理器19透過收音器11錄音以取得語音訊號S _a。處理器19可對語音訊號S _a進行傳輸端語音訊號處理以輸出語音訊號S _a’(步驟S290)，並透過通訊收發器15傳送語音訊號S _a’至雲端伺服器50。相似地，雲端伺服器50可依據語音訊號S _a’產生語音訊號S _A及聲音浮水印訊號W _A。此外，會議終端10c也可透過其揚聲器13輸出完整或失真較少的聲音浮水印訊號W _A。

綜上所述，在本發明實施例的會議裝置及聲音浮水印的嵌入方法中，在會議終端的輸出末端才將聲音浮水印訊號與語音訊號合成，以繞過系統的語音訊號處理來嵌入聲音浮水印。其中，本發明實施例提供主機路徑及卸載路徑，並讓聲音浮水印訊號受較少的訊號處理或未受訊號處理。藉此，終端可完整的播放出使用者的語音訊號和聲音浮水印，並可降低環境中的雜訊。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

1:會議系統 10a、10c:會議終端 50:雲端伺服器 11:收音器 13:揚聲器 15:通訊收發器 17:記憶體 19:處理器 S _a、S _a’、S _A、S _A’、S _b’、S _B、S _B’:語音訊號 W _A、W _B:聲音浮水印訊號 S _B’+W _B:合成聲音訊號 S210~S290、S310~S370、S410、S430:步驟 251:音訊播放系統 271:音訊接收系統 k _w ^A、k _w ^B:浮水印金鑰 w ₀ ^A、w ₀ ^B:原始浮水印 APP1、APP2:應用程式 SFX:串流音效 MFX:模式音效 EFX:端點音效 OSFX:卸載串流音效 OMFX:卸載模式音效 L1~L4:層

圖1是依據本發明一實施例的會議系統的示意圖。圖2是依據本發明一實施例的聲音浮水印的嵌入方法的流程圖。圖3是依據本發明一實施例說明語音訊號及聲音浮水印訊號之產生的流程圖。圖4是依據本發明一實施例說明聲音浮水印訊號之產生的流程圖。圖5是依據本發明一實施例的音訊處理架構的示意圖。

S_a、S_a’、S_B、S_B’:語音訊號

W_B:聲音浮水印訊號

S_B’+W_B:合成聲音訊號

S210~S290:步驟

251:音訊播放系統

271:音訊接收系統

Claims

一種聲音浮水印的嵌入方法，適用於一會議終端，且該回音消除方法包括：分別接收一第一語音訊號及一第一聲音浮水印訊號，其中該第一語音訊號相關於另一會議終端對應的發話者的語音內容，且該第一聲音浮水印訊號對應於該另一會議終端；將該第一語音訊號進行一主機(host)路徑所提供的訊號處理以輸出一第二語音訊號，並將該第一聲音浮水印訊號進行一卸載(offload)路徑所提供的訊號處理以輸出一第二聲音浮水印訊號，其中該主機路徑所提供的數位訊號處理(Digital Signal Processing，DSP)音效多於該卸載路徑；以及透過浮水印嵌入技術在該第二語音訊號中加入該第二聲音浮水印訊號以輸出一合成聲音訊號，其中該合成聲音訊號用於音訊播放。
如請求項1所述的聲音浮水印的嵌入方法，其中分別接收該第一語音訊號及該第一聲音浮水印訊號的步驟包括：經由一網路接收一網路封包，其中該網路封包包括該第一語音訊號及該第一聲音浮水印訊號；以及依據該網路封包中的識別符辨識該第一語音訊號及該第一聲音浮水印訊號。
如請求項1所述的聲音浮水印的嵌入方法，其中分別接收該第一語音訊號及該第一聲音浮水印訊號的步驟包括：經由一網路接收一第一網路封包，其中該第一網路封包包括該第一語音訊號；以及經由該網路接收一第二網路封包，其中該第二網路封包包括該第一聲音浮水印訊號。
如請求項1所述的聲音浮水印的嵌入方法，其中該主機路徑用於語音通話或多媒體播放，且該卸載路徑用於提示音、鈴聲或音樂播放。
如請求項1所述的聲音浮水印的嵌入方法，更包括：透過一主處理器執行該主機路徑上的訊號處理；以及透過一次處理器執行該卸載路徑上的訊號處理。
一種會議終端，包括：一收音器，用以錄音；一揚聲器，用以播放聲音；一通訊收發器，用以傳送或接收資料；一處理器，耦接該收音器、該揚聲器及該通訊收發器，並經配置用以：透過該通訊收發器分別接收一第一語音訊號及一第一聲音浮水印訊號，其中該第一語音訊號相關於另一會議終端對應的發話者的語音內容，且該第一聲音浮水印訊號對應於該另一會議終端；將該第一語音訊號進行一主機路徑所提供的訊號處理以輸出一第二語音訊號，並將該第一聲音浮水印訊號進行一卸載路徑所提供的訊號處理以輸出一第二聲音浮水印訊號，其中該主機路徑所提供的數位訊號處理音效多於該卸載路徑；以及透過浮水印嵌入技術在該第二語音訊號中加入該第二聲音浮水印訊號以輸出一合成聲音訊號，其中該合成聲音訊號用於音訊播放。
如請求項6所述的會議終端，其中該處理器更經配置用以：透過該通訊收發器經由一網路接收一網路封包，其中該網路封包包括該第一語音訊號及該第一聲音浮水印訊號。
如請求項6所述的會議終端，其中該處理器更經配置用以：透過該通訊收發器經由一網路接收一第一網路封包，其中該第一網路封包包括該第一語音訊號；以及透過該通訊收發器經由該網路接收一第二網路封包，其中該第二網路封包包括該第一聲音浮水印訊號。
如請求項6所述的會議終端，其中該主機路徑用於語音通話或多媒體播放，且該卸載路徑用於提示音、鈴聲或音樂播放。
如請求項6所述的會議終端，其中該處理器包括：一主處理器，用以執行該主機路徑上的訊號處理；以及一次處理器，用以執行該卸載路徑上的訊號處理。