TWI790682B

TWI790682B - 聲音浮水印的處理方法及語音通訊系統

Info

Publication number: TWI790682B
Application number: TW110125761A
Authority: TW
Inventors: 杜博仁; 張嘉仁; 曾凱盟
Original assignee: 宏碁股份有限公司
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2023-01-21
Also published as: TW202303587A; US20230019841A1; US11837243B2

Abstract

本發明實施例提供一種聲音浮水印的處理方法及語音通訊系統。產生數個弦波訊號。這些弦波訊號的頻率不同並屬於高頻聲音訊號。將浮水印圖案映射至時間-頻率圖以形成浮水印聲音訊號。這浮水印圖案在二維坐標系中的兩維度分別對應於時間-頻率圖中的時間軸與頻率軸。時間軸上的數個音框中的每一者對應到頻率軸上的不同頻率的那些弦波訊號。在時間域合成語音訊號與浮水印聲音訊號，以產生嵌入浮水印訊號。藉此，可即時嵌入聲音浮水印。

Description

聲音浮水印的處理方法及語音通訊系統

本發明是有關於一種語音處理技術，且特別是有關於一種聲音浮水印的處理方法及語音通訊系統。

遠端會議可讓不同位置或空間中的人進行對話，且會議相關設備、協定及/應用程式也發展相當成熟。值得注意的是，部分即時會議程式可能會合成語音訊號及浮水印聲音訊號。然而，浮水印的嵌入處理可能會花費過多時間，更難以符合會議通話的即時性。此外，聲音訊號經傳輸後可能受雜訊影響而失真，且嵌入的浮水印也會受影響而難以辨識。

有鑑於此，本發明實施例提供一種聲音浮水印的處理方法及語音通訊系統，可即時嵌入浮水印聲音訊號，且兼具抗雜訊功能。

本發明實施例的聲音浮水印的處理方法包括(但不僅限於)下列步驟：產生數個弦波訊號。這些弦波訊號的頻率不同並屬於高頻聲音訊號。將浮水印圖案映射至時間-頻率圖以形成浮水印聲音訊號。這浮水印圖案在二維坐標系中的兩維度分別對應於時間-頻率圖中的時間軸與頻率軸。時間軸上的數個音框中的每一者對應到頻率軸上的不同頻率的那些弦波訊號。在時間域合成語音訊號與浮水印聲音訊號，以產生嵌入浮水印訊號。

本發明實施例的語音通訊系統包括(但不僅限於)傳送裝置。傳送裝置經配置用以產生數個弦波訊號，將浮水印圖案映射至時間-頻率圖以形成浮水印聲音訊號，並在時間域合成語音訊號與浮水印聲音訊號，以產生嵌入浮水印訊號。這些弦波訊號的頻率不同並屬於高頻聲音訊號。這浮水印圖案在二維坐標系中的兩維度分別對應於時間-頻率圖中的時間軸與頻率軸。時間軸上的數個音框中的每一者對應到頻率軸上的不同頻率的那些弦波訊號。

基於上述，依據本發明實施例的語音通訊系統及聲音浮水印的處理方法，使用屬於高頻聲音且不同頻率的數個弦波訊號合成對應於浮水印圖案的浮水印聲音訊號，並在時間域合成浮水印聲音訊號與語音訊號。藉此，即時嵌入浮水印聲音訊號，並可降低脈衝訊號的雜訊影響。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的語音通訊系統1的元件方塊圖。請參照圖1，語音通訊系統1包括但不僅限於一台或更多台傳送裝置10及一台或更多台接收裝置50。

傳送裝置10及接收裝置50可以是有線電話、行動電話、網路電話、平板電腦、桌上型電腦、筆記型電腦或智慧型喇叭。

傳送裝置10包括(但不僅限於)通訊收發器11、儲存器13及處理器15。

通訊收發器11例如是支援乙太網路(Ethernet)、光纖網路、或電纜等有線網路的收發器(其可能包括(但不僅限於)連接介面、訊號轉換器、通訊協定處理晶片等元件)，也可能是支援Wi-Fi、第四代(4G)、第五代(5G)或更後世代行動網路等無線網路的收發器(其可能包括(但不僅限於)天線、數位至類比/類比至數位轉換器、通訊協定處理晶片等元件)。在一實施例中，通訊收發器11用以經由網路30(例如，網際網路、區域網路或其他類型網路)傳送或接收資料。

儲存器13可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory，RAM)、唯讀記憶體(Read Only Memory，ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid-State Drive，SSD)或類似元件。在一實施例中，儲存器13用以儲存程式碼、軟體模組、組態配置、資料(例如，聲音訊號、浮水印圖案、浮水印聲音訊號等)或檔案。

處理器15耦接通訊收發器11及儲存器13。處理器15可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)或其他類似元件或上述元件的組合。在一實施例中，處理器15經配置用以執行傳送裝置10的所有或部份作業，且可載入並執行儲存器13所儲存的各軟體模組、程式碼、檔案及資料。

接收裝置50包括(但不僅限於)通訊收發器51、儲存器53及處理器55。通訊收發器51、儲存器53及處理器55的實施態樣及其功能可分別參酌通訊收發器11、儲存器13及處理器15的說明，於此不再贅述。

在一些實施例中，傳送裝置10及/或接收裝置50更包括收音器及/或揚聲器(圖未示)。收音器可以是動圈式(dynamic)、電容式(Condenser)、或駐極體電容(Electret Condenser)等類型的麥克風，收音器也可以是其他可接收聲波(例如，人聲、環境聲、機器運作聲等)而轉換為聲音訊號的電子元件、類比至數位轉換器、濾波器、及音訊處理器之組合。在一實施例中，收音器用以對發話者收音/錄音，以取得語音訊號。在一些實施例中，這語音訊號可能包括發話者的聲音、揚聲器所發出的聲音及/或其他環境音。揚聲器可以是喇叭或擴音器。在一實施例中，揚聲器用以播放聲音。

下文中，將搭配語音通訊系統1中的各項裝置、元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖2是依據本發明一實施例的聲音浮水印的處理方法的流程圖。請參照圖2，傳送裝置10的處理器15產生一個或更多個弦波訊號S _f1,…,S _fN(步驟S210)。具體而言，這些弦波訊號(例如，正弦波或餘弦波)的頻率不同。舉例而言，圖3A及圖3B是說明不同頻率的弦波訊號S _f1、S _f2的波形圖。請參照圖3A及圖3B，弦波訊號S _f2的頻率高於弦波訊號S _f1。假設有N個弦波訊號S _f1,…,S _fN，即N個不同頻率的弦波訊號S _f1,…,S _fN。N例如為32、64、128或其他正整數。

在一實施例中，處理器15可每隔特定頻率間隔(Spacing)決定弦波訊號S _f1,…,S _fN中的一者的頻率。例如，弦波訊號S _f1的頻率為16千赫茲(kHz)，弦波訊號S _f2的頻率為16.5 kHz，弦波訊號S _f2的頻率為17 kHz，即頻率間隔為500Hz，且其餘依此類推。在另一實施例中，弦波訊號S _f1,…,S _fN5之間的頻率間隔可能不固定。

處理器15將這些弦波訊號S _f1,…,S _fN的時間長度設定為一個音框(時間單位)的取樣數(例如，512、1024、或2028)。此外，這些弦波訊號屬於高頻聲音訊號(例如，其頻率位於16kHz~20kHz，但可能依據揚聲器的能力而改變)。

在一實施例中，處理器15更基於窗化函數(例如，漢明(Hamming)窗、矩形窗、或高斯窗)窗化那些弦波訊號S _f1,…,S _fN，以產生經窗化的弦波訊號S _f1 ^w,…,S _fN ^w。藉此，相鄰音框之間在時間域上產生時間間隔，且避免音框之間產生脈衝(pulse)。

舉例而言，圖4A及圖4B是圖3A及圖3B的弦波訊號經窗化的波形圖。請參照圖4A，弦波訊號S _f1經窗化後變成S _f1 ^w。請參照圖4B，弦波訊號S _f2經窗化後變成S _f2 ^w。

處理器15將浮水印圖案W _I映射至時間-頻率圖以形成浮水印聲音訊號S _W(步驟S220)。具體而言，浮水印圖案W _I可依據應用者之需求自行設計，且本發明實施例不加以限制。例如，圖5A是一範例說明浮水印圖案W _I。請參照圖5A，這浮水印圖案W _I是由文字“acer”所組成。

處理器15將浮水印圖案W _I自二維坐標系轉換至時間-頻率圖。二維坐標系包括兩個維度。舉例而言，圖5B是一範例說明在二維坐標系CS中的浮水印圖案W _I。請參照圖5B，這兩個維度包括橫向軸X及縱向軸Y。也就是說，二維坐標系CS上的任一位置可使用與橫向軸X的相距及與縱向軸Y的相距定義座標。

在一實施例中，處理器15更依據疊加量在時間軸對應於二維坐標系中的一個維度延展浮水印圖案W _I。這疊加量相關於相鄰音框在疊加的重疊量。例如，疊加量為0.5音框或其他時間長度。而音框之疊加待後文詳述。以圖5A及圖5B為例，假設疊加量為0.5音框且橫向軸X對應於時間-頻率圖中的時間軸，則浮水印圖案W _I沿橫向軸X方向延展兩倍。也就是說，延展浮水印圖案W _I的倍數反比於疊加量。

另一方面，時間-頻率圖包括時間軸及頻率軸。時間軸上的數個音框中的每一者對應到頻率軸上的不同頻率的那些弦波訊號。在一實施例中，處理器15依據浮水印圖案W _I在時間-頻率圖中建立浮水印矩陣。這浮水印矩陣包括數個元素，各元素為有標記元素及無標記元素中的一者。有標記元素代表浮水印圖案W _I在二維坐標系中的對應位置有值，且無標記元素代表浮水印圖案W _I在二維坐標系中的對應位置無值。

以圖5B為例，二維坐標系CS分割成40*8格。任一縱向線與橫向線交叉處(可在二維坐標系CS形成一個座標)上有浮水印圖案W _I即代表這位置上有值，且未有浮水印圖案W _I則代表這位置上無值。

圖5C是一範例說明圖5B的浮水印圖案W _I映射至時間-頻率圖TFD。請參照圖5C，相似地，時間-頻率圖TFD也可分隔成40*8格。處理器15比對二維坐標系CS及時間-頻率圖TFD，並據以定義時間-頻率圖TFD中的浮水印矩陣為有標記元素或無標記元素。

處理器15依據浮水印矩陣選擇各音框中的一個或更多個弦波訊號。一個或更多個受選的弦波訊號對應於那些元素中的有標記元素。以圖5C為例，時間軸上的每一條縱向線代表一個音框。此外，頻率軸上的每一橫向線代表某一個頻率的弦波訊號。例如，最底下那條橫向線對應於頻率為16kHz的正弦波訊號，且其上一條橫向線對應於頻率為16.2kHz的正弦波訊號，其餘依此類推。處理器15可記錄在頻率軸上每一條橫向線與那些弦波訊號的頻率的對應關係。針對時間軸上的每一個音框，處理器15判斷在浮水印矩陣中是否存在有標記元素，並依據對應關係挑選弦波訊號。

處理器15將時間-頻率圖中的那些音框上的一個或更多個受選的弦波訊號在時間域上疊加，以形成浮水印聲音訊號S _W。其中，處理器15將相鄰的音框依據前述疊加量疊加。舉例而言，圖5D是一範例說明數個音框疊加後的示意圖。請參照圖5D，第一個音框上的弦波訊號與第二個音框上的弦波訊號重疊0.5音框，其餘依此類推。此外，相較於圖5C，圖5D中的浮水印圖案W _I在時間軸的方向上縮小一倍。

圖6是一範例說明在時間-頻率圖中的浮水印聲音訊號。請參照圖6，圖5A的浮水印圖案W _I如同形成在方格圖上。

處理器15在時間域合成語音訊號S’ _H與浮水印聲音訊號S _W，以產生嵌入浮水印訊號S _H ^Wed(步驟S230)。具體而言，語音訊號S _H是傳送裝置10透過收音器對發音者錄音所取得的聲音訊號，或者自外部裝置(例如，通話會議伺服器、錄音筆或智慧型手機)所取得。例如，在會議通話中，傳送裝置10對發音者收音。

在一實施例中，處理器15可濾除原始的語音訊號S _H中位於弦波訊號S _f1,…,S _fN所在的頻段的聲音訊號，以產生語音訊號S’ _H。例如，假設弦波訊號S _f1,…,S _fN所在頻段為16kHz~20kHz，處理器15將語音訊號S _H經過16kHz以下可通過的低通濾波器。藉此，可避免語音訊號S _H影響浮水印聲音訊號S _W。在另一實施例中，處理器15可將原始的語音訊號S _H直接作為語音訊號S’ _H。

處理器15可在時間域透過諸如展頻(Spread spectrum)、回音隱藏(Echo hiding)、相位編碼(Phase encoding)等方式在語音訊號S’ _H中加入浮水印聲音訊號S _W，以形成嵌入浮水印訊號S _H ^Wed。由此可知，本發明實施例事先建立浮水印聲音訊號S _W，以即時在時間域上與語音訊號S’ _H合成。

處理器15透過通訊收發器11並經由網路30傳送嵌入浮水印訊號S _H ^Wed(步驟S240)。而接收裝置50的處理器55透過通訊收發器51接收傳送聲音訊號S _A。這傳送聲音訊號S _A為經傳送的嵌入浮水印訊號S _H ^Wed。在一些情況中，嵌入浮水印訊號S _H ^Wed在網路30的傳輸過程中會失真(例如，受其他環境聲音、障礙物反射、或其他雜訊干擾)，以形成傳送聲音訊號S _A(或稱為被攻擊訊號)。值得注意的是，傳送裝置10將浮水印聲音訊號S _W設定成高頻聲音訊號，但高頻聲音訊號可能受脈衝訊號干擾。舉例而言，圖7是一範例說明在時間-頻率圖中的傳送聲音訊號S _A。請參照圖7，圖中約1.05秒處自低頻垂直延伸至高頻的訊號為脈衝訊號，且脈衝訊號會重疊於浮水印聲音訊號S _W，進而影響浮水印圖案W _I的辨識結果。

處理器55將傳送聲音訊號S _A映射至時間-頻率圖，並比對數個預設浮水印訊號W ₁,…,W _M(步驟S250)。具體而言，處理器55可利用快速傅立葉轉換(Fast Fourier Transform，FFT)或其他時間域至頻率域的轉換而將傳送聲音訊號S _A中每個未經疊加的音框切換到頻率域，並考慮所有音框所構成的整體時間-頻率圖。

另一方面，預設浮水印訊號W ₁,…,W _M(M為正整數)分別用於識別不同傳送裝置10或不同使用者。預設浮水印訊號已儲存在儲存器53中。預設浮水印訊號W ₁,…,W _M對應於二維坐標系中的數個預設浮水印圖案。相似地，各預設浮水印圖案可依據應用者之需求自行設計，且本發明實施例不加以限制。

處理器55依據傳送S _A與預設浮水印訊號W ₁,…,W _M之間的相關性(即，傳送聲音訊號S _A與預設浮水印訊號W ₁,…,W _M的比對結果)辨識浮水印聲音訊號S _W(步驟S260)。具體而言，本文中的相關性為傳送聲音訊號S _A與那些預設浮水印訊號W ₁,…,W _M之間的相似程度。而預設浮水印訊號中的相似程度最高者為浮水印聲音訊號S _W。

圖8是依據本發明一實施例的浮水印圖案辨識的流程圖。請參照圖8，處理器55判斷傳送聲音訊號S _A中的一個或更多個脈衝訊號τ _x(步驟S810)。具體而言，脈衝訊號τ _x的特色為在很短的時間內所有的頻率都有被干擾的訊號。在一實施例中，處理器55可判斷傳送聲音訊號S _A在時間-頻率圖中的數個音框中的每一者在數個頻率上的功率，並判斷那些音框中具有那些頻率的功率皆大於門檻值者為一個脈衝訊號τ _x。例如，處理器55可藉由判斷某一個音框的所有頻率上的功率是否大於設定的門檻值。若符合此條件(即，所有頻率上的功率皆大於門檻值)，則處理器55可判斷這音框有受脈衝訊號τ _x的干擾。在一些實施例中，處理器55可在頻譜中選擇特定頻率(而不是所有頻率)，並判斷這些頻率上的功率是否皆大於門檻值。

處理器55可依據一個或更多個脈衝訊號τ _x修改那些預設浮水印訊號W ₁,…,W _M(步驟S830)。具體而言，處理器55依據脈衝訊號τ _x所在音框位置(對應於二維坐標系中的橫向軸中的一個位置)，將預設浮水印訊號W ₁,…,W _M在二維坐標系中的縱向軸(對應於頻率軸)上補上或減去脈衝干擾特徵，以產生修改的預設浮水印訊號W’ ₁,…,W’ _M。

舉例而言，圖9是一範例說明預設浮水印訊號W ₁的修改的示意圖。請參照圖9，針對X軸上的一個位置，處理器55在Y軸上的每個位置補上縱向線的直線圖案(即，脈衝干擾特徵)，以形成修改的預設浮水印訊號W’ ₁。

在一實施例中，前述相關性包括第一相關性。處理器55可判斷傳送聲音訊號S _A與尚未修改的那些預設浮水印訊號W ₁,…,W _M的第一相關性，並依據這第一相關性自那些預設浮水印訊號W ₁,…,W _M中挑選數個候選浮水印訊號。其中，處理器55可僅修改預設浮水印訊號W ₁,…,W _M中的那些候選浮水印訊號。而處理器55例如可依據基於深度學習的分類器或交叉相關篩選出與傳送聲音訊號S _A之間的相似程度較高的一些候選浮水印訊號。以交叉相關為例，則其交叉相關的值大於對應的門檻值才能作為候選浮水印訊號。

在一實施例中，前述相關性包括第二相關性。處理器55可決定傳送聲音訊號S _A與修改的那些預設浮水印訊號W ₁,…,W _M或者候選浮水印訊號之間的第二相關性，並據以進行圖案辨識(步驟S850)。具體而言，由於浮水印聲音訊號S _W屬於高頻聲音訊號，處理器55可濾除原始的傳送聲音訊號S _A中位於弦波訊號S _f1,…,S _fN所在的頻段以外的聲音訊號。例如，處理器55將傳送聲音訊號S _A經過16kHz以上可通過的高通濾波器。此外，處理器55例如可依據基於深度學習的分類器或交叉相關篩選出與傳送聲音訊號S _A之間的相似程度最高的一個候選浮水印訊號。以交叉相關為例，則其交叉相關的最大值才能作為所辨識的浮水印聲音訊號S _W。例如，預設浮水印訊號W ₁的相關性最高，則預設浮水印訊號W ₁為浮水印聲音訊號S _W。

綜上所述，在本發明實施例的語音通訊系統及聲音浮水印的處理方法中，在傳送端事先定義由數個音框對應的不同頻率的弦波訊號疊加而成的浮水印聲音訊號，從而可即時嵌入到語音訊號，進而符合即時通話會議的需求。此外，在接收端判斷脈衝訊號，並考慮脈衝訊號對預設浮水印訊號的干擾，從而準確辨識出浮水印聲音訊號，進而降低脈衝訊號的雜訊影響。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

1:語音通訊系統 10:傳送裝置 11、51:通訊收發器 13、53:儲存器 15、55:處理器 30:網路 50:接收裝置 S210~S260、S810~S850:步驟 S _f1 ^w,…,S _fN ^w、S _f1、S _f2:弦波訊號 W _I:浮水印圖案 S _W:浮水印聲音訊號 X、Y:軸 S’ _H:語音訊號 S _H ^Wed:嵌入浮水印訊號 S _A:傳送聲音訊號 W ₁,…,W _M:預設浮水印訊號 CS:二維坐標系 TFD:時間-頻率圖 W’ ₁,…,W’ _M:修改的預設浮水印訊號

圖1是依據本發明一實施例的語音通訊系統的元件方塊圖。圖2是依據本發明一實施例的聲音浮水印的處理方法的流程圖。圖3A及圖3B是說明不同頻率的弦波訊號的波形圖。圖4A及圖4B是圖3A及圖3B的弦波訊號經窗化的波形圖。圖5A是一範例說明浮水印圖案。圖5B是一範例說明在二維坐標系中的浮水印圖案。圖5C是一範例說明圖5B的浮水印圖案映射至時間-頻率圖。圖5D是一範例說明數個音框疊加後的示意圖。圖6是一範例說明在時間-頻率圖中的浮水印聲音訊號。圖7是一範例說明在時間-頻率圖中的傳送聲音訊號。圖8是依據本發明一實施例的浮水印圖案辨識的流程圖。圖9是一範例說明預設浮水印訊號的修改的示意圖。

10:傳送裝置 50:接收裝置 S210~S260:步驟 S _f1 ^w,…,S _fN ^w:弦波訊號 W _I:浮水印圖案 S _W:浮水印聲音訊號 S’ _H:語音訊號 S _H ^Wed:嵌入浮水印訊號 S _A:傳送聲音訊號

Claims

一種聲音浮水印的處理方法，包括：產生多個弦波訊號，其中該些弦波訊號的頻率不同，且該些弦波訊號屬於高頻聲音訊號；將一浮水印圖案自一二維座標系轉換至一時間-頻率圖，並依據該時間-頻率圖形成一浮水印聲音訊號，其中該浮水印圖案在一二維坐標系中的二維度分別對應於該時間-頻率圖中的一時間軸與一頻率軸，該二維座標系上的一第一座標轉換成該時間軸上的一第一音框及該頻率軸上的一第一頻率，該浮水印聲音訊號是在該時間軸上的多個音框中一者上疊加多個頻率中的至少一者的弦波訊號所形成的，不同頻率的弦波訊號對應到該頻率軸上的不同頻率；以及在一時間域上透過一浮水印嵌入處理在一語音訊號中加入該浮水印聲音訊號，以產生一嵌入浮水印訊號。
如請求項1所述的聲音浮水印的處理方法，其中將該浮水印圖案轉換至該時間-頻率圖並形成該浮水印聲音訊號的步驟包括：依據該浮水印圖案在該時間-頻率圖中建立一浮水印矩陣，其中該浮水印矩陣包括多個元素，每一該元素為一有標記元素及一無標記元素中的一者，該有標記元素代表該浮水印圖案在該二維坐標系中的對應位置有值，且該無標記元素代表該浮水印圖案在該二維坐標系中的對應位置無值；依據該浮水印矩陣選擇每一該音框中的該些弦波訊號中的至少一者，其中在該時間軸上的多個元素形成的一第一線代表該些音框中的一者，在該頻率軸上的多個元素形成的第二線代表該些頻率中的一者，針對該些音框中的一者，若有一該有標記元素，則將該有標記元素所對應的頻率的弦波訊號作為至少一受選的弦波訊號中的一者，使該至少一受選的弦波訊號對應於該些元素中的該有標記元素；以及將該些音框上的至少一受選的弦波訊號在該時間域上疊加，以形成該浮水印聲音訊號。
如請求項2所述的聲音浮水印的處理方法，其中依據該浮水印圖案在該時間-頻率圖中建立該浮水印矩陣的步驟包括：依據一疊加量在該時間軸對應於該二維坐標系中的一維度延展該浮水印圖案，其中該疊加量相關於相鄰音框在疊加的重疊量。
如請求項1所述的聲音浮水印的處理方法，其中在該語音訊號中加入該浮水印聲音訊號的步驟包括：濾除該語音訊號中位於該些弦波訊號所在的頻段的聲音訊號。
如請求項1所述的聲音浮水印的處理方法，其中產生該些弦波訊號的步驟包括：設定該些弦波訊號的時間長度為一該音框；以及窗化該些弦波訊號。
如請求項1所述的聲音浮水印的處理方法，其中產生該嵌入浮水印訊號的步驟之後，更包括：接收一傳送聲音訊號，其中該傳送聲音訊號為經傳送的該嵌入浮水印訊號；將該傳送聲音訊號映射至該時間-頻率圖，並比對多個預設浮水印訊號，其中該些預設浮水印訊號對應於該二維坐標系中的多個預設浮水印圖案；以及依據該傳送聲音訊號與該些預設浮水印訊號之間的一相關性辨識該浮水印聲音訊號，其中該相關性為該傳送聲音訊號與該些預設浮水印訊號之間的相似程度，該相似程度是透過基於深度學習的分類器或該傳送聲音訊號與該些預設浮水印訊號的交叉相關所決定，且該些預設浮水印訊號中的相似程度最高者為該浮水印聲音訊號。
如請求項6所述的聲音浮水印的處理方法，其中該相關性包括一第一相關性，且比對該些預設浮水印訊號的步驟包括：判斷該傳送聲音訊號中的至少一脈衝訊號，其中該至少一脈衝訊號在該些音框中的至少一者上的該些頻率受干擾；依據該至少一脈衝訊號修改該些預設浮水印訊號，其中在該二維座標系中受該至少一脈衝訊號干擾的音框上補上或減去脈衝干擾特徵；以及透過該分類器或該傳送聲音訊號與修改的該些預設浮水印訊號的交叉相關決定該傳送聲音訊號與修改的該些預設浮水印訊號之間的該第一相關性。
如請求項7所述的聲音浮水印的處理方法，其中該相關性包括一第二相關性，且依據該至少一脈衝訊號修改該些預設浮水印訊號的步驟之前，更包括：判斷該傳送聲音訊號與尚未修改的該些預設浮水印訊號的該第二相關性；以及依據該第二相關性自該些預設浮水印訊號中挑選多個候選浮水印訊號，其中僅修改該些預設浮水印訊號中的該些候選浮水印訊號。
如請求項7所述的聲音浮水印的處理方法，其中判斷該傳送聲音訊號中的該至少一脈衝訊號的步驟包括：判斷該傳送聲音訊號在該時間-頻率圖中的多個音框中的每一者在多個頻率上的功率；以及判斷該些音框中具有該些頻率的功率皆大於門檻值者為一該脈衝訊號。
一種語音通訊系統，包括：一傳送裝置，經配置用以：產生多個弦波訊號，其中該些弦波訊號的頻率不同，且該些弦波訊號屬於高頻聲音訊號；將一浮水印圖案自一二維座標系轉換至一時間-頻率圖，並依據該時間-頻率圖形成一浮水印聲音訊號，其中該浮水印圖案在一二維坐標系中的二維度分別對應於該時間-頻率圖中的一時間軸與一頻率軸，該二維座標系上的一第一座標轉換成該時間軸上的一第一音框及該頻率軸上的一第一頻率，該浮水印聲音訊號是在該時間軸上的多個音框中的一者上疊加多個頻率中的至少一者的弦波訊號所形成的，不同頻率的弦波訊號對應到該頻率軸上的不同頻率；在一時間域上透過一浮水印嵌入處理在一語音訊號中加入該浮水印聲音訊號，以產生一嵌入浮水印訊號；以及傳送該嵌入浮水印訊號。
如請求項10所述的語音通訊系統，更包括：一接收裝置，經配置用以：接收一傳送聲音訊號，其中該傳送聲音訊號為經傳送的該嵌入浮水印訊號；將該傳送聲音訊號映射至該時間-頻率圖，並比對多個預設浮水印訊號，其中該些預設浮水印訊號對應於該二維坐標系中的多個預設浮水印圖案；以及依據該傳送聲音訊號與該些預設浮水印訊號之間的一相關性辨識該浮水印聲音訊號，其中該相關性為該傳送聲音訊號與該些預設浮水印訊號之間的相似程度，該相似程度是透過基於深度學習的分類器或該傳送聲音訊號與該些預設浮水印訊號的交叉相關所決定，且該些預設浮水印訊號中的相似程度最高者為該浮水印聲音訊號。