TWI740460B

TWI740460B - 語音浮水印處理方法、語音系統及語音浮水印處理裝置

Info

Publication number: TWI740460B
Application number: TW109113032A
Authority: TW
Inventors: 楊淳凱
Original assignee: 宏碁股份有限公司
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2021-09-21
Also published as: TW202141465A

Abstract

一種語音浮水印處理方法、語音系統及語音浮水印處理裝置。語音浮水印處理方法包括以下步驟。於一第一時間區間接收一第一語音訊號。依據第一語音訊號預測一第二時間區間之一預測語音訊號。分析預測語音訊號隨時間與頻率之一語音強度資訊。依據預測語音訊號之語音強度資訊，產生一疊加浮水印訊號。於第二時間區間接收一第二語音訊號。播放疊加浮水印訊號，以使疊加浮水印訊號與第二語音訊號疊加。

Description

語音浮水印處理方法、語音系統及語音浮水印處理裝置

本發明是有關於一種訊號處理方法、電子系統及處理裝置，且特別是有關於一種語音浮水印處理方法、語音系統及語音浮水印處理裝置。

對於演講者或者為了保護自己談話作品的人，往往會禁止有人側錄，以避免不友善的分享。然而，錄音裝置的體積不斷縮小，甚至演變出各種偽裝造型。在實際場合中，難以完全杜絕側錄情況。

再者，公眾人物在公開場合發表的談話可能會遭到有心人士惡意剪接，扭曲談話原意。輕者毀壞談話者的名譽，重者可能會嚴重破壞社會秩序。

因此，研究人員正極力研發一種語音浮水印技術，期望透過語音浮水印能夠追蹤出散布源頭，並且期望透過語音浮水印來檢視語音是否遭到惡意剪接。

此外，語音浮水印需要在談話時就能夠立即加入，才能夠取得實際的保護效果。如何達成即時處理亦為目前技術上的瓶頸之一。

本發明係有關於一種語音浮水印處理方法、語音系統及語音浮水印處理裝置，其可以在談話者或演講者談話時，即時產生適應性的疊加浮水印訊號，使疊加浮水印訊號與語音訊號疊加。如此一來，對方在側錄時，會錄下疊加浮水印訊號與語音訊號。疊加浮水印訊號含有標準時間、或地點等資訊。日後若經過散布，則可以解析出疊加浮水印訊號，而知道散布源頭。並且，可透過疊加浮水印訊號來檢視語音訊號是否遭到剪接。

根據本發明之第一方面，提出一種語音浮水印處理方法。語音浮水印處理方法包括以下步驟。於一第一時間區間接收一第一語音訊號。依據第一語音訊號預測一第二時間區間之一預測語音訊號。分析預測語音訊號隨時間與頻率之一語音強度資訊。依據預測語音訊號之語音強度資訊，產生一疊加浮水印訊號。於第二時間區間接收一第二語音訊號。播放疊加浮水印訊號，以使疊加浮水印訊號與第二語音訊號疊加。

根據本發明之第二方面，提出一種語音系統。語音系統包括一收音裝置、一語音浮水印處理裝置及一播放裝置。收音裝置用以於一第一時間區間接收一第一語音訊號。語音浮水印處理裝置包括一預測單元、一分析單元及一浮水印產生單元。預測單元用以依據第一語音訊號預測一第二時間區間之一預測語音訊號。分析單元用以分析預測語音訊號隨時間與頻率之一語音強度資訊。浮水印產生單元用以依據預測語音訊號之語音強度資訊，產生一疊加浮水印訊號。收音裝置更於第二時間區間接收一第二語音訊號。播放裝置用以播放疊加浮水印訊號，以使疊加浮水印訊號與第二語音訊號疊加。

根據本發明之第三方面，提出一種語音浮水印處理裝置。語音浮水印處理裝置包括一預測單元、一分析單元及一浮水印產生單元。預測單元用以依據一第一時間區間接收之一第一語音訊號預測一第二時間區間之一預測語音訊號。分析單元用以分析預測語音訊號隨時間與頻率之一語音強度資訊。浮水印產生單元用以依據預測語音訊號之語音強度資訊，產生一疊加浮水印訊號。疊加浮水印訊號用以與第二時間區間接收之一第二語音訊號疊加。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

100,100’:收音裝置

200,200’:語音浮水印處理裝置

210:預測單元

220:分析單元

230:浮水印產生單元

240,250:傳輸單元

300,300’:播放裝置

900:網路

1000,1000’:語音系統

MS,MS2,MS3,MS4:疊加浮水印訊號

MS0:模板浮水印訊號

S110,S120,S130,S140,S141,S142,S143,S144,S150,S160:步驟

S1:語音強度資訊

S2:模板強度資訊

S3:疊加強度資訊

TP1,TP2,TP3,TP4:時間區間

VS,VS’,VS1,VS2,VS3,VS4:語音訊號

VS2’,VS3’,VS4’:預測語音訊號

α:疊加值

β:預定值

第1圖繪示根據一實施例之語音系統的示意圖。

第2圖繪示根據另一實施例之語音系統的示意圖。

第3圖說明語音訊號與疊加浮水印訊號之關係。

第4圖繪示根據一實施例之語音系統之方塊圖。

第5圖繪示根據一實施例之語音浮水印處理方法的流程圖。

第6圖繪示根據一實施例之步驟S140的細部流程圖。

第7圖繪示根據一實施例之模板浮水印訊號的示意圖。

第8圖繪示連續執行語音浮水印處理方法之示意圖。

請參照第1圖，其繪示根據一實施例之語音系統1000的示意圖。在一實施例中，語音系統1000例如是由麥克風、桌上型電腦與擴音機所組成的系統。語音系統1000包括一收音裝置100、一語音浮水印處理裝置200及一播放裝置300。在第1圖之實施例中，例如是演講者手持著收音裝置100(例如是麥克風)進行演講，語音訊號VS傳輸至語音浮水印處理裝置200後，產生疊加浮水印訊號MS。透過播放裝置300(例如是擴音機)同時播放疊加浮水印訊號MS與語音訊號VS，以使兩者疊加。如此一來，聽講者在側錄時，會錄下疊加浮水印訊號MS與語音訊號VS。疊加浮水印訊號MS含有標準時間、或地點等資訊。日後若經過散布，則可以解析出疊加浮水印訊號MS，而知道散布源頭。並且，可透過疊加浮水印訊號MS來檢視語音訊號VS是否遭到剪接。

請參照第2圖，其繪示根據另一實施例之語音系統1000’的示意圖。在一實施例中，語音系統1000例如是由筆記型電腦、伺服器所組成的系統。語音系統1000’包括一收音裝置100’、一語音浮水印處理裝置200’及一播放裝置300’。在第2圖之實施例中，例如是員工以筆記型電腦進行視訊會議。在會議進行中，員工對著收音裝置100’(例如是筆記型電腦之麥克風)發言，語音訊號VS’透過網路900傳輸至語音浮水印處理裝置200’(例如是伺服器)後，產生疊加浮水印訊號MS’。接著，再透過網路將疊加浮水印訊號MS’與語音訊號VS’傳遞至播放裝置300’(例如是另一筆記型電腦的喇叭)，以同時播放疊加浮水印訊號MS’與語音訊號VS’，使兩者疊加。如此一來，對方在側錄時，會錄下疊加浮水印訊號MS’與語音訊號VS’。疊加浮水印訊號MS’含有標準時間、或地點等資訊。日後若經過散布，則可以解析出疊加浮水印訊號MS’，而知道散布源頭。並且，可透過疊加浮水印訊號MS’來檢視語音訊號VS’是否遭到剪接。

請參照第3圖，其說明語音訊號VS與疊加浮水印訊號MS之關係。語音訊號VS係由收音裝置100連續擷取。本實施例之疊加浮水印訊號MS係根據語音訊號VS之內容進行適應性微調(例如是隨著語音訊號VS之強度依比例增強/減弱)，而不是固定不變的訊號，如此可避免聽到與語音訊號VS衝突的雜音。

然而，由於產生疊加浮水印訊號MS需要處理時間，因此語音系統1000於時間區間TP1接收語音訊號VS1時，就利用語音訊號VS1來預測出對應於時間區間TP2的預測語音訊號VS2’，進而與模板浮水印訊號MS0交集後產生疊加浮水印訊號MS2。如此一來，即可在時間區間TP2接收到語音訊號VS2時，同時播出真實的語音訊號VS2及疊加浮水印訊號MS2。

請參照第4圖，其繪示根據一實施例之語音系統1000之方塊圖。語音浮水印處理裝置200包括一預測單元210、一分析單元220、一浮水印產生單元230、一傳輸單元240及一傳輸單元250。語音浮水印處理裝置200例如是桌上型電腦、筆記型電腦、或遠端之伺服器。預測單元210、分析單元220、浮水印產生單元230例如是一電路、一晶片、一電路板、一程式模組、或儲存程式碼之記憶裝置。傳輸單元240及傳輸單元250例如是3.5mm音源連接埠、6.3mm音源連接埠、有線網路傳輸單元或無線網路傳輸模組。語音浮水印處理裝置200透過預測技術獲得預測語音訊號VS2’，進而與模板浮水印訊號MS0交集後產生疊加浮水印訊號MS2。如此一來，即可在時間區間TP2接收到語音訊號VS2時，同時播出語音訊號VS2及疊加浮水印訊號MS2。以下更搭配一流程圖詳細說明上述各項元件之運作。

請參照第3~5圖，第5圖繪示根據一實施例之語音浮水印處理方法的流程圖。在步驟S110中，收音裝置100於一第一時間區間接收一第一語音訊號(如第3圖所示，例如是於時間區間TP1接收語音訊號VS1)。

接著，在步驟S120中，預測單元210依據第一語音訊號預測一第二時間區間之一預測語音訊號(如第3圖所示，例如是依據語音訊號VS1預測對應於時間區間TP2之預測語音訊號VS2’)。

然後，在步驟S130中，分析單元220分析預測語音訊號隨時間與頻率之一語音強度資訊(如第3圖所示，例如是分析預測語音訊號VS2’隨時間與頻率之語音強度資訊S1)。在時頻圖(橫軸為時間，縱軸為頻率)中，不同頻率與不同時間對應到不同的強度。灰階較深者，代表強度高，灰階較淺者，代表強度低。在此步驟中，預測單元210係透過一長短期記憶網路(Long Short Term Memory network,LSTM)演算法獲得預測語音訊號VS2’。

接著，在步驟S140中，浮水印產生單元230依據預測語音訊號之語音強度資訊，產生疊加浮水印訊號(如第3圖所示，例如是依據預測語音訊號VS2’之語音強度資訊S1，產生疊加浮水印訊號MS2)。步驟S140包括數個子步驟。請參照第6圖，其繪示根據一實施例之步驟S140的細部流程圖。步驟S140包括步驟S141~S144。在步驟S141中，浮水印產生單元230提供模板浮水印訊號MS0。舉例來說，請參照第7圖，其繪示根據一實施例之模板浮水印訊號MS0的示意圖。模板浮水印訊號MS0之模板強度資訊S2在時頻圖呈現一文字或一圖樣。文字或圖樣可以相關於標準時間或地點。模板浮水印訊號MS0之模板強度資訊S2係為二位元圖樣(僅有全黑或全白)。

在步驟S142中，浮水印產生單元230判斷語音強度資訊S1是否高於一預定值β且模板強度資訊S2是否大於0。若語音強度資訊S1高於預定值β且模板強度資訊S2大於0，則進入步驟S143；若語音強度資訊S1不高於預定值或模板強度資訊S2不大於0，則進入步驟S144。

在步驟S143中，浮水印產生單元230設定疊加強度資訊S3為一疊加值α。在一實施例中，疊加值α例如是一固定值。在另一實施例中，疊加值α亦可以是語音強度資訊S1之一比例值(如0.1倍的語音強度資訊S1)。

在步驟S144中，浮水印產生單元230設定疊加強度資訊S3為0。

上述步驟例如是下式(1)：

其中，f為頻率，t為時間，S3(f,t)為各頻率與各時間之下的疊加強度資訊S3，S1(f,t)為各頻率與各時間之下的語音強度資訊S1，S2(f,t)為各頻率與各時間之下的模板強度資訊S2。

在每一頻率與時間均設定了疊加強度資訊S3後，即可獲得疊加浮水印訊號MS2。如第3圖所示，原本在模板浮水印訊號MS0所顯示的「t」圖樣，在模板浮水印訊號MS0與預測語音訊號VS2’取得交集後，疊加浮水印訊號MS2仍可大略看出「t」圖樣，而此圖樣係配合預測語音訊號VS2’而產生，不會衍生語音訊號VS2以外的雜音。

接著，在步驟S150中，收音裝置100於第二時間區間接收第二語音訊號(如第3圖所示，例如是於時間區間TP2接收語音訊號VS2)。

然後，在步驟S160中，播放裝置300播放疊加浮水印訊號，以使疊加浮水印訊號與之第二語音訊號疊加。如第3圖所示，播放裝置300係同時撥放對應於時間區間TP2之疊加浮水印訊號MS2與語音訊號VS2。側錄者在進行側錄時會同時錄到疊加浮水印訊號MS2與語音訊號VS2。

上述步驟係重複執行，以連續的播放疊加浮水印訊號MS與語音訊號VS。請參照第8圖，其繪示連續執行語音浮水印處理方法之示意圖。在第一次執行語音浮水印處理方法(第一語音訊號與第二語音訊號分別為語音訊號VS1及語音訊號VS2)時，利用時間區間TP1之語音訊號VS1來預測出時間區間TP2的預測語音訊號VS2’，進而與模板浮水印訊號MS0交集後產生疊加浮水印訊號MS2。

再次執行語音浮水印處理方法(第一語音訊號與第二語音訊號分別為語音訊號VS2及語音訊號VS3)時，利用時間區間TP2之語音訊號VS2來預測出時間區間TP3的預測語音訊號VS3’，進而與模板浮水印訊號MS0交集後產生疊加浮水印訊號MS3。

同理，再次執行語音浮水印處理方法(第一語音訊號與第二語音訊號分別為語音訊號VS3及語音訊號VS4)時，利用時間區間 TP3之語音訊號VS3來預測出時間區間TP4的預測語音訊號VS4’，進而與模板浮水印訊號MS0交集後產生疊加浮水印訊號MS4，依此類推。

根據上述實施例，在談話者或演講者談話時，可以即時產生適應性的疊加浮水印訊號MS，使疊加浮水印訊號MS與語音訊號VS疊加。如此一來，對方在側錄時，會錄下疊加浮水印訊號MS與語音訊號VS。疊加浮水印訊號MS含有標準時間、或地點等資訊。日後若經過散布，則可以解析出疊加浮水印訊號MS，而知道散布源頭。並且，可透過疊加浮水印訊號MS來檢視語音訊號VS是否遭到剪接。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100:收音裝置

200:語音浮水印處理裝置

210:預測單元

220:分析單元

230:浮水印產生單元

240,250:傳輸單元

300:播放裝置

1000:語音系統

MS2:疊加浮水印訊號

MS0:模板浮水印訊號

S1:語音強度資訊

S2:模板強度資訊

S3:疊加強度資訊

VS1,VS2:語音訊號

VS2’:預測語音訊號

α:疊加值

β:預定值

Claims

一種語音浮水印處理方法，包括：於一第一時間區間接收一第一語音訊號；依據該第一語音訊號預測一第二時間區間之一預測語音訊號；分析該預測語音訊號隨時間與頻率之一語音強度資訊；依據該預測語音訊號之該語音強度資訊，產生一疊加浮水印訊號；於該第二時間區間接收一第二語音訊號；以及播放該疊加浮水印訊號，以使該疊加浮水印訊號與該第二語音訊號疊加；其中在分析該預測語音訊號隨時間與頻率之該語音強度資訊之步驟中，該預測語音訊號透過一長短期記憶網路(Long Short Term Memory network，LSTM)演算法而獲得。
如請求項1所述之語音浮水印處理方法，其中該疊加浮水印訊號具有隨時間與頻率之一疊加強度資訊，產生該疊加浮水印訊號之步驟包括：提供一模板浮水印訊號，該模板浮水印訊號具有隨時間與頻率之一模板強度資訊；若該語音強度資訊高於一預定值且該模板強度資訊大於0，則設定該疊加強度資訊為一疊加值，其中該疊加值為該語音強度資訊之一比例值。
如請求項2所述之語音浮水印處理方法，其中產生該疊加浮水印訊號之步驟更包括：若該語音強度資訊不高於該預定值且或該模板強度資訊不大於0，則設定該疊加強度資訊為0。
如請求項2所述之語音浮水印處理方法，其中該模板浮水印訊號之該模板強度資訊在一時頻圖呈現一文字或一圖樣。
如請求項4所述之語音浮水印處理方法，其中該文字或該圖樣相關於一標準時間、或一地點。
一種語音系統，包括：一收音裝置，用以於一第一時間區間接收一第一語音訊號；一語音浮水印處理裝置，包括：一預測單元，用以依據該第一語音訊號預測一第二時間區間之一預測語音訊號；一分析單元，用以分析該預測語音訊號隨時間與頻率之一語音強度資訊；及一浮水印產生單元，用以依據該預測語音訊號之該語音強度資訊，產生一疊加浮水印訊號；以及一播放裝置，該收音裝置更於該第二時間區間接收一第二語音訊號，該播放裝置用以播放該疊加浮水印訊號，以使該疊加浮水印訊號與該第二語音訊號疊加；其中該分析單元分析該預測語音訊號隨時間與頻率之該語音強度資訊時，該預測單元透過一長短期記憶網路(Long Short Term Memory network，LSTM)演算法獲得該預測語音訊號。
如請求項1所述之語音系統，其中該疊加浮水印訊號具有隨時間與頻率之一疊加強度資訊，該浮水印產生單元提供一模板浮水印訊號，該模板浮水印訊號具有隨時間與頻率之一模板強度資訊；若該語音強度資訊高於一預定值且該模板強度資訊大於0，則該浮水印產生單元設定該疊加強度資訊為一疊加值，其中該疊加值為該語音強度資訊之一比例值。
如請求項7所述之語音系統，其中若該語音強度資訊不高於該預定值且或該模板強度資訊不大於0，則該浮水印產生單元設定該疊加強度資訊為0。
如請求項7所述之語音系統，其中該模板浮水印訊號之該模板強度資訊在一時頻圖呈現一文字或一圖樣。
如請求項9所述之語音系統，其中該文字或該圖樣相關於一標準時間、或一地點。
一種語音浮水印處理裝置，包括：一預測單元，用以依據一第一時間區間接收之一第一語音訊號預測一第二時間區間之一預測語音訊號；一分析單元，用以分析該預測語音訊號隨時間與頻率之一語音強度資訊；以及一浮水印產生單元，用以依據該預測語音訊號之該語音強度資訊，產生一疊加浮水印訊號，該疊加浮水印訊號用以與該第二時間區間接收之一第二語音訊號疊加；其中該分析單元分析該預測語音訊號隨時間與頻率之該語音強度資訊時，該預測單元透過一長短期記憶網路(Long Short Term Memory network，LSTM)演算法獲得該預測語音訊號。