TWI543151B

TWI543151B - Voiceprint data processing method, trading method and system based on voiceprint data

Info

Publication number: TWI543151B
Application number: TW103111983A
Authority: TW
Inventors: Kung Lan Wang
Original assignee: Kung Lan Wang
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2016-07-21
Also published as: US20150278863A1; TW201537558A

Description

聲紋資料處理方法、基於聲紋資料的交易方法及系統

本發明是有關於一種資訊處理方法、交易方法及系統，特別是指一種聲紋資料處理方法、基於聲紋資料的交易方法及系統。

語音處理技術包括語音識別(Speech Recognition)及語者識別(Speaker Recognition)，語音識別是用於識別出語音中的詞彙，在目前多應用於自動化的人機互動介面，語者識別是用於識別出語者的身分，常用的是聲紋識別(Voiceprint Recognition)，主要應用於監聽或蒐證的個人身分識別。

另一方面，商業廣告無所不在，包括店面音樂、電話、電視、廣播或網站等電子媒體，無非是希望增加銷售量，因此，如何讓廣告更有效且快速的達成行銷目的是現有經由電子媒體的交易技術面臨的課題。

因此，本發明之目的，即在提供一種適用於各種具有傳遞音頻能力的電子媒體的聲紋資料處理方法、基於聲紋資料的交易方法及系統。

於是，本發明聲紋資料處理方法包括下述步驟：a.將一原始音源中的某一時段的音訊片段經由一音頻轉換程序處理為一聲紋資料；b.將該聲紋資料處理為保留主要軌跡特徵並去除背景雜訊的一預定軌跡資料；及c.比對該預定軌跡資料與一待比對的軌跡資料是否相似，若相似則輸出一對應的資訊內容。

較佳的，步驟a的該音頻轉換程序係將該音訊片段切割為小片段並將各小片段以部分重疊方式經過傅立葉轉換、小波轉換以得到該時段的每一時刻對應的數個頻率峰值，並依據該段時間的每一時刻的該等頻率峰值繪製出一以時間及頻率分別為二軸的二維軌跡圖，並將該二維軌跡圖轉換為二值化的一稀疏矩陣。

較佳的，步驟b是將該稀疏矩陣以聚類化處理產生該預定軌跡資料；步驟c是以該待比對的特徵資料當作一索引而與一預存的特徵資料比對是否相似，若相似則輸出一對應的資訊內容。

本發明的基於聲紋資料的交易方法應用於一使用終端及一交易系統，該使用終端自一原始音源擷取其中的某一時段的音訊片段予該交易系統，該方法包括係由該交易系統執行下述步驟：a.將該音訊片段經由一音頻轉換程序處理為一聲紋資料；b.將該聲紋資料處理為保留主要軌跡特徵並去除背景雜訊的一預定軌跡資料；c.比對該預定軌跡資料與一待比對的軌跡資料是否相似，若相似則輸出一對應的資訊內容予該使用終端；及d.依據該使用終端發送的一含有該資訊內容的訊息執行對應的一交易需求。

本發明的交易系統包括：一轉換模組，將一音訊片段經由一音頻轉換程序處理為一聲紋資料；一聚類模組，將該聲紋資料處理為保留主要軌跡特徵並去除背景雜訊的一預定軌跡資料；一比對模組，比對該預定軌跡資料與一待比對的軌跡資料是否相似，若相似則輸出一對應的資訊內容予該使用終端；及一交易模組，依據該使用終端發送的一含有該資訊內容的訊息執行對應的一交易需求。

較佳的，該轉換模組執行的該音頻轉換程序係將該音訊片段切割為小片段並將各小片段以部分重疊方式經過傅立葉轉換、小波轉換以得到該時段的每一時刻對應的數個頻率峰值，並依據該段時間的每一時刻的該等頻率峰值繪製出一以時間及頻率分別為二軸的二維軌跡圖，並將該二維軌跡圖轉換為二值化的一稀疏矩陣。

較佳的，該聚類模組是將該稀疏矩陣以聚類化處理產生該預定軌跡資料；該比對模組是以該待比對的特徵資料當作一索引而與一預存的特徵資料比對是否相似，若相似則輸出一對應的資訊內容。

本發明的交易系統應用於一使用終端，包括一帳戶管理伺服器及一音訊管理伺服器，且該帳戶管理伺服器執行下述步驟：該帳戶管理伺服器依據一廣告商用戶的請求訊息對於該廣告商用戶提供儲存空間並新增一音訊片段配對網址；該帳戶管理伺服器自該音訊管理伺服器接收該廣告商用戶的請求訊息以建立一註冊帳戶，並向該音訊管理伺服器發出一請求訊息並儲存音訊片段且進行前處理以便於後續的辨識工作；該帳戶管理伺服器自該音訊管理伺服器接收一請求訊息以建立該音訊片段的一查表網址索引；該帳戶管理伺服器自該使用終端接收一含有音訊片段的訊息，並轉送含有該音訊片段的訊息至該音訊管理伺服器；及該帳戶管理伺服器自該音訊管理伺服器接收與該音訊片段匹配的一商品網址的訊息，並依據轉送該含有商品網址的訊息至該使用終端。

較佳的，該音訊管理伺服器執行下述步驟：該音訊管理伺服器自該帳戶管理伺服器接收請求訊息以對於客戶提供儲存空間而新增一帳戶查表、一音訊片段配對網址；該音訊管理伺服器向該帳戶管理伺服器發出廣告商用戶的請求訊息；該音訊管理伺服器自該帳戶管理伺服器接收請求訊息以儲存音訊片段並進行前處理以便於後續的辨識工作；該音訊管理伺服器向該帳戶管理伺服器發送請求訊息以建立該音訊片段的查表網址索引；該音訊管理伺服器自該帳戶管理伺服器接收音訊片段的訊息，依據音訊片段的特徵匹配方式查找對應的商品；及該音訊管理伺服器向該帳戶管理伺服器發送與音訊片段匹配的商品網址的訊息。

本發明之功效在於：藉由建置聲紋資料庫並配合軌跡資料的比對方式，除了可去除雜訊而避免誤判，也可快速且準確比對出獲取音訊片段的來源，具有商業應用的價值而適用於各種具有傳遞音頻能力的電子媒體。

1‧‧‧使用終端

200‧‧‧通訊網路

30‧‧‧樣本資料庫

31‧‧‧客服伺服器

32‧‧‧帳戶管理伺服器

33‧‧‧音訊管理伺服器

331‧‧‧轉換模組

332‧‧‧聚類模組

333‧‧‧比對模組

34‧‧‧支付伺服器

300‧‧‧交易系統

S11~S26‧‧‧訊息

301~308‧‧‧步驟

本發明之其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一系統圖，說明本發明基於聲紋資料的交易方法之較佳實施例是應用於一使用終端及一交易系統；圖2是一示意圖，說明本發明基於聲紋資料的交易方法在使用終端及交易系統之間的溝通過程；圖3是一流程圖，說明本發明基於聲紋資料的交易方法之較佳實施例；圖4是一示意圖，說明本實施例是設定每32毫秒為一音框的一時刻單位，且各音框以重疊50%的方式進行短時距傅立葉轉換；圖5是一示意圖，說明某一時刻的每個頻率對應的波峰值；圖6a及圖6b是一示意圖，說明背景雜訊點移除前後的二維軌跡圖；圖7a及圖7b是一示意圖，說明不同階數的稀疏矩陣；圖8是一示意圖，說明將二值化的稀疏矩陣儲存為整數值矩陣；圖9是一示意圖，說明將二值化的稀疏矩陣儲存為整數值陣列；圖10a至圖10c是一示意圖，說明分別取自客戶端的軌跡資料、伺服端的軌跡資料及兩者的比對結果。

參閱圖1，本發明基於聲紋資料的交易方法之較佳實施例是應用於一使用終端1及一交易系統300，較佳的，該交易系統300是一廣告交易系統，用於與至少一廣告商用戶(圖未示)彼此通訊，廣告商用戶可上傳一用於在一電子媒體播放的音源予交易系統300而將其經由本發明基於聲紋資料的交易方法處理。其中，該音源是由一電子媒體的廣告節目播放的配樂或人聲，該電子媒體是包括店面音響、電話、電視、廣播或網站等具有傳遞音頻能力的電子媒體。

另外，交易系統300可與一使用終端1彼此通訊連接，使用終端1可以從該音源擷取其中的某一時段的音訊片段予該交易系統300。例如：使用終端1可以是(但不限於)一智慧型手機，且使用終端1可錄下播放中的廣告節目播放的配樂或人聲中的某小段(如：5秒)的音訊片段並將該音訊片段發送給交易系統300。

交易系統300包括一客服伺服器31、一帳戶管理伺服器32、一音訊管理伺服器33及一支付伺服器34，且使用終端1、客服伺服器31、帳戶管理伺服器32、音訊管理伺服器33及支付伺服器34通過一通訊網路200彼此傳遞訊息及溝通，通訊網路200包括各種無線通訊及/或有線通訊形式的架構，只要是可以傳送語音資料的網路架構均為本發明適用的範疇。

以下內容請參閱圖2，茲將本發明基於聲紋資料的交易方法之流程說明如下。

客服伺服器31主要是執行下述步驟：客服伺服器31向帳戶管理伺服器32發出使用本服務的廣告商用戶的帳戶的請求訊息S11。客服伺服器31自帳戶管理伺服器32接收廣告商用戶的註冊結果的訊息S14。接著，客服伺服器31向帳戶管理伺服器32上傳音訊片段配對網址及分類資訊的訊息S15。客服伺服器31自帳戶管理伺服器32接收音訊片段配對網址的接受訊息S18。客服伺服器31自使用終端1接收請求而發送載有商品網址的內容訊息S23。客服伺服器31向使用終端1發送商品網址的內容訊息S24。

帳戶伺服器32用於建立多數廣告商用戶的帳戶資料並轉送各廣告商用戶的音訊資料予音訊管理伺服器33以供其建立一預定軌跡資料，並用於建立多數使用終端1的帳戶資料並轉送各使用終端1的音訊資料予音訊管理伺服器33供其建立一待比對的軌跡資料(作用容後再述)。

帳戶管理伺服器32主要是執行下述步驟：帳戶伺服器32自客服伺服器31接收一使用本服務的廣告商用戶的帳戶的請求訊息S11。帳戶伺服器32向音訊管理伺服器33發出請求訊息S12以對於廣告商用戶提供儲存空間。帳戶伺服器32接收使用終端1的請求訊息S13以建立一註冊帳戶。帳戶管理伺服器32向客服伺服器31發出使用終端1的註冊結果的訊息S14。帳戶伺服器32自客服伺服器31接收音訊片段配對網址S15。帳戶伺服器32向音訊管理伺服器33發出請求訊息S16以儲存廣告商用戶的音訊片段至音訊管理伺服器33並進行前處理以便於後續的辨識工作。帳戶伺服器32自音訊管理伺服器33接收請求訊息S17，以建立該音訊片段的查表網址索引。帳戶伺服器32向客服伺服器31發送音訊片段配對網址的接受訊息S18。帳戶伺服器32自使用終端1接收含有音訊片段的訊息S19。帳戶伺服器32轉送含有音訊片段的訊息S20至音訊管理伺服器33。帳戶伺服器32自音訊管理伺服器33接收與音訊片段匹配的商品網址的訊息S21。帳戶伺服器32轉送一含有商品網址的訊息S22至使用終端1。

音訊管理伺服器33主要是執行下述步驟：音訊管理伺服器33自帳戶管理伺服器32接收廣告商用戶的請求訊息S12對於廣告商用戶提供儲存空間。。音訊管理伺服器33自帳戶管理伺服器32接收請求訊息S16，以儲存音訊片段並進行前處理以便於後續的辨識工作。音訊管理伺服器33向帳戶管理伺服器32發送請求訊息S17以建立該音訊片段的查表網址索引。音訊管理伺服器33自帳戶管理伺服器32接收音訊片段的訊息S20，依據音訊片段的特徵匹配方式查找對應的商品。音訊管理伺服器33向帳戶管理伺服器32發送與音訊片段匹配的商品網址的訊息S21。

然後，使用終端1向支付伺服器34發送商品購買請求訊息S25。支付伺服器34向使用終端1發送商品支付及運送的相關訊息S26。

本實施例中，音訊管理伺服器33包括一轉換模組331、一聚類模組332、一比對模組333及一樣本資料庫30，轉換模組331將音訊片段經由一音頻轉換程序處理為一聲紋資料；聚類模組332將該聲紋資料聚類化處理以產生保留主要軌跡(trajectory)特徵並去除背景雜訊的預定軌跡資料；比對模組333以待比對的軌跡資料當作一索引而與樣本資料庫30預存的預定軌跡資料比對是否相似，若相似則輸出一對應的資訊內容經由帳戶管理伺服器32予使用終端1。交易模組334依據使用終端1發送的一含有該資訊內容的訊息(如：含有與音訊片段匹配的商品網址的訊息S21)，然後，使用終端1可據以向支付伺服器34發送商品購買請求(如：訊息S25)以執行對應該商品網址的交易需求。

參閱圖3，並配合圖2，音訊管理伺服器33的準備程序說明如下。

音訊管理伺服器33擷取廣告音訊(步驟301)，廣告音訊是例如廣告商用戶經由帳戶管理伺服器32上傳的一段廣告音樂檔案。然後，音訊管理伺服器33依據帳戶管理伺服器32之請求而儲存該廣告商用戶上傳的一音訊片段並將該音訊片段經由轉換模組331將廣告音訊處理為傅立葉轉換資料(步驟302)，在本實施例是將該音訊片段切割為小片段並將各小片段以部分重疊方式進行短時距傅立葉轉換(short-time Fourier transform，簡稱STFT)以得到一傅立葉轉換資料。

參閱圖4，為設定每32毫秒為一音框的一時刻單位，且各音框以重疊50%的方式進行短時距傅立葉轉換。

接著，轉換模組331將傅立葉轉換資料處理為小波轉換資料(步驟303)，並利用小波轉換資料取得峰值組(步驟304)，該峰值組是小波轉換資料在該時段的每一時刻對應的數個頻率峰值。

參閱圖5，本實施例是依據該段時間的每一時刻的該等頻率峰值繪製出一以時間及頻率分別為二軸的二維曲線圖。然後，需採用小波分析的隱藏式多尺度特性分析(inherent multi-scale nature of wavelet analysis)處理得到不同時刻的每個頻率對應的波峰值。

然後，轉換模組331將二維軌跡圖轉換為二值化的稀疏矩陣M(binary sparse matrix)(步驟305)，聚類模組332對於二值化稀疏矩陣M處理為密度空間聚類演算資料(步驟306)，再將密度空間聚類演算資料處理為多重解析度矩陣資料M1,M2(步驟307)，最後輸出矩陣資料M,M1,M2(步驟308)將其儲存於樣本資料庫30中。

參閱圖6a~6b，本實施例是採用基於密度的聚類演算法(Density-Based clustering algorithm)，藉由界定鄰接區域的最大半徑值(Eps)及鄰接區域中的最少的點數量(MinPts)，如此，即可將原來如圖6a的背景雜訊移除，得到聚類化之後如圖6b的二維軌跡圖。

參閱圖7a~7b，小波分析的隱藏式多尺度特性可設定不同解析度而可得到不同階數(level)的稀疏矩陣，圖7b相較於途7a的階數較低，解析度也較低。

參閱圖8，即為儲存於樣本資料庫30預定軌跡資料格式，也就是將二值化的稀疏矩陣儲存為整數值矩陣；參閱圖9，是將二值化的稀疏矩陣儲存為整數值陣列(array)。

藉由從原始的二值化矩陣M可縮減其大小，例如：在伺服端，在30秒鐘的廣告音訊的每16毫秒可得到32位元的一組資料，假設一組資料為一個整數值(integer value)元素，30秒鐘的原始矩陣有8 x 1874個整數值元素。藉此，可得到兩個較低階數的矩陣M1(大小為4 x 936個整數值元素)及矩陣M2(大小為2 x 468個整數值元素)，大小則分別為15KB及3.7KB。整體而言，在樣本資料庫30只需使用18.7KB的空間去儲存。

本實施例是採用統一計算架構(Compute Unified Device Architecture，簡稱CUDA)，藉此，可利用4個統一計算架構卡的24G位元的記憶空間來存放約120萬筆音訊資料。在客戶端，每紀錄5秒廣告音訊，原始矩陣大小為624行x256列。假設儲存一個整數值元素為32 位元，則原始矩陣M大小等於624 x 8個整數值元素，二個較低階的矩陣M1大小等於4 x 312個整數值元素及矩陣M2大小等於2x156個整數值元素，分別為5KB及1.28KB。因此，藉由矩陣M1及矩陣M2當作向伺服端檢索的索引只需要6.3KB的封包，可降低資料傳輸量及伺服端的負擔。

藉此，當音訊管理伺服器33接收到經過類似於步驟301~308處理後的該預定軌跡資料，藉由比對模組333則可將該待比對的特徵資料當作一索引而與預存在樣本資料庫30的特徵資料比對是否相似，若相似則輸出一對應的資訊內容。

參閱圖10a~10c，圖10a是取自客戶端經由處理後的廣告音訊的軌跡資料，圖10b是伺服端預先儲存已經過處理後的廣告音訊的軌跡資料，圖10c是比對自客戶端經由處理後的廣告音訊的軌跡資料及伺服端預先儲存已經過處理後的廣告音訊的軌跡資料，其中，綠色的點表示是二者比對相符的部分。

補充說明的是，在其他實施例中，使用終端1在短時間內可接收一個音源或多個音源並成為多束軌跡，其中一段或多段的集束軌跡也可比對所有軌跡而表列出配對成功的一個或多個廣告音源，也屬於本發明的應用；另外，廣告商也可依據多個使用終端1的回應而評估廣告效益。

綜上所述，本發明之功效在於：藉由建置聲紋資料庫30並配合軌跡資料的比對方式，除了可去除雜訊而避免誤判，也可快速且準確比對出獲取音訊片段的來源，具有商業應用的價值而適用於各種具有傳遞音頻能力的電子媒體，故確實能達成本發明之目的。

惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍，即大凡依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

301~308‧‧‧步驟

30‧‧‧樣本資料庫

Claims

一種聲紋資料處理方法，包括下述步驟：a.將一原始音源中的某一時段的音訊片段經由一音頻轉換程序處理為一聲紋資料；b.將該聲紋資料處理為保留主要軌跡特徵並去除背景雜訊的一預定軌跡資料；及c.比對該預定軌跡資料與一待比對的軌跡資料是否相似，若相似則輸出一對應的資訊內容；其中，步驟a的該音頻轉換程序係將該音訊片段切割為小片段並將各小片段以部分重疊方式經過傅立葉轉換、小波轉換以得到該時段的每一時刻對應的數個頻率峰值，並依據該段時間的每一時刻的該等頻率峰值繪製出一以時間及頻率分別為二軸的二維軌跡圖，並將該二維軌跡圖轉換為二值化的一稀疏矩陣。
如請求項1所述的聲紋資料處理方法，其中，步驟b是將該稀疏矩陣以一聚類化處理產生該預定軌跡資料，該聚類化處理係採用基於密度的聚類演算法，藉由界定一鄰接區域的最大半徑值及該鄰接區域中的最少的點數量以將背景雜訊移除。
如請求項1或2所述的聲紋資料處理方法，其中，步驟b還包括進行多重解析度的處理以產生縮減資料量的待比對的軌跡資料。
一種基於聲紋資料的交易方法，應用於一使用終端及一交易系統，該使用終端自一原始音源擷取其中的某一時段的音訊片段予該交易系統，該方法包括係由該交易系統執行下述步驟：a.將該音訊片段經由一音頻轉換程序處理為一聲紋資料；b.將該聲紋資料處理為保留主要軌跡特徵並去除背景雜訊的一預定軌跡資料；c.比對該預定軌跡資料與一待比對的軌跡資料是否相似，若相似則輸出一對應的資訊內容予該使用終端；及d.依據該使用終端發送的一含有該資訊內容的訊息執行對應的一交易需求；其中，步驟a的該音頻轉換程序係將該音訊片段切割為小片段並將各小片段以部分重疊方式經過傅立葉轉換、小波轉換以得到該時段的每一時刻對應的數個頻率峰值，並依據該段時間的每一時刻的該等頻率峰值繪製出一以時間及頻率分別為二軸的二維軌跡圖，並將該二維軌跡圖轉換為二值化的一稀疏矩陣。
如請求項4所述的基於聲紋資料的交易方法，其中，步驟b是將該稀疏矩陣以一聚類化處理產生該預定軌跡資料，該聚類化處理係採用基於密度的聚類演算法，藉由界定一鄰接區域的最大半徑值及該鄰接區域中的最少的點數量以將背景雜訊移除。
如請求項4或5所述的基於聲紋資料的交易方法，其中，步驟b還包括進行多重解析度的處理以產生縮減資料量的待比對的軌跡資料。
一種交易系統，包括：一轉換模組，將一音訊片段經由一音頻轉換程序處理為一聲紋資料；一聚類模組，將該聲紋資料處理為保留主要軌跡特徵並去除背景雜訊的一預定軌跡資料；一比對模組，比對該預定軌跡資料與一待比對的軌跡資料是否相似，若相似則輸出一對應的資訊內容；及一交易模組，依據該資訊內容執行對應的一交易需求；其中，該轉換模組執行的該音頻轉換程序係將該音訊片段切割為小片段並將各小片段以部分重疊方式經過傅立葉轉換、小波轉換以得到該時段的每一時刻對應的數個頻率峰值，並依據該段時間的每一時刻的該等頻率峰值繪製出一以時間及頻率分別為二軸的二維軌跡圖，並將該二維軌跡圖轉換為二值化的一稀疏矩陣。
如請求項7所述的交易系統，其中，該聚類模組是將該稀疏矩陣以一聚類化處理產生該預定軌跡資料，該聚類化處理係採用基於密度的聚類演算法，藉由界定一鄰接區域的最大半徑值及該鄰接區域中的最少的點數量以將背景雜訊移除。
如請求項7或8所述的交易系統，其中，該轉換模組還包括進行多重解析度的處理以產生縮減資料量的待比對的軌跡資料。