TW201810248A - 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品 - Google Patents

聲紋辨識裝置、聲紋辨識方法及其電腦程式產品 Download PDF

Info

Publication number
TW201810248A
TW201810248A TW105127245A TW105127245A TW201810248A TW 201810248 A TW201810248 A TW 201810248A TW 105127245 A TW105127245 A TW 105127245A TW 105127245 A TW105127245 A TW 105127245A TW 201810248 A TW201810248 A TW 201810248A
Authority
TW
Taiwan
Prior art keywords
voiceprint
data
voiceprint data
output message
processor
Prior art date
Application number
TW105127245A
Other languages
English (en)
Other versions
TWI612516B (zh
Inventor
黃耀民
陳宇皓
賴欣怡
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW105127245A priority Critical patent/TWI612516B/zh
Priority to CN201610806957.4A priority patent/CN107785023A/zh
Priority to US15/289,949 priority patent/US20180060429A1/en
Priority to CA2946908A priority patent/CA2946908A1/en
Application granted granted Critical
Publication of TWI612516B publication Critical patent/TWI612516B/zh
Publication of TW201810248A publication Critical patent/TW201810248A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/20Comparing separate sets of record carriers arranged in the same sequence to determine whether at least some of the data in one set is identical with that in the other set or sets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Telephonic Communication Services (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種聲紋辨識裝置、聲紋辨識方法及其電腦程式產品。聲紋辨識裝置儲存具有複數聲紋資料之一聲紋資料庫以及一待辨識聲紋資料。各聲紋資料及待辨識聲紋資料每一者由複數頻帶上之複數子聲紋位元所組成。聲紋辨識裝置執行聲紋辨識方法,其包含下列步驟:將該待辨識聲紋資料與該等聲紋資料其中之一進行位元差異值比對,以得到各該頻帶上之一位元誤差率;計算該等頻帶中該等位元誤差率小於一第一臨界值之一百分比;以及當該百分比大於一第二臨界值時,將比對之該聲紋資料標示為一相似聲紋資料。

Description

聲紋辨識裝置、聲紋辨識方法及其電腦程式產品
本發明係關於一種聲紋辨識裝置、聲紋辨識方法及其電腦程式產品。具體而言,本發明聲紋辨識裝置基於將一待辨識聲紋與一聲紋資料庫所儲存之複數聲紋資料其中之一進行位元差異值比對,以得到各頻帶上之一位元誤差率,計算各頻帶中之各位元誤差率小於一第一臨界值之一百分比,並將百分比大於一第二臨界值之聲紋資料標示為一相似聲紋資料。
在日常生活中,人們經常透過手機或其他電子產品錄製一段聲音後,利用現有的樂曲辨識軟體或應用程式搜尋其錄製聲音的相關資訊。然而,在錄製一段聲音的過程中,亦會同時將錄製對象外的其他聲音(例如:周遭環境的聲音或播放裝置本身產生的雜音)一併錄下,因而影響聲音辨識的結果。
目前較為廣泛使用的樂曲辨識軟體或樂曲辨識應用程式係將待辨識的聲音轉換成待辨識聲紋資料,以將其與資料庫中的聲紋資料進行辨識(例如:美國第7,549,052號專利中所述)。然而,若錄製的聲音受 到過多的干擾,將會影響聲紋辨識的結果,而容易導致辨識結果錯誤,或是無法從資料庫中找到與待辨識聲紋相符的資料。
有鑑於此,本領域亟需一種聲紋辨識機制,以降低錄製對象外的其他聲音所造成的干擾,進而提高聲紋辨識的召回率(recall)。
本發明之目的在於提供一種聲紋辨識機制,其基於將一待辨識聲紋資料與一聲紋資料庫所儲存之複數聲紋資料其中之一進行位元差異值比對,以得到各頻帶上之一位元誤差率,並藉由忽略位元誤差率較大的該些頻帶上的位元差異值比對結果,而著重於位元誤差率較小的該些頻帶上的位元差異值比對結果,來獲得相似聲紋資料。據此,不同於習知的聲紋辨識機制,本發明可降低錄製對象外的其他聲音所造成的干擾,進而提高聲紋辨識率。
為達上述目的,本發明揭露一種聲紋辨識裝置,其包含一儲存器以及一處理器。該儲存器儲存具有複數聲紋資料之一聲紋資料庫以及一待辨識聲紋資料。各該聲紋資料及該待辨識聲紋資料每一者由複數頻帶(band)上之複數子聲紋位元(sub-fingerprint bit)所組成。該處理器電性連接至該儲存器,用以執行下列步驟:(a)將該待辨識聲紋資料與該等聲紋資料其中之一進行位元差異值比對,以得到各該頻帶上之一位元誤差率(bit error rate;BER);(b)計算該等頻帶中該等位元誤差率小於一第一臨界值之一百分比(percentage);以及(c)當該百分比大於一第二臨界值時,將比對之該聲紋資料標示為一相似聲紋資料。
此外,本發明更揭露一種用於一聲紋辨識裝置之聲紋辨識 方法。該聲紋辨識裝置包含一儲存器以及一處理器。該儲存器儲存具有複數聲紋資料之一聲紋資料庫以及一待辨識聲紋資料。各該聲紋資料及該待辨識聲紋資料每一者由複數頻帶上之複數子聲紋位元所組成。該聲紋辨識方法由該處理器執行且包含下列步驟:(a)將該待辨識聲紋資料與該等聲紋資料其中之一進行位元差異值比對,以得到各該頻帶上之一位元誤差率;(b)計算該等頻帶中該等位元誤差率小於一第一臨界值之一百分比;以及(c)當該百分比大於一第二臨界值時,將比對之該聲紋資料標示為一相似聲紋資料。
另外,本發明更揭露一種電腦程式產品,儲存有包含複數個程式指令之一電腦程式,在該電腦程式被具有一處理器之一聲紋辨識裝置載入後,該處理器執行該等程式指令,以執行一聲紋辨識方法。該聲紋辨識裝置之一儲存器儲存具有複數聲紋資料之一聲紋資料庫以及一待辨識聲紋資料。各該聲紋資料及該待辨識聲紋資料每一者由複數頻帶上之複數子聲紋位元所組成。該聲紋辨識方法包含下列步驟:(a)將該待辨識聲紋資料與該等聲紋資料其中之一進行位元差異值比對,以得到各該頻帶上之一位元誤差率;(b)計算該等頻帶中該等位元誤差率小於一第一臨界值之一百分比;以及(c)當該百分比大於一第二臨界值時,將比對之該聲紋資料標示為一相似聲紋資料。
在參閱圖式及隨後描述之實施方式後,此技術領域具有通常知識者便可瞭解本發明之其他目的,以及本發明之技術手段及實施態樣。
1‧‧‧聲紋辨識裝置
3‧‧‧使用者裝置
5‧‧‧網路
11‧‧‧儲存器
13‧‧‧處理器
15‧‧‧網路介面
17‧‧‧麥克風
19‧‧‧顯示器
102‧‧‧輸出訊息
402‧‧‧錄音資料
111‧‧‧複數聲紋資料
113‧‧‧待辨識聲紋資料
115‧‧‧位元差異值比對結果
117‧‧‧遮蔽後之位元差異值比對結果
S601-S603‧‧‧步驟
x、y‧‧‧軸
ri‧‧‧列
CP‧‧‧被遮蔽的部分
第1圖係本發明第一實施例之聲紋辨識裝置1之示意圖;第2A圖係描繪本發明之聲紋資料庫所儲存之複數聲紋資料及一待辨識聲紋資料;第2B圖係描繪位元差異值比對結果以及遮蔽後之位元差異值比對結果之示意圖;第3圖係描繪本發明第二實施例之聲紋辨識裝置1之示意圖;第4圖係描繪聲紋辨識制裝置1及使用者裝置3間之一實施情境;第5圖係描繪本發明第三實施例之聲紋辨識裝置1之示意圖;以及第6圖係本發明第四實施例之聲紋辨識方法之流程圖。
以下將透過實施方式來解釋本發明之內容。本發明係關於聲紋辨識裝置、聲紋辨識方法及其電腦程式產品。須說明者,本發明的實施例並非用以限制本發明須在如實施例所述之任何特定的環境、應用或特殊方式方能實施。因此,有關實施例之說明僅為闡釋本發明之目的,而非用以限制本發明,且本案所請求之範圍,以申請專利範圍為準。除此之外,於以下實施例及圖式中,與本發明非直接相關之元件已省略而未繪示,且以下圖式中各元件間之尺寸關係僅為求容易瞭解,非用以限制實際比例。
本發明第一實施例請參考第1圖、第2A圖及第2B圖。第1圖係本發明之聲紋辨識裝置1之示意圖。聲紋辨識裝置1包含儲存器11及處理器13。儲存器11儲存具有複數聲紋資料111之一聲紋資料庫以及一待辨識聲紋資料113。第2A圖描繪聲紋資料庫中各聲紋資料111及待辨識聲紋資料 113。各聲紋資料111係由複數頻帶(band)上之複數子聲紋位元(sub-fingerprint bit)所組成。同樣地,待辨識聲紋資料113亦由複數頻帶上之複數子聲紋位元所組成。
以待辨識聲紋資料113作為說明,x軸係代表頻帶,y軸係代表時間,故在y軸上的每一列ri係代表第i時間點上該等頻帶上之該等子聲紋位元。於本實施例中,該等頻帶係為32個頻帶,即每一列ri係由32個子聲紋位元所組成。惟,於其他實施例中,該等頻帶可為其他數目個頻帶,故頻帶數目並非用於限制本發明的保護範疇。由於所屬技術領域中具有通常知識者可輕易瞭解聲紋資料的組成,故在此不在加以詳述。
處理器13電性連接至儲存器11,用以將待辨識聲紋資料113與該等聲紋資料111其中之一進行位元差異值比對,以得到一位元差異值比對結果115(如第2B圖所示),並計算位元差異值比對結果115中各頻帶上之一位元誤差率(bit error rate;BER)。詳言之,各聲紋資料111通常的時間長度較待辨識聲紋資料113長,為確認待辨識聲紋資料113是否屬於該等聲紋資料111至少其中之一的一部份,處理器13會將待辨識聲紋資料113與各聲紋資料111一一比對。位元差異值比對的方式可藉由將兩聲紋資料的子聲紋位元進行互斥或(XOR)運算,以得到位元差異值比對結果115。於位元差異值比對結果115中,黑點代表「1」指示子聲紋位元不同,而白點代表「0」指示子聲紋位元相同。
隨後,於獲得待辨識聲紋資料113與目前比對之聲紋資料111區段間的位元差異值比對結果115後,處理器13更計算位元差異值比對結果115中各頻帶中黑點所佔的比率,以得到各頻帶上之位元誤差率。接著,處 理器13計算位元差異值比對結果115中各頻帶中該等位元誤差率小於一第一臨界值之一百分比(percentage)。當百分比大於一第二臨界值時,將比對之聲紋資料111標示為一相似聲紋資料。
進言之,由於周遭環境的聲音或播放裝置本身產生的雜音通常會落於特定頻帶,故本發明藉由遮蔽位元誤差率大於第一臨界值的該等頻帶的比對結果,以形成一遮蔽後之位元差異值比對結果117。如第2B圖所示,CP部分係為被遮蔽的部分。於遮蔽位元誤差率較大的該等頻帶之位元差異值比對結果後,處理器13判斷遮蔽後之位元差異值比對結果117中,未遮蔽部分之百分比是否大於第二臨界值,即未被遮蔽之頻帶數是否足夠,以判斷比對之聲紋資料111為相似聲紋資料。當未被遮蔽之頻帶之百分比大於第二臨界值時,處理器13將比對之聲紋資料111標示為相似聲紋資料。
舉例而言,當第一臨界值為0.3及第二臨界值為25%時,處理器13會將位元差異值比對結果115中位元誤差率大於0.3的該等頻帶之比對結果遮蔽,並計算遮蔽後之位元差異值比對結果117中,未遮蔽部分之百分比是否大於25%(即計算位元差異值比對結果115中各頻帶中該等位元誤差率小於0.3的頻帶佔全部頻帶的百分比,並判斷此百分比是否大於25%)。當未遮蔽部分之百分比大於25%,處理器13將比對之聲紋資料111標示為相似聲紋資料。反之,當未遮蔽部分之百分比小於25%,則處理器13繼續將待辨識聲紋資料113與目前比對之聲紋資料111的其他區段進行位元差異值比對及上述之遮蔽及百分比判斷操作。倘若目前比對之聲紋資料無任何區段相似時,則處理器13自聲紋資料庫中選擇下一筆聲紋資料111,並進行如上所述之位元差異值比對、遮蔽及百分比判斷操作。
須說明者,上述的第一臨界值及第二臨界值之數值係適用一般使用情況。然而,於實際應用上,可依召回率(recall)及準確率(precision)的需求,或噪音干擾狀況調整第一臨界值及第二臨界值。由於所屬技術領域中具有通常知識者可基於上述說明輕易瞭解,如何基於對周遭環境噪音評估校準,以調整第一臨界值及第二臨界值,故在此不再加以贅述。
如上所述,在位元差異值比對結果中,位元誤差率越大表示在該頻帶上之待辨識聲紋資料與比對之聲紋資料的差異部分越大,而此差異部分通常係由錄製對象外的其他聲音所造成的干擾。因此,本發明之聲紋辨識裝置藉由將位元誤差率大於第一臨界值之位元差異值比對結果遮蔽,以留下位元誤差率較優的該等頻帶上之位元差異值比對結果,來判斷待辨識聲紋資料與目前比對之聲紋資料是否相似,以提高聲紋辨識率。
本發明第二實施例請參考第3圖及第4圖。第二實施例為第一實施例之延伸。如第3圖所示,本實施例之聲紋辨識裝置1更包含一網路介面15,於本實施例中,聲紋辨識裝置1係一伺服器。處理器13透過網路介面15自一使用者裝置接收一錄音資料,並將錄音資料轉換成待辨識聲紋資料。處理器13更根據相似聲紋資料產生一輸出訊息102,並透過網路介面15傳送輸出訊息102至使用者裝置。
第4圖係描繪之聲紋辨識制裝置1及使用者裝置3間之一實施情境。使用者裝置3間可為一智慧型手機,其可錄製一對象聲音(例如:收音機廣播之聲音、電視機播放之聲音等)。聲紋辨識裝置1可為具有聲紋資料庫之一音樂伺服器、一電視節目伺服器或任一種多媒體伺服器。於錄製該對象聲音後,使用者裝置3產生錄音資料402,並透過網路5將錄音資料402傳送 至聲紋辨識裝置1。網路5可為一區域網路、一電信網路、一網際網路等各種網路之組合,但不限於此。
於接收錄音資料402後,聲紋辨識裝置1將錄音資料402轉換成待辨識聲紋資料113,並將待辨識聲紋資料113與其聲紋資料庫中之聲紋資料111比對。當找到相似聲紋資料後,聲紋辨識裝置1即根據相似聲紋資料,產生輸出訊息102,並透過網路5將輸出訊息102傳送至使用者裝置3。輸出訊息中可包含相似聲紋資料所對應的音樂資訊、節目資訊等(但不限於此),如此一來,使用者裝置3係可透過聲紋辨識裝置1獲得其所錄製之對象聲音的相關資訊,並透過螢幕顯示相關資訊。
須說明者,聲紋辨識裝置1在比對的過程中,若找到一筆相似聲紋資料即可停止後續的比對程序,直接根據此筆相似聲紋資料產生輸出訊息102並傳送至使用者裝置3。然而,於其他實施例中,處理器13於辨識聲紋資料的過程中,亦可將待辨識聲紋資料113與聲紋資料庫中所有的聲紋資料111比對,而獲得一筆或多筆聲紋資料,並將這些聲紋資料標示為相似聲紋資料,因此於產生輸出訊息102前,處理器13會挑選各相似聲紋資料中位元誤差率小於第一臨界值之百分比最大者作為一確認聲紋資料,並根據確認聲紋資料產生輸出訊息102,透過網路介面15將輸出訊息102傳送至使用者裝置3。此外,於其他實施例中,輸出訊息102亦可根據多筆相似聲紋資料所產生,以包含多筆相似聲紋資料所對應的多媒體資訊。
舉例而言,當一使用者欲了解其正在收聽之一廣播節目(例如:「午安生活」)之資訊時,可透過使用者裝置3之麥克風在一段時間內錄製廣播節目之聲音,以產生錄音資料402。通常,所錄製的聲音包含廣播節 目之聲音以及周遭環境干擾的雜音。隨後,聲紋辨識裝置1自使用者裝置3接收錄音資料402後,將其轉換成待辨識聲紋資料113,並將待辨識聲紋資料113與聲紋資料庫中之各聲紋資料111進行位元差異值比對。當獲得一相似聲紋資料後,聲紋辨識裝置1判斷相似聲紋資料之對應的多媒體資訊為廣播節目「午安生活」,將廣播節目「午安生活」的相關資訊透過輸出訊息102傳送給使用者裝置3。
本發明第三實施例請參考第5圖。第三實施例為第一實施例之延伸。於本實施例中,聲紋辨識裝置1係一使用者裝置,例如:智慧型手機、平板電腦等。如第5圖所示,聲紋辨識裝置1更包含一麥克風17以及一顯示器19,麥克風17及顯示器19皆電性連接至處理器13,麥克風17感測錄製對象的聲音,以產生音頻訊號並將其傳送至處理器13。處理器13自麥克風17接收音頻訊號後,根據音頻訊號產生錄音資料,並將錄音資料轉換成待辨識聲紋資料113。隨後,處理器13將待辨識聲紋資料113與其聲紋資料庫中之聲紋資料111比對。當找到相似聲紋資料後,處理器13即根據相似聲紋資料,產生輸出訊息,並透過顯示器19顯示輸出訊息。
類似地,處理器13在比對的過程中,若找到一筆相似聲紋資料即可停止後續的比對程序,直接根據此筆相似聲紋資料產生輸出訊息。然而,於其他實施例中,處理器13於辨識聲紋資料的過程中,亦可將待辨識聲紋資料113與聲紋資料庫中所有的聲紋資料111比對,而嘗試獲得一筆或多筆聲紋資料,並將這些聲紋資料標示為相似聲紋資料。因此,當獲得至少一相似聲紋資料時,於產生輸出訊息前,處理器13會挑選該至少一相似聲紋資料中位元誤差率小於第一臨界值之百分比最大者作為一確認聲紋資料,並根 據確認聲紋資料產生輸出訊息。此外,於其他實施例中,輸出訊息亦可根據多筆相似聲紋資料所產生,以包含多筆相似聲紋資料所對應的多媒體資訊。
舉例而言,當使用者正收看一電視節目且電視節目中一位歌手正在演唱一首歌曲(例如:「rose」)時,使用者想起其智慧型手機(即聲紋辨識裝置1)好像儲存有這首歌曲但卻一時想不起來這首歌曲的歌名。因此,使用者可透過麥克風17在一段時間內感測電視所播放之聲音,並藉由智慧型手機將所錄製之錄音資料轉換成待辨識聲紋資料113並將待辨識聲紋資料113與智慧型手機中所儲存的聲紋資料庫中之各聲紋資料111進行位元差異值比對,以獲得相似聲紋資料。當智慧型手機判斷相似聲紋資料對應至其儲存的歌曲「rose」時,則產生輸出訊息並透過顯示器19顯示。如此一來,使用者即可立即的找到其智慧型手機內所對應的歌曲。
本發明第四實施例係一聲紋辨識方法,其流程圖如第6圖所示。聲紋辨識方法適用於一聲紋辨識裝置(例如:前述實施例之聲紋辨識裝置1)。聲紋辨識裝置包含一儲存器以及一處理器。儲存器儲存具有複數聲紋資料之一聲紋資料庫以及一待辨識聲紋資料。各聲紋資料及待辨識聲紋資料每一者由複數頻帶上之複數子聲紋位元所組成。聲紋辨識方法由處理器所執行。
首先,於步驟S601中,將待辨識聲紋資料與各聲紋資料其中之一進行位元差異值比對,以得到各頻帶上之一位元誤差率。接著,於步驟S603中,計算各頻帶中該等位元誤差率小於一第一臨界值之一百分比。最後,於步驟S605中,當百分比大於一第二臨界值時,將比對之聲紋資料標示為一相似聲紋資料。
此外,於其他實施例中,當聲紋辨識裝置係一伺服器且更包含一網路介面時,本發明之聲紋辨識方法可更包含步驟:透過網路介面自一使用者裝置接收一錄音資料;將錄音資料轉換成待辨識聲紋資料;根據相似聲紋資料,產生一輸出訊息;以及透過網路介面傳送輸出訊息至使用者裝置。
另外,於其他實施例中,當聲紋辨識裝置係一使用者裝置且更包含一麥克風及一顯示器時,本發明之聲紋辨識方法更包含下列步驟:自麥克風接收一音頻訊號;根據音頻訊號產生一錄音資料;將錄音資料轉換成待辨識聲紋資料;根據相似聲紋資料,產生一輸出訊息;以及透過顯示器顯示該輸出訊息。
此外,於其他實施例中,本發明之聲紋辨識方法,可更包含步驟:執行步驟S601至S603,以將待辨識聲紋資料與各聲紋資料進行位元差異值比對;以及當獲得至少一該相似聲紋資料時,挑選至少一相似聲紋資料中百分比最大之相似聲紋資料作為一確認聲紋資料。
再者,當聲紋辨識裝置係一伺服器且更包含一網路介面時,聲紋辨識方法可更包含步驟:透過網路介面自一使用者裝置接收一錄音資料;將錄音資料轉換成待辨識聲紋資料;根據確認聲紋資料,產生一輸出訊息;以及透過網路介面傳送輸出訊息至使用者裝置。另一方面,當聲紋辨識裝置係一使用者裝置且更包含一麥克風及一顯示器時,聲紋辨識方法可更包含下列步驟:自麥克風接收一音頻訊號;根據音頻訊號產生一錄音資料;將錄音資料轉換成待辨識聲紋資料;根據確認聲紋資料,產生一輸出訊息;以及透過顯示器顯示輸出訊息。
除了上述步驟,本發明之聲紋辨識方法亦能執行在所有前述實施例中所闡述之所有操作並具有所有對應之功能,所屬技術領域具有通常知識者可直接瞭解此實施例如何基於所有前述實施例執行此等操作及具有該等功能,故不贅述。
此外,前述本發明之聲紋辨識方法可藉由一電腦程式產品實現。電腦程式產品,儲存有包含複數個程式指令之一電腦程式,在所述電腦程式被載入並安裝於一電子裝置(例如:聲紋辨識裝置1)後,電子裝置之處理器執行所述電腦程式所包含之該等程式指令,以執行本發明之聲紋辨識方法。電腦程式產品可為,例如:唯讀記憶體(read only memory;ROM)、快閃記憶體、軟碟、硬碟、光碟(compact disk;CD)、隨身碟、磁帶、可由網路存取之資料庫或熟習此項技藝者所習知且具有相同功能之任何其它儲存器。
綜上所述,本發明之聲紋辨識方法基於將一待辨識聲紋資料與一聲紋資料庫所儲存之複數聲紋資料進行位元差異值比對,並藉由遮蔽位元誤差率較大的頻帶上的位元差異值比對結果,而僅使用位元誤差率較小的頻帶上的位元差異值比對結果,來獲得相似聲紋資料,以提高聲紋辨識率。
上述之實施例僅用來例舉本發明之實施態樣,以及闡釋本發明之技術特徵,並非用來限制本發明之保護範疇。任何熟悉此技術者可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,本發明之權利保護範圍應以申請專利範圍為準。

Claims (21)

  1. 一種聲紋辨識裝置,包含:一儲存器,用以儲存具有複數聲紋資料之一聲紋資料庫以及一待辨識聲紋資料,各該聲紋資料及該待辨識聲紋資料每一者由複數頻帶(band)上之複數子聲紋位元(sub-fingerprint bit)所組成;以及一處理器,電性連接至該儲存器,用以執行下列步驟:(a)將該待辨識聲紋資料與該等聲紋資料其中之一進行位元差異值比對,以得到各該頻帶上之一位元誤差率(bit error rate;BER);(b)計算該等頻帶中該等位元誤差率小於一第一臨界值之一百分比(percentage);以及(c)當該百分比大於一第二臨界值時,將比對之該聲紋資料標示為一相似聲紋資料。
  2. 如請求項1所述之聲紋辨識裝置,其中該第一臨界值為0.3,以及該第二臨界值為25%。
  3. 如請求項1所述之聲紋辨識裝置,其中該聲紋辨識裝置係一伺服器且更包含電性連接至該處理器之一網路介面,該處理器更透過該網路介面自一使用者裝置接收一錄音資料,並將該錄音資料轉換成該待辨識聲紋資料,以及該處理器更根據該相似聲紋資料,產生一輸出訊息,並透過該網路介面傳送該輸出訊息至該使用者裝置。
  4. 如請求項1所述之聲紋辨識裝置,其中該聲紋辨識裝置係一使用者裝置且更包含電性連接至該處理器之一麥克風及一顯示器,該處理器自該麥克風接收一音頻訊號,以根據該音頻訊號產生一錄音資料,並將該錄音資 料轉換成該待辨識聲紋資料,以及該處理器更根據該相似聲紋資料,產生一輸出訊息,並透過該顯示器顯示該輸出訊息。
  5. 如請求項1所述之聲紋辨識裝置,其中該處理器更重複執行步驟(a)至(c),以將該待辨識聲紋資料與各該聲紋資料進行該位元差異值比對,以及當獲得至少一該相似聲紋資料時,該處理器更挑選該至少一該相似聲紋資料中該百分比最大之該相似聲紋資料作為一確認聲紋資料。
  6. 如請求項5所述之聲紋辨識裝置,其中該聲紋辨識裝置係一伺服器且更包含電性連接至該處理器之一網路介面,該處理器更透過該網路介面自一使用者裝置接收一錄音資料,並將該錄音資料轉換成該待辨識聲紋資料,以及該處理器更根據該確認聲紋資料,產生一輸出訊息,並透過該網路介面傳送該輸出訊息至該使用者裝置。
  7. 如請求項5所述之聲紋辨識裝置,其中該聲紋辨識裝置係一使用者裝置且更包含電性連接至該處理器之一麥克風及一顯示器,該處理器自該麥克風接收一音頻訊號,以根據該音頻訊號產生一錄音資料,並將該錄音資料轉換成該待辨識聲紋資料,以及該處理器更根據該確認聲紋資料,產生一輸出訊息,並透過該顯示器顯示該輸出訊息。
  8. 一種用於一聲紋辨識裝置之聲紋辨識方法,該聲紋辨識裝置包含一儲存器以及一處理器,該儲存器儲存具有複數聲紋資料之一聲紋資料庫以及一待辨識聲紋資料,各該聲紋資料及該待辨識聲紋資料每一者由複數頻帶上之複數子聲紋位元所組成,該聲紋辨識方法由該處理器執行且包含下列步驟:(a)將該待辨識聲紋資料與該等聲紋資料其中之一進行位元差異值 比對,以得到各該頻帶上之一位元誤差率;(b)計算該等頻帶中該等位元誤差率小於一第一臨界值之一百分比;以及(c)當該百分比大於一第二臨界值時,將比對之該聲紋資料標示為一相似聲紋資料。
  9. 如請求項8所述之聲紋辨識方法,其中該第一臨界值為0.3,以及該第二臨界值為25%。
  10. 如請求項8所述之聲紋辨識方法,其中該聲紋辨識裝置係一伺服器且更包含一網路介面,以及該聲紋辨識方法更包含下列步驟:透過該網路介面自一使用者裝置接收一錄音資料;將該錄音資料轉換成該待辨識聲紋資料;根據該相似聲紋資料,產生一輸出訊息;以及透過該網路介面傳送該輸出訊息至該使用者裝置。
  11. 如請求項8所述之聲紋辨識方法,其中該聲紋辨識裝置係一使用者裝置且更包含一麥克風及一顯示器,以及該聲紋辨識方法更包含下列步驟:自該麥克風接收一音頻訊號;根據該音頻訊號產生一錄音資料;將該錄音資料轉換成該待辨識聲紋資料;根據該相似聲紋資料,產生一輸出訊息;以及透過該顯示器顯示該輸出訊息。
  12. 如請求項8所述之聲紋辨識方法,更包含下列步驟:重複執行步驟(a)至(c),以將該待辨識聲紋資料與各該聲紋資料進行 該位元差異值比對;以及當獲得至少一該相似聲紋資料時,挑選該至少一該相似聲紋資料中該百分比最大之該相似聲紋資料作為一確認聲紋資料。
  13. 如請求項12所述之聲紋辨識方法,其中該聲紋辨識裝置係一伺服器且更包含一網路介面,以及該聲紋辨識方法更包含下列步驟:透過該網路介面自一使用者裝置接收一錄音資料;將該錄音資料轉換成該待辨識聲紋資料;根據該確認聲紋資料,產生一輸出訊息;以及透過該網路介面傳送該輸出訊息至該使用者裝置。
  14. 如請求項12所述之聲紋辨識方法,其中該聲紋辨識裝置係一使用者裝置且更包含一麥克風及一顯示器,以及該聲紋辨識方法更包含下列步驟:自該麥克風接收一音頻訊號;根據該音頻訊號產生一錄音資料;將該錄音資料轉換成該待辨識聲紋資料;根據該確認聲紋資料,產生一輸出訊息;以及透過該顯示器顯示該輸出訊息。
  15. 一種電腦程式產品,儲存有包含複數個程式指令之一電腦程式,在該電腦程式被具有一處理器之一聲紋辨識裝置載入後,該處理器執行該等程式指令,以執行一聲紋辨識方法,該聲紋辨識裝置之一儲存器儲存具有複數聲紋資料之一聲紋資料庫以及一待辨識聲紋資料,各該聲紋資料及該待辨識聲紋資料每一者由複數頻帶上之複數子聲紋位元所組成,該聲紋辨識方法包含下列步驟: (a)將該待辨識聲紋資料與該等聲紋資料其中之一進行位元差異值比對,以得到各該頻帶上之一位元誤差率;(b)計算該等頻帶中該等位元誤差率小於一第一臨界值之一百分比;以及(c)當該百分比大於一第二臨界值時,將比對之該聲紋資料標示為一相似聲紋資料。
  16. 如請求項15所述之電腦程式產品,其中該第一臨界值為0.3,以及該第二臨界值為25%。
  17. 如請求項15所述之電腦程式產品,其中該聲紋辨識裝置係一伺服器且更包含一網路介面,以及該聲紋辨識方法更包含下列步驟:透過該網路介面自一使用者裝置接收一錄音資料;將該錄音資料轉換成該待辨識聲紋資料;根據該相似聲紋資料,產生一輸出訊息;以及透過該網路介面傳送該輸出訊息至該使用者裝置。
  18. 如請求項15所述之電腦程式產品,其中該聲紋辨識裝置係一使用者裝置且更包含一麥克風及一顯示器,以及該聲紋辨識方法更包含下列步驟:自該麥克風接收一音頻訊號;根據該音頻訊號產生一錄音資料;將該錄音資料轉換成該待辨識聲紋資料;根據該相似聲紋資料,產生一輸出訊息;以及透過該顯示器顯示該輸出訊息。
  19. 如請求項15所述之電腦程式產品,其中該聲紋辨識方法更包含下列步驟: 重複執行步驟(a)至(c),以將該待辨識聲紋資料與各該聲紋資料進行該位元差異值比對;以及當獲得至少一該相似聲紋資料時,挑選該至少一該相似聲紋資料中該百分比最大之該相似聲紋資料作為一確認聲紋資料。
  20. 如請求項19所述之電腦程式產品,其中該聲紋辨識裝置係一伺服器且更包含一網路介面,以及該聲紋辨識方法更包含下列步驟:透過該網路介面自一使用者裝置接收一錄音資料;將該錄音資料轉換成該待辨識聲紋資料;根據該確認聲紋資料,產生一輸出訊息;以及透過該網路介面傳送該輸出訊息至該使用者裝置。
  21. 如請求項19所述之電腦程式產品,其中該聲紋辨識裝置係一使用者裝置且更包含一麥克風及一顯示器,以及該聲紋辨識方法更包含下列步驟:自該麥克風接收一音頻訊號;根據該音頻訊號產生一錄音資料;將該錄音資料轉換成該待辨識聲紋資料;根據該確認聲紋資料,產生一輸出訊息;以及透過該顯示器顯示該輸出訊息。
TW105127245A 2016-08-25 2016-08-25 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品 TWI612516B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW105127245A TWI612516B (zh) 2016-08-25 2016-08-25 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品
CN201610806957.4A CN107785023A (zh) 2016-08-25 2016-09-07 声纹辨识装置及其声纹辨识方法
US15/289,949 US20180060429A1 (en) 2016-08-25 2016-10-10 Audio fingerprint recognition apparatus, audio fingerprint recognition method and non-transitory computer readable medium thereof
CA2946908A CA2946908A1 (en) 2016-08-25 2016-10-28 Audio fingerprint recognition apparatus, audio fingerprint recognition method and non-transitory computer readable medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105127245A TWI612516B (zh) 2016-08-25 2016-08-25 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品

Publications (2)

Publication Number Publication Date
TWI612516B TWI612516B (zh) 2018-01-21
TW201810248A true TW201810248A (zh) 2018-03-16

Family

ID=61242618

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105127245A TWI612516B (zh) 2016-08-25 2016-08-25 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品

Country Status (4)

Country Link
US (1) US20180060429A1 (zh)
CN (1) CN107785023A (zh)
CA (1) CA2946908A1 (zh)
TW (1) TWI612516B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10652170B2 (en) 2017-06-09 2020-05-12 Google Llc Modification of audio-based computer program output
CN110111796B (zh) * 2019-06-24 2021-09-17 秒针信息技术有限公司 识别身份的方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5090523B2 (ja) * 2007-06-06 2012-12-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
CN101777130A (zh) * 2010-01-22 2010-07-14 北京大学 一种指纹图像相似度评价方法
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US9093120B2 (en) * 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
US8949872B2 (en) * 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
CN103730128A (zh) * 2012-10-13 2014-04-16 复旦大学 一种基于频谱sift特征描述子的音频片段认证方法
US9466317B2 (en) * 2013-10-11 2016-10-11 Facebook, Inc. Generating a reference audio fingerprint for an audio signal associated with an event
TWI543151B (zh) * 2014-03-31 2016-07-21 Kung Lan Wang Voiceprint data processing method, trading method and system based on voiceprint data

Also Published As

Publication number Publication date
TWI612516B (zh) 2018-01-21
CN107785023A (zh) 2018-03-09
CA2946908A1 (en) 2018-02-25
US20180060429A1 (en) 2018-03-01

Similar Documents

Publication Publication Date Title
JP6603754B2 (ja) 情報処理装置
CN104246877B (zh) 用于音频信号处理的系统和方法
JP5090523B2 (ja) 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
US7831423B2 (en) Replacing text representing a concept with an alternate written form of the concept
CN106997764B (zh) 一种基于语音识别的即时通信方法和即时通信系统
US20040006481A1 (en) Fast transcription of speech
TW202008349A (zh) 語音標註方法、裝置及設備
CN111261144A (zh) 一种语音识别的方法、装置、终端以及存储介质
US20120290298A1 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
CN107239547A (zh) 用于语音点歌的语音纠错方法、终端及存储介质
US11342003B1 (en) Segmenting and classifying video content using sounds
TWI612516B (zh) 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品
CN106816151A (zh) 一种字幕对准方法及装置
WO2019184517A1 (zh) 一种音频指纹提取方法及装置
CN111128134A (zh) 声学模型训练方法和语音唤醒方法、装置及电子设备
US20230289622A1 (en) Volume recommendation method and apparatus, device and storage medium
US20060224616A1 (en) Information processing device and method thereof
CN107679196A (zh) 一种多媒体识别方法、电子设备及存储介质
WO2019153406A1 (zh) 音频段落识别方法以及装置
TW202016922A (zh) 有聲播放裝置及其播放方法
US20230238008A1 (en) Audio watermark addition method, audio watermark parsing method, device, and medium
JP2006227330A (ja) 音響信号に対する情報の埋め込み装置・方法、音響信号からの情報の抽出装置・方法
JP5082257B2 (ja) 音響信号検索装置
WO2023005193A1 (zh) 字幕显示方法及装置
CN114155841A (zh) 语音识别方法、装置、设备及存储介质