TW202213326A - 用於說話者驗證的廣義化負對數似然損失 - Google Patents
用於說話者驗證的廣義化負對數似然損失 Download PDFInfo
- Publication number
- TW202213326A TW202213326A TW110135572A TW110135572A TW202213326A TW 202213326 A TW202213326 A TW 202213326A TW 110135572 A TW110135572 A TW 110135572A TW 110135572 A TW110135572 A TW 110135572A TW 202213326 A TW202213326 A TW 202213326A
- Authority
- TW
- Taiwan
- Prior art keywords
- speaker
- target
- user
- vector
- embedding
- Prior art date
Links
- 238000012795 verification Methods 0.000 title abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 46
- 230000005236 sound signal Effects 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 description 22
- 230000015654 memory Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 230000001537 neural effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 6
- 230000005284 excitation Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 101100043388 Arabidopsis thaliana SRK2D gene Proteins 0.000 description 2
- 101100355601 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAD53 gene Proteins 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002207 retinal effect Effects 0.000 description 2
- 101150087667 spk1 gene Proteins 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- -1 SPK3 Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004256 retinal image Effects 0.000 description 1
- 230000004266 retinal recognition Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Collating Specific Patterns (AREA)
Abstract
用於說話者驗證的系統和方法,包括藉由最小化一廣義化負對數似然函數來優化一類神經網路,包含接收一訓練批次的音頻樣本,該音頻樣本包括多個說話者中每一個的多個口語聲調,從該等音頻樣本中提取特徵以產生一批特徵,使用一類神經網路處理該批特徵以產生多個嵌入向量,該等嵌入向量設置為按說話者區分音頻樣本,至少部分地基於該等嵌入向量,計算該訓練批次的一廣義化負對數似然損失(Generalized negative log-likelihood loss,GNLL)值,以及修改該類神經網路的權重,以減少該GNLL值。計算該GNLL可以包含,至少部分地基於該等嵌入向量,為多個說話者中的每一個產生一質心向量。
Description
根據一個以上的具體實施例,本申請案一般關於音頻訊號處理,並且更具體而言例如,關於訓練及/或實作用於說話者驗證的音頻分析系統的系統及方法。
生物特徵認證用於各種電子系統中執行任務,如認證一支付交易中的使用者及帳戶資訊、限制對一個人電子裝置的存取、以及控制對一個以上的實體位置的存取等。生物特徵識別技術的進步,使得使用如指紋識別、人臉辨識、虹膜掃描及語音辨識等技術的個人裝置(例如手機、可穿戴裝置、智慧音箱)越來越多採用生物特徵認證。然而,硬體及處理限制、使用這些裝置的各種情況及環境等因素,可能使安全可靠的生物特徵認證具有挑戰性。
隨著如智慧音箱等語音互動裝置的激增,以及免持語音控制應用的普及,對語音認證的需求正在增加。比起如指紋比對或虹膜掃描等其他生物特徵技術,語音生物特徵認證系統具有相對高的錯誤接受率(False acceptance rate,FAR)及錯誤拒絕率(False rejection rate,FRR)。該等語音互動裝置可用於各種環境中,但環境也會降低語音生物特徵認證的可靠性及安全性。在一受控、安靜的環境中,語音生物特徵識別的可靠性可能會達到可接受的水準,但當該語音控制裝置在一嘈雜的環境中操作時,可靠性會下降。增加昂貴硬體或阻礙免持、語音控制應用的使用者體驗之解決方案,在許多情境下是不被期望的。因此,當與行動裝置、在一嘈雜環境中及/或與需要高度安全性及可靠性的應用程式一起使用時,語音認證仍具挑戰性。
鑑於上述情況,本領域持續需要改進的語音生物特徵識別系統及方法,當用於各種裝置、應用程式及環境時是安全可靠的。
本揭示涉及用於說話者驗證的系統及方法,包含結合一廣義化負對數似然損失(generalized negative log likelihood loss 、GNLL)函數的改進訓練系統及方法。在各種具體實施例中,GNLL函數用於一有效的訓練程序以改善說話者驗證模型的訓練,勝過傳統作法。所揭示的具體實施例可用於改善文本相依或文本獨立的語音生物特徵解決方案的性能,並且還可配合應用於人臉識別及其他生物特徵模態,以提高穩健性。本揭示提供一穩健的解決方案,適用於如平板電腦、手機、膝上型電腦等多種裝置,提供語音生物特徵識別在真實環境中具有改進的穩健性以抗噪音及改進的FAR及FRR性能。
在各種具體實施例中,一種方法包含接收一訓練批次的音頻樣本,包括多個說話者中每一個的多個口語聲調(例如,一第一數量的說話者及一第二數量的每個說話者的口語聲調);從該等音頻樣本中提取特徵以產生一批特徵;使用一類神經網路處理該批特徵以產生多個嵌入向量,該等嵌入向量設置為按說話者區分音頻樣本;至少部分地基於該等嵌入向量,計算該訓練批次的一廣義化負對數似然損失(GNLL)值;以及修改該類神經網路的權重,以減少該GNLL值。計算該GNLL可以包含,至少部分地基於該等嵌入向量,為多個說話者中的每一個產生一質心向量。修改該類神經網路的權重以減少GNLL值可以包含,使用反向傳播優化該類神經網路。
該方法還可以包括一註冊程序,該程序包括接收一註冊音頻訊號,其包括與一已知使用者相關聯的言語;識別該註冊音頻訊號中的言語段;從該等言語段中提取使用者特徵;將該等提取的使用者特徵輸入該類神經網路,以產生多個使用者嵌入向量;以及儲存一質心向量,該質心向量是從該等使用者嵌入向量及一使用者識別符計算而來的。
該方法還可以包括一說話者認證程序,包括從一目標說話者接收包括言語的一目標音頻訊號;從該目標音頻訊號中提取目標特徵;透過該類神經網路處理該等目標特徵,以產生至少一個目標嵌入向量;以及藉由比較該目標嵌入向量與和一使用者識別符相關聯的一儲存質心向量,來判斷該目標說話者是否與該使用者識別符相關聯。在一些具體實施例中,判斷該目標說話者是否與一使用者識別符相關聯包括,計算測量該目標嵌入向量與該儲存質心向量之間的一相似性的一信賴分數。計算一信賴分數可包含,計算一目標嵌入向量與該質心向量的一內積並應用一sigmoid函數。在一些具體實施例中,判斷該目標說話者是否與一使用者識別符相關聯還包含,儲存多個使用者識別符及對應的質心向量,其中該等多個使用者識別符中的每一個與一不同的說話者相關聯,並計算該等多個使用者識別符中每一個的一信賴分數,部分地基於一似然,該似然是該目標嵌入向量與該對應的質心向量係來自相同說話者。
在各種具體實施例中,該方法還包含在該等嵌入向量中插入一額外邊界,該額外邊界設置為在該等嵌入向量中分離說話者類別的嵌入。該等嵌入向量可以是單位向量。
在一些具體實施例中,一種系統包含一邏輯裝置,設置為使用一廣義化負對數似然損失(GNLL)函數來訓練一類神經網路,該邏輯裝置設置為執行邏輯,包括:接收一訓練批次的音頻樣本,包括多個說話者中每一個的多個口語聲調(例如,一第一數量的說話者及一第二數量的每個說話者的音頻樣本);從該等音頻樣本中提取特徵以產生一批特徵;使用一類神經網路處理該批特徵以產生嵌入向量,該等嵌入向量設置為按說話者區分音頻樣本;至少部分地基於該等嵌入向量,計算該訓練批次的一廣義化負對數似然損失(GNLL)值;以及修改該類神經網路的權重,以減少該GNLL值。計算該GNLL還可包含,至少部分地基於該等嵌入向量,為多個說話者中的每一個產生一質心向量。在一些具體實施例中,修改該類神經網路的權重以減少GNLL值包括,使用反向傳播優化該類神經網路。
在一些具體實施例中,一種系統包含一儲存部件;以及一邏輯裝置,設置為藉由執行邏輯來驗證一說話者的一身份,該邏輯包括執行一註冊程序。該註冊程序可包含接收一註冊音頻訊號,該音頻訊號包括與一已知使用者相關聯的言語;識別該註冊音頻訊號中的言語段;從該等言語段中提取使用者特徵;透過類神經網路處理該等提取的使用者特徵,以產生多個使用者嵌入向量;以及儲存一質心向量,該質心向量是從該等使用者嵌入向量及一使用者識別符計算而來的。
在一些具體實施例中,該邏輯裝置還設置為執行邏輯,該邏輯包括執行一說話者認證程序,該認證程序包含從一目標說話者接收包括言語的一目標音頻訊號;從該目標音頻訊號中提取目標特徵;透過該類神經網路處理該等目標特徵,以產生至少一個目標嵌入向量;以及藉由比較該目標嵌入向量與和一使用者識別符相關聯的一儲存質心向量,來判斷該目標說話者是否與該使用者識別符相關聯。在一些具體實施例中,判斷該目標說話者是否與一使用者識別符相關聯包含,藉由計算一目標嵌入向量與該質心向量的一內積並應用一sigmoid函數,來計算測量該目標嵌入向量與該儲存質心向量之間的一相似性的一信賴分數。在一些具體實施例中,判斷該目標說話者是否與一使用者識別符相關聯還包含,儲存多個使用者識別符及對應的質心向量,其中該等多個使用者識別符中的每一個與一唯一的說話者相關聯;以及計算該等多個使用者識別符中每一個的一信賴分數,部分地基於一似然,該似然是該目標嵌入向量與該對應的質心向量係來自相同說話者。
本揭示的範圍由申請專利範圍所定義,申請專利範圍透過引用併入此節。藉由考慮下列一個以上的具體實施例的詳細說明,本領域具有通常知識者將更完整地理解本揭示以及實現其額外的優點。參考首先簡單說明之圖式中的所附圖面。
本揭示涉及用於說話者驗證的系統及方法,包含結合一廣義化負對數似然損失(GNLL)函數的改進的訓練系統及方法。說話者驗證(Speaker verification,SV)根據說話者的已知口語聲調(例如,登錄或註冊口語聲調),典型上包含驗證口語聲調是否屬於一個特定人的程序。說話者驗證的兩種類型是文本相依(text dependent)說話者驗證及文本獨立(text independent)說話者驗證。文本相依說話者驗證要求說話者說出一特定片語,然後將其與一註冊程序中記錄的片語一先前發聲進行比較。文本獨立說話者驗證包含透過不依賴一特定片語說話者先前記錄口語聲調的一程序,來識別一說話者的聲紋。
相較於傳統作法,在各種具體實施例中, GNLL函數用於一有效的訓練程序以改善說話者驗證模型的訓練。GNLL訓練是基於處理一批資料中的多個口語聲調,其中可能包括N個不同的說話者,及每個說話者的M個口語聲調樣本。該損失是一批次中所有口語聲調的平均值。所揭示的具體實施例可用於改善文本相依或文本獨立的語音生物特徵解決方案的性能,用於人臉識別及其他生物特徵解決方案,以提高穩健性。使用GNLL訓練的一類神經網路,可以在如平板電腦、手機、膝上型電腦等各種裝置上實作,與語音生物特徵識別技術一起使用,以在真實環境中改善其穩健性以抗噪音及改善FAR/FRR性能。
參照圖1,現將根據一個以上的具體實施例,描述一示例類神經網路程序。一程序100包含接收一音頻輸入樣本110,表示偵測到一說話者說出的一關鍵詞。在一些具體實施例中,系統包含一個以上的麥克風,其感測聲音並將聲音轉換為電訊號。接收到的音頻訊號透過音頻輸入電路組及一個以上的數位音頻處理系統進行處理,該系統可以包含一語音活動偵測器(Voice activity detector,VAD),該VAD設置為識別接收到的音頻訊號中的言語段、降噪、回聲消除、混響消除、空間處理及/或其他音頻處理。在一些具體實施例中,在處理音頻輸入樣本110以輸入到程序100之前,數位音頻處理系統還識別一關鍵字或片語。
音頻輸入樣本110被饋送到一類神經網路120。在各種具體實施例中,在輸入到類神經網路120之前,輸入言語樣本源自固定長度訊框中的一音頻訊號,該等訊框經過預處理以用於特徵提取(例如,使該音頻訊號穿過有限脈衝響應濾波器、將音頻訊號劃分成訊框、應用回聲及雜訊消除/抑制等)。
類神經網路120可包含一長短期記憶(Long short-term memory,LSTM)網路,該網路包含一輸入層122、LSTM隱藏層(例如,LSTM層124a、124b及124c)及一輸出層126。類神經網路120是一類神經網路的一示例,可以與此處揭露的改進一起使用,並且可以使用其他類型的類神經網路及設置,如一卷積類神經網路(Convolutional neural network,CNN)、一基於注意力(attention based)的網路、設置有不同數量隱藏層的一網路等。音頻輸入樣本110的類神經網路120的輸出,是一嵌入向量130,可以表示D維空間中的輸入資料(例如,D=128的一固定長度)。嵌入向量(ek )表示輸入資料的第k個樣本的一固定長度。
參照圖2,將根據一個以上的具體實施例,更詳細地討論一訓練程序。程序200接收訓練資料的一輸入批次210,作為包括資料口語聲調的一系列音頻樣本,透過一特徵提取程序220運作以產生用於說話者識別的一批特徵230。輸入批次210具有N×M個口語聲調,其中N是說話者的數量,M是每個說話者的口語聲調數量。輸入批次210用於為說話者(例如,SPK1、SPK2及SPK3)中的每一個提取一批特徵230。在一些系統中,可以用來自乾淨及/或目標環境中的已知說話者所記錄的口語聲調、合成產生的音頻樣本及/或其他音頻訓練資料,來填充該批次。
在各種具體實施例中,提取的特徵可包含透過一個以上的修改群延遲函數、基於頻譜斜率的分析、短時傅立葉轉換分析、倒頻譜分析、複雜倒頻譜分析、線性預測係數、線性預測倒頻譜係數、線性預測倒頻譜的係數、梅爾頻率倒頻譜係數、離散小波轉換、感知線性預測、梅爾縮放離散小波分析及/或能從音頻輸入資料產生特徵以區分多個說話者的其他音頻特徵分析所導出的特徵。在各種具體實施例中也可以使用其他音頻特徵提取作法(例如,與言語辨識、噪音、音樂等相關的特徵),以從音頻樣本中提取與一特定實作相關的額外資訊。
在所繪示的具體實施例中,每一批資料或特徵具有N=3個說話者,且每一說話者具有M=3個樣本(例如,圖2中所識別的每一說話者的3個樣本)。這批特徵230被饋送到一類神經網路240(例如,一LSTM網路),以獲得每一資料樣本的嵌入向量(embedding vector)250。第j個說話者的第i個樣本的嵌入向量用eji
標誌。每一類別(ck )的嵌入向量(eji )及計算的質心向量(例如,由一相似性矩陣260表示),用於計算輸入批資料的一信賴分數及/或相似性度量。如圖所繪示,每一類別ck 表示一對應的說話者,如類別c 1中的嵌入向量262、類別c 2中的嵌入向量264及類別c 3中的嵌入向量266。在一些具體實施例中,每一說話者SPK
n的質心是藉由平均嵌入向量獲得,且假設每一樣本的嵌入向量具有一單位範數(unit norm)。應理解,在其他具體實施例中,可以使用不同數量的說話者及/或樣本,且可以使用其他已知的統計方法獲得每一說話者的質心。
每一說話者id的質心向量儲存在一記憶體或資料庫中,然後計算任何說話者的任何新樣本與質心之間的相似性。在一個具體實施例中,藉使用向量的內積加上sigmoid函數(σ(. )),來計算信賴分數。計算一信賴分數(pji,k ),以判斷第j個說話者的第i個樣本是否屬於第k個說話者,如下:
值w(權重)及b(偏誤)是純量,可以在訓練期間學習。符號(∙)標誌兩個向量的點積。值b 0及α是固定的超參數值,不會在訓練期間學習。值τ是時期或迭代次數。
比起類內(intra class)的分數,計算類間相似度的信賴分數具有一個附加項b 0(1 - eατ )。這是一個額外的邊界,引入用以強制類間嵌入至少在此b 0(1 - eατ )邊界下彼此遠離。此外,該邊界將指數地(exponentially)增加到一最終值(b 0)。
如圖3A及圖3B所繪示,為類間類添加此額外邊界的效果,將導致弧空間中的嵌入向量350(因為嵌入向量被假定為單位範數)具有外加邊界。左邊的圖示出未添加額外邊界時的嵌入向量300,而右邊的圖則示出添加額外邊界時的嵌入向量350,如信賴分數方程式所指示。換句話說,當額外邊界b 0(1 - eατ )與信賴分數方程式結合時,最相近的類別之間的測地距離差距(geodesic distance gap)變得明顯。
訓練後,儲存每一說話者的質心以識別說話者。將使用質心及嵌入向量計算來自任何說話者的每一新樣本的信賴分數,並將分數與一預定義閾值進行比較,以決定說話者是否屬於一特定使用者ID。藉由引入另一概率分類器,如將應用於學習的嵌入向量的概率線性判別分析(Probabilistic linear discriminant analysis,PLDA)分類器,可以進一步改善所提出的系統的性能。
所提出的系統目標在用於語音ID解決方案,其中使用說話者的語音來驗證說話者的身份。此系統可用於文本相依及文本獨立的語音ID。當要求說話者發出一特定關鍵字(在文本相依的語音ID中)或要求他說出任何通行片語或言語內容時,所提出的系統可用於驗證一說話者的ID,並且ID將被驗證。此外,所提出的解決方案可用於改善其他認證問題,如臉部ID或其他生物特徵識別。類似於語音ID,將使用一個人臉部的幾張照片進行註冊,然後使用其臉部驗證使用者的ID。
參照圖4A,將根據本揭示的一個以上的具體實施例,描述用於識別說話者的一類神經網路的一示例訓練程序。如前所述,示例訓練程序400使用一廣義化負對數似然損失作法,來訓練用於說話者驗證的一類神經網路。在步驟402中,一訓練系統接收一批訓練資料,包括來自多個說話者的多個口語聲調(例如,N個說話者及每個說話者的M個口語聲調)。在步驟404中,訓練系統從訓練批次中的每一資料樣本中提取特徵,以產生一批特徵。在步驟406中,將該批訓練特徵輸入到一類神經網路,以產生每一樣本的一嵌入向量。在步驟408中,使用一廣義化負對數似然損失函數,為每一說話者計算來自該訓練批次的總損失。在步驟410中,透過一反向傳播程序調整類神經網路的權重,以最小化計算的損失(例如,藉由計算損失函數相對於權重的梯度)。然後訓練程序400繼續下一個訓練批次。
訓練後,可使用類神經網路以識別說話者。參照圖4B,將根據一個以上的具體實施例,描述一示例說話者註冊程序450。說話者註冊程序450開始於一系統及/或裝置的一註冊程序452。在一些具體實施例中,一使用者裝置設置有至少一個麥克風、用於儲存使用者資料的儲存部件及用於識別說話者的一經訓練的類神經網路、以及一計算系統,其設置為執行說話者註冊程序450的步驟。該註冊程序記錄來自一已知使用者的言語,可以使用一說話者ID使系統識別該使用者。在步驟454中,系統從所記錄的言語段中提取特徵。此程序可包含語音識別、處理言語以識別一個以上的口語聲調、定框(framing)及/或用來準備將記錄的音頻輸入到經訓練的類神經網路的其他步驟。在步驟456中,將該等特徵輸入到經訓練的類神經網路,以產生每一口語聲調的一嵌入向量。在步驟458中,計算說話者的質心並將其與一說話者識別符一起儲存。系統現在可用於說話者識別。
參照圖4C,將根據一個以上的具體實施例,描述驗證一說話者的一示例程序470。例如,藉由啟動一說話者驗證介面並提示使用者對一個以上的麥克風說話(步驟472),可以進行一說話者識別判斷。在步驟474中,處理從麥克風接收的該等音頻訊號,以抑制噪音、消除回聲、識別言語段、增強一言語目標及/或以其他方式準備音頻訊號以輸入到為言語驗證而訓練的一類神經網路。在步驟476中,系統從所記錄的言語段中提取特徵,並將該等特徵輸入到一經訓練的類神經網路,以產生嵌入向量。在步驟478中,系統計算一個以上的經儲存的說話者ID質心及使用者嵌入向量的一信賴分數,以及在步驟480中,將信賴分數與一閾值進行比較,以決定說話者是否屬於一特定ID。例如,若一說話者ID的信賴分數大於一預定閾值,則使用者可識別為具有特定說話者ID的說話者。
參照圖5,現將根據一個以上的具體實施例,描述一示例類神經網路及訓練程序,可用於產生經訓練的人工智慧訓練模型以識別說話者。類神經網路500可以實作為任何類神經網路,如本文所教示的,設置為接收輸入資料樣本並產生對應的嵌入向量,如一遞迴類神經網路、一卷積類神經網路(CNN)等。
類神經網路500使用一監督式學習程序來訓練,該監督式學習程序將輸入資料與一基準真相(例如,預期網路輸出)進行比較。對於一說話者驗證系統而言,訓練資料集502可包含標記有一對應說話者ID的樣本言語輸入(例如,一音頻樣本)。如本文所述,言語輸入包括一批言語樣本,如多個說話者中的每一個的多個言語樣本,將該等言語樣本提供給一特徵提取程序504,以產生輸入到類神經網路500的一批特徵。比較輸入批次與類神經網路500的輸出,並將產生的輸出資料與基準真相輸出資料之間的差異反饋到類神經網路500中,以對各種可訓練的權重及偏誤進行校正。如圖所繪示,類神經網路500的輸出包括嵌入向量532,並且使用一GNLL程序540計算損失,如本文所述。使用一反向傳播技術(例如,使用一隨機梯度下降演算法或類似演算法),將損失542反饋到類神經網路500中。在一些示例中,訓練資料組合可以多次呈現給類神經網路500,直到整體GNLL損失函數收斂到一可接受水準。
在一些示例中,輸入層510、隱藏層520及/或輸出層530中的每一個包括一個以上的神經元,每一神經元應用其輸入
x的組合(例如,使用一可訓練權重矩陣W的一加權和),添加一可選的可訓練偏誤
b,並應用一激勵函數
f,以產生一輸出
a,如方程式
a=
f(W
x+
b)所示。在一些示例中,激勵函數
f可以是一線性激勵函數、具有上限及/或下限的一激勵函數、一log-sigmoid函數、一雙曲正切函數、一整流線性單位函數及/或其類似物。在一些示例中,神經元中的每一個可以具有一相同或不同的激勵函數。
訓練後,可以在一遙控裝置的執行時期(run time)環境中,實作類神經網路500以接收言語口語聲調並產生相關的嵌入向量,以與一質心向量進行比較。應當理解,類神經網路500的架構僅是代表性的,且其他架構也是可能的,包含僅具有一個或數個隱藏層的一類神經網路、每層具有不同神經元數量的一類神經網路、具有不同類隱藏層的一類神經網路,如卷積層及注意力層、及/或其類似物。
在其他具體實施例中,訓練資料集可包含與一個以上類型的感測器相關聯的捕獲感測器資料,如言語口語聲調、可見光影像、指紋資料、及/或其他類型的生物特徵資訊。訓練資料集可包含用於一人臉辨別系統的一使用者臉部影像、用於一指紋識別系統的指紋影像、用於一視網膜識別系統的視網膜影像、及/或用於訓練另一種類型的生物特徵識別系統的資料集。
圖6根據本揭示的一個以上的具體實施例,繪示一示例系統600,其設置為實作用於說話者驗證的一廣義化負對數似然損失。然而,示例系統600中所描繪的所有部件並非都是必需的,並且一個以上的具體實施例可包含圖中未示出的額外部件。在不脫離本揭示範圍的情況下,該等部件的設置及類型可以進行變化,包含額外的部件、不同的部件及/或更少的部件。
系統600包含一認證裝置620,其包含處理部件630、音頻輸入處理部件640、使用者輸入/輸出部件646、通訊部件648及一記憶體650。在一些具體實施例中,可以包含其他感測器及部件645,以促進額外的生物特徵認證模態,如指紋辨識、人臉辨識、虹膜辨識等。認證裝置620的各種部件,可以透過一匯流排或其他電子通訊介面來介接及通訊。
例如,認證裝置620可以實作在一通用計算裝置上,作為一單晶片系統、積體電路或其他處理系統,並且可以設置為作為一電子系統610的一部分操作。在一些具體實施例中,電子系統610可以是或可以耦合到一手機、一平板電腦、一膝上型電腦、一桌上型電腦、一汽車、一個人數位助理(Personal digital assistant,PDA)、一電視、一語音互動裝置(例如,一智慧音箱、會議擴音系統等)、一網路或系統存取點、及/或其他設置為接收使用者語音輸入以進行認證及/或識別的裝置系統。
處理部件630可包含一個以上的一處理器、一控制器、一邏輯裝置、一微處理器、一單核處理器、一多核處理器、一微控制器、一可程式化邏輯裝置(Programmable logic device,PLD)(例如,現場可程式化邏輯閘陣列(Field programmable gate array,FPGA))、一數位訊號處理(Digital signal processing,DSP)裝置、一特殊應用積體電路或其他裝置,這些裝置可以藉由硬佈線、執行軟體指令或兩者的組合進行設置,以執行此處討論的各種操作以增強音源。在所繪示的具體實施例中,處理部件630包含一中央處理單元(Central processing unit,CPU)632、設置為實作用於執行機器學習演算法邏輯的一神經處理單元(Neural processing unit,NPU)634、及/或一圖形處理單元(Graphics processing unit,GPU)636。處理部件630設置為執行儲存在記憶體650及/或其他記憶體部件中的指令。處理部件630可執行認證裝置620及/或電子系統610的操作,包含在圖1至圖5中所揭露的一個以上的處理及/或計算。
記憶體650可以實作為一個以上的記憶體裝置或部件,其設置為儲存資料,包含音頻資料、使用者資料、經訓練的類神經網路、認證資料及程式指令。記憶體650可包含一個以上類型的記憶體裝置,包含揮發性及非揮發性記憶體裝置,如隨機存取記憶體(Random-access memory,RAM)、唯讀記憶體(Read-only memory,ROM)、電子抹除式可複寫唯讀記憶體(Electrically-erasable programmable read-only memory,EEPROM)、快閃記憶體、硬碟機及/或其他類型的記憶體。
音頻輸入處理部件640包括電路及數位邏輯部件,用於接收一音頻輸入訊號,如來自一個以上的使用者644的言語,其藉由一音頻感測器(如一個以上的麥克風642)感測。在各種具體實施例中,音頻輸入處理部件640設置為處理從多個麥克風(如一麥克風陣列)接收的一多聲道輸入音頻流,並產生一增強目標音頻訊號,其包括來自使用者644的語音。
通訊部件648設置為促進認證裝置620與電子系統610及/或一個以上的網路與外部裝置之間的通訊。例如,通訊部件648可以啟用電子系統610與一個以上的本地裝置之間的Wi-Fi(例如,IEEE802.11)或藍牙連線,或者啟用對一無線路由器的連線,以經由一網路680對一外部計算系統提供網路存取。在各種具體實施例中,通訊部件648可包含有線及/或其他無線通訊部件,用於促進認證裝置620及/或其他裝置及部件之間的直接或間接通訊。
在另一實施例中,認證裝置620還可包含其他感測器及部件645。該等其他感測器及部件645可包含其他生物特徵輸入感測器(例如,指紋感測器、視網膜掃描器、用於人臉辨識的視訊或影像擷取等),且使用者輸入/輸出部件646可包含I/O部件(如一觸控螢幕、一觸控板顯示器、一小鍵盤、一個以上的按鈕、轉盤或旋鈕、揚聲器及/或讓一使用者能夠與電子系統610互動的其他可操作部件。
記憶體650包含程式邏輯及資料,其根據在此揭露的一個以上的具體實施例,設置為促進說話者驗證及/或執行認證裝置620及/或電子系統610的其他功能。記憶體650包含程式邏輯,用於指示處理部件630,對透過音頻輸入處理部件640接收的一音頻輸入訊號執行語音處理652,包含言語辨識654。在各種具體實施例中,語音處理652邏輯設置為識別一音頻樣本,包括用於說話者驗證處理之一個以上的口語口語聲調。
記憶體650還包含程式邏輯,用於實作使用者驗證控制662,其可包含用於驗證一使用者644(例如,驗證使用者的身份以進行安全交易,識別對電子系統610的資料或程式的存取權限等)的安全協定。在一些具體實施例中,使用者驗證控制662包含程式邏輯,用於一註冊及/或登記程序,以識別一使用者及/或獲得使用者聲紋資訊,其可包含一唯一使用者識別符及一個以上的嵌入向量。記憶體650還可包括程式邏輯,用於指示處理部件630以執行此處關於圖1至圖5所描述的一語音認證程序664,其中可包含使用廣義化負對數似然損失程序訓練用於驗證說話者的類神經網路、用於從一輸入音頻樣本中提取特徵的特徵提取部件、用於識別嵌入向量及產生質心的程序,或用於識別說話者的其他向量及信賴分數。
記憶體650還可包含其他生物特徵認證程序666,其可包含人臉辨識、指紋識別、視網膜掃描及/或用於一特殊實作的其他生物特徵處理。該其他生物特徵認證程序666可包含特徵提取程序、一個以上的類神經網路、統計分析模組及/或其他程序。在一些具體實施例中,使用者驗證控制662可處理來自語音認證程序664及/或一個以上的其他生物特徵認證程序666的信賴分數或其他資訊,以產生說話者識別判斷。在一些具體實施例中,該其他生物特徵認證程序666包含一類神經網路,該類神經網路是透過使用一批生物特徵輸入資料及在此描述的一GNLL函數所訓練的。
記憶體650還包含資料儲存器656,用於儲存程式及其他資料,包含使用者識別符658及相應的向量660,如使用者質心及/或嵌入向量。在一些具體實施例中,該資料包含系統已登記的使用者資訊,其可以例如在一註冊或登記程序期間、在系統使用期間、或在一已知說話者的言語被麥克風接收的其他程序中取得。每一音頻樣本都與一相應的說話者識別符相關聯,以將該說話者連結到由系統維護的一使用者檔案或其他使用者資訊。
在各種具體實施例中,認證裝置620可透過一網路680與一個以上的伺服器通訊。例如,一類神經網路伺服器690包含處理部件及程式邏輯,其設置為訓練類神經網路(例如,類神經網路訓練模組692),用於如本文圖1至圖5中所述的說話者驗證。在一些具體實施例中,一資料庫694儲存訓練資料696,包含訓練資料集及驗證資料集,用於訓練一個以上的類神經網路模型。經訓練的類神經網路698也可以儲存在資料庫694中以下載到一個以上的執行時期(run time)環境,用於語音認證程序664。還可以將經訓練的類神經網路698提供給一個以上的驗證伺服器682,該伺服器提供雲或其他連網的說話者識別服務。例如,驗證伺服器682可從一認證裝置620接收生物特徵資料,如語音資料或其他生物特徵資料,並將資料上傳到驗證伺服器682以供進一步處理。上傳的資料可包含一接收到的音頻樣本、所提取的特徵、嵌入向量及/或其他資料。驗證伺服器682透過一生物特徵認證程序684,該程序包含根據本揭示所訓練的一個以上類神經網路(例如,儲存在一資料庫686中的經訓練的類神經網路688)以及系統及/或使用者資料689,以將該樣本與已知的認證因素及/或使用者識別符進行比較,來判斷使用者644是否已經被驗證。在各種具體實施例中,驗證伺服器682可被實作為一金融服務或交易、對雲或其他線上系統的存取、與電子系統610一起使用的雲或網路認證服務等提供認證。
在適用的情況下,可以使用硬體、軟體或硬體與軟體的組合來實作本揭示所提供的各種具體實施例。此外,在適用的情況下,在不脫離本揭示範圍的情況下,此處闡述的各種硬體部件及/或軟件部件,可以組合成包括軟體、硬體及/或兩者的複合部件。在適用的情況下,在不脫離本揭示範圍的情況下,此處闡述的各種硬體部件及/或軟件部件,可以分離成包括軟體、硬體或兩者的子部件。此外,在適用的情況下,可以考慮軟體部件可以實作為硬體部件,反之亦然。
根據本揭示的軟體,如程式碼及/或資料,可儲存在一個以上的電腦可讀媒體上。還可考慮此處識別的軟體,可以使用一個以上的通用或專用電腦及/或連網的及/或其他方式的電腦系統來實作。在適用的情況下,此處描述的各個步驟的順序可以改變、組合成複合步驟、及/或分成子步驟,以提供此處描述的特徵。
前述揭示並非旨在將本揭示限制於所揭露的確切形式或特定使用領域。因此,鑑於本揭示,無論在本文中明確描述還是暗示,對本揭示的各種替代具體實施例及/或修改皆是可能的。已經如此描述了本揭示的具體實施例,本領域具有通常知識者將認識到在不脫離本揭示的範圍的情況下,可以在形式和細節上進行改變。因此,本揭示僅由申請專利範圍所限制。
100:程序
110:音頻輸入樣本
120:類神經網路
122:輸入層
124a~124c:LSTM層
126:輸出層
130:嵌入向量
200:程序
210:輸入批次
220:特徵提取程序
230:一批特徵
240:類神經網路
250:嵌入向量
260:相似性矩陣
262:嵌入向量
264:嵌入向量
266:嵌入向量
300:嵌入向量
350:嵌入向量
400:訓練程序
402~410:步驟
450:說話者註冊程序
452~458:步驟
470:程序
472~480:步驟
500:類神經網路
502:訓練資料集
504:特徵提取程序
510:輸入層
520:隱藏層
530:輸出層
532:嵌入向量
540:GNLL程序
542:損失
600:系統
610:電子系統
620:認證裝置
630:處理部件
632:中央處理單元(CPU)
634:神經處理單元(NPU)
636:圖形處理單元(GPU)
640:音頻輸入處理部件
642:麥克風
644:使用者
645:其他感測器及部件
646:使用者輸入/輸出部件
648:通訊部件
650:記憶體
652:語音處理
654:言語辨識
656:資料儲存器
658:使用者識別符
660:向量
662:使用者驗證控制
664:語音認證程序
666:其他生物特徵認證程序
680:網路
682:驗證伺服器
684:生物特徵認證程序
686:資料庫
688:經訓練的類神經網路
689:系統及/或使用者資料
690:類神經網路伺服器
692:類神經網路訓練模組
694:資料庫
696:訓練資料
698:經訓練的類神經網路
c 1 ,c 2,
c 3, c
k :類別
SPK1,SPK2,SPK3,SPK
n:說話者
參考下列圖式及後附詳細描述,可以更好地理解本揭示的態樣及其優點。應當理解,相似的參考標記用於識別一個以上的圖中所繪示的相似元件,其中示出是為了說明本揭示的具體實施例,而非用於限制本揭示。圖式中的部件不一定按比例繪製,重點是放在清楚地說明本揭示的原理。
圖1根據本揭示的一個以上的具體實施例,繪示用於產生一嵌入向量的一示例類神經網路程序。
圖2根據本揭示的一個以上的具體實施例,繪示一示例說話者驗證程序。
圖3A及圖3B是根據本揭示的一個以上的具體實施例,繪示具有及不具有額外邊界的嵌入向量的示例圖。
圖4A根據本揭示的一個以上的具體實施例,繪示一說話者驗證系統的一示例訓練程序。
圖4B根據本揭示的一個以上的具體實施例,繪示一示例說話者註冊程序。
圖4C根據本揭示的一個以上的具體實施例,繪示一示例說話者驗證程序。
圖5根據本揭示的一個以上的具體實施例,繪示一示例類神經網路。
圖6根據本揭示的一個以上的具體實施例,繪示一示例語音生物特徵識別系統。
402~410:步驟
Claims (20)
- 一種方法,包括: 接收一訓練批次的音頻樣本,包括多個說話者中每一個的多個口語聲調; 從該等音頻樣本中提取特徵以產生一批特徵; 使用一類神經網路處理該批特徵以產生多個嵌入向量,該等嵌入向量設置為按說話者區分音頻樣本; 至少部分地基於該等嵌入向量,計算該訓練批次的一廣義化負對數似然損失(GNLL)值;以及 修改該類神經網路的權重,以減少該GNLL值。
- 如請求項1的方法,其中計算該GNLL還包括,至少部分地基於該等嵌入向量,為多個說話者中的每一個產生一質心向量。
- 如請求項1的方法,其中修改該類神經網路的權重以減少GNLL值包括,使用反向傳播優化該類神經網路。
- 如請求項1的方法,其中該訓練批次的音頻樣本包括一第一數量的說話者及一第二數量的每個說話者的音頻樣本。
- 如請求項1的方法,還包括一註冊程序,包括: 接收一註冊音頻訊號,其包括與一已知使用者相關聯的言語; 識別該註冊音頻訊號中的言語段; 從該等言語段中提取使用者特徵; 將該等提取的使用者特徵輸入該類神經網路,以產生多個使用者嵌入向量;以及 儲存一質心向量,該質心向量是從該等使用者嵌入向量及一使用者識別符計算而來的。
- 如請求項1的方法,還包括一說話者認證程序,包括: 從一目標說話者接收包括言語的一目標音頻訊號; 從該目標音頻訊號中提取目標特徵; 透過該類神經網路處理該等目標特徵,以產生至少一個目標嵌入向量;以及 藉由比較該目標嵌入向量與和一使用者識別符相關聯的一儲存質心向量,來判斷該目標說話者是否與該使用者識別符相關聯。
- 如請求項6的方法,其中判斷該目標說話者是否與一使用者識別符相關聯包括,計算測量該目標嵌入向量與該儲存質心向量之間的一相似性的一信賴分數。
- 如請求項7的方法,其中計算一信賴分數包括,計算一目標嵌入向量與該質心向量的一內積並應用一sigmoid函數。
- 如請求項6的方法,其中判斷該目標說話者是否與一使用者識別符相關聯,還包括: 儲存多個使用者識別符及對應的質心向量,其中該等多個使用者識別符中的每一個與一不同的說話者相關聯;以及 計算該等多個使用者識別符中每一個的一信賴分數,部分地基於一似然,該似然是該目標嵌入向量與該對應的質心向量係來自相同說話者。
- 如請求項1的方法,還包括在該等嵌入向量中插入一額外邊界,該額外邊界設置為在該等嵌入向量中分離說話者類別的嵌入。
- 如請求項10的方法,其中該等嵌入向量包括具有該額外邊界的單位向量。
- 如請求項9的方法,其中計算一信賴分數包括,藉由使用說話者的該等樣本計算一質心,來計算每一批資料的總損失。
- 一種系統,包括: 一邏輯裝置,設置為使用一廣義化負對數似然損失(GNLL)函數來訓練一類神經網路,該邏輯裝置設置為執行邏輯,包括: 接收一訓練批次的音頻樣本,包括多個說話者中每一個的多個口語聲調; 從該等音頻樣本中提取特徵以產生一批特徵; 使用一類神經網路處理該批特徵以產生嵌入向量,該等嵌入向量設置為按說話者區分音頻樣本; 至少部分地基於該等嵌入向量,計算該訓練批次的一廣義化負對數似然損失(GNLL)值;以及 修改該類神經網路的權重,以減少該GNLL值。
- 如請求項13的系統,其中計算該GNLL還包括,至少部分地基於該等嵌入向量,為多個說話者中的每一個產生一質心向量。
- 如請求項13的系統,其中修改該類神經網路的權重以減少GNLL值包括,使用反向傳播優化該類神經網路。
- 如請求項13的系統,其中該訓練批次的音頻樣本包括一第一數量的說話者及一第二數量的每個說話者的音頻樣本。
- 一種系統,包括: 一儲存部件;以及 一邏輯裝置,設置為藉由執行邏輯來驗證一說話者的一身份,包括: 執行一註冊程序,包括: 接收一註冊音頻訊號,其包括與一已知使用者相關聯的言語; 識別該註冊音頻訊號中的言語段; 從該等言語段中提取使用者特徵; 透過一類神經網路處理該等提取的使用者特徵,該類神經網路被優化以最小化一輸入批次音頻樣本的一廣義化負對數似然損失(GNLL)值,以產生多個使用者嵌入向量;以及 儲存一質心向量,該質心向量是從該等使用者嵌入向量及一使用者識別符計算而來的。
- 如請求項17的系統,其中該邏輯裝置還設置為執行邏輯,包括: 執行一說話者認證程序,包括: 從一目標說話者接收包括言語的一目標音頻訊號; 從該目標音頻訊號中提取目標特徵; 透過該類神經網路處理該等目標特徵,以產生至少一個目標嵌入向量;以及 藉由比較該目標嵌入向量與和一使用者識別符相關聯的一儲存質心向量,來判斷該目標說話者是否與該使用者識別符相關聯。
- 如請求項18的系統,其中判斷該目標說話者是否與一使用者識別符相關聯包括,藉由計算一目標嵌入向量與該質心向量的一內積,來計算測量該目標嵌入向量與該儲存質心向量之間的一相似性的一信賴分數,並應用一sigmoid函數。
- 如請求項18的系統,其中判斷該目標說話者是否與一使用者識別符相關聯,還包括: 儲存多個使用者識別符及對應的質心向量,其中該等多個使用者識別符中的每一個與一唯一的說話者相關聯;以及 計算該等多個使用者識別符中每一個的一信賴分數,部分地基於一似然,該似然是該目標嵌入向量與該對應的質心向量係來自相同說話者。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/031,755 | 2020-09-24 | ||
US17/031,755 US11328733B2 (en) | 2020-09-24 | 2020-09-24 | Generalized negative log-likelihood loss for speaker verification |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202213326A true TW202213326A (zh) | 2022-04-01 |
Family
ID=80739401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110135572A TW202213326A (zh) | 2020-09-24 | 2021-09-24 | 用於說話者驗證的廣義化負對數似然損失 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11328733B2 (zh) |
CN (1) | CN114255766A (zh) |
TW (1) | TW202213326A (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11380302B2 (en) * | 2020-10-22 | 2022-07-05 | Google Llc | Multi channel voice activity detection |
US11557278B2 (en) * | 2020-12-10 | 2023-01-17 | Google Llc | Speaker dependent follow up actions and warm words |
US11599360B2 (en) * | 2020-12-14 | 2023-03-07 | Cognitive Science & Solutions, Inc. | AI synaptic coprocessor |
US11955122B1 (en) * | 2021-09-28 | 2024-04-09 | Amazon Technologies, Inc. | Detecting machine-outputted audio |
US20240119927A1 (en) * | 2022-10-07 | 2024-04-11 | Nvidia Corporation | Speaker identification, verification, and diarization using neural networks for conversational ai systems and applications |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW440810B (en) * | 1999-08-11 | 2001-06-16 | Ind Tech Res Inst | Method of speech recognition |
US7318032B1 (en) * | 2000-06-13 | 2008-01-08 | International Business Machines Corporation | Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique |
US6618702B1 (en) * | 2002-06-14 | 2003-09-09 | Mary Antoinette Kohler | Method of and device for phone-based speaker recognition |
US8209174B2 (en) * | 2009-04-17 | 2012-06-26 | Saudi Arabian Oil Company | Speaker verification system |
US9704488B2 (en) * | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
US10706840B2 (en) * | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US11462209B2 (en) * | 2018-05-18 | 2022-10-04 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
KR102535338B1 (ko) * | 2018-09-25 | 2023-05-26 | 구글 엘엘씨 | 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리 |
US10964330B2 (en) * | 2019-05-13 | 2021-03-30 | Cisco Technology, Inc. | Matching speakers to meeting audio |
US20210098134A1 (en) * | 2019-09-27 | 2021-04-01 | Pricewaterhousecoopers Llp | Multi-task learning in pharmacovigilance |
US11520762B2 (en) * | 2019-12-13 | 2022-12-06 | International Business Machines Corporation | Performing fine-grained question type classification |
US20210117760A1 (en) * | 2020-06-02 | 2021-04-22 | Intel Corporation | Methods and apparatus to obtain well-calibrated uncertainty in deep neural networks |
-
2020
- 2020-09-24 US US17/031,755 patent/US11328733B2/en active Active
-
2021
- 2021-09-23 CN CN202111114365.3A patent/CN114255766A/zh active Pending
- 2021-09-24 TW TW110135572A patent/TW202213326A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
US11328733B2 (en) | 2022-05-10 |
CN114255766A (zh) | 2022-03-29 |
US20220093106A1 (en) | 2022-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468901B2 (en) | End-to-end speaker recognition using deep neural network | |
CN111418009B (zh) | 个性化说话者验证系统和方法 | |
TW202213326A (zh) | 用於說話者驗證的廣義化負對數似然損失 | |
CN109564759A (zh) | 说话人识别 | |
US20210350346A1 (en) | System and method for using passive multifactor authentication to provide access to secure services | |
US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
WO2006109515A1 (ja) | 操作者認識装置、操作者認識方法、および、操作者認識プログラム | |
WO2020220541A1 (zh) | 一种识别说话人的方法及终端 | |
CN111667839A (zh) | 注册方法和设备、说话者识别方法和设备 | |
US11929077B2 (en) | Multi-stage speaker enrollment in voice authentication and identification | |
KR20200107707A (ko) | 화자 인식을 위한 등록 방법 및 장치 | |
Can et al. | A Review of Recent Machine Learning Approaches for Voice Authentication Systems | |
Amrutha et al. | Multi-level Speaker Authentication: An Overview and Implementation | |
US20230153815A1 (en) | Methods and systems for training a machine learning model and authenticating a user with the model | |
Chakraborty et al. | An improved approach to open set text-independent speaker identification (OSTI-SI) | |
Duraibi et al. | Suitability of Voice Recognition Within the IoT Environment | |
Rajendran et al. | An Overview of the Concept of Speaker Recognition | |
Ren et al. | A hybrid GMM speaker verification system for mobile devices in variable environments | |
Alhamdani et al. | Efficient speaker verification system based on heart sound and speech | |
Chhetri et al. | Automatic Speaker Recognition using Fuzzy Vector Quantization | |
Nageshkumar et al. | An Iterative Method for Multimodal Biometric Face Recognition Using Speech Signal | |
Çamlıkaya | Identity verification using voice and its use in a privacy preserving system | |
Pekcan | Development of machine learning based speaker recognition system |