TWI737462B - 用於確定聲音特性的系統和方法 - Google Patents
用於確定聲音特性的系統和方法 Download PDFInfo
- Publication number
- TWI737462B TWI737462B TW109128922A TW109128922A TWI737462B TW I737462 B TWI737462 B TW I737462B TW 109128922 A TW109128922 A TW 109128922A TW 109128922 A TW109128922 A TW 109128922A TW I737462 B TWI737462 B TW I737462B
- Authority
- TW
- Taiwan
- Prior art keywords
- loss function
- speaker
- layer
- minimizing
- obtaining
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 239000000203 mixture Substances 0.000 claims abstract description 34
- 238000003860 storage Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 162
- 239000013598 vector Substances 0.000 claims description 61
- 238000011176 pooling Methods 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 22
- 239000000654 additive Substances 0.000 claims description 16
- 230000000996 additive effect Effects 0.000 claims description 16
- 238000000137 annealing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 31
- 210000002569 neuron Anatomy 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 101150087667 spk1 gene Proteins 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
提供了用於確定聲音特性的方法、系統和裝置,包括編碼在電腦儲存媒體上的電腦程式。方法之一包括:獲得說話者的語音資料;將所述語音資料輸入到至少藉由聯合地最小化第一損失函數和第二損失函數而訓練的模型中,其中,所述第一損失函數包括基於非取樣的損失函數,所述第二損失函數包括具有非單位多元協方差矩陣的高斯混合損失函數;以及從經訓練模型中獲得所述說話者的一個或多個聲音特性。
Description
本申請案一般涉及用於確定聲音特性的系統和方法。
許多應用是基於人聲特性開發的。例如,可以根據用戶的聲音來認證用戶。為此,已經提出了諸如深度學習的機器學習演算法來訓練電腦系統識別人聲。深度學習,也稱為深度神經網路(DNN),是人工智慧中機器學習的一個子集,它具有能夠從非結構化資料(可以為標記的或無標記的)中學習的網路。
這樣的機器學習演算法通常涉及嘗試將主體(例如,說話者)分配到類別(例如,身份)中。為了提高基於人聲確定聲音特性的電腦系統的性能,期望最大化類別間的差異並且最小化類別內的差異。即,在演算法的輸出中,每個類別中的主體應盡可能相似,而不同類別中的主
體應盡可能不同。
本文的各種實施例包括但不限於用於確定聲音特性的系統、方法和非暫時性電腦可讀媒體。
根據一些實施例,用於確定聲音特性的方法包括:獲得說話者的語音資料;將所述語音資料輸入到至少藉由聯合地最小化第一損失函數和第二損失函數而訓練的模型中,其中,所述第一損失函數包括基於非取樣的損失函數,所述第二損失函數包括具有非單位多元協方差矩陣(non-unit multi-variant covariance matrix)的高斯混合損失(Gaussian mixture loss)函數;以及從經訓練模型中獲得所述說話者的一個或多個聲音特性。
在一些實施例中,藉由最小化所述第一損失函數來訓練所述模型,最佳化說話者分類;以及藉由最小化所述第二損失函數來訓練模型,最佳化說話者聚類。
在一些實施例中,所述非單位多元協方差矩陣包括標準偏差對角矩陣。
在一些實施例中,所述具有非單位多元協方差矩陣的高斯混合損失函數包括大間隔高斯混合損失函數。
在一些實施例中,所述基於非取樣的損失函數包括附加性間隔軟最大損失(additive margin softmax loss)函數。
在一些實施例中,所述第一損失函數充當所述第二損失函數的調節器;以及所述第二損失函數充當所述第一損失函數的調節器。
在一些實施例中,所述方法還包括:獲得一個或多個說話者中的每個說話者的一個或多個聲音特性;獲得候選用戶的一個或多個聲音特性;將所述候選用戶的一個或多個聲音特性與所述一個或多個說話者中的每個說話者的一個或多個特性進行比較;以及至少基於所述比較來識別所述候選用戶是否是所述一個或多個說話者中的任何說話者。
在一些實施例中,所述方法還包括:獲得候選用戶的一個或多個聲音特性;將所述候選用戶的一個或多個聲音特性與所述說話者的一個或多個特性進行比較;以及至少基於所述比較來驗證所述候選用戶是否是所述說話者。
在一些實施例中,將所述候選用戶的一個或多個聲音特性與所述一個或多個說話者中的每個說話者的一個或多個聲音特性進行比較包括:將表示所述候選用戶的一個或多個聲音特性的向量和表示所述一個或多個說話者中的每個說話者的一個或多個特徵的不同向量之間的距離與臨限值進行比較。
在一些實施例中,獲得所述說話者的語音資料包括,獲得與所述語音資料相對應的聲譜圖,以及獲得與所述聲譜圖相對應的多個特徵向量;以及將所述語音資
料輸入到所述經訓練模型中包括,將所述多個特徵向量輸入到所述經訓練模型中。
在一些實施例中,所述經訓練模型包括:第一卷積層,被配置為接收所述多個特徵向量作為所述第一卷積層的輸入;第一池化層,被配置為接收所述第一卷積層的輸出作為所述第一池化層的輸入;多個殘差網路層,被配置為接收所述第一池化層的輸出作為所述多個殘差網路層的輸入;第二卷積層,被配置為接收所述多個殘差網路層的輸出作為所述第二卷積層的輸入;第二池化層,被配置為接收所述第二卷積層的輸出作為所述第二池化層的輸入;以及嵌入層,被配置為接收所述第二池化層的輸出作為所述嵌入層的輸入,並輸出表示所述說話者的一個或多個聲音特性的向量。
在一些實施例中,最小化所述第一損失函數包括,至少對於所述嵌入層,最小化基於非取樣的損失函數,以最佳化類別間分類誤差;以及最小化所述第二損失函數包括,至少對於所述嵌入層,最小化具有非單位多元協方差矩陣的高斯混合損失函數,以減少類別內變化。
在一些實施例中,最小化所述第一損失函數包括將間隔從零線性增加到用於退火的目標間隔值。
根據其他實施例,一種用於確定聲音特性的系統,包括:一個或多個處理器以及耦接到所述一個或多個處理器且其上儲存有指令的一個或多個電腦可讀記憶體,所述指令可由所述一個或多個處理器執行以執行前述
實施例中任一個所述的方法。
根據其他實施例,一種非暫時性電腦可讀儲存媒體,配置有可由一個或多個處理器執行以促使所述一個或多個處理器執行前述實施例中任一個所述的方法的指令。
根據其他實施例,一種用於確定聲音特性的裝置,包括用於執行前述實施例中任一個所述的方法的多個模組。
根據一些實施例,一種用於確定聲音特性的系統包括一個或多個處理器以及儲存有指令的一個或多個非暫時性電腦可讀儲存媒體,所述指令可由所述一個或多個處理器執行以促使所述一個或多個處理器執行包括以下的操作:獲得說話者的語音資料;將所述語音資料輸入到至少藉由聯合地最小化第一損失函數和第二損失函數而訓練的模型中,其中,所述第一損失函數包括基於非取樣的損失函數,所述第二損失函數包括具有非單位多元協方差矩陣的高斯混合損失函數;以及從經訓練模型中獲得所述說話者的一個或多個聲音特性。
根據其他實施例,一種非暫時性電腦可讀儲存媒體,配置有可由一個或多個處理器執行以促使所述一個或多個處理器執行包括以下的操作的指令:獲得說話者的語音資料;將所述語音資料輸入到至少藉由聯合地最小化第一損失函數和第二損失函數而訓練的模型中,其中,所述第一損失函數包括基於非取樣的損失函數,所述第二
損失函數包括具有非單位多元協方差矩陣的高斯混合損失函數;以及從經訓練模型中獲得所述說話者的一個或多個聲音特性。
根據其他實施例,一種用於確定聲音特性的裝置,包括第一獲得模組,用於獲得說話者的語音資料;輸入模組,用於將所述語音資料輸入到至少藉由聯合地最小化第一損失函數和第二損失函數而訓練的模型中,其中,所述第一損失函數包括基於非取樣的損失函數,所述第二損失函數包括具有非單位多元協方差矩陣的高斯混合損失函數;以及第二獲得模組,用於從經訓練模型中獲得所述說話者的一個或多個聲音特性。
本文公開的實施例具有一個或多個技術效果。在一些實施例中,分別最佳化類別間的可分離性和類別內的可變性的兩個損失函數被聯合採用。在一個實施例中,採用基於非取樣的損失函數來最佳化類別間的可分離性,並且採用具有非單位多元協方差矩陣的高斯混合損失來減少類別內的變化。這種組合不僅提高了使用基於間隔(margin)的方法進行分類的泛化能力,而且還顯著降低了類別內的可變性。在一個實施例中,與單獨對類別可分離性或類別內的可變性的最佳化相比,對類別間的可分離性和類別內的可變性兩者的最佳化實現更好的性能(例如,更快和更好的收斂)。在一個實施例中,提供了端到端架構以藉由最小化兩個損失函數來訓練所公開的模型。在一些實施例中,利用聯合最佳化,學習的嵌入從可變長度語
音片段中捕獲片段級聲學表示,以區分說話者並複製說話者集群的密度。在一些實施例中,分類和聚類的聯合最佳化有助於對說話者的驗證和識別。在一個實施例中,可以實現針對相同類別的主體的更大的相似性和針對不同類別的主體的更大的差異,使得所確定的聲音特性更加準確。在一個實施例中,針對類別內可變性的最佳化藉由適應說話者嵌入以多種形狀和模式分佈的可能性,改善了確定聲音特性的處理。在一個實施例中,為了最佳化類別間的可分離性,提供了一種退火(annealing)方法來穩定地訓練附加性間隔softmax損失。
本文公開的系統、方法和非暫時性電腦可讀媒體的這些和其他特徵,相關結構元件的操作方法和功能以及各部分的結合,以及批量生產的經濟考量,在結合附圖來考慮下文的描述和附加的申請專利範圍時將變得更加明顯,所有這些均形成了本文的一部分,其中,相同的附圖元件符號在各個附圖中表示相應的部分。然而,應該明確地理解,附圖僅是出於說明和描述的目的,而並非旨在進行限制。
100:系統
102:計算系統
104:計算設備
106:計算設備
112:第一獲得組件
114:輸入組件
116:第二獲得組件
122:通信
124:通信
126:聲音
130:伺服器
140:用戶
201:音頻序列
202:音頻序列
203:譜
204:聲譜圖
205:特徵序列
206:共享網路
206a:第一卷積層
206b:第一池化層
206c:殘差網路層
206d:第二卷積層
207:第二池化層
208:嵌入層
209a:第一損失函數
209b:第二損失函數
300:方法
310:方塊
320:方塊
330:方塊
400:電腦系統
410:第一獲得模組
420:輸入模組
430:第二獲得模組
500:電腦系統
502:匯流排
504:處理器
506:主記憶體
508:唯讀記憶體
510:儲存設備
518:網路介面
[圖1]示出了根據一些實施例的用於確定聲音特性的系統。
[圖2A]示出了根據一些實施例的用於獲得特徵向量的方法。
[圖2B]示出了根據一些實施例的用於訓練用於確定聲音特性的模型的方法。
[圖2C]示出了根據一些實施例的等錯誤率(EER)的評估。
[圖3]示出了根據一些實施例的用於確定聲音特性的方法。
[圖4]示出了根據一些實施例的用於確定聲音特性電腦系統的方塊圖。
[圖5]示出了可以實現本文描述的任何實施例的電腦系統的方塊圖。
聲音特性作為個人特點具有各種應用潜力。聲音特性可以包括以下中的一個或多個:音量、音高、語調(升調或降調)、聲調、持續時間、語速、響度等。每個人可能具有區別於其他人的一個或多個獨特的聲音特性。在一個示例中,在給定已記錄的說話者的聲音特性和一些語音表述作為試驗的情況下,說話者驗證可以認證說話者身份。說話者驗證輸出接受或拒絕未識別的語音表述與說話者相關聯的二元決策。在另一應用示例中,說話者識別與說話者驗證的不同之處在於,必須根據語音表述來識別說話者,並且其輸出是來自一組說話者的說話者身份。
聲音特性可能基於語音,也可能不基於語音。因此,說話者驗證和說話者識別系統可以進一步分類
為文本獨立型或文本依賴型。與文本依賴型系統相比,文本獨立型系統不會將表述內容固定為某些詞匯短語。在一個示例中,對於文本依賴型系統,所有用戶都必須說出相同的預設短語才能基於他們的聲音被識別;但是對於文本獨立型系統,用戶可以說出不同的短語或發出不同的聲音,而仍然可以被識別。
已經提出了各種方法來使用深度學習獲得實值的、緊湊的低維向量以表示說話者特性。深度學習是人工智慧機器學習的一個子集,它具有能夠從非結構化或無標記資料中學習的網路。深度學習可以是有監督的、半監督的或無監督的。近期的工作試圖結合各種損失(loss)函數,例如,三元組損失、中心損失和對比損失,以訓練說話者嵌入(透過深度學習得到的一組高級特徵表示)。例如,可以將損失函數應用於屬於其相關聯的說話者的語音表述的正樣本和與說話者不相關聯的語音表述的負樣本。又例如,中心損失可以被測量作為說話者嵌入與其中心之間的歐幾裏得(Euclidean)損失。還需要進行改進以增强聲音特性的適用性。
本文描述的實施例提供用於確定聲音特性的方法、系統和裝置。可以聯合採用分別最佳化類別間的可分離性和類別內的可變性的兩種損失函數。在一些施例中,為了減小分類誤差,採用基於非取樣的損失函數來最佳化類別間的可分離性,並且採用具有非單位多元協方差矩陣的高斯混合損失來減少類別內的變化。所確定的聲音
特性可以被提供用於用戶驗證、用戶識別或其他應用。
圖1示出了根據一些實施例的用於確定聲音特性的系統100。以下呈現的系統100的組件旨在是說明性的。取決於實施方式,系統100可以包括附加的、更少的或替代的步驟。
在一些實施例中,系統100可以包括計算系統102、計算設備104和計算設備106。應當理解,儘管圖1中示出了三個計算設備,系統100中可以包括任意數量的計算設備。計算系統102可以實現在一個或多個網路(例如企業網路)、一個或多個端點、一個或多個伺服器(例如伺服器130)、或者一個或多個雲端中。伺服器130可以包括對網路中的集中式資源或服務的存取進行管理的硬體或軟體。雲端可以包括分佈在網路上的伺服器和其他設備的集群。
在一些實施例中,計算系統102可以包括第一獲得組件112、輸入組件114和第二獲得組件116。計算系統102可以包括一個或多個處理器(例如數位處理器、模擬處理器、設計用於處理資訊的數位電路、中央處理器、圖形處理單元、微控制器或微處理器、設計用於處理資訊的模擬電路、狀態機和/或其他用於電子化處理資訊的機制)和一個或多個記憶體(例如永久記憶體、臨時記憶體、非暫時性電腦可讀儲存媒體)。所述一個或多個記憶體可以配置有可由一個或多個處理器執行的指令。處理器可以被配置為藉由解釋儲存在記憶體中的機器可讀指令來執行
各種操作。計算系統102可以安裝有適當的軟體(例如平台程式等)和/或硬體(例如電線,無線連接等)以存取系統100的其他設備。
在一些實施例中,計算設備104和106可以在諸如行動電話、平板電腦、伺服器、桌上型電腦和膝上型電腦之類的各種設備上實現,或者實現為諸如行動電話、平板電腦、伺服器、桌上型電腦和膝上型電腦之類的各種設備。計算系統102可以與計算設備104和106以及其他計算設備通信。設備間通信可能透過區域網路(例如LAN)、透過直接通信(例如藍牙TM、射頻、紅外線)等在網際網路上發生。在一個實施例中,計算設備104或106可以包括麥克風或配置為記錄語音資料(例如人聲)的替代設備,或與此類設備相關聯。用戶可以在麥克風的檢測範圍內講話以進行音頻捕獲。
在一些實施例中,系統100可以包括聲音特性確定平台。例如,計算系統102和/或其他計算設備可以實現聲音特性確定平台。聲音特性確定平台可以訓練用於確定聲音特性的模型並實現其應用。例如,平台可以透過通信122從例如計算設備104的各種源獲得訓練資料。計算設備104可能已經記錄或儲存了一個或多個說話者的語音資料。該平台可以利用訓練資料來訓練機器學習模型以獲得經訓練模型。經訓練模型可以部署在遠端伺服器、雲端、客戶端側設備等中。例如,計算設備106可以安裝有用於透過通信124調用部署在計算設備106或伺服器130中
的經訓練模型的軟體應用、Web應用、應用程式介面(API)或其他合適的介面。
計算設備104和106可各自與一個或多個用戶相關聯。在一些實施例中,用戶140可以與計算設備106互動,透過該計算設備調用經訓練模型。例如,透過對耦接到計算設備104的麥克風講話,用戶140可以向計算設備106提供語音資料(例如,聲音126),計算設備106將語音資料輸入到經訓練模型中以驗證用戶140、識別用戶140或基於聲音特性執行另一應用。
雖然在圖1中,計算系統102是作為單一實體被示出的,但這僅是為了便於參考而不旨在作為限制。本文描述的計算系統102的一個或多個組件或一個或多個功能可以在單個計算設備或多個計算設備中實現。例如,計算系統102可以合併計算設備106,反之亦然。即,第一獲得組件112、輸入組件114和第二獲得組件116中的每一個可以在計算系統102或計算設備106中實現。類似地,計算系統102可以耦接到一個或多個其他計算設備並與之關聯,該計算設備能夠實現計算系統102的部分組件或功能。計算設備106可以包括一個或多個處理器以及耦接到處理器的一個或多個記憶體,該記憶體配置有可由一個或多個處理器執行的指令,以使一個或多個處理器執行本文所述的各個步驟。
系統100的各種組件可以被配置為執行用於確定聲音特性的步驟。在一些實施例中,第一獲得組件
112可以被配置為獲得說話者的語音資料。在一些實施例中,為了獲得說話者的語音資料,第一獲得組件112可以被配置為獲得與語音資料相對應的聲譜圖,並獲得與該聲譜圖相對應的多個特徵向量。
參考圖2A,圖2A示出了根據一些實施例的用於獲得特徵向量的方法。該方法可以由計算設備106和/或計算系統102執行。在一些實施例中,音頻序列201可以表示由計算設備106捕獲的說話者(例如,用戶140)的語音資料的示例。在x軸方向的連續時間序列中,音頻序列201標記有語音單詞、停頓(pau)或無聲(sil)的相應的塊。圖中的竪虛線可以標記各種圖示上的相同的時間戳,並指示它們之間的對應關係。取決於應用,可以要求或可以不要求音頻序列201包含某些文本依賴型的觸發短語。
在一些實施例中,藉由將單詞分解成語言單元,使用音頻序列202作為音頻序列201的替代表示。語言單元可能有許多分類和定義,例如音位、音位部分、三音素、單詞和n元組。所示的語言單位僅是示例。在一個示例中,音位是一組在一門語言中具有唯一的含義或功能的語音,並且可以是一門語言的音系學中最小的有意義的對比單元。音位的數量可能因不同的語言而異,大多數語言具有20-40個音位。在一個示例中,“hello”可以分為語言單元/音位:“hh”、“ah”、“l”和“ow”。
在一些實施例中,譜203可以表示語音資料(例如,音頻序列201)。音頻可能有各種不同的表示形
式。在一個示例中,譜203可以示出所捕獲的聲音相對於時間的振幅。
在一些實施例中,可以至少基於譜203來獲得聲譜圖204。聲譜圖204可以是語音資料的頻率相對於時間的表示。在一個實施例中,可將傅立葉變換應用於譜203以獲得聲譜圖204。在聲譜圖204中,振幅資訊以灰階顯示為暗區和亮區。亮區可以指示在相應的時間、相應的頻率處沒有捕獲到任何聲音(例如停頓、無聲),而暗區可以指示存在聲音。基於暗圖案和亮圖案在x軸方向上的變化,可以確定語言單元(例如,單詞、音素)之間的邊界。此外,兩條虛線之間的y軸方向上的暗區圖案可以指示在相應時間段捕獲的各種頻率,並且可以提供(攜帶聲音身份的)共振峰和音渡的資訊,以幫助確定相應的音素。
在一些實施例中,可以至少基於聲譜圖204來獲得特徵序列205。在一個實施例中,可將倒頻譜分析應用於聲譜圖204以獲得特徵序列205。例如,時間幀可以沿x軸移動並逐幀取樣聲譜圖204。這樣,語音資料可以被轉換為一系列特徵向量,在圖中顯示為矩形塊。在一個實施例中,可以在寬度為25ms、步長為10ms、1024個點的FFT(快速傅立葉變換)的滑動漢明窗內生成短時聲譜圖。可以沿頻率軸執行均值和方差正規化。可以從每段話語中隨機取樣300幀的音頻語音資料進行訓練,以覆蓋3.015秒的語音並給出大小為300×512的聲譜圖,即時間維度上300和頻率維度上512的特徵。本領域技術人員將理解應用其
他技術以獲得特徵向量。這些特徵向量可用於訓練模型或傳遞給經訓練模型以實現各種應用。
參考圖2B,圖2B示出了根據一些實施例的用於訓練用於確定聲音特性的模型的方法。在一些實施例中,如圖所示,模型可以是包括多個層的深度學習模型。作為機器學習的子集,深度學習可以利用人工神經網路的層次結構級別來執行機器學習的處理。深度學習系統的分層功能使機器可以使用非線性方法來處理資料。人工神經網路是像人的大腦一樣建立起來的,其中的神經元節點像網路一樣連接在一起。人工神經網路基於被稱為人工神經元(由各個層中的圓圈表示,例如此圖中的層207和208)的互相連接的單元或節點的集合,它們寬泛地模擬了生物腦中的神經元。每個連接都像生物大腦中的突觸一樣,可以將信號傳輸到其他神經元。接收信號的人工神經元隨後對其進行處理,並可以向與其連接的其他神經元發出信號。連接處的信號可以是實數,並且每個神經元的輸出可以藉由對其輸入之和的某種非線性函數來計算。這些連接稱為邊緣(由連接線表示,例如該圖中的層207和208之間的連接線)。神經元和邊緣通常具有隨著學習的進行而調整的權重。權重增加或減小連接處信號的强度。神經元可以具有臨限值,使得僅當總信號超過該臨限值時才發送信號。神經元被聚集成層。由於每一層包括多個神經元,因此相鄰的層藉由具有相關權重的各種神經元之間的連接相連。不同的層可以對其輸入執行不同的變換。信號從第一層
(輸入層)出發,可能在遍歷這些層一次或多次之後,到達最後一層(輸出層)。
在一些實施例中,作為對圖2B的概述,DNN可以用作特徵提取器,以將倒頻譜聲學特徵(例如,特徵序列205)作為其輸入,使用幾個幀級正向或卷積操作的層,然後在池化層之後,輸出被稱為嵌入向量的音段級表示。將分類和聚類損失的結合用於訓練嵌入向量。藉由嵌入向量,可以使用具有從嵌入向量到說話者ID的投影的軟最大(softmax)分類器來區分不同的說話者。另外,退火(annealing)方案利用分類損失中的間隔來提高經訓練的嵌入向量的泛化能力,並使訓練處理更加穩定。由於不同的說話者可能會導致具有不同平均值和標準差的不同高斯分佈,從而反映出人聲的獨特性,因此經訓練的嵌入向量可能會以具有多種形狀和模式的高斯混合分佈。為了使經訓練的嵌入向量趨向於這種分佈,應用了聚類損失。下面描述模型的更多細節。
在一些實施例中,經訓練的或未訓練的模型可包括從一個神經元層輸出到下一神經元層的多個神經元層,從而形成DNN。多個神經元層可以包括例如ResNet-34(34層殘差網路)架構、ResNet-50架構等。例如,所述多個層可以包括:第一卷積層206a,被配置為接收多個特徵向量(例如,特徵序列205)作為第一卷積層206a的輸入;第一池化層206b,被配置為接收第一卷積層206a的輸出作為第一池化層206b的輸入;多個殘差網路層206c,被配置為
接收第一池化層206b的輸出作為所述多個殘差網路層206c的輸入;第二卷積層206d,被配置為接收多個殘差網路層206c的輸出作為第二卷積層206d的輸入;第二池化層207,被配置為接收第二卷積層206d的輸出作為第二池化層207的輸入;嵌入層208,被配置為接收第二池化層207的輸出作為嵌入層208的輸入,並輸出表示說話者的一個或多個聲音特性的向量。第一卷積層206a可以是輸入層,嵌入層208可以是輸出層。第一卷積層206a、第一池化層206b、多個殘差網路層206c和第二卷積層206d可以稱為共享網路206。
嵌入向量是離散變數到連續數字向量的映射。在一些實施例中,藉由嵌入層208,語音資料輸入的單詞或短語可以被映射到實數向量。因此,模型從每個單詞具有很多維的空間轉換為具有維度低得多的連續向量空間。
在一些實施例中,可以使用如表1所示的ResNet-34(34層殘差網路)架構。在表1中,conv1可以對應於第一卷積層206a,pool1可以對應於第一池化層206b,rest_block1到rest_block 4可以對應於多個殘差網路層206c,conv2可以對應於第二卷積層206d,並且pool1可以對應於第二池化層207。對於每個卷積運算符的輸出,在計算整流線性單位(ReLU)活化之前,應用了表1中未示出的批量正規化。ResNet-34的參數可以被初始化。嵌入向量的大小可以被設置為512,並且512通道參數ReLU
(PReLU)活化可以被用作特徵嵌入向量。將PReLU用作非線性活化函數的優點是可以避免取消像ReLU這樣的嵌入向量空間的負維度中的相關性,並增强嵌入特徵的堅固性。
在一些實施例中,如果模型是未訓練的,則可以至少藉由聯合地最小化第一損失函數和第二損失函數來訓練模型。例如,特徵序列205可以被饋送到未訓練的模型,以藉由最小化兩個損失函數來訓練各層(例如從輸入層到輸出層)。最小化損失函數是一種評估特定演算法對給定資料進行建模的成果的方法。如果預測與實際結果相差太大,則損失函數會輸出很大的數值。逐漸地,借助一些最佳化函數,損失函數學會了減少預測誤差。
下面介紹第一損失函數(209a,用於分類)。在一些實施例中,第一損失函數(例如,下面的等式(3))可以是基於非取樣的損失函數。藉由最小化第一損失函數來訓練模型可以最佳化說話者分類。用於分類的損失函數可以是計算上可行的損失函數,其表示為識別特定觀察結果
(例如語音資料輸入)屬於哪個類別(例如說話者身份類別)中的預測的不準確性而付出的代價。通常涉及標記資料集的學習處理的目標是最大程度地降低預期風險。
在一個實施例中,基於非取樣的損失函數包括附加性間隔softmax損失函數。softmax函數採用N維的實數向量,並將其轉換為範圍為(0,1)的實數向量,其總和為1。softmax函數可用於基於神經網路的分類器的最後一層中。可以在對數丟失或交叉熵機制下訓練此類網路,從而給出多項式邏輯回歸的非線性變體。與用決策邊界線分隔兩個不同類別的初始softmax相比,附加性間隔softmax用決策間隔(例如,角度區域)分隔兩個不同類別。
在一些實施例中,至少對於嵌入層而言,使第一損失函數最小化包括使基於非取樣的損失函數最小化以最佳化類別間分類誤差。即,將一類與另一類混合的誤差被最小化。藉由分類誤差最佳化,可以使類別之間的距離更遠(例如,209a的類別spk1(說話者1)和類別spk3(說話者3)相距較遠)並且更容易彼此區分,從而減少了在應用中混淆的可能性。在一個實施例中,使第一損失函數最小化而訓練了多個神經元層(例如,從第一卷積層206a到嵌入層208)。這提供了一個訓練模型的端到端框架,而不是在一個模型下訓練第一卷積層206a到嵌入層208,並在另一個模型下訓練嵌入層208以最佳化分類或聚類。
其中N和C分別是批量大小和類別號。x i 是第i個樣本的具有d維嵌入的d+1維實數向量,並且附加有標量1。w j 是類別j的權重向量。內積可以等效地用角度形式表示為∥w j ∥∥x i ∥cos,其中是w j 和x i 之間的角度。
角度softmax在角θ上引入了乘性間隔m。角度softmax首先約束權重向量w j 具有單位範數,即在w j (∥w j,i<d ∥=1,w j,d =0)中標準化權重並將偏差標量歸零。所述內積變成∥x i ∥cos。它進一步應用如下的相乘性間隔,
此處,m僅應用於正標簽y i 。對於x i 及其相應的標簽y i 之間在範圍內的角,選擇大於1.0的m會減小角距離cos。在訓練處理中將m從1.0逐漸退火到更大的值時,可以迫使針對相應的標簽y i 學習的嵌入向量x i 與從softmax訓練出的相比更具區別性。
ψ(θ)有兩種定義形式。一種被定義為cosθ-m,以用於附加性餘弦間隔softmax,即CosAMS。第二種是cos(θ+m),用於附加性角間隔softmax,即ArcAMS。增加m將導致等式(3)中的後驗概率減少,因為餘弦函數單調遞減,因此强制x i 更具區別性。另外,可以將s視為用於退火的溫度參數。與使用s=1相比,使用大s使後驗概率更銳利。在一些實施例中,第一損失函數包括附加性間隔softmax損失函數L AMS (等式3)。
使用區別性損失函數(例如大間隔)來訓練模型,可能會出現局部最佳或發散。當前解決此問題的方法是從預先訓練的具有softmax損失的模型開始,但這可能很耗時。在一些實施例中,下面介紹用於使用附加性間隔softmax損失來訓練模型的退火方法。在一個實施例中,最小化第一損失函數包括將間隔從零線性增加到用於退火的目標間隔值。訓練處理穩定為向間隔m的一個漸進過渡。間隔m可以從0線性增加到目標間隔值,如m=min(m max ,m inc ×t),其中t 0是時元(epoch)步長。為了保證ArcAMS損失的數值穩定性,如果sin(θ+m)>0(即在笛卡爾坐標系的上
象限中),可以將其配置為ψ(θ)=cos(θ+m),否則將其配置為ψ(θ)=cos(θ)。
下面介紹第二損失函數(209b,用於聚類)。在一些實施例中,第二損失函數可以是具有非單位多元協方差矩陣的高斯混合損失函數。在一個實施例中,非單位多元協方差矩陣包括標準偏差對角矩陣。協方差矩陣是這樣一個矩陣,其在i,j位置的元素是隨機向量的第i個和第j個元素之間的協方差。
在一些實施例中,藉由使第二損失函數最小化來訓練模型可以最佳化說話者聚類。聚類的目的是在無監督或不瞭解聚類的性質的情況下,將相似的資料點分組在一起。在一些實施例中,用於聚類的損失函數可以是無監督表徵學習損失和面向聚類的損失的線性組合。有關更多詳細資訊,請參見公式(6)至(8)。
在一些實施例中,至少對於嵌入層而言,最小化第二損失函數包括利用非單位多元協方差矩陣最小化高斯混合損失函數以減少類別內差異。對於高斯混合損失函數,每個聚類根據不同的高斯分佈建模。每個資料點可以由任何分佈以相應的概率生成。藉由聚類變化損失最佳化,相同類別中的單元彼此更相似(例如209b的類spk1的大小較小,並且反映了其各個單元之間的强烈相似性)。在一個實施例中,具有非單位多元協方差矩陣的高斯混合損失函數包括大間隔高斯混合損失函數。
在一個實施例中,使第二損失函數最小化而
訓練了多個神經元層(例如,從第一卷積層206a到嵌入層208)。這提供了一個訓練模型的端到端框架,而不是在一個模型下訓練第一卷積層206a到嵌入層208,並在另一個模型下訓練嵌入層208以最佳化分類或聚類。
在一些實施例中,假設在訓練集上提取的嵌入向量x i 按高斯密度混合分佈。每個高斯分量k具有其均值μ k 與協方差Σķ,以及先驗概率π k 。如果有C這樣的高斯分量,則損失L cls 被定義為測量x i 屬於聚類k這一假設的接近性以及高斯混合模型的後驗概率。該後驗概率表示為。匯總所有觀察結果可得:
對於y i 和C的說話者IDx i 對應於作為分類任務的分類編號。那麽,在嵌入空間中L cls 更加注重區分能力。
但是,最佳化上述損失不能確保獲得的嵌入向量x i 擬合高斯分佈的混合。因此,在一些實施例中,可以藉由如下引入似然函數來添加明確驅動嵌入向量向高斯密度分佈的混合的正則化項。
增加這種可能性可以驅動提取的嵌入向量x i 朝向其相應的高斯分佈。
在一些實施例中,高斯混合損失L GM 可以被
定義為L GM =L cls +λL likelihood , (6)
在一些實施例中,為了最佳化損失L GM ,使用隨機梯度下降(SGD)演算法更新高斯混合分量的所有參數,包括μ k 和Σk,以及嵌入向量x i 。在等式(7)中應用對角協方差可能會有數值困難,因為協方差矩陣Σk需要為半正定矩陣。在一些實施例中,定義。代替Σk,標準偏差對角矩陣Λk是要學習的參數。Λk被初始化為單位矩陣。
在一些實施例中,當給出高斯分量標識時,應用間隔來提高所學習到的嵌入向量x i 的泛化能力是有益的。為此,距離針對正樣本被提高了標量1+α i ,其中間隔α大於零。新的損失函數,大間隔高斯混合,定義如下
其中I cond 是一個指標函數,如果滿足cond,則I cond 等於1,否則I cond 等於0。對於說話者識別,損失L LMGM 更泛化。在一些實施例中,第二損失函數包括具有非單位多元協方差矩陣L LMGM 的高斯混合損失函數(等式8)。
在一些實施例中,第一損失函數充當第二損失函數的調節器,並且第二損失函數充當第一損失函數的調節器。調節器允許在最佳化過程中對層參數或層活動施加懲罰。這些懲罰併入由網路所最佳化的損失函數中。訓練嵌入向量時,這兩個損失函數互相幫助實現穩定和快速的收斂。
在一些實施例中,積分損失函數是分類損失和聚類損失的組合,表示為等式(3)和等式(8)的相加,例如如下所示Loss=L AMS +L LMGM . (9)
等式(9)可針對L CosAMS 損失使用m max =0.2、m inc =0.035、s=30,並針對L ArcAMS 損失使用m max =0.25、m inc =0.045、s=30。對於L LMGM 損失,令α=0.01,λ=0.01。
在一些實施例中,兩個度量可以用於模型評估。第一個度量是等錯誤率(EER),其被定義為未命中概率P miss 等於虛警概率P fa 時的比率,第二個度量是最小檢測
成本函數(minDCF),其被定義為 P tar +C fa ×P fa ×(1-P tar )),其中C miss 和C fa 分別是P miss 和P fa 的成本權重,P tar 是目標概率。由於P miss 和P fa 是臨限值的函數,中的最小值是在所有可能的臨限值上計算的。例如,C miss =1.0,C fa =1.0,並且P tar =0.01。
在一些實施例中,對於訓練和測試,使用動量SGD來最佳化模型,其中動量為0.9,權重衰減為5×10-4。最小批量為64。在每個時元的開始,訓練樣本都會被隨機排序。包括L CosAMS 和L ArcAMS 的附加性間隔softmax損失的初始學習率為0.1。對於附加性間隔softmax損失和L LMGM ,學習率設置為0.01。學習率每6個時元下降0.1。在12個時元之後,訓練終止,以避免當驗證集上的等錯誤率(EER)增大時過擬合。在測試過程中,使用了全長的話語,並在表1中使用自適應平均池提取了嵌入向量。作為端到端深度說話者嵌入模型,當評估性能時,使用餘弦距離作為後端評分。
在一些實施例中,將分類和聚類相結合可改善模型訓練的收斂性。參照圖2C,圖2C中的曲線圖示出了使用不同方法相對於驗證集合上的訓練時元的EER變化。圖2C示出了在一些實施例中,儘管最終是收斂的,但是附加性間隔softmax損失可能在其訓練開始時具有EER的波動。它需要具有較小的學習率,但是會導致較低的收斂率。另一方面,將附加性間隔softmax損失與大間隔高斯混合損失L LMGM 相結合,與單獨使用附加性間隔softmax損
失相比,可實現更快的收斂且更穩定。對於後者,它使用0.1的學習率,該學習率導致在訓練的早期階段EER性能的波動。使用大學習率可能對所提出的方法有利,因為有可能避開局部最佳鞍點並在稍後階段更接近全域最佳。
再次參考圖1,輸入組件114可以被配置為至少藉由聯合地最小化第一損失函數和第二損失函數來將語音資料輸入到訓練的模型中。訓練處理可以例如是如上所述的。在一些實施例中,輸入組件114可以被配置為將多個特徵向量輸入到訓練模型中。經訓練模型可以包括層206a至208,但是具有相關的參數,例如經訓練和固定的權重。經訓練模型可能已針對分類和聚類進行了最佳化。
在一些實施例中,經訓練模型可以輸出說話者的一個或多個聲音特性。第二獲得組件116可以被配置為從經訓練模型中獲得說話者的一個或多個聲音特性。一個或多個聲音特性可以由來自模型的嵌入層輸出表示。
在一些實施例中,一個或多個聲音特性可以用於許多任務,例如說話者識別、驗證和聚類。在一個實施例中,計算系統102可以被配置為對一個或多個說話者執行上述步驟,並獲得針對一個或多個說話者中的每個說話者的一個或多個聲音特性。可以儲存一個或多個說話者的聲音特性以用於用戶識別、驗證、聚類等。在用戶識別的一個實施例中,計算系統102可以被配置為針對候選用戶執行上述步驟以獲得候選用戶(例如,用戶140)的一個或多個聲音特性,將候選用戶的一個或多個聲音特性與一
個或多個說話者中的每個說話者的一個或多個特性進行比較,並至少基於比較確定候選用戶是否是一個或多個說話者中的任何一個說話者。例如,員工在公司安全門口講話的語音資料可用於識別員工的身份並記錄員工的工作時間。在用戶驗證的一個實施例中,計算系統102可以被配置為針對候選用戶執行上述步驟以獲得候選用戶的一個或多個聲音特性,將候選用戶的一個或多個聲音特性與說話者的一個或多個特性進行比較,並且至少基於比較來驗證候選用戶是否是說話者。例如,用戶對行動電話講話的語音資料可以用於認證用戶。如果行動電話驗證用戶是行動電話的真實所有者,則行動電話可以為用戶解鎖某些功能。
在一些實施例中,為了將候選用戶的一個或多個聲音特性與一個或多個說話者中的每個說話者的一個或多個特性進行比較,計算系統102可以被配置將表示候選用戶的一個或多個聲音特性的向量和表示一個或多個說話者中的每個說話者的一個或多個特性的不同向量之間的距離與臨限值進行比較。如果該距離在用於候選用戶與一個或多個說話者中的說話者A之間的比較的臨限值之內,則指示該候選用戶很可能是說話者A。如果該距離不在用於候選用戶與一個或多個說話者中的說話者A之間的比較的臨限值之內,則指示該候選用戶不太可能是說話者A。
圖3示出了根據一些實施例的用於確定聲音特性的方法300的流程圖。方法300可以由用於確定聲音特
性的設備、裝置或系統執行。方法300可以由圖1至圖2C的示出的環境或系統的一個或多個組件執行,例如,由電腦系統102執行。以下示出的方法300的操作旨在是說明性的。取決於實施方式,方法300可以包括以各種順序或並行執行的附加的、更少的或替代的步驟。
方塊310包括獲得說話者的語音資料。
方塊320包括將語音資料輸入到至少藉由聯合地最小化第一損失函數和第二損失函數而訓練的模型中,其中,第一損失函數包括基於非取樣的損失函數,第二損失函數包括具有非單位多元協方差矩陣的高斯混合損失函數。在一些實施例中,獲得說話者的語音資料包括:獲得與語音資料對應的聲譜圖;以及獲得與該聲譜圖相對應的多個特徵向量;將語音資料輸入到訓練模型中包括:將多個特徵向量輸入到經訓練模型中。在一些實施例中,第一損失函數充當第二損失函數的調節器;並且第二損失函數充當第一損失函數的調節器。
在一些實施例中,藉由最小化第一損失函數來訓練模型,最佳化說話者分類;並且藉由最小化第二損失函數來訓練模型,最佳化說話者聚類。在一個實施例中,非單位多元協方差矩陣包括標準偏差對角矩陣。在一個實施例中,具有非單位多元協方差矩陣的高斯混合損失函數包括大間隔高斯混合損失函數。在一個實施例中,基於非取樣的損失函數包括附加性間隔softmax損失函數。
在一些實施例中,經訓練模型包括:第一卷
積層,被配置為接收多個特徵向量作為第一卷積層的輸入;以及第一池化層,被配置為接收第一卷積層的輸出作為第一池化層的輸入;多個殘差網路層,被配置為接收第一池化層的輸出作為多個殘差網路層的輸入;第二卷積層,被配置為接收多個殘差網路層的輸出作為第二卷積層的輸入;第二池化層,被配置為接收第二卷積層的輸出作為第二池化層的輸入;嵌入層,被配置為接收第二池化層的輸出作為嵌入層的輸入,並輸出表示說話者的一個或多個聲音特性的向量。
在一些實施例中,最小化第一損失函數包括,至少對於嵌入層,最小化基於非取樣的損失函數,以最佳化類別間分類誤差;並且最小化第二損失函數包括,至少對於嵌入層,最小化具有非單位多元協方差矩陣的高斯混合損失函數,以減少類別內變化。
在一些實施例中,最小化第一損失函數包括將間隔從零線性增加到用於退火的目標間隔值。
方塊330包括從經訓練模型獲得說話者的一個或多個聲音特性。
在一些實施例中,方法300還包括:獲得一個或多個說話者中的每個說話者的一個或多個聲音特性;獲得候選用戶的一個或多個聲音特性;將候選用戶的一個或多個聲音特性與一個或多個說話者中的每個說話者的一個或多個特徵進行比較;至少基於所述比較來識別候選用戶是否是一個或多個說話者中的任何說話者。可選地,方
法300還包括:獲得候選用戶的一個或多個聲音特性;比較候選用戶的一個或多個語音特徵與說話者的一個或多個特徵;至少基於所述比較來驗證候選用戶是否是說話者。
在一些實施例中,將候選用戶的一個或多個聲音特性與一個或多個說話者中的每個說話者的一個或多個特徵進行比較包括:將表示候選用戶的一個或多個聲音特性的向量和表示一個或多個說話者中的每個說話者的一個或多個特徵的不同向量之間的距離與臨限值進行比較。
圖4示出了根據一些實施例的用於確定聲音特性的電腦系統400的方塊圖。以下示出的電腦系統400的組件旨在是說明性的。取決於實施方式,電腦系統400可以包括附加的、更少的或替代的組件。
電腦系統400可以是計算系統102的一個或多個組件的實現的示例。方法300可以由電腦系統400實現。電腦系統400可以包括一個或多個處理器以及耦接到所述一個或多個處理器的一個或多個非暫時性電腦可讀儲存媒體(例如一個或多個記憶體),所述儲存媒體配置有可被一個或多個處理器執行的指令,以使系統或設備(例如處理器)執行上述方法,例如方法300。電腦系統400可以包括與所述指令(例如軟體指令)相對應的各種單元/模組。
在一些實施例中,計算系統400可以被稱為用於確定聲音特性的裝置。該裝置可以包括:第一獲得模組410,用於獲取說話者的語音資料;輸入模組420,用於將語音資料輸入到至少藉由聯合地最小化第一損失函數和
第二損失函數來訓練的模型中,其中第一損失函數包括基於非取樣的損失函數,第二損失函數包括具有非單位多元協方差矩陣的高斯混合損失函數;第二獲得模組430,用於從經訓練模型中獲得說話者的一個或多個聲音特性。第一獲得模組410可以對應於第一獲得組件112。輸入模組420可以對應於輸入組件114。第二獲得模組430可以對應於第二獲取組件116。
本文描述的技術可以由一個或多個專用計算設備來實現。該專用計算設備可以是桌上型電腦系統、伺服器電腦系統、攜帶式電腦系統、手持式設備、網路設備或包含配置於硬體的邏輯和/或程式邏輯的任何設備或設備的組合,以實現所述技術的任何其他設備或設備組合。該專用計算設備可以被實現為個人電腦、膝上型電腦、蜂巢式電話、照相電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲機、平板電腦、穿戴式設備或其組合。計算設備通常可以由作業系統軟體控制和協調。傳統的作業系統控制和調度用於執行的電腦程序,執行記憶體管理,提供文件系統,網路連接,I/O服務,並提供諸如圖形使用者界面(“GUI”)等的使用者界面功能。本文描述的各種系統、裝置、儲存媒體、模組和單元可以在專用計算設備或一個或多個專用計算設備的一個或多個計算晶片中實現。在一些實施例中,本文描述的指令可以在專用計算設備上的虛擬機中實現。在被執行時,所述指令可以使專用計算設備執行本文描述的各種方法。
所述虛擬機可以包括軟體、硬體或其組合。
圖5示出了其中可以實現本文描述的實施例中的任何一個的電腦系統500的方塊圖。可以在圖1-4中所示的設備、裝置或系統(例如計算系統102)的任何組件中實現電腦系統500。例如計算系統102。圖1-4所示的方法中的一個或多個,例如方法300,可以由電腦系統500的一種或多種實現來執行。
電腦系統500可以包括匯流排502或用於資訊溝通的其他通信機制,與匯流排502耦接的用於處理資訊的一個或多個硬體處理器504。硬體處理器504可以是例如一個或多個通用微處理器。
電腦系統500還可包括耦接到匯流排502、用於儲存可由處理器504執行的資訊和指令的主記憶體506,例如隨機存取記憶體(RAM)、快取和/或其他動態儲存設備。主記憶體506還可用於在執行可由處理器504執行的指令期間儲存臨時變數或其他中間資訊。當將這些指令儲存在處理器504可存取的儲存媒體中時,這些指令將電腦系統500渲染成專用於執行指令中指定的操作的專用機器。電腦系統500可以進一步包括唯讀記憶體(ROM)508或耦接到匯流排502的其他靜態儲存設備,用於儲存用於處理器504的靜態資訊和指令。可以提供諸如磁碟、光碟或USB拇指驅動器(快閃驅動器)等的儲存設備510,並將其耦接到匯流排502以儲存資訊和指令。
電腦系統500可以使用客製的硬體連線邏
輯、一個或多個ASIC或FPGA、韌體和/或程式邏輯來實現本文所述的技術,這些邏輯與電腦系統結合使電腦系統500成為專用電腦,或對電腦系統500進行程式化使其成為專用電腦。根據一個實施例,本文所述的操作、方法和處理由電腦系統500響應於處理器504執行包含在主記憶體506中的一個或多個指令的一個或多個序列來執行。可以從諸如儲存設備510之類的另一儲存媒體將這樣的指令讀入主記憶體506。執行包含在主記憶體506中的指令序列可以使處理器504執行本文所述的處理步驟。在替代實施例中,可以使用硬體接線電路代替軟體指令或與軟體指令結合使用。
主記憶體506、ROM 508和/或儲存設備510可以包括非暫時性儲存媒體。如本文中所使用的,術語“非暫時性媒體”和類似術語是指儲存有導致機器以特定方式運行的資料和/或指令的媒體,所述媒體不包括瞬時信號。這樣的非暫時性媒體可以包括非揮發性媒體和/或揮發性媒體。非揮發性媒體包括例如光碟或磁碟,例如儲存設備510。揮發性媒體包括動態記憶體,例如主記憶體506。非暫時性媒體的常見形式包括,例如軟碟、柔性碟、硬碟、固態驅動器、磁帶或任何其他磁性資料儲存媒體、CD-ROM、任何其他光學資料儲存媒體、具有孔圖案的任何實體媒體、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他儲存晶片或盒式磁帶及其網路版本。
電腦系統500可以包括耦接到匯流排502的網路介面518。網路介面518可以提供耦接到與一個或多個區域網路連接的一個或多個網路鏈路的雙向資料通信。例如,網路介面518可以是整體服務數位網路(ISDN)卡、電纜數據機、衛星數據機或數據機,以向對應類型的電話線提供資料通信連接。作為另一示例,網路介面518可以是區域網路(LAN)卡,以提供到兼容LAN(或與WAN通信的WAN組件)的資料通信連接。也可以實現無線鏈接。在任何這樣的實現中,網路介面518可以發送和接收攜帶表示各種類型的資訊的數位資料流的電信號、電磁信號或光信號。
電腦系統500可以透過網路、網路鏈接和網路介面518發送消息並接收資料,包括程式碼。在網際網路的示例中,伺服器可以透過網際網路、ISP、區域網路和網路介面518發送針對應用程式的被請求的碼。
接收到的碼可以在被接收到時由處理器504執行,和/或被儲存在儲存設備510或其他非揮發性儲存器中,以供以後執行。
前面各節中描述的每個處理、方法和演算法都可以體現在由一個或多個包含電腦硬體的電腦系統或電腦處理器執行的碼模組中,或由這些碼模組完全或部分自動執行。所述處理和演算法可以部分地或全部地在專用電路中實現。
上述的各種特徵和處理可以彼此獨立地使用
或者可以以各種方式組合。所有可能的組合和子組合均旨在落入本文的範圍內。另外,在某些實施方式中,可以省略某些方法或處理方塊。本文所述的方法和處理也不限於任何特定的順序,並且可以以適當的其他順序執行與之相關的方塊或狀態。例如,可以以不同於具體公開的順序來執行所描述的方塊或狀態,或者可以在單個方塊或狀態中組合多個方塊或狀態。方塊或狀態的示例可以串行,並行或以其他方式執行。方塊或狀態可以被添加到所公開的實施例或從所公開的實施例中去除。本文描述的系統和組件的示例可以被配置為與所描述的不同。例如,與所公開的實施例相比,可以添加、移除或重新佈置元素。
本文描述的方法的各種操作可以至少部分地由被臨時配置(例如,藉由軟體)或永久地配置為執行相關操作的一個或多個處理器執行。無論是臨時配置還是永久配置,這樣的處理器都可以構成由處理器實現的引擎,該引擎運行以執行本文所述的一個或多個操作或功能。
類似地,本文描述的方法可以至少部分地由處理器實現,其中一個或多個特定處理器是硬體的示例。例如,一種方法的至少一些操作可以由一個或多個處理器或由處理器實現的引擎執行。此外,一個或多個處理器還可在“雲端計算”環境中或作為“軟體即服務”(SaaS)來支持相關操作的執行。例如,至少一些操作可以由一組電腦(作為包括處理器的機器的示例)執行,這些操作可以透過網路(例如網際網路)和一個或多個適當的介面(例如應用程
式介面(API))被存取。
某些操作的執行可以分佈在處理器之間,不僅可以駐留在單個電腦內,而且可以跨多個電腦部署。在一些實施例中,處理器或由處理器實現的引擎可以位於單一的地理位置中(例如,在家庭環境、辦公室環境或伺服器農場中)。在其他實施例中,處理器或由處理器實現的引擎可以分佈在多個地理位置上。
在全文中,多個實例可以實現被描述為單個實例的組件、操作或結構。儘管將一種或多種方法的單獨操作示出並描述為獨立的操作,但是可以同時執行一個或多個單獨操作,並且不需要按照所示順序執行操作。在配置中表示為獨立組件的結構和功能可以實現為組合的結構或組件。類似地,呈現為單一組件的結構和功能可以實現為獨立的組件。這些和其他變型、修改、添加和改進均在本文主題的範圍內。
儘管已經參考特定實施例描述了主題的概述,但是在不脫離本文的實施例的較寬範圍的情況下,可以對這些實施例進行各種修改和改變。具體實施方式不應以限制性的意義來理解,並且各種實施例的範圍僅由所附申請專利範圍以及這些申請專利範圍所有的等同的全部範圍來限定。此外,在此使用的相關術語(諸如“第一”、“第二”、“第三”等)不表示任何順序、高度或重要性,而是用於將一個元件與另一個元件區分開。此外,術語“一個”、“一種”和“多個”在本文中不表示數量限制,而是表示存在
所提及的項目中的至少一個。
205:特徵序列
206:共享網路
206a:第一卷積層
206b:第一池化層
206c:殘差網路層
206d:第二卷積層
207:第二池化層
208:嵌入層
209a:第一損失函數
209b:第二損失函數
Claims (15)
- 一種電腦實現的用於確定聲音特性的方法,包括:獲得說話者的語音資料;將所述語音資料輸入到至少藉由聯合地最小化用於分類的第一損失函數和用於聚類的第二損失函數而訓練的模型中,其中,所述第一損失函數包括基於非取樣的損失函數,所述第二損失函數包括具有非單位多元協方差矩陣的高斯混合損失函數;以及從經訓練模型中獲得所述說話者的一個或多個聲音特性,其中:藉由最小化所述第一損失函數來訓練所述模型,最佳化說話者分類;以及藉由最小化所述第二損失函數來訓練所述模型,最佳化說話者聚類。
- 如請求項1所述的方法,其中:所述非單位多元協方差矩陣包括標準偏差對角矩陣。
- 如請求項1所述的方法,其中:所述具有非單位多元協方差矩陣的高斯混合損失函數包括大間隔高斯混合損失函數。
- 如請求項1所述的方法,其中:所述基於非取樣的損失函數包括附加性間隔軟最大(softmax)損失函數。
- 如請求項1所述的方法,其中: 所述第一損失函數充當所述第二損失函數的調節器;以及所述第二損失函數充當所述第一損失函數的調節器。
- 如請求項1所述的方法,還包括:獲得一個或多個說話者中的每個說話者的一個或多個聲音特性;獲得候選用戶的一個或多個聲音特性;將所述候選用戶的一個或多個聲音特性與所述一個或多個說話者中的每個說話者的一個或多個聲音特性進行比較;以及至少基於所述比較來識別所述候選用戶是否是所述一個或多個說話者中的任何說話者。
- 如請求項1所述的方法,還包括:獲得候選用戶的一個或多個聲音特性;將所述候選用戶的一個或多個聲音特性與所述說話者的一個或多個聲音特性進行比較;以及至少基於所述比較來驗證所述候選用戶是否是所述說話者。
- 如請求項6至7中任一項所述的方法,其中:將所述候選用戶的一個或多個聲音特性與所述一個或多個說話者中的每個說話者的一個或多個聲音特性進行比較包括:將表示所述候選用戶的一個或多個聲音特性的向量和表示所述一個或多個說話者中的每個說話者的一個或 多個聲音特性的不同向量之間的距離與臨限值進行比較。
- 如請求項1所述的方法,其中:獲得所述說話者的語音資料包括,獲得與所述語音資料相對應的聲譜圖,以及獲得與所述聲譜圖相對應的多個特徵向量;以及將所述語音資料輸入到所述經訓練模型中包括,將所述多個特徵向量輸入到所述經訓練模型中。
- 如請求項9所述的方法,其中,所述經訓練模型包括:第一卷積層,被配置為接收所述多個特徵向量作為所述第一卷積層的輸入;第一池化層,被配置為接收所述第一卷積層的輸出作為所述第一池化層的輸入;多個殘差網路層,被配置為接收所述第一池化層的輸出作為所述多個殘差網路層的輸入;第二卷積層,被配置為接收所述多個殘差網路層的輸出作為所述第二卷積層的輸入;第二池化層,被配置為接收所述第二卷積層的輸出作為所述第二池化層的輸入;以及嵌入層,被配置為接收所述第二池化層的輸出作為所述嵌入層的輸入,並輸出表示所述說話者的一個或多個聲音特性的向量。
- 如請求項10所述的方法,其中:最小化所述第一損失函數包括,至少對於所述嵌入 層,最小化基於非取樣的損失函數,以最佳化類別間分類誤差;以及最小化所述第二損失函數包括,至少對於所述嵌入層,最小化具有非單位多元協方差矩陣的高斯混合損失函數,以減少類別內變化。
- 如請求項11所述的方法,其中:最小化所述第一損失函數包括將間隔從零線性增加到用於退火的目標間隔值。
- 一種用於確定聲音特性的系統,包括:一個或多個處理器;以及耦接到所述一個或多個處理器並且其上儲存有指令的一個或多個電腦可讀記憶體,所述指令能夠由所述一個或多個處理器執行以執行請求項1所述的方法。
- 一種用於確定聲音特性的裝置,包括用於執行請求項1所述的方法的多個模組。
- 一種非暫時性電腦可讀儲存媒體,配置有能夠由一個或多個處理器執行以促使所述一個或多個處理器執行請求項1所述的方法的指令。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/114812 WO2020035085A2 (en) | 2019-10-31 | 2019-10-31 | System and method for determining voice characteristics |
WOPCT/CN2019/114812 | 2019-10-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202119393A TW202119393A (zh) | 2021-05-16 |
TWI737462B true TWI737462B (zh) | 2021-08-21 |
Family
ID=69525955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109128922A TWI737462B (zh) | 2019-10-31 | 2020-08-25 | 用於確定聲音特性的系統和方法 |
Country Status (5)
Country | Link |
---|---|
US (3) | US10997980B2 (zh) |
CN (2) | CN111712874B (zh) |
SG (2) | SG11202010803VA (zh) |
TW (1) | TWI737462B (zh) |
WO (2) | WO2020035085A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI795173B (zh) * | 2022-01-17 | 2023-03-01 | 中華電信股份有限公司 | 多語言語音辨識系統、方法及電腦可讀媒介 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
US11556848B2 (en) * | 2019-10-21 | 2023-01-17 | International Business Machines Corporation | Resolving conflicts between experts' intuition and data-driven artificial intelligence models |
SG11202010803VA (en) * | 2019-10-31 | 2020-11-27 | Alipay Hangzhou Inf Tech Co Ltd | System and method for determining voice characteristics |
US11651767B2 (en) | 2020-03-03 | 2023-05-16 | International Business Machines Corporation | Metric learning of speaker diarization |
US11443748B2 (en) * | 2020-03-03 | 2022-09-13 | International Business Machines Corporation | Metric learning of speaker diarization |
CN111833855B (zh) * | 2020-03-16 | 2024-02-23 | 南京邮电大学 | 基于DenseNet STARGAN的多对多说话人转换方法 |
CN111540367B (zh) * | 2020-04-17 | 2023-03-31 | 合肥讯飞数码科技有限公司 | 语音特征提取方法、装置、电子设备和存储介质 |
CN111524525B (zh) * | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
US20220067279A1 (en) * | 2020-08-31 | 2022-03-03 | Recruit Co., Ltd., | Systems and methods for multilingual sentence embeddings |
US12165311B2 (en) * | 2020-11-04 | 2024-12-10 | Samsung Sds America, Inc. | Unsupervised representation learning and active learning to improve data efficiency |
CN112487384B (zh) * | 2020-11-25 | 2024-12-03 | 华为技术有限公司 | 身份验证方法及系统 |
CN112418173A (zh) * | 2020-12-08 | 2021-02-26 | 北京声智科技有限公司 | 异常声音识别方法、装置及电子设备 |
CN113555032B (zh) * | 2020-12-22 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 多说话人场景识别及网络训练方法、装置 |
US11605369B2 (en) * | 2021-03-10 | 2023-03-14 | Spotify Ab | Audio translator |
US11689868B2 (en) * | 2021-04-26 | 2023-06-27 | Mun Hoong Leong | Machine learning based hearing assistance system |
CN113345454B (zh) * | 2021-06-01 | 2024-02-09 | 平安科技(深圳)有限公司 | 语音转换模型的训练、应用方法、装置、设备及存储介质 |
CN114067803B (zh) * | 2021-10-21 | 2025-01-03 | 北京工业大学 | 一种基于距离相关的度量学习的说话人确认方法 |
CN114023343B (zh) * | 2021-10-30 | 2024-04-30 | 西北工业大学 | 基于半监督特征学习的语音转换方法 |
CN114529191B (zh) * | 2022-02-16 | 2024-10-22 | 支付宝(杭州)信息技术有限公司 | 用于风险识别的方法和装置 |
CN114566170B (zh) * | 2022-03-01 | 2024-12-10 | 北京邮电大学 | 一种基于一类分类的轻量级语音欺骗检测算法 |
CN114639372B (zh) * | 2022-03-07 | 2024-10-25 | 哈尔滨理工大学 | 基于调整余弦互信息估计的语种识别方法 |
CN114694658A (zh) * | 2022-03-15 | 2022-07-01 | 青岛海尔科技有限公司 | 说话人识别模型训练、说话人识别方法及装置 |
US20230352029A1 (en) * | 2022-05-02 | 2023-11-02 | Tencent America LLC | Progressive contrastive learning framework for self-supervised speaker verification |
US20230402041A1 (en) * | 2022-06-10 | 2023-12-14 | International Business Machines Corporation | Individual recognition using voice detection |
CN115035890B (zh) * | 2022-06-23 | 2023-12-05 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、电子设备及存储介质 |
CN117495571B (zh) * | 2023-12-28 | 2024-04-05 | 北京芯盾时代科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN118053432B (zh) * | 2024-03-21 | 2024-10-11 | 中科南京智能技术研究院 | 长短语音通用说话人嵌入层模型获得方法及说话人识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030225719A1 (en) * | 2002-05-31 | 2003-12-04 | Lucent Technologies, Inc. | Methods and apparatus for fast and robust model training for object classification |
TWI297487B (en) * | 2005-11-18 | 2008-06-01 | Tze Fen Li | A method for speech recognition |
TWI596600B (zh) * | 2015-06-03 | 2017-08-21 | 創心醫電股份有限公司 | 識別生理聲音的方法以及系統 |
CN110136729A (zh) * | 2019-03-27 | 2019-08-16 | 北京奇艺世纪科技有限公司 | 模型生成方法、音频处理方法、装置及计算机可读存储介质 |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2128390T3 (es) * | 1992-03-02 | 1999-05-16 | At & T Corp | Metodo de adiestramiento y dispositivo para reconocimiento de voz. |
US5640429A (en) * | 1995-01-20 | 1997-06-17 | The United States Of America As Represented By The Secretary Of The Air Force | Multichannel non-gaussian receiver and method |
WO1999023643A1 (en) * | 1997-11-03 | 1999-05-14 | T-Netix, Inc. | Model adaptation system and method for speaker verification |
US6609093B1 (en) * | 2000-06-01 | 2003-08-19 | International Business Machines Corporation | Methods and apparatus for performing heteroscedastic discriminant analysis in pattern recognition systems |
US9113001B2 (en) * | 2005-04-21 | 2015-08-18 | Verint Americas Inc. | Systems, methods, and media for disambiguating call data to determine fraud |
US9247056B2 (en) * | 2007-02-28 | 2016-01-26 | International Business Machines Corporation | Identifying contact center agents based upon biometric characteristics of an agent's speech |
US7958068B2 (en) * | 2007-12-12 | 2011-06-07 | International Business Machines Corporation | Method and apparatus for model-shared subspace boosting for multi-label classification |
EP2189976B1 (en) * | 2008-11-21 | 2012-10-24 | Nuance Communications, Inc. | Method for adapting a codebook for speech recognition |
FR2940498B1 (fr) * | 2008-12-23 | 2011-04-15 | Thales Sa | Procede et systeme pour authentifier un utilisateur et/ou une donnee cryptographique |
WO2012041492A1 (en) * | 2010-09-28 | 2012-04-05 | MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. | Method and device for recovering a digital image from a sequence of observed digital images |
US8442823B2 (en) * | 2010-10-19 | 2013-05-14 | Motorola Solutions, Inc. | Methods for creating and searching a database of speakers |
US9679561B2 (en) * | 2011-03-28 | 2017-06-13 | Nuance Communications, Inc. | System and method for rapid customization of speech recognition models |
US9967218B2 (en) * | 2011-10-26 | 2018-05-08 | Oath Inc. | Online active learning in user-generated content streams |
US9042867B2 (en) * | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
US9406298B2 (en) * | 2013-02-07 | 2016-08-02 | Nuance Communications, Inc. | Method and apparatus for efficient i-vector extraction |
US20140222423A1 (en) * | 2013-02-07 | 2014-08-07 | Nuance Communications, Inc. | Method and Apparatus for Efficient I-Vector Extraction |
CN103310788B (zh) * | 2013-05-23 | 2016-03-16 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
US9514753B2 (en) * | 2013-11-04 | 2016-12-06 | Google Inc. | Speaker identification using hash-based indexing |
US9311932B2 (en) * | 2014-01-23 | 2016-04-12 | International Business Machines Corporation | Adaptive pause detection in speech recognition |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US10073985B2 (en) * | 2015-02-27 | 2018-09-11 | Samsung Electronics Co., Ltd. | Apparatus and method for trusted execution environment file protection |
US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
US10262654B2 (en) * | 2015-09-24 | 2019-04-16 | Microsoft Technology Licensing, Llc | Detecting actionable items in a conversation among participants |
CN107274904A (zh) * | 2016-04-07 | 2017-10-20 | 富士通株式会社 | 说话人识别方法和说话人识别设备 |
CN105869630B (zh) * | 2016-06-27 | 2019-08-02 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
US10535000B2 (en) | 2016-08-08 | 2020-01-14 | Interactive Intelligence Group, Inc. | System and method for speaker change detection |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
CA3179080A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
WO2018053531A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
WO2018106971A1 (en) * | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
CN108288470B (zh) * | 2017-01-10 | 2021-12-21 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
CN106991312B (zh) * | 2017-04-05 | 2020-01-10 | 百融云创科技股份有限公司 | 基于声纹识别的互联网反欺诈认证方法 |
US11556794B2 (en) * | 2017-08-31 | 2023-01-17 | International Business Machines Corporation | Facilitating neural networks |
US10679129B2 (en) * | 2017-09-28 | 2020-06-09 | D5Ai Llc | Stochastic categorical autoencoder network |
WO2019064598A1 (en) * | 2017-09-29 | 2019-04-04 | Nec Corporation | REGRESSION APPARATUS, REGRESSION METHOD, AND COMPUTER-READABLE STORAGE MEDIUM |
US20190213705A1 (en) * | 2017-12-08 | 2019-07-11 | Digimarc Corporation | Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork |
CN108417217B (zh) * | 2018-01-11 | 2021-07-13 | 思必驰科技股份有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
JP6911208B2 (ja) * | 2018-02-16 | 2021-07-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 発話スタイル転移 |
US11468316B2 (en) * | 2018-03-13 | 2022-10-11 | Recogni Inc. | Cluster compression for compressing weights in neural networks |
US10347241B1 (en) * | 2018-03-23 | 2019-07-09 | Microsoft Technology Licensing, Llc | Speaker-invariant training via adversarial learning |
CN109065022B (zh) * | 2018-06-06 | 2022-08-09 | 平安科技(深圳)有限公司 | i-vector向量提取方法、说话人识别方法、装置、设备及介质 |
CN109256139A (zh) * | 2018-07-26 | 2019-01-22 | 广东工业大学 | 一种基于Triplet-Loss的说话人识别方法 |
CN110289003B (zh) * | 2018-10-10 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN110364144B (zh) * | 2018-10-25 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法及装置 |
US10510002B1 (en) * | 2019-02-14 | 2019-12-17 | Capital One Services, Llc | Stochastic gradient boosting for deep neural networks |
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
US10878575B2 (en) * | 2019-04-15 | 2020-12-29 | Adobe Inc. | Foreground-aware image inpainting |
CN110223699B (zh) * | 2019-05-15 | 2021-04-13 | 桂林电子科技大学 | 一种说话人身份确认方法、装置及存储介质 |
SG11202010803VA (en) * | 2019-10-31 | 2020-11-27 | Alipay Hangzhou Inf Tech Co Ltd | System and method for determining voice characteristics |
-
2019
- 2019-10-31 SG SG11202010803VA patent/SG11202010803VA/en unknown
- 2019-10-31 WO PCT/CN2019/114812 patent/WO2020035085A2/en active Application Filing
- 2019-10-31 CN CN201980011206.5A patent/CN111712874B/zh active Active
-
2020
- 2020-01-09 SG SG11202013135XA patent/SG11202013135XA/en unknown
- 2020-01-09 CN CN202080000759.3A patent/CN111418009B/zh active Active
- 2020-01-09 WO PCT/CN2020/071194 patent/WO2020098828A2/en active Application Filing
- 2020-08-25 TW TW109128922A patent/TWI737462B/zh active
- 2020-10-27 US US17/081,956 patent/US10997980B2/en active Active
- 2020-12-22 US US17/131,182 patent/US11031018B2/en active Active
-
2021
- 2021-03-22 US US17/208,294 patent/US11244689B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030225719A1 (en) * | 2002-05-31 | 2003-12-04 | Lucent Technologies, Inc. | Methods and apparatus for fast and robust model training for object classification |
TWI297487B (en) * | 2005-11-18 | 2008-06-01 | Tze Fen Li | A method for speech recognition |
TWI596600B (zh) * | 2015-06-03 | 2017-08-21 | 創心醫電股份有限公司 | 識別生理聲音的方法以及系統 |
CN110136729A (zh) * | 2019-03-27 | 2019-08-16 | 北京奇艺世纪科技有限公司 | 模型生成方法、音频处理方法、装置及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI795173B (zh) * | 2022-01-17 | 2023-03-01 | 中華電信股份有限公司 | 多語言語音辨識系統、方法及電腦可讀媒介 |
Also Published As
Publication number | Publication date |
---|---|
SG11202013135XA (en) | 2021-01-28 |
US11031018B2 (en) | 2021-06-08 |
US20210043216A1 (en) | 2021-02-11 |
CN111418009B (zh) | 2023-09-05 |
WO2020035085A3 (en) | 2020-08-20 |
WO2020035085A2 (en) | 2020-02-20 |
WO2020098828A2 (en) | 2020-05-22 |
US11244689B2 (en) | 2022-02-08 |
CN111712874B (zh) | 2023-07-14 |
US20210210101A1 (en) | 2021-07-08 |
TW202119393A (zh) | 2021-05-16 |
WO2020098828A3 (en) | 2020-09-03 |
SG11202010803VA (en) | 2020-11-27 |
CN111712874A (zh) | 2020-09-25 |
US20210110833A1 (en) | 2021-04-15 |
US10997980B2 (en) | 2021-05-04 |
CN111418009A (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI737462B (zh) | 用於確定聲音特性的系統和方法 | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
JP2016057461A (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
Naika | An overview of automatic speaker verification system | |
US10630680B2 (en) | System and method for optimizing matched voice biometric passphrases | |
TW202213326A (zh) | 用於說話者驗證的廣義化負對數似然損失 | |
Aliaskar et al. | Human voice identification based on the detection of fundamental harmonics | |
Fasounaki et al. | CNN-based Text-independent automatic speaker identification using short utterances | |
US11348591B1 (en) | Dialect based speaker identification | |
US12189739B2 (en) | Methods for improving the performance of neural networks used for biometric authentication | |
Panda et al. | Study of speaker recognition systems | |
Georgescu et al. | GMM-UBM modeling for speaker recognition on a Romanian large speech corpora | |
Hari et al. | Comprehensive Research on Speaker Recognition and its Challenges | |
Abdiche et al. | A Hybrid of Deep Neural Network and eXtreme Gradient Boosting for Automatic Speaker Identification | |
Singh | Speaker Identification Using MFCC Feature Extraction ANN Classification Technique | |
Alwahed et al. | ARABIC SPEECH RECOGNITION BASED ON KNN, J48, AND LVQ | |
Do | Neural networks for automatic speaker, language, and sex identification | |
Balogun et al. | Exploring the Influence of Noise on Voice Recognition Systems: A Case Study of Supervised Learning Algorithms | |
Das | Utterance based speaker identification using ANN | |
Somogyi et al. | Speaker Recognition | |
Devi et al. | A Survey of Automatic Speaker Recognition System Using Artificial Neural Networks | |
Ren et al. | A hybrid GMM speaker verification system for mobile devices in variable environments | |
Ádám | A speech analysis system based on vector quantization using the lbg algorithm and self-organizing maps | |
Mombelli | Cascading on-device keyword spotting and speaker verification in TinyML | |
KR20240132372A (ko) | 멀티태스크 음성 모델을 이용한 화자 검증 |