TW201832223A - 一種混合頻率聲學識別模型的訓練方法及語音識別方法 - Google Patents
一種混合頻率聲學識別模型的訓練方法及語音識別方法 Download PDFInfo
- Publication number
- TW201832223A TW201832223A TW107106653A TW107106653A TW201832223A TW 201832223 A TW201832223 A TW 201832223A TW 107106653 A TW107106653 A TW 107106653A TW 107106653 A TW107106653 A TW 107106653A TW 201832223 A TW201832223 A TW 201832223A
- Authority
- TW
- Taiwan
- Prior art keywords
- voice
- speech
- voice signal
- training
- type
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000001228 spectrum Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims description 29
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 18
- 238000011161 development Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
Abstract
本發明公開了一種混合頻率聲學識別模型的訓練方法及語音識別方法,屬於語音識別技術領域;方法包括:獲取第一語音訊號的第一類語音特徵並進行處理,以得到對應的第一語音訓練數據;獲取第二語音訊號的第一類語音特徵並對進行處理,以得到對應的第二語音訓練數據;根據功率譜獲取第一語音訊號的第二類語音特徵以及第二語音訊號的第二類語音特徵;根據第一語音訊號和第二語音訊號預訓練形成混合頻率聲學識別模型的一初步識別模型;根據第一語音訓練數據、第二語音訓練數據以及第二類語音特徵對初步識別模型進行有監督的參數訓練,以形成混合頻率聲學識別模型。上述技術方案的有益效果是:識別模型具有較好的穩健性和類化性。
Description
本發明涉及語音識別技術領域,尤其涉及一種混合頻率聲學識別模型的訓練方法及語音識別方法。
現有技術中,由於使用環境、數據傳輸要求和傳輸使用的技術手段的不同,不同的錄音設備和儲存方法之間存在較大的差異,其中比較主要的差異在於取樣頻率的差異。例如8kHz取樣頻率的語音數據通常來自於電話錄音,那麼在傳統的語音識別方法中會專門利用電話數據訓練形成一個8kHz數據的聲學識別模型。相應地,16kHz取樣頻率的語音數據通常來自於桌面錄音,同樣利用桌面數據訓練形成一個16kHz數據的聲學識別模型。因此傳統的針對混合取樣頻率的語音數據的聲學識別方法是針對不同環境不同取樣頻率的語音數據分別建立聲學識別模型。
儘管使用專用的聲學模型能夠使得測試環境和訓練環境更加匹配,但是這樣做也會帶來很多弊端:一是識別模型的更新和維護會非常繁瑣,需要分別針對每個專用的聲學模型進行專門的更新和維護;二是每個專用的聲學模型分別進行訓練會使得各個模型的訓練數據不夠充分,模型的穩健性和類化性也會受到限制。
根據現有技術中存在的上述問題,現提供一種混合頻率聲學識別模型的訓練方法及語音識別方法的技術方案,旨在針對不同取樣頻率的語音訊號形成一個統一的聲學識別模型,使得模型對不同取樣頻率的數據具有較好的穩健性和類化性,並且能夠較好地抑制環境雜訊對語音識別的影響。
上述技術方案具體包括: 一種混合頻率聲學識別模型的訓練方法,其中,訓練形成一統一的混合頻率聲學識別模型,以分別對具有一第一取樣頻率的第一語音訊號進行聲學識別,以及對具有一第二取樣頻率的第二語音訊號進行聲學識別; 混合頻率聲學識別模型的訓練方法具體包括: 步驟S1,獲取第一語音訊號的第一類語音特徵並對第一語音數據進行處理,以得到對應的第一語音訓練數據; 步驟S2,獲取第二語音訊號的第一類語音特徵並對第二語音數據進行處理,以得到對應的第二語音訓練數據; 步驟S3,根據第一語音訊號的功率譜獲取第一語音訊號的第二類語音特徵,以及根據第二語音訊號的功率譜獲取第二語音訊號的第二類語音特徵; 步驟S4,根據第一語音訊號和第二語音訊號預訓練形成混合頻率聲學識別模型的一初步識別模型; 步驟S5,根據第一語音訓練數據、第二語音訓練數據以及第二類語音特徵對初步識別模型進行有監督的參數訓練,以形成混合頻率聲學識別模型。
優選的,該訓練方法,其中,第一取樣頻率為16 kHz的取樣頻率。
優選的,該訓練方法,其中,第二取樣頻率為8 kHz的取樣頻率。
優選的,該訓練方法,其中,第一類語音特徵為MFCC特徵。
優選的,該訓練方法,其中,第二類語音特徵為fbank特徵。
優選的,該訓練方法,其中,步驟S1中,對第一語音訊號進行處理以得到第一語音訓練數據的方法具體包括: 步驟S11,利用第一類語音特徵訓練形成一第一聲學模型; 步驟S12,利用第一聲學模型對第一語音訊號進行強制對齊操作,以形成幀對齊的第一語音訓練數據。
優選的,該訓練方法,其中,步驟S2中,利用與第一聲學模型相同的三音素決策樹獲取第二語音訊號的第一類語音特徵。
優選的,該訓練方法,其中,步驟S2中,對第二語音訊號進行處理以得到第二語音訓練數據的方法具體包括: 步驟S21,利用第二類語音特徵訓練形成一第二聲學模型; 步驟S22,利用第二聲學模型對第二語音訊號進行強制對齊操作,以形成幀對齊的第二語音訓練數據。
優選的,該訓練方法,其中,第一聲學模型為GMM-HMM聲學模型。
優選的,該訓練方法,其中,第二聲學模型為GMM-HMM聲學模型。
優選的,該訓練方法,其中,第一語音訊號的第一取樣頻率為16 kHz; 步驟S3中,獲取第一語音訊號中的第二類語音特徵的方法具體包括: 步驟S31a,獲取第一語音訊號的功率譜; 步驟S32a,採用梅爾濾波器組,根據第一語音訊號的功率譜對第一語音訊號的高頻帶的訊號部分進行規整,以得到第一語音訊號的第二類語音特徵的高頻部分; 步驟S33a,採用梅爾濾波器組,根據第一語音訊號的功率譜對第一語音訊號的低頻帶的訊號部分進行規整,以得到第一語音訊號的第二類語音特徵的低頻部分; 步驟S34a,結合高頻部分和低頻部分得到第一語音訊號的第二類語音特徵。
優選的,該訓練方法,其中,第二語音訊號的第二取樣頻率為8 kHz; 步驟S3中,獲取第二語音訊號中的第二類語音特徵的方法具體包括: 步驟S31b,獲取第二語音訊號的功率譜; 步驟S32b,採用梅爾濾波器組,根據第二語音訊號的功率譜對第二語音訊號進行規整,以得到第二語音訊號的第二類語音特徵的低頻部分; 步驟S33b,對第二語音訊號進行高維補零處理,以得到第二語音訊號的第二類語音特徵的高頻部分; 步驟S34b,結合高頻部分和低頻部分得到第二語音訊號的第二類語音特徵。
優選的,該訓練方法,其中,混合頻率聲學識別模型為部分連接的深度神經網路模型;或者 混合頻率聲學識別模型為全連接的深度神經網路模型。
優選的,該訓練方法,其中,步驟S4中,取用限制玻爾茲曼機,根據第一語音訊號和第二語音訊號對深度神經網路模型進行預訓練,以形成混合頻率聲學模型的初步識別模型。
優選的,該訓練方法,其中,步驟S5中,取用隨機梯度下降方法,根據第一語音訓練數據、第二語音訓練數據以及第二類語音特徵對初步識別模型進行有監督的參數訓練,以形成混合頻率聲學識別模型。
一種語音識別方法,其中,採用上述的混合頻率聲學識別模型的訓練方法。
上述技術方案的有益效果是:提供一種混合頻率聲學識別模型的訓練方法,能夠針對不同取樣頻率的語音訊號形成一個統一的聲學識別模型,使得模型對不同取樣頻率的數據具有較好的穩健性和類化性,並且能夠較好地抑制環境雜訊對語音識別的影響。
下面結合附圖和具體實施例對本發明作進一步說明,但不作為本發明的限定。
基於現有技術中存在的上述問題,現提供一種混合頻率聲學識別模型的訓練方法,該方法中,訓練形成一統一的混合頻率聲學識別模型,以分別對具有一第一取樣頻率的第一語音訊號進行聲學識別,以及對具有一第二取樣頻率的第二語音訊號進行聲學識別。換言之,在該訓練方法中,針對多種不同取樣頻率的語音數據,訓練形成一個統一的聲學識別模型進行識別,而非如傳統方法那樣針對每種語音數據訓練形成專用的聲學識別模型進行識別。
上述訓練方法具體如圖1所示,包括: 步驟S1,獲取第一語音訊號的第一類語音特徵並對第一語音數據進行處理,以得到對應的第一語音訓練數據; 步驟S2,獲取第二語音訊號的第一類語音特徵並對第二語音數據進行處理,以得到對應的第二語音訓練數據; 步驟S3,根據第一語音訊號的功率譜獲取第一語音訊號的第二類語音特徵,以及根據第二語音訊號的功率譜獲取第二語音訊號的第二類語音特徵; 步驟S4,根據第一語音訊號和第二語音訊號預訓練形成混合頻率聲學識別模型的一初步識別模型; 步驟S5,根據第一語音訓練數據、第二語音訓練數據以及第二類語音特徵對初步識別模型進行有監督的參數訓練,以形成混合頻率聲學識別模型。
具體地,本實施例中,首先需要分別獲得上述第一語音訊號和第二語音訊號的第一類語音特徵。上述第一語音訊號的第一類語音特徵和第二語音訊號的第二類語音特徵應當保持一致,因此應當取用相同的三音素決策樹分別處理獲取上述第一語音訊號和第二語音訊號的第一類語音特徵。進一步地,上述第一類語音特徵為梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient, MFCC)特徵,具體獲取過程在下文中詳述。
在獲取上述第一類語音特徵後,根據第一類語音特徵分別對對應的第一語音訊號或者第二語音訊號進行處理,以得到第一語音訓練數據或者第二語音訓練數據。
本實施例中,隨後分別獲取第一語音訊號和第二語音訊號的第二類語音特徵。進一步地,上述第二類語音特徵為fbank特徵,具體獲取過程在下文中詳述。
本實施例中,將上述第一語音訊號和第二語音訊號作為輸入數據,對混合頻率聲學識別模型進行預訓練,以形成一個初步模型,隨後根據上述第一類語音特徵、第二類語音特徵以及上述第一語音訓練數據和第二語音訓練數據對上述初步模型進行有監督的參數訓練,並最終訓練形成混合頻率聲學識別模型。
本發明的較佳的實施例中,上述第一語音訊號的第一取樣頻率為16kHz,通常來自電話錄音。而上述第二語音訊號的第二取樣頻率為8kHz,通常來自桌面錄音。
本發明的較佳的實施例中,上述步驟S1中,如圖2中所示,對上述第一語音訊號進行處理以得到第一語音訓練數據的方法具體包括: 步驟S11,利用第一類語音特徵訓練形成一第一聲學模型; 步驟S12,利用第一聲學模型對第一語音訊號進行強制對齊操作,以形成幀對齊的第一語音訓練數據。
具體地,本實施例中,首先對上述第一語音訊號提取第一類語音特徵(即MFCC特徵),隨後利用該第一類語音特徵訓練形成一個第一聲學模型。MFCC特徵是語音識別領域內最常見的語音特徵,從語音訊號中提取MFCC特徵的方法在現有技術中也有較為成熟的實現方式,在此不再贅述。
本發明的一個較佳的實施例中,在基於DNN-HMM(Deep Neural Networks-Hidden Markov Model,深度神經網路-隱馬爾可夫模型)框架的聲學模型出現之前,基於GMM-HMM(Gaussian Mixture Model- Hidden Markov Model,高斯混合模型-隱馬爾可夫模型)框架的聲學模型是語音識別領域最為廣泛的配置。這種框架結構利用隱馬爾可夫模型對三音素狀態進行轉移建模,並且利用高斯混合模型對狀態的發射機率建模,這些狀態正好都對應深度神經網路模型的輸出節點。因此,當上述混合頻率聲學識別模型為深度神經網路模型時,上述第一聲學模型可以為GMM-HMM聲學模型,即利用上述MFCC特徵訓練形成一GMM-HMM聲學模型。
本實施例中,利用上述訓練形成的第一聲學模型對上述第一語音訊號進行強制對齊。所謂強制對齊,是指將語音的每一幀語音特徵都對應到綁定三音素的某一個狀態上去,而這些狀態正好對應著混合頻率聲學識別模型的輸出節點。有了幀對齊的數據就可以對混合頻率聲學識別模型(深度神經網路模型)進行有監督的參數訓練了。
本發明的較佳的實施例中,類似上文中,上述步驟S2中,對第二語音訊號進行處理以得到第二語音訓練數據的方法如圖3所示,具體包括: 步驟S21,利用第二類語音特徵訓練形成一第二聲學模型; 步驟S22,利用第二聲學模型對第二語音訊號進行強制對齊操作,以形成幀對齊的第二語音訓練數據。
上述獲取第二類語音特徵並訓練形成第二聲學模型,隨後利用第二聲學模型對第二語音訊號進行強制操作的過程與上文中針對第一語音訊號的操作類似,在此不再贅述。
應當注意的是,由於16 kHz語音與8 kHz語音的語音特徵存在較大的差異,其中每一維所涵蓋的頻域都是不相同的,因此這兩種語音數據無法共用同一個GMM-HMM模型,並且由於需要使用16kHz語音數據和8kHz語音數據共同訓練形成同一個混合頻率聲學識別模型,因此這兩種語音數據幀對齊的輸出節點要保持一致。則在對上述第二語音訊號提取第二類語音特徵時,採用與上述第一聲學模型相同的三音素決策樹提取,即第一語音訊號和第二語音訊號中提取第一類語音特徵所使用的音素集和決策樹相同。
本發明的較佳的實施例中,上述步驟S3中,獲取16kHz的第一語音訊號中的第二類語音特徵的方法具體如圖4所示,包括: 步驟S31a,獲取第一語音訊號的功率譜; 步驟S32a,採用梅爾濾波器組,根據第一語音訊號的功率譜對第一語音訊號的高頻帶的訊號部分進行規整,以得到第一語音訊號的第二類語音特徵的高頻部分; 步驟S33a,採用梅爾濾波器組,根據第一語音訊號的功率譜對第一語音訊號的低頻帶的訊號部分進行規整,以得到第一語音訊號的第二類語音特徵的低頻部分; 步驟S34a,結合高頻部分和低頻部分得到第一語音訊號的第二類語音特徵。
具體地,本實施例中,如上文中,上述第二類語音特徵為fbank特徵。則上述步驟中,首先獲取第一語音訊號的功率譜,隨後Mel濾波器組分別對該第一語音訊號的高頻帶和低頻帶進行規整,以獲取語音的fbank特徵。具體地,獲取語音訊號的功率譜的方法是所有語音特徵都需要進行的處理過程,大致需要進行語音訊號的預加重、分幀、加窗、快速傅立葉變換以得到語音訊號的頻譜,然後再得到功率譜。
本實施例中,常見的Mel濾波器組對功率譜進行規整的過程中,對於16kHz的語音數據(第一語音訊號)通常採用24維的Mel濾波器組,對於8kHz的語音數據(第二語音訊號)通常採用8維的Mel濾波器組。而在本發明中,對於第一語音訊號的低頻帶部分採用22維的Mel濾波器組進行規整以形成上述低頻部分,對於第一語音訊號的高頻帶部分取用7維的Mel濾波器組進行規整以形成上述高頻部分,隨後歸納上述低頻部分和高頻部分形成第二類語音特徵(具體如圖6所示)。
本發明的較佳的實施例中,上述步驟S3中,獲取8kHz的第二語音訊號中的第二類語音特徵的方法具體如圖5所示,包括: 步驟S31b,獲取第二語音訊號的功率譜; 步驟S32b,採用梅爾濾波器組,根據第二語音訊號的功率譜對第二語音訊號進行規整,以得到第二語音訊號的第二類語音特徵的低頻部分; 步驟S33b,對第二語音訊號進行高維補零處理,以得到第二語音訊號的第二類語音特徵的高頻部分; 步驟S34b,結合高頻部分和低頻部分得到第二語音訊號的第二類語音特徵。
獲取上述第二語音訊號的功率譜的方式與上述第一語音訊號相同,均為現有技術中通常採用的方式,在此不再贅述。
本實施例中,由於8 kHz的第二語音訊號沒有高頻段,因此經過Mel濾波器組之後僅為22維的特徵。為了使得第二語音訊號和第一語音訊號具有相同長度的語音特徵,在對第二語音訊號取用Mel濾波器組進行規整之後,對其進行高維補零處理,即對其高頻帶用零補齊,從而同樣形成第二類語音特徵。
上述處理之後,第二語音訊號的第二類語音特徵與第一語音訊號的第二類語音特徵的長度相同,並且語音特徵在低頻帶能夠共用。
本發明的較佳的實施例中,上述混合頻率聲學識別模型為部分連接或者全連接的深度神經網路模型。
具體地,全連接的深度神經網路模型無法單獨處理語音中來自不同頻段的雜訊干擾。因此可以提供一種部分連接的深度神經網路模型,該深度神經網路中包括至少一個部分連接的隱藏層,每個部分連接的隱藏層71僅接受來自特定頻段的輸入數據,並且這些輸入數據之間沒有相互重疊。高層的部分連接層同樣僅接受來自底層的部分連接層的輸入數據。這樣在每一組頻率段之間就不存在相互交叉的影響,從而使得每個神經網路能夠單獨處理對應頻段內的雜訊。在上述部分連接的神經元層之上是多個全連接的神經元層,其能夠將對應每組頻段的輸入數據進行結合處理,並最終形成一個具有表達能力的特徵組合,進而得到輸出結果。
本發明的一個較佳的實施例中,上述部分連接的深度神經網路的一種神經網路結構如圖7所示。若輸入的語音特徵被分為m個頻帶部分,被表示為:; (1) 則上述部分連接的隱藏層也相應地被分為m個部分,則第n個部分的部分連接的隱藏層的各個部分被表示為:; (2) 那麼第k個部分的值可以通過比其第一層的第k個部分的值計算得到,具體為:; (3) 其中,為啟動函數;用於表示第n個部分連接的隱藏層的第k個部分的權重矩陣;用於表示第n個部分連接的隱藏層的第k個部分的偏置量。
本發明中,部分連接的深度神經網路與全連接的深度神經網路在訓練方法上是相通的,部分連接的神經網路的部分連接層在進行預訓練時,可以看作是對多個相互分離的深度神經網路進行預訓練。本發明中,取用部分連接的深度神經網路作為混合頻率聲學識別模型能夠提升其抗擾性能,對多種環境雜訊均能夠有效抑制,並且能夠獲得比普通的全連接的深度神經網路更好的識別性能。
本發明中同樣可以取用全連接的深度神經網路作為混合頻率聲學識別模型,其在抗擾性能上略遜於部分連接的深度神經網路。
如上文中,部分連接的深度神經網路和全連接的深度神經網路在訓練步驟上是相通的,因此下文中不再一一對全連接的深度神經網路和部分連接的深度神經網路的訓練過程做分別闡述。
本發明的較佳的實施例中,上述步驟S4中,取用限制玻爾茲曼機,根據第一語音訊號和第二語音訊號對深度神經網路模型進行預訓練,以形成混合頻率聲學模型的初步識別模型。
具體地,本實施例中,以部分連接的深度神經網路為例,對於上述第二類語音特徵,部分連接層取用兩個部分分別對應第二類語音特徵的低頻部分和高頻部分,即0-4 kHz對應低頻部分,4-8 kHz對應高頻部分。隨後將fbank特徵的低頻部分輸入到部分連接層的第一個部分,將fbank特徵的高頻部分輸入到部分連接層的第二個部分,最後利用限制玻爾茲曼機(Restricted Boltzmann Machine,RBM)對部分連接的深度神經網路進行預訓練以形成混合頻率聲學識別模型的初步模型。
本發明的較佳的實施例中,上述步驟S5中,可以取用隨機梯度下降方法,根據第一語音訓練數據、第二語音訓練數據以及第二類語音特徵對初步識別模型進行有監督的參數訓練,以形成混合頻率聲學識別模型。
具體地,本實施例中,可以取用隨機梯度下降法(Stochastic Gradient descent,SGD)對整個初步模型進行有監督的最佳化訓練。具體地,利用fbank特徵和幀對齊的第一語音訓練數據和第二語音訓練數據對初步模型進行有監督訓練。訓練過程中可以使用真實數據的開發集來觀測模型的性能。開發集的測試性能會隨著模型的反覆運算逐漸變好。當開發集的性能增加變慢並且兩次模型反覆運算在開發集上的絕對性能增加小於一預設閾值時,訓練停止。此時訓練好的模型即為最終完成的混合頻率聲學識別模型。根據這個模型能夠分別對16kHz的第一語音訊號和8kHz的第二語音訊號進行識別,提升了模型的穩健性和類化性。當該混合頻率聲學識別模型採用部分連接的深度神經網路模型訓練形成時,其抗擾性能也有所提升,對於多種環境雜訊都能夠有效抑制,並且進一步提升了識別性能。
以上僅為本發明較佳的實施例,並非因此限制本發明的實施方式及保護範圍,對於本領域技術人員而言,應當能夠意識到凡運用本發明說明書及圖示內容所作出的等同替換和顯而易見的變化所得到的方案,均應當包含在本發明的保護範圍內。
S1‧‧‧步驟S1
S2‧‧‧步驟S2
S3‧‧‧步驟S3
S4‧‧‧步驟S4
S5‧‧‧步驟S5
S11‧‧‧步驟S11
S12‧‧‧步驟S12
S21‧‧‧步驟S21
S22‧‧‧步驟S22
S31a‧‧‧步驟S31a
S32a‧‧‧步驟S32a
S33a‧‧‧步驟S33a
S34a‧‧‧步驟S34a
S31b‧‧‧步驟S31b
S32b‧‧‧步驟S32b
S33b‧‧‧步驟S33b
S34b‧‧‧步驟S34b
圖1是本發明的較佳的實施例中,一種混合頻率聲學識別模型的訓練方法的總體流程示意圖; 圖2-3是本發明的較佳的實施例中,訓練得到第一類語音特徵的流程示意圖; 圖4-5是本發明的較佳的實施例中,訓練得到第二類語音特徵的流程示意圖; 圖6是本發明的一個較佳的實施例中,採用梅爾濾波器組訓練得到第二類語音特徵的示意圖; 圖7是本發明的一個較佳的實施例中,採用部分連接的深度神經網路作為混合頻率聲學識別模型的結構示意圖。
Claims (16)
- 一種混合頻率聲學識別模型的訓練方法,其中,訓練形成一統一的該混合頻率聲學識別模型,以分別對具有一第一取樣頻率的第一語音訊號進行聲學識別,以及對具有一第二取樣頻率的第二語音訊號進行聲學識別; 該混合頻率聲學識別模型的訓練方法具體包括: 步驟S1,獲取該第一語音訊號的第一類語音特徵並對該第一語音數據進行處理,以得到對應的第一語音訓練數據; 步驟S2,獲取該第二語音訊號的該第一類語音特徵並對該第二語音數據進行處理,以得到對應的第二語音訓練數據; 步驟S3,根據該第一語音訊號的功率譜獲取該第一語音訊號的第二類語音特徵,以及根據該第二語音訊號的功率譜獲取該第二語音訊號的第二類語音特徵; 步驟S4,根據該第一語音訊號和該第二語音訊號預訓練形成該混合頻率聲學識別模型的一初步識別模型; 步驟S5,根據該第一語音訓練數據、該第二語音訓練數據以及該第二類語音特徵對該初步識別模型進行有監督的參數訓練,以形成該混合頻率聲學識別模型。
- 如請求項第1項所述之訓練方法,其中,該第一取樣頻率為16 kHz的取樣頻率。
- 如請求項第1項所述之訓練方法,其中,該第二取樣頻率為8 kHz的取樣頻率。
- 如請求項第1項所述之訓練方法,其中,該第一類語音特徵為MFCC特徵。
- 如請求項第1項所述之訓練方法,其中,該第二類語音特徵為fbank特徵。
- 如請求項第1項所述之訓練方法,其中,該步驟S1中,對該第一語音訊號進行處理以得到該第一語音訓練數據的方法具體包括: 步驟S11,利用該第一類語音特徵訓練形成一第一聲學模型; 步驟S12,利用該第一聲學模型對該第一語音訊號進行強制對齊操作,以形成幀對齊的該第一語音訓練數據。
- 如請求項第6項所述之訓練方法,其中,該步驟S2中,利用與該第一聲學模型相同的三音素決策樹獲取該第二語音訊號的該第一類語音特徵。
- 如請求項第1項所述之訓練方法,其中,該步驟S2中,對該第二語音訊號進行處理以得到該第二語音訓練數據的方法具體包括: 步驟S21,利用該第二類語音特徵訓練形成一第二聲學模型; 步驟S22,利用該第二聲學模型對該第二語音訊號進行強制對齊操作,以形成幀對齊的該第二語音訓練數據。
- 如請求項第6或7項所述之訓練方法,其中,該第一聲學模型為GMM-HMM聲學模型。
- 如請求項第8項所述之訓練方法,其中,該第二聲學模型為GMM-HMM聲學模型。
- 如請求項第1項所述之訓練方法,其中,該第一語音訊號的該第一取樣頻率為16 kHz; 該步驟S3中,獲取該第一語音訊號中的該第二類語音特徵的方法具體包括: 步驟S31a,獲取該第一語音訊號的功率譜; 步驟S32a,取用梅爾濾波器組,根據該第一語音訊號的該功率譜對該第一語音訊號的高頻帶的訊號部分進行規整,以得到該第一語音訊號的該第二類語音特徵的高頻部分; 步驟S33a,取用梅爾濾波器組,根據該第一語音訊號的該功率譜對該第一語音訊號的低頻帶的訊號部分進行規整,以得到該第一語音訊號的該第二類語音特徵的低頻部分; 步驟S34a,結合該高頻部分和該低頻部分得到該第一語音訊號的該第二類語音特徵。
- 如請求項第1項所述之訓練方法,其中,該第二語音訊號的該第二取樣頻率為8 kHz; 該步驟S3中,獲取該第二語音訊號中的該第二類語音特徵的方法具體包括: 步驟S31b,獲取該第二語音訊號的功率譜; 步驟S32b,取用梅爾濾波器組,根據該第二語音訊號的該功率譜對該第二語音訊號進行規整,以得到該第二語音訊號的該第二類語音特徵的低頻部分; 步驟S33b,對該第二語音訊號進行高維補零處理,以得到該第二語音訊號的該第二類語音特徵的高頻部分; 步驟S34b,結合該高頻部分和該低頻部分得到該第二語音訊號的該第二類語音特徵。
- 如請求項第1項所述之訓練方法,其中,該混合頻率聲學識別模型為部分連接的深度神經網路模型;或者 該混合頻率聲學識別模型為全連接的深度神經網路模型。
- 如請求項第13項所述之訓練方法,其中,該步驟S4中,取用限制玻爾茲曼機,根據該第一語音訊號和該第二語音訊號對該深度神經網路模型進行預訓練,以形成該混合頻率聲學模型的初步識別模型。
- 如請求項第13項所述之訓練方法,其中,該步驟S5中,採用隨機梯度下降方法,根據該第一語音訓練數據、該第二語音訓練數據以及該第二類語音特徵對該初步識別模型進行有監督的參數訓練,以形成該混合頻率聲學識別模型。
- 一種語音識別方法,其中,採用如請求項第1-15之任一項所述之混合頻率聲學識別模型的訓練方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201710108893.5 | 2017-02-27 | ||
CN201710108893.5A CN108510979B (zh) | 2017-02-27 | 2017-02-27 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201832223A true TW201832223A (zh) | 2018-09-01 |
Family
ID=63253118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107106653A TW201832223A (zh) | 2017-02-27 | 2018-02-27 | 一種混合頻率聲學識別模型的訓練方法及語音識別方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11120789B2 (zh) |
CN (1) | CN108510979B (zh) |
TW (1) | TW201832223A (zh) |
WO (1) | WO2018153214A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600017A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461447B (zh) * | 2018-09-30 | 2023-08-18 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN111462732B (zh) * | 2019-01-21 | 2024-04-09 | 阿里巴巴集团控股有限公司 | 语音识别方法和装置 |
CN110534098A (zh) * | 2019-10-09 | 2019-12-03 | 国家电网有限公司客户服务中心 | 一种年龄增强的语音识别增强方法和装置 |
CN110556125B (zh) * | 2019-10-15 | 2022-06-10 | 出门问问信息科技有限公司 | 基于语音信号的特征提取方法、设备及计算机存储介质 |
CN111149154B (zh) * | 2019-12-24 | 2021-08-24 | 广州国音智能科技有限公司 | 一种声纹识别方法、装置、设备和储存介质 |
CN111105786B (zh) * | 2019-12-26 | 2022-10-18 | 思必驰科技股份有限公司 | 一种多采样率语音识别方法、装置、系统及存储介质 |
CN111402867B (zh) * | 2020-04-21 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 混合采样率声学模型训练方法、装置及电子设备 |
CN111627418B (zh) * | 2020-05-27 | 2023-01-31 | 携程计算机技术(上海)有限公司 | 语音合成模型的训练方法、合成方法、系统、设备和介质 |
CN111916103B (zh) * | 2020-08-11 | 2024-02-20 | 南京拓灵智能科技有限公司 | 一种音频降噪方法和装置 |
CN113555007B (zh) * | 2021-09-23 | 2021-12-14 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1229519A1 (en) * | 2001-01-26 | 2002-08-07 | Telefonaktiebolaget L M Ericsson (Publ) | Speech analyzing stage and method for analyzing a speech signal |
SE522553C2 (sv) | 2001-04-23 | 2004-02-17 | Ericsson Telefon Ab L M | Bandbreddsutsträckning av akustiska signaler |
US7089178B2 (en) * | 2002-04-30 | 2006-08-08 | Qualcomm Inc. | Multistream network feature processing for a distributed speech recognition system |
JP5230103B2 (ja) * | 2004-02-18 | 2013-07-10 | ニュアンス コミュニケーションズ,インコーポレイテッド | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム |
US7983916B2 (en) * | 2007-07-03 | 2011-07-19 | General Motors Llc | Sampling rate independent speech recognition |
CN101320560A (zh) | 2008-07-01 | 2008-12-10 | 上海大学 | 语音识别系统应用采样速率转化提高识别率的方法 |
CN101577116B (zh) * | 2009-02-27 | 2012-07-18 | 北京中星微电子有限公司 | 语音信号的MFCC系数提取方法、装置及Mel滤波方法、装置 |
CN103065629A (zh) * | 2012-11-20 | 2013-04-24 | 广东工业大学 | 一种仿人机器人的语音识别系统 |
CN104036775A (zh) * | 2014-04-09 | 2014-09-10 | 天津思博科科技发展有限公司 | 一种视听融合的语音识别系统 |
US9520127B2 (en) * | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US9368110B1 (en) * | 2015-07-07 | 2016-06-14 | Mitsubishi Electric Research Laboratories, Inc. | Method for distinguishing components of an acoustic signal |
CN105513590A (zh) * | 2015-11-23 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别的方法和装置 |
CN105702250B (zh) * | 2016-01-06 | 2020-05-19 | 福建天晴数码有限公司 | 语音识别方法和装置 |
CN105590625A (zh) * | 2016-03-18 | 2016-05-18 | 上海语知义信息技术有限公司 | 声学模型自适应方法及系统 |
US10008218B2 (en) * | 2016-08-03 | 2018-06-26 | Dolby Laboratories Licensing Corporation | Blind bandwidth extension using K-means and a support vector machine |
CN106453865A (zh) * | 2016-09-27 | 2017-02-22 | 努比亚技术有限公司 | 一种移动终端及语音到文本的转换方法 |
-
2017
- 2017-02-27 CN CN201710108893.5A patent/CN108510979B/zh active Active
-
2018
- 2018-01-26 US US16/487,819 patent/US11120789B2/en active Active
- 2018-01-26 WO PCT/CN2018/074320 patent/WO2018153214A1/zh active Application Filing
- 2018-02-27 TW TW107106653A patent/TW201832223A/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600017A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN110600017B (zh) * | 2019-09-12 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200380954A1 (en) | 2020-12-03 |
CN108510979B (zh) | 2020-12-15 |
US11120789B2 (en) | 2021-09-14 |
WO2018153214A1 (zh) | 2018-08-30 |
CN108510979A (zh) | 2018-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201832223A (zh) | 一種混合頻率聲學識別模型的訓練方法及語音識別方法 | |
CN109357749B (zh) | 一种基于dnn算法的电力设备音频信号分析方法 | |
CN109272990A (zh) | 基于卷积神经网络的语音识别方法 | |
CN109949823B (zh) | 一种基于dwpt-mfcc与gmm的车内异响识别方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN111653289B (zh) | 一种回放语音检测方法 | |
CN109272988A (zh) | 基于多路卷积神经网络的语音识别方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
WO2018166316A1 (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN108986824A (zh) | 一种回放语音检测方法 | |
CN106898354B (zh) | 基于dnn模型和支持向量机模型的说话人个数估计方法 | |
WO2023283823A1 (zh) | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 | |
CN111128209A (zh) | 一种基于混合掩蔽学习目标的语音增强方法 | |
WO2018095167A1 (zh) | 声纹识别方法和声纹识别系统 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
CN112542174A (zh) | 基于vad的多维特征参数声纹识别方法 | |
Li et al. | Sams-net: A sliced attention-based neural network for music source separation | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN110728991A (zh) | 一种改进的录音设备识别算法 | |
CN115062678A (zh) | 设备故障检测模型的训练方法、故障检测方法及装置 | |
CN110970044B (zh) | 一种面向语音识别的语音增强方法 | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
Hou et al. | Domain adversarial training for speech enhancement | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 |