TW201709199A - 聲音辨識裝置及聲音辨識處理方法 - Google Patents
聲音辨識裝置及聲音辨識處理方法 Download PDFInfo
- Publication number
- TW201709199A TW201709199A TW104139866A TW104139866A TW201709199A TW 201709199 A TW201709199 A TW 201709199A TW 104139866 A TW104139866 A TW 104139866A TW 104139866 A TW104139866 A TW 104139866A TW 201709199 A TW201709199 A TW 201709199A
- Authority
- TW
- Taiwan
- Prior art keywords
- sound
- uncertainty
- feature amount
- recognition device
- voice recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 39
- 239000000284 extract Substances 0.000 claims abstract 3
- 238000000605 extraction Methods 0.000 abstract 1
- 238000005728 strengthening Methods 0.000 abstract 1
- 239000000463 material Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241001061260 Emmelichthys struhsakeri Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一種以聲音特徵量之不確定性為基準來實行聲音辨識處理之聲音辨識裝置,具備:抽出聲音強調處理前之噪音聲音特徵量作為向量(Vector),並抽出聲音強調處理後之強調聲音特徵量作為向量之特徵量抽出器;藉由算出噪音聲音特徵量和強調聲音特徵量之內分點或外分點,產生反映不確定性之聲音資料之資料產生器;以及藉由使用聲音資料來實行解碼處理或音響模型之學習處理中之至少任一方,以實行聲音辨識處理之聲音資料處理器。
Description
本發明,係有關於以聲音特徵量之不確定性為基準來執行音響模型之建造或聲音辨識之聲音辨識裝置及聲音辨識處理方法。
在辨識有噪音重疊之聲音上,藉由信號處理等之手法,在其前段執行聲音強調為一般之方法。藉由如此的聲音強調處理,提升了聲音辨識性能。但是,因為聲音強調之誤差,從原音成為失真之聲音是無法避免的。
為了減低此影響,由聲音處理前後之特徵量算出以聲音特徵量之不確定性(uncertainty),並使不確定性高之特徵量之影響變小之不確定性解碼(uncertainty decoding:UD)技術已被提案(例如參照非專利文件1~3)。
如此之技術,在音響模型上在使用高斯混合模型(Gaussian mixture model(GMM))之情況下,具有較佳之的相容性。亦即,聲音特徵量之不確定性以高斯分布來表現之時,GMM之似然估計(likelihood)是利用以其特徵量分布之周邊分布之期待值操作來表現之假定。
第7圖,係表示為了實現UD技術之習知之聲音辨識裝置之構造圖。在第7圖上所示之習知之聲音辨識裝置,其
構造具備特徵量抽出器11、12、學習資料產生器13、音響模型建造器14、語言模型記憶部15、聲音辨識器17以及音響模型適應器20。
然後,噪音重疊之噪音聲音1,和施加了聲音強調處理之強調聲音2,被輸入至聲音辨識裝置。通常,藉由特徵量抽出器12,特徵量從強調聲音2被抽出。然後,聲音辨識器17,從特徵量與音響模型及語言模型,獲得聲音辨識結果3。
在UD,聲音強調前之噪音聲音1之特徵量,亦藉由特徵量抽出器11被抽出。然後,音響模型適應器20,使用以特徵量抽出器11所抽出之聲音強調處理前之特徵量和以特徵量抽出器12所抽出之聲音強調處理後之特徵量,並根據某些基準來算出不確定性。
例如,在非專利文件2上所示之Delcroix 2009或非專利文件3上所示之Kolossa 2010中,音響模型適應器20,算出聲音強調處理前後之特徵量之差異作為不確定性。之後,音響模型適應器20,關於不確定性大之特徵量,執行使用GMM之音響模型之分散之擴大等之調適。
音響模型建造器14,一般是使用藉由強調聲音2之特徵量所作成之學習資料來建造音響模型。作為使學習資料增加之手法,按照學習環境將資料內插之方法已被提案(例如,參照專利文件1)。
[專利文件1] 特開平10-133688號公報
[非專利文件1] Liao2005:H. Liao anwM. Gales, “Joint uncertainty decoding for noise robust speech recognition,” in Proceedings of EUROSPEECH, 2005, pp. 3129-3132
[非專利文件2] Delcroix2009: M. Delcroix, T. Nakatani, and S. Watanabe, “Static and dynamic variance compensation for recognition of reverberant speech with dereverberation preprocessing,” IEEE Transactions on Audio, Speech, and Language Processing, pp. 324-334, 2009
[非專利文件3]Kolossa2010: D. Kolossa, R. F. Astudillo, E. Hoffmann, and R. Orglmeister, “Independent component analysis and time-frequency masking for speech recognition in multi-talker conditions,” EURASIP Journal on Audio, Speech, and Music Processing, p. ID 651420, 2010
然而,在習知技術上,有以下之課題。
如以上之說明,為了降低對混入之聲音失真對聲音辨識功能之影響,使用聲音強調處理來抽出聲音特徵量之不確定性以執行音響模型之建造或聲音辨識,是有力之方法。然後,為了減小不確定性高之特徵量之影響,UD技術被提案。
但是,在GMM以外之模型,如上述之GMM之似然估計,以其特徵量分布之周邊分布之期待值操作來表示之假定,是不成立的。因此,以習知之不確定性為基準之聲音辨識
技術,在模型不以高斯分布來表示之時,有無法好好地考慮不確定性之問題點。
又,在專利文件1,提案了使學習資料增加之手法。但是,在此專利文件1,藉由使用噪音抑制前後之特徵量,獲得抑制因噪音抑制之失真之效果為止之前,根本無任何之公告或提案。
本發明,係為了解決如上述之問題點之發明。其目的在於並不取決於模型是否由高斯分布來表示,無論對於甚麼樣之模型,皆獲得能夠以聲音特徵量之不確定性為基準來執行音響模型之建造或聲音辨識之聲音辨識裝置及聲音辨識處理方法。
有關於本發明之聲音辨識裝置,係以聲音特徵量之不確定性為基準來實行聲音辨識處理之聲音辨識裝置,包括:抽出聲音強調處理前之噪音聲音特徵量作為向量(Vector),並抽出聲音強調處理後之強調聲音特徵量作為向量之特徵量抽出器;藉由算出噪音聲音特徵量和強調聲音特徵量之內分點或外分點,產生反映不確定性之聲音資料之資料產生器;以及藉由使用聲音資料來實行解碼處理或音響模型之學習處理中之至少任一方,以實行聲音辨識處理之聲音資料處理器。
又,有關本發明之聲音辨識處理方法,係以聲音特徵量之不確定性為基準,藉由聲音辨識裝置來實行之聲音辨識處理方法,包括:抽出聲音強調處理前之噪音聲音特徵量作
為向量之第1步驟;抽出聲音強調處理後之強調聲音特徵量作為向量之第2步驟;藉由算出噪音聲音特徵量和強調聲音特徵量之內分點或外分點,產生反映不確定性之聲音資料之第3步驟;以及藉由使用聲音資料,實行解碼處理或音響模型之學習處理中之至少任一方,來實行聲音辨識處理之第4步驟。
根據本發明,具備為除了和習知同樣之強調聲音之特徵量,亦藉由考慮到依照噪音聲音特徵量和強調聲音特徵量之內分點或外分點之特徵量,來執行聲音辨識處理,獲得最終之聲音辨識結果之構造。其結果,不取決於模型是否由高斯分布來表示,無論對於甚麼樣之模型,皆可獲得能夠以聲音特徵量之不確定性為基準來執行音響模型之建造或聲音辨識之聲音辨識裝置及聲音辨識處理方法。
1‧‧‧噪音聲音
2‧‧‧強調聲音
3‧‧‧聲音辨識結果
11、12‧‧‧特徵量抽出器
13‧‧‧學習資料產生器
14‧‧‧音響模型建造器
15‧‧‧語言模型記憶部
16‧‧‧資料產生器
17、17(1)~17(3)‧‧‧聲音辨識器
18‧‧‧結果統合器
19‧‧‧亂數產生器
20‧‧‧音響模型適應器
30‧‧‧麥克風
40‧‧‧處理電路
41‧‧‧處理器
42‧‧‧記憶體
50‧‧‧顯示器
[第1圖]係在本發明之實施例1之聲音辨識裝置之概念之說明圖。
[第2圖]係說明在本發明之實施例1之聲音辨識裝置之構造圖。
[第3圖]係說明在本發明之實施例2之聲音辨識裝置之構造圖。
[第4圖]係說明在本發明之實施例3之聲音辨識裝置之構造圖。
[第5圖]係說明在本發明之實施例4之聲音辨識裝置之
構造圖。
[第6圖]係說明在本發明之實施例1~4之聲音辨識裝置上之共通硬體構造圖。
[第7圖]係表示為了實現UD技術之習知之聲音辨識裝置之構造圖。
以下,使用圖面說明本發明之聲音辨識裝置及聲音辨識處理方法之適合之實施例。
本發明,其目的在於將近年所提案之Deep neural network(DNN)或Convolutional neural network,Recurrent neural network等之音響模型作為主要對象,來提案可適用之聲音辨識裝置。但是有關於本發明之聲音辨識裝置,亦可適用於使用GMM之音響模型。
在DNN等之音響模型,無法如GMM以單純之參數表示分布。因此,即使可以算出不確定性,以算出的不確定性為基礎,亦無法明確怎麼樣的做法適合模型。
在此,於本第一實施例,思考著不將不確定性表現為明,而引導特徵量將不確定性表現為暗,將不確定性反映至特徵量。亦即,有關本第一實施例之聲音辨識裝置,利用在聲音特徵量之聲音強調前後之內分點,將不確定性反映至至特徵量。
第1圖,係說明在本發明之實施例1之聲音辨識裝置之概念圖。噪音聲音1之特徵量為x,而強調聲音2之特
徵量為y(^)。又,說明書中所謂的y(^)之符號,意味著在y上面附加^的意思。
第1圖,例如為了簡單,將聲音特徵量為2次元時之第1次元在橫軸上呈現,第2次元在縱軸上呈現,噪音聲音1之特徵量x和強調聲音2之特徵量y(^)一起呈現為2次元之向量。第2次元,和第1次元相比,在聲音強調前後之特徵量之變化較小,而能夠說是噪音之影響較少而能夠信賴之特徵量之次元。在此,為了表示如此之次元之關係,本實施例1中之聲音辨識裝置,使用增加如下式(1)之內分點之聲音資料,來執行解碼。
在上式(1)中,α之範圍為0<α<1。藉由將內分點加到特徵量上,第2次元,和第1次元相比,分散較小,而能夠獲得所謂的將能夠信賴之特徵量表示為暗之效果。
又,在α>1之外分點,例如在使用噪音去除效果小失而失真亦小之聲音強調手法之時,根據場合之不同亦被認為是有效的。即使在擴增至任意之次元之時,顯然能夠獲得同樣之效果。
第2圖,係說明在本發明之實施例1之聲音辨識裝置之構造圖。在第2圖上所示之本實施例1之聲音辨識裝置之構造,如果和之前之第7圖上所示之習知之聲音辨識裝置之構造相比,則有以下3個差異點。
‧第1差異點,在本實施例1之聲音辨識裝置,具備資料
產生器16。
‧第2差異點,在本實施例1之聲音辨識裝置,聲音辨識器17為複數之構造。在第2圖,以範例表示3個聲音辨識器17(1)~17(3)。
‧第3差異點,在本實施例1之聲音辨識裝置,又具備結果統合器18。
又,在第2圖之學習資料產生器13、音響模型建造器14、語言模型記憶部15、聲音辨識器17(1)~17(3)以及結果統合器18,相當於聲音資料處理器。
資料產生器16,從藉由特徵量抽出器11所抽出之噪音聲音1之特徵量x,及藉由特徵量抽出器12所抽出之強調聲音2之特徵量y(^),產生1個以上之內分點。在準備有3個聲音辨識裝置之情況下,產生2個內分點。然後,在複數之聲音辨識器17(1)~17(3)之中,第1個聲音辨識器17(1),使用藉由特徵量抽出器12所抽出之強調聲音2之特徵量為y(^)來實行聲音處理。
另一方面,在複數之聲音辨識器17(1)~17(3)之中,第2個聲音辨識器17(2)以及第3個聲音辨識器17(3),使用藉資料產生器16所產生之不同之內分點來實行聲音處理。亦即,在本實施例1之聲音辨識器17,使用和習知技術同樣之強調聲音2之特徵量y(^)來實行聲音辨識處理,同時亦針對根據不同之內分點之各個特徵量,藉由實行聲音辨識處理,來產生複數之聲音辨識假定。
結果統合器18,對藉由複數之聲音辨識器
17(1)~17(3)所得到之各個聲音辨識假定,施加統合處理,而得到最終聲音辨識結果3。作為根據結果統合器18之所統合之統合處理,能夠使用熟知之多數決之手法(ROVER)或似然估計(likelihood)、混淆網路(Confusion Network)之統合、晶格(lattice)之統合等之手法。
又,藉由在此第2圖之音響模型建造器14所建造之音響模型,為單一之模型。但是,本發明,以使用1個以上之內分點來學習,亦考慮到使用和聲音辨識時匹配之複數之音響模型。又,亦考慮使用內分點來學習之1個以上之音響模型,和使用外分點來學習之1個以上之音響模型。
因此,不確定性之傾向被反映在由複數之聲音辨識器17所辨識之各個結果上,又能夠藉由結果統合器18統合此被反映之結果,來期待提高辨識率。
如以上之說明,根據實施例1,具備以下之構造作為技術的特徵。
‧從由噪音聲音抽出之特徵量和由強調聲音抽出之特徵量之內分點或外分點,來產生特徵量之構造。
‧藉由對於新產生之1個以上之各個特徵量和強調聲音之特徵量來施加聲音辨識處理後之統合處理,獲得1個聲音辨識結果之構造。
亦即,藉由在實施例1之聲音辨識裝置,除了和習知同樣之強調聲音之特徵量,並考慮內分點或外分點之1個以上之特徵量,來執行聲音辨識處理,而具備最終之聲音辨識結果之構造。其結果,能夠不取決於是否模型以高斯分布表
示,無論對於甚麼樣之模型,皆能夠以聲音特徵量之不確定性為基準實行解碼處理,以執行聲音辨識。
在之前之實施例1,說明關於使用內分點或外分點之1個以上之特徵量,在解碼時考慮不確定性之情況。因此,相對於此,在本實施例2,說明關於使用根據內分點或外分點之1個以上之特徵量,在學習時考慮不確定性之情況。
第3圖,係說明在本發明之實施例2之聲音辨識裝置之構造圖。在第3圖所示之本實施例2之聲音辨識裝置之構造,和之前之第2圖所示之實施例1之聲音辨識裝置之構造比較,有以下之2點差異點。
‧第1差異點,在本實施例2之聲音辨識裝置,以1台聲音辨識器17來構成,無結果統合器18。但是,和實施例1結合是容易的。
‧第2差異點,在本實施例2之聲音辨識裝置,藉由資料產生器16所產生之內分點或外分點之1個以上特徵量,來增加學習資料。
又,第3圖之學習資料產生器13、音響模型建造器14、語言模型記憶部15以及聲音辨識器17,相當於聲音資料處理器。
在本實施例2之資料產生器16,例如在使用根據2個內分點之特徵量之情況下,除了藉由原本之特徵量抽出器12所抽出之強調聲音2,亦考慮到根據2個內分點之特徵量,成為使用合計為3倍之資料來執行學習。
又,在本實施例2之資料產生器16,能夠例如削減產生之資料,來減少學習資料量。因此,能夠在特徵量之變化上建造穩健之音響模型。其結果,能夠獲得了所謂的增加聲音辨識之穩健性之效果。
如以上之說明,根據實施例2,具備以下之構造作為技術的特徵。
‧從由噪音聲音抽出之特徵量和由強調聲音抽出之特徵量之內分點或外分點,來產生1個以上之特徵量之構造。
‧以使用新產生之1個以上之特徵量和強調聲音之特徵量之學習結果為基準,產生音響模型之構造。
藉由具備如此之構造,來執行在特徵量之變化上使用穩健之音響模型之聲音辨識處理。其結果,能夠不取決於是否模型以高斯分布表示,無論對哪種模型,皆能夠以聲音特徵量之不確定性為基準來實行音響模型之學習以執行聲音辨識。
在本實施例3,說明關於併用前面之實施例1和2之構造,考慮在學習時與解碼時雙方之不確定性之情況。
第4圖,係說明在本發明之實施例3之聲音辨識裝置之構造圖。在第4圖所示之本實施例3之聲音辨識裝置之構造,兼備在前面之實施例1之第2圖之構造,與前面之實施例2之第3圖之構造。
又,在第4圖之學習資料產生器13、音響模型建造器14、語言模型記憶部15、聲音辨識器17(1)~17(3)以及結
果統合器18,相當於聲音資料處理器。
如上面之說明,根據實施例3,能夠不取決於是否模型以高斯分布表示,無論對哪種模型,皆能夠以聲音特徵量之不確定性為基準來實行解碼處理及音響模型之學習,以執行聲音辨識。
在本實施例4,說明關於藉由在內分點或外分點上積極地帶入雜音干擾,實現使穩健性更提升之聲音辨識處理。
第5圖,係說明在本發明之實施例4之聲音辨識裝置之構造圖。在第5圖上所示之本實施例4之聲音辨識裝置之構造,如果和前面之第4圖上所示之實施例3之聲音辨識裝置之構造相比,則有以下1個差異點。
‧相異點,在本實施例4之聲音辨識裝置,具備能夠在內分點或是外分點上加上擾動之亂數產生器19。
又,在第5圖之學習資料產生器13、音響模型建造器14、語言模型記憶部15、聲音辨識器17(1)~17(3)以及結果統合器18,相當於聲音資料處理器。
又,第5圖,表示對前面之實施例3加上亂數產生器19之構造,但亦可以是對前面之實施例1或實施例2加上亂數產生器19之構造。
例如,在使用分散σ之正規亂數之時,內分點或是外分點,成為如下面之公式(2)
在上面之公式(2)之N(α,σ),為平均α、分散σ2之正規分布。又,亂數產生器19,亦能夠使用其他種類之亂數。
藉由使用如此之亂數產生器19,能夠在內分點或是外分點上加上擾動。然後,資料產生器16,能夠產生加上雜音干擾之學習資料及為了聲音辨識之評價資料。結果,和使用固定之內分點或外分點相比,資料之變異增加,而能夠實現使穩健性更提升之聲音辨識處理。
如以上之說明,根據實施例4,具備能夠在內分點或是外分點上積極地帶入雜音干擾之構造。結果,使用加上雜音干擾之學習資料及評價資料,能夠實現使穩健性更提升之聲音辨識處理。
最後,說明關於本發明之聲音辨識裝置之硬體構造。第6圖,係說明在本發明之實施例1~4之聲音辨識裝置上之共通硬體構造圖。在第6圖所示之本發明之聲音辨識裝置,其構造具備麥克風30、處理電路40以及顯示器50。在此,處理電路40其構造包含處理器41及記憶體42。
麥克風30,相當於為了取入噪音聲音1及強調聲音2之聲音輸入部。處理電路40,係實行一系列之聲音辨識處理之電路,並實行在第2圖~第5圖所示之各構成要件之處理。更具體地說,處理電路40之具體之處理,藉由處理器41來實行,在處理上必要之資料,被記憶在記憶體42。又,顯示器50,相當於聲音辨識結果之顯示部。
1‧‧‧噪音聲音
2‧‧‧強調聲音
3‧‧‧聲音辨識結果
11、12‧‧‧特徵量抽出器
13‧‧‧學習資料產生器
14‧‧‧音響模型建造器
15‧‧‧語言模型記憶部
16‧‧‧資料產生器
17(1)~17(3)‧‧‧聲音辨識器
18‧‧‧結果統合器
Claims (5)
- 一種聲音辨識裝置,以聲音特徵量之不確定性為基準來實行聲音辨識處理,其包括:特徵量抽出器,抽出聲音強調處理前之噪音聲音特徵量作為向量,並抽出聲音強調處理後之強調聲音特徵量作為向量;資料產生器,藉由算出上述噪音聲音特徵量和上述強調聲音特徵量之內分點或外分點,產生反映上述不確定性之聲音資料;以及聲音資料處理器,藉由使用上述聲音資料來實行解碼處理或音響模型之學習處理中之至少任一方,以實行上述聲音辨識處理。
- 如申請專利範圍第1項所述之聲音辨識裝置,其中上述聲音資料處理器,在實行上述解碼處理之時,藉由以在上述內分點或上述外分點所產生之不同值之複數之聲音資料為基準而產生之複數之聲音辨識假定,並統合處理上述複數之聲音辨識假定,以實行上述聲音辨識處理。
- 如申請專利範圍第1項所述之聲音辨識裝置,其中上述聲音資料處理器,在實行上述音響模型之學習處理之時,藉由以在上述內分點或上述外分點所產生之不同值之複數之聲音資料為基準,實行上述音響模型之學習處理,以實行上述聲音辨識處理。
- 如申請專利範圍第1至3項中任一項所述之聲音辨識裝置,其中又具備產生亂數之亂數產生器; 上述資料產生器,藉由使用上述亂數算出上述內分點或上述外分點,來產生上述聲音資料。
- 一種聲音辨識處理方法,以聲音特徵量之不確定性為基準,藉由聲音辨識裝置來實行,其包括:第1步驟,抽出聲音強調處理前之噪音聲音特徵量作為向量;第2步驟,抽出聲音強調處理後之強調聲音特徵量作為向量;第3步驟,藉由算出上述噪音聲音特徵量和上述強調聲音特徵量之內分點或外分點,產生反映上述不確定性之聲音資料;以及第4步驟,藉由使用上述聲音資料,實行解碼處理或音響模型之學習處理中之至少任一方,以實行聲音辨識處理。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/074658 WO2017037830A1 (ja) | 2015-08-31 | 2015-08-31 | 音声認識装置および音声認識処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201709199A true TW201709199A (zh) | 2017-03-01 |
Family
ID=58186751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104139866A TW201709199A (zh) | 2015-08-31 | 2015-11-30 | 聲音辨識裝置及聲音辨識處理方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JPWO2017037830A1 (zh) |
TW (1) | TW201709199A (zh) |
WO (1) | WO2017037830A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101915106B1 (ko) | 2017-04-17 | 2018-11-05 | 주식회사 케이티비랩 | 주파수 기반 양자 난수 생성 방법 및 생성기 |
CN112102816A (zh) * | 2020-08-17 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、系统、电子设备和存储介质 |
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
JP7508409B2 (ja) | 2021-05-31 | 2024-07-01 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174292B2 (en) * | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
JP2005031258A (ja) * | 2003-07-09 | 2005-02-03 | Canon Inc | 認識モデル学習装置及び方法 |
JP4456504B2 (ja) * | 2004-03-09 | 2010-04-28 | 日本電信電話株式会社 | 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム |
JP4816334B2 (ja) * | 2006-08-29 | 2011-11-16 | カシオ計算機株式会社 | ノイズ低減装置、撮像装置、ノイズ低減方法およびプログラム |
JP4733727B2 (ja) * | 2007-10-30 | 2011-07-27 | 日本電信電話株式会社 | 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 |
JP4960845B2 (ja) * | 2007-12-12 | 2012-06-27 | 日本電信電話株式会社 | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 |
JP5949553B2 (ja) * | 2010-11-11 | 2016-07-06 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識プログラム |
JP2015069063A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | 音声認識システム、音声認識方法、及び音声認識プログラム |
-
2015
- 2015-08-31 WO PCT/JP2015/074658 patent/WO2017037830A1/ja active Application Filing
- 2015-08-31 JP JP2017537096A patent/JPWO2017037830A1/ja active Pending
- 2015-11-30 TW TW104139866A patent/TW201709199A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
JPWO2017037830A1 (ja) | 2017-11-24 |
WO2017037830A1 (ja) | 2017-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017791B2 (en) | Deep neural network-based method and apparatus for combining noise and echo removal | |
CN110379412B (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
JP7094340B2 (ja) | 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法 | |
US10579327B2 (en) | Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold | |
WO2019128140A1 (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
US9640194B1 (en) | Noise suppression for speech processing based on machine-learning mask estimation | |
CN106558315B (zh) | 异质麦克风自动增益校准方法及系统 | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
US10115411B1 (en) | Methods for suppressing residual echo | |
US10755728B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
TW201709199A (zh) | 聲音辨識裝置及聲音辨識處理方法 | |
JP6764923B2 (ja) | 音声処理方法、装置、デバイスおよび記憶媒体 | |
WO2014168021A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
WO2014049944A1 (ja) | 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置 | |
KR20190130533A (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN110765868A (zh) | 唇读模型的生成方法、装置、设备及存储介质 | |
Saleem et al. | Multi-objective long-short term memory recurrent neural networks for speech enhancement | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
CN114302286A (zh) | 一种通话语音降噪方法、装置、设备及存储介质 | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
Hussain et al. | A novel speech intelligibility enhancement model based on canonical correlation and deep learning | |
Delcroix et al. | Cluster-based dynamic variance adaptation for interconnecting speech enhancement pre-processor and speech recognizer | |
US12080313B2 (en) | Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model | |
KR102044970B1 (ko) | 환경 특징 추출 방법 및 이를 이용한 보청기 작동 방법 |