JPWO2017037830A1 - 音声認識装置および音声認識処理方法 - Google Patents
音声認識装置および音声認識処理方法 Download PDFInfo
- Publication number
- JPWO2017037830A1 JPWO2017037830A1 JP2017537096A JP2017537096A JPWO2017037830A1 JP WO2017037830 A1 JPWO2017037830 A1 JP WO2017037830A1 JP 2017537096 A JP2017537096 A JP 2017537096A JP 2017537096 A JP2017537096 A JP 2017537096A JP WO2017037830 A1 JPWO2017037830 A1 JP WO2017037830A1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech recognition
- processing
- dividing point
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Abstract
音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成するデータ生成器と、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する音声データ処理器とを備える。
Description
本発明は、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行う音声認識装置および音声認識処理方法に関する。
騒音が重畳した音声を認識するには、信号処理的な手法により、その前段で音声強調処理を行うことが一般的である。このような音声強調処理により、音声認識性能は、向上する。しかしながら、音声強調の誤りにより、原音声からは歪んだ音声となってしまうことは避けられない。
この影響を低減するために、音声特徴量の不確定性(uncertainty)を音声処理前後の特徴量から算出し、不確定性の高い特徴量の寄与を小さくする不確定性デコーディング(uncertainty decoding:UD)技術が提案されている(例えば、非特許文献1〜3参照)。
このような技術は、音響モデルにGaussian mixture model(GMM)を用いた場合に相性がよい。すなわち、音声特徴量の不確定性がガウス分布で表現される場合には、GMMの尤度がその特徴量の分布の周辺分布の期待値操作で表せるという仮定を利用している。
図7は、UD技術を実現するための従来の音声認識装置の構成を示した図である。図7に示す従来の音声認識装置は、特徴量抽出器11、12、学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、音声認識器17、および音響モデル適応器20を備えて構成されている。
そして、騒音が重畳した騒音音声1と、音声強調処理が施された強調音声2が、音声認識装置に入力される。通常は、特徴量抽出器12により、強調音声2から特徴量が抽出される。そして、音声認識器17は、特徴量と音響モデルと言語モデルから、音声認識結果3を得る。
UDでは、音声強調前の騒音音声1の特徴量も、特徴量抽出器11により抽出されている。そして、音響モデル適応器20は、特徴量抽出器11で抽出された音声強調処理前の特徴量と、特徴量抽出器12で抽出された音声強調処理後の特徴量を用いて、なんらかの基準により不確定性を算出する。
例えば、非特許文献2に示されているDelcroix2009や非特許文献3に示されているKolossa2010においては、音響モデル適応器20は、音声強調処理前後の特徴量の差分を不確定性として算出している。そして、音響モデル適応器20は、不確定性の大きい特徴量に関しては、GMMを用いた音響モデルの分散を広げるなどの適応を行っている。
音響モデル構築器14は、強調音声2の特徴量により作成された学習データを用いて音響モデルを構築するのが一般的である。学習データを増加させる手法としては、学習環境に応じて、データを内挿する方法も提案されている(例えば、特許文献1参照)。
Liao2005: H. Liao and M. Gales, "Joint uncertainty decoding for noise robust speech recognition," in Proceedings of EUROSPEECH, 2005, pp. 3129-3132
Delcroix2009: M. Delcroix, T. Nakatani, and S. Watanabe, "Static and dynamic variance compensation for recognition of reverberant speech with dereverberation preprocessing," IEEE Transactions on Audio, Speech, and Language Processing, pp. 324-334, 2009
Kolossa2010: D. Kolossa, R. F. Astudillo, E. Hoffmann, and R. Orglmeister, "Independent component analysis and time-frequency masking for speech recognition in multi-talker conditions," EURASIP Journal on Audio, Speech, and Music Processing, p. ID 651420, 2010
しかしながら、従来技術には、以下のような課題がある。
上述したように、混入した音声歪みが音声認識性能に与える影響を低減するためには、音声強調処理を用いて、音声特徴量の不確定性を抽出し、音響モデルの構築や音声認識を行うことが有力である。そして、不確定性の高い特徴量の寄与を小さくするために、UD技術が提案されている。
上述したように、混入した音声歪みが音声認識性能に与える影響を低減するためには、音声強調処理を用いて、音声特徴量の不確定性を抽出し、音響モデルの構築や音声認識を行うことが有力である。そして、不確定性の高い特徴量の寄与を小さくするために、UD技術が提案されている。
しかしながら、GMM以外のモデルでは、上述したようなGMMの尤度がその特徴量の分布の周辺分布の期待値操作で表せるという仮定が成り立たない。このため、従来の不確定性に基づく音声認識技術は、モデルがガウス分布で表せない場合には、うまく不確定性を考慮することができないという問題点があった。
また、特許文献1は、学習データを増加させる手法を提案している。しかしながら、この特許文献1は、騒音抑圧前後の特徴量を使うことで、騒音抑圧による歪みを抑えるという効果を得ることまでは、何ら開示も示唆もしていない。
この発明は、上記のような問題点を解決するためになされたものであり、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行うことのできる音声認識装置および音声認識処理方法を得ることを目的とする。
本発明に係る音声認識装置は、音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成するデータ生成器と、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する音声データ処理器とを備えるものである。
また、本発明に係る音声認識処理方法は、音声特徴量の不確定性をもとに音声認識装置により実行される音声認識処理方法であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出する第1ステップと、音声強調処理後の強調音声特徴量をベクトルとして抽出する第2ステップと、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成する第3ステップと、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する第4ステップとを有するものである。
本発明によれば、従来と同様の強調音声の特徴量に加えて、騒音音声特徴量と強調音声特徴量の内分点または外分点による特徴量を考慮して音声認識処理を行うことで、最終的な音声認識結果を得る構成を備えている。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行うことのできる音声認識装置および音声認識処理方法を得ることができる。
以下、本発明の音声認識装置および音声認識処理方法の好適な実施の形態につき図面を用いて説明する。
実施の形態1.
本発明は、近年提案されているDeep neural network(DNN)やConvolutional neural network、Recurrent neural networkなどの音響モデルを主な対象として適用可能な音声認識装置を提案することを目的としている。ただし、本発明に係る音声認識装置は、GMMを用いた音響モデルにも適用可能である。
本発明は、近年提案されているDeep neural network(DNN)やConvolutional neural network、Recurrent neural networkなどの音響モデルを主な対象として適用可能な音声認識装置を提案することを目的としている。ただし、本発明に係る音声認識装置は、GMMを用いた音響モデルにも適用可能である。
DNNなどの音響モデルでは、GMMのように分布を単純なパラメータで表すことができない。このため、不確定性を算出できたとしても、算出した不確定性を元に、どのようなやり方でモデルに適応するかが明確ではない。
そこで、本実施の形態1では、不確定性を陽に表現するのではなく、特徴量を通じて不確定性を暗に表現し、不確定性を特徴量に反映することを考える。すなわち、本実施の形態1に係る音声認識装置は、音声特徴量の音声強調前後での内分点を利用して、不確定性を特徴量に反映している。
図1は、本発明の実施の形態1における音声認識装置の概念を示した説明図である。騒音音声1の特徴量をx、強調音声2の特徴量をy(^)とする。なお、明細書中のy(^)という表記は、yの上に^が付されているものを意味している。
図1は、例えば簡単のため、音声特徴量が2次元であった場合の1次元目を横軸に、2次元目を縦軸に表現したものであり、騒音音声1の特徴量x、強調音声2の特徴量y(^)が、ともに2次元のベクトルとして表されている。2次元目は、1次元目に比べて、音声強調前後で特徴量の変化が小さく、騒音の影響が少ない信頼できる特徴量の次元であるといえる。そこで、このような次元の関係を表すために、本実施の形態1における音声認識装置は、下式(1)の内分点を加えた音声データを使って、デコーディングを行う。
上式(1)において、αの範囲は、0<α<1である。内分点を特徴量に加えることで、2次元目が1次元目に比べて分散が小さく、信頼できる特徴であることを暗に示すことができるという効果が得られる。
なお、α>1とした外分点も、例えば、騒音引き去り効果が小さいが歪みも小さい音声強調手法を用いた場合など、場合によっては有効であると考えられる。任意の次元に拡張した場合にも、同様の効果が得られることは明らかである。
図2は、本発明の実施の形態1における音声認識装置の構成を示した図である。図2に示した本実施の形態1における音声認識装置の構成は、先の図7に示した従来の音声認識装置の構成と比較すると、以下の3点が異なっている。
・第1の相違点として、本実施の形態1における音声認識装置は、データ生成器16を備えている。
・第2の相違点として、本実施の形態1における音声認識装置は、音声認識器17が複数で構成されている。図2では、3つの音声認識器17(1)〜17(3)が例示されている。
・第3の相違点として、本実施の形態1における音声認識装置は、結果統合器18をさらに備えている。
・第1の相違点として、本実施の形態1における音声認識装置は、データ生成器16を備えている。
・第2の相違点として、本実施の形態1における音声認識装置は、音声認識器17が複数で構成されている。図2では、3つの音声認識器17(1)〜17(3)が例示されている。
・第3の相違点として、本実施の形態1における音声認識装置は、結果統合器18をさらに備えている。
なお、図2における学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、音声認識器17(1)〜17(3)、および結果統合器18は、音声データ処理器に相当する。
データ生成器16は、特徴量抽出器11により抽出された騒音音声1の特徴量xと、特徴量抽出器12により抽出された強調音声2の特徴量y(^)から、1以上の内分点を生成する。3つの音声認識装置を用意した場合には、2つの内分点を生成する。そして、複数の音声認識器17(1)〜17(3)のうち、1番目の音声認識器17(1)は、特徴量抽出器12により抽出された強調音声2の特徴量y(^)を用いて音声処理を実行する。
一方、複数の音声認識器17(1)〜17(3)のうち、2番目の音声認識器17(2)および3番目の音声認識器17(3)は、データ生成器16で生成された異なる内分点を用いて音声処理を実行する。すなわち、本実施の形態1における音声認識器17は、従来技術と同様に強調音声2の特徴量y(^)を用いて音声認識処理を実行するとともに、異なる内分点による特徴量のそれぞれに対しても、音声認識処理を実行することで、複数の音声認識仮説を生成している。
結果統合器18は、複数の音声認識器17(1)〜17(3)により得られたそれぞれの音声認識仮説に対して統合処理を施し、最終的な音声認識結果3を得る。結果統合器18による統合処理としては、よく知られているような多数決による手法(ROVER)や、尤度、confusion networkの統合、latticeの統合などの手法を用いることができる。
なお、この図2における音響モデル構築器14により構築された音響モデルは、単一となっている。しかしながら、本発明は、1以上の内分点を使って学習しておいた、音声認識時とマッチした複数の音響モデルを使うことも考えられる。また、内分点を使って学習した1以上の音響モデルと、外分点を使って学習した1以上の音響モデルを使うことも考えられる。
これにより、複数の音声認識器17によるそれぞれの結果に不確定性の傾向が反映され、さらに、この反映された結果が結果統合器18により統合されることで、認識率の向上が期待できる。
以上のように、実施の形態1によれば、以下の構成を備えていることを技術的特徴としている。
・騒音音声から抽出した特徴量と、強調音声から抽出した特徴量との内分点または外分点から特徴量を生成する構成。
・新たに生成した1以上の特徴量のそれぞれと強調音声の特徴量に対して、音声認識処理を施した後に統合処理することで、1つの音声認識結果を得る構成
・騒音音声から抽出した特徴量と、強調音声から抽出した特徴量との内分点または外分点から特徴量を生成する構成。
・新たに生成した1以上の特徴量のそれぞれと強調音声の特徴量に対して、音声認識処理を施した後に統合処理することで、1つの音声認識結果を得る構成
すなわち、実施の形態1における音声認識装置は、従来と同様の強調音声の特徴量に加えて、内分点または外分点による1以上の特徴量を考慮して音声認識処理を行うことで、最終的な音声認識結果を得る構成を備えている。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとにデコーディング処理を実行して音声認識を行うことができる。
実施の形態2.
先の実施の形態1では、内分点または外分点による1以上の特徴量を用いて、デコーディング時に不確定性を考慮する場合について説明した。これに対して、本実施の形態2では、内分点または外分点による1以上の特徴量を用いて、学習時に不確定性を考慮する場合について説明する。
先の実施の形態1では、内分点または外分点による1以上の特徴量を用いて、デコーディング時に不確定性を考慮する場合について説明した。これに対して、本実施の形態2では、内分点または外分点による1以上の特徴量を用いて、学習時に不確定性を考慮する場合について説明する。
図3は、本発明の実施の形態2における音声認識装置の構成を示した図である。図3に示した本実施の形態2における音声認識装置の構成は、先の図2に示した実施の形態1における音声認識装置の構成と比較すると、以下の2点が異なっている。
・第1の相違点として、本実施の形態2における音声認識装置は、音声認識器17が1台で構成され、結果統合器18が不要となっている。ただし、実施の形態1と組み合わせることも容易である。
・第2の相違点として、本実施の形態2における音声認識装置は、データ生成器16で生成された内分点または外分点による1以上の特徴量により、学習データを増やしている。
・第1の相違点として、本実施の形態2における音声認識装置は、音声認識器17が1台で構成され、結果統合器18が不要となっている。ただし、実施の形態1と組み合わせることも容易である。
・第2の相違点として、本実施の形態2における音声認識装置は、データ生成器16で生成された内分点または外分点による1以上の特徴量により、学習データを増やしている。
なお、図3における学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、および音声認識器17は、音声データ処理器に相当する。
本実施の形態2におけるデータ生成器16は、例えば、2つの内分点による特徴量を用いた場合には、元の特徴量抽出器12より抽出された強調音声2の特徴量に加えて、2つの内分点による特徴量を考慮し、合計で3倍のデータを用いて学習を行うことになる。
なお、本実施の形態2におけるデータ生成器16は、生成したデータを間引くなどして、学習データ量を減らすこともできる。これにより、特徴量の変化に頑健な音響モデルが構築される。この結果、音声認識の頑健性が増すという効果が得られる。
以上のように、実施の形態2によれば、以下の構成を備えていることを技術的特徴としている。
・騒音音声から抽出した特徴量と、強調音声から抽出した特徴量との内分点または外分点から1以上の特徴量を生成する構成。
・新たに生成した1以上の特徴量と強調音声の特徴量を用いた学習結果に基づいて、音響モデルを生成する構成。
・騒音音声から抽出した特徴量と、強調音声から抽出した特徴量との内分点または外分点から1以上の特徴量を生成する構成。
・新たに生成した1以上の特徴量と強調音声の特徴量を用いた学習結果に基づいて、音響モデルを生成する構成。
このような構成を備えることで、特徴量の変化に頑健な音響モデルを用いた音声認識処理を行うことができる。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの学習を実行して音声認識を行うことができる。
実施の形態3.
本実施の形態3においては、先の実施の形態1と2の構成を併用して、学習時およびデコーディング時の双方で不確定性を考慮する場合について説明する。
本実施の形態3においては、先の実施の形態1と2の構成を併用して、学習時およびデコーディング時の双方で不確定性を考慮する場合について説明する。
図4は、本発明の実施の形態3における音声認識装置の構成を示した図である。図4に示した本実施の形態3における音声認識装置の構成は、先の実施の形態1における図2の構成と、先の実施の形態2における図3の構成を兼ね備えたものとなっている。
なお、図4における学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、音声認識器17(1)〜17(3)、および結果統合器18は、音声データ処理器に相当する。
以上のように、実施の形態3によれば、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに、デコーディング処理および音響モデルの学習を実行して音声認識を行うことができる。
実施の形態4.
本実施の形態4では、内分点もしくは外分点に積極的に外乱を持ち込むことで、より頑健性を向上させた音声認識処理を実現する場合について説明する。
本実施の形態4では、内分点もしくは外分点に積極的に外乱を持ち込むことで、より頑健性を向上させた音声認識処理を実現する場合について説明する。
図5は、本発明の実施の形態4における音声認識装置の構成を示した図である。図5に示した本実施の形態4における音声認識装置の構成は、先の図4に示した実施の形態3における音声認識装置の構成と比較すると、以下の1点が異なっている。
・相違点として、本実施の形態4における音声認識装置は、内分点もしくは外分点に摂動を加えることのできる乱数発生器19を備えている。
・相違点として、本実施の形態4における音声認識装置は、内分点もしくは外分点に摂動を加えることのできる乱数発生器19を備えている。
なお、図5における学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、音声認識器17(1)〜17(3)、および結果統合器18は、音声データ処理器に相当する。
また、図5は、先の実施の形態3に対して乱数発生器19を加えた構成を示しているが、先の実施の形態1または実施の形態2に対して乱数発生器19を加えた構成とすることも可能である。
例えば、分散σの正規乱数を用いた場合には、内分点もしくは外分点は、下式(2)のようになる。
上式(2)におけるN(α、σ)は、平均α、分散σ2の正規分布である。なお、乱数発生器19は、他の種類の乱数を用いることもできる。
このような乱数発生器19を用いることにより、内分点もしくは外分点に摂動を加えることができる。そして、データ生成器16は、外乱を加えた学習データおよび音声認識のための評価データを生成することができる。この結果、固定の内分点もしくは外分点を使う場合に比べて、データのバリエーションが増すことになり、より頑健性を向上させた音声認識処理を実現することができる。
以上のように、実施の形態4によれば、内分点もしくは外分点に積極的に外乱を持ち込むことができる構成を備えている。この結果、外乱を加えた学習データおよび評価データを用いて、より頑健性を向上させた音声認識処理を実現することができる。
最後に、本発明の音声認識装置のハードウェア構成について説明する。図6は、本発明の実施の形態1〜4における音声認識装置に共通のハードウェア構成を示した図である。図6に示した本発明の音声認識装置は、マイク30と、処理回路40と、ディスプレイ50とを備えて構成されている。ここで、処理回路40は、プロセッサ41およびメモリ42を含んで構成されている。
マイク30は、騒音音声1および強調音声2を取り込むための音声入力部に相当する。処理回路40は、一連の音声認識処理を実行する回路であり、図2〜図5で示した各構成要件による処理を実行する。より具体的には、処理回路40の具体的な処理は、プロセッサ41により実行され、処理に必要なデータは、メモリ42に記憶されることとなる。また、ディスプレイ50は、音声認識結果の表示部に相当する。
Claims (5)
- 音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、
音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、
前記騒音音声特徴量と前記強調音声特徴量の内分点または外分点を算出することで前記不確定性を反映した音声データを生成するデータ生成器と、
前記音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで前記音声認識処理を実行する音声データ処理器と
を備える音声認識装置。 - 前記音声データ処理器は、前記デコーディング処理を実行する際には、前記内分点または前記外分点として異なる値として生成された複数の音声データに基づいて複数の音声認識仮説を生成し、前記複数の音声認識仮説を統合処理することで、前記音声認識処理を実行する
請求項1に記載の音声認識装置。 - 前記音声データ処理器は、前記音響モデルの学習処理を実行する際には、前記内分点または前記外分点として異なる値として生成された複数の音声データに基づいて前記音響モデルの学習処理を実行することで、前記音声認識処理を実行する
請求項1に記載の音声認識装置。 - 乱数を発生する乱数発生器をさらに備え、
前記データ生成器は、前記乱数を用いて前記内分点または前記外分点を算出することで前記音声データを生成する
請求項1から3のいずれか1項に記載の音声認識装置。 - 音声特徴量の不確定性をもとに音声認識装置により実行される音声認識処理方法であって、
音声強調処理前の騒音音声特徴量をベクトルとして抽出する第1ステップと、
音声強調処理後の強調音声特徴量をベクトルとして抽出する第2ステップと、
前記騒音音声特徴量と前記強調音声特徴量の内分点または外分点を算出することで前記不確定性を反映した音声データを生成する第3ステップと、
前記音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する第4ステップと
を有する音声認識処理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/074658 WO2017037830A1 (ja) | 2015-08-31 | 2015-08-31 | 音声認識装置および音声認識処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2017037830A1 true JPWO2017037830A1 (ja) | 2017-11-24 |
Family
ID=58186751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017537096A Pending JPWO2017037830A1 (ja) | 2015-08-31 | 2015-08-31 | 音声認識装置および音声認識処理方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JPWO2017037830A1 (ja) |
TW (1) | TW201709199A (ja) |
WO (1) | WO2017037830A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101915106B1 (ko) | 2017-04-17 | 2018-11-05 | 주식회사 케이티비랩 | 주파수 기반 양자 난수 생성 방법 및 생성기 |
CN112102816A (zh) * | 2020-08-17 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、系统、电子设备和存储介质 |
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005031258A (ja) * | 2003-07-09 | 2005-02-03 | Canon Inc | 認識モデル学習装置及び方法 |
JP2005292812A (ja) * | 2004-03-09 | 2005-10-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム、およびプログラムの記録媒体 |
JP2008058343A (ja) * | 2006-08-29 | 2008-03-13 | Casio Comput Co Ltd | 機構駆動音低減装置および機構駆動音低減方法 |
JP2009134260A (ja) * | 2007-10-30 | 2009-06-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 |
JP2009145499A (ja) * | 2007-12-12 | 2009-07-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 |
JP2015069063A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | 音声認識システム、音声認識方法、及び音声認識プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174292B2 (en) * | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
US9245524B2 (en) * | 2010-11-11 | 2016-01-26 | Nec Corporation | Speech recognition device, speech recognition method, and computer readable medium |
-
2015
- 2015-08-31 JP JP2017537096A patent/JPWO2017037830A1/ja active Pending
- 2015-08-31 WO PCT/JP2015/074658 patent/WO2017037830A1/ja active Application Filing
- 2015-11-30 TW TW104139866A patent/TW201709199A/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005031258A (ja) * | 2003-07-09 | 2005-02-03 | Canon Inc | 認識モデル学習装置及び方法 |
JP2005292812A (ja) * | 2004-03-09 | 2005-10-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム、およびプログラムの記録媒体 |
JP2008058343A (ja) * | 2006-08-29 | 2008-03-13 | Casio Comput Co Ltd | 機構駆動音低減装置および機構駆動音低減方法 |
JP2009134260A (ja) * | 2007-10-30 | 2009-06-18 | Nippon Telegr & Teleph Corp <Ntt> | 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 |
JP2009145499A (ja) * | 2007-12-12 | 2009-07-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 |
JP2015069063A (ja) * | 2013-09-30 | 2015-04-13 | 日本電気通信システム株式会社 | 音声認識システム、音声認識方法、及び音声認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2017037830A1 (ja) | 2017-03-09 |
TW201709199A (zh) | 2017-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9640194B1 (en) | Noise suppression for speech processing based on machine-learning mask estimation | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP6234060B2 (ja) | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム | |
US20150025881A1 (en) | Speech signal separation and synthesis based on auditory scene analysis and speech modeling | |
KR20170030923A (ko) | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 | |
JPWO2017141317A1 (ja) | 音響信号強調装置 | |
US20180033427A1 (en) | Speech recognition transformation system | |
WO2017037830A1 (ja) | 音声認識装置および音声認識処理方法 | |
JPWO2015129760A1 (ja) | 信号処理装置、方法及びプログラム | |
Saleem et al. | Multi-objective long-short term memory recurrent neural networks for speech enhancement | |
JP2017161825A (ja) | 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム | |
JPWO2014049944A1 (ja) | 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
KR20200028852A (ko) | 암묵 신호 분리를 위한 방법, 장치 및 전자 장치 | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP6485941B2 (ja) | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
JP2020027182A (ja) | 学習データ生成方法、学習方法、及び評価装置 | |
CN115798453A (zh) | 语音重建方法、装置、计算机设备和存储介质 | |
JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
JP2020016777A (ja) | 発話保護装置、発話保護方法、及びプログラム | |
WO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180605 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181211 |