WO2017037830A1 - 音声認識装置および音声認識処理方法 - Google Patents

音声認識装置および音声認識処理方法 Download PDF

Info

Publication number
WO2017037830A1
WO2017037830A1 PCT/JP2015/074658 JP2015074658W WO2017037830A1 WO 2017037830 A1 WO2017037830 A1 WO 2017037830A1 JP 2015074658 W JP2015074658 W JP 2015074658W WO 2017037830 A1 WO2017037830 A1 WO 2017037830A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
speech recognition
processing
voice
dividing point
Prior art date
Application number
PCT/JP2015/074658
Other languages
English (en)
French (fr)
Inventor
勇気 太刀岡
渡部 晋治
Original Assignee
三菱電機株式会社
ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社, ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド filed Critical 三菱電機株式会社
Priority to PCT/JP2015/074658 priority Critical patent/WO2017037830A1/ja
Priority to JP2017537096A priority patent/JPWO2017037830A1/ja
Priority to TW104139866A priority patent/TW201709199A/zh
Publication of WO2017037830A1 publication Critical patent/WO2017037830A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Definitions

  • the present invention relates to a speech recognition apparatus and speech recognition processing method for constructing an acoustic model and performing speech recognition based on the uncertainty of speech feature values.
  • GMM Gaussian mixture model
  • FIG. 7 is a diagram showing a configuration of a conventional speech recognition apparatus for realizing the UD technology.
  • the conventional speech recognition apparatus shown in FIG. 7 includes feature quantity extractors 11 and 12, a learning data generator 13, an acoustic model builder 14, a language model storage unit 15, a speech recognizer 17, and an acoustic model adaptor 20. Configured.
  • the noise speech 1 on which the noise is superimposed and the enhanced speech 2 subjected to the speech enhancement process are input to the speech recognition apparatus.
  • the feature amount is extracted from the emphasized speech 2 by the feature amount extractor 12.
  • the speech recognizer 17 obtains the speech recognition result 3 from the feature amount, the acoustic model, and the language model.
  • the feature amount of the noise speech 1 before speech enhancement is also extracted by the feature amount extractor 11. Then, the acoustic model adaptor 20 uses the feature amount before the speech enhancement process extracted by the feature amount extractor 11 and the feature amount after the speech enhancement process extracted by the feature amount extractor 12 according to some criteria. Calculate the uncertainty.
  • the acoustic model adaptor 20 calculates the difference between the feature values before and after the speech enhancement process as uncertainty. Yes. Then, the acoustic model adaptor 20 performs adaptation such as widening the variance of the acoustic model using the GMM with respect to the feature amount having a large uncertainty.
  • the acoustic model builder 14 generally constructs an acoustic model using learning data created by the feature amount of the emphasized speech 2. As a method of increasing learning data, a method of interpolating data according to the learning environment has also been proposed (see, for example, Patent Document 1).
  • Patent Document 1 proposes a method for increasing learning data. However, this patent document 1 does not disclose or suggest until an effect of suppressing distortion due to noise suppression by using feature quantities before and after noise suppression.
  • An object of the present invention is to obtain a speech recognition apparatus and speech recognition processing method capable of constructing an acoustic model and performing speech recognition based on the above.
  • a speech recognition device is a speech recognition device that performs speech recognition processing based on uncertainty of speech feature amounts, extracts noise speech feature amounts before speech enhancement processing as vectors, and performs speech enhancement. Generates speech data reflecting uncertainty by calculating the feature point extractor that extracts the emphasized speech feature value after processing as a vector, and calculating the internal or external dividing point of the noise speech feature amount and the emphasized speech feature amount And a speech data processor that performs speech recognition processing by executing at least one of decoding processing and acoustic model learning processing using speech data.
  • the speech recognition processing method is a speech recognition processing method executed by a speech recognition device based on the uncertainty of speech feature values, and a noise speech feature value before speech enhancement processing is used as a vector. Uncertain by calculating the first step of extracting, the second step of extracting the emphasized speech feature amount after speech enhancement processing as a vector, and calculating the internal or external dividing point of the noise speech feature amount and the enhanced speech feature amount A third step of generating voice data reflecting the sex, and a fourth step of executing voice recognition processing by executing at least one of decoding processing and acoustic model learning processing using the voice data. It is what you have.
  • the speech recognition processing is performed in consideration of the feature amount of the noise speech feature amount and the emphasized speech feature amount by the internal or external dividing point.
  • the final speech recognition result is obtained.
  • speech recognition can be performed for any model based on the uncertainty of the speech feature and the construction of an acoustic model and speech recognition.
  • An apparatus and a speech recognition processing method can be obtained.
  • Embodiment 1 An object of the present invention is to propose a speech recognition apparatus that can be applied mainly to acoustic models such as deep neural network (DNN), conventional neural network, and recurrent neural network, which have been proposed in recent years.
  • DNN deep neural network
  • the speech recognition apparatus according to the present invention can also be applied to an acoustic model using GMM.
  • the speech recognition apparatus reflects the uncertainty in the feature amount by using the internal dividing points before and after the speech enhancement of the speech feature amount.
  • FIG. 1 is an explanatory diagram showing the concept of the speech recognition apparatus according to Embodiment 1 of the present invention.
  • the feature amount of the noise speech 1 is x
  • the feature amount of the emphasized speech 2 is y ( ⁇ ).
  • the notation y ( ⁇ ) in the specification means that ⁇ is added on y.
  • FIG. 1 shows the first dimension when the voice feature amount is two-dimensional, and the second dimension is represented by the vertical axis.
  • the feature amount y ( ⁇ ) of the voice 2 is represented as a two-dimensional vector. It can be said that the second dimension is a reliable feature quantity dimension in which the change in the feature quantity before and after the speech enhancement is small and the influence of noise is small compared to the first dimension. Therefore, in order to express such a dimensional relationship, the speech recognition apparatus according to the first embodiment performs decoding using speech data to which the internal dividing point of the following equation (1) is added.
  • the range of ⁇ is 0 ⁇ ⁇ 1.
  • the outer dividing point where ⁇ > 1 is also considered to be effective in some cases, for example, when a speech enhancement method having a small noise removal effect but a small distortion is used. It is clear that the same effect can be obtained when expanding to an arbitrary dimension.
  • FIG. 2 is a diagram showing the configuration of the speech recognition apparatus according to Embodiment 1 of the present invention.
  • the configuration of the speech recognition apparatus according to the first embodiment shown in FIG. 2 differs from the configuration of the conventional speech recognition apparatus shown in FIG. 7 in the following three points.
  • the speech recognition apparatus according to the first embodiment includes a data generator 16.
  • the speech recognition apparatus according to Embodiment 1 has a plurality of speech recognizers 17. In FIG. 2, three speech recognizers 17 (1) to 17 (3) are illustrated.
  • the speech recognition apparatus according to the first embodiment further includes a result integrator 18.
  • the learning data generator 13, the acoustic model builder 14, the language model storage unit 15, the speech recognizers 17 (1) to 17 (3), and the result integrator 18 in FIG. 2 correspond to a speech data processor. .
  • the data generator 16 performs one or more internal divisions from the feature quantity x of the noise speech 1 extracted by the feature quantity extractor 11 and the feature quantity y ( ⁇ ) of the enhanced speech 2 extracted by the feature quantity extractor 12. Generate points. When three speech recognition apparatuses are prepared, two internal dividing points are generated. The first speech recognizer 17 (1) among the plurality of speech recognizers 17 (1) to 17 (3) is the feature quantity y ( ⁇ ) of the enhanced speech 2 extracted by the feature quantity extractor 12. The voice processing is executed using.
  • the speech recognizer 17 According to the first embodiment, performs speech recognition processing using the feature amount y ( ⁇ ) of the emphasized speech 2 as in the prior art, and applies to each feature amount based on different internal dividing points.
  • a plurality of speech recognition hypotheses are generated by executing speech recognition processing.
  • the result integrator 18 performs integration processing on each speech recognition hypothesis obtained by the plurality of speech recognizers 17 (1) to 17 (3), and obtains a final speech recognition result 3.
  • a well-known majority method ROVER
  • likelihood likelihood
  • confusion network integration lattice integration
  • the acoustic model constructed by the acoustic model builder 14 in FIG. 2 is single. However, in the present invention, it is also conceivable to use a plurality of acoustic models that have been learned using one or more internal dividing points and matched with the time of speech recognition. It is also conceivable to use one or more acoustic models learned using inner dividing points and one or more acoustic models learned using outer dividing points.
  • a technical feature is that the following configuration is provided.
  • the speech recognition apparatus performs speech recognition processing in consideration of one or more feature amounts based on an internal dividing point or an external dividing point in addition to the feature amount of the emphasized speech as in the conventional case.
  • a configuration for obtaining a final speech recognition result is provided.
  • speech recognition can be performed on any model based on the uncertainty of the speech feature amount. .
  • Embodiment 2 FIG. In the first embodiment, the case has been described in which uncertainty is taken into account at the time of decoding using one or more feature amounts based on the internal dividing point or the external dividing point. On the other hand, in the second embodiment, a case will be described in which uncertainty is considered at the time of learning using one or more feature amounts based on an internal dividing point or an external dividing point.
  • FIG. 3 is a diagram showing the configuration of the speech recognition apparatus according to Embodiment 2 of the present invention.
  • the configuration of the speech recognition apparatus in the second embodiment shown in FIG. 3 is different from the configuration of the speech recognition apparatus in the first embodiment shown in FIG. 2 in the following two points.
  • the speech recognition apparatus according to the second embodiment has a single speech recognizer 17 and does not require the result integrator 18. However, it can be easily combined with the first embodiment.
  • the speech recognition apparatus according to the second embodiment increases the learning data based on one or more feature amounts based on the internal dividing point or the external dividing point generated by the data generator 16.
  • the learning data generator 13, the acoustic model builder 14, the language model storage unit 15, and the speech recognizer 17 in FIG. 3 correspond to a speech data processor.
  • the data generator 16 in the second embodiment for example, in the case of using a feature amount by two internal dividing points, in addition to the feature amount of the emphasized speech 2 extracted by the original feature amount extractor 12, Considering the feature amount of the two internal dividing points, learning is performed using a total of three times the data.
  • the data generator 16 in the second embodiment can reduce the amount of learning data by thinning out the generated data. As a result, an acoustic model that is robust against changes in the feature amount is constructed. As a result, the effect of increasing the robustness of voice recognition can be obtained.
  • a technical feature is that the following configuration is provided.
  • Embodiment 3 FIG. In the third embodiment, a case will be described in which uncertainty is taken into account both at the time of learning and at the time of decoding by using the configurations of the first and second embodiments together.
  • FIG. 4 is a diagram showing the configuration of the speech recognition apparatus according to Embodiment 3 of the present invention.
  • the configuration of the speech recognition apparatus according to the third embodiment shown in FIG. 4 combines the configuration of FIG. 2 in the first embodiment and the configuration of FIG. 3 in the second embodiment. .
  • the learning data generator 13, the acoustic model builder 14, the language model storage unit 15, the speech recognizers 17 (1) to 17 (3), and the result integrator 18 in FIG. 4 correspond to a speech data processor. .
  • the decoding process is performed for any model based on the uncertainty of the speech feature amount regardless of whether the model can be represented by a Gaussian distribution.
  • Embodiment 4 FIG. In the fourth embodiment, a case will be described in which speech recognition processing with improved robustness is realized by positively bringing a disturbance to the inner dividing point or the outer dividing point.
  • FIG. 5 is a diagram showing the configuration of the speech recognition apparatus according to Embodiment 4 of the present invention.
  • the configuration of the speech recognition apparatus in the fourth embodiment shown in FIG. 5 is different from the configuration of the speech recognition apparatus in the third embodiment shown in FIG. 4 in the following one point.
  • the speech recognition apparatus according to the fourth embodiment includes a random number generator 19 that can perturb the inner or outer dividing point.
  • the learning data generator 13, the acoustic model builder 14, the language model storage unit 15, the speech recognizers 17 (1) to 17 (3), and the result integrator 18 in FIG. 5 correspond to a speech data processor. .
  • FIG. 5 shows a configuration in which the random number generator 19 is added to the third embodiment, but the random number generator 19 is added to the first embodiment or the second embodiment.
  • a configuration is also possible.
  • the inner dividing point or outer dividing point is expressed by the following equation (2).
  • N ( ⁇ , ⁇ ) in the above equation (2) is a normal distribution having an average ⁇ and a variance ⁇ 2 .
  • the random number generator 19 can also use other types of random numbers.
  • a perturbation can be added to the inner dividing point or the outer dividing point.
  • the data generator 16 can generate learning data to which disturbance is added and evaluation data for speech recognition. As a result, data variation increases as compared with the case of using a fixed inner division point or outer division point, and voice recognition processing with improved robustness can be realized.
  • the fourth embodiment there is provided a configuration capable of positively bringing a disturbance to the inner dividing point or the outer dividing point. As a result, it is possible to realize speech recognition processing with improved robustness using learning data and evaluation data to which disturbance is added.
  • FIG. 6 is a diagram showing a hardware configuration common to the speech recognition apparatuses in the first to fourth embodiments of the present invention.
  • the voice recognition apparatus of the present invention shown in FIG. 6 includes a microphone 30, a processing circuit 40, and a display 50.
  • the processing circuit 40 includes a processor 41 and a memory 42.
  • the microphone 30 corresponds to a voice input unit for capturing the noise voice 1 and the emphasized voice 2.
  • the processing circuit 40 is a circuit that executes a series of speech recognition processing, and executes processing according to each constituent requirement shown in FIGS. More specifically, specific processing of the processing circuit 40 is executed by the processor 41, and data necessary for the processing is stored in the memory 42.
  • the display 50 corresponds to a voice recognition result display unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成するデータ生成器と、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する音声データ処理器とを備える。

Description

音声認識装置および音声認識処理方法
 本発明は、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行う音声認識装置および音声認識処理方法に関する。
 騒音が重畳した音声を認識するには、信号処理的な手法により、その前段で音声強調処理を行うことが一般的である。このような音声強調処理により、音声認識性能は、向上する。しかしながら、音声強調の誤りにより、原音声からは歪んだ音声となってしまうことは避けられない。
 この影響を低減するために、音声特徴量の不確定性(uncertainty)を音声処理前後の特徴量から算出し、不確定性の高い特徴量の寄与を小さくする不確定性デコーディング(uncertainty decoding:UD)技術が提案されている(例えば、非特許文献1~3参照)。
 このような技術は、音響モデルにGaussian mixture model(GMM)を用いた場合に相性がよい。すなわち、音声特徴量の不確定性がガウス分布で表現される場合には、GMMの尤度がその特徴量の分布の周辺分布の期待値操作で表せるという仮定を利用している。
 図7は、UD技術を実現するための従来の音声認識装置の構成を示した図である。図7に示す従来の音声認識装置は、特徴量抽出器11、12、学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、音声認識器17、および音響モデル適応器20を備えて構成されている。
 そして、騒音が重畳した騒音音声1と、音声強調処理が施された強調音声2が、音声認識装置に入力される。通常は、特徴量抽出器12により、強調音声2から特徴量が抽出される。そして、音声認識器17は、特徴量と音響モデルと言語モデルから、音声認識結果3を得る。
 UDでは、音声強調前の騒音音声1の特徴量も、特徴量抽出器11により抽出されている。そして、音響モデル適応器20は、特徴量抽出器11で抽出された音声強調処理前の特徴量と、特徴量抽出器12で抽出された音声強調処理後の特徴量を用いて、なんらかの基準により不確定性を算出する。
 例えば、非特許文献2に示されているDelcroix2009や非特許文献3に示されているKolossa2010においては、音響モデル適応器20は、音声強調処理前後の特徴量の差分を不確定性として算出している。そして、音響モデル適応器20は、不確定性の大きい特徴量に関しては、GMMを用いた音響モデルの分散を広げるなどの適応を行っている。
 音響モデル構築器14は、強調音声2の特徴量により作成された学習データを用いて音響モデルを構築するのが一般的である。学習データを増加させる手法としては、学習環境に応じて、データを内挿する方法も提案されている(例えば、特許文献1参照)。
特開平10-133688号公報
Liao2005: H. Liao and M. Gales, "Joint uncertainty decoding for noise robust speech recognition," in Proceedings of EUROSPEECH, 2005, pp. 3129-3132 Delcroix2009: M. Delcroix, T. Nakatani, and S. Watanabe, "Static and dynamic variance compensation for recognition of reverberant speech with dereverberation preprocessing," IEEE Transactions on Audio, Speech, and Language Processing, pp. 324-334, 2009 Kolossa2010: D. Kolossa, R. F. Astudillo, E. Hoffmann, and R. Orglmeister, "Independent component analysis and time-frequency masking for speech recognition in multi-talker conditions," EURASIP Journal on Audio, Speech, and Music Processing, p. ID 651420, 2010
 しかしながら、従来技術には、以下のような課題がある。
 上述したように、混入した音声歪みが音声認識性能に与える影響を低減するためには、音声強調処理を用いて、音声特徴量の不確定性を抽出し、音響モデルの構築や音声認識を行うことが有力である。そして、不確定性の高い特徴量の寄与を小さくするために、UD技術が提案されている。
 しかしながら、GMM以外のモデルでは、上述したようなGMMの尤度がその特徴量の分布の周辺分布の期待値操作で表せるという仮定が成り立たない。このため、従来の不確定性に基づく音声認識技術は、モデルがガウス分布で表せない場合には、うまく不確定性を考慮することができないという問題点があった。
 また、特許文献1は、学習データを増加させる手法を提案している。しかしながら、この特許文献1は、騒音抑圧前後の特徴量を使うことで、騒音抑圧による歪みを抑えるという効果を得ることまでは、何ら開示も示唆もしていない。
 この発明は、上記のような問題点を解決するためになされたものであり、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行うことのできる音声認識装置および音声認識処理方法を得ることを目的とする。
 本発明に係る音声認識装置は、音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成するデータ生成器と、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する音声データ処理器とを備えるものである。
 また、本発明に係る音声認識処理方法は、音声特徴量の不確定性をもとに音声認識装置により実行される音声認識処理方法であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出する第1ステップと、音声強調処理後の強調音声特徴量をベクトルとして抽出する第2ステップと、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成する第3ステップと、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する第4ステップとを有するものである。
 本発明によれば、従来と同様の強調音声の特徴量に加えて、騒音音声特徴量と強調音声特徴量の内分点または外分点による特徴量を考慮して音声認識処理を行うことで、最終的な音声認識結果を得る構成を備えている。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行うことのできる音声認識装置および音声認識処理方法を得ることができる。
本発明の実施の形態1における音声認識装置の概念を示した説明図である。 本発明の実施の形態1における音声認識装置の構成を示した図である。 本発明の実施の形態2における音声認識装置の構成を示した図である。 本発明の実施の形態3における音声認識装置の構成を示した図である。 本発明の実施の形態4における音声認識装置の構成を示した図である。 本発明の実施の形態1~4における音声認識装置に共通のハードウェア構成を示した図である。 UD技術を実現するための従来の音声認識装置の構成を示した図である。
 以下、本発明の音声認識装置および音声認識処理方法の好適な実施の形態につき図面を用いて説明する。
 実施の形態1.
 本発明は、近年提案されているDeep neural network(DNN)やConvolutional neural network、Recurrent neural networkなどの音響モデルを主な対象として適用可能な音声認識装置を提案することを目的としている。ただし、本発明に係る音声認識装置は、GMMを用いた音響モデルにも適用可能である。
 DNNなどの音響モデルでは、GMMのように分布を単純なパラメータで表すことができない。このため、不確定性を算出できたとしても、算出した不確定性を元に、どのようなやり方でモデルに適応するかが明確ではない。
 そこで、本実施の形態1では、不確定性を陽に表現するのではなく、特徴量を通じて不確定性を暗に表現し、不確定性を特徴量に反映することを考える。すなわち、本実施の形態1に係る音声認識装置は、音声特徴量の音声強調前後での内分点を利用して、不確定性を特徴量に反映している。
 図1は、本発明の実施の形態1における音声認識装置の概念を示した説明図である。騒音音声1の特徴量をx、強調音声2の特徴量をy(^)とする。なお、明細書中のy(^)という表記は、yの上に^が付されているものを意味している。
 図1は、例えば簡単のため、音声特徴量が2次元であった場合の1次元目を横軸に、2次元目を縦軸に表現したものであり、騒音音声1の特徴量x、強調音声2の特徴量y(^)が、ともに2次元のベクトルとして表されている。2次元目は、1次元目に比べて、音声強調前後で特徴量の変化が小さく、騒音の影響が少ない信頼できる特徴量の次元であるといえる。そこで、このような次元の関係を表すために、本実施の形態1における音声認識装置は、下式(1)の内分点を加えた音声データを使って、デコーディングを行う。
Figure JPOXMLDOC01-appb-M000001
 上式(1)において、αの範囲は、0<α<1である。内分点を特徴量に加えることで、2次元目が1次元目に比べて分散が小さく、信頼できる特徴であることを暗に示すことができるという効果が得られる。
 なお、α>1とした外分点も、例えば、騒音引き去り効果が小さいが歪みも小さい音声強調手法を用いた場合など、場合によっては有効であると考えられる。任意の次元に拡張した場合にも、同様の効果が得られることは明らかである。
 図2は、本発明の実施の形態1における音声認識装置の構成を示した図である。図2に示した本実施の形態1における音声認識装置の構成は、先の図7に示した従来の音声認識装置の構成と比較すると、以下の3点が異なっている。
・第1の相違点として、本実施の形態1における音声認識装置は、データ生成器16を備えている。
・第2の相違点として、本実施の形態1における音声認識装置は、音声認識器17が複数で構成されている。図2では、3つの音声認識器17(1)~17(3)が例示されている。
・第3の相違点として、本実施の形態1における音声認識装置は、結果統合器18をさらに備えている。
 なお、図2における学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、音声認識器17(1)~17(3)、および結果統合器18は、音声データ処理器に相当する。
 データ生成器16は、特徴量抽出器11により抽出された騒音音声1の特徴量xと、特徴量抽出器12により抽出された強調音声2の特徴量y(^)から、1以上の内分点を生成する。3つの音声認識装置を用意した場合には、2つの内分点を生成する。そして、複数の音声認識器17(1)~17(3)のうち、1番目の音声認識器17(1)は、特徴量抽出器12により抽出された強調音声2の特徴量y(^)を用いて音声処理を実行する。
 一方、複数の音声認識器17(1)~17(3)のうち、2番目の音声認識器17(2)および3番目の音声認識器17(3)は、データ生成器16で生成された異なる内分点を用いて音声処理を実行する。すなわち、本実施の形態1における音声認識器17は、従来技術と同様に強調音声2の特徴量y(^)を用いて音声認識処理を実行するとともに、異なる内分点による特徴量のそれぞれに対しても、音声認識処理を実行することで、複数の音声認識仮説を生成している。
 結果統合器18は、複数の音声認識器17(1)~17(3)により得られたそれぞれの音声認識仮説に対して統合処理を施し、最終的な音声認識結果3を得る。結果統合器18による統合処理としては、よく知られているような多数決による手法(ROVER)や、尤度、confusion networkの統合、latticeの統合などの手法を用いることができる。
 なお、この図2における音響モデル構築器14により構築された音響モデルは、単一となっている。しかしながら、本発明は、1以上の内分点を使って学習しておいた、音声認識時とマッチした複数の音響モデルを使うことも考えられる。また、内分点を使って学習した1以上の音響モデルと、外分点を使って学習した1以上の音響モデルを使うことも考えられる。
 これにより、複数の音声認識器17によるそれぞれの結果に不確定性の傾向が反映され、さらに、この反映された結果が結果統合器18により統合されることで、認識率の向上が期待できる。
 以上のように、実施の形態1によれば、以下の構成を備えていることを技術的特徴としている。
・騒音音声から抽出した特徴量と、強調音声から抽出した特徴量との内分点または外分点から特徴量を生成する構成。
・新たに生成した1以上の特徴量のそれぞれと強調音声の特徴量に対して、音声認識処理を施した後に統合処理することで、1つの音声認識結果を得る構成
 すなわち、実施の形態1における音声認識装置は、従来と同様の強調音声の特徴量に加えて、内分点または外分点による1以上の特徴量を考慮して音声認識処理を行うことで、最終的な音声認識結果を得る構成を備えている。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとにデコーディング処理を実行して音声認識を行うことができる。
 実施の形態2.
 先の実施の形態1では、内分点または外分点による1以上の特徴量を用いて、デコーディング時に不確定性を考慮する場合について説明した。これに対して、本実施の形態2では、内分点または外分点による1以上の特徴量を用いて、学習時に不確定性を考慮する場合について説明する。
 図3は、本発明の実施の形態2における音声認識装置の構成を示した図である。図3に示した本実施の形態2における音声認識装置の構成は、先の図2に示した実施の形態1における音声認識装置の構成と比較すると、以下の2点が異なっている。
・第1の相違点として、本実施の形態2における音声認識装置は、音声認識器17が1台で構成され、結果統合器18が不要となっている。ただし、実施の形態1と組み合わせることも容易である。
・第2の相違点として、本実施の形態2における音声認識装置は、データ生成器16で生成された内分点または外分点による1以上の特徴量により、学習データを増やしている。
 なお、図3における学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、および音声認識器17は、音声データ処理器に相当する。
 本実施の形態2におけるデータ生成器16は、例えば、2つの内分点による特徴量を用いた場合には、元の特徴量抽出器12より抽出された強調音声2の特徴量に加えて、2つの内分点による特徴量を考慮し、合計で3倍のデータを用いて学習を行うことになる。
 なお、本実施の形態2におけるデータ生成器16は、生成したデータを間引くなどして、学習データ量を減らすこともできる。これにより、特徴量の変化に頑健な音響モデルが構築される。この結果、音声認識の頑健性が増すという効果が得られる。
 以上のように、実施の形態2によれば、以下の構成を備えていることを技術的特徴としている。
・騒音音声から抽出した特徴量と、強調音声から抽出した特徴量との内分点または外分点から1以上の特徴量を生成する構成。
・新たに生成した1以上の特徴量と強調音声の特徴量を用いた学習結果に基づいて、音響モデルを生成する構成。
 このような構成を備えることで、特徴量の変化に頑健な音響モデルを用いた音声認識処理を行うことができる。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの学習を実行して音声認識を行うことができる。
 実施の形態3.
 本実施の形態3においては、先の実施の形態1と2の構成を併用して、学習時およびデコーディング時の双方で不確定性を考慮する場合について説明する。
 図4は、本発明の実施の形態3における音声認識装置の構成を示した図である。図4に示した本実施の形態3における音声認識装置の構成は、先の実施の形態1における図2の構成と、先の実施の形態2における図3の構成を兼ね備えたものとなっている。
 なお、図4における学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、音声認識器17(1)~17(3)、および結果統合器18は、音声データ処理器に相当する。
 以上のように、実施の形態3によれば、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに、デコーディング処理および音響モデルの学習を実行して音声認識を行うことができる。
 実施の形態4.
 本実施の形態4では、内分点もしくは外分点に積極的に外乱を持ち込むことで、より頑健性を向上させた音声認識処理を実現する場合について説明する。
 図5は、本発明の実施の形態4における音声認識装置の構成を示した図である。図5に示した本実施の形態4における音声認識装置の構成は、先の図4に示した実施の形態3における音声認識装置の構成と比較すると、以下の1点が異なっている。
・相違点として、本実施の形態4における音声認識装置は、内分点もしくは外分点に摂動を加えることのできる乱数発生器19を備えている。
 なお、図5における学習データ生成器13、音響モデル構築器14、言語モデル記憶部15、音声認識器17(1)~17(3)、および結果統合器18は、音声データ処理器に相当する。
 また、図5は、先の実施の形態3に対して乱数発生器19を加えた構成を示しているが、先の実施の形態1または実施の形態2に対して乱数発生器19を加えた構成とすることも可能である。
 例えば、分散σの正規乱数を用いた場合には、内分点もしくは外分点は、下式(2)のようになる。
Figure JPOXMLDOC01-appb-M000002
 上式(2)におけるN(α、σ)は、平均α、分散σ2の正規分布である。なお、乱数発生器19は、他の種類の乱数を用いることもできる。
 このような乱数発生器19を用いることにより、内分点もしくは外分点に摂動を加えることができる。そして、データ生成器16は、外乱を加えた学習データおよび音声認識のための評価データを生成することができる。この結果、固定の内分点もしくは外分点を使う場合に比べて、データのバリエーションが増すことになり、より頑健性を向上させた音声認識処理を実現することができる。
 以上のように、実施の形態4によれば、内分点もしくは外分点に積極的に外乱を持ち込むことができる構成を備えている。この結果、外乱を加えた学習データおよび評価データを用いて、より頑健性を向上させた音声認識処理を実現することができる。
 最後に、本発明の音声認識装置のハードウェア構成について説明する。図6は、本発明の実施の形態1~4における音声認識装置に共通のハードウェア構成を示した図である。図6に示した本発明の音声認識装置は、マイク30と、処理回路40と、ディスプレイ50とを備えて構成されている。ここで、処理回路40は、プロセッサ41およびメモリ42を含んで構成されている。
 マイク30は、騒音音声1および強調音声2を取り込むための音声入力部に相当する。処理回路40は、一連の音声認識処理を実行する回路であり、図2~図5で示した各構成要件による処理を実行する。より具体的には、処理回路40の具体的な処理は、プロセッサ41により実行され、処理に必要なデータは、メモリ42に記憶されることとなる。また、ディスプレイ50は、音声認識結果の表示部に相当する。

Claims (5)

  1.  音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、
     音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、
     前記騒音音声特徴量と前記強調音声特徴量の内分点または外分点を算出することで前記不確定性を反映した音声データを生成するデータ生成器と、
     前記音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで前記音声認識処理を実行する音声データ処理器と
     を備える音声認識装置。
  2.  前記音声データ処理器は、前記デコーディング処理を実行する際には、前記内分点または前記外分点として異なる値として生成された複数の音声データに基づいて複数の音声認識仮説を生成し、前記複数の音声認識仮説を統合処理することで、前記音声認識処理を実行する
     請求項1に記載の音声認識装置。
  3.  前記音声データ処理器は、前記音響モデルの学習処理を実行する際には、前記内分点または前記外分点として異なる値として生成された複数の音声データに基づいて前記音響モデルの学習処理を実行することで、前記音声認識処理を実行する
     請求項1に記載の音声認識装置。
  4.  乱数を発生する乱数発生器をさらに備え、
     前記データ生成器は、前記乱数を用いて前記内分点または前記外分点を算出することで前記音声データを生成する
     請求項1から3のいずれか1項に記載の音声認識装置。
  5.  音声特徴量の不確定性をもとに音声認識装置により実行される音声認識処理方法であって、
     音声強調処理前の騒音音声特徴量をベクトルとして抽出する第1ステップと、
     音声強調処理後の強調音声特徴量をベクトルとして抽出する第2ステップと、
     前記騒音音声特徴量と前記強調音声特徴量の内分点または外分点を算出することで前記不確定性を反映した音声データを生成する第3ステップと、
     前記音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する第4ステップと
     を有する音声認識処理方法。
PCT/JP2015/074658 2015-08-31 2015-08-31 音声認識装置および音声認識処理方法 WO2017037830A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2015/074658 WO2017037830A1 (ja) 2015-08-31 2015-08-31 音声認識装置および音声認識処理方法
JP2017537096A JPWO2017037830A1 (ja) 2015-08-31 2015-08-31 音声認識装置および音声認識処理方法
TW104139866A TW201709199A (zh) 2015-08-31 2015-11-30 聲音辨識裝置及聲音辨識處理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/074658 WO2017037830A1 (ja) 2015-08-31 2015-08-31 音声認識装置および音声認識処理方法

Publications (1)

Publication Number Publication Date
WO2017037830A1 true WO2017037830A1 (ja) 2017-03-09

Family

ID=58186751

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/074658 WO2017037830A1 (ja) 2015-08-31 2015-08-31 音声認識装置および音声認識処理方法

Country Status (3)

Country Link
JP (1) JPWO2017037830A1 (ja)
TW (1) TW201709199A (ja)
WO (1) WO2017037830A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101915106B1 (ko) 2017-04-17 2018-11-05 주식회사 케이티비랩 주파수 기반 양자 난수 생성 방법 및 생성기
CN112102816A (zh) * 2020-08-17 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、系统、电子设备和存储介质
CN112420050A (zh) * 2020-11-18 2021-02-26 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005527002A (ja) * 2002-05-20 2005-09-08 マイクロソフト コーポレーション ノイズの低減に関連する不確実性を判定する方法
WO2012063963A1 (ja) * 2010-11-11 2012-05-18 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031258A (ja) * 2003-07-09 2005-02-03 Canon Inc 認識モデル学習装置及び方法
JP4456504B2 (ja) * 2004-03-09 2010-04-28 日本電信電話株式会社 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
JP4816334B2 (ja) * 2006-08-29 2011-11-16 カシオ計算機株式会社 ノイズ低減装置、撮像装置、ノイズ低減方法およびプログラム
JP4733727B2 (ja) * 2007-10-30 2011-07-27 日本電信電話株式会社 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体
JP4960845B2 (ja) * 2007-12-12 2012-06-27 日本電信電話株式会社 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体
JP2015069063A (ja) * 2013-09-30 2015-04-13 日本電気通信システム株式会社 音声認識システム、音声認識方法、及び音声認識プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005527002A (ja) * 2002-05-20 2005-09-08 マイクロソフト コーポレーション ノイズの低減に関連する不確実性を判定する方法
WO2012063963A1 (ja) * 2010-11-11 2012-05-18 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DELCROIX, MARC: "Hiteijo Zatsuon ni Ganken na Togoteki Onsei Ninshiki Approach: Seiteki Doteki Model Tekio to System Combination ni Motozuku Onsei Kyocho Ninshiki no Togo", REPORT OF THE 2011 AUTUMN MEETING, THE ACOUSTICAL SOCIETY OF JAPAN CD-ROM, September 2011 (2011-09-01) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101915106B1 (ko) 2017-04-17 2018-11-05 주식회사 케이티비랩 주파수 기반 양자 난수 생성 방법 및 생성기
CN112102816A (zh) * 2020-08-17 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、系统、电子设备和存储介质
CN112420050A (zh) * 2020-11-18 2021-02-26 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备

Also Published As

Publication number Publication date
JPWO2017037830A1 (ja) 2017-11-24
TW201709199A (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
US9640194B1 (en) Noise suppression for speech processing based on machine-learning mask estimation
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
US9536540B2 (en) Speech signal separation and synthesis based on auditory scene analysis and speech modeling
Narayanan et al. Improving robustness of deep neural network acoustic models via speech separation and joint adaptive training
JP6153142B2 (ja) 音響信号を処理する方法
EP3607547A1 (en) Audio-visual speech separation
JP6279181B2 (ja) 音響信号強調装置
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
US11393452B2 (en) Device for learning speech conversion, and device, method, and program for converting speech
US20180033427A1 (en) Speech recognition transformation system
WO2017037830A1 (ja) 音声認識装置および音声認識処理方法
JP6764923B2 (ja) 音声処理方法、装置、デバイスおよび記憶媒体
JPWO2015129760A1 (ja) 信号処理装置、方法及びプログラム
Saleem et al. Multi-objective long-short term memory recurrent neural networks for speech enhancement
Min et al. Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement
JPWO2014049944A1 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
CN107437421B (zh) 信号处理器
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6420198B2 (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
JP2020027182A (ja) 学習データ生成方法、学習方法、及び評価装置

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2017537096

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15902953

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15902953

Country of ref document: EP

Kind code of ref document: A1