WO2020166322A1

WO2020166322A1 - 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム

Info

Publication number: WO2020166322A1
Application number: PCT/JP2020/003062
Authority: WO
Inventors: 隆朗福冨; 中村　孝; 清彰松井
Original assignee: 日本電信電話株式会社
Priority date: 2019-02-12
Filing date: 2020-01-29
Publication date: 2020-08-20
Also published as: US11942074B2; JP7218601B2; JP2020129094A; US20220101828A1

Abstract

適切なSN比でクリーン音声データに雑音データを重畳して学習データを取得することできる学習データ取得装置等を提供する。学習データ取得装置は、Kを2以上の整数の何れかとし、k=2,3,…,Kとし、k番目の雑音重畳音声データの信号対雑音比はk-1番目の雑音重畳音声データの信号対雑音比よりも小さいものとし、k番目の雑音重畳音声データに対する音声認識の結果と、k-1番目の雑音重畳音声データに対する音声認識の結果とに基づき、信号対雑音比の変化による音声認識精度への影響の度合いを算出し、影響の度合いが与えられた閾値条件に合致するときのk-1番目の雑音重畳音声データの信号対雑音比のうち最も大きい信号対雑音比SNRapplyを得る音声認識影響度算出部と、信号対雑音比SNRapply以上の信号対雑音比である雑音重畳音声データを学習データとして取得する学習データ取得部とを含む。

Description

学習データ取得装置、モデル学習装置、それらの方法、およびプログラム

　本発明は、音声または非音声を検出するためのモデルを学習する際に用いる学習データを取得する学習データ取得装置、その学習データを用いてモデルを学習するモデル学習装置、それらの方法、およびプログラムに関する。

　入力信号から発話区間（音声区間）のみを検出し、発話していない区間（非音声区間）を除外する発話区間検出技術として非特許文献１が知られている。ここでの非音声区間は、発話区間検出技術を用いるアプリケーションが不要とする区間であり、検出したい話者の周囲で別の話者が話している発話の発話区間なども非音声区間として扱われる。

　発話区間検出技術は、音声認識の事前処理として、不要な信号（非音声）を除外する役割を持っており、認識精度の低下を防いでいる。

　発話区間検出技術として、事前に音声と非音声の音響的な特徴を学習データとして構築した統計的な音声・非音声モデルを用いて、発話区間（音声）と非発話区間（非音声）を検出する手法が存在する（非特許文献１参照）。

　音声・非音声モデルに基づく発話区間検出技術では、入力信号の各フレームに対して音声尤度、非音声尤度を算出し、その尤度比などを所定の閾値と比較することで音声区間、非音声区間と判定している。

　さまざまな雑音環境下で頑健に発話区間を検出するためには、音声・非音声モデルをさまざまな雑音環境下での音声データで学習させる必要がある。

藤本雅清, "音声区間検出の基礎と最近の研究動向", IEICE Technical Report., SP2010-23（2010-06）

　しかしながら、モデル構築に必要な雑音環境下での音声データは大量に用意することが難しいため、雑音と混じっていない音声（以下、クリーン音声ともいう）に擬似的に雑音を重畳させ、学習データとしている。

　雑音重畳にあたっては想定利用シーンに合わせて適当な重畳条件（SN比）を人手で調整している。擬似的に雑音環境下での音声を生成しているため、実利用シーンではありえないような音声を生成することがある。この場合、実利用シーンではありえないような音声に基づき、誤った特徴を学習するため、学習したモデルが、誤検出、誤棄却を生じさせてしまうことがある。たとえば、高雑音環境下で小さな声で話す音声を学習し、誤検出を生じやすくしてしまうなどの問題が生じる。また、SN比の良い条件（うるさくない条件）のみの学習データを生成すると、音声・非音声モデルの有益な学習データとならず、精度が改善しない場合がある。そのため、学習データとして、現在のモデルではうまく動作しない範囲のデータ（強化すべきデータ）を用意する必要がある。要は、精度の高い音声・非音声モデルを学習するためには、小さ過ぎず、かつ、大き過ぎない適切なSN比となるようにクリーン音声に雑音を重畳し、学習データを生成する必要がある。

　本発明は、適切なSN比でクリーン音声データに雑音データを重畳して学習データを取得することできる学習データ取得装置、その学習データを用いてモデルを学習するモデル学習装置、それらの方法、およびプログラムを提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、学習データ取得装置は、Kを2以上の整数の何れかとし、k=2,3,…,Kとし、k番目の雑音重畳音声データの信号対雑音比はk-1番目の雑音重畳音声データの信号対雑音比よりも小さいものとし、k番目の雑音重畳音声データに対する音声認識の結果と、k-1番目の雑音重畳音声データに対する音声認識の結果とに基づき、信号対雑音比の変化による音声認識精度への影響の度合いを算出し、影響の度合いが与えられた閾値条件に合致するときのk-1番目の雑音重畳音声データの信号対雑音比のうち最も大きい信号対雑音比SNR_applyを得る音声認識影響度算出部と、信号対雑音比SNR_apply以上の信号対雑音比である雑音重畳音声データを学習データとして取得する学習データ取得部とを含む。

　本発明によれば、適切なSN比でクリーン音声データに雑音データを重畳して学習データを取得することでき、その学習データを用いることで検出精度の良いモデルを学習することができるという効果を奏する。

第一実施形態に係るモデル学習装置の機能ブロック図。第一実施形態に係るモデル学習装置の処理フローの例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
　本実施形態では、学習データに使用するデータは、良い影響、悪い影響を含め、どの程度音声認識率に影響するかを捉えた上で用意する。そこで、音声認識の誤り傾向から適切な雑音重畳レベル（SN比）を算出し、そのレベルに合わせクリーン音声に雑音を重畳し、学習データを構築する。

＜第一実施形態＞
　図１は第一実施形態に係るモデル学習装置の機能ブロック図を、図２はその処理フローを示す。

　モデル学習装置は、雑音重畳音声生成部１０１と、音声認識影響度算出部１０２と、学習データ取得部１０３と、モデル学習部１０４とを含む。

　モデル学習装置は、学習用のクリーン音声データと学習用の雑音データとを入力とし、これらのデータから学習データを取得し、取得した学習データを用いて音声または非音声を検出するためのモデルを学習し、学習結果のモデルを出力する。

　モデル学習装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。モデル学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。モデル学習装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしもモデル学習装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、モデル学習装置の外部に備える構成としてもよい。

　以下、各部について説明する。

＜雑音重畳音声生成部１０１＞
　雑音重畳音声生成部１０１は、学習用のクリーン音声データと学習用の雑音データとを入力とし、クリーン音声データに所定の雑音データの信号対雑音比(以下、SN比ともいう)をK段階に変えて重畳して、K個の雑音重畳音声データを生成し（Ｓ１０１）、出力する。なお、Kを2以上の整数の何れかとする。たとえば、-30dBから+30dB程度まで5dB刻みなどで設定すると良い(この場合、K=13)。ここで用意する雑音データには、人混みなど雑音データ自体に音声データが含まれている場合もあるが、そういった音声データは雑音データ（非音声データ）として扱う。これは、学習結果のモデルが、検出対象となる話者の話す音声のみを発話区間として扱い、検出対象以外の話者の話す音声や背景音声を非発話区間として扱うためである。

＜音声認識影響度算出部１０２＞
　音声認識影響度算出部１０２は、SN比の異なるK個の雑音重畳音声データを入力とし、k番目の雑音重畳音声データに対する音声認識の結果と、k-1番目の雑音重畳音声データに対する音声認識の結果とに基づき、SN比の変化による音声認識精度への影響の度合いを算出する（Ｓ１０２－１）。ただし、k=2,3,…,Kとし、k番目の雑音重畳音声データのSN比はk-1番目の雑音重畳音声データのSN比よりも小さいものとする。例えば、音声認識影響度算出部１０２は、SN比の異なるK個の雑音重畳音声データに対して、音声認識精度を算出する。発話区間検出精度は主に、音声認識の削除誤りE_D（音声区間を取りこぼしてしまった時に生じる誤り）及び挿入誤りE_I（音声区間を取り過ぎてしまった時に生じる誤り）に影響し、置換誤りE_S（正しい発話区間内での誤り）への影響は小さい。そこで、SN比の変更による発話区間検出の音声認識精度への影響の度合いを削除誤りE_D及び挿入誤りE_Iを用いて次式で定式化する。

ここで、Mは音声ファイルの数、i=1,2,…,M、N_iはi番目の発話(音声ファイル)の文字数（もしくは単語数）、snr=kはSN比をSN比の上限(例えば+30dB)から、あるステップ幅(5dBなど)毎に小さくし設定していった場合のk番目のSN比、E_D,snr=kは削除誤り文字数（もしくは単語数）、E_I,snr=kは挿入誤り文字数（もしくは単語数）、αは削除誤り重み(0.0～1.0)で、削除誤りが起こりやすい雑音データを重畳した場合は、0.3など小さい値に設定すると良く、通常は、0.5に設定すると良い。上式は、SN比をk-1番目からk番目の値に変更した場合の認識精度への影響度合いを表している。なお、削除誤り文字数E_D,snr=kや挿入誤り文字数E_I,snr=kは、既存の音声認識モデルに対して雑音重畳音声データを与えて、音声認識結果を得、音声認識結果と正解データ(例えば雑音重畳音声データに含まれる音声データに対応する正しいテキストデータ)とを比較することで取得することができる。この正解データは人手により与えてもよいし、雑音重畳音声データに対応するクリーン音声データに対して既存の音声認識モデルを用いて音声認識を行った結果を正解データとして用いてもよい。

　なお、SN比の変化による音声認識精度への影響の度合いの求め方は式(1)に限定されるものではなく、他の方法により求めてもよい。

　音声認識影響度算出部１０２は、影響の度合いが与えられた閾値条件に合致するときのk-1番目の雑音重畳音声データのSN比のうち最も大きいSN比SNR_applyを得（Ｓ１０２－２）、学習データ取得部１０３に出力する。例えば、式(1)で求めた影響の度合いを用いる場合、式(1)で求めた影響の度合いは大きければ大きいほど影響が大きいことを示すため、閾値条件として

等を用いることができる。この場合、音声認識影響度算出部１０２は、k番目の雑音重畳音声データの影響の度合いが所定の閾値θを超えたときのk-1番目の雑音重畳音声データのSN比SNR_applyを得る。

　これは、音声認識影響度算出部１０２が、影響の度合いが閾値θを超えた場合に発話区間検出精度が大きく劣化したと判断し、後述する学習データ取得部１０３においてk-1番目のSN比以上のSN比をクリーン音声データの雑音重畳に用いるSN比とするためである。発話区間検出における誤検出は、非常にピーキーな（突如それまで検出していた区間と大きく異なる区間を検出してしまう）振る舞いをするため、このようにSN比の変更による影響を尺度として用いている。

　なお、k=2,3,…,Kに対応するK-1個の影響の度合いのうち、閾値θを超える影響の度合いが2個以上あった場合、閾値θを超える影響の度合いに対応するk-1番目の雑音重畳音声データのSN比のうち、最も大きいSN比をSN比SNR_applyとする。これは、最も大きいSN比よりも小さいSN比では、ピーキーな振る舞いをした後であり、誤検出が多く、学習データとして適当とは言えないためである。そのため、例えば、k=2から昇順に影響の度合いを算出し、閾値θを超えたときに処理を終了し、以降の影響の度合いの算出等を省略してもよい。

　なお、影響の度合いを示す値が、大きければ大きいほど影響が小さいことを示す場合(例えば、式(1)で求めた影響の度合いの逆数等を影響の度合いを示す値として用いる場合)には、閾値条件として閾値より小さい場合や閾値以下の場合等を用いる。

＜学習データ取得部１０３＞
　学習データ取得部１０３は、SN比SNR_applyを入力とし、SN比SNR_apply以上のSN比である雑音重畳音声データを学習データとして取得し（Ｓ１０３）、出力する。

　本実施形態では、学習データ取得部１０３は、学習用のクリーン音声データと学習用の雑音データとを入力とし、SN比SNR_apply以上のSN比になるようにクリーン音声データに所定の雑音データを重畳し、学習データとして生成し、取得する。

　なお、前述の通り、精度の高い音声・非音声モデルを学習するためには、大き過ぎない適切なSN比でクリーン音声に雑音を重畳するとよいため、特にSN比SNR_apply～(1+γ)SNR_applyでクリーン音声データに所定の雑音データを重畳し、学習データとして生成するとよい。γは大き過ぎない適切なSN比を得るためにシミュレーションや実験等により予め計算したレンジを示す所定の値であり、正の実数の何れかである。

＜モデル学習部１０４＞
　モデル学習部１０４は、正解データと学習データとを入力とし、正解データと学習データを用いて、音声または非音声を検出するためのモデルを学習し（Ｓ１０４）、学習したモデルを出力する。モデル学習の枠組みとしては、二値分類出来る手法であれば良い。たとえば、長時間の時系列情報も考慮可能なLSTMなどの深層学習技術(参考文献１参照)ベースの手法などを用いると良い。

(参考文献１)Hinton et al., "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE SP magazine, Nov. 2012
また、モデル学習の枠組みは、DNNやLSTMに限定されるものではなく、SVM(support vector machine)等を適用してもよい。

　なお、正解データは、学習用のクリーン音声データの音声区間または非音声区間を示す情報であり、例えば、学習用のクリーン音声データに時刻毎に付与された、音声区間または非音声区間であることを示すラベルであってもよいし、音声区間または非音声区間の開始時間と終了時刻や区間の長さを示す情報等であってもよい。正解データは人手により付与してもよいし、学習用のクリーン音声データを、既存の音声非音声検出装置や音声認識装置に入力し、音声非音声検出装置の処理結果や、音声認識装置の処理過程で生じる音声区間または非音声区間を示す情報を利用してもよい。

＜効果＞
　以上の構成により、適切なSN比でクリーン音声データに雑音データを重畳して学習データを取得することでき、その学習データを用いることで検出精度の良いモデルを学習することができる。

＜変形例＞
　第一実施形態のモデル学習装置から雑音重畳音声生成部１０１、音声認識影響度算出部１０２と、学習データ取得部１０３とを取り出し、学習データ取得装置として機能させてもよい。そのような構成であっても、適切なSN比でクリーン音声データに雑音データを重畳して学習データを取得することできる。さらに、取得した学習データを用いて、別の装置でモデルを学習すればよい。

　また、第一実施形態のモデル学習装置から音声認識影響度算出部１０２と、学習データ取得部１０３とを取り出し、学習データ取得装置として機能させてもよい。雑音重畳音声生成部１０１における処理に関しては、別装置により実現すればよい。

　本実施形態では、クリーン音声データに雑音データを重畳する際にSN比を5dB刻みなどで設定する例を示したが、ピーキーな（突如それまで検出していた区間と大きく異なる区間を検出してしまう）振る舞いをするSN比がある程度予測できる場合には、予測できるSN比及びその前後ではステップ幅を小さく設定してもよい。

＜第二実施形態＞
　第一実施形態と異なる部分を中心に説明する。

　学習データ取得部１０３の処理内容が、第一実施形態とは異なる。

　本実施形態では、学習データ取得部１０３は、雑音重畳音声生成部１０１で生成したK個の雑音重畳音声データの中から信号対雑音比SNR_apply以上のSN比である雑音重畳音声データを選択し、学習データとして取得する。

　なお、前述の通り、精度の高い音声・非音声モデルを学習するためには、大き過ぎない適切なSN比でクリーン音声に雑音を重畳するとよいため、特にk-1番目～k-1-δの雑音重畳音声データを選択し、学習データとして取得するとよい。δは大き過ぎない適切なSN比を得るためにシミュレーションや実験等により予め計算したレンジを示す所定の値であり、正の整数の何れかである。

＜効果＞
　このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、クリーン音声に雑音重畳を行うコストを削減することができる。

＜第三実施形態＞
　第二実施形態と異なる部分を中心に説明する。

　モデル学習部１０４において、モデル学習の結果、予め定めた収束条件を満たさない場合、図２に破線で示すとおり音声認識影響度算出Ｓ１０２－１～モデル学習Ｓ１０４を繰り返しても良い。ここで収束条件を満たさない場合とは、例えば学習したモデルでは検出精度がでない状況で、低いSN比条件の音声に対して検出精度が改善されず、かつ高SN比の条件の音声で検出精度劣化がない場合である。なお、高SN比の条件の音声で検出精度劣化があった場合には、学習済モデルを破棄し、より高SN比の条件の音声を学習データに加えて、最初からモデル学習をやり直す構成としてもよい。

＜モデル学習部１０４＞
　モデル学習部１０４は、正解データと学習データを用いて、音声または非音声を検出するためのモデルを学習する（Ｓ１０４）。

　さらに、モデル学習部１０４は、モデル学習の結果が上述の予め定めた収束条件を満たすか否かを判定し（Ｓ１０４－２）、予め定めた収束条件を満たさないと判定した場合、音声認識影響度算出部１０２、学習データ取得部１０３へ再度処理Ｓ１０２－１～Ｓ１０３を行うように制御信号を出力する。収束条件を満たしていると判定した場合は処理を終了し、収束条件を満たしときの学習したモデルを出力する。

＜音声認識影響度算出部１０２＞
　音声認識影響度算出部１０２は、一度もモデル学習をしていない場合、第二実施形態と同様の処理Ｓ１０２－１，Ｓ１０２－２を行う。

　音声認識影響度算出部１０２は、一度モデル学習部１０４で学習して以降は、モデル学習部１０４で学習したモデルを音声認識処理に含まれる発話区間検出処理に用いてSN比の変化による音声認識精度への影響の度合いを算出する（Ｓ１０２－１）。

　その際に音声認識影響度算出部１０２は、(1)前回SNR_applyを採用した次のk番目の雑音重畳音声データから(つまり、SN比の上限をk番目の雑音重畳音声データのSN比に変更する)、SN比の変化による音声認識精度への影響の度合いの算出を始めても良いし、(2)k-1番目(つまり、SN比の上限をk-1番目の雑音重畳音声データのSN比に変更する)から新たなSN比のステップ幅で算出を行っても良い。(2)の場合、例えば、新たなSN比のステップ幅を前回のステップ幅より小さく設定してもよい。これは、k-1番目の雑音重畳音声データのSN比とk番目の雑音重畳音声データのSN比との間でピーキーな振る舞いをするため（精度の谷が存在するため）、k-1番目の雑音重畳音声データのSN比からより緻密にSN比を刻んでいくことで、適切な影響の度合いを算出しやすいと考えられるためである。このような設定にする場合には、雑音重畳音声生成部１０１へ、SN比の上限をk-1番目の雑音重畳音声データのSN比に変更し、さらに、SN比のステップ幅を変更して、再度処理Ｓ１０１を行うように制御信号を出力する。雑音重畳音声生成部１０１は、k-1番目から新たなSN比のステップ幅で、クリーン音声データに所定の雑音データのSN比をL段階に変えて重畳して、L個の雑音重畳音声データを生成する。なお、Lを2以上の整数の何れかとする。音声認識影響度算出部１０２は、K個の雑音重畳音声データに代えて、L個の雑音重畳音声データを入力とし同様の処理を行う。

＜効果＞
　このような構成とすることで、モデル学習のコストを削減することができる。なお、本実施形態を第一実施形態と組合せてもよい。

＜変形例＞
　音声認識影響度算出部１０２において、影響の度合いが与えられた閾値条件に合致するk-1番目の雑音重畳音声データのSN比を複数得た場合とする。閾値条件に合致するk-1番目の雑音重畳音声データのSN比の数、j=1,2,…,Jとし、SN比の大きいものから順に、SNR_apply[1],SNR_apply[2],…SNR_apply[J]として学習データ取得部１０３に出力・記憶しておき、j=1から順にSN比SNR_apply[j]以上のSN比の雑音重畳音声データの学習データを用いてSNRモデル学習部１０４で学習した結果、収束条件を満たさなかった場合には、学習データ取得部１０３で、次に大きいSN比であるSN比SNR_apply[j+1]以上のSN比の雑音重畳音声データの学習データを取得し、モデル学習を繰り返す。

　このような構成とすることで、音声認識影響度算出部にかかるコストを削減することが出来る。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　Kを2以上の整数の何れかとし、k=2,3,…,Kとし、k番目の雑音重畳音声データの信号対雑音比はk-1番目の雑音重畳音声データの信号対雑音比よりも小さいものとし、k番目の雑音重畳音声データに対する音声認識の結果と、k-1番目の雑音重畳音声データに対する音声認識の結果とに基づき、信号対雑音比の変化による音声認識精度への影響の度合いを算出し、影響の度合いが与えられた閾値条件に合致するときのk-1番目の雑音重畳音声データの信号対雑音比のうち最も大きい信号対雑音比SNR_applyを得る音声認識影響度算出部と
　前記信号対雑音比SNR_apply以上の信号対雑音比である雑音重畳音声データを学習データとして取得する学習データ取得部とを含む、
　学習データ取得装置。
　請求項１の学習データ取得装置であって、
　前記学習データ取得部は、
　前記信号対雑音比SNR_apply以上の信号対雑音比になるようにクリーン音声データに所定の雑音データを重畳し、学習データとして生成し、取得する、
　学習データ取得装置。
　請求項１の学習データ取得装置であって、
　クリーン音声データに所定の雑音データの信号対雑音比をK段階に変えて重畳して、K個の前記雑音重畳音声データを生成する雑音重畳音声生成部を含み、
　前記学習データ取得部は、
　前記K個の雑音重畳音声データの中から前記信号対雑音比SNR_apply以上の信号対雑音比である雑音重畳音声データを選択し、学習データとして取得する、
　学習データ取得装置。
　請求項１から請求項３の何れかの学習データ取得装置で取得した学習データを用いるモデル学習装置であって、
　前記学習データを用いて、音声または非音声を検出するためのモデルを学習するモデル学習部を含む、
　モデル学習装置。
　請求項４のモデル学習装置であって、
　学習したモデルが予め定めた収束条件を満たさない場合、前記音声認識影響度算出部、学習データ取得部、前記モデル学習部における処理を繰り返し、
　前記音声認識影響度算出部では音声認識を行う際に前記モデル学習部で学習したモデルを用いる、
　モデル学習装置。
　Kを2以上の整数の何れかとし、k=2,3,…,Kとし、k番目の雑音重畳音声データの信号対雑音比はk-1番目の雑音重畳音声データの信号対雑音比よりも小さいものとし、k番目の雑音重畳音声データに対する音声認識の結果と、k-1番目の雑音重畳音声データに対する音声認識の結果とに基づき、信号対雑音比の変化による音声認識精度への影響の度合いを算出し、影響の度合いが与えられた閾値条件に合致するときのk-1番目の雑音重畳音声データの信号対雑音比のうち最も大きい信号対雑音比SNR_applyを得る音声認識影響度算出ステップと
　前記信号対雑音比SNR_apply以上の信号対雑音比である雑音重畳音声データを学習データとして取得する学習データ取得ステップとを含む、
　学習データ取得方法。
　請求項６の学習データ取得方法で取得した学習データを用いるモデル学習方法であって、
　前記学習データを用いて、音声または非音声を検出するためのモデルを学習するモデル学習ステップを含む、
　モデル学習方法。
　請求項１から請求項３の何れかに記載の学習データ取得装置、または、請求項４もしくは請求項５のモデル学習装置としてコンピュータを機能させるためのプログラム。