WO2021234904A1

WO2021234904A1 - 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム

Info

Publication number: WO2021234904A1
Application number: PCT/JP2020/020105
Authority: WO
Inventors: 孝典芦原; 雄介篠原; 義和山口
Original assignee: 日本電信電話株式会社
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2021-11-25

Abstract

ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習するための学習データを生成する学習データ生成装置等を提供する。学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、第二特徴量系列に対応する第二の学習用音声信号は、錯聴を生じ得る音声信号である。

Description

学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム

　本発明は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成装置、学習データを用いるモデル学習装置、学習データ生成方法、およびプログラムに関する。

　音響モデルを用いた音声認識装置において、特許文献１は、実用レベルの音声認識性能を担保するために、認識対象とするタスクに対して音響モデルを適応させていく技術である。言い換えると、特許文献１は、話者や、雑音タイプ、喋り方などの音響的特徴が異なるタスクに対して元々の音響モデルを適応させていく技術である。一般的に、音声認識性能は、認識対象とするタスクの学習データ量や、音響的な網羅性に依存して上下する側面を持つ。そこで通常は、認識対象とするタスクの音声を十分に集め、その音声を書き起こしすることで、所望の学習データを収集する。

　しかしながら、従来技術では、莫大な金銭的・時間的コストを要するという課題がある。

　このような課題に対する解決技術の一つとしてData Augmentation(データ拡張)がある。データ拡張とは、オリジナルの学習データに対して何かしらの変動を加え、新しい学習データを生成し、学習データを水増しすることである。データ拡張により、同じ学習データで学習することを少なくし、一層の汎化性能を獲得することができる。

　例えば、非特許文献１では、話速をオリジナルデータに対して変換することで、様々な話者データを生成し、より広範な話者に対する汎化性能を向上させる。

　また、非特許文献２では、雑音耐性や残響音声に対する認識性能を改善するために、オリジナルの学習データに対し雑音を重畳させ、更に残響の強い部屋のインパルス応答を畳み込むことで擬似的な残響音声を生成し、オリジナルの学習データに対し残響音声を重畳させ、汎化性能を向上させる。

特開２００７－２４９０５１号公報

T. Ko, V. Peddinti, D. Povey and S. Khudanpur: "Audio augmentation for speech recognition", In Proc. Annual Con- ference of the International Speech Communication Associ- ation (INTERSPEECH), pp. 3586-3589 (2015). R. Hsiao, J. Ma, W. Hartmann, M. Karafiat, F. Grezl, L. Burget, I. Szoke, J. H. Cernocky, S. Watanabe, Z. Chen, S. H. Mallidi, H. Hermansky, S. Tsakalidis and R. Schwartz: "Robust speech recognition in unknown reverberant and noisy conditions", In Proc. Workshop on Automatic Speech Recognition and Understanding (ASRU), pp. 533-538 (2015).

　ここでは、音声認識装置に対し、長時間情報を捉えるためのData Augmentationを考える。まず、音声認識装置と長時間情報について説明する。長時間情報を音声認識装置に組み込むことで、様々な音響事象に頑健になり、音声認識精度が改善されるといった報告が多数存在している。

　例えば、recurrent neural network(RNN)モデルは、multi-layer perceptron(MLP)モデルなどとは異なり、長時間情報を陽に取り込むためにモデル自体に工夫をし、音声認識のような時系列情報を扱うタスクでは大きく精度改善した。

　また、参考文献１では、End-to-End音声認識モデルに言語的な長時間コンテキストを陽に組み込むことで、音声認識精度を改善している。

（参考文献１）R. Masumura, T. Tanaka, T. Moriya, Y. Shinohara, T. Oba and Y. Aono, "Large Context End-to-end Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-decoder Models", ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 5661-5665.
　上述のように、モデルを工夫することで長時間情報を音声認識装置に組み込む手法は様々ある。しかしながら、学習データ自体を工夫することで長時間情報を組み込んだ音声認識装置を獲得するようなアプローチはこれまでに存在しない。

　本発明では、学習データ自体に工夫を施す。本発明に係る学習データ生成装置で生成した学習データを用いて音響モデルを学習することで、ヒトが先天的また後天的に獲得するような音声知覚に対する頑健性を獲得することができる。本実施形態では、錯聴を利用してData Augmentation処理を実行することで、学習データを生成する。

　更に、本発明では、錯聴に係る音声データをそのまま用いるのではなく、オリジナルの音声データを特徴量にしたあとで、錯聴を利用したData Augmentation処理を実行する。

　本発明は、ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習するための学習データを生成する学習データ生成装置、その学習データを用いて音響モデルを学習するモデル学習装置、学習データ生成方法、およびプログラムを提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、第二特徴量系列に対応する第二の学習用音声信号は、錯聴を生じ得る音声信号である。
　上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、特徴量変換部は、第一特徴量系列のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つノイズを埋め込むことで、第一特徴量系列を第二特徴量系列に変換する。
　上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、特徴量変換部は、第一特徴量系列を所定の時間長のセグメントに分割し、各セグメント内で分割した第一特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、第一特徴量系列を第二特徴量系列に変換する。

　本発明により、ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習することができるという効果を奏する。

第一実施形態に係るモデル学習装置の機能ブロック図。第一実施形態に係るモデル学習装置の処理フローの例を示す図。連続聴効果が得られるような音声信号に対応する特徴量系列に変換する例を示す図。時間反転音声となるような音声信号に対応する特徴量系列に変換する例を示す図。本手法を適用するコンピュータの構成例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
　本実施形態では、ヒトが獲得している音声知覚の頑健性を音声認識装置に獲得させるために、錯聴を利用したData Augmentation処理を実行する。

　錯聴とは、ヒトの聴覚特性により、物理的に提示された音刺激に対して必ずしもその通り知覚されないような錯覚現象であり、錯視の聴覚版といえる。

　例えば、連続聴効果(continuity illusion)では、周波数変化する純音や音声等の一部分を削除し、その削除された部分に、元の音を十分にマスキングするだけのノイズを重畳することで、物理的には削除されているはずの音区間が補完されて知覚される現象である（参考文献２参照）。

（参考文献２）R. M. Warren: "Perceptual restoration of missing speech sounds", Science, 167, pp. 392-393 (1970).
　また、時間反転音声(Locally Time-reversed Speech)は、ある一定の短い時間セグメントごとに音声波形を切り分け、それぞれのセグメントにおいてその波形を時間軸上で反転させた後、その反転させた各セグメントを再度連結させた音声である(参考文献３参照)。

(参考文献３)K. Saberi and D. R. Perrott, "Cognitive restoration of reversed speech", Nature, 398, 6730, pp. 760-760 (1999).
ヒトがこのような時間反転音声を聴取した場合、その音声知覚の明瞭度はそのセグメント長が比較的短い場合、例えば25ms程度であれば、十分高いまま維持される。しかしながら、セグメント長が長くなればなるほどその明瞭度はシグモイド関数的に低下していき、100ms程度でほぼ音声知覚が困難になることが実験的に示されている。つまりある程度までの局所的な時系列の破壊であれば、ヒトの音声知覚には影響を与えない（頑健である）ことが分かる。

　このような連続聴効果を生じ得るような音声信号や時間反転音声となるような音声信号を用いて、音響モデルを学習すれば、自ずと、削除またはマスキングした部分や、反転させる際のセグメントよりも長い時間間隔を考慮して音響モデルを学習することとなり、音響モデルは長時間情報を組み込んだものとなり、ヒトが獲得している音声知覚の頑健性を獲得したものとなる。

　本実施形態では、上述のような錯聴を利用したData Augmentation処理を音声波形に対して実行するのではなく、特徴量空間上でData Augmentation処理を実行することで、学習データから長時間情報に頑健な音声認識装置を構築することが可能になる。もし音声波形に対してData Augmentation処理を実行する場合、学習データ量が単純に2倍になってしまい、そのデータを保管する場合、オリジナルデータ分も考慮して2倍の容量が必要になる。しかしながら、特徴量空間上でData Augmentation処理を実行することで、学習の最中に、その学習データとなる特徴量を変換処理することが可能になるため、データ容量もオリジナルデータ分だけで済む。

　錯聴の中でも特徴量空間上で処理することが可能な例として、本実施形態では上述した連続長効果と時間反転音声を挙げる。

　連続長効果では、一部分が欠如した状態でも音声知覚出来るヒトの頑健性を音声認識装置に獲得させることが可能になるため、結果として長時間情報に頑健な音声認識装置が構築される。また、特徴量空間上でも同様に似たような表現が可能である。例えば、特徴量において時間軸上のあるセグメントを削除し、そこにそのセグメントの前後の特徴量の大きさ以上の値を代わりに埋め込むことで連続長効果と同等の表現となる。

　時間反転音声では、局所的に時系列が反転（破壊）された状態でも音声知覚出来るヒトの頑健性を音声認識装置に獲得させることが可能になるため、結果として長時間情報に頑健な音声認識装置が構築される。こちらも同様に、特徴量空間上で似たような表現にするために、特徴量上の時間軸上における各セグメント内で特徴量系列を反転させ、それを全て再連結させたデータを拡張データとして用いる。

＜第一実施形態＞
　図１は第一実施形態に係るモデル学習装置の機能ブロック図を、図２はその処理フローを示す。

　モデル学習装置１００は、音声信号取得部１１０と音声ディジタル信号蓄積部１２０と特徴量分析部１３０と特徴量蓄積部１４０と特徴量変換部１５０と学習部１６０とを含む。

　モデル学習装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。モデル学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。モデル学習装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

　モデル学習装置は、学習用のアナログの音声信号x(k)と、対応する正解ラベルr(j)とを入力とし、これらの情報に基づき音響モデルを学習し、学習済みの音響モデルfを出力する。なお、kは時刻を示すインデックスである。正解ラベルは例えば音素ラベルであり、jは音素の順番を示すインデックスである。なお、正解ラベル(音素ラベル)がアナログの音声信号のどこからどこまでに対応するかを示す情報は、予め学習データに含まれるものとし、以下で説明する音声ディジタル信号、特徴量についても同様に紐付けられているものとする。

　以下、各部の処理内容について説明する。

＜音声信号取得部１１０＞
入力：音声信号x(k)
出力：音声ディジタル信号x(t)
処理：AD変換
　音声信号取得部１１０は、アナログの音声信号x(k)を取得し、ディジタルの音声ディジタル信号x(t)に変換する（Ｓ１１０）。なお、tは音声ディジタル信号のサンプル番号を示すインデックスである。

＜音声ディジタル信号蓄積部１２０＞
入力：音声ディジタル信号x(t)
処理：音声ディジタル信号の蓄積
　音声ディジタル信号蓄積部１２０は、音声ディジタル信号x(t)を蓄積する(Ｓ１２０)。

＜特徴量分析部１３０＞
入力：音声ディジタル信号x(t)
出力：特徴量系列X(p)
処理：特徴量分析
　特徴量分析部１３０は、音声ディジタル信号x(t)に対して特徴量分析を行い、特徴量系列X(p)を得る。

　例えば、特徴量分析部１３０は、音声ディジタル信号蓄積部１２０から発話p毎の音声ディジタル信号x(t)を取り出し、音声ディジタル信号x(t)をフレーム単位に分割し、フレーム毎に音響特徴量抽出を行い、発話p毎の(音響)特徴量系列X(p)を取得する。

　例えば、ある発話pに含まれるフレーム総数をN_pとし、n_p=1_p,2_p,…,N_pとし、フレーム長をMとし、m=1,2,…,Mとし、シフト幅をDとすると、ある発話pのn_p番目のフレームのm番目の音声ディジタル信号x(t)は、x(D(n_p-1)+m)と表すことができる。ただし、下付き添え字_pは、発話pに対応する値であることを示す。特徴量分析部１３０は、フレームn_p毎に音声ディジタル信号x(D(n_p-1)+1),x(D(n_p-1)+2),…,x(D(n_p-1)+M)に対して、音響特徴量抽出を行い、特徴量X(n_p)を取得する。特徴量分析部１３０は、発話pに含まれる全てのフレーム1_p,2_p,…,N_pに対して処理を行い、発話p毎の特徴量系列X(p)={X(1_p),X(2_p),…,X(N_p)}を取得する。

　抽出する特徴量としては、例えば、音声信号の短時間フレーム分析に基づくMFCC(Mel-Frequenct Cepstrum Coefficient)の1～12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはCMN(ケプストラム平均正規化)処理を行っても良い。特徴量は、MFCCやパワーに限定したものでは無く、特殊発話の識別に用いられるパラメータ（例えば、自己相関ピーク値や群遅延など）を用いても良い。

＜特徴量蓄積部１４０＞
入力: 特徴量系列X(p)
処理：特徴量系列の蓄積
　特徴量蓄積部１４０は、特徴量分析部１３０で分析した特徴量系列X(p)を蓄積する（Ｓ１４０）。

＜特徴量変換部１５０＞
入力：特徴量系列X(p)
出力：特徴量系列R(p)
処理：Data Augmentation処理
　特徴量変換部１５０は、特徴量系列X(p)に対してData Augmentation処理を実行し、特徴量系列X(p)を特徴量系列R(p)に変換する（Ｓ１５０）。

　なお、Data Augmentation処理は、後述する学習部１６０で学習する際に同時にオンラインで実行される。より詳しく説明すると、後述する学習部１６０で用いる全ての発話p(ここではp=1,2,…,P)に対応する特徴量系列X(p)に対して予めData Augmentation処理を行うのではなく、ある発話p'(p'は1,2,…,Pの何れか)に対応する特徴量系列X(p')を用いて学習する際にある特徴量系列X(p')に対してData Augmentation処理を実行し、特徴量系列X(p')を特徴量系列R(p')に変換することを意味する。ただし、Pは、学習用のアナログの音声信号x(k)に含まれる発話の総数を表す。水増しした学習データは、学習時のみ利用し、保管する必要がないため、保管する学習データ量を減らすことができる。なお、入力は特徴量系列となるため、全て特徴量空間上でData Augmentation処理をすることになり、音声ディジタル信号に対してData Augmentation処理を行う必要がなくなる。

　本実施形態におけるData Augmentation処理は、特徴量系列X(p)をある変換ルールに基づいて特徴量系列R(p)に変換する。この変換により、擬似的な水増し学習データを生成する。

　本実施形態では、変換後の特徴量系列R(p)に対応する音声信号が錯聴を生じ得る音声信号となるような変換ルールが採用される。なお、一般的に錯聴を生じ得る音声信号を生成する場合には音声波形に対して処理を行うが、本実施形態では特徴量系列上で変換処理を行う。

　変換後の特徴量系列R(p)に対応する音声信号が錯聴を生じ得る音声信号となるような変換ルールとして、本実施形態では、上述したような連続聴効果が得られるような音声信号や時間反転音声となるような音声信号に対応する特徴量系列に変換する変換ルールを採用する。

(i)連続聴効果が得られるような音声信号に対応する特徴量系列に変換する場合、特徴量変換部１５０は、特徴量系列X(p)のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つ特徴量を削除した部分に埋め込むことで、特徴量系列X(p)を特徴量系列R(p)に変換する。セグメント長は、錯聴を生じ得る長さである。また、削除処理および埋め込み処理は、錯聴を生じ得る間隔で行う。また、埋め込む特徴量はノイズに対応する特徴量であり、ノイズは例えばホワイトノイズである。なお、処理Ｓ１５０に先立ちノイズに対応する特徴量を予め用意しておく。例えば、特徴量系列…,X(s+1_p),X(s+2_p),X(s+3_p),X(s+4_p),X(s+5_p),X(s+6_p),X(s+7_p),X(s+8_p),X(s+9_p),X(s+10_p),…のうち、3つの特徴量X(s+3_p),X(s+4_p),X(s+5_p)を削除し、ノイズに対応する3つの特徴量X(1_n),X(2_n),X(3_n)を埋め込む処理を行う(図３参照)。X(1_n),X(2_n),X(3_n)の値は、前の特徴量X(s+2_p)と後ろの特徴量X(s+6_p)の値以上となるように設定する。例えば、この処理を、20フレーム毎に行う。

(ii)時間反転音声となるような音声信号に対応する特徴量系列に変換する場合、特徴量変換部１５０は、特徴量系列X(p)を所定の時間長のセグメントに分割し、各セグメント内で分割した特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、特徴量系列X(p)を特徴量系列R(p)に変換する。セグメント長は、錯聴を生じ得る長さである。例えば、特徴量変換部１５０は、特徴量系列…,X(s+1_p),X(s+2_p),X(s+3_p),X(s+4_p),X(s+5_p),X(s+6_p),X(s+7_p),X(s+8_p),X(s+9_p),X(s+10_p),…を5フレーム分の時間長のセグメント…、s(1)={X(s+1_p),X(s+2_p),X(s+3_p),X(s+4_p),X(s+5_p)}、s(2)={X(s+6_p),X(s+7_p),X(s+8_p),X(s+9_p),X(s+10_p)}、…に分割する。さらに、特徴量変換部１５０は、各セグメント内の特徴量系列を時間的に反転させ、…、s'(1)={X(s+5_p),X(s+4_p),X(s+3_p),X(s+2_p),X(s+1_p)}、s'(2)={X(s+10_p),X(s+9_p),X(s+8_p),X(s+7_p),X(s+6_p)}、…とし、…、s'(1)、s'(2)、…の順番で連結する(図４参照)。

＜学習部１６０＞
入力：特徴量系列X(p)、特徴量系列R(p)、正解ラベルr(j)
出力：学習済み音響モデルf
処理：モデル学習
　学習部１６０は、特徴量系列X(p)、特徴量系列R(p)、正解ラベルr(j)を用いて、音響モデルfを学習する(Ｓ１６０)。音響モデルfは、特徴量系列を入力とし、音素ラベルを出力するモデルである。音声認識における音響モデルとしては、例えばGMM-HMMやDNN-HMMなどがしばしば用いられており、近年ではEnd-to-End音声認識モデルも用いられているが、本実施形態では、特に学習対象の音声認識モデルに制約はないため、GMM/DNN-HMMであってもEnd-to-End音声認識モデルであってもよい。なお、正解ラベルr(j)は、学習用のアナログの音声信号x(k)に対応するものであり、音声信号x(k)から得られる特徴量系列X(p)、および、特徴量系列X(p)を変換して得られる特徴量系列R(p)にも対応する。

＜効果＞
　以上の構成により、ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習することができる。また、金銭的・時間的コストを低減することができる。さらに、Data Augmentation処理を音声波形に対して行うのではなく、特徴量空間上で行うことで、水増しした学習データに対する処理Ｓ１１０～Ｓ１４０を削減することができる。また、Data Augmentation処理を学習時に同時に行うことで、学習データの記憶容量を削減することができる。

＜変形例＞
　モデル学習装置１００の学習部１６０を含まない構成を、学習データ生成装置ともいう。つまり、学習データ生成装置は、音声信号取得部１１０と音声ディジタル信号蓄積部１２０と特徴量分析部１３０と特徴量蓄積部１４０と特徴量変換部１５０とを含む。学習データ生成装置は、学習用のアナログの音声信号x(k)と正解ラベルr(j)とを入力とし、音声信号x(k)から特徴量系列X(p)と特徴量系列R(p)とを生成し、特徴量系列X(p)、特徴量系列R(p)および正解ラベルr(j)の組合せを学習データとして出力する。

　第一実施形態では、特徴量系列R(p)に対応する音声信号は、錯聴を生じ得る音声信号であることを前提としているが、実験の結果、錯聴を生じ得ない音声信号であっても同様の効果を得ることができることが分かった。

　例えば、第一実施形態では、連続聴効果を得るために、特徴量変換部１５０は、特徴量系列X(p)のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つ特徴量を削除した部分に埋め込むことで、特徴量系列X(p)を特徴量系列R(p)に変換する。このとき、削除する、または、埋め込むセグメントのセグメント長は、連続聴効果を生じ得ないほど長くともよい。また、削除処理および埋め込み処理の間隔は、連続聴効果を生じ得ないほど短くともよい。このようなデータ拡張を実行した場合であっても、第一実施形態と同様の精度を持つ音響モデルを学習することができる。

　また、例えば、第一実施形態では、時間反転音声となるような音声信号に変換するために、特徴量変換部１５０は、特徴量系列X(p)を所定の時間長のセグメントに分割し、各セグメント内で分割した特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、特徴量系列X(p)を特徴量系列R(p)に変換する。このとき、セグメント長は、錯聴を生じ得ないほど長くともよい。このようなデータ拡張を実行した場合であっても、第一実施形態と同様の精度を持つ音響モデルを学習することができる。

＜その他の変形例＞
　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　上述の各種の処理は、図５に示すコンピュータの記憶部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成装置であって、
　第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、
　前記第二特徴量系列に対応する第二の学習用音声信号は、錯聴を生じ得る音声信号である、
　学習データ生成装置。
　音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成装置であって、
　第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、
　前記特徴量変換部は、前記第一特徴量系列のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つノイズを埋め込むことで、前記第一特徴量系列を前記第二特徴量系列に変換する、
　学習データ生成装置。
　音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成装置であって、
　第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、
　前記特徴量変換部は、前記第一特徴量系列を所定の時間長のセグメントに分割し、各セグメント内で分割した第一特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、前記第一特徴量系列を前記第二特徴量系列に変換する、
　学習データ生成装置。
　請求項１から請求項３の何れかの学習データ生成装置を含むモデル学習装置であって、
　前記第一特徴量系列と、前記第二特徴量系列と、前記第一の学習用音声信号に対応する正解ラベルとを用いて、音響モデルを学習する学習部を含み、
　前記特徴量変換部は、前記音響モデルの学習中に前記第一特徴量系列を前記第二特徴量系列に変換する、
　モデル学習装置。
　音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成方法であって、
　第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換ステップを含み、
　前記第二特徴量系列に対応する第二の学習用音声信号は、錯聴を生じ得る音声信号である、
　学習データ生成方法。
　音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成方法であって、
　第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換ステップを含み、
　前記特徴量変換ステップにおいて、前記第一特徴量系列のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つノイズを埋め込むことで、前記第一特徴量系列を前記第二特徴量系列に変換する、
　学習データ生成方法。
　音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成方法であって、
　第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換ステップを含み、
　前記特徴量変換ステップにおいて、前記第一特徴量系列を所定の時間長のセグメントに分割し、各セグメント内で分割した第一特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、前記第一特徴量系列を前記第二特徴量系列に変換する、
　学習データ生成方法。
　請求項１から請求項３の何れかの学習データ生成装置、または、請求項４のモデル学習装置としてコンピュータを機能させるためのプログラム。