WO2020246033A1

WO2020246033A1 - 学習装置、音声認識装置、それらの方法、およびプログラム

Info

Publication number: WO2020246033A1
Application number: PCT/JP2019/022774
Authority: WO
Inventors: 佐藤　宏; 隆朗福冨
Original assignee: 日本電信電話株式会社
Priority date: 2019-06-07
Filing date: 2019-06-07
Publication date: 2020-12-10
Also published as: US20220246138A1; JPWO2020246033A1; JP7173327B2

Abstract

学習装置は、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い、認識仮説H_mと総合スコアx_mを求める音声認識部と、音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、認識仮説H_mを評価し、評価値E_mを求める仮説評価部と、認識パラメータλ_kを用いて、認識仮説H_mに対して総合スコアx_m,kを求め、順位rank_m,kを付けるリランキング部と、評価値E_mと順位rank_m,kとに基づき、認識パラメータの最適値または認識パラメータλ_kの不適切さを表す値を算出結果として求める最適パラメータ算出部と、音響特徴量系列Oと算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む。

Description

学習装置、音声認識装置、それらの方法、およびプログラム

　本発明は、音声認識における認識パラメータの最適値を推定する際に用いるモデルを学習する学習装置、モデルを用いて推定した最適値を用いて音声認識する音声認識装置、それらの方法、およびプログラムに関する。

　HMM(Hidden Markov Model)音声認識において、認識機の挙動を調整するパラメータが多数存在し、認識パラメータと呼ばれている。

　end to end音声認識に関しても、複数のモデルを組み合わせる構成についてはモデル間のスケーリングパラメータが存在し、認識器の挙動を変化させる。例えば、言語モデルを持つend to end音声認識は言語モデルの出力を考慮する度合を表す言語重みをパラメータとして持っている。

　認識精度を向上させるためにはこうした認識パラメータを適切な値に設定することが必要である。

　認識パラメータを最適化する手法として、人手で用意した複数のパラメータの組に対し、音声データと書き起こしデータとが紐づいたデータセットを用いて認識精度を算出し、最も精度がよかったパラメータの組を採用する方法が一般的にとられている。

　音声データと書き起こしデータとが紐づいたデータセットを元に自動的に適切な認識パラメータを設定する手法が存在する(非特許文献１、非特許文献２参照)。

　さらに、音声データに含まれるノイズを推定し、推定結果を用いて各フレームで言語モデル重みを調整する手法が存在する(非特許文献３参照)。

　認識時に調整する必要のある認識パラメータとして例えば言語モデル重み、挿入ペナルティが存在する。言語モデル重みは音響モデルと言語モデルを持つ音声認識器において両者のモデルのバランスを取るパラメータである。また、挿入ペナルティは、単語数あるいは文字数（以下「単語数等」ともいう）の多い認識結果をどれだけ抑制するかを制御するパラメータであり、挿入ペナルティを大きくすると単語数等の少ない認識結果が出やすくなる。

Mak, B., & Ko, T., "Min-max discriminative training of decoding parameters using iterative linear programming", In Ninth Annual Conference of the International Speech Communication Association. 2008. 江森正, 大西祥史, 篠田浩一, 「音声認識における確率モデルの重み係数の自動推定」. 情報処理学会研究報告音声言語情報処理 (SLP), 2007(129 (2007-SLP-069)), 49-53, 2007. Novoa, J., Fredes, J., Poblete, V., & Yoma, N. B., "Uncertainty weighting and propagation in DNN-HMM-based speech recognition", Computer Speech & Language, 47, 30-46, 2018.

　しかしながら、入力される一文ごとに最適な認識パラメータは一定ではない。その事例として例えばノイズ交じりの音声については言語モデルを音響モデルより重視したほうが、正確な音声認識結果を取得しやすい。そのため、言語モデル重みを大きくすることにより性能が向上する。

　音声データと書き起こしデータのデータセットに対して、一定の認識パラメータを設定する非特許文献１、非特許文献２の手法では、音声データごとの性質の違いによる最適な認識パラメータの差異を捉えて、認識パラメータを動的に変化させることはできない。

　音声データごとの性質の違いによる最適な認識パラメータの差異を捉えることが可能な手法として非特許文献３が挙げられる。しかし、非特許文献３のパラメータ推定は、ノイズの推定結果に基づくため、ノイズ以外の、例えばクリッピングなどの適切なパラメータに影響を与えうる音響的な現象を捉えることができない。

　本発明は、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定し、推定した認識パラメータを用いて音声認識する音声認識装置、推定する際に用いるモデルを学習する学習装置、それらの方法、およびプログラムを提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、学習装置は、Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い、認識仮説H_mと総合スコアx_mを求める音声認識部と、音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、認識仮説H_mを評価し、評価値E_mを求める仮説評価部と、Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλ_kを用いて、認識仮説H_mに対して総合スコアx_m,kを求め、順位rank_m,kを付けるリランキング部と、評価値E_mと順位rank_m,kとに基づき、認識パラメータの最適値または認識パラメータλ_kの不適切さを表す値を算出結果として求める最適パラメータ算出部と、音響特徴量系列Oと算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む。

　上記の課題を解決するために、本発明の他の態様によれば、音声認識装置は、Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い、認識仮説H_mと総合スコアx_mを求める音声認識部と、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、音響特徴量系列Oに対する認識パラメータλ_Eを求め、求めた認識パラメータλ_Eを用いて、認識仮説H_mに対する総合スコアx_mを求め、求めた総合スコアx_mに基づき認識仮説H_mに対して順位を付けるモデル利用部とを含む。

　上記の課題を解決するために、本発明の他の態様によれば、学習装置は、Kを1以上の整数の何れかとし、k=1,2,…,Kとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_kを用いて、音声認識処理を行い、認識結果R_kと総合スコアx_kを求める音声認識部と、音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、認識結果R_kを評価し、評価値E_kを求める仮説評価部と、認識結果R_kに対する総合スコアx_kと評価値E_kとに基づき、認識パラメータの最適値または認識パラメータλ_kの不適切さを表す値を算出結果として求める最適パラメータ算出部と、音響特徴量系列Oと算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む。

　上記の課題を解決するために、本発明の他の態様によれば、音声認識装置は、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλ_Eを求めるモデル利用部と、音響特徴量系列Oに対して、認識パラメータλ_Eを用いて、音声認識処理を行う音声認識部とを含む。

　本発明によれば、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定することができるという効果を奏する。

第一実施形態に係る学習装置の機能ブロック図。第一実施形態に係る学習装置の処理フローの例を示す図。第二実施形態に係る音声認識装置の機能ブロック図。第二実施形態に係る音声認識装置の処理フローの例を示す図。従来法と本手法における文誤り率と文字誤り率を示す図。本手法の適用による改善事例を示す図。第三実施形態に係る学習装置の機能ブロック図。第三実施形態に係る学習装置の処理フローの例を示す図。第四実施形態に係る音声認識装置の機能ブロック図。第四実施形態に係る音声認識装置の処理フローの例を示す図。本手法を適用するコンピュータの構成例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
　本実施形態では、発話単位の音響特徴量系列から適切な認識パラメータを直接ニューラルネットワークを用いて推定する。なお、本実施形態では、認識パラメータを言語重みおよび挿入パラメータとの組合せとする。本実施形態では、認識パラメータの中の言語モデル重み、挿入パラメータといった限られたものについて、一度適当な値で音声認識を行って生じた、多数の認識結果の候補(以下、「認識仮説」ともいう)に対して、疑似的に認識パラメータを変化させて認識仮説のリランキングを行う。

　従来こうした認識パラメータは一定の値を用いることが通例となっており、発話ごとに異なる認識パラメータを与えるという着眼点の研究は限られている。言語モデル重みの動的な制御については非特許文献３や以下の参考文献１が知られている。
（参考文献１）Stemmer, G., Zeissler, V., Noeth, E., & Niemann, H., "Towards a dynamic adjustment of the language weight", Springer, Berlin, Heidelberg, In International Conference on Text, Speech and Dialogue, pp. 323-328, 2001.

　参考文献１では、言語重みを発話単位で動的に変化させることが認識精度の改善に繋がることが示唆されており、話速や認識結果の信頼度を言語重みの推定に用いることができる可能性があると書かれている。しかし、適切な言語重みに対して影響を及ぼす特徴は現実的には多岐にわたるため、こうした話速や認識結果の信頼度のような人手で選定した特徴を用いても十分な推定はできないと考えられる。本手法では特徴量系列を入力として直接認識パラメータの推定を行うことで、認識パラメータの推定に必要な多様な情報をデータドリブンに学習することが可能である。

　本実施形態では、リランキングとして手法を適用する。リランキングとして手法を適用する場合、言語モデル重みと挿入誤りと呼ばれる認識パラメータについて、文単位での最適化が可能となる。第一実施形態はリランキングによって文単位での最適パラメータを推定するモデルを学習するものである。

＜第一実施形態＞
　図１は第一実施形態に係る学習装置の機能ブロック図を、図２はその処理フローを示す。

　学習装置は、音声認識部１０１と、仮説評価部１０２－１と、リランキング部１０２－２と、最適パラメータ算出部１０２－３と、モデル学習部１０３とを含む。

　学習装置は、学習用の音響特徴量系列O_L,pと対応する音声データを人が書き起こした書き起こしデータとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習して、学習済みの回帰モデルを出力する。書き起こしデータは、音響特徴量系列に対する正しい音声認識結果である正解テキストに相当する。なお、O_L,pの下付き添え字のLは、学習用のデータであることを表すインデックスであり、pは音響特徴量系列を示すインデックスである。例えば、学習装置は、P個の発話に対応するP個の学習用の音響特徴量系列O_L,pとその書き起こしデータとを入力とし、p=1,2,…,Pとする。音声データごとの違いによる最適パラメータの差異を捉えることができるように様々な学習用の音声データを用意することが望ましい。本実施形態では、学習用の音響特徴量系列に対する処理の説明のみを行うため、インデックスLを省略する。また、p=1,2,…,Pに対して同様の処理を行うため、インデックスpを省略する。

　学習装置および後述する音声認識装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および音声認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および音声認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および音声認識装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および音声認識装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および音声認識装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および音声認識装置の外部に備える構成としてもよい。

　以下、各部について説明する。

＜音声認識部１０１＞
　音声認識部１０１は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い(Ｓ１０１)、M個の認識仮説H_mとM個の総合スコアx_mを求める。なお、Mを1以上の整数の何れかとし、m=1,2,…,Mとする。Mは認識仮説H_mとして採用する認識結果の候補の個数を示し、例えば、上位M個の総合スコアx_mに対応する認識結果の候補を認識仮説H_mとして採用してもよいし、所定の閾値を超える総合スコアx_mの個数をMとし、M個の総合スコアx_mに対応するM個の認識結果の候補を認識仮説H_mとして採用してもよい。ただし、候補数Mは、通常の音声認識結果の候補として出力されるよりも多いほうが好ましい。認識仮説に対して各認識パラメータを変化させながらリランキングを行い、どの認識パラメータが適切かを判断する材料とするため、正解となる可能性のある幅広い認識結果を得る必要があり、候補数が多いほど精度が上がる可能性がある。

　音声認識部１０１は、M個の認識仮説H_mを仮説評価部１０２－１に出力し、M個の総合スコアx_mを求める過程で得られるM個の言語スコアx_L,m,音響スコアx_A,m,単語数等n_mの組合せをリランキング部１０２－２に出力する。

　音声認識部１０１は、例えば、公知の音声認識技術を用いて音声認識を行い、十分な数(M)の認識仮説を文単位で出力する。音声認識部１０１は、各認識仮説について音響スコア、言語スコア、単語数等を出力できることが必要とされる。したがって、例えば、HMM音声認識に代表される言語モデルと音響モデルとを備える音声認識部１０１であることが必要とされる。音声認識部１０１における認識パラメータλ_iniはデータセットに対して非特許文献１、非特許文献２のような方法で予め精密な調整を行う必要はなく、例えば言語重みW_Lというパラメータは一般的に用いられる値（例えば10など）を設定することができる。なお、言語重みW_Lとは
x=x_A+W_Lx_L+P_In (1)
を用いて各認識仮説の総合スコアxを音響スコアx_Aと言語スコアx_Lの和で表すときの重みのパラメータである。ただし、P_Iは挿入ペナルティであり、nは単語数等である。

　後述する仮説評価部１０２－１、リランキング部１０２－２および最適パラメータ算出部１０２－３からなる最適パラメータ推定部１０２では、音声認識部１０１から出力されたそれぞれの認識仮説および各仮説の言語スコア、音響スコア、単語数等と、人が書き起こした書き起こしデータを用いて、学習用の音響特徴量系列に対して最適な言語モデル重み及び挿入ペナルティを推定する。

　以下、各部の処理内容を説明する。

＜仮説評価部１０２－１＞
　仮説評価部１０２－１は、認識仮説H_mと正解テキストとを入力とし、正解テキストに基づき、認識仮説H_mを評価し、評価値E_mを求め(Ｓ１０２－１)、出力する。言い換えると、仮説評価部１０２－１は、音声認識部１０１で音声認識によって得られた認識仮説に対する認識の良さを表す評価値を与える部分である。評価手法は公知の技術を用い、各認識仮説に対して文正解率（0か1）や文字正解精度（0から1の実数）などを算出する。文正解率は各文に対して人が書き起こした正解テキストと認識結果が完全に一致している場合に1それ以外の場合に0とする評価方法で、文字正解精度cacc.は以下の式で計算されるものである。
cacc.=(HIT-INS)/(HIT+SUB+DEL) (2)
ただしHITは正解文字数、DELは削除誤り文字数、SUBは置換誤り文字数、INSは挿入誤り文字数を表す。仮説評価部１０２－１では、各認識候補と上記のような尺度で評価された値との組(H_m,E_m)が出力される。

＜リランキング部１０２－２＞
　リランキング部１０２－２は、M個の言語スコアx_L,m,音響スコアx_A,m,単語数等n_mの組合せを入力とし、K個の認識パラメータλ_k=(W_L,k,P_I,k)を用いて、M個の認識仮説H_mに対してそれぞれK個の総合スコアx_m,kを求め、各認識パラメータλ_kについてM個の認識仮説H_mの順位rank_m,kを付け（Ｓ１０２－２）、出力する。なお、Kを1以上の整数の何れかとし、k=1,2,…,Kとする。なお、本実施形態では、認識パラメータλ_kは言語重みW_L,kと挿入ペナルティP_I,kとの組合せからなるが、認識パラメータλ_kは少なくとも言語重みW_L,kまたは挿入ペナルティP_I,kを含むものであればよい。

　リランキング部１０２－２は、音声認識部１０１で認識によって得られた認識仮説H_mを、K個の認識パラメータλ_kでリランキングする。ここでは言語重みと挿入ペナルティのパラメータを少しずつ変化させた時の、各認識仮説H_mに対する総合スコアx_m,kを計算し、認識仮説の順位をつける。総合スコアx_m,kを以下の式で算出することができる。
x_m,k=(1-W_L,k)x_A,m+W_L,kx_L,m+P_I,kn_m (3)
ここでx_m,kが総合スコア、x_A,mは音響スコア、x_L,mは言語スコア、n_mは単語数等、W_L,kは言語重み、P_I,kは挿入ペナルティである。(3)式は、(1)式を言語重みW_L,kが0から1の範囲になるようにスケーリングしたものである。音響スコアx_A,mと言語スコアx_L,mは、それぞれ音声認識部の音響モデルと言語モデルにおいて計算される各認識仮説H_mのスコアで、単語数等n_mは各認識仮説H_mが何単語あるいは何文字から構成されるかを数えたものである。各認識仮説H_mに対して音響スコアx_A,m、言語スコアx_L,m、単語数等n_mは決まっているため、言語重みW_L,kと挿入ペナルティP_I,kの値を変化させることによって認識仮説の順位が変わることになる。言語重みW_L,kと挿入ペナルティP_I,kの値は、例えば言語重みW_L,kを0から1の間で0.01刻みで変化させ、挿入ペナルティP_I,kを0から10の間で0.1刻みで変化させる。それぞれのパラメータの組み合わせ(この例では、100×100=10000通りでありK=10000)について、各認識仮説H_mに対して総合スコアx_m,kを計算し、順位rank_m,kをつける。例えば、総合スコアx_m,kに基づいて、各認識パラメータλ_k=(W_L,k,P_I,k)ごとに認識仮説H_mの順位rank_m,kを付ける。この場合、順位rank_m',k'は、ある認識パラメータλ_k'におけるある認識仮説H_m'の順位を示す。

＜最適パラメータ算出部１０２－３＞
　最適パラメータ算出部１０２－３は、評価値E_mと順位rank_m,kを入力とし、これらの値に基づき、認識パラメータの最適値または認識パラメータλ_kの不適切さを表す値を算出結果として求め（Ｓ１０２－３）、出力する。

　例えば、最適パラメータ算出部１０２－３は、各々の認識パラメータλ_k=(W_L,k,P_I,k)に対してどういった評価値E_mの認識仮説H_mが上位から並ぶかを算出することで、各認識パラメータλ_k=(W_L,k,P_I,k)の良さを計算する。

　例えば、認識パラメータの最適値を求める場合、各認識パラメータλ_k=(W_L,k,P_I,k)の値に対して第一位にリランキングされた認識仮説H_mに着目し、文正解率や文字正解精度などの評価値E_mが1となる認識仮説H_mが第一位になるような認識パラメータλ_k=(W_L,k,P_I,k)の領域の、重心を計算し、認識パラメータの最適値とする。

　また、認識パラメータλ_kの不適切さを表す値を求める場合、例えば、文正解率などの評価値E_mが1となる認識仮説が第一位になるような認識パラメータの領域Sとの距離を表す以下のロス関数L(λ_k)を最適パラメータ算出部１０２－３の出力とする。後述するモデル学習部１０３は、L(λ_k)をもとにモデルを学習することが可能である。

ただし領域S^-εは文正解率などの評価値E_mが1となる認識パラメータの領域Sから外縁部εを削ったものであり、λ∈S^-εは領域S^-εに属する認識パラメータである。式(4)は定性的には各認識パラメータλ_kの悪さを表すもの、言い換えると、不適切さを表す値となっている。

　また、第N位までの認識仮説を用いて識別的に正解となる認識仮説が上位に来やすくなるようなロス関数を設定する手法を採用することも可能である。こうしたロス関数の設計についての公知の技術として参考文献２があげられる。
（参考文献２）Och, F. J., "Minimum error rate training in statistical machine translation", Association for Computational Linguistics, In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1, pp. 160-167, 2003.
参考文献２では、第N位までの認識仮説のうち誤りを含む認識仮説のスコアを下げるようにモデル学習部１０３で学習する。

＜モデル学習部１０３＞
　モデル学習部１０３は、音響特徴量系列Oと最適パラメータ算出部１０２－３の算出結果とを入力とし、これらの値を用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習し（Ｓ１０３）、P個の学習用の音響特徴量系列Oとその書き起こしデータについて同様の処理を行い、学習済みの回帰モデルを出力する。

　例えば、モデル学習部１０３は、音響特徴量系列から最適パラメータ推定部１０２で得られた最適な認識パラメータを推定する回帰モデルを公知の深層学習技術を用いて学習する。教師有学習の枠組みで入力特徴量としては音声ファイルの音響特徴量系列を用い、正解ラベルとしては最適パラメータ算出部１０２―３における算出結果を用いる。ロス関数は例えば平均二乗誤差を用いる。長時間の時系列情報も考慮可能なRNN,LSTM,AttentionつきLSTMモデルなどでモデル化すると良い。

　最適パラメータ算出部１０２－３の算出結果が一意な最適な認識パラメータの場合、学習中のモデルに音響特徴量系列を与えたときに得られるパラメータと、最適な認識パラメータとの平均二乗誤差をロス関数として求め、ロス関数が小さくなるようにモデルを学習する。

　最適パラメータ算出部１０２－３の算出結果がロス関数の場合、ロス関数が小さくなるようにモデルを学習する。

　なお、学習を終了するエポック数などのハイパーパラメーターは、学習用のデータをトレーニングデータとバリデーションデータに分割し、バリデーションデータに対する評価を通して決定する。

＜第二実施形態＞
　第一実施形態と異なる部分を中心に説明する。

　本実施形態では、第一実施形態で説明した学習済みの回帰モデルを用いた音声認識方法について説明する。

　図３は第二実施形態に係る音声認識装置の機能ブロック図を、図４はその処理フローを示す。

　音声認識装置は、音声認識部２０１と、モデル利用部２０２とを含む。

　音声認識装置は、音声認識対象となる音声データの音響特徴量系列O_tを入力とし、認識パラメータλ_iniを用いて音声認識した認識結果を、学習済みの回帰モデルを用いて推定した認識パラメータでリランキングし、最も順位の高いものを認識結果として出力する。なお、下付き添え字のtは、音声認識対象のデータであることを表すインデックスである。本実施形態では、音声認識対象となる音声データの音響特徴量系列O_tに対する処理の説明のみを行うため、インデックスtを省略する。

　以下、各部について説明する。

＜音声認識部２０１＞
　音声認識部２０１は、音声認識部１０１と同様である。つまり、音声認識部２０１は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い(Ｓ２０１)、M個の認識仮説H_mとM個の総合スコアx_mを求める。ただし、入力の発話単位の音響特徴量系列Oは、音声認識対象となる音声データの音響特徴量系列である。

　音声認識部２０１は、M個の認識仮説H_mと、M個の総合スコアx_mを求める過程で得られるM個の言語スコアx_L,m,音響スコアx_A,m,単語数等n_mの組合せとをモデル利用部２０２に出力する。

＜モデル利用部２０２＞
　モデル利用部２０２は、発話単位の音響特徴量系列Oと、M個の認識仮説H_mと、M個の言語スコアx_L,m,音響スコアx_A,m,単語数等n_mの組合せとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、音響特徴量系列Oに対する認識パラメータλ_E=(W_L,E,P_I,E)を求める。モデル利用部２０２は、求めた認識パラメータλ_Eを用いて、M個の認識仮説H_mに対するM個の総合スコアx_E,mを求める。
x_E,m=(1-W_L,E)x_A,m+W_L,Ex_L,m+P_I,En_m
モデル利用部２０２は、求めたM個の総合スコアx_E,mに基づきM個の認識仮説H_mに対して順位(リランキング)を付け（Ｓ２０２）、最も順位の高い認識仮説を認識結果として出力する。つまり、本実施形態では、音声認識部２０１で音声認識を行うと同時に、モデル利用部２０２にて認識パラメータλ_Eを推定し、音声認識部２０１から出力された認識仮説のリランキングを行う。

　認識パラメータλ_Eの推定は1発話単位ごとに行い、1発話単位ごとに適切な認識パラメータでの音声認識が行われる。

　図５は、従来法と本手法における文誤り率と文字誤り率を示す。図５に示すように本手法の適用により、実サービスログ音声に対しておよそ9%の文誤り率削減とおよそ4％の文字誤り率削減が実現された。図６は、本手法の適用による改善事例を示す。口語表現として省略された助詞が正しく認識される例(a)、なまった表現が正しく認識される例(b)、文法的に正しく認識される例(c)、本来認識結果を返すべきでない背景発話に対して正しく空の認識結果を返す例(d)が見られた。

＜効果＞
　このような構成とすることで、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定することができるという効果を奏する。また、データセット全体に対して一定の認識パラメータを設定する場合と比較して認識精度が向上する。発話ごとの適切な認識パラメータの適用をリランキングとして行うことで、認識パラメータの推定を音声認識と並行して行うことが可能となり遅延なく適用できる。

＜第三実施形態＞
　第一実施形態と異なる部分を中心に説明する。

　第一実施形態のようにリランキングとして本手法を適用する場合、適用可能なパラメータは言語モデル重みと挿入誤りに限られている。しかし、音声認識の前処理として本手法を適用する場合は言語重みと挿入誤りに加えてビーム幅やバイアス値といった認識パラメータに対して本手法が適用可能であり、文単位での最適化が可能となる。本実施形態では、各パラメータを変化させながら複数回の認識を行うことで、文単位での最適パラメータを推定するモデルを学習する。

　図７は第三実施形態に係る学習装置の機能ブロック図を、図８はその処理フローを示す。

　学習装置は、音声認識部３０１と、仮説評価部３０２－１と、最適パラメータ算出部３０２－２と、モデル学習部３０３とを含む。

　学習装置は、学習用の音響特徴量系列Oと対応する音声データを人が書き起こした書き起こしデータとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習して、学習済みの回帰モデルを出力する。

　以下、各部について説明する。

＜音声認識部３０１＞
　音声認識部３０１は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、K個の認識パラメータλ_kを用いて、音声認識処理を行い（Ｓ３０１）、K個の認識結果R_kとK個の総合スコアx_kを求める。

　音声認識部３０１は、K個の認識結果R_kを仮説評価部３０２－１に出力し、K個の総合スコアx_kを最適パラメータ算出部３０２－２に出力する。

　音声認識部３０１は、最適化したい認識パラメータの設定値を少しずつ変化させながら公知の音声認識技術を用いて認識を行い、各認識パラメータに対する認識結果を取得する。

　後述する仮説評価部３０２－１および最適パラメータ算出部３０２－２からなる最適パラメータ推定部３０２では、音声認識部３０１から出力された各認識パラメータにおける認識結果を評価し、最適な認識パラメータを出力する。第一実施形態の最適パラメータ推定部１０２は、リランキング部１０２－２において認識仮説に対して各認識パラメータでリランキングすることで、各認識パラメータでの認識結果を模擬する。一方、本実施形態では、音声認識部３０１において既に認識パラメータを変化させながら認識を行っているのでリランキングの工程が不要である。

　なお、本実施形態の認識パラメータλ_kは、言語重み、挿入ペナルティ、ビーム幅、バイアス値等の音声認識のパラメータの少なくとも何れか１つ以上を含む。

＜仮説評価部３０２－１＞
　仮説評価部３０２－１は、第一実施形態の仮説評価部１０２－１と同様の処理を行う。つまり、仮説評価部３０２－１は、認識結果R_kと正解テキストとを入力とし、正解テキストに基づき、認識結果R_kを評価し、評価値E_kを求め(Ｓ３０２－１)、出力する。

＜最適パラメータ算出部３０２－２＞
　最適パラメータ算出部３０２－２は、認識結果R_kに対する総合スコアx_kと評価値E_kとを入力とし、これらの値に基づき、認識パラメータの最適値または認識パラメータλ_kの不適切さを表す値を算出結果として求め（Ｓ３０２－２）、出力する。

　最適パラメータ算出部３０２－２は、各認識パラメータにおける認識結果と仮説評価部３０２－１で得られたそれらに対する評価値を用い、各々の認識パラメータに対してどういった評価値の認識結果が得られているかを考慮することで、各認識パラメータの良さを定量化する。詳細は、最適パラメータ算出部１０２―３と同様である。

　例えば、認識パラメータの最適値を求める場合、評価値E_kが1となる認識結果R_kに対応する認識パラメータλ_kを抽出し、抽出した認識パラメータλ_kの重心を計算し、計算した重心を認識パラメータの最適値とする。

　また、認識パラメータλ_kの不適切さを表す値を求める場合、例えば、文正解率などの評価値E_mが1となる認識結果R_kが第一位になるような認識パラメータの領域Sとの距離を表す(4)式のロス関数L(λ_k)を最適パラメータ算出部１０２－３の出力とする。(4)式のロス関数L(λ_k)のようにあるパラメータ(とその周辺)における認識結果のみから計算できるようなロス関数を用いれば、ロスの値を認識パラメータで数値微分して勾配降下の要領で逐次的に認識パラメータを更新することが可能となる。

＜モデル学習部３０３＞
　モデル学習部３０３は、第一実施形態のモデル学習部１０３と同様の処理を行う。つまり、モデル学習部３０３は、音響特徴量系列Oと最適パラメータ算出部３０２－２の算出結果とを入力とし、これらの値を用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習し（Ｓ３０３）、P個の学習用の音響特徴量系列Oとその書き起こしデータについて同様の処理を行い、学習済みの回帰モデルを出力する。

＜効果＞
　このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、本実施形態の場合、回帰モデルが推定する認識パラメータλ_Eとして、ビーム幅やバイアス値を用いることができる。ただし、本実施形態の場合、K個の認識パラメータλ_kを用いて、音声認識処理を行うため、第一実施形態よりも演算量が多くなる。

＜第四実施形態＞
　第二実施形態と異なる部分を中心に説明する。

　本実施形態では、第三実施形態に於いて学習したモデルを用いて最適なパラメータを推定し、それを音声認識部のパラメータの設定値として音声認識を行う。

　図９は第四実施形態に係る音声認識装置の機能ブロック図を、図１０はその処理フローを示す。

　音声認識装置は、音声認識部４０２と、モデル利用部４０１とを含む。

　音声認識装置は、音声認識対象となる音声データの音響特徴量系列Oを入力とし、学習済みの回帰モデルを用いて、最適な認識パラメータを推定し、推定した認識パラメータを用いて音声認識して認識結果を出力する。

　以下、各部について説明する。

＜モデル利用部４０１＞
　モデル利用部４０１は、音響特徴量系列Oを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλ_Eを求め（Ｓ４０１）、出力する。なお、回帰モデルは、第三実施形態で学習したモデルである。

　音声認識部４０２の音声認識処理の前段でモデル利用部４０１にて適切な認識パラメータを推定し、それを用いて音声認識を行う。音声認識部４０２の内部で認識結果を探索する際に、推定した認識パラメータを設定値として与えることで適切な仮説探索を行うことが可能である。

＜音声認識部４０２＞
　音声認識部４０２は、音響特徴量系列Oと認識パラメータλ_Eとを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_Eを用いて、音声認識処理を行い（Ｓ４０２）、認識結果を出力する。

＜効果＞
　このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、本実施形態の場合、推定する認識パラメータλ_Eとして、ビーム幅やバイアス値を用いることができる。

＜その他の変形例＞
　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　上述の各種の処理は、図１１に示すコンピュータの記録部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い、認識仮説H_mと総合スコアx_mを求める音声認識部と、
　前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識仮説H_mを評価し、評価値E_mを求める仮説評価部と、
　Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλ_kを用いて、前記認識仮説H_mに対して総合スコアx_m,kを求め、順位rank_m,kを付けるリランキング部と、
　前記評価値E_mと前記順位rank_m,kとに基づき、認識パラメータの最適値または前記認識パラメータλ_kの不適切さを表す値を算出結果として求める最適パラメータ算出部と、
　前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む、
　学習装置。
　Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い、認識仮説H_mと総合スコアx_mを求める音声認識部と、
　音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、前記音響特徴量系列Oに対する認識パラメータλ_Eを求め、求めた認識パラメータλ_Eを用いて、前記認識仮説H_mに対する総合スコアx_E,mを求め、求めた総合スコアx_E,mに基づき前記認識仮説H_mに対して順位を付けるモデル利用部とを含む、
　音声認識装置。
　Kを1以上の整数の何れかとし、k=1,2,…,Kとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_kを用いて、音声認識処理を行い、認識結果R_kと総合スコアx_kを求める音声認識部と、
　前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識結果R_kを評価し、評価値E_kを求める仮説評価部と、
　前記認識結果R_kに対する総合スコアx_kと前記評価値E_kとに基づき、認識パラメータの最適値または前記認識パラメータλ_kの不適切さを表す値を算出結果として求める最適パラメータ算出部と、
　前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む、
　学習装置。
　音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλ_Eを求めるモデル利用部と、
　前記音響特徴量系列Oに対して、前記認識パラメータλ_Eを用いて、音声認識処理を行う音声認識部とを含む、
　音声認識装置。
　Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い、認識仮説H_mと総合スコアx_mを求める音声認識ステップと、
　前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識仮説H_mを評価し、評価値E_mを求める仮説評価ステップと、
　Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλ_kを用いて、前記認識仮説H_mに対して総合スコアx_m,kを求め、順位rank_m,kを付けるリランキングステップと、
　前記評価値E_mと前記順位rank_m,kとに基づき、認識パラメータの最適値または前記認識パラメータλ_kの不適切さを表す値を算出結果として求める最適パラメータ算出ステップと、
　前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習ステップとを含む、
　学習方法。
　Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_iniを用いて、音声認識処理を行い、認識仮説H_mと総合スコアx_mを求める音声認識ステップと、
　音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、前記音響特徴量系列Oに対する認識パラメータλ_Eを求め、求めた認識パラメータλ_Eを用いて、前記認識仮説H_mに対する総合スコアx_E,mを求め、求めた総合スコアx_E,mに基づき前記認識仮説H_mに対して順位を付けるモデル利用ステップとを含む、
　音声認識方法。
　Kを1以上の整数の何れかとし、k=1,2,…,Kとし、発話単位の音響特徴量系列Oに対して、認識パラメータλ_kを用いて、音声認識処理を行い、認識結果R_kと総合スコアx_kを求める音声認識ステップと、
　前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識結果R_kを評価し、評価値E_kを求める仮説評価ステップと、
　前記認識結果R_kに対する総合スコアx_kと前記評価値E_kとに基づき、認識パラメータの最適値または前記認識パラメータλ_kの不適切さを表す値を算出結果として求める最適パラメータ算出ステップと、
　前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習ステップとを含む、
　学習方法。
　音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλ_Eを求めるモデル利用ステップと、
　前記音響特徴量系列Oに対して、前記認識パラメータλ_Eを用いて、音声認識処理を行う音声認識ステップとを含む、
　音声認識方法。
　請求項１もしくは請求項３の学習装置、または、請求項２もしくは請求項４の音声認識装置としてコンピュータを機能させるためのプログラム。