JPWO2008001486A1

JPWO2008001486A1 - 音声処理装置およびプログラム、並びに、音声処理方法

Info

Publication number: JPWO2008001486A1
Application number: JP2008522291A
Authority: JP
Inventors: 山本　仁; 山本　　仁; 三木　清一; 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-06-29
Filing date: 2007-06-18
Publication date: 2009-11-26
Anticipated expiration: 2027-06-18
Also published as: WO2008001486A1; US8751226B2; JP5223673B2; US20090204390A1

Abstract

音声処理装置１０１は、入力された音声に対する音声認識処理の結果として得られた音声認識結果１５から該音声認識結果１５の特徴である認識素性情報を抽出する認識素性抽出部１２と、予め登録された言語リソース１４から該言語リソース１４の特徴である言語素性情報を抽出する言語素性抽出部１１と、抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデル１６を求めるモデル学習部１３とを備える。

Description

本発明は、音声をテキストデータ等の電子データに変換する音声認識技術に関し、特に、音声認識処理の結果を検証するための技術に関する。

音声認識装置は、音声認識処理の結果として、文法に適合しない単語列や正常な意味を成さない単語列である、いわゆる非文を出力することがある。従来、このような非文の原因となる認識誤りを検出するために、信頼度尺度に基づき認識結果の正誤を判別する方式が提案されている。この方式に関する技術として、例えば、後述の特許文献１に記載のものがある。

特許文献１に記載の技術は、認識結果を得る際に用いた音声認識手段に由来する複数の信頼度尺度を統合した信頼度モデルを用いてリスコアリングを行うものである。この技術による音声認識システムは、図６に示すように、入力音声の認識結果と、その特徴とを含む特徴量つき単語ネットワークとから、文仮説生成手段により特徴量つきの文仮説を複数生成する。そして、生成した文仮説と信頼度モデルとから信頼度計算手段によって各文仮説の信頼度を計算し、リスコアリング手段が、この信頼度に基づいて順位を変更した文仮説を音声認識結果として出力する。

一方、音声認識処理では、基準となる言語モデルを用いて音声をデータに変換するが、その言語モデルの精度を高めるために次のような技術が提案されている。例えば、後述の非特許文献１のように、大きく離れた単語の関係を用いる方法や、非特許文献２のように話題情報を用いて文書全体の最適化を図る方法、そして、非特許文献３のように、ＷＷＷから得られるコーパスを単語の出現確率の推定に使用する方法などがある。
特開２００６−８５０１２号公報 R. Lau, R. Rosenfeld, S. Roukos、"Trigger-Based Language Models: A Maximum Entropy Approach"、1993 IEEE International Conference on Acoustics, Speech, and Signal Processing 予稿集、（米国）、IEEE（Institute of Electrical and Electronics Engineers）、1993年、第２巻、pp.45-48 D. Gildea, T. Hofmann、"Topic-Based Language Models Using EM"、Sixth European Conference on Speech Communication and Technology （EUROSPEECH’99）予稿集、ISCA（International Speech Communication Association）、1999年、pp.2167-2170 A. Berger and R. Miller、"Just-in-time Language Modeling"、1998 IEEE International Conference on Acoustics, Speech, and Signal Processing 予稿集、（米国）、IEEE（Institute of Electrical and Electronics Engineers）、1998年、第２巻、pp.705-708 J. Lafferty等、"Conditional Random Fields： Probabilistic Models for Segmenting and Labeling Sequence Data"、18th International Conference of Machine Learning 予稿集、2001年、pp.282-289

しかしながら、上記特許文献１に記載の信頼度モデルを利用した場合、音声認識結果の信頼度や言語的な正確度の評価に十分な精度が得られないおそれがある。その理由は、音声認識結果の信頼度評価に用いる特徴値として、認識計算時のスコアや単語ネットワークの複雑度といった、音声認識手段に由来する特徴の一部が考慮されるに過ぎないからである。そのため、現時点の話題や前後の文脈に適合しない単語、あるいは文法的に不適正な単語を含む非文が、音声認識結果に含まれることを回避し難いという問題がある。

また、非特許文献１乃至３に記載の方法には、それぞれ固有の利点があるものの、仮に、実用においてこれらを同時に言語モデルに適用しようとする場合は、モデル化の複雑さや、学習の精度および処理量などの点で取り扱いが容易ではない。

本発明は、上記課題に鑑みてなされたものであり、音声認識処理の認識結果を検証する精度を高め得る検証モデルを提供することを目的とする。

本発明に係る音声処理装置は、入力された音声に対する音声認識処理の結果として得られた認識結果データから該データの特徴である認識素性情報を抽出する手段と、予め登録された言語リソースから該言語リソースの特徴である言語素性情報を抽出する手段と、抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデルを求める手段とを備える。

本発明のプログラムは、コンピュータを上記音声処理装置として機能させる。

本発明の音声処理方法は、音声処理装置が、
入力された音声に対する音声認識処理の結果として得られた認識結果データから該データの特徴である認識素性情報を抽出するステップと、
予め登録された言語リソースから該言語リソースの特徴である言語素性情報を抽出するステップと、
抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデルを求めるステップとを実行する。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本発明の実施の形態に係る音声処理装置の構成を示すブロック図である。図１の音声処理装置の動作手順を示すフローチャートである。本発明の実施の形態に係る音声処理装置の構成を示すブロック図である。図３の音声処理装置の動作手順を示すフローチャートである。本発明の実施形態の音声認識処理により得られた検証モデルを利用する音声処理装置の構成を示すブロック図である。従来の音声処理装置の構成を示すブロック図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（第一の実施の形態）
図１に、本発明の実施の形態に係る音声処理装置の構成を示す。本実施形態の音声処理装置１０１は、入力された音声に対する音声認識処理の結果として得られた認識結果データ（学習用音声認識結果１５）から該データの特徴である認識素性情報を抽出する手段（認識素性抽出部１２）と、予め登録された言語リソース１４から該言語リソース１４の特徴である言語素性情報を抽出する手段（言語素性抽出部１１）と、抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデル１６を求める手段（モデル学習部１３）とを備える。

本実施形態の音声処理装置１０１は、言語素性抽出部１１と、認識素性抽出部１２と、モデル学習部１３と、言語リソース１４と、学習用音声認識結果１５と、検証モデル１６とを備える。言語素性抽出部１１、認識素性抽出部１２及びモデル学習部１３は、音声処理装置１０１のＣＰＵ（図示略）が実行するプログラムに対応する構成要素である。言語リソース１４、学習用音声認識結果１５及び検証モデル１６は、音声処理装置１０１の記憶デバイス（図示略）に記憶されたデータである。

音声処理装置１０１の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。

言語リソース１４は、言語的な規則や素性を抽出する元データを指す。１つの実施形態において、言語リソース１４は、音声認識にて対象とされるドメインごとに登録された文書データの集合、あるいは、文法や意味の観点で区別された正文・非文の集合、もしくはＷＷＷから収集したテキストデータの集合、話題別のキーワード辞書のような、予め用意された言語リソースである。

言語素性抽出部１１は、言語リソース１４を分析し、所定の言語素性を抽出してモデル学習部１３に提供する。１つの実施形態において、言語素性とは、単語の属性（表記、読み、品詞、細品詞、格パタン、活用形、意味属性、類義語など）、距離の大きい単語間の関係（共起、係り受け、照応など）、文の構造（構文構造、文の構成要素、文法パタン、章・節・段落構造、起承転結構造など）、文の意味内容（文書・段落・文の話題語、要約、キーワードなど）などである。

ここで、素性の抽出とは、該当する素性の値を計算することや、素性の出現頻度を求める処理を指す。また、距離の大きい単語間の関係とは、音声認識に用いる言語モデルにおいて、単語間の距離が規定値よりも大きい単語間の関係を指す。具体的には、例えば、Ｎグラム（N-Gram）において単語間の距離がＮ個を超える単語同士の関係である。

学習用音声認識結果１５は、予め入力音声に対し音声認識手段２０が出力した認識仮説を表し、例えば、複数の認識仮説を含む単語グラフまたはＮベスト単語列で表現される。また、この学習用音声認識結果１５は、入力音声の発声内容と対応付けた上で正誤情報が付与されてもよい。

認識素性抽出部１２は、学習用音声認識結果１５をデータ分析し、所定の認識素性を抽出してモデル学習部１３に提供する。１つの実施形態における認識素性とは、前述の特許文献１に記載されている、音響スコア、言語スコア、単語事後確率、音響安定度、単語仮説密度、アクティブなＨＭＭの数、音素の平均フレーム数、バックオフケース、単語仮説の正誤ラベルの履歴など、認識システムの特徴量、及び、他の認識結果の特徴としての、表記、読み、品詞、活用形、表記や読みの長さ、含まれる音素の数や種類、音素の継続時間長の分布、単語前後でのグラフの分岐数、競合する単語、グラフ密度などの特徴量である。

モデル学習部１３は、言語素性抽出部１１および認識素性抽出部１２により抽出された素性に基づく学習処理により得た検証モデル１６を出力する。学習方法はモデルの定式化に依存する。検証モデル１６は、１つの実施形態では、識別モデルとしての条件付確率場（CRF：Conditional Random Fields）モデルを用いることができる。このとき、検証モデル１６を次の数１のように定義することができる。

数１において、「ｘ」は検証の対象となる観測データであり、例えば音声認識結果１５である。また、「ｙ」は検証の結果であり、例えば、正誤ラベルや、用途に応じた重要度などである。「Λ」はモデルパラメタの集合である。「Φ（ｙ，ｘ）」は素性の値の集合であり、言語素性抽出部１１及び認識素性抽出部１２が抽出した言語素性および認識素性のそれぞれ、もしくはそれらの単語内又は単語間の組み合わせである。「Ｚｘ」は正規化項である。検証モデル１６としては、この他に、ニューラルネットワーク、隠れマルコフモデル、あるいは、サポートベクタマシンなど、他の識別モデルを用いることができる。

モデル学習部１３は、識別モデルとして条件付き確率場モデルを求めることができる。モデル学習部１３は、検証モデル１６が上記の数１で表される条件付確率場の場合、条件付尤度の最大化に基づくパラメタ更新式を、繰り返し最適化手法によって推定する。推定の詳細については、例えば非特許文献４に記されている。

モデル学習部１３により作成された検証モデル１６は、その後、音声認識処理の結果として得られたデータの検証に利用される。

図２に示すフローチャートを参照して、上記の音声処理装置１０１の動作について説明する。音声処理装置１０１は、記憶デバイスから言語リソース１４および学習用音声認識結果１５を読み出すと、言語リソース１４を言語素性抽出部１１へ入力し、学習用音声認識結果１５を認識素性抽出部１２へ入力する（ステップＳ１１）。

言語素性抽出部１１は、入力された言語リソース１４から言語素性を抽出し、認識素性抽出部１２は、学習用音声認識結果１５から認識素性を抽出する（ステップＳ１２）。そして、モデル学習部１３が、抽出された認識素性および言語素性を用いた学習処理により検証モデル１６を求め、それを記憶デバイスに保存する（ステップＳ１３）。

以上説明した第１の実施形態によれば、認識素性と、音声認識の言語モデルに直接反映させるのが困難とされる数多くの言語素性とを同時に検証モデルに取り入れることができる。これにより、検証モデル１６の精度を向上させることができる。また、より多くの言語リソース１４を用意することで、より多くの種別の言語素性を確保でき、これによりモデル学習の頑健性を向上させることができる。

本発明によれば、音声認識処理の結果に由来する認識素性情報と、既存の単語列の言語的性質に由来する言語素性情報とを用いて検証モデルを学習することから、精度のよい検証モデルを得ることができる。

なお、上記の言語素性抽出部１１の代替処理として、ユーザの行動から間接的に得られた情報をもとに言語素性を抽出してもよい。具体的には、例えば、ある文書の集合に対するユーザの参照頻度や参照履歴などを含む使用履歴に基づいて、その文書（文・単語）の重要度や類似度等の特徴を求め、それを言語素性として学習に用いる。

また、言語素性抽出部１１の代替処理として、ユーザの利用目的に応じて予め設定された情報から素性を抽出するようにしてもよい。例えば、言語リソース１４や学習用音声認識結果１５に対して、単語の重要度（重要・普通・不要）や、文の種類（挨拶文、質問文、回答文）などの情報を予めユーザが設定しておき、それをモデル学習に用いる言語素性とすることができる。また、例えば、既に得られている音声認識結果の単語列から作成された重要度別の単語リスト（辞書）を、言語リソース１４として予め登録してもよい。

（第二の実施の形態）
図３に、本発明の実施の形態の音声処理装置の構成を示す。本実施形態の音声処理装置１０２の構成は、図１の上記実施形態の音声処理装置１０１の構成に学習制御部３１を付加したものである。

学習制御部３１は、言語素性抽出部１１及び認識素性抽出部１２により抽出された素性に対し、モデル学習部１３にて使用する素性の種類の選択処理や、素性値に対する重み付け処理を行い、その結果をモデル学習部１３に提供する。

素性の種類の選択方法としては、例えば、出現頻度が規定の値より大きい素性を選択するという方法がある。学習制御部３１は、学習処理に使用すべき認識素性情報および言語素性情報の種別を当該認識結果データ（音声認識結果１５）および言語リソース１４における出現頻度に基づき選択することができる。また、素性が共起単語の場合、単語間の距離によって出現頻度の閾値を変える、あるいは、該当する素性のうち、出現頻度の上位のもののみを使用するという方法であってもよい。

学習制御部３１は、重み値を認識素性情報および言語素性情報の種別に応じて設定することができる。素性の重みの調整（設定）は、例えば、認識結果が自立語で素性が共起単語の場合、共起単語が自立語であればその素性値を大きくする（付属語ならば値を変化させない）ことによって実現できる。また、単語間の距離に応じて重みを変えてもよい。

また、重みの調整に関する別の方法としては、素性間の階層関係を利用するという方法がある。学習制御部３１は、素性間の階層関係を利用して重み値を設定することができる。例えば、段落単位の素性の下位に文単位の素性があるというように、素性間に階層関係がある場合、上位の素性の出現頻度のほうが小さい場合に下位の素性値を大きくする、あるいは、両者の重み付け和を新たな素性値とする、もしくは、両者の出現頻度の比が一定になるように値を調整する。このように学習制御部３１は、認識素性情報および言語素性情報のそれぞれに設定した重み値を用いて該認識素性情報および言語素性情報ごとに重み付け和を求め、求めた重み付け和を素性値とすることができる。なお、検証モデル１６に前述の条件付確率場を用いる場合、素性の重み調整は、モデルのパラメタ値を調整することにより実現できる。

図４に示すフローチャートを参照して、音声処理装置１０２の動作について説明する。言語素性抽出部１１及び認識素性抽出部１２がそれぞれ素性を抽出するまでの処理（ステップＳ２１、Ｓ２２）は、音声処理装置１０１に関し図２により説明した手順と同様であり、説明を省略する。

学習制御部３１は、抽出された言語素性及び認識素性に基づいて、検証モデル１６の学習処理に使用する素性の種別を選択し、また、素性値の重み付けを調整する（ステップＳ２３）。そして、モデル学習部１３が、学習制御部３１の処理を経た言語素性及び認識素性を用いて検証モデル１６の学習処理を行い、それを保存する（ステップＳ２４）。

本実施形態の音声処理装置１０２によれば、素性の種類の選択や重みの調整を行うことで、学習に使用する素性を絞り込むことから、モデルのパラメタ数に対し適切な量の学習データを確保することができる。これにより、モデル学習部１３では効率よく頑健に検証モデル１６を学習することができる。

（第三の実施の形態）
図５に、図１または図３の検証モデル１６を用いて音声認識結果に検証に関する情報を付与する音声処理装置の一構成例を示す。音声処理装置１０３は、検証対象として新たに入力された認識結果データ（図５の音声認識部４１の出力）を検証モデル１６を用いて検証する手段を備え、具体的には、音声認識部４１と、素性抽出部４２と、検証処理部４３と、情報統合部４４と、を含む。

図示の構成において、音声認識部４１は、図１または図３の音声認識手段２０に対応し、素性抽出部４２は、言語素性抽出部１１及び認識素性抽出部１２に対応する機能である。この音声処理装置１０３により、例えば、単純には、認識仮説の単語列に対して正誤ラベルを付与することができる。音声処理装置１０３は、次のように動作する。

音声処理装置１０３に音声が入力されると、音声認識部４１が入力音声の認識仮説を生成し、その認識仮説に対し素性抽出部４２が所定の認識素性および言語素性を抽出する。検証処理部４３は、抽出された素性と、上記実施形態の要領にて予め用意された検証モデル１６とを参照し、検証結果やその信頼度スコアを求める。情報統合部４４は、音声認識部４１が生成した認識仮説と、検証処理部４３による検証処理の結果を統合し、それを検証済み音声認識結果として出力する。このようにして、音声処理装置１０３が、検証対象として新たに入力された認識結果データ（音声認識部４１の出力）を検証モデル１６を用いて検証するステップを実行することができる。

上記音声処理装置１０３によれば、音声認識部４１が生成した認識仮説の単語列に対して、音声認識結果の用途に応じたラベルの付与、あるいは、その信頼度の付与を精度よく行うことができる。

また、検証モデル１６に条件付確率場を使用する場合は、多クラスの識別が可能であること、識別結果の信頼度が得られること、識別結果に順位をつけられること、単語単位ではなく１発声分に相当する単語列ごとに最適化されること等の利点がある。このように、音声処理装置１０３は、音声認識結果の単語グラフを扱うことに適しており、音声認識部４１の後段処理を容易に構成することができる。

以上、本発明を上記実施形態に即して説明したが、本発明は上述の構成のみに制限されるものでなく、本発明の範囲内で当業者によりなし得る各種変形や修正を含むことは勿論である。

この出願は、２００６年６月２９日に出願された日本出願特願２００６−１７９６１９号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

入力された音声に対する音声認識処理の結果として得られた認識結果データから該データの特徴である認識素性情報を抽出する手段と、
予め登録された言語リソースから該言語リソースの特徴である言語素性情報を抽出する手段と、
抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデルを求める手段とを備えることを特徴とする音声処理装置。
前記学習処理に使用すべき認識素性情報および言語素性情報の種別を選択する手段を備えることを特徴とする請求項１記載の音声処理装置。
前記選択する手段は、前記学習処理に使用すべき認識素性情報および言語素性情報の種別を当該認識結果データおよび言語リソースにおける出現頻度に基づき選択することを特徴とする請求項２記載の音声処理装置。
前記学習処理に使用すべき認識素性情報および言語素性情報に対し重み値を設定する手段を備えることを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
前記重み値を設定する手段は、前記重み値を前記認識素性情報および前記言語素性情報の種別に応じて設定することを特徴とする請求項４記載の音声処理装置。
前記重み値を設定する手段は、前記認識素性情報および前記言語素性情報のそれぞれに設定した重み値を用いて該認識素性情報および言語素性情報ごとに重み付け和を求め、求めた重み付け和を素性値とすることを特徴とする請求項４記載の音声処理装置。
検証対象として新たに入力された認識結果データを前記検証モデルを用いて検証する手段を備えることを特徴とする請求項１乃至６のいずれか１項に記載の音声処理装置。
前記言語素性情報を抽出する手段は、予め登録された言語リソースに対する使用履歴に基づき前記言語素性情報を抽出することを特徴とする請求項１乃至７のいずれか１項に記載の音声処理装置。
前記検証モデルを求める手段は、前記検証モデルとして識別モデルを求めることを特徴とする請求項１乃至８のいずれか１項に記載の音声処理装置。
前記検証モデルを求める手段は、前記識別モデルとして条件付確率場モデルを求めることを特徴とする請求項９記載の音声処理装置。
前記認識素性情報を抽出する手段は、前記認識素性情報として、当該認識結果データが表す表記および品詞ならびに読みに関する属性を抽出することを特徴とする請求項１乃至１０のいずれか１項に記載の音声処理装置。
コンピュータを請求項１乃至１１記載の音声処理装置として機能させることを特徴とするプログラム。
音声処理装置が、
入力された音声に対する音声認識処理の結果として得られた認識結果データから該データの特徴である認識素性情報を抽出するステップと、
予め登録された言語リソースから該言語リソースの特徴である言語素性情報を抽出するステップと、
抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデルを求めるステップとを実行することを特徴とする音声処理方法。
前記音声処理装置が、さらに、前記学習処理に使用すべき認識素性情報および言語素性情報の種別を選択するステップを実行することを特徴とする請求項１３記載の音声処理方法。
前記音声処理装置が、前記種別を選択するステップにおいて、前記認識素性情報および言語素性情報の種別を当該認識結果データおよび言語リソースにおける出現頻度に基づき選択することを特徴とする請求項１４記載の音声処理方法。
前記音声処理装置が、さらに、前記学習処理に使用すべき認識素性情報および言語素性情報に対し重み値を設定するステップを実行することを特徴とする請求項１３乃至１５のいずれか１項に記載の音声処理方法。
前記音声処理装置が、前記重み値を設定するステップにおいて、前記重み値を前記認識素性情報および前記言語素性情報の種別に応じて設定することを特徴とする請求項１６記載の音声処理方法。
前記音声処理装置が、前記重み値を設定するステップにおいて、前記認識素性情報および前記言語素性情報のそれぞれに設定した重み値を用いて該認識素性情報および言語素性情報ごとに重み付け和を求め、求めた重み付け和をそれぞれの素性値とすることを特徴とする請求項１６記載の音声処理方法。
前記音声処理装置が、さらに、検証対象として新たに入力された認識結果データを前記検証モデルを用いて検証するステップを実行することを特徴とする請求項１３乃至１８のいずれか１項に記載の音声処理方法。
前記音声処理装置が、前記言語素性情報を抽出する前記ステップにおいて、予め登録された言語リソースに対する使用履歴に基づき前記言語素性情報を抽出することを特徴とする請求項１３乃至１９のいずれか１項に記載の音声処理方法。
前記音声処理装置が、前記検証モデルを求める前記ステップにおいて、前記検証モデルとして識別モデルを求めることを特徴とする請求項１３乃至２０のいずれか１項に記載の音声処理方法。
前記音声処理装置が、前記検証モデルを求める前記ステップにおいて、前記識別モデルとして条件付確率場モデルを求めることを特徴とする請求項２１記載の音声処理方法。
前記音声処理装置が、前記認識素性情報を抽出するステップにおいて、前記認識素性情報として、当該認識結果データが表す表記および品詞ならびに読みに関する属性を抽出することを特徴とする請求項１３乃至２２のいずれか１項に記載の音声処理方法。