WO2019156101A1

WO2019156101A1 - 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム

Info

Publication number: WO2019156101A1
Application number: PCT/JP2019/004149
Authority: WO
Inventors: 中村　孝; 隆朗福冨
Original assignee: 日本電信電話株式会社
Priority date: 2018-02-08
Filing date: 2019-02-06
Publication date: 2019-08-15
Also published as: JP2019139010A; US20210035553A1; JP6812381B2; US11227580B2

Abstract

音声認識誤りにつながる音響的な要因を推定することができる音声認識精度劣化要因推定装置を提供する。入力された音声からフレーム毎の音響特徴量を抽出する音響特徴量抽出部と、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音響特徴量の音響イベント毎の事後確率を計算する事後確率計算部と、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするフィルタリング部と、認識スコア付き音声認識結果の集合を出力する音声認識部と、各フレームの音声認識結果特徴量を出力する音声認識結果特徴量抽出部と、補正事後確率と、各フレームの音声認識結果特徴量と、各フレームの音響特徴量に基づいて音声認識精度の主たる劣化要因クラスをフレームごとに算出して出力する劣化要因出力部を含む。

Description

音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム

　本発明は、音声認識誤りにつながる音響的な要因を推定する音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラムに関する。

　未知語や同音異義語等の音声認識誤り原因を検出、訂正する方法が提案されている（非特許文献１、２）。

Taichi Asami, Ryo Masumura, Yushi Aono, Koichi Shinoda, "Recurrent Out-of-Vocabulary Word Detection Using Distribution of Features", [online], 平成 28 年9 月、ISCA, ［平成 29 年 5 月 18 日検索］、インターネット〈 URL：http://t2r2.star.titech.ac.jp/rrws/file/CTT100716848/ATD100000413/ 〉垣智、隅田英一郎、飯田仁、"文字連鎖の統計的特徴を利用した音声認識誤り訂正手法"、[online]、平成 10 年 3 月、言語処理学会、［平成29 年 5 月18 日検索］、インターネット〈URL：http://www.anlp.jp/proceedings/annual_meeting/1998/pdf_dir/Q1-5.pdf 〉 Srikanth R Madikeri, Hema A Murthy, "Mel filter bank energy-based slope feature and its application to speaker recognition", [online], 平成 23 年 1 月、ISCA, ［平成 29 年 5 月 18 日検索］、インターネット〈 URL：http://ieeexplore.ieee.org/abstract/document/5734713/ 〉

　非特許文献１では音素認識と単語認識を並列で実行し、単語認識において生成されるコンフュージョンネットワークの遷移毎の特徴量を用いて未知語を検出するが、必ず音声認識を行う必要があり、かつ検出できるのは未知語に限られる。非特許文献２では、音声認識誤りパターンを類型化し、パターンに当てはまる部分を訂正するが、言語的な誤りパターンのみにしか対応できない。

　そこで、本発明では、音声認識誤りにつながる音響的な要因を推定することができる音声認識精度劣化要因推定装置を提供することを目的とする。

　本発明の音声認識精度劣化要因推定装置は、音響特徴量抽出部と、事後確率計算部と、フィルタリング部と、音声認識部と、音声認識結果特徴量抽出部と、劣化要因出力部を含む。

　音響特徴量抽出部は、入力された音声からフレーム毎の音響特徴量を抽出する。事後確率計算部は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音響特徴量の音響イベント毎の事後確率を計算する。フィルタリング部は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とする。音声認識部は、入力された音声に対して音声認識を行い、認識スコア付き音声認識結果の集合を出力する。音声認識結果特徴量抽出部は、認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力する。劣化要因出力部は、前記補正事後確率と、各フレームの前記音声認識結果特徴量と、各フレームの音響特徴量に基づいて、音声認識精度の主たる劣化要因クラスをフレームごとに算出して出力する。

　本発明の音声認識精度劣化要因推定装置によれば、音声認識誤りにつながる音響的な要因を推定することができる。

実施例１の音声認識精度劣化要因推定装置の構成を示すブロック図。実施例１の音声認識精度劣化要因推定装置の動作を示すフローチャート。音声認識精度劣化要因推定用モデルの構造例を示す図。第１モデル学習部、第２モデル学習部の動作を示すフローチャート。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　以下、図１を参照して実施例１の音声認識精度劣化要因推定装置の構成を説明する。同図に示すように本実施例の音声認識精度劣化要因推定装置１は、音響特徴量抽出部１１と、事後確率計算部１２と、フィルタリング部１３と、音声認識部１４と、音声認識結果特徴量抽出部１５と、劣化要因出力部１６と、第１モデル記憶部１７と、第２モデル記憶部１８と、第１モデル学習部１０と、第２モデル学習部１９を含む。以下、図２を参照しながら各構成要件の動作について詳細に説明する。

＜音響特徴量抽出部１１＞
入力：音声
出力：各フレームの音響特徴量
処理：音響特徴量抽出部１１は、入力された音声からフレーム毎の音響特徴量を抽出する（Ｓ１１）。音響特徴量抽出部１１は、例えば非特許文献３に記載の公知の技術により、各フレームの音響特徴量を抽出する。

≪用語の定義：フレーム≫
　入力音声を音響分析する際、分析対象の波形は一定の性質を持つという前提、すなわち分析対象の始めと終わりでその性質が変わらないものであるという前提を置く場合が多い。そのため、分析対象の音声波形を非常に短い時間幅で切り出すことにより、そのごく短い時間幅では音声は同じ特性を持つと言えるようにする。ここでいう時間幅としては、２０～３０ミリ秒と言った値が採用されることが多い。

　上記のように音声を短い時間幅で切り出す際、音響分析結果の急激な変化を避け、音響分析結果を連続的に変化させることを目的に、切り出し位置を時間幅より短い幅でずらすことにより、切り出された音声波形を一部オーバーラップさせ、オーバーラップさせた部分においては共通の音声波形が含まれるようにする。このとき、ずらす時間幅をフレームシフトと呼ぶことが多い。フレームシフトとして、１０～１５ミリ秒といった値が採用されることが多い。非特許文献３のＦｉｇ．１を参照のこと。

＜事後確率計算部１２＞
入力：入力された音声における発話全体の、各フレームの音響特徴量
出力：各フレームの、音響イベント毎の事後確率
処理：事後確率計算部１２は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音響特徴量の音響イベント毎の事後確率を計算する（Ｓ１２）。事後確率計算部１２は、後述する第１モデル学習部１０により事前に学習済みのモデルであって、第１モデル記憶部１７に記憶済みの音響イベント推定モデルに各フレームの音響特徴量を入力し、フレーム毎に音響イベント毎の事後確率を計算して出力する。

　音響イベントの例として、例えば下表がある。

　音響イベントは、音声認識に悪影響を及ぼす（認識精度が劣化する）要因と考えられるクラスである劣化要因クラスと、音声認識に悪影響を及ぼさないと考えられるクラスである非劣化要因クラスの何れかのクラスに予め分類されているものとする。

　上表に示した音響イベントの例において、各音響イベントは以下のように分類される。

　音響イベント推定モデルとして、例えば深層ニューラルネットワーク（DNN:Deep Neural Netword）や畳込みニューラルネットワーク（CNN:Convolutional Neural Network）、混合正規分布（Gaussian Mixture Model）などを用いてもよい。

＜フィルタリング部１３＞
入力：各フレームの、音響イベント毎の事後確率
出力：各フレームの、音響イベント毎の補正事後確率
処理：フィルタリング部１３は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とし、これを出力する（Ｓ１３）。フィルタリング部１３は、事後確率計算部１２で計算された音響イベント毎の事後確率について、イベント毎に時系列フィルタリング処理を行う。

　フィルタリング部１３の具体的手順として、以下のような方法が挙げられる。まず、フィルタリング部１３は、発話区間全体（入力された音声全体）に対し、フィルタ窓を設定する。フィルタ窓は発話区間全体よりも短い時間幅（例えばフレームシフト長の１０倍など）を設定する。次に、フィルタリング部１３は、フィルタ窓に包含されるフレーム毎の事後確率を取得する。上記の例に当てはめれば、１０フレーム分の事後確率＝１０個の事後確率の数値である。フィルタリング部１３は、取得した音響イベント毎の事後確率に対して、時系列フィルタを掛ける。ここで時系列フィルタは、時間方向に重みづけ係数が展開されたフィルタであって、例えば、移動平均フィルタ、メディアンフィルタなどでよい。

　上記方法では、発話区間の最初と最後にフィルタ窓長に満たないフレームが生じる場合がある。その場合はフィルタリング部１３が下記のような処理を実行することにより、フィルタリングができない状態を回避する。
発話の最初：最初のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。
発話の最後：最後のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。

＜音声認識部１４＞
入力：音声
出力：認識スコア付き音声認識結果の集合
処理：音声認識部１４は、入力された音声（Ｓ１１で使用する音声と同じ音声）に対して音声認識を行い、認識スコア付き音声認識結果の集合を生成する（Ｓ１４）。各音声認識結果の各単語には、単語表記、品詞、認識スコア（信頼度、音響スコア、言語スコア）、単語開始時刻、単語終了時刻、が付与されているものとする。

＜音声認識結果特徴量抽出部１５＞
入力：認識スコア付き音声認識結果の集合出力：各フレームの、音声認識結果特徴量
処理：音声認識結果特徴量抽出部１５は、認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力する（Ｓ１５）。なお、単語品詞ベクトルは、単語が継続するフレーム間で同じ値をとる。なお、上述のステップＳ１４、Ｓ１５は、ステップＳ１１～Ｓ１３と並行して実行することができる。

＜劣化要因出力部１６＞
入力１：各フレームの、音響イベント毎の補正事後確率
入力２：各フレームの、音声認識結果特徴量
入力３：各フレームの、音響特徴量
出力１：音声認識精度の主たる劣化要因クラス（のラベル）
出力２：劣化要因クラスが支配的である発話区間情報（開始時刻、終了時刻）
処理：劣化要因出力部１６は、ステップＳ１３において時系列フィルタリング処理された補正事後確率（入力１）と、各フレームの音声認識結果特徴量（入力２）と、各フレームの音響特徴量（入力３）に基づいて、音声認識精度の主たる劣化要因クラス（出力１）と、劣化要因クラスが支配的である発話区間情報（開始時刻、終了時刻）（出力２）をフレームごとに算出して出力する（Ｓ１６）。具体的には劣化要因出力部１６は、後述する第２モデル学習部１９により予め学習しておいたＤＮＮ（Deep Neural Network）やＬＳＴＭ（Long Short-Term Memory）などの統計モデル（以下、音声認識精度劣化要因推定用モデルという）に、入力１、入力２、入力３を連結して入力し（図３参照）、出力される劣化要因クラスの事後確率が最も高いクラスを出力１とする。出力１が所定のフレームに渡り連続して同一クラスである場合に、当該区間の情報を出力２として出力する。

＜第１モデル学習部１０＞
　図４に示すように、第１モデル学習部１０は、事後確率計算部１２が出力する各フレームの、音響イベント毎の事後確率と、これに対応して（例えば人手などで）入力される正解ラベルに基づき、誤差関数によって両者の誤差を測定し、測定された誤差に基づいて音響イベント推定モデルの重みを修正し、音響イベント推定モデルを修正、学習する（Ｓ１０）。ステップＳ１０のモデル学習動作は、ステップＳ１２の前に予め実行されているものとする。

＜第２モデル学習部１９＞
　同図に示すように、第２モデル学習部１９は、劣化要因出力部１６の出力と、（例えば人手などで）入力される正解ラベルに基づき、誤差関数によって両者の誤差を測定し、測定された誤差に基づいて音声認識精度劣化要因推定用モデルに設定される重みを修正し、音声認識精度劣化要因推定用モデルを修正、学習する（Ｓ１９）。ステップＳ１９のモデル学習動作は、ステップＳ１６の前に予め実行されているものとする。図３に、音声認識精度劣化要因推定用モデルの構造例を示す。

＜効果＞
　本実施例の音声認識精度劣化要因推定装置１は、音声認識精度が劣化する要因を音声の特徴から推定したため、次のような効果を奏する。１）音声認識結果のスコアを考慮することにより、推定された精度劣化要因の信頼性を評価することができ、より妥当な劣化要因を提示することができる。２）劣化要因をユーザに提示することにより、再度音声を発声した場合の音声認識の正答率の向上が期待できる。３）音声認識誤りが含まれると推定される結果を除外することにより、音声認識結果を用いた検索等の精度向上が期待できる。

＜補記＞
　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　入力された音声からフレーム毎の音響特徴量を抽出する音響特徴量抽出部と、
　劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の前記音響特徴量の前記音響イベント毎の事後確率を計算する事後確率計算部と、
　前記音響イベント毎の前記事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするフィルタリング部と、
　入力された音声に対して音声認識を行い、認識スコア付き音声認識結果の集合を出力する音声認識部と、
　前記認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに前記認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力する音声認識結果特徴量抽出部と、
　前記補正事後確率と、各フレームの前記音声認識結果特徴量と、各フレームの前記音響特徴量に基づいて、音声認識精度の主たる劣化要因クラスをフレームごとに算出して出力する劣化要因出力部
を含む音声認識精度劣化要因推定装置。
　請求項１に記載の音声認識精度劣化要因推定装置であって、
　前記劣化要因出力部は、
　前記劣化要因クラスに加え、前記劣化要因クラスが支配的である発話区間情報を算出して出力する
音声認識精度劣化要因推定装置。
　音声認識精度劣化要因推定装置が実行する音声認識精度劣化要因推定方法であって、
　入力された音声からフレーム毎の音響特徴量を抽出するステップと、
　劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の前記音響特徴量の前記音響イベント毎の事後確率を計算するステップと、
　前記音響イベント毎の前記事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするステップと、
　入力された音声に対して音声認識を行い、認識スコア付き音声認識結果の集合を出力するステップと、
　前記認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに前記認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力するステップと、
　前記補正事後確率と、各フレームの前記音声認識結果特徴量と、各フレームの前記音響特徴量に基づいて、音声認識精度の主たる劣化要因クラスをフレームごとに算出して出力するステップ
を含む音声認識精度劣化要因推定方法。
　請求項３に記載の音声認識精度劣化要因推定方法であって、
　前記劣化要因クラスに加え、前記劣化要因クラスが支配的である発話区間情報を算出して出力する
音声認識精度劣化要因推定方法。
　コンピュータを請求項１または２に記載の音声認識精度劣化要因推定装置として機能させるプログラム。