JPWO2018134916A1

JPWO2018134916A1 - 音声認識装置

Info

Publication number: JPWO2018134916A1
Application number: JP2018562783A
Authority: JP
Inventors: 裕紀金川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-01-18
Filing date: 2017-01-18
Publication date: 2019-04-11
Anticipated expiration: 2037-01-18
Also published as: WO2018134916A1; JP6532619B2

Abstract

学習実行部（１００）のモデル学習部（１０６）は、学習用ラベルデータ（１０５）を用いて、特徴量とドメインとの関係を示すドメイン判定モデル（１０７）を算出する。判定実行部（２００）では、入力音声データ（２０１）を判定用音声認識部（２０２）で音声認識し、その結果を示すスコア（２０３）を算出する。判定用特徴量変換部（２０４）は、スコア（２０３）の特徴量を算出する。ドメイン判定部（２０５）は、判定用特徴量変換部（２０４）で算出した特徴量に対してドメイン判定モデル（１０７）を用いて、入力音声データがどのドメインの発話であるかを示すドメイン判定結果（２０６）を算出する。

Description

本発明は、入力音声がどのドメインの発話であるかを判定する音声認識装置に関するものである。

住所、名称、電話番号といったカテゴリを示す複数のドメインを認識対象とする音声認識装置において、入力音声がどのドメインかを判定しつつ、所望のドメインの音声認識結果を得るための方法としては次のようなものがあった。すなわち、まず音声認識によってドメイン毎の認識結果を算出し、その後各ドメインの認識結果同士をスコアで比較して最終的な認識結果を得る方法である。例えば、特許文献１に開示された方法では、まず異なるドメイン毎に用意した統計的言語モデルを用いて複数の音声認識システムにて音声認識結果を得る。各ドメインの認識システムにより得た認識結果のうち、どれがその発話のドメインに近いかの信頼度として、音声認識時に得た音響スコアＳ_AMと言語スコアＳ_LMとの加重和によるスコアを用いる。
ｓｃｏｒｅ＝Ｓ_AM＋αＳ_LM

ここでαは音響スコアと言語スコアの影響度合いを制御する係数であり、発話ドメインの誤りが小さくなるよう実験的に決定される。上式のスコアが最大となる認識結果のドメインを最適ドメインと判定し、その認識結果を最適な認識結果として提示する。

国際公開第２０１５／１１８６４５号

上記従来の音声認識装置では、認識時に得たスコア及び認識結果に基づき得たスコアの加重和を取り、そのスコアの大小で最適ドメインを判定していた。しかしながら、加重和における重み係数を経験的に決めなければならないという問題があり、また、発話によっては各ドメイン間でのスコアの差が小さく、スコアの大小だけでは判別が難しいという問題があった。

この発明は、かかる問題を解決するためになされたもので、ドメイン判定精度を向上させ、音声認識精度の向上を図ることのできる音声認識装置を提供することを目的とする。

この発明に係る音声認識装置は、学習用音声データから音声認識結果を示す値である学習用スコアを算出する学習用音声認識部と、学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、入力音声データから音声認識結果を示す値である判定用スコアを算出する判定用音声認識部と、判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、判定用特徴量とドメイン判定モデルとを照合し、入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたものである。

この発明に係る音声認識装置は、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出し、このドメイン判定モデルを用いて入力音声データがどのドメインの発話であるかを判定するようにしたものである。これにより、従来の認識スコアの大小で最適なドメインを決定していた場合よりもドメイン判定精度を向上させ、音声認識性能の向上を図ることができる。

この発明の実施の形態１の音声認識装置を示す構成図である。この発明の実施の形態１の音声認識装置のハードウェア構成図である。この発明の実施の形態１の音声認識装置のドメイン判別モデル学習ステップの流れを示すフローチャートである。この発明の実施の形態１の音声認識装置のスコアから特徴量に変換する手段を示す説明図である。この発明の実施の形態１の音声認識装置のドメイン判別ステップの流れを示すフローチャートである。この発明の実施の形態２の音声認識装置を示す構成図である。この発明の実施の形態２の音声認識装置のドメイン判別モデル学習ステップの流れを示すフローチャートである。この発明の実施の形態２の音声認識装置のスコアから特徴量に変換する手段を示す説明図である。この発明の実施の形態２の音声認識装置のドメイン判別ステップの流れを示すフローチャートである。この発明の実施の形態３の音声認識装置を示す構成図である。この発明の実施の形態３の音声認識装置のドメイン判別モデル学習ステップの流れを示すフローチャートである。この発明の実施の形態３の音声認識装置の特徴量を次元圧縮する手段を示す説明図である。この発明の実施の形態３の音声認識装置のドメイン判別ステップの流れを示すフローチャートである。この発明の実施の形態４の音声認識装置を示す構成図である。この発明の実施の形態４の音声認識装置のドメイン判別モデル学習ステップの流れを示すフローチャートである。この発明の実施の形態４の音声認識装置のドメイン判別ステップの流れを示すフローチャートである。この発明の実施の形態４の音声認識装置の複数のドメイン判定結果を統合する手段を示す説明図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、実施の形態１による音声認識装置の構成図である。本実施の形態による音声認識装置は、図示のように、学習実行部１００と判定実行部２００から構成される。学習実行部１００は、学習用音声認識部１０２、学習用特徴量変換部１０４及びモデル学習部１０６を備え、判定実行部２００は、判定用音声認識部２０２、判定用特徴量変換部２０４及びドメイン判定部２０５を備えている。

学習実行部１００における学習用音声認識部１０２は、学習用音声データ１０１を用いて学習用スコア１０３を算出する処理部である。学習用特徴量変換部１０４は、学習用音声認識部１０２が算出した学習用スコア１０３を学習用特徴量に変換する処理部である。モデル学習部１０６は、学習用特徴量変換部１０４が算出した学習用特徴量と、学習用音声に対応するドメインの学習用ラベルデータ１０５を用いてドメイン判定モデル１０７を算出する処理部である。

判定実行部２００において、判定用音声認識部２０２と判定用特徴量変換部２０４は、それぞれ学習実行部１００と同じものを用いる。すなわち、判定用音声認識部２０２は学習用音声認識部１０２と同様の構成であり、入力音声データ２０１を用いて判定用スコア２０３を算出する処理部である。判定用特徴量変換部２０４は、判定用音声認識部２０２が算出した判定用スコア２０３を用いて判定用特徴量に変換する処理部である。ドメイン判定部２０５は、判定用特徴量変換部２０４により算出した判定用特徴量と、ドメイン判定モデル１０７を用いてドメイン判定結果２０６を算出する処理部である。

図２は、実施の形態１の音声認識装置のハードウェア構成図である。
音声認識装置はコンピュータを用いて実現されており、プロセッサ１、メモリ２、入出力インタフェース（入出力Ｉ／Ｆ）３、バス４を備える。プロセッサ１は、コンピュータとしての演算処理を行う機能部であり、メモリ２は、各種のプログラムや演算結果を記憶し、また、プロセッサ１が演算処理を行う場合の作業領域を構成する記憶部である。入出力インタフェース３は、学習用音声データ１０１や入力音声データ２０１を入力したり、ドメイン判定結果２０６を外部に出力したりする際のインタフェースである。バス４は、プロセッサ１、メモリ２及び入出力インタフェース３を相互に接続するためのバスである。

図１に示す学習用音声認識部１０２、学習用特徴量変換部１０４、モデル学習部１０６、判定用音声認識部２０２、判定用特徴量変換部２０４、ドメイン判定部２０５は、それぞれプロセッサ１がメモリ２に記憶されたプログラムを実行することにより実現されている。また、学習用音声データ１０１、学習用スコア１０３、学習用ラベルデータ１０５、ドメイン判定モデル１０７、入力音声データ２０１、判定用スコア２０３、ドメイン判定結果２０６は、それぞれメモリ２の記憶領域に記憶されている。プロセッサ１及びメモリ２をそれぞれ複数備え、複数のプロセッサ１とメモリ２とが連携して上述した機能を実行するように構成してもよい。

次に、実施の形態１の音声認識装置の動作について説明する。
まず、学習実行部１００が行うドメイン判定モデル学習ステップについて、図３のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声認識部１０２が学習用音声データ１０１に対して音声認識を行って、その学習用スコア１０３を計算する（ステップＳＴ１０１）。ここで、学習用音声認識部１０２は複数の音声認識器Ａ〜Ｃから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア１０３のスコアＡ〜Ｃは各音声認識器Ａ〜Ｃからの１位の認識結果である。学習用スコア１０３の例として、音響スコアや言語スコアが利用可能である。なお、本実施の形態では例として音声認識器をＡ〜Ｃの三つとしているが、ドメイン数に応じて適宜選択可能である。

次に、学習用特徴量変換部１０４は学習用スコア１０３を学習用特徴量に変換する（ステップＳＴ１０２）。具体的に学習用特徴量に変換する方法として、図４に示すように、音響スコアと言語スコアをドメイン毎に並べてベクトル化する方法が考えられる。図４に示す例では２（音響スコア＋言語スコア）×ドメイン数であるため、６次元となる。なお、ベクトル化に必要なスコアは音響スコアと言語スコアに限定されるものではなく、音響スコアと言語スコアを加算したものや、その他学習用音声認識部１０２から得られるものであれば何でもよい。

次に、学習用スコア１０３から変換した学習用特徴量と学習用ラベルデータ１０５を用いてモデル学習部１０６により、ドメイン判定モデル１０７を算出する（ステップＳＴ１０３）。ここで学習用ラベルデータ１０５は学習用音声データ１０１がどのドメインの発話かを定義したものである。モデル学習部１０６は、学習用特徴量変換部１０４により得た学習用特徴量と学習用ラベルデータ１０５を対応付けるようモデルを算出する。ここでモデル学習部１０６が用いる手法として、混合ガウス分布モデルやサポートベクターマシン、ニューラルネットワーク等の統計的手法が利用できる。

このように、学習実行部１００は、学習用音声データ１０１を複数の音声認識器にかけ、得た認識スコアを学習用特徴量に変換し、この学習用特徴量とその発話が何のドメインであるかを示す学習用ラベルデータ１０５を用いることで、認識スコアの出方とドメインの対応を統計的機械学習の枠組みでモデル化するようにしたものである。

次に、判定実行部２００が行うドメイン判定ステップについて、図５のフローチャートを用いて説明する。
判定ステップでは、まず入力音声データ２０１から判定用音声認識部２０２により判定用スコア２０３を計算する（ステップＳＴ１１１）。ここで、判定用音声認識部２０２における各音声認識部は学習ステップと同じ音声認識部を使用する。判定用スコア２０３のスコアＡ〜Ｃは各音声認識器から１位の認識結果である。

次に、判定用スコア２０３を判定用特徴量変換部２０４により、判定用特徴量に変換する（ステップＳＴ１１２）。判定用特徴量変換部２０４には学習ステップと同じ特徴量変換部を使用する。

次に、判定用スコア２０３から判定用特徴量変換部２０４により生成した判定用特徴量と、ドメイン判定モデル１０７をドメイン判定部２０５に入力し、ドメイン判定結果２０６を算出する（ステップＳＴ１１３）。ドメイン判定部２０５は、学習ステップにおけるモデル学習部１０６と同様の統計的手法を用いる。ドメイン判定部２０５は、判定用特徴量とドメイン判定モデル１０７を照合し、生起確率が最も高いドメインを選択し、選択したドメイン及びそのドメインに対応する音声認識結果をドメイン判定結果２０６とする。

以上説明したように、実施の形態１の音声認識装置によれば、学習用音声データから音声認識結果を示す値である学習用スコアを算出する学習用音声認識部と、学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、入力音声データから音声認識結果を示す値である判定用スコアを算出する判定用音声認識部と、判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、判定用特徴量とドメイン判定モデルとを照合し、入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたので、事前に音声認識のスコアの傾向とドメインを対応づけて学習しておくことが可能となり、入力音声データから得られるスコアでのドメイン判定方法よりもドメイン判定精度の向上が期待できる。

実施の形態２．
実施の形態２は、学習用音声認識部及び判定用音声認識部の各音声認識器からＮ（Ｎは２以上の整数）ベストの認識結果を生成することで、下位の結果も考慮しドメインを判定する例である。

図６は、本実施の形態による音声認識装置の構成図である。
本実施の形態による音声認識装置は、図示のように、学習実行部１００ａと判定実行部２００ａから構成される。学習実行部１００ａは、学習用音声認識部１０２ａ、学習用特徴量変換部１０４ａ、モデル学習部１０６を備え、判定実行部２００ａは、判定用音声認識部２０２ａ、判定用特徴量変換部２０４ａ、ドメイン判定部２０５を備えている。なお、実施の形態１と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。

学習実行部１００ａにおける学習用音声認識部１０２ａは、学習用音声データ１０１を用いて認識結果が上位からＮ個の学習用スコア１０３ａを算出する処理部である。学習用特徴量変換部１０４ａは、学習用音声認識部１０２ａが算出したＮベストの学習用スコア１０３ａを学習用特徴量に変換する処理部である。モデル学習部１０６は、学習用特徴量変換部１０４ａにより算出した学習用特徴量と、学習用音声に対応するドメインのラベルデータである学習用ラベルデータ１０５を用いてドメイン判定モデル１０７を算出する処理部である。

判定実行部２００ａにおいて、判定用音声認識部２０２ａと判定用特徴量変換部２０４ａは、学習実行部１００ａにおける学習用音声認識部１０２ａと学習用特徴量変換部１０４ａと同じ構成を用いる。判定用音声認識部２０２ａは、入力音声データ２０１を用いてＮベストの判定用スコア２０３ａを算出する処理部である。判定用特徴量変換部２０４ａは、判定用音声認識部２０２ａが算出したＮベストの判定用スコア２０３ａを用いて判定用特徴量に変換する処理部である。ドメイン判定部２０５は、判定用特徴量変換部２０４ａにより算出した判定用特徴量と、ドメイン判定モデル１０７を用いてドメイン判定結果２０６を算出する処理部である。

図６に示す学習用音声認識部１０２ａ、学習用特徴量変換部１０４ａ、モデル学習部１０６、判定用音声認識部２０２ａ、判定用特徴量変換部２０４ａ及びドメイン判定部２０５は、それぞれ図２に示すプロセッサ１がメモリ２に記憶されたプログラムを実行することにより実現されている。また、学習用音声データ１０１、学習用スコア１０３ａ、学習用ラベルデータ１０５、ドメイン判定モデル１０７、入力音声データ２０１、判定用スコア２０３ａ、ドメイン判定結果２０６は、それぞれメモリ２の記憶領域に記憶されている。プロセッサ１及びメモリ２をそれぞれ複数備え、複数のプロセッサ１とメモリ２とが連携して上述した機能を実行するように構成してもよい。

次に、実施の形態２の音声認識装置の動作について説明する。
まず学習実行部１００ａが行うドメイン判定モデル学習ステップについて、図７のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ１０１から学習用音声認識部１０２ａによりＮベストの学習用スコア１０３ａを計算する（ステップＳＴ２０１）。ここで、学習用音声認識部１０２ａは複数の音声認識器Ａ〜Ｃから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア１０３ａのスコアＡ１〜Ｃ１とスコアＡ２〜Ｃ２は各音声認識器から得られる１位と２位の認識結果である。なお本実施の形態では例として認識器をＡ〜Ｃの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のＮベストの数を変えてもよい。

次に、学習用スコア１０３ａを学習用特徴量変換部１０４ａにより、学習用特徴量に変換する（ステップＳＴ２０２）。具体的に学習用特徴量に変換する方法として、図８のように、音響スコアと言語スコアをドメイン毎にＮベストのスコアを並べてベクトル化する方法が考えられる。図示例では、２（音響スコア＋言語スコア）×ドメイン数×２ベストで１２次元の学習用特徴量に変換した例を示している。ベクトル化に必要なスコアは音響スコアと言語スコアに限定されるものではなく、音響スコアと言語スコアを加算したものや、その他学習用音声認識部１０２ａから得られるものであれば何でもよい。

次に、学習用スコア１０３ａから変換した学習用特徴量と学習用ラベルデータ１０５を用いてモデル学習部１０６により、ドメイン判定モデル１０７を算出する（ステップＳＴ２０３）。ここで学習用ラベルデータ１０５は学習用音声データ１０１がどのドメインの発話かを定義したものである。モデル学習部１０６は、学習用特徴量変換部１０４ａにより得た学習用特徴量と学習用ラベルデータ１０５を対応付けるようドメイン判定モデル１０７を算出する。

次に、判定実行部２００ａが行うドメイン判定ステップについて、図９のフローチャートを用いて説明する。
判定ステップでは、まず入力音声データ２０１から判定用音声認識部２０２ａによりＮベストの判定用スコア２０３ａを計算する（ステップＳＴ２１１）。ここで、判定用音声認識部２０２ａは学習ステップの学習用音声認識部１０２ａと同じ音声認識部を使用する。判定用スコア２０３ａのスコアＡ１〜Ｃ１とスコアＡ２〜Ｃ２は各音声認識器からの１位と２位の認識結果である。

次に判定用スコア２０３ａを判定用特徴量変換部２０４ａにより判定用特徴量に変換する（ステップＳＴ２１２）。判定用特徴量変換部２０４ａは学習ステップの学習用特徴量変換部１０４ａと同じ特徴量変換部を使用する。

次に判定用スコア２０３ａから判定用特徴量変換部２０４ａにより生成した判定用特徴量と、ドメイン判定モデル１０７をドメイン判定部２０５に入力し、ドメイン判定結果２０６を算出する（ステップＳＴ２１３）。ドメイン判定部２０５は、学習ステップにおけるモデル学習部１０６と同じ統計的手法を用いて処理を行う。ドメイン判定部２０５は、判定用特徴量変換部２０４ａにより入力された特徴量とドメイン判定モデル１０７を照合し、生起確率が最も高いドメインを選択し、選択したドメイン及びそのドメインに対応する音声認識結果をドメイン判定結果２０６とする。

以上説明したように、実施の形態２の音声認識装置によれば、学習用音声データからＮ（Ｎは２以上の整数）ベストの音声認識結果を示す値であるＮベストの学習用スコアを算出する学習用音声認識部と、Ｎベストの学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、入力音声データからＮベストの音声認識結果を示す値であるＮベストの判定用スコアを算出する判定用音声認識部と、Ｎベストの判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、判定用特徴量とドメイン判定モデルとを照合し、入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたので、ドメイン判定のための特徴量にＮベストを考慮することができるようになり、実施の形態１の効果に加えて、さらにドメイン判定精度の向上が期待できる。

実施の形態３．
実施の形態３は、実施の形態２の構成に加えて、特徴量の次元圧縮を行うようにしたものである。

図１０は、本実施の形態による音声認識装置の構成図である。
本実施の形態による音声認識装置は、図示のように、学習実行部１００ｂと判定実行部２００ｂから構成される。学習実行部１００ｂは、学習用音声認識部１０２ａ、学習用特徴量変換部１０４ａ、次元圧縮行列推定部１０８、学習用次元圧縮部１１０、モデル学習部１０６を備え、判定実行部２００ｂは、判定用音声認識部２０２ａ、判定用特徴量変換部２０４ａ、判定用次元圧縮部２０７、ドメイン判定部２０５を備えている。なお、実施の形態２と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。

学習実行部１００ｂにおける次元圧縮行列推定部１０８は、学習用特徴量変換部１０４ａから算出した学習用特徴量と学習用ラベルデータ１０５を用いて次元圧縮行列１０９を算出する処理部である。学習用次元圧縮部１１０は、学習用特徴量変換部１０４ａから算出した学習用特徴量に次元圧縮行列１０９を乗算し、学習用特徴量の次元を圧縮する処理部である。モデル学習部１０６は、学習用次元圧縮部１１０により圧縮した学習用特徴量と学習用ラベルデータ１０５とを用いてドメイン判定モデル１０７を算出する処理部である。

判定実行部２００ｂにおいて、判定用音声認識部２０２ａと判定用特徴量変換部２０４ａは、学習実行部１００ｂの学習用音声認識部１０２ａと学習用特徴量変換部１０４ａと同じ構成を用いる。判定用次元圧縮部２０７は、判定用特徴量変換部２０４ａから算出した判定用特徴量に次元圧縮行列１０９を乗算し、判定用特徴量の次元を圧縮する処理部である。ここで次元圧縮行列１０９とは、多次元の特徴量の次元圧縮を行うための行列データである。ドメイン判定部２０５は、判定用次元圧縮部２０７により算出した判定用特徴量と、ドメイン判定モデル１０７を用いてドメイン判定結果２０６を算出する処理部である。

図１０に示す学習用音声認識部１０２ａ、学習用特徴量変換部１０４ａ、モデル学習部１０６、次元圧縮行列推定部１０８、学習用次元圧縮部１１０、判定用音声認識部２０２ａ、判定用特徴量変換部２０４ａ、判定用次元圧縮部２０７及びドメイン判定部２０５は、それぞれプロセッサ１がメモリ２に記憶されたプログラムを実行することにより実現されている。また、学習用音声データ１０１、学習用スコア１０３ａ、学習用ラベルデータ１０５、ドメイン判定モデル１０７、次元圧縮行列１０９、入力音声データ２０１、判定用スコア２０３ａ、ドメイン判定結果２０６は、それぞれメモリ２の記憶領域に記憶されている。プロセッサ１及びメモリ２をそれぞれ複数備え、複数のプロセッサ１とメモリ２とが連携して上述した機能を実行するように構成してもよい。

次に、実施の形態３の音声認識装置の動作について説明する。
まず学習実行部１００ｂが行うドメイン判定モデル学習ステップについて、図１１のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ１０１から学習用音声認識部１０２ａにより学習用スコア１０３ａを計算する（ステップＳＴ３０１）。ここで、学習用音声認識部１０２ａは複数の音声認識器Ａ〜Ｃから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア１０３ａのスコアＡ１〜Ｃ１とスコアＡ２〜Ｃ２は各音声認識器から得られる１位と２位の認識結果である。なお本実施の形態では例として認識器をＡ〜Ｃの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のＮベストの数を変えてもよい。

次に学習用スコア１０３ａを学習用特徴量変換部１０４ａにより、学習用特徴量に変換する（ステップＳＴ３０２）。具体的に学習用特徴量に変換する方法として、実施の形態２と同様、図８のように音響スコアと言語スコアをドメイン毎にＮベストのスコアを並べてベクトル化する方法が考えられる。ベクトル化に必要なスコアは音響スコアと言語スコアに限定されるものではなく、音響スコアと言語スコアを加算したものや、その他学習用音声認識部１０２ａから得られるものであれば何でもよい。

次に、学習用スコア１０３ａから変換した学習用特徴量と学習用ラベルデータ１０５を用いて次元圧縮行列推定部１０８により、次元圧縮行列１０９を推定する（ステップＳＴ３０３）。具体的には図１２のように、Ｎベストのスコアから得た特徴量ベクトルに対して、線形判別分析（ＬＤＡ：ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ）や不等分散判別分析（ＨＤＡ：ＨｅｔｅｒｏｓｃｅｄａｓｔｉｃＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ）などの次元圧縮方法を用いて行列を算出する。次元圧縮の利点として、ＬＤＡやＨＤＡのような教師付きの手法では、識別に適した特徴量を生成できること、また混合ガウス分布でモデル化する場合ではモデルパラメータの数の削減が挙げられる。

次に、次元圧縮行列推定部１０８により算出した次元圧縮行列１０９と、学習用スコア１０３ａから変換した学習用特徴量を用いて、学習用次元圧縮部１１０により、学習用スコア１０３ａから変換した学習用特徴量を次元圧縮する（ステップＳＴ３０４）。次元圧縮とは、図１２に示すように、Ｎベストのスコアから得た特徴量に次元圧縮行列１０９を乗算することにより、低次のベクトル特徴量に変換することである。なお、図１２の例では１位から３位までの認識結果を得た場合を示している。

次に、学習用次元圧縮部１１０により次元圧縮された学習用特徴量と学習用ラベルデータ１０５を用いてモデル学習部１０６により、ドメイン判定モデル１０７を学習する（ステップＳＴ３０５）。モデル学習部１０６は、学習用次元圧縮部１１０により次元圧縮された学習用特徴量と学習用ラベルデータ１０５を対応付けるようモデルを算出する。

次に、判定実行部２００ｂが行うドメイン判定ステップについて、図１３のフローチャートを用いて説明する。
判定ステップでは、まず入力音声データ２０１から判定用音声認識部２０２ａにより判定用スコア２０３ａを計算する（ステップＳＴ３１１）。ここで、判定用音声認識部２０２ａは学習ステップの学習用音声認識部１０２ａと同じ音声認識部を使用する。判定用スコア２０３ａのスコアＡ１〜Ｃ１とスコアＡ２〜Ｃ２は各音声認識器からの１位と２位の認識結果である。

次に判定用スコア２０３ａを判定用特徴量変換部２０４ａにより、判定用特徴量に変換する（ステップＳＴ３１２）。判定用特徴量変換部２０４ａには学習ステップにおける学習用特徴量変換部１０４ａと同じ構成を使用する。

次に、次元圧縮行列推定部１０８により算出した次元圧縮行列１０９と、判定用スコア２０３ａから変換した判定用特徴量を用いて、判定用次元圧縮部２０７により、判定用スコア２０３ａから変換した判定用特徴量を次元圧縮する（ステップＳＴ３１３）。次元圧縮は学習実行部１００ｂの学習用次元圧縮部１１０と同様に、図１２に示すように、Ｎベストのスコアから得た特徴量に次元圧縮行列１０９を乗算することにより、低次のベクトル特徴量に変換する。

次に、ドメイン判定部２０５により、判定用次元圧縮部２０７により次元圧縮された特徴量と、ドメイン判定モデル１０７から、ドメイン判定結果２０６を得る（ステップＳＴ３１４）。ドメイン判定部２０５は、学習ステップと同じ統計的手法を用いて処理を行う。ドメイン判定部２０５は、判定用次元圧縮部２０７により次元圧縮された判定用特徴量とドメイン判定モデル１０７を照合し、生起確率が最も高いドメインを選択し、選択したドメイン及びそのドメインに対応する音声認識結果をドメイン判定結果２０６とする。

以上説明したように、実施の形態３の音声認識装置によれば、学習用音声データからＮ（Ｎは２以上の整数）ベストの音声認識結果を示す値であるＮベストの学習用スコアを算出する学習用音声認識部と、Ｎベストの学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、学習用特徴量の次元を圧縮するための次元圧縮行列を推定する次元圧縮行列推定部と、学習用特徴量と次元圧縮行列とを用いて、学習用特徴量の次元を圧縮する学習用次元圧縮部と、学習用次元圧縮部で圧縮された学習用特徴量と、学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、入力音声データからＮベストの音声認識結果を示す値であるＮベストの判定用スコアを算出する判定用音声認識部と、Ｎベストの判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、判定用特徴量と、次元圧縮行列とを用いて、判定用特徴量の次元を圧縮する判定用次元圧縮部と、判定用次元圧縮部で圧縮された判定用特徴量とドメイン判定モデルとを照合し、入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたので、実施の形態２の効果に加えて、特徴量を低次元に圧縮することで、識別に適した特徴量を扱えることができると共に、モデルの種類によってはモデルパラメータ数を削減することができる。

また、実施の形態３の音声認識装置によれば、次元圧縮行列推定部は、特徴量と教師ラベルを入力とし、特徴量の次元を低次元に変換する行列を出力するようにしたので、識別に適した特徴量を生成することができる。

実施の形態４．
実施の形態４は、Ｎ（Ｎは２以上の整数）ベストの認識結果を生成すると共に、Ｎベスト毎にドメイン判定モデルを生成するようにした例である。

図１４は、本実施の形態による音声認識装置の構成図である。
本実施の形態による音声認識装置は、図示のように、学習実行部１００ｃと判定実行部２００ｃから構成される。学習実行部１００ｃは、学習用音声認識部１０２ａ、第１の学習用特徴量変換部１０４ｂ及び第２の学習用特徴量変換部１０４ｃ、第１のモデル学習部１０６ａ及び第２のモデル学習部１０６ｂを備え、判定実行部２００ｃは、判定用音声認識部２０２ａ、第１の判定用特徴量変換部２０４ｂ及び第２の判定用特徴量変換部２０４ｃ、第１のドメイン判定部２０５ａ及び第２のドメイン判定部２０５ｂ、ドメイン確定部２０８を備えている。なお、実施の形態２と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。

第１の学習用特徴量変換部１０４ｂと第２の学習用特徴量変換部１０４ｃは、それぞれ実施の形態１の学習用特徴量変換部１０４と同様の構成であり、学習用音声認識部１０２が算出した学習用スコア１０３ａを学習用特徴量に変換する処理部である。ただし、第１の学習用特徴量変換部１０４ｂは認識結果が１位のスコアＡ１〜Ｃ１を、第２の学習用特徴量変換部１０４ｃは認識結果が２位のスコアＡ２〜Ｃ２を特徴量に変換するよう構成されている。第１のモデル学習部１０６ａと第２のモデル学習部１０６ｂは、それぞれ実施の形態１のモデル学習部１０６と同様の構成である。ただし、第１のモデル学習部１０６ａが、第１の学習用特徴量変換部１０４ｂで算出した学習用特徴量と学習用ラベルデータ１０５とを用いて第１のドメイン判定モデル１０７ａを算出し、第２のモデル学習部１０６ｂが、第２の学習用特徴量変換部１０４ｃで算出した学習用特徴量と学習用ラベルデータ１０５とを用いて第２のドメイン判定モデル１０７ｂを算出するよう構成されている。なお、図示例では、Ｎベスト毎の構成としてＮ＝２の場合を示しているが、Ｎは任意の値に適用可能である。

判定実行部２００ｃにおいて、判定用音声認識部２０２ａと第１の判定用特徴量変換部２０４ｂ及び第２の判定用特徴量変換部２０４ｃは、学習実行部１００ｃにおける学習用音声認識部１０２ａと第１の学習用特徴量変換部１０４ｂ及び第２の学習用特徴量変換部１０４ｃと同じ構成を用いる。第１のドメイン判定部２０５ａは、第１の判定用特徴量変換部２０４ｂで算出した判定用特徴量と第１のドメイン判定モデル１０７ａとを用いて、第１のドメイン判定結果２０６ａを算出する処理部である。第２のドメイン判定部２０５ｂは、第２の判定用特徴量変換部２０４ｃで算出した判定用特徴量と第２のドメイン判定モデル１０７ｂとを用いて、第２のドメイン判定結果２０６ｂを算出する処理部である。ドメイン確定部２０８は第１のドメイン判定結果２０６ａ及び第２のドメイン判定結果２０６ｂを用いてドメイン最終判定結果２０９を算出する処理部である。なお、図示例の学習実行部１００ｃ及び判定実行部２００ｃでは、Ｎベスト毎の構成としてＮ＝２の場合を示しているが、Ｎは任意の値に適用可能である。

図１４に示す学習用音声認識部１０２ａ、第１の学習用特徴量変換部１０４ｂ及び第２の学習用特徴量変換部１０４ｃ、第１のモデル学習部１０６ａ及び第２のモデル学習部１０６ｂ、判定用音声認識部２０２ａ、第１の判定用特徴量変換部２０４ｂ及び第２の判定用特徴量変換部２０４ｃ、第１のドメイン判定部２０５ａ及び第２のドメイン判定部２０５ｂ、ドメイン確定部２０８は、それぞれ図２に示したプロセッサ１がメモリ２に記憶されたプログラムを実行することにより実現されている。また、学習用音声データ１０１、学習用スコア１０３ａ、学習用ラベルデータ１０５、ドメイン判定モデル１０７、入力音声データ２０１、判定用スコア２０３ａ、ドメイン判定結果２０６、ドメイン最終判定結果２０９は、それぞれメモリ２の記憶領域に記憶されている。プロセッサ１及びメモリ２をそれぞれ複数備え、複数のプロセッサ１とメモリ２とが連携して上述した機能を実行するように構成してもよい。

次に、実施の形態４の音声認識装置の動作について説明する。
まず学習実行部１００ｃが行うドメイン判定モデル学習ステップについて、図１５のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ１０１から学習用音声認識部１０２ａによりＮベストの学習用スコア１０３ａを計算する（ステップＳＴ４０１）。ここで、学習用音声認識部１０２ａは複数の音声認識器Ａ〜Ｃから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア１０３ａのスコアＡ１〜Ｃ１とスコアＡ２〜Ｃ２は各音声認識器から得られる１位と２位の認識結果である。なお本実施の形態では例として認識器をＡ〜Ｃの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のＮベストの数を変えてもよい。

次に学習用スコア１０３ａをＮベスト毎に、第１の学習用特徴量変換部１０４ｂ及び第２の学習用特徴量変換部１０４ｃにより、それぞれの学習用特徴量に変換する（ステップＳＴ４０２）。具体的に学習用特徴量に変換する方法として、図４に示したように、音響スコアと言語スコアをドメイン毎にＮベストのスコアを並べてベクトル化する方法が考えられる。ベクトル化に必要なスコアは音響スコアと言語スコアに限定されるものではなく、音響スコアと言語スコアを加算したものや、その他、学習用音声認識部１０２ａから得られるものであれば何でもよい。

次に、学習用スコア１０３ａから変換したそれぞれの学習用特徴量と学習用ラベルデータ１０５を用いて第１のモデル学習部１０６ａ及び第２のモデル学習部１０６ｂにより、Ｎベスト毎に、第１のドメイン判定モデル１０７ａ及び第２のドメイン判定モデル１０７ｂを得る（ステップＳＴ４０３）。すなわち、それぞれの第１のモデル学習部１０６ａ及び第２のモデル学習部１０６ｂは、第１の学習用特徴量変換部１０４ｂ及び第２の学習用特徴量変換部１０４ｃにより得た学習用特徴量と学習用ラベルデータ１０５を対応付けるようモデルを算出する。

次に、判定実行部２００ｃが行うドメイン判定ステップについて、図１６のフローチャートを用いて説明する。
判定ステップでは、まず入力音声データ２０１から判定用音声認識部２０２ａによりＮベストの判定用スコア２０３ａを計算する（ステップＳＴ４１１）。ここで、判定用音声認識部２０２ａは学習ステップの学習用音声認識部１０２ａと同じ音声認識部を使用する。判定用スコア２０３ａのスコアＡ１〜Ｃ１とスコアＡ２〜Ｃ２は各音声認識器からの１位と２位の認識結果である。

次に、判定用スコア２０３ａを第１の判定用特徴量変換部２０４ｂ及び第２の判定用特徴量変換部２０４ｃにより、Ｎベスト毎に判定用特徴量に変換する（ステップＳＴ４１２）。第１の判定用特徴量変換部２０４ｂ及び第２の判定用特徴量変換部２０４ｃは、学習ステップの第１の学習用特徴量変換部１０４ｂ及び第２の学習用特徴量変換部１０４ｃと同じ特徴量変換部を使用する。

次に、第１のドメイン判定部２０５ａ及び第２のドメイン判定部２０５ｂは、Ｎベスト毎に第１の判定用特徴量変換部２０４ｂ及び第２の判定用特徴量変換部２０４ｃにより生成したそれぞれの判定用特徴量と、第１のドメイン判定モデル１０７ａ及び第２のドメイン判定モデル１０７ｂを取得して、Ｎベスト個のドメイン判定結果（第１のドメイン判定結果２０６ａ及び第２のドメイン判定結果２０６ｂ）を得る（ステップＳＴ４１３）。第１のドメイン判定部２０５ａ及び第２のドメイン判定部２０５ｂは、学習ステップにおける第１のモデル学習部１０６ａ及び第２のモデル学習部１０６ｂと同様の統計的手法を用いる。第１のドメイン判定部２０５ａ及び第２のドメイン判定部２０５ｂは、第１の判定用特徴量変換部２０４ｂ及び第２の判定用特徴量変換部２０４ｃにより生成された判定用特徴量と第１のドメイン判定モデル１０７ａ及び第２のドメイン判定モデル１０７ｂをそれぞれ照合し、生起確率が最も高いドメインを出力し、ドメイン及びそのドメインに対応する認識結果を第１のドメイン判定結果２０６ａ及び第２のドメイン判定結果２０６ｂとする。

次に、ドメイン確定部２０８は、Ｎベスト個のドメイン判定結果（第１のドメイン判定結果２０６ａ及び第２のドメイン判定結果２０６ｂ）からドメイン最終判定結果２０９を得る（ステップＳＴ４１４）。ここでドメインの確定方法には、図１７のようにＮベスト個のドメイン判定結果の単純な多数決を用いる方法や、各ドメイン判定結果の順位に応じて重みをかけて多数決をとるなどの方法が利用できる。なお、図１７の例では１位から３位までの認識結果を得た場合を示している。

このように、実施の形態４では、実施の形態２とは異なり、Ｎベスト毎にモデルを生成するため、任意の順位のスコアの出方をモデル化することができ、特徴量の次元数の増加を抑えることができる。また、Ｎベストのドメインの判定結果を多数決などの方法で統合することにより、上位の認識結果のみに依存するのを抑制することができる。

以上説明したように、実施の形態４の音声認識装置によれば、学習用音声データからＮ（Ｎは２以上の整数）ベストの音声認識結果を示す値であるＮベストの学習用スコアを算出する学習用音声認識部と、Ｎベストの学習用スコアをＮベスト毎に学習用特徴量に変換する学習用特徴量変換部と、Ｎベスト毎の学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルをＮベスト毎に算出するモデル学習部と、入力音声データからＮベストの音声認識結果を示す値であるＮベストの判定用スコアを算出する判定用音声認識部と、Ｎベストの判定用スコアをＮベスト毎に判定用特徴量に変換する判定用特徴量変換部と、Ｎベスト毎の判定用特徴量とＮベスト毎のドメイン判定モデルとを照合し、Ｎベスト毎のドメイン判定結果を算出するドメイン判定部と、Ｎベスト毎のドメイン判定結果を用いて、入力音声データがどのドメインの発話であるかを示すドメイン最終判定結果を算出するドメイン確定部とを備えたので、ドメイン判定のための特徴量にＮベストを考慮することができるようになり、実施の形態１の効果に加えて、ドメイン判定精度の向上が期待できる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

以上のように、この発明に係る音声認識装置は、入力音声がどのドメインの発話であるかを判定する構成に関するものであり、ナビゲーション装置や家電製品などに適用し、音声認識性能の向上に用いるのに適している。

１００，１００ａ，１００ｂ，１００ｃ学習実行部、１０１学習用音声データ、１０２，１０２ａ学習用音声認識部、１０３，１０３ａ学習用スコア、１０４，１０４ａ学習用特徴量変換部、１０４ｂ第１の学習用特徴量変換部、１０４ｃ第２の学習用特徴量変換部、１０５学習用ラベルデータ、１０６モデル学習部、１０６ａ第１のモデル学習部、１０６ｂ第２のモデル学習部、１０７ドメイン判定モデル、１０７ａ第１のドメイン判定モデル、１０７ｂ第２のドメイン判定モデル、１０８次元圧縮行列推定部、１０９次元圧縮行列、１１０学習用次元圧縮部、２００，２００ａ，２００ｂ，２００ｃ判定実行部、２０１入力音声データ、２０２，２０２ａ判定用音声認識部、２０３，２０３ａ判定用スコア、２０４，２０４ａ判定用特徴量変換部、２０４ｂ第１の判定用特徴量変換部、２０４ｃ第２の判定用特徴量変換部、２０５ドメイン判定部、２０５ａ第１のドメイン判定部、２０５ｂ第２のドメイン判定部、２０６ドメイン判定結果、２０６ａ第１のドメイン判定結果、２０６ｂ第２のドメイン判定結果、２０７判定用次元圧縮部、２０８ドメイン確定部、２０９ドメイン最終判定結果。

Claims

学習用音声データから音声認識結果を示す値である学習用スコアを算出する学習用音声認識部と、
前記学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、
前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
入力音声データから音声認識結果を示す値である判定用スコアを算出する判定用音声認識部と、
前記判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、
前記判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。
学習用音声データからＮ（Ｎは２以上の整数）ベストの音声認識結果を示す値であるＮベストの学習用スコアを算出する学習用音声認識部と、
前記Ｎベストの学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、
前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
入力音声データからＮベストの音声認識結果を示す値であるＮベストの判定用スコアを算出する判定用音声認識部と、
前記Ｎベストの判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、
前記判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。
学習用音声データからＮ（Ｎは２以上の整数）ベストの音声認識結果を示す値であるＮベストの学習用スコアを算出する学習用音声認識部と、
前記Ｎベストの学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、
前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、前記学習用特徴量の次元を圧縮するための次元圧縮行列を推定する次元圧縮行列推定部と、
前記学習用特徴量と前記次元圧縮行列とを用いて、前記学習用特徴量の次元を圧縮する学習用次元圧縮部と、
前記学習用次元圧縮部で圧縮された学習用特徴量と、前記学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
入力音声データからＮベストの音声認識結果を示す値であるＮベストの判定用スコアを算出する判定用音声認識部と、
前記Ｎベストの判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、
前記判定用特徴量と、前記次元圧縮行列とを用いて、前記判定用特徴量の次元を圧縮する判定用次元圧縮部と、
前記判定用次元圧縮部で圧縮された判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。
前記次元圧縮行列推定部は、特徴量と教師ラベルを入力とし、特徴量の次元を低次元に変換する行列を出力することを特徴とする請求項３記載の音声認識装置。
学習用音声データからＮ（Ｎは２以上の整数）ベストの音声認識結果を示す値であるＮベストの学習用スコアを算出する学習用音声認識部と、
前記Ｎベストの学習用スコアを前記Ｎベスト毎に学習用特徴量に変換する学習用特徴量変換部と、
前記Ｎベスト毎の学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを前記Ｎベスト毎に算出するモデル学習部と、
入力音声データからＮベストの音声認識結果を示す値であるＮベストの判定用スコアを算出する判定用音声認識部と、
前記Ｎベストの判定用スコアをＮベスト毎に判定用特徴量に変換する判定用特徴量変換部と、
前記Ｎベスト毎の判定用特徴量と前記Ｎベスト毎のドメイン判定モデルとを照合し、Ｎベスト毎のドメイン判定結果を算出するドメイン判定部と、
前記Ｎベスト毎のドメイン判定結果を用いて、前記入力音声データがどのドメインの発話であるかを示すドメイン最終判定結果を算出するドメイン確定部とを備えたことを特徴とする音声認識装置。