JPWO2018029777A1

JPWO2018029777A1 - 話者適応化装置、音声認識装置および音声認識方法

Info

Publication number: JPWO2018029777A1
Application number: JP2018506628A
Authority: JP
Inventors: 勇気太刀岡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-08-09
Filing date: 2016-08-09
Publication date: 2018-08-09
Anticipated expiration: 2036-08-09
Also published as: JP6324647B1; WO2018029777A1

Abstract

適応化部（７）は、誤差算出部（６）に算出された誤差が減少するようにＤＮＮ（５）におけるノード間の接続重みを示す重み行列の重みを、学習話者数（Ｎ）ごとに、または学習話者数（Ｎ）ごとかつ話者適応層（５−３）の出力（ｘ_ｏｕｔ）の次元数（Ｄ_ｏｕｔ）ごとに算出する。

Description

この発明は、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（以下、ＤＮＮと記載する）を用いた音響モデルを話者に適応させる話者適応化装置、これを用いた音声認識装置および音声認識方法に関する。

音声認識では、話者に音響モデルを適応化させることで認識性能が向上する。例えば、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（以下、ＨＭＭと記載する）を用いた音声認識では、音響特徴量の出力確率分布としてＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（以下、ＧＭＭと記載する）が広く利用されている（非特許文献１参照）。ＧＭＭでは、最尤基準に基づいてモデルパラメータを学習することで、モデルパラメータを話者に適応させている。ただし、音声認識の精度をさらに向上させるため、ＨＭＭを用いた音声認識において、ＧＭＭの代わりにＤＮＮを用いることが提案されている。

ＤＮＮを用いた話者適応の手法として、例えば、特許文献１および非特許文献３に記載される適応方法が挙げられる。この適応方法では、ＤＮＮにおける複数のレイヤのうちの特定のレイヤを話者適応層としている。
また、非特許文献２には、ｉ−ベクトルといった補助特徴量を用いてＤＮＮを話者適応する技術が記載されている。

特開２０１５−１０２８０６号公報

ＭＪＦＧａｌｅｓ， " ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＴｒａｎｓｆｏｒｍａｔｉｏｎｓｆｏｒＨＭＭ−ｂａｓｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ "，ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，１２，７５−９８，１９９８．Ｍ．Ｄｅｌｃｒｏｉｘ，Ｋ．Ｋｉｎｏｓｈｉｔａ，Ｔ．Ｈｏｒｉ，ａｎｄＴ．Ｎａｋａｔａｎｉ， " ＣｏｎｔｅｘｔＡｄａｐｔｉｖｅＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＦａｓｔＡｃｏｕｓｔｉｃＭｏｄｅｌＡｄａｐｔａｔｉｏｎ "，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＡＳＳＰ，４５３５−４５３９，２０１５．Ｔ．Ｏｃｈｉａｉ，Ｓ．Ｍａｔｓｕｄａ，Ｈ．Ｗａｔａｎａｂｅ，Ｘ．Ｌｕ，Ｃ．Ｈｏｒｉ，ａｎｄＳ．Ｋａｔａｇｉｒｉ， " ＳｐｅａｋｅｒＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇｆｏｒＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓＥｍｂｅｄｄｉｎｇＬｉｎｅａｒＴｒａｎｓｆｏｒｍａｔｉｏｎＮｅｔｗｏｒｋｓ "，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＡＳＳＰ，４６０５−４６０９，２０１５．

特許文献１および非特許文献３に記載される適応方法は、適応データを大量に利用する場合は有効であるが、通常は、それほど多くの適応データを利用することは難しい。

また、非特許文献２に記載される適応方法では、補助特徴量を利用することから、話者適応における演算量が多く、補助特徴量の精度によって話者適応の精度が大きく変化するという課題があった。

この発明は上記課題を解決するもので、補助特徴量を利用することなく、適応データを大量に用いなくても、適切にＤＮＮの話者適応を行うことができる話者適応化装置、音声認識装置および音声認識方法を得ることを目的とする。

この発明に係る話者適応化装置は、誤差算出部と第１の適応化部とを備える。誤差算出部は、入力層、出力層および入力層と出力層との間にある１層以上の中間層を有し、１層以上の中間層のいずれかに話者適応層があるＤＮＮにおける出力層の出力データと教師データとの誤差を算出する。第１の適応化部は、学習話者の学習データから求められたＤＮＮにおけるノード間の接続重みを示す重み行列を入力して、誤差算出部により算出された誤差が減少するように、話者適応層における重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ話者適応層の出力の次元数ごとに算出する。

この発明によれば、ＤＮＮの出力層の出力データと教師データとの誤差が減少するように話者適応層におけるノード間の接続重みを示す重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ話者適応層の出力の次元数ごとに算出している。従って、補助特徴量を利用せずにＤＮＮの話者適応が可能である。また、適応データを大量に用いなくても適切にＤＮＮの話者適応を行うことができる。

この発明の実施の形態１に係る音声認識装置の構成例を示すブロック図である。実施の形態１に係る話者適応化装置およびＤＮＮの構成例を示すブロック図である。図３Ａは、実施の形態１に係る話者適応化装置の機能を実現するハードウェア構成を示すブロック図である。図３Ｂは、実施の形態１に係る話者適応化装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。実施の形態１に係る音声認識装置の動作を示すフローチャートである。ＤＮＮの出力例を示す図である。この発明の実施の形態２に係る音声認識装置の構成例を示すブロック図である。実施の形態２に係る話者適応化装置およびＤＮＮの構成例を示すブロック図である。実施の形態２に係る音声認識装置の動作を示すフローチャートである。この発明の実施の形態３におけるＤＮＮの構成例を示す図である。実施の形態３に係る話者適応化装置の動作の一部を示すフローチャートである。この発明の実施の形態４に係る話者適応化装置およびＤＮＮの構成例を示すブロック図である。この発明の実施の形態５に係る話者適応化装置およびＤＮＮの構成例を示すブロック図である。

以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音声認識装置１の構成例を示すブロック図である。また、図２は、話者適応化装置４およびＤＮＮ５の構成例を示すブロック図である。
音声認識装置１は、図１に示すように、特徴量抽出部２、音声認識部３ａ，３ｂ、話者適応化装置４およびＤＮＮ５を備える。また、話者適応化装置４は、図２に示すように、誤差算出部６、適応化部７および記憶部８を備える。

特徴量抽出部２は、不図示のマイクで集音された話者音声を入力し、入力した話者音声から音声の特徴量を抽出する。例えば、特徴量抽出部２は、話者音声に対して音響特徴量分析を施すことにより、特徴ベクトルの時系列を特徴量として抽出する。
音声認識部３ａは、特徴量抽出部２により抽出された音声の特徴量に基づいて話者音声の音声認識を行い、この音声認識結果に基づいてアライメント情報を求める。
なお、アライメント情報とは、時系列の音声認識が得られたときに、各時刻とその時刻とにおけるＨＭＭの状態（状態番号）である。

音声認識部３ｂは、適応対象話者に適応されたＤＮＮ５を用いて話者音声の音声認識を行う。この音声認識部３ｂにより得られた認識結果が、最終的な音声認識結果として後段の出力装置に出力される。
なお、図１では、音声認識部３ａと音声認識部３ｂとを別々に設けた構成を示したが、音声認識部を１つとし、この音声認識部に双方の機能を持たせてもよい。

話者適応化装置４は、音声認識部３ａから入力したアライメント情報に基づいて、ＤＮＮ５を適応対象話者に適応させる。
ＤＮＮ５は、多数の層を有するニューラルネットワークであり、入力層５−１、出力層５−５、および入力層５−１と出力層５−５との間に設けられた１層以上の中間層５−２〜５−４を有する。

入力層５−１は、ＤＮＮ５で最初に情報が入力される層であって、複数の入力ノードを有する。出力層５−５は、認識対象の数の出力ノードを有する層である。中間層５−２〜５−４は、それぞれが複数のノードを有しており、これらのいずれか１つの層が話者適応のための中間層となる。図２の例では、中間層５−２と中間層５−４との間にある中間層が話者適応層５−３となっている。

誤差算出部６は、ＤＮＮ５における出力層５−５の出力データと教師データとの誤差を算出する。例えば、誤差算出部６は、音声認識部３ａから入力されたアライメント情報に基づいて、適応対象話者から発話された音声の特徴量が入力層５−１に入力されたときに出力層５−５から出力されるべき出力データを特定する。そして、誤差算出部６は、この出力データを教師データとして、実際に出力層５−５から出力されたデータとの間の誤差を算出する。このような誤差の算出方法は、誤差逆伝搬法として知られている。

適応化部７は、この発明における第１の適応化部を具体化したものであり、ＤＮＮ５における話者適応層５−３を適応対象話者に適応させる。話者適応層５−３を適応対象話者に適応させる場合、適応対象話者の音声からなる適応データを用いれば、適応対象話者に対する話者適応の効果は高くなる。ただし、これには、適応対象話者の音声からなる適応データを大量に集める必要がある。

そこで、適応化部７は、ＤＮＮ５における中間層５−２〜５−４のいずれか１つを話者適応層５−３とし、Ｎ人の学習話者の学習データでＤＮＮ５の学習を行って予め得られたＮ個の重み行列Ｗ_ｎを話者適応に用いる。
なお、添え字ｎは、Ｎ人の学習話者のうちのいずれかの学習話者を示す添え字であり、１からＮまでの正の整数である。ＤＮＮ５の各ノードには、接続重みとバイアスとが付与されており、重み行列Ｗ_ｎは、ＤＮＮ５におけるノード間の接続重みを要素とする行列である。

適応化部７は、誤差算出部６により算出された誤差が減少するように話者適応層５−３における重み行列Ｗ_ｎの重みｗ_ｎを算出する。
または、適応化部７は、重み行列Ｗ_ｎの重みｗ_ｎを、話者適応層５−３の出力の次元数ごとに算出する。

記憶部８は、前述した特定の話者の特性によらない話者独立な学習データを記憶する。
実施の形態１における記憶部８には、Ｎ人の学習話者の学習データから求められた重み行列データ８−１〜８−Ｎが記憶される。なお、重み行列データ８−１〜８−Ｎは、重み行列Ｗ_ｎ（ｎ＝１〜Ｎ）である。
図２では、話者適応化装置４が記憶部８を内蔵する構成を示したが、これに限定されるものではない。すなわち、記憶部８は、話者適応化装置４から読み出しが可能な外部記憶装置に構築されていてもよい。

話者適応化装置４における誤差算出部６と適応化部７の各機能は、処理回路により実現される。すなわち、話者適応化装置４は、ＤＮＮ５における出力層５−５の出力データと教師データとの誤差を算出し、誤差が減少するように話者適応層５−３における重み行列Ｗ_ｎの重みｗ_ｎを算出するための処理回路を備える。
処理回路は、専用のハードウェアであってもメモリに格納されるプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよい。

図３Ａは、話者適応化装置４の機能を実現するハードウェアの処理回路を示しており、図３Ｂは、話者適応化装置４の機能を実現するソフトウェアを実行するハードウェア構成を示している。図３Ａに示すように、処理回路が専用のハードウェアの処理回路１００である場合、処理回路１００は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化されたプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、または、これらを組み合わせたものが該当する。誤差算出部６と適応化部７の各部の機能をそれぞれ処理回路で実現してもよいし、各部の機能をまとめて１つの処理回路で実現してもよい。

図３Ｂに示すように、処理回路がＣＰＵ１０１である場合、誤差算出部６と適応化部７の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせにより、実現される。ソフトウェアとファームウェアは、プログラムとして記述され、メモリ１０２に格納される。
ＣＰＵ１０１は、メモリ１０２に格納されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、話者適応化装置４は、ＣＰＵ１０１により実行されるときに、出力層５−５の出力データと教師データとの誤差を算出し、誤差が減少するように重みｗ_ｎを算出する処理が結果的に実行されるプログラムを格納するメモリ１０２を備えている。また、これらのプログラムは、誤差算出部６と適応化部７の手順または方法をコンピュータに実行させるものである。

メモリ１０２とは、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）などが該当する。

なお、誤差算出部６と適応化部７の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、誤差算出部６は、専用のハードウェアの処理回路１００でその機能を実現し、適応化部７は、ＣＰＵ１０１がメモリ１０２に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。

次に動作について説明する。
図４は、音声認識装置１の動作を示すフローチャートである。
まず、特徴量抽出部２が、マイクで集音された話者音声を入力して、入力した音声から特徴量を抽出する（ステップＳＴ１）。音声の特徴量は、例えば、特徴ベクトルの時系列である。また、音声の特徴量を示すデータは、特徴量抽出部２から音声認識部３ａおよびＤＮＮ５に入力される。

次に、音声認識部３ａが、特徴量抽出部２により抽出された音声の特徴量に基づいて、話者音声の音声認識を行う（ステップＳＴ２）。
さらに、音声認識部３ａは、この音声認識結果に基づいてアライメント情報を取得する（ステップＳＴ３）。このようにして得られたアライメント情報は、音声認識部３ａから話者適応化装置４に入力される。

誤差算出部６は、適応対象話者の発話音声の特徴量が入力されたＤＮＮ５の出力データと教師データとの誤差を算出する（ステップＳＴ４）。教師データは、アライメント情報から決定される。
なお、アライメント情報は、前述したように教師データなしで音声認識部３ａによって発話音声を音声認識して得てもよいが、適応対象話者の適応データが示す発話内容が既知であれば、この発話内容に基づいてアライメント情報を得てもよい。

適応化部７は、記憶部８からＮ個の重み行列Ｗ_ｎを入力して、誤差算出部６により算出された誤差が減少するように重み行列Ｗ_ｎの重みｗ_ｎを算出する（ステップＳＴ５）。
そして、適応化部７は、前述のようにして算出した重みｗ_ｎに基づいて、話者適応層５−３を適応対象話者に適応させる（ステップＳＴ６）。

例えば、実施の形態１では、話者適応層５−３の出力ｘ_ｏｕｔが、下記式（１）に従って算出される。下記式（１）において、出力ｘ_ｏｕｔは、複数の次元の要素を有したベクトルで表される。Ｗ_ｎは学習話者ｎの学習データに対する重み行列であり、ｗ_ｎは重み行列Ｗ_ｎの重みである。このように下記式（１）では、各重み行列に対して１つの重みが規定されている。入力ｘ_ｉｎは、話者適応層５−３の前段にある中間層５−２の出力、すなわち、話者適応層５−３の入力である。入力ｘ_ｉｎは複数の次元の要素を有したベクトルで表される。

適応対象話者から発話された音声の特徴量がＤＮＮ５の入力層５−１に入力されると、この情報が中間層５−２、話者適応層５−３、中間層５−４と順に伝搬して出力層５−５から出力される。
適応化部７は、入力層５−１に入力された音声の特徴量、アライメント情報および上記式（１）を用いて、話者適応層５−３の入力ｘ_ｉｎと話者適応層５−３の出力ｘ_ｏｕｔとを求める。次に、適応化部７は、学習話者ｎの学習データに対する重み行列Ｗ_ｎを記憶部８から読み出し、重み行列Ｗ_ｎと入力ｘ_ｉｎと出力ｘ_ｏｕｔとを用いて、上記式（１）に従って重みｗ_ｎを算出する。

適応化部７は、誤差算出部６により順次算出される誤差が減少するように重みｗ_ｎの値を修正する。そして、適応化部７は、上記誤差が予め定められた閾値よりも小さくなったときの重みｗ_ｎを、学習話者ｎの学習データの重み行列Ｗ_ｎに対する最終的な重みとして上記式（１）に設定する。この処理は、適応化部７によってＮ個の重み行列Ｗ_ｎの数だけ行われ、これにより、話者適応層５−３が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はＮ個である。

なお、適応化部７は、話者適応層５−３の出力ｘ_ｏｕｔを、下記式（２）に従って算出してもよい。下記式（２）において、“．＊”はベクトルの要素ごとの積である。
また、重み行列Ｗ_ｎの重みｗ_ｎは、出力ｘ_ｏｕｔと同じ次元数Ｄ_ｏｕｔの要素を有したベクトルで表される。

適応化部７は、誤差算出部６により順次算出される誤差が減少するように重みｗ_ｎの値を修正し、上記誤差が予め定められた閾値よりも小さくなったときの重みｗ_ｎを、学習話者ｎの学習データの重み行列Ｗ_ｎに対する最終的な重みとして上記式（２）に設定する。
この処理は、適応化部７によってＮ個の重み行列Ｗ_ｎのそれぞれで出力ｘ_ｏｕｔの次元数だけ行われ、これにより話者適応層５−３が適応対象話者に適応される。
すなわち、出力ｘ_ｏｕｔの次元数をＤ_ｏｕｔとした場合、適応が必要なパラメータの個数はＮ×Ｄ_ｏｕｔ個である。

上記式（１）で得られる話者適応層５−３の出力ｘ_ｏｕｔは、重みｗ_ｎで重み付けられた重み行列Ｗ_ｎを用いて話者適応層５−３の入力ｘ_ｉｎを重み付けしたＮ個分の演算値を平均した値であったが、これに限定されるものではない。
例えば、下記式（３）に示すようにＮ個分の上記演算値のうちの最大値を出力ｘ_ｏｕｔとしてもよい。また、ｍａｘ_ｒは、行ごとに最大の要素を返すことを表している。

また、適応化部７が、上記式（２）における重みｗ_ｎでベクトルの要素ごとに重み付けられた重み行列Ｗ_ｎを用いて話者適応層５−３の入力ｘ_ｉｎを順次重み付けする。
このようにして得られたＮ×Ｄ_ｏｕｔ個分の演算値のうちの最大値を話者適応層５−３の出力ｘ_ｏｕｔとしてもよい。

ステップＳＴ７において、音声認識部３ｂは、話者適応層５−３が適応対象話者に適応されたＤＮＮ５を用いて音声認識を行う。例えば、ＤＮＮ５の出力層５−５の出力は、音声認識に用いられるＨＭＭの状態ごとの事後確率である。音声認識部３ｂは、出力層５−５から出力されるＨＭＭの状態ごとの事後確率を用いて、特徴量抽出部２が抽出した音声の特徴量のパターンに対してパターンマッチングを行い、パターンマッチングに基づく類似度を算出する。音声認識部３ｂは、このようにして算出した類似度に基づいて音声認識結果を生成して出力する。

また、ＤＮＮ５の中間層５−４からの出力を用いて音声認識を行ってもよい。
図５は、ＤＮＮ５の出力例を示す図であり、中間層５−４で得られた特徴量を出力する場合を示している。この場合、中間層５−４からの出力は、例えば、ボトルネック特徴量として後段の音声認識部３ｂの音声認識に使用される。
ここで、ボトルネック特徴量とは、中間層のノード数を少なくしたボトルネック構造のＤＮＮ５から抽出される特徴量である。

以上のように、実施の形態１に係る話者適応化装置４において、適応化部７は、誤差算出部６により算出された誤差が減少するように、話者適応層５−３における重み行列Ｗ_ｎの重みｗ_ｎを算出する。
または、適応化部７は、重み行列Ｗ_ｎの重みｗ_ｎを、話者適応層５−３の出力ｘ_ｏｕｔの次元数Ｄ_ｏｕｔごとに算出する。
従来の技術では、適応が必要なパラメータの個数がＤ_ｉｎ×Ｄ_ｏｕｔ個となっていたが、話者適応化装置４では、パラメータの個数がＮ個またはＮ×Ｄ_ｏｕｔ個となる。
このように、話者適応化装置４では、適応データを大量に用いなくても適切にＤＮＮ５の話者適応を行うことができる。
また、ｉ−ベクトルといった補助特徴量が不要であるので、演算量が軽減され、さらに話者適応の精度が補助特徴量の精度に影響されることがない。

また、従来の技術では、話者適応を精度よく行うためには、多数の適応データが必要であった。これに対して、話者適応化装置４では、例えば上記式（１）〜（３）のように、Ｎ個分の平均値または最大値を出力ｘ_ｏｕｔとしている。これにより、適応データが少なくても話者適応の精度を保つことができる。すなわち、適応データが少ない場合の頑健性を向上させることができる。

さらに、実施の形態１に係る音声認識装置１は、話者適応化装置４と、ＤＮＮ５と、話者適応化装置４により話者適応層５−３が適応対象話者に適応されたＤＮＮ５を用いて、音声認識する音声認識部３ｂとを備える。このように構成することで、話者適応化装置４の上記効果が得られる音声認識装置１を実現することができる。

さらに、実施の形態１に係る音声認識方法では、話者適応化装置４が、ＤＮＮ５を適応対象の話者に適応させるステップと、音声認識部３ｂが、話者適応層５−３が適応対象話者に適応されたＤＮＮ５を用いて音声認識するステップとを備える。これにより、話者適応化装置４の上記効果が得られる音声認識方法を提供することができる。

実施の形態２．
図６は、この発明の実施の形態２に係る音声認識装置１Ａの構成例を示すブロック図である。図７は、話者適応化装置４ＡおよびＤＮＮ５Ａの構成例を示すブロック図である。
音声認識装置１Ａは、図６に示すように特徴量抽出部２、音声認識部３ａ，３ｂ、話者適応化装置４ＡおよびＤＮＮ５Ａを備える。
話者適応化装置４Ａは、図７に示すように誤差算出部６、適応化部７Ａおよび記憶部８を備える。なお、図６および図７において、図１および図２と同一の構成要素には同一の符号を付して説明を省略する。

話者適応化装置４Ａは、話者適応層５Ａ−３の出力ｘ_ｏｕｔのオフセットｏ_ｎに基づいてＤＮＮ５Ａを適応対象話者に適応させる。ＤＮＮ５Ａは、多数の層を有するニューラルネットワークであって、入力層５−１、出力層５−５、および入力層５−１と出力層５−５との間に設けられた１層以上の中間層５−２〜５−４を有する。図７では、中間層５−２と中間層５−４との間にある中間層が話者適応層５Ａ−３となっている。
なお、話者適応層５Ａ−３は、オフセットｏ_ｎに基づいて適応対象話者に適応された中間層である。

適応化部７Ａは、この発明における第２の適応化部を具体化したものであって、ＤＮＮ５Ａにおける話者適応層５Ａ−３を適応対象話者に適応させる。具体的には、適応化部７Ａは、誤差算出部６により算出された誤差が減少するように、重み行列Ｗ_ｎによって重み付けされた話者適応層５Ａ−３の出力ｘ_ｏｕｔのオフセットｏ_ｎを算出する。このとき、１次元のオフセットｏ_ｎ、または話者適応層５Ａ−３の出力ｘ_ｏｕｔと同じ次元のオフセットｏ_ｎが算出される。

また、話者適応化装置４Ａにおける誤差算出部６と適応化部７Ａの各機能は、処理回路により実現される。誤差算出部６と適応化部７Ａの各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、誤差算出部６は、図３Ａに示した専用のハードウェアの処理回路１００でその機能を実現し、適応化部７Ａは、図３Ｂに示したＣＰＵ１０１がメモリ１０２に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。

次に動作について説明する。
図８は、音声認識装置１Ａの動作を示すフローチャートである。図８におけるステップＳＴ１からステップＳＴ４までの処理およびステップＳＴ７の処理は、図４と同様であるので、説明を省略する。
ステップＳＴ５ａにおいて、適応化部７Ａは、記憶部８からＮ個の重み行列Ｗ_ｎを入力して、誤差算出部６により算出された誤差が減少するように、重み行列Ｗ_ｎにより重み付けされた話者適応層５Ａ−３の出力ｘ_ｏｕｔのオフセットｏ_ｎを算出する。
この後に、適応化部７Ａは、このようにして算出したオフセットｏ_ｎに基づいて、話者適応層５Ａ−３を適応対象話者に適応させる（ステップＳＴ６ａ）。

例えば、実施の形態２では、話者適応層５Ａ−３の出力ｘ_ｏｕｔが下記式（４）に従って算出される。下記式（４）において、ｏ_ｎは重み行列Ｗ_ｎのオフセットである。
下記式（４）には、話者適応層５Ａ−３の出力ｘ_ｏｕｔのオフセットｏ_ｎとして１次元のオフセットが規定される。

適応対象話者から発話された音声の特徴量が、ＤＮＮ５Ａの入力層５−１に入力されると、この情報が中間層５−２、話者適応層５Ａ−３、中間層５−４と順に伝搬して出力層５−５から出力される。
適応化部７Ａは、入力層５−１に入力された音声の特徴量とアライメント情報と上記式（４）とを用いて、話者適応層５Ａ−３の入力ｘ_ｉｎと話者適応層５−３の出力ｘ_ｏｕｔとを求める。次に、適応化部７Ａは、学習話者ｎの学習データに対する重み行列Ｗ_ｎを記憶部８から読み出し、重み行列Ｗ_ｎと入力ｘ_ｉｎと出力ｘ_ｏｕｔとを用い、上記式（４）に従ってオフセットｏ_ｎを算出する。

ここで、適応化部７Ａは、誤差算出部６により順次算出された誤差が減少するように、オフセットｏ_ｎの値を修正する。次に、適応化部７Ａは、誤差が予め定められた閾値よりも小さくなったときのオフセットｏ_ｎを、最終的なオフセットとして上記式（４）に設定する。この処理は、適応化部７ＡによってＮ個の重み行列Ｗ_ｎの数だけ行われて、これにより、話者適応層５Ａ−３が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はＮ個である。

なお、適応化部７Ａは、話者適応層５−３の出力ｘ_ｏｕｔを下記式（５）に従って算出してもよい。下記式（５）におけるオフセットｏ_ｎは話者適応層５Ａ−３の出力ｘ_ｏｕｔと同じ次元数Ｄ_ｏｕｔの要素を有したベクトルとして表される。

適応化部７Ａは、誤差算出部６により順次算出される誤差が減少するようにオフセットｏ_ｎの値を修正する。次に、適応化部７Ａは、誤差が予め定められた閾値よりも小さくなったときのオフセットｏ_ｎを最終的なオフセットとして上記式（５）に設定する。
この処理は、適応化部７ＡによってＮ個の重み行列Ｗ_ｎのそれぞれで出力ｘ_ｏｕｔの次元数Ｄ_ｏｕｔだけ行われ、これにより話者適応層５Ａ−３が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はＮ×Ｄ_ｏｕｔ個である。

上記式（４）で得られる話者適応層５Ａ−３の出力ｘ_ｏｕｔは、重み行列Ｗ_ｎで重み付けされた話者適応層５Ａ−３の入力ｘ_ｉｎに１次元のオフセットｏ_ｎが加算されたＮ個分の演算値を平均した値であったが、これに限定されるものではない。
例えば、上記式（３）と同様に、Ｎ個分の上記演算値のうちの最大値を出力ｘ_ｏｕｔとしてもよい。また、適応化部７Ａが、重み行列Ｗ_ｎで重み付けされた話者適応層５Ａ−３の入力ｘ_ｉｎに、話者適応層５Ａ−３の出力ｘ_ｏｕｔと同じ次元のオフセットｏ_ｎを加算する。このように算出されたＮ×Ｄ_ｏｕｔ個分の演算値のうちの最大値を、話者適応層５Ａ−３の出力ｘ_ｏｕｔとしてもよい。

以上のように、実施の形態２に係る話者適応化装置４Ａにおいて、適応化部７Ａは、誤差算出部６により算出された誤差が減少するように、１次元のオフセットｏ_ｎまたは話者適応層５Ａ−３の出力ｘ_ｏｕｔと同じ次元のオフセットｏ_ｎを算出する。
このようにオフセットｏ_ｎを適応させることで、適応が必要なパラメータの個数が、実施の形態１と同様にＮ個またはＮ×Ｄ_ｏｕｔ個となる。従って、適応データを大量に用いなくても適切にＤＮＮ５Ａの話者適応を行うことができる。
また、ｉ−ベクトルといった補助特徴量が不要であるので、演算量が軽減され、さらに話者適応の精度が補助特徴量の精度に影響されることがない。

また、従来の技術では、話者適応を精度よく行うためには、多数の適応データが必要であった。これに対して、話者適応化装置４Ａでは、例えば、Ｎ個分の平均値または最大値を出力ｘ_ｏｕｔとすることで、話者適応の精度を保つことができる。すなわち、適応データが少ない場合の頑健性を向上させることができる。

さらに、実施の形態２に係る音声認識装置１Ａは、話者適応化装置４Ａと、ＤＮＮ５Ａと、話者適応化装置４Ａにより話者適応層５−３が適応対象話者に適応されたＤＮＮ５Ａを用いて音声認識する音声認識部３ｂとを備える。このように構成することで、話者適応化装置４Ａの上記効果が得られる音声認識装置１Ａを実現することができる。

さらに、実施の形態２に係る音声認識方法では、話者適応化装置４Ａが、ＤＮＮ５Ａを適応対象の話者に適応させるステップと、音声認識部３ｂが、話者適応層５Ａ−３が適応対象話者に適応されたＤＮＮ５Ａを用いて音声認識するステップとを備える。
これにより、話者適応化装置４Ａの上記効果が得られる音声認識方法を提供することができる。

実施の形態３．
実施の形態３に係る話者適応化装置は、話者適応層の出力のオフセットを算出することに加え、誤差算出部により算出された誤差が減少するように重み行列の重みを算出する。
そこで、以降の説明では、実施の形態３に係る話者適応化装置の構成については、図７を参照する。

図９は、この発明の実施の形態３におけるＤＮＮ５Ｂの構成例を示す図である。
なお、図９で記載を省略したが、入力層５−１と話者適応層５Ｂ−３との間および話者適応層５Ｂ−３と出力層５−５との間には、中間層５−２，５−４があるものとする。
図９に示すＤＮＮ５Ｂにおいて、話者適応層５Ｂ−３が、重み行列Ｗ_ｎの重みｗ_ｎと出力ｘ_ｏｕｔのオフセットｏ_ｎとによって適応対象話者に適応されている。
また、話者適応層５Ｂ−３には、重みｗ_ｎとして、上記式（１）と同様に、各重み行列に対して１つの重みが設定されており、オフセットｏ_ｎとして、上記式（４）と同様に、１次元のオフセットが設定されている。

話者適応層５Ｂ−３の入力をｘ_ｉｎ、出力をｘ_ｏｕｔとし、話者適応層５Ｂ−３の出力ｘ_ｏｕｔは、例えば、ｗ_ｎＷ_ｎｘ_ｉｎに対して１次元のオフセットｏ_ｎが加算された演算値のＮ個分の平均値で表される。また、Ｎ個分の上記演算値のうちの最大値を、話者適応層５Ｂ−３の出力ｘ_ｏｕｔとしてもよい。

また、重み行列Ｗ_ｎの重みｗ_ｎは、上記式（２）と同様に、話者適応層５Ｂ−３の出力ｘ_ｏｕｔの次元数Ｄ_ｏｕｔごとに設定された重みであってもよい。さらに、出力ｘ_ｏｕｔのオフセットｏ_ｎは、上記式（４）と同様に出力ｘ_ｏｕｔと同じ次元のオフセットｏ_ｎであってもよい。この場合、話者適応層５Ｂ−３の出力ｘ_ｏｕｔは、例えば、ｗ_ｎ．＊（Ｗ_ｎｘ_ｉｎ）に出力ｘ_ｏｕｔと同じ次元のオフセットｏ_ｎが加算された演算値の平均値または最大値で表される。

さらに、話者適応層５Ｂ−３の出力ｘ_ｏｕｔが、ｗ_ｎＷ_ｎｘ_ｉｎに出力ｘ_ｏｕｔと同じ次元のオフセットｏ_ｎが加算された演算値の平均値または最大値であってもよい。
さらに、話者適応層５Ｂ−３の出力ｘ_ｏｕｔが、ｗ_ｎ．＊（Ｗ_ｎｘ_ｉｎ）に１次元のオフセットｏ_ｎが加算された演算値の平均値または最大値であってもよい。
すなわち、実施の形態３における話者適応層５Ｂ−３では、重み行列Ｗ_ｎの重みｗ_ｎと話者適応層５Ｂ−３の出力のオフセットｏ_ｎとを組み合わせたパラメータで適応対象話者に適応されていればよい。

次に動作について説明する。
図１０は、実施の形態３に係る話者適応化装置４Ａの動作の一部を示すフローチャートであり、話者適応層５Ｂ−３の適応処理に関する部分を示している。なお、図１０に示すステップＳＴ５ｂおよびステップＳＴ６ｂは、図８に示した一連の処理におけるステップＳＴ５ａおよびステップＳＴ６ａの代わりに実行される。
以降では、ステップＳＴ５ｂおよびステップＳＴ６ｂ以外の処理については説明を省略する。

ステップＳＴ５ｂにおいて、適応化部７Ａは、記憶部８からＮ個の重み行列Ｗ_ｎを入力し、誤差算出部６により算出された誤差が減少するように、重み行列Ｗ_ｎにより重み付けされた話者適応層５Ｂ−３の出力ｘ_ｏｕｔのオフセットｏ_ｎを算出する。
さらに、適応化部７Ａは、誤差算出部６によって算出された誤差が減少するように重み行列Ｗ_ｎの重みｗ_ｎを算出する。
ステップＳＴ６ｂにおいて、適応化部７Ａは、ステップＳＴ５ｂで算出したオフセットｏ_ｎと重みｗ_ｎとに基づいて、話者適応層５Ｂ−３を適応対象話者に適応させる。

以上のように、実施の形態３に係る話者適応化装置４Ａにおいて、適応化部７Ａは、出力ｘ_ｏｕｔのオフセットｏ_ｎの算出に加え、誤差算出部６により算出された誤差が減少するように重み行列Ｗ_ｎの重みｗ_ｎを算出する。
このように構成しても、適応データを大量に用いなくても適切にＤＮＮ５Ｂの話者適応を行うことができる。

実施の形態４．
実施の形態１〜３に係る話者適応化装置では、学習話者数Ｎが多くなると、これに伴い適応すべきパラメータの数も増加する。このため、学習話者の学習データの数Ｎが過度に多くなると、話者適応に要する演算量も過度に増えてしまう。
そこで、実施の形態４に係る話者適応化装置は、Ｎ個の重み行列Ｗ_ｎをＮよりも少ない数ＭのクラスにクラスタリングしてＭ個の重み行列Ｗ_ｍに減らす。これにより、Ｎが過度に多くなっても、話者適応に要する演算量の増加を軽減することができる。なお、添え字のｍは、１からＭまでの正の整数である。

図１１は、この発明の実施の形態４に係る話者適応化装置４ＢおよびＤＮＮ５の構成例を示すブロック図である。話者適応化装置４Ｂは、誤差算出部６、適応化部７Ｂ、記憶部８およびクラスタリング部９を備える。なお、図１１において、図２と同一の構成要素には同一の符号を付して説明を省略する。

クラスタリング部９は、記憶部８に記憶されたＮ個の重み行列Ｗ_ｎをクラス１０−１〜１０−Ｍにクラスタリングして、Ｍ個の重み行列Ｗ_ｍを求める。
なお、クラスタリングの方法としては、例えば、Ｗ_ｎ間の距離に基づくｋ−ｍｅａｎｓクラスタリングが挙げられる。
また、クラスタリング部９が、重み行列Ｗ_ｎをベクトル化してＤ_ｉｎ×Ｄ_ｏｕｔ行、Ｎ列の行列を求めて、求めた行列に対してスペクトルクラスタリングを施してもよい。
以降、クラス１０−１〜１０−Ｍにクラスタリングされた重み行列をＷ’_１，・・・，Ｗ’_Ｍとする。

適応化部７Ｂは、クラスタリングされた重み行列Ｗ’_１，・・・，Ｗ’_Ｍを入力して、誤差算出部６により算出された誤差が減少するように、重み行列Ｗ’_ｍの重みｗ_ｍを算出する。例えば、話者適応層５−３の出力ｘ_ｏｕｔが、下記式（６）に従って算出される。
下記式（６）において、Ｗ’_ｍは、クラス１０−１〜１０−Ｍにクラスタリングされた重み行列であり、ｗ_ｍは、重み行列Ｗ’_ｍの重みである。
なお、下記式（６）では、クラス１０−１〜１０−Ｍの各重み行列に対して１つの重みが規定される。

適応化部７Ｂは、誤差算出部６により順次算出される誤差が減少するように、重みｗ_ｍの値を修正する。次に、適応化部７Ｂは、上記誤差が予め定められた閾値よりも小さくなったときの重みｗ_ｍを、重み行列Ｗ’_ｍに対する最終的な重みとして上記式（６）に設定する。この処理は、適応化部７ＢによってＭ個の重み行列Ｗ’_ｍの数だけ行われ、これにより、話者適応層５−３が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はＭ個である。

なお、適応化部７Ｂは、話者適応層５−３の出力ｘ_ｏｕｔを、下記式（７）に従って算出してもよい。下記式（７）における重み行列Ｗ’_ｍの重みｗ_ｍは、出力ｘ_ｏｕｔと同じ次元数Ｄ_ｏｕｔの要素を有したベクトルで表される。

適応化部７Ｂは、誤差算出部６により順次算出される誤差が減少するように重みｗ_ｍの値を修正する。
次に、適応化部７Ｂは、誤差が予め定められた閾値よりも小さくなったときの重みｗ_ｍを、重み行列Ｗ’_ｍに対する最終的な重みとして上記式（７）に設定する。この処理は、適応化部７ＢによってＭ個の重み行列Ｗ’_ｍのそれぞれで出力ｘ_ｏｕｔの次元数Ｄ_ｏｕｔだけ行われ、これにより話者適応層５−３が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はＭ×Ｄ_ｏｕｔ個である。
なお、上記式（６）および（７）は、出力ｘ_ｏｕｔをＭ個の平均値としたが、Ｍ個のうちの最大値を出力ｘ_ｏｕｔとしてもよい。

また、話者適応化装置４Ｂにおける誤差算出部６と適応化部７Ｂとクラスタリング部９の各機能は、処理回路により実現される。誤差算出部６と適応化部７Ｂとクラスタリング部９の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、誤差算出部６は、図３Ａに示した専用のハードウェアの処理回路１００でその機能を実現し、適応化部７Ｂおよびクラスタリング部９は、図３Ｂに示したＣＰＵ１０１がメモリ１０２に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。

また、これまで、実施の形態１の構成にクラスタリング部９が設けられた場合を示したが、実施の形態２または実施の形態３の構成にクラスタリング部９を設けてもよい。
このように構成しても、話者適応に要する演算量の増加を軽減することができる。

例えば、実施の形態２の構成にクラスタリング部９を設けた場合、話者適応層５Ａ−３が、出力ｘ_ｏｕｔのオフセットｏ_ｍによって適応対象話者に適応される。
適応化部７Ａは、上記式（４）または（５）におけるｗ_ｎとＷ_ｎとを、ｗ_ｍとＷ’_ｍとに置き換えた式に従って、オフセットｏ_ｍを算出する。

さらに、実施の形態３の構成にクラスタリング部９を設けた場合、話者適応層５Ｂ−３が、重み行列Ｗ’_ｍの重みｗ_ｍと出力ｘ_ｏｕｔのオフセットｏ_ｍとによって適応対象話者に適応される。適応化部７Ａは、ｗ_ｎとＷ_ｎとを、ｗ_ｍとＷ’_ｍとに置き換えてオフセットｏ_ｍと重みｗ_ｍとを算出する。

以上のように、実施の形態４に係る話者適応化装置４Ｂは、クラスタリング部９を備える。クラスタリング部９は、重み行列Ｗ_ｎを学習話者数Ｎよりも少ない数Ｍのクラスにクラスタリングする。実施の形態４における適応化部は、クラスタリング部９によりクラスタリングされた重みｗ_ｍおよびオフセットｏ_ｍのうちの少なくとも一方をクラスごとに算出する。これにより、Ｎが過度に多くなっても適切にＤＮＮ５の話者適応を行うことができる。

実施の形態５．
図１２は、この発明の実施の形態５に係る話者適応化装置４ＣおよびＤＮＮ５の構成例を示すブロック図である。話者適応化装置４Ｃは、誤差算出部６、適応化部７，１１、記憶部８および切り替え部１２を備える。なお、図１２において、図２と同一の構成要素には同一の符号を付して説明を省略する。

適応化部１１は、この発明における第３の適応化部を具体化したものであり、ＤＮＮ５における話者適応層５−３を適応対象話者に適応させる。具体的には、適応化部１１が、記憶部８からＮ個の重み行列Ｗ_ｎを入力して、誤差算出部６により算出された誤差が減少するように、話者適応層５−３における重み行列Ｗ_ｎを修正する。
重み行列Ｗ_ｎにより話者適応層５−３の入力ｘ_ｉｎが重み付けされるので、適応が必要なパラメータの個数はＤ_ｉｎ×Ｄ_ｏｕｔ個となる。

切り替え部１２は、予め定められた条件に応じて、適応化部７による話者適応層５−３の適応化と適応化部１１による話者適応層５−３の適応化とを切り替える。
学習話者数Ｎが多い場合、Ｎ個の重み行列Ｗ_ｎに基づいて話者適応を行った方が、重みｗ_ｎに基づく適応処理よりも話者適応の効果が大きくなる。

そこで、切り替え部１２は、学習話者数Ｎが閾値以上になった場合、適応化部７による適応化から適応化部１１による適応化へ切り替える。これにより、話者適応の効果を向上させることができる。
また、切り替え部１２は、適応化部７による適応化および適応化部１１による適応化のうち、誤差算出部６により算出された誤差が小さい方に切り替えてもよい。

また、話者適応化装置４Ｃにおける誤差算出部６と適応化部７と適応化部１１と切り替え部１２の各機能は、処理回路により実現される。誤差算出部６と適応化部７と適応化部１１と切り替え部１２の各機能について、一部を専用のハードウェアで実現して、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、誤差算出部６は、図３Ａに示した専用のハードウェアの処理回路１００でその機能を実現し、適応化部７，１１と切り替え部１２とは、図３Ｂに示したＣＰＵ１０１がメモリ１０２に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。

なお、図１２では、適応化部１１および切り替え部１２を実施の形態１の構成に設けた場合を示したが、実施の形態２から実施の形態４までに示した各構成に設けてもよい。
すなわち、切り替え部１２が、予め定められた条件に応じて、適応化部７Ａまたは適応化部７Ｂによる適応化と、適応化部１１による適応化とを切り替えるようにしてもよい。

以上のように、実施の形態５に係る話者適応化装置４Ｃは、適応化部１１と切り替え部１２とを備える。適応化部１１は、誤差算出部６により算出された誤差が減少するように話者適応層５−３における重み行列Ｗ_ｎを修正する。切り替え部１２は、適応化部７による適応化と適応化部１１による適応化とを切り替える。このように構成することで、話者適応の効果を向上させることができる。

なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせあるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明に係る話者適応化装置は、ＨＭＭを用いた音声認識技術に広く適用することが可能である。

１，１Ａ音声認識装置、２特徴量抽出部、３ａ，３ｂ音声認識部、４、４Ａ〜４Ｃ話者適応化装置、５，５Ａ，５ＢＤＮＮ、５−１入力層、５−２，５−４中間層、５−３，５Ａ−３，５Ｂ−３話者適応層、５−５出力層、６誤差算出部、７，７Ａ，７Ｂ，１１適応化部、８記憶部、８−１〜８−Ｎ重み行列データ、９クラスタリング部、１０−１〜１０−Ｍクラス、１２切り替え部、１００処理回路、１０１ＣＰＵ、１０２メモリ。

この発明に係る話者適応化装置は、誤差算出部と第１の適応化部とを備える。誤差算出部は、入力層、出力層および入力層と出力層との間にある１層以上の中間層を有し、１層以上の中間層のいずれかに話者適応層があるＤＮＮにおいて、適応対象話者の音声を入力データとして得られた出力層の出力データと教師データとの誤差を算出する。第１の適応化部は、適応対象話者以外の話者である学習話者の学習データから求められたＤＮＮにおけるノード間の接続重みを示す重み行列を入力して、誤差算出部により算出された誤差が減少するように、話者適応層における重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ話者適応層の出力の次元数ごとに算出する。

Claims

入力層、出力層および前記入力層と前記出力層との間にある１層以上の中間層を有し、前記１層以上の中間層のいずれかに話者適応層があるディープニューラルネットワークにおける前記出力層の出力データと教師データとの誤差を算出する誤差算出部と、
学習話者の学習データから求められた前記ディープニューラルネットワークのノード間の接続重みを示す重み行列を入力して、前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ前記話者適応層の出力の次元数ごとに算出する第１の適応化部と
を備えたことを特徴とする話者適応化装置。
入力層、出力層および前記入力層と前記出力層との間にある１層以上の中間層を有し、前記１層以上の中間層のいずれかに話者適応層があるディープニューラルネットワークにおける前記出力層の出力データと教師データとの誤差を算出する誤差算出部と、
学習話者の学習データから求められた前記ディープニューラルネットワークのノード間の接続重みを示す重み行列を入力して、前記誤差算出部により算出された誤差が減少するように、前記重み行列により重み付けされた前記話者適応層の出力の１次元のオフセットまたは前記話者適応層の出力と同じ次元のオフセットを、学習話者数ごとに算出する第２の適応化部と
を備えたことを特徴とする話者適応化装置。
前記第２の適応化部は、前記話者適応層の出力のオフセットの算出に加えて、前記誤差算出部により算出された誤差が減少するように、前記重み行列の重みを学習話者数ごとに算出することを特徴とする請求項２記載の話者適応化装置。
前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
前記第１の適応化部は、前記重み行列の重みをクラスごとに算出することを特徴とする請求項１記載の話者適応化装置。
前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
前記第２の適応化部は、前記重み行列のオフセットをクラスごとに算出することを特徴とする請求項２記載の話者適応化装置。
前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
前記第２の適応化部は、前記話者適応層の出力のオフセットおよび前記重み行列の重みをクラスごとに算出することを特徴とする請求項３記載の話者適応化装置。
前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列を修正する第３の適応化部と、
前記第１の適応化部による前記話者適応層の適応化と前記第３の適応化部による前記話者適応層の適応化とを切り替える切り替え部と
を備えたことを特徴とする請求項１記載の話者適応化装置。
前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列を修正する第３の適応化部と、
前記第２の適応化部による前記話者適応層の適応化と前記第３の適応化部による前記話者適応層の適応化とを切り替える切り替え部と
を備えたことを特徴とする請求項２記載の話者適応化装置。
請求項１記載の話者適応化装置と、
前記ディープニューラルネットワークと、
話者適応化装置により適応対象話者に前記話者適応層が適応された前記ディープニューラルネットワークを用いて音声認識する音声認識部と
を備えたことを特徴とする音声認識装置。
請求項１記載の話者適応化装置が、前記ディープニューラルネットワークを適応対象の話者に適応させるステップと、
音声認識部が、適応対象話者に前記話者適応層が適応された前記ディープニューラルネットワークを用いて音声認識するステップと
を備えたことを特徴とする音声認識方法。