JPWO2018029777A1 - 話者適応化装置、音声認識装置および音声認識方法 - Google Patents
話者適応化装置、音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JPWO2018029777A1 JPWO2018029777A1 JP2018506628A JP2018506628A JPWO2018029777A1 JP WO2018029777 A1 JPWO2018029777 A1 JP WO2018029777A1 JP 2018506628 A JP2018506628 A JP 2018506628A JP 2018506628 A JP2018506628 A JP 2018506628A JP WO2018029777 A1 JPWO2018029777 A1 JP WO2018029777A1
- Authority
- JP
- Japan
- Prior art keywords
- adaptation
- speaker
- unit
- layer
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 356
- 238000000034 method Methods 0.000 title claims description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 78
- 238000004364 calculation method Methods 0.000 claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000007423 decrease Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 29
- 238000012545 processing Methods 0.000 description 25
- 230000003044 adaptive effect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 12
- 238000000605 extraction Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
Description
また、非特許文献2には、i−ベクトルといった補助特徴量を用いてDNNを話者適応する技術が記載されている。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置1の構成例を示すブロック図である。また、図2は、話者適応化装置4およびDNN5の構成例を示すブロック図である。
音声認識装置1は、図1に示すように、特徴量抽出部2、音声認識部3a,3b、話者適応化装置4およびDNN5を備える。また、話者適応化装置4は、図2に示すように、誤差算出部6、適応化部7および記憶部8を備える。
音声認識部3aは、特徴量抽出部2により抽出された音声の特徴量に基づいて話者音声の音声認識を行い、この音声認識結果に基づいてアライメント情報を求める。
なお、アライメント情報とは、時系列の音声認識が得られたときに、各時刻とその時刻とにおけるHMMの状態(状態番号)である。
なお、図1では、音声認識部3aと音声認識部3bとを別々に設けた構成を示したが、音声認識部を1つとし、この音声認識部に双方の機能を持たせてもよい。
DNN5は、多数の層を有するニューラルネットワークであり、入力層5−1、出力層5−5、および入力層5−1と出力層5−5との間に設けられた1層以上の中間層5−2〜5−4を有する。
なお、添え字nは、N人の学習話者のうちのいずれかの学習話者を示す添え字であり、1からNまでの正の整数である。DNN5の各ノードには、接続重みとバイアスとが付与されており、重み行列Wnは、DNN5におけるノード間の接続重みを要素とする行列である。
または、適応化部7は、重み行列Wnの重みwnを、話者適応層5−3の出力の次元数ごとに算出する。
実施の形態1における記憶部8には、N人の学習話者の学習データから求められた重み行列データ8−1〜8−Nが記憶される。なお、重み行列データ8−1〜8−Nは、重み行列Wn(n=1〜N)である。
図2では、話者適応化装置4が記憶部8を内蔵する構成を示したが、これに限定されるものではない。すなわち、記憶部8は、話者適応化装置4から読み出しが可能な外部記憶装置に構築されていてもよい。
処理回路は、専用のハードウェアであってもメモリに格納されるプログラムを実行するCPU(Central Processing Unit)であってもよい。
CPU101は、メモリ102に格納されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、話者適応化装置4は、CPU101により実行されるときに、出力層5−5の出力データと教師データとの誤差を算出し、誤差が減少するように重みwnを算出する処理が結果的に実行されるプログラムを格納するメモリ102を備えている。また、これらのプログラムは、誤差算出部6と適応化部7の手順または方法をコンピュータに実行させるものである。
例えば、誤差算出部6は、専用のハードウェアの処理回路100でその機能を実現し、適応化部7は、CPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
図4は、音声認識装置1の動作を示すフローチャートである。
まず、特徴量抽出部2が、マイクで集音された話者音声を入力して、入力した音声から特徴量を抽出する(ステップST1)。音声の特徴量は、例えば、特徴ベクトルの時系列である。また、音声の特徴量を示すデータは、特徴量抽出部2から音声認識部3aおよびDNN5に入力される。
さらに、音声認識部3aは、この音声認識結果に基づいてアライメント情報を取得する(ステップST3)。このようにして得られたアライメント情報は、音声認識部3aから話者適応化装置4に入力される。
なお、アライメント情報は、前述したように教師データなしで音声認識部3aによって発話音声を音声認識して得てもよいが、適応対象話者の適応データが示す発話内容が既知であれば、この発話内容に基づいてアライメント情報を得てもよい。
そして、適応化部7は、前述のようにして算出した重みwnに基づいて、話者適応層5−3を適応対象話者に適応させる(ステップST6)。
適応化部7は、入力層5−1に入力された音声の特徴量、アライメント情報および上記式(1)を用いて、話者適応層5−3の入力xinと話者適応層5−3の出力xoutとを求める。次に、適応化部7は、学習話者nの学習データに対する重み行列Wnを記憶部8から読み出し、重み行列Wnと入力xinと出力xoutとを用いて、上記式(1)に従って重みwnを算出する。
また、重み行列Wnの重みwnは、出力xoutと同じ次元数Doutの要素を有したベクトルで表される。
この処理は、適応化部7によってN個の重み行列Wnのそれぞれで出力xoutの次元数だけ行われ、これにより話者適応層5−3が適応対象話者に適応される。
すなわち、出力xoutの次元数をDoutとした場合、適応が必要なパラメータの個数はN×Dout個である。
例えば、下記式(3)に示すようにN個分の上記演算値のうちの最大値を出力xoutとしてもよい。また、maxrは、行ごとに最大の要素を返すことを表している。
このようにして得られたN×Dout個分の演算値のうちの最大値を話者適応層5−3の出力xoutとしてもよい。
図5は、DNN5の出力例を示す図であり、中間層5−4で得られた特徴量を出力する場合を示している。この場合、中間層5−4からの出力は、例えば、ボトルネック特徴量として後段の音声認識部3bの音声認識に使用される。
ここで、ボトルネック特徴量とは、中間層のノード数を少なくしたボトルネック構造のDNN5から抽出される特徴量である。
または、適応化部7は、重み行列Wnの重みwnを、話者適応層5−3の出力xoutの次元数Doutごとに算出する。
従来の技術では、適応が必要なパラメータの個数がDin×Dout個となっていたが、話者適応化装置4では、パラメータの個数がN個またはN×Dout個となる。
このように、話者適応化装置4では、適応データを大量に用いなくても適切にDNN5の話者適応を行うことができる。
また、i−ベクトルといった補助特徴量が不要であるので、演算量が軽減され、さらに話者適応の精度が補助特徴量の精度に影響されることがない。
図6は、この発明の実施の形態2に係る音声認識装置1Aの構成例を示すブロック図である。図7は、話者適応化装置4AおよびDNN5Aの構成例を示すブロック図である。
音声認識装置1Aは、図6に示すように特徴量抽出部2、音声認識部3a,3b、話者適応化装置4AおよびDNN5Aを備える。
話者適応化装置4Aは、図7に示すように誤差算出部6、適応化部7Aおよび記憶部8を備える。なお、図6および図7において、図1および図2と同一の構成要素には同一の符号を付して説明を省略する。
なお、話者適応層5A−3は、オフセットonに基づいて適応対象話者に適応された中間層である。
例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7Aは、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
図8は、音声認識装置1Aの動作を示すフローチャートである。図8におけるステップST1からステップST4までの処理およびステップST7の処理は、図4と同様であるので、説明を省略する。
ステップST5aにおいて、適応化部7Aは、記憶部8からN個の重み行列Wnを入力して、誤差算出部6により算出された誤差が減少するように、重み行列Wnにより重み付けされた話者適応層5A−3の出力xoutのオフセットonを算出する。
この後に、適応化部7Aは、このようにして算出したオフセットonに基づいて、話者適応層5A−3を適応対象話者に適応させる(ステップST6a)。
下記式(4)には、話者適応層5A−3の出力xoutのオフセットonとして1次元のオフセットが規定される。
適応化部7Aは、入力層5−1に入力された音声の特徴量とアライメント情報と上記式(4)とを用いて、話者適応層5A−3の入力xinと話者適応層5−3の出力xoutとを求める。次に、適応化部7Aは、学習話者nの学習データに対する重み行列Wnを記憶部8から読み出し、重み行列Wnと入力xinと出力xoutとを用い、上記式(4)に従ってオフセットonを算出する。
この処理は、適応化部7AによってN個の重み行列Wnのそれぞれで出力xoutの次元数Doutだけ行われ、これにより話者適応層5A−3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はN×Dout個である。
例えば、上記式(3)と同様に、N個分の上記演算値のうちの最大値を出力xoutとしてもよい。また、適応化部7Aが、重み行列Wnで重み付けされた話者適応層5A−3の入力xinに、話者適応層5A−3の出力xoutと同じ次元のオフセットonを加算する。このように算出されたN×Dout個分の演算値のうちの最大値を、話者適応層5A−3の出力xoutとしてもよい。
このようにオフセットonを適応させることで、適応が必要なパラメータの個数が、実施の形態1と同様にN個またはN×Dout個となる。従って、適応データを大量に用いなくても適切にDNN5Aの話者適応を行うことができる。
また、i−ベクトルといった補助特徴量が不要であるので、演算量が軽減され、さらに話者適応の精度が補助特徴量の精度に影響されることがない。
これにより、話者適応化装置4Aの上記効果が得られる音声認識方法を提供することができる。
実施の形態3に係る話者適応化装置は、話者適応層の出力のオフセットを算出することに加え、誤差算出部により算出された誤差が減少するように重み行列の重みを算出する。
そこで、以降の説明では、実施の形態3に係る話者適応化装置の構成については、図7を参照する。
なお、図9で記載を省略したが、入力層5−1と話者適応層5B−3との間および話者適応層5B−3と出力層5−5との間には、中間層5−2,5−4があるものとする。
図9に示すDNN5Bにおいて、話者適応層5B−3が、重み行列Wnの重みwnと出力xoutのオフセットonとによって適応対象話者に適応されている。
また、話者適応層5B−3には、重みwnとして、上記式(1)と同様に、各重み行列に対して1つの重みが設定されており、オフセットonとして、上記式(4)と同様に、1次元のオフセットが設定されている。
さらに、話者適応層5B−3の出力xoutが、wn.*(Wnxin)に1次元のオフセットonが加算された演算値の平均値または最大値であってもよい。
すなわち、実施の形態3における話者適応層5B−3では、重み行列Wnの重みwnと話者適応層5B−3の出力のオフセットonとを組み合わせたパラメータで適応対象話者に適応されていればよい。
図10は、実施の形態3に係る話者適応化装置4Aの動作の一部を示すフローチャートであり、話者適応層5B−3の適応処理に関する部分を示している。なお、図10に示すステップST5bおよびステップST6bは、図8に示した一連の処理におけるステップST5aおよびステップST6aの代わりに実行される。
以降では、ステップST5bおよびステップST6b以外の処理については説明を省略する。
さらに、適応化部7Aは、誤差算出部6によって算出された誤差が減少するように重み行列Wnの重みwnを算出する。
ステップST6bにおいて、適応化部7Aは、ステップST5bで算出したオフセットonと重みwnとに基づいて、話者適応層5B−3を適応対象話者に適応させる。
このように構成しても、適応データを大量に用いなくても適切にDNN5Bの話者適応を行うことができる。
実施の形態1〜3に係る話者適応化装置では、学習話者数Nが多くなると、これに伴い適応すべきパラメータの数も増加する。このため、学習話者の学習データの数Nが過度に多くなると、話者適応に要する演算量も過度に増えてしまう。
そこで、実施の形態4に係る話者適応化装置は、N個の重み行列WnをNよりも少ない数MのクラスにクラスタリングしてM個の重み行列Wmに減らす。これにより、Nが過度に多くなっても、話者適応に要する演算量の増加を軽減することができる。なお、添え字のmは、1からMまでの正の整数である。
なお、クラスタリングの方法としては、例えば、Wn間の距離に基づくk−meansクラスタリングが挙げられる。
また、クラスタリング部9が、重み行列Wnをベクトル化してDin×Dout行、N列の行列を求めて、求めた行列に対してスペクトルクラスタリングを施してもよい。
以降、クラス10−1〜10−Mにクラスタリングされた重み行列をW’1,・・・,W’Mとする。
下記式(6)において、W’mは、クラス10−1〜10−Mにクラスタリングされた重み行列であり、wmは、重み行列W’mの重みである。
なお、下記式(6)では、クラス10−1〜10−Mの各重み行列に対して1つの重みが規定される。
次に、適応化部7Bは、誤差が予め定められた閾値よりも小さくなったときの重みwmを、重み行列W’mに対する最終的な重みとして上記式(7)に設定する。この処理は、適応化部7BによってM個の重み行列W’mのそれぞれで出力xoutの次元数Doutだけ行われ、これにより話者適応層5−3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はM×Dout個である。
なお、上記式(6)および(7)は、出力xoutをM個の平均値としたが、M個のうちの最大値を出力xoutとしてもよい。
例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7Bおよびクラスタリング部9は、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
このように構成しても、話者適応に要する演算量の増加を軽減することができる。
適応化部7Aは、上記式(4)または(5)におけるwnとWnとを、wmとW’mとに置き換えた式に従って、オフセットomを算出する。
図12は、この発明の実施の形態5に係る話者適応化装置4CおよびDNN5の構成例を示すブロック図である。話者適応化装置4Cは、誤差算出部6、適応化部7,11、記憶部8および切り替え部12を備える。なお、図12において、図2と同一の構成要素には同一の符号を付して説明を省略する。
重み行列Wnにより話者適応層5−3の入力xinが重み付けされるので、適応が必要なパラメータの個数はDin×Dout個となる。
学習話者数Nが多い場合、N個の重み行列Wnに基づいて話者適応を行った方が、重みwnに基づく適応処理よりも話者適応の効果が大きくなる。
また、切り替え部12は、適応化部7による適応化および適応化部11による適応化のうち、誤差算出部6により算出された誤差が小さい方に切り替えてもよい。
例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7,11と切り替え部12とは、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
すなわち、切り替え部12が、予め定められた条件に応じて、適応化部7Aまたは適応化部7Bによる適応化と、適応化部11による適応化とを切り替えるようにしてもよい。
Claims (10)
- 入力層、出力層および前記入力層と前記出力層との間にある1層以上の中間層を有し、前記1層以上の中間層のいずれかに話者適応層があるディープニューラルネットワークにおける前記出力層の出力データと教師データとの誤差を算出する誤差算出部と、
学習話者の学習データから求められた前記ディープニューラルネットワークのノード間の接続重みを示す重み行列を入力して、前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ前記話者適応層の出力の次元数ごとに算出する第1の適応化部と
を備えたことを特徴とする話者適応化装置。 - 入力層、出力層および前記入力層と前記出力層との間にある1層以上の中間層を有し、前記1層以上の中間層のいずれかに話者適応層があるディープニューラルネットワークにおける前記出力層の出力データと教師データとの誤差を算出する誤差算出部と、
学習話者の学習データから求められた前記ディープニューラルネットワークのノード間の接続重みを示す重み行列を入力して、前記誤差算出部により算出された誤差が減少するように、前記重み行列により重み付けされた前記話者適応層の出力の1次元のオフセットまたは前記話者適応層の出力と同じ次元のオフセットを、学習話者数ごとに算出する第2の適応化部と
を備えたことを特徴とする話者適応化装置。 - 前記第2の適応化部は、前記話者適応層の出力のオフセットの算出に加えて、前記誤差算出部により算出された誤差が減少するように、前記重み行列の重みを学習話者数ごとに算出することを特徴とする請求項2記載の話者適応化装置。
- 前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
前記第1の適応化部は、前記重み行列の重みをクラスごとに算出することを特徴とする請求項1記載の話者適応化装置。 - 前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
前記第2の適応化部は、前記重み行列のオフセットをクラスごとに算出することを特徴とする請求項2記載の話者適応化装置。 - 前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
前記第2の適応化部は、前記話者適応層の出力のオフセットおよび前記重み行列の重みをクラスごとに算出することを特徴とする請求項3記載の話者適応化装置。 - 前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列を修正する第3の適応化部と、
前記第1の適応化部による前記話者適応層の適応化と前記第3の適応化部による前記話者適応層の適応化とを切り替える切り替え部と
を備えたことを特徴とする請求項1記載の話者適応化装置。 - 前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列を修正する第3の適応化部と、
前記第2の適応化部による前記話者適応層の適応化と前記第3の適応化部による前記話者適応層の適応化とを切り替える切り替え部と
を備えたことを特徴とする請求項2記載の話者適応化装置。 - 請求項1記載の話者適応化装置と、
前記ディープニューラルネットワークと、
話者適応化装置により適応対象話者に前記話者適応層が適応された前記ディープニューラルネットワークを用いて音声認識する音声認識部と
を備えたことを特徴とする音声認識装置。 - 請求項1記載の話者適応化装置が、前記ディープニューラルネットワークを適応対象の話者に適応させるステップと、
音声認識部が、適応対象話者に前記話者適応層が適応された前記ディープニューラルネットワークを用いて音声認識するステップと
を備えたことを特徴とする音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/073408 WO2018029777A1 (ja) | 2016-08-09 | 2016-08-09 | 話者適応化装置、音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6324647B1 JP6324647B1 (ja) | 2018-05-16 |
JPWO2018029777A1 true JPWO2018029777A1 (ja) | 2018-08-09 |
Family
ID=61161907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018506628A Active JP6324647B1 (ja) | 2016-08-09 | 2016-08-09 | 話者適応化装置、音声認識装置および音声認識方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6324647B1 (ja) |
WO (1) | WO2018029777A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6980603B2 (ja) * | 2018-06-21 | 2021-12-15 | 株式会社東芝 | 話者モデル作成システム、認識システム、プログラムおよび制御装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05274455A (ja) * | 1992-03-27 | 1993-10-22 | Toshiba Corp | ニューラルネットワーク装置 |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
-
2016
- 2016-08-09 JP JP2018506628A patent/JP6324647B1/ja active Active
- 2016-08-09 WO PCT/JP2016/073408 patent/WO2018029777A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP6324647B1 (ja) | 2018-05-16 |
WO2018029777A1 (ja) | 2018-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9824683B2 (en) | Data augmentation method based on stochastic feature mapping for automatic speech recognition | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
US9400955B2 (en) | Reducing dynamic range of low-rank decomposition matrices | |
KR102167719B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
Samarakoon et al. | Factorized hidden layer adaptation for deep neural network based acoustic modeling | |
US9653093B1 (en) | Generative modeling of speech using neural networks | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
JP2008203469A (ja) | 音声認識装置及び方法 | |
JP2018097191A (ja) | 言語記憶方法及び言語対話システム | |
Aggarwal et al. | Filterbank optimization for robust ASR using GA and PSO | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
Georges et al. | Compact speaker embedding: lrx-vector | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
CN116324973A (zh) | 包含时间缩减层的基于变换器的自动语音识别系统 | |
JP6324647B1 (ja) | 話者適応化装置、音声認識装置および音声認識方法 | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP6121187B2 (ja) | 音響モデル補正パラメータ推定装置、その方法及びプログラム | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
KR102292921B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
Cipli et al. | Multi-class acoustic event classification of hydrophone data | |
JP5694976B2 (ja) | 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
Tang et al. | Rapid speaker adaptation using clustered maximum-likelihood linear basis with sparse training data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180208 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180208 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20180208 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20180228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6324647 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |