JPWO2018029777A1 - 話者適応化装置、音声認識装置および音声認識方法 - Google Patents

話者適応化装置、音声認識装置および音声認識方法 Download PDF

Info

Publication number
JPWO2018029777A1
JPWO2018029777A1 JP2018506628A JP2018506628A JPWO2018029777A1 JP WO2018029777 A1 JPWO2018029777 A1 JP WO2018029777A1 JP 2018506628 A JP2018506628 A JP 2018506628A JP 2018506628 A JP2018506628 A JP 2018506628A JP WO2018029777 A1 JPWO2018029777 A1 JP WO2018029777A1
Authority
JP
Japan
Prior art keywords
adaptation
speaker
unit
layer
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018506628A
Other languages
English (en)
Other versions
JP6324647B1 (ja
Inventor
勇気 太刀岡
勇気 太刀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6324647B1 publication Critical patent/JP6324647B1/ja
Publication of JPWO2018029777A1 publication Critical patent/JPWO2018029777A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

適応化部(7)は、誤差算出部(6)に算出された誤差が減少するようにDNN(5)におけるノード間の接続重みを示す重み行列の重みを、学習話者数(N)ごとに、または学習話者数(N)ごとかつ話者適応層(5−3)の出力(xout)の次元数(Dout)ごとに算出する。

Description

この発明は、Deep Neural Network(以下、DNNと記載する)を用いた音響モデルを話者に適応させる話者適応化装置、これを用いた音声認識装置および音声認識方法に関する。
音声認識では、話者に音響モデルを適応化させることで認識性能が向上する。例えば、Hidden Markov Model(以下、HMMと記載する)を用いた音声認識では、音響特徴量の出力確率分布としてGaussian Mixture Model(以下、GMMと記載する)が広く利用されている(非特許文献1参照)。GMMでは、最尤基準に基づいてモデルパラメータを学習することで、モデルパラメータを話者に適応させている。ただし、音声認識の精度をさらに向上させるため、HMMを用いた音声認識において、GMMの代わりにDNNを用いることが提案されている。
DNNを用いた話者適応の手法として、例えば、特許文献1および非特許文献3に記載される適応方法が挙げられる。この適応方法では、DNNにおける複数のレイヤのうちの特定のレイヤを話者適応層としている。
また、非特許文献2には、i−ベクトルといった補助特徴量を用いてDNNを話者適応する技術が記載されている。
特開2015−102806号公報
MJF Gales, " Maximum Likelihood Linear Transformations for HMM−based Speech Recognition ", Computer Speech and Language, 12, 75−98, 1998. M. Delcroix, K. Kinoshita, T. Hori, and T. Nakatani, " Context Adaptive Deep Neural Networks for Fast Acoustic Model Adaptation ", Proceedings of ICASSP, 4535−4539, 2015. T. Ochiai, S. Matsuda, H. Watanabe, X. Lu, C. Hori, and S. Katagiri, " Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks ", Proceedings of ICASSP, 4605−4609, 2015.
特許文献1および非特許文献3に記載される適応方法は、適応データを大量に利用する場合は有効であるが、通常は、それほど多くの適応データを利用することは難しい。
また、非特許文献2に記載される適応方法では、補助特徴量を利用することから、話者適応における演算量が多く、補助特徴量の精度によって話者適応の精度が大きく変化するという課題があった。
この発明は上記課題を解決するもので、補助特徴量を利用することなく、適応データを大量に用いなくても、適切にDNNの話者適応を行うことができる話者適応化装置、音声認識装置および音声認識方法を得ることを目的とする。
この発明に係る話者適応化装置は、誤差算出部と第1の適応化部とを備える。誤差算出部は、入力層、出力層および入力層と出力層との間にある1層以上の中間層を有し、1層以上の中間層のいずれかに話者適応層があるDNNにおける出力層の出力データと教師データとの誤差を算出する。第1の適応化部は、学習話者の学習データから求められたDNNにおけるノード間の接続重みを示す重み行列を入力して、誤差算出部により算出された誤差が減少するように、話者適応層における重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ話者適応層の出力の次元数ごとに算出する。
この発明によれば、DNNの出力層の出力データと教師データとの誤差が減少するように話者適応層におけるノード間の接続重みを示す重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ話者適応層の出力の次元数ごとに算出している。従って、補助特徴量を利用せずにDNNの話者適応が可能である。また、適応データを大量に用いなくても適切にDNNの話者適応を行うことができる。
この発明の実施の形態1に係る音声認識装置の構成例を示すブロック図である。 実施の形態1に係る話者適応化装置およびDNNの構成例を示すブロック図である。 図3Aは、実施の形態1に係る話者適応化装置の機能を実現するハードウェア構成を示すブロック図である。図3Bは、実施の形態1に係る話者適応化装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 DNNの出力例を示す図である。 この発明の実施の形態2に係る音声認識装置の構成例を示すブロック図である。 実施の形態2に係る話者適応化装置およびDNNの構成例を示すブロック図である。 実施の形態2に係る音声認識装置の動作を示すフローチャートである。 この発明の実施の形態3におけるDNNの構成例を示す図である。 実施の形態3に係る話者適応化装置の動作の一部を示すフローチャートである。 この発明の実施の形態4に係る話者適応化装置およびDNNの構成例を示すブロック図である。 この発明の実施の形態5に係る話者適応化装置およびDNNの構成例を示すブロック図である。
以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置1の構成例を示すブロック図である。また、図2は、話者適応化装置4およびDNN5の構成例を示すブロック図である。
音声認識装置1は、図1に示すように、特徴量抽出部2、音声認識部3a,3b、話者適応化装置4およびDNN5を備える。また、話者適応化装置4は、図2に示すように、誤差算出部6、適応化部7および記憶部8を備える。
特徴量抽出部2は、不図示のマイクで集音された話者音声を入力し、入力した話者音声から音声の特徴量を抽出する。例えば、特徴量抽出部2は、話者音声に対して音響特徴量分析を施すことにより、特徴ベクトルの時系列を特徴量として抽出する。
音声認識部3aは、特徴量抽出部2により抽出された音声の特徴量に基づいて話者音声の音声認識を行い、この音声認識結果に基づいてアライメント情報を求める。
なお、アライメント情報とは、時系列の音声認識が得られたときに、各時刻とその時刻とにおけるHMMの状態(状態番号)である。
音声認識部3bは、適応対象話者に適応されたDNN5を用いて話者音声の音声認識を行う。この音声認識部3bにより得られた認識結果が、最終的な音声認識結果として後段の出力装置に出力される。
なお、図1では、音声認識部3aと音声認識部3bとを別々に設けた構成を示したが、音声認識部を1つとし、この音声認識部に双方の機能を持たせてもよい。
話者適応化装置4は、音声認識部3aから入力したアライメント情報に基づいて、DNN5を適応対象話者に適応させる。
DNN5は、多数の層を有するニューラルネットワークであり、入力層5−1、出力層5−5、および入力層5−1と出力層5−5との間に設けられた1層以上の中間層5−2〜5−4を有する。
入力層5−1は、DNN5で最初に情報が入力される層であって、複数の入力ノードを有する。出力層5−5は、認識対象の数の出力ノードを有する層である。中間層5−2〜5−4は、それぞれが複数のノードを有しており、これらのいずれか1つの層が話者適応のための中間層となる。図2の例では、中間層5−2と中間層5−4との間にある中間層が話者適応層5−3となっている。
誤差算出部6は、DNN5における出力層5−5の出力データと教師データとの誤差を算出する。例えば、誤差算出部6は、音声認識部3aから入力されたアライメント情報に基づいて、適応対象話者から発話された音声の特徴量が入力層5−1に入力されたときに出力層5−5から出力されるべき出力データを特定する。そして、誤差算出部6は、この出力データを教師データとして、実際に出力層5−5から出力されたデータとの間の誤差を算出する。このような誤差の算出方法は、誤差逆伝搬法として知られている。
適応化部7は、この発明における第1の適応化部を具体化したものであり、DNN5における話者適応層5−3を適応対象話者に適応させる。話者適応層5−3を適応対象話者に適応させる場合、適応対象話者の音声からなる適応データを用いれば、適応対象話者に対する話者適応の効果は高くなる。ただし、これには、適応対象話者の音声からなる適応データを大量に集める必要がある。
そこで、適応化部7は、DNN5における中間層5−2〜5−4のいずれか1つを話者適応層5−3とし、N人の学習話者の学習データでDNN5の学習を行って予め得られたN個の重み行列Wを話者適応に用いる。
なお、添え字nは、N人の学習話者のうちのいずれかの学習話者を示す添え字であり、1からNまでの正の整数である。DNN5の各ノードには、接続重みとバイアスとが付与されており、重み行列Wは、DNN5におけるノード間の接続重みを要素とする行列である。
適応化部7は、誤差算出部6により算出された誤差が減少するように話者適応層5−3における重み行列Wの重みwを算出する。
または、適応化部7は、重み行列Wの重みwを、話者適応層5−3の出力の次元数ごとに算出する。
記憶部8は、前述した特定の話者の特性によらない話者独立な学習データを記憶する。
実施の形態1における記憶部8には、N人の学習話者の学習データから求められた重み行列データ8−1〜8−Nが記憶される。なお、重み行列データ8−1〜8−Nは、重み行列W(n=1〜N)である。
図2では、話者適応化装置4が記憶部8を内蔵する構成を示したが、これに限定されるものではない。すなわち、記憶部8は、話者適応化装置4から読み出しが可能な外部記憶装置に構築されていてもよい。
話者適応化装置4における誤差算出部6と適応化部7の各機能は、処理回路により実現される。すなわち、話者適応化装置4は、DNN5における出力層5−5の出力データと教師データとの誤差を算出し、誤差が減少するように話者適応層5−3における重み行列Wの重みwを算出するための処理回路を備える。
処理回路は、専用のハードウェアであってもメモリに格納されるプログラムを実行するCPU(Central Processing Unit)であってもよい。
図3Aは、話者適応化装置4の機能を実現するハードウェアの処理回路を示しており、図3Bは、話者適応化装置4の機能を実現するソフトウェアを実行するハードウェア構成を示している。図3Aに示すように、処理回路が専用のハードウェアの処理回路100である場合、処理回路100は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化されたプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)、または、これらを組み合わせたものが該当する。誤差算出部6と適応化部7の各部の機能をそれぞれ処理回路で実現してもよいし、各部の機能をまとめて1つの処理回路で実現してもよい。
図3Bに示すように、処理回路がCPU101である場合、誤差算出部6と適応化部7の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせにより、実現される。ソフトウェアとファームウェアは、プログラムとして記述され、メモリ102に格納される。
CPU101は、メモリ102に格納されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、話者適応化装置4は、CPU101により実行されるときに、出力層5−5の出力データと教師データとの誤差を算出し、誤差が減少するように重みwを算出する処理が結果的に実行されるプログラムを格納するメモリ102を備えている。また、これらのプログラムは、誤差算出部6と適応化部7の手順または方法をコンピュータに実行させるものである。
メモリ102とは、例えば、RAM(Random Access Memory)、ROM、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disk)などが該当する。
なお、誤差算出部6と適応化部7の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、誤差算出部6は、専用のハードウェアの処理回路100でその機能を実現し、適応化部7は、CPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
次に動作について説明する。
図4は、音声認識装置1の動作を示すフローチャートである。
まず、特徴量抽出部2が、マイクで集音された話者音声を入力して、入力した音声から特徴量を抽出する(ステップST1)。音声の特徴量は、例えば、特徴ベクトルの時系列である。また、音声の特徴量を示すデータは、特徴量抽出部2から音声認識部3aおよびDNN5に入力される。
次に、音声認識部3aが、特徴量抽出部2により抽出された音声の特徴量に基づいて、話者音声の音声認識を行う(ステップST2)。
さらに、音声認識部3aは、この音声認識結果に基づいてアライメント情報を取得する(ステップST3)。このようにして得られたアライメント情報は、音声認識部3aから話者適応化装置4に入力される。
誤差算出部6は、適応対象話者の発話音声の特徴量が入力されたDNN5の出力データと教師データとの誤差を算出する(ステップST4)。教師データは、アライメント情報から決定される。
なお、アライメント情報は、前述したように教師データなしで音声認識部3aによって発話音声を音声認識して得てもよいが、適応対象話者の適応データが示す発話内容が既知であれば、この発話内容に基づいてアライメント情報を得てもよい。
適応化部7は、記憶部8からN個の重み行列Wを入力して、誤差算出部6により算出された誤差が減少するように重み行列Wの重みwを算出する(ステップST5)。
そして、適応化部7は、前述のようにして算出した重みwに基づいて、話者適応層5−3を適応対象話者に適応させる(ステップST6)。
例えば、実施の形態1では、話者適応層5−3の出力xoutが、下記式(1)に従って算出される。下記式(1)において、出力xoutは、複数の次元の要素を有したベクトルで表される。Wは学習話者nの学習データに対する重み行列であり、wは重み行列Wの重みである。このように下記式(1)では、各重み行列に対して1つの重みが規定されている。入力xinは、話者適応層5−3の前段にある中間層5−2の出力、すなわち、話者適応層5−3の入力である。入力xinは複数の次元の要素を有したベクトルで表される。
Figure 2018029777
適応対象話者から発話された音声の特徴量がDNN5の入力層5−1に入力されると、この情報が中間層5−2、話者適応層5−3、中間層5−4と順に伝搬して出力層5−5から出力される。
適応化部7は、入力層5−1に入力された音声の特徴量、アライメント情報および上記式(1)を用いて、話者適応層5−3の入力xinと話者適応層5−3の出力xoutとを求める。次に、適応化部7は、学習話者nの学習データに対する重み行列Wを記憶部8から読み出し、重み行列Wと入力xinと出力xoutとを用いて、上記式(1)に従って重みwを算出する。
適応化部7は、誤差算出部6により順次算出される誤差が減少するように重みwの値を修正する。そして、適応化部7は、上記誤差が予め定められた閾値よりも小さくなったときの重みwを、学習話者nの学習データの重み行列Wに対する最終的な重みとして上記式(1)に設定する。この処理は、適応化部7によってN個の重み行列Wの数だけ行われ、これにより、話者適応層5−3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はN個である。
なお、適応化部7は、話者適応層5−3の出力xoutを、下記式(2)に従って算出してもよい。下記式(2)において、“.*”はベクトルの要素ごとの積である。
また、重み行列Wの重みwは、出力xoutと同じ次元数Doutの要素を有したベクトルで表される。
Figure 2018029777
適応化部7は、誤差算出部6により順次算出される誤差が減少するように重みwの値を修正し、上記誤差が予め定められた閾値よりも小さくなったときの重みwを、学習話者nの学習データの重み行列Wに対する最終的な重みとして上記式(2)に設定する。
この処理は、適応化部7によってN個の重み行列Wのそれぞれで出力xoutの次元数だけ行われ、これにより話者適応層5−3が適応対象話者に適応される。
すなわち、出力xoutの次元数をDoutとした場合、適応が必要なパラメータの個数はN×Dout個である。
上記式(1)で得られる話者適応層5−3の出力xoutは、重みwで重み付けられた重み行列Wを用いて話者適応層5−3の入力xinを重み付けしたN個分の演算値を平均した値であったが、これに限定されるものではない。
例えば、下記式(3)に示すようにN個分の上記演算値のうちの最大値を出力xoutとしてもよい。また、maxは、行ごとに最大の要素を返すことを表している。
Figure 2018029777
また、適応化部7が、上記式(2)における重みwでベクトルの要素ごとに重み付けられた重み行列Wを用いて話者適応層5−3の入力xinを順次重み付けする。
このようにして得られたN×Dout個分の演算値のうちの最大値を話者適応層5−3の出力xoutとしてもよい。
ステップST7において、音声認識部3bは、話者適応層5−3が適応対象話者に適応されたDNN5を用いて音声認識を行う。例えば、DNN5の出力層5−5の出力は、音声認識に用いられるHMMの状態ごとの事後確率である。音声認識部3bは、出力層5−5から出力されるHMMの状態ごとの事後確率を用いて、特徴量抽出部2が抽出した音声の特徴量のパターンに対してパターンマッチングを行い、パターンマッチングに基づく類似度を算出する。音声認識部3bは、このようにして算出した類似度に基づいて音声認識結果を生成して出力する。
また、DNN5の中間層5−4からの出力を用いて音声認識を行ってもよい。
図5は、DNN5の出力例を示す図であり、中間層5−4で得られた特徴量を出力する場合を示している。この場合、中間層5−4からの出力は、例えば、ボトルネック特徴量として後段の音声認識部3bの音声認識に使用される。
ここで、ボトルネック特徴量とは、中間層のノード数を少なくしたボトルネック構造のDNN5から抽出される特徴量である。
以上のように、実施の形態1に係る話者適応化装置4において、適応化部7は、誤差算出部6により算出された誤差が減少するように、話者適応層5−3における重み行列Wの重みwを算出する。
または、適応化部7は、重み行列Wの重みwを、話者適応層5−3の出力xoutの次元数Doutごとに算出する。
従来の技術では、適応が必要なパラメータの個数がDin×Dout個となっていたが、話者適応化装置4では、パラメータの個数がN個またはN×Dout個となる。
このように、話者適応化装置4では、適応データを大量に用いなくても適切にDNN5の話者適応を行うことができる。
また、i−ベクトルといった補助特徴量が不要であるので、演算量が軽減され、さらに話者適応の精度が補助特徴量の精度に影響されることがない。
また、従来の技術では、話者適応を精度よく行うためには、多数の適応データが必要であった。これに対して、話者適応化装置4では、例えば上記式(1)〜(3)のように、N個分の平均値または最大値を出力xoutとしている。これにより、適応データが少なくても話者適応の精度を保つことができる。すなわち、適応データが少ない場合の頑健性を向上させることができる。
さらに、実施の形態1に係る音声認識装置1は、話者適応化装置4と、DNN5と、話者適応化装置4により話者適応層5−3が適応対象話者に適応されたDNN5を用いて、音声認識する音声認識部3bとを備える。このように構成することで、話者適応化装置4の上記効果が得られる音声認識装置1を実現することができる。
さらに、実施の形態1に係る音声認識方法では、話者適応化装置4が、DNN5を適応対象の話者に適応させるステップと、音声認識部3bが、話者適応層5−3が適応対象話者に適応されたDNN5を用いて音声認識するステップとを備える。これにより、話者適応化装置4の上記効果が得られる音声認識方法を提供することができる。
実施の形態2.
図6は、この発明の実施の形態2に係る音声認識装置1Aの構成例を示すブロック図である。図7は、話者適応化装置4AおよびDNN5Aの構成例を示すブロック図である。
音声認識装置1Aは、図6に示すように特徴量抽出部2、音声認識部3a,3b、話者適応化装置4AおよびDNN5Aを備える。
話者適応化装置4Aは、図7に示すように誤差算出部6、適応化部7Aおよび記憶部8を備える。なお、図6および図7において、図1および図2と同一の構成要素には同一の符号を付して説明を省略する。
話者適応化装置4Aは、話者適応層5A−3の出力xoutのオフセットoに基づいてDNN5Aを適応対象話者に適応させる。DNN5Aは、多数の層を有するニューラルネットワークであって、入力層5−1、出力層5−5、および入力層5−1と出力層5−5との間に設けられた1層以上の中間層5−2〜5−4を有する。図7では、中間層5−2と中間層5−4との間にある中間層が話者適応層5A−3となっている。
なお、話者適応層5A−3は、オフセットoに基づいて適応対象話者に適応された中間層である。
適応化部7Aは、この発明における第2の適応化部を具体化したものであって、DNN5Aにおける話者適応層5A−3を適応対象話者に適応させる。具体的には、適応化部7Aは、誤差算出部6により算出された誤差が減少するように、重み行列Wによって重み付けされた話者適応層5A−3の出力xoutのオフセットoを算出する。このとき、1次元のオフセットo、または話者適応層5A−3の出力xoutと同じ次元のオフセットoが算出される。
また、話者適応化装置4Aにおける誤差算出部6と適応化部7Aの各機能は、処理回路により実現される。誤差算出部6と適応化部7Aの各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7Aは、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
次に動作について説明する。
図8は、音声認識装置1Aの動作を示すフローチャートである。図8におけるステップST1からステップST4までの処理およびステップST7の処理は、図4と同様であるので、説明を省略する。
ステップST5aにおいて、適応化部7Aは、記憶部8からN個の重み行列Wを入力して、誤差算出部6により算出された誤差が減少するように、重み行列Wにより重み付けされた話者適応層5A−3の出力xoutのオフセットoを算出する。
この後に、適応化部7Aは、このようにして算出したオフセットoに基づいて、話者適応層5A−3を適応対象話者に適応させる(ステップST6a)。
例えば、実施の形態2では、話者適応層5A−3の出力xoutが下記式(4)に従って算出される。下記式(4)において、oは重み行列Wのオフセットである。
下記式(4)には、話者適応層5A−3の出力xoutのオフセットoとして1次元のオフセットが規定される。
Figure 2018029777
適応対象話者から発話された音声の特徴量が、DNN5Aの入力層5−1に入力されると、この情報が中間層5−2、話者適応層5A−3、中間層5−4と順に伝搬して出力層5−5から出力される。
適応化部7Aは、入力層5−1に入力された音声の特徴量とアライメント情報と上記式(4)とを用いて、話者適応層5A−3の入力xinと話者適応層5−3の出力xoutとを求める。次に、適応化部7Aは、学習話者nの学習データに対する重み行列Wを記憶部8から読み出し、重み行列Wと入力xinと出力xoutとを用い、上記式(4)に従ってオフセットoを算出する。
ここで、適応化部7Aは、誤差算出部6により順次算出された誤差が減少するように、オフセットoの値を修正する。次に、適応化部7Aは、誤差が予め定められた閾値よりも小さくなったときのオフセットoを、最終的なオフセットとして上記式(4)に設定する。この処理は、適応化部7AによってN個の重み行列Wの数だけ行われて、これにより、話者適応層5A−3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はN個である。
なお、適応化部7Aは、話者適応層5−3の出力xoutを下記式(5)に従って算出してもよい。下記式(5)におけるオフセットoは話者適応層5A−3の出力xoutと同じ次元数Doutの要素を有したベクトルとして表される。
Figure 2018029777
適応化部7Aは、誤差算出部6により順次算出される誤差が減少するようにオフセットoの値を修正する。次に、適応化部7Aは、誤差が予め定められた閾値よりも小さくなったときのオフセットoを最終的なオフセットとして上記式(5)に設定する。
この処理は、適応化部7AによってN個の重み行列Wのそれぞれで出力xoutの次元数Doutだけ行われ、これにより話者適応層5A−3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はN×Dout個である。
上記式(4)で得られる話者適応層5A−3の出力xoutは、重み行列Wで重み付けされた話者適応層5A−3の入力xinに1次元のオフセットoが加算されたN個分の演算値を平均した値であったが、これに限定されるものではない。
例えば、上記式(3)と同様に、N個分の上記演算値のうちの最大値を出力xoutとしてもよい。また、適応化部7Aが、重み行列Wで重み付けされた話者適応層5A−3の入力xinに、話者適応層5A−3の出力xoutと同じ次元のオフセットoを加算する。このように算出されたN×Dout個分の演算値のうちの最大値を、話者適応層5A−3の出力xoutとしてもよい。
以上のように、実施の形態2に係る話者適応化装置4Aにおいて、適応化部7Aは、誤差算出部6により算出された誤差が減少するように、1次元のオフセットoまたは話者適応層5A−3の出力xoutと同じ次元のオフセットoを算出する。
このようにオフセットoを適応させることで、適応が必要なパラメータの個数が、実施の形態1と同様にN個またはN×Dout個となる。従って、適応データを大量に用いなくても適切にDNN5Aの話者適応を行うことができる。
また、i−ベクトルといった補助特徴量が不要であるので、演算量が軽減され、さらに話者適応の精度が補助特徴量の精度に影響されることがない。
また、従来の技術では、話者適応を精度よく行うためには、多数の適応データが必要であった。これに対して、話者適応化装置4Aでは、例えば、N個分の平均値または最大値を出力xoutとすることで、話者適応の精度を保つことができる。すなわち、適応データが少ない場合の頑健性を向上させることができる。
さらに、実施の形態2に係る音声認識装置1Aは、話者適応化装置4Aと、DNN5Aと、話者適応化装置4Aにより話者適応層5−3が適応対象話者に適応されたDNN5Aを用いて音声認識する音声認識部3bとを備える。このように構成することで、話者適応化装置4Aの上記効果が得られる音声認識装置1Aを実現することができる。
さらに、実施の形態2に係る音声認識方法では、話者適応化装置4Aが、DNN5Aを適応対象の話者に適応させるステップと、音声認識部3bが、話者適応層5A−3が適応対象話者に適応されたDNN5Aを用いて音声認識するステップとを備える。
これにより、話者適応化装置4Aの上記効果が得られる音声認識方法を提供することができる。
実施の形態3.
実施の形態3に係る話者適応化装置は、話者適応層の出力のオフセットを算出することに加え、誤差算出部により算出された誤差が減少するように重み行列の重みを算出する。
そこで、以降の説明では、実施の形態3に係る話者適応化装置の構成については、図7を参照する。
図9は、この発明の実施の形態3におけるDNN5Bの構成例を示す図である。
なお、図9で記載を省略したが、入力層5−1と話者適応層5B−3との間および話者適応層5B−3と出力層5−5との間には、中間層5−2,5−4があるものとする。
図9に示すDNN5Bにおいて、話者適応層5B−3が、重み行列Wの重みwと出力xoutのオフセットoとによって適応対象話者に適応されている。
また、話者適応層5B−3には、重みwとして、上記式(1)と同様に、各重み行列に対して1つの重みが設定されており、オフセットoとして、上記式(4)と同様に、1次元のオフセットが設定されている。
話者適応層5B−3の入力をxin、出力をxoutとし、話者適応層5B−3の出力xoutは、例えば、winに対して1次元のオフセットoが加算された演算値のN個分の平均値で表される。また、N個分の上記演算値のうちの最大値を、話者適応層5B−3の出力xoutとしてもよい。
また、重み行列Wの重みwは、上記式(2)と同様に、話者適応層5B−3の出力xoutの次元数Doutごとに設定された重みであってもよい。さらに、出力xoutのオフセットoは、上記式(4)と同様に出力xoutと同じ次元のオフセットoであってもよい。この場合、話者適応層5B−3の出力xoutは、例えば、w.*(Win)に出力xoutと同じ次元のオフセットoが加算された演算値の平均値または最大値で表される。
さらに、話者適応層5B−3の出力xoutが、winに出力xoutと同じ次元のオフセットoが加算された演算値の平均値または最大値であってもよい。
さらに、話者適応層5B−3の出力xoutが、w.*(Win)に1次元のオフセットoが加算された演算値の平均値または最大値であってもよい。
すなわち、実施の形態3における話者適応層5B−3では、重み行列Wの重みwと話者適応層5B−3の出力のオフセットoとを組み合わせたパラメータで適応対象話者に適応されていればよい。
次に動作について説明する。
図10は、実施の形態3に係る話者適応化装置4Aの動作の一部を示すフローチャートであり、話者適応層5B−3の適応処理に関する部分を示している。なお、図10に示すステップST5bおよびステップST6bは、図8に示した一連の処理におけるステップST5aおよびステップST6aの代わりに実行される。
以降では、ステップST5bおよびステップST6b以外の処理については説明を省略する。
ステップST5bにおいて、適応化部7Aは、記憶部8からN個の重み行列Wを入力し、誤差算出部6により算出された誤差が減少するように、重み行列Wにより重み付けされた話者適応層5B−3の出力xoutのオフセットoを算出する。
さらに、適応化部7Aは、誤差算出部6によって算出された誤差が減少するように重み行列Wの重みwを算出する。
ステップST6bにおいて、適応化部7Aは、ステップST5bで算出したオフセットoと重みwとに基づいて、話者適応層5B−3を適応対象話者に適応させる。
以上のように、実施の形態3に係る話者適応化装置4Aにおいて、適応化部7Aは、出力xoutのオフセットoの算出に加え、誤差算出部6により算出された誤差が減少するように重み行列Wの重みwを算出する。
このように構成しても、適応データを大量に用いなくても適切にDNN5Bの話者適応を行うことができる。
実施の形態4.
実施の形態1〜3に係る話者適応化装置では、学習話者数Nが多くなると、これに伴い適応すべきパラメータの数も増加する。このため、学習話者の学習データの数Nが過度に多くなると、話者適応に要する演算量も過度に増えてしまう。
そこで、実施の形態4に係る話者適応化装置は、N個の重み行列WをNよりも少ない数MのクラスにクラスタリングしてM個の重み行列Wに減らす。これにより、Nが過度に多くなっても、話者適応に要する演算量の増加を軽減することができる。なお、添え字のmは、1からMまでの正の整数である。
図11は、この発明の実施の形態4に係る話者適応化装置4BおよびDNN5の構成例を示すブロック図である。話者適応化装置4Bは、誤差算出部6、適応化部7B、記憶部8およびクラスタリング部9を備える。なお、図11において、図2と同一の構成要素には同一の符号を付して説明を省略する。
クラスタリング部9は、記憶部8に記憶されたN個の重み行列Wをクラス10−1〜10−Mにクラスタリングして、M個の重み行列Wを求める。
なお、クラスタリングの方法としては、例えば、W間の距離に基づくk−meansクラスタリングが挙げられる。
また、クラスタリング部9が、重み行列Wをベクトル化してDin×Dout行、N列の行列を求めて、求めた行列に対してスペクトルクラスタリングを施してもよい。
以降、クラス10−1〜10−Mにクラスタリングされた重み行列をW’,・・・,W’とする。
適応化部7Bは、クラスタリングされた重み行列W’,・・・,W’を入力して、誤差算出部6により算出された誤差が減少するように、重み行列W’の重みwを算出する。例えば、話者適応層5−3の出力xoutが、下記式(6)に従って算出される。
下記式(6)において、W’は、クラス10−1〜10−Mにクラスタリングされた重み行列であり、wは、重み行列W’の重みである。
なお、下記式(6)では、クラス10−1〜10−Mの各重み行列に対して1つの重みが規定される。
Figure 2018029777
適応化部7Bは、誤差算出部6により順次算出される誤差が減少するように、重みwの値を修正する。次に、適応化部7Bは、上記誤差が予め定められた閾値よりも小さくなったときの重みwを、重み行列W’に対する最終的な重みとして上記式(6)に設定する。この処理は、適応化部7BによってM個の重み行列W’の数だけ行われ、これにより、話者適応層5−3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はM個である。
なお、適応化部7Bは、話者適応層5−3の出力xoutを、下記式(7)に従って算出してもよい。下記式(7)における重み行列W’の重みwは、出力xoutと同じ次元数Doutの要素を有したベクトルで表される。
Figure 2018029777
適応化部7Bは、誤差算出部6により順次算出される誤差が減少するように重みwの値を修正する。
次に、適応化部7Bは、誤差が予め定められた閾値よりも小さくなったときの重みwを、重み行列W’に対する最終的な重みとして上記式(7)に設定する。この処理は、適応化部7BによってM個の重み行列W’のそれぞれで出力xoutの次元数Doutだけ行われ、これにより話者適応層5−3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はM×Dout個である。
なお、上記式(6)および(7)は、出力xoutをM個の平均値としたが、M個のうちの最大値を出力xoutとしてもよい。
また、話者適応化装置4Bにおける誤差算出部6と適応化部7Bとクラスタリング部9の各機能は、処理回路により実現される。誤差算出部6と適応化部7Bとクラスタリング部9の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7Bおよびクラスタリング部9は、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
また、これまで、実施の形態1の構成にクラスタリング部9が設けられた場合を示したが、実施の形態2または実施の形態3の構成にクラスタリング部9を設けてもよい。
このように構成しても、話者適応に要する演算量の増加を軽減することができる。
例えば、実施の形態2の構成にクラスタリング部9を設けた場合、話者適応層5A−3が、出力xoutのオフセットoによって適応対象話者に適応される。
適応化部7Aは、上記式(4)または(5)におけるwとWとを、wとW’とに置き換えた式に従って、オフセットoを算出する。
さらに、実施の形態3の構成にクラスタリング部9を設けた場合、話者適応層5B−3が、重み行列W’の重みwと出力xoutのオフセットoとによって適応対象話者に適応される。適応化部7Aは、wとWとを、wとW’とに置き換えてオフセットoと重みwとを算出する。
以上のように、実施の形態4に係る話者適応化装置4Bは、クラスタリング部9を備える。クラスタリング部9は、重み行列Wを学習話者数Nよりも少ない数Mのクラスにクラスタリングする。実施の形態4における適応化部は、クラスタリング部9によりクラスタリングされた重みwおよびオフセットoのうちの少なくとも一方をクラスごとに算出する。これにより、Nが過度に多くなっても適切にDNN5の話者適応を行うことができる。
実施の形態5.
図12は、この発明の実施の形態5に係る話者適応化装置4CおよびDNN5の構成例を示すブロック図である。話者適応化装置4Cは、誤差算出部6、適応化部7,11、記憶部8および切り替え部12を備える。なお、図12において、図2と同一の構成要素には同一の符号を付して説明を省略する。
適応化部11は、この発明における第3の適応化部を具体化したものであり、DNN5における話者適応層5−3を適応対象話者に適応させる。具体的には、適応化部11が、記憶部8からN個の重み行列Wを入力して、誤差算出部6により算出された誤差が減少するように、話者適応層5−3における重み行列Wを修正する。
重み行列Wにより話者適応層5−3の入力xinが重み付けされるので、適応が必要なパラメータの個数はDin×Dout個となる。
切り替え部12は、予め定められた条件に応じて、適応化部7による話者適応層5−3の適応化と適応化部11による話者適応層5−3の適応化とを切り替える。
学習話者数Nが多い場合、N個の重み行列Wに基づいて話者適応を行った方が、重みwに基づく適応処理よりも話者適応の効果が大きくなる。
そこで、切り替え部12は、学習話者数Nが閾値以上になった場合、適応化部7による適応化から適応化部11による適応化へ切り替える。これにより、話者適応の効果を向上させることができる。
また、切り替え部12は、適応化部7による適応化および適応化部11による適応化のうち、誤差算出部6により算出された誤差が小さい方に切り替えてもよい。
また、話者適応化装置4Cにおける誤差算出部6と適応化部7と適応化部11と切り替え部12の各機能は、処理回路により実現される。誤差算出部6と適応化部7と適応化部11と切り替え部12の各機能について、一部を専用のハードウェアで実現して、一部をソフトウェアまたはファームウェアで実現してもよい。
例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7,11と切り替え部12とは、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
なお、図12では、適応化部11および切り替え部12を実施の形態1の構成に設けた場合を示したが、実施の形態2から実施の形態4までに示した各構成に設けてもよい。
すなわち、切り替え部12が、予め定められた条件に応じて、適応化部7Aまたは適応化部7Bによる適応化と、適応化部11による適応化とを切り替えるようにしてもよい。
以上のように、実施の形態5に係る話者適応化装置4Cは、適応化部11と切り替え部12とを備える。適応化部11は、誤差算出部6により算出された誤差が減少するように話者適応層5−3における重み行列Wを修正する。切り替え部12は、適応化部7による適応化と適応化部11による適応化とを切り替える。このように構成することで、話者適応の効果を向上させることができる。
なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせあるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る話者適応化装置は、HMMを用いた音声認識技術に広く適用することが可能である。
1,1A 音声認識装置、2 特徴量抽出部、3a,3b 音声認識部、4、4A〜4C 話者適応化装置、5,5A,5B DNN、5−1 入力層、5−2,5−4 中間層、5−3,5A−3,5B−3 話者適応層、5−5 出力層、6 誤差算出部、7,7A,7B,11 適応化部、8 記憶部、8−1〜8−N 重み行列データ、9 クラスタリング部、10−1〜10−M クラス、12 切り替え部、100 処理回路、101 CPU、102 メモリ。
この発明に係る話者適応化装置は、誤差算出部と第1の適応化部とを備える。誤差算出部は、入力層、出力層および入力層と出力層との間にある1層以上の中間層を有し、1層以上の中間層のいずれかに話者適応層があるDNNにおいて、適応対象話者の音声を入力データとして得られた出力層の出力データと教師データとの誤差を算出する。第1の適応化部は、適応対象話者以外の話者である学習話者の学習データから求められたDNNにおけるノード間の接続重みを示す重み行列を入力して、誤差算出部により算出された誤差が減少するように、話者適応層における重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ話者適応層の出力の次元数ごとに算出する。

Claims (10)

  1. 入力層、出力層および前記入力層と前記出力層との間にある1層以上の中間層を有し、前記1層以上の中間層のいずれかに話者適応層があるディープニューラルネットワークにおける前記出力層の出力データと教師データとの誤差を算出する誤差算出部と、
    学習話者の学習データから求められた前記ディープニューラルネットワークのノード間の接続重みを示す重み行列を入力して、前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ前記話者適応層の出力の次元数ごとに算出する第1の適応化部と
    を備えたことを特徴とする話者適応化装置。
  2. 入力層、出力層および前記入力層と前記出力層との間にある1層以上の中間層を有し、前記1層以上の中間層のいずれかに話者適応層があるディープニューラルネットワークにおける前記出力層の出力データと教師データとの誤差を算出する誤差算出部と、
    学習話者の学習データから求められた前記ディープニューラルネットワークのノード間の接続重みを示す重み行列を入力して、前記誤差算出部により算出された誤差が減少するように、前記重み行列により重み付けされた前記話者適応層の出力の1次元のオフセットまたは前記話者適応層の出力と同じ次元のオフセットを、学習話者数ごとに算出する第2の適応化部と
    を備えたことを特徴とする話者適応化装置。
  3. 前記第2の適応化部は、前記話者適応層の出力のオフセットの算出に加えて、前記誤差算出部により算出された誤差が減少するように、前記重み行列の重みを学習話者数ごとに算出することを特徴とする請求項2記載の話者適応化装置。
  4. 前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
    前記第1の適応化部は、前記重み行列の重みをクラスごとに算出することを特徴とする請求項1記載の話者適応化装置。
  5. 前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
    前記第2の適応化部は、前記重み行列のオフセットをクラスごとに算出することを特徴とする請求項2記載の話者適応化装置。
  6. 前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
    前記第2の適応化部は、前記話者適応層の出力のオフセットおよび前記重み行列の重みをクラスごとに算出することを特徴とする請求項3記載の話者適応化装置。
  7. 前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列を修正する第3の適応化部と、
    前記第1の適応化部による前記話者適応層の適応化と前記第3の適応化部による前記話者適応層の適応化とを切り替える切り替え部と
    を備えたことを特徴とする請求項1記載の話者適応化装置。
  8. 前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列を修正する第3の適応化部と、
    前記第2の適応化部による前記話者適応層の適応化と前記第3の適応化部による前記話者適応層の適応化とを切り替える切り替え部と
    を備えたことを特徴とする請求項2記載の話者適応化装置。
  9. 請求項1記載の話者適応化装置と、
    前記ディープニューラルネットワークと、
    話者適応化装置により適応対象話者に前記話者適応層が適応された前記ディープニューラルネットワークを用いて音声認識する音声認識部と
    を備えたことを特徴とする音声認識装置。
  10. 請求項1記載の話者適応化装置が、前記ディープニューラルネットワークを適応対象の話者に適応させるステップと、
    音声認識部が、適応対象話者に前記話者適応層が適応された前記ディープニューラルネットワークを用いて音声認識するステップと
    を備えたことを特徴とする音声認識方法。
JP2018506628A 2016-08-09 2016-08-09 話者適応化装置、音声認識装置および音声認識方法 Active JP6324647B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/073408 WO2018029777A1 (ja) 2016-08-09 2016-08-09 話者適応化装置、音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JP6324647B1 JP6324647B1 (ja) 2018-05-16
JPWO2018029777A1 true JPWO2018029777A1 (ja) 2018-08-09

Family

ID=61161907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018506628A Active JP6324647B1 (ja) 2016-08-09 2016-08-09 話者適応化装置、音声認識装置および音声認識方法

Country Status (2)

Country Link
JP (1) JP6324647B1 (ja)
WO (1) WO2018029777A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6980603B2 (ja) * 2018-06-21 2021-12-15 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274455A (ja) * 1992-03-27 1993-10-22 Toshiba Corp ニューラルネットワーク装置
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Also Published As

Publication number Publication date
JP6324647B1 (ja) 2018-05-16
WO2018029777A1 (ja) 2018-02-15

Similar Documents

Publication Publication Date Title
US9824683B2 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
US9400955B2 (en) Reducing dynamic range of low-rank decomposition matrices
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Samarakoon et al. Factorized hidden layer adaptation for deep neural network based acoustic modeling
US9653093B1 (en) Generative modeling of speech using neural networks
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
JP2008203469A (ja) 音声認識装置及び方法
JP2018097191A (ja) 言語記憶方法及び言語対話システム
Aggarwal et al. Filterbank optimization for robust ASR using GA and PSO
JP2010078650A (ja) 音声認識装置及びその方法
Georges et al. Compact speaker embedding: lrx-vector
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
CN116324973A (zh) 包含时间缩减层的基于变换器的自动语音识别系统
JP6324647B1 (ja) 話者適応化装置、音声認識装置および音声認識方法
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP6121187B2 (ja) 音響モデル補正パラメータ推定装置、その方法及びプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Cipli et al. Multi-class acoustic event classification of hydrophone data
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
Tang et al. Rapid speaker adaptation using clustered maximum-likelihood linear basis with sparse training data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180208

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180208

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180410

R150 Certificate of patent or registration of utility model

Ref document number: 6324647

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250