WO2018029777A1 - Speaker adaptation device, speech recognition apparatus and speech recognition method - Google Patents

Speaker adaptation device, speech recognition apparatus and speech recognition method Download PDF

Info

Publication number
WO2018029777A1
WO2018029777A1 PCT/JP2016/073408 JP2016073408W WO2018029777A1 WO 2018029777 A1 WO2018029777 A1 WO 2018029777A1 JP 2016073408 W JP2016073408 W JP 2016073408W WO 2018029777 A1 WO2018029777 A1 WO 2018029777A1
Authority
WO
WIPO (PCT)
Prior art keywords
adaptation
speaker
unit
layer
output
Prior art date
Application number
PCT/JP2016/073408
Other languages
French (fr)
Japanese (ja)
Inventor
勇気 太刀岡
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2016/073408 priority Critical patent/WO2018029777A1/en
Priority to JP2018506628A priority patent/JP6324647B1/en
Publication of WO2018029777A1 publication Critical patent/WO2018029777A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • FIG. 1 is a block diagram showing a configuration example of a speech recognition apparatus 1 according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram illustrating a configuration example of the speaker adaptation device 4 and the DNN 5.
  • the speech recognition apparatus 1 includes a feature amount extraction unit 2, speech recognition units 3 a and 3 b, a speaker adaptation device 4, and a DNN 5.
  • the speaker adaptation apparatus 4 is provided with the error calculation part 6, the adaptation part 7, and the memory
  • the input layer 5-1 is a layer in which information is first input by the DNN 5, and has a plurality of input nodes.
  • the output layer 5-5 is a layer having the number of output nodes to be recognized.
  • Each of the intermediate layers 5-2 to 5-4 has a plurality of nodes, and any one of these layers becomes an intermediate layer for speaker adaptation.
  • the middle layer between the middle layer 5-2 and the middle layer 5-4 is the speaker adaptation layer 5-3.
  • the storage unit 8 stores speaker-independent learning data that does not depend on the characteristics of the specific speaker described above.
  • weight matrix data 8-1 to 8-N obtained from learning data of N learning speakers are stored.
  • FIG. 2 shows a configuration in which the speaker adaptation device 4 includes the storage unit 8, the present invention is not limited to this. That is, the storage unit 8 may be constructed in an external storage device that can be read from the speaker adaptation device 4.
  • Each function of the error calculation unit 6 and the adaptation unit 7 in the speaker adaptation device 4 is realized by a processing circuit. That is, the speaker adaptation device 4 calculates the error between the output data of the output layer 5-5 and the teacher data in the DNN 5, and the weight of the weight matrix W n in the speaker adaptation layer 5-3 so that the error is reduced. comprising a processing circuit for calculating w n.
  • the processing circuit may be dedicated hardware or a CPU (Central Processing Unit) that executes a program stored in the memory.
  • the functions of the error calculation unit 6 and the adaptation unit 7 are realized by software, firmware, or a combination of software and firmware.
  • Software and firmware are described as programs and stored in the memory 102.
  • the CPU 101 reads out and executes the program stored in the memory 102, thereby realizing the functions of each unit. That is, the speaker adaptation apparatus 4, when executed by the CPU 101, calculates an error between the output data and the teacher data in the output layer 5-5, the process of calculating the weight w n so that the error is reduced
  • a memory 102 for storing a program to be executed as a result is provided.
  • these programs cause the computer to execute the procedures or methods of the error calculation unit 6 and the adaptation unit 7.
  • the speech recognition unit 3a performs speech recognition of the speaker speech based on the speech feature amount extracted by the feature amount extraction unit 2 (step ST2). Furthermore, the speech recognition unit 3a acquires alignment information based on the speech recognition result (step ST3). The alignment information obtained in this way is input to the speaker adaptation device 4 from the speech recognition unit 3a.
  • the error calculation unit 6 calculates an error between the output data of the DNN 5 to which the feature amount of the speech voice of the adaptation target speaker is input and the teacher data (step ST4).
  • the teacher data is determined from the alignment information.
  • the alignment information may be obtained by voice recognition of the utterance voice by the voice recognition unit 3a without teacher data. Alignment information may be obtained based on the utterance content.
  • Adaptation unit 7 corrects the value of the weight w n as error sequentially calculated by the error calculating unit 6 is reduced. Then, the adaptation unit 7 uses the weight (w n ) when the error is smaller than a predetermined threshold as the final weight for the weight matrix W n of the learning data of the learning speaker n (1) ). This process is performed by the number of N weight matrix W n by the adaptation unit 7, thereby, the speaker adaptation layer 5-3 is adapted to the adaptive target speaker. That is, the number of parameters that need to be adapted is N.
  • the output x out speaker adaptation layer 5-3 obtained by the above formula (1) was weighted input x in the speaker adaptation layer 5-3 with a weighting matrix W n of the weighted with weights w n N Although it was the value which averaged the operation value for each piece, it is not limited to this.
  • the maximum value among the N calculated values may be used as the output xout .
  • Max r represents returning the maximum element for each row.
  • the adaptation unit 7 uses the weight matrix in the speaker adaptation layer 5-3 so that the error calculated by the error calculation unit 6 is reduced. to calculate the weight w n of W n. Or, adaptation unit 7, the weight w n of the weight matrix W n, is calculated for each dimensionality D out of the output x out of the speaker adaptation layer 5-3.
  • the number of parameters that need to be adapted is D in ⁇ D out , but in the speaker adaptation device 4, the number of parameters is N or N ⁇ D out .
  • the speaker adaptation apparatus 4 can appropriately perform speaker adaptation of the DNN 5 without using a large amount of adaptation data. Further, since an auxiliary feature quantity such as an i-vector is unnecessary, the amount of calculation is reduced, and the accuracy of speaker adaptation is not affected by the accuracy of the auxiliary feature quantity.
  • the speech recognition apparatus 1 includes a speaker adaptation device 4, a DNN 5, and a DNN 5 in which the speaker adaptation layer 5-3 is adapted to the adaptation target speaker by the speaker adaptation device 4. And a voice recognition unit 3b for voice recognition. With this configuration, it is possible to realize the speech recognition device 1 that can obtain the above-described effects of the speaker adaptation device 4.
  • the adaptation unit 7A so that the error which is sequentially calculated by the error calculating unit 6 is reduced, to modify the value of the offset o n. Then, the adaptation unit 7A, sets the offset o n when the error is smaller than a predetermined threshold, the above formula as a final offset (4).
  • This process is performed by the number of N weight matrix W n by adaptation unit 7A, thereby, the speaker adaptation layer 5A-3 is adapted to the adaptive target speaker. That is, the number of parameters that need to be adapted is N.
  • adaptation unit 7A may calculate the output x out of the speaker adaptation layer 5-3 according to the following equation (5). Offset o n in formula (5) is expressed as a vector having the elements of the same number of dimensions D out and the output x out of the speaker adaptation layer 5A-3.
  • the adaptation unit 7A so that the error calculated by the error calculating unit 6 decreases, adaptive one-dimensional offset o n or speaker calculating the offset o n of the same dimensions as the output x out layer 5A-3.
  • the number of adaptive parameters require likewise a N number or N ⁇ D out pieces in the first embodiment. Accordingly, DNN5A speaker adaptation can be appropriately performed without using a large amount of adaptation data. Further, since an auxiliary feature quantity such as an i-vector is unnecessary, the amount of calculation is reduced, and the accuracy of speaker adaptation is not affected by the accuracy of the auxiliary feature quantity.
  • step ST5b the adaptation unit 7A inputs N weight matrices W n from the storage unit 8, and the speaker weighted by the weight matrix W n so that the error calculated by the error calculation unit 6 decreases. calculating the offset o n of output x out of the adaptive layer 5B-3. Furthermore, the adaptation unit 7A calculates the weight w n of the weight matrix W n as error calculated by the error calculating unit 6 is reduced. In step ST6b, adaptation unit 7A, based on the offset o n the weight w n calculated in step ST5b, adapt the speaker adaptation layer 5B-3 the adaptive target speaker.
  • Embodiment 4 FIG.
  • the speaker adaptation apparatus according to Embodiments 1 to 3 as the number N of learned speakers increases, the number of parameters to be adapted increases accordingly. For this reason, when the number N of learning data of a learning speaker increases excessively, the amount of calculation required for speaker adaptation also increases excessively. Therefore, the speaker adaptation apparatus according to the fourth embodiment clusters the N weight matrices W n into a number M classes smaller than N and reduces the number to M weight matrices W m . Thereby, even if N increases excessively, the increase in the amount of calculation required for speaker adaptation can be reduced.
  • the subscript m is a positive integer from 1 to M.
  • the adapting unit 7B corrects the value of the weight w m so that errors sequentially calculated by the error calculating unit 6 are reduced.
  • the adaptation unit 7B sets the weight w m when the error is smaller than a predetermined threshold as the final weight for the weight matrix W ′ m in the above formula (6).
  • This process is performed by the adaptation unit 7B by the number of M weight matrices W ′ m , and thereby the speaker adaptation layer 5-3 is adapted to the adaptation target speaker. That is, the number of parameters that need to be adapted is M.
  • the adaptation unit 7B may calculate the output x out of the speaker adaptation layer 5-3 according to the following equation (7).
  • the weight w m of the weight matrix W ′ m in the following equation (7) is represented by a vector having elements of the same dimensionality D out as the output x out .
  • the speaker adaptation layer 5B-3 the adaptive target speaker by the offset o m of the weight w m and the output x out of the weight matrix W 'm Adapted.
  • Adaptation unit 7A, the w n and W n, by replacing the w m and W 'm calculates the offset o m and weight w m.
  • each function of the error calculation unit 6, the adaptation unit 7, the adaptation unit 11, and the switching unit 12 in the speaker adaptation device 4C is realized by a processing circuit.
  • a part may be implement
  • the error calculation unit 6 realizes its function by the dedicated hardware processing circuit 100 shown in FIG. 3A, and the adaptation units 7 and 11 and the switching unit 12 are configured by the CPU 101 shown in FIG. The function is realized by executing the program stored in the.
  • the processing circuit can realize the above-described functions by hardware, software, firmware, or a combination thereof.

Abstract

An adaptation unit (7) calculates the weight of a weight matrix indicating a connection weight between nodes in a DNN (5) with respect to each number-of-learning-speakers (N), or with respect to each number-of-learning-speakers (N) and each number-of-dimensions (Dout) of an output (Xout) of a speaker adaptation layer (5-3) such that an error calculated by an error calculation unit (6) reduces.

Description

話者適応化装置、音声認識装置および音声認識方法Speaker adaptation device, speech recognition device, and speech recognition method
 この発明は、Deep Neural Network(以下、DNNと記載する)を用いた音響モデルを話者に適応させる話者適応化装置、これを用いた音声認識装置および音声認識方法に関する。 The present invention relates to a speaker adaptation device that adapts an acoustic model using a deep neural network (hereinafter referred to as DNN) to a speaker, a speech recognition device and a speech recognition method using the same.
 音声認識では、話者に音響モデルを適応化させることで認識性能が向上する。例えば、Hidden Markov Model(以下、HMMと記載する)を用いた音声認識では、音響特徴量の出力確率分布としてGaussian Mixture Model(以下、GMMと記載する)が広く利用されている(非特許文献1参照)。GMMでは、最尤基準に基づいてモデルパラメータを学習することで、モデルパラメータを話者に適応させている。ただし、音声認識の精度をさらに向上させるため、HMMを用いた音声認識において、GMMの代わりにDNNを用いることが提案されている。 In speech recognition, the recognition performance is improved by adapting the acoustic model to the speaker. For example, in speech recognition using a Hidden Markov Model (hereinafter referred to as HMM), Gaussian Mixture Model (hereinafter referred to as GMM) is widely used as an output probability distribution of acoustic features (Non-patent Document 1). reference). In GMM, model parameters are adapted to speakers by learning model parameters based on maximum likelihood criteria. However, in order to further improve the accuracy of speech recognition, it has been proposed to use DNN instead of GMM in speech recognition using HMM.
 DNNを用いた話者適応の手法として、例えば、特許文献1および非特許文献3に記載される適応方法が挙げられる。この適応方法では、DNNにおける複数のレイヤのうちの特定のレイヤを話者適応層としている。
 また、非特許文献2には、i-ベクトルといった補助特徴量を用いてDNNを話者適応する技術が記載されている。
Examples of speaker adaptation methods using DNN include adaptation methods described in Patent Literature 1 and Non-Patent Literature 3. In this adaptation method, a specific layer among a plurality of layers in DNN is used as a speaker adaptation layer.
Non-Patent Document 2 describes a technique for adapting a DNN to a speaker using an auxiliary feature such as an i-vector.
特開2015-102806号公報Japanese Patent Laying-Open No. 2015-102806
 特許文献1および非特許文献3に記載される適応方法は、適応データを大量に利用する場合は有効であるが、通常は、それほど多くの適応データを利用することは難しい。 The adaptation methods described in Patent Document 1 and Non-Patent Document 3 are effective when a large amount of adaptation data is used, but it is usually difficult to use so much adaptation data.
 また、非特許文献2に記載される適応方法では、補助特徴量を利用することから、話者適応における演算量が多く、補助特徴量の精度によって話者適応の精度が大きく変化するという課題があった。 In addition, since the adaptation method described in Non-Patent Document 2 uses auxiliary feature amounts, there is a problem that the amount of computation in speaker adaptation is large, and the accuracy of speaker adaptation greatly varies depending on the accuracy of the auxiliary feature amounts. there were.
 この発明は上記課題を解決するもので、補助特徴量を利用することなく、適応データを大量に用いなくても、適切にDNNの話者適応を行うことができる話者適応化装置、音声認識装置および音声認識方法を得ることを目的とする。 The present invention solves the above-mentioned problem, and does not use auxiliary feature amounts, and does not use a large amount of adaptation data. An object is to obtain a device and a speech recognition method.
 この発明に係る話者適応化装置は、誤差算出部と第1の適応化部とを備える。誤差算出部は、入力層、出力層および入力層と出力層との間にある1層以上の中間層を有し、1層以上の中間層のいずれかに話者適応層があるDNNにおける出力層の出力データと教師データとの誤差を算出する。第1の適応化部は、学習話者の学習データから求められたDNNにおけるノード間の接続重みを示す重み行列を入力して、誤差算出部により算出された誤差が減少するように、話者適応層における重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ話者適応層の出力の次元数ごとに算出する。 The speaker adaptation device according to the present invention includes an error calculation unit and a first adaptation unit. The error calculation unit includes an input layer, an output layer, and one or more intermediate layers between the input layer and the output layer, and an output in a DNN having a speaker adaptation layer in one of the one or more intermediate layers The error between the layer output data and the teacher data is calculated. The first adaptation unit inputs a weight matrix indicating connection weights between nodes in the DNN obtained from the learning data of the learning speaker, so that the error calculated by the error calculation unit is reduced. The weight of the weight matrix in the adaptation layer is calculated for each number of learning speakers, or for each number of learning speakers and for each dimension of the output of the speaker adaptation layer.
 この発明によれば、DNNの出力層の出力データと教師データとの誤差が減少するように話者適応層におけるノード間の接続重みを示す重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ話者適応層の出力の次元数ごとに算出している。従って、補助特徴量を利用せずにDNNの話者適応が可能である。また、適応データを大量に用いなくても適切にDNNの話者適応を行うことができる。 According to the present invention, the weight of the weight matrix indicating the connection weight between nodes in the speaker adaptation layer is reduced for each learning speaker number so that the error between the output data of the DNN output layer and the teacher data is reduced. It is calculated for each number of learning speakers and for each number of output dimensions of the speaker adaptation layer. Therefore, DNN speaker adaptation is possible without using auxiliary feature values. Also, DNN speaker adaptation can be performed appropriately without using a large amount of adaptation data.
この発明の実施の形態1に係る音声認識装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the speech recognition apparatus which concerns on Embodiment 1 of this invention. 実施の形態1に係る話者適応化装置およびDNNの構成例を示すブロック図である。It is a block diagram which shows the structural example of the speaker adaptation apparatus and DNN which concern on Embodiment 1. FIG. 図3Aは、実施の形態1に係る話者適応化装置の機能を実現するハードウェア構成を示すブロック図である。図3Bは、実施の形態1に係る話者適応化装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。FIG. 3A is a block diagram showing a hardware configuration for realizing the function of the speaker adaptation apparatus according to Embodiment 1. FIG. 3B is a block diagram illustrating a hardware configuration for executing software that implements the functions of the speaker adaptation device according to Embodiment 1. 実施の形態1に係る音声認識装置の動作を示すフローチャートである。3 is a flowchart showing an operation of the speech recognition apparatus according to the first embodiment. DNNの出力例を示す図である。It is a figure which shows the example of an output of DNN. この発明の実施の形態2に係る音声認識装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the speech recognition apparatus which concerns on Embodiment 2 of this invention. 実施の形態2に係る話者適応化装置およびDNNの構成例を示すブロック図である。It is a block diagram which shows the structural example of the speaker adaptation apparatus which concerns on Embodiment 2, and DNN. 実施の形態2に係る音声認識装置の動作を示すフローチャートである。6 is a flowchart showing the operation of the speech recognition apparatus according to the second embodiment. この発明の実施の形態3におけるDNNの構成例を示す図である。It is a figure which shows the structural example of DNN in Embodiment 3 of this invention. 実施の形態3に係る話者適応化装置の動作の一部を示すフローチャートである。10 is a flowchart showing a part of the operation of the speaker adaptation device according to the third exemplary embodiment. この発明の実施の形態4に係る話者適応化装置およびDNNの構成例を示すブロック図である。It is a block diagram which shows the structural example of the speaker adaptation apparatus and DNN which concern on Embodiment 4 of this invention. この発明の実施の形態5に係る話者適応化装置およびDNNの構成例を示すブロック図である。It is a block diagram which shows the structural example of the speaker adaptation apparatus and DNN which concern on Embodiment 5 of this invention.
 以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1に係る音声認識装置1の構成例を示すブロック図である。また、図2は、話者適応化装置4およびDNN5の構成例を示すブロック図である。
 音声認識装置1は、図1に示すように、特徴量抽出部2、音声認識部3a,3b、話者適応化装置4およびDNN5を備える。また、話者適応化装置4は、図2に示すように、誤差算出部6、適応化部7および記憶部8を備える。
Hereinafter, in order to describe the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a configuration example of a speech recognition apparatus 1 according to Embodiment 1 of the present invention. FIG. 2 is a block diagram illustrating a configuration example of the speaker adaptation device 4 and the DNN 5.
As shown in FIG. 1, the speech recognition apparatus 1 includes a feature amount extraction unit 2, speech recognition units 3 a and 3 b, a speaker adaptation device 4, and a DNN 5. Moreover, the speaker adaptation apparatus 4 is provided with the error calculation part 6, the adaptation part 7, and the memory | storage part 8, as shown in FIG.
 特徴量抽出部2は、不図示のマイクで集音された話者音声を入力し、入力した話者音声から音声の特徴量を抽出する。例えば、特徴量抽出部2は、話者音声に対して音響特徴量分析を施すことにより、特徴ベクトルの時系列を特徴量として抽出する。
 音声認識部3aは、特徴量抽出部2により抽出された音声の特徴量に基づいて話者音声の音声認識を行い、この音声認識結果に基づいてアライメント情報を求める。
 なお、アライメント情報とは、時系列の音声認識が得られたときに、各時刻とその時刻とにおけるHMMの状態(状態番号)である。
The feature amount extraction unit 2 inputs a speaker voice collected by a microphone (not shown), and extracts a voice feature amount from the input speaker voice. For example, the feature amount extraction unit 2 extracts a time series of feature vectors as a feature amount by performing an acoustic feature amount analysis on the speaker voice.
The voice recognition unit 3a performs voice recognition of the speaker voice based on the voice feature amount extracted by the feature amount extraction unit 2, and obtains alignment information based on the voice recognition result.
The alignment information is each time and the state (state number) of the HMM at the time when the time-series speech recognition is obtained.
 音声認識部3bは、適応対象話者に適応されたDNN5を用いて話者音声の音声認識を行う。この音声認識部3bにより得られた認識結果が、最終的な音声認識結果として後段の出力装置に出力される。
 なお、図1では、音声認識部3aと音声認識部3bとを別々に設けた構成を示したが、音声認識部を1つとし、この音声認識部に双方の機能を持たせてもよい。
The voice recognition unit 3b performs voice recognition of the speaker voice using the DNN 5 adapted to the adaptation target speaker. The recognition result obtained by the voice recognition unit 3b is output to a subsequent output device as a final voice recognition result.
Although FIG. 1 shows a configuration in which the voice recognition unit 3a and the voice recognition unit 3b are separately provided, one voice recognition unit may be provided, and the voice recognition unit may have both functions.
 話者適応化装置4は、音声認識部3aから入力したアライメント情報に基づいて、DNN5を適応対象話者に適応させる。
 DNN5は、多数の層を有するニューラルネットワークであり、入力層5-1、出力層5-5、および入力層5-1と出力層5-5との間に設けられた1層以上の中間層5-2~5-4を有する。
The speaker adaptation device 4 adapts the DNN 5 to the adaptation target speaker based on the alignment information input from the speech recognition unit 3a.
DNN5 is a neural network having a number of layers, and includes input layer 5-1, output layer 5-5, and one or more intermediate layers provided between input layer 5-1 and output layer 5-5. 5-2 to 5-4.
 入力層5-1は、DNN5で最初に情報が入力される層であって、複数の入力ノードを有する。出力層5-5は、認識対象の数の出力ノードを有する層である。中間層5-2~5-4は、それぞれが複数のノードを有しており、これらのいずれか1つの層が話者適応のための中間層となる。図2の例では、中間層5-2と中間層5-4との間にある中間層が話者適応層5-3となっている。 The input layer 5-1 is a layer in which information is first input by the DNN 5, and has a plurality of input nodes. The output layer 5-5 is a layer having the number of output nodes to be recognized. Each of the intermediate layers 5-2 to 5-4 has a plurality of nodes, and any one of these layers becomes an intermediate layer for speaker adaptation. In the example of FIG. 2, the middle layer between the middle layer 5-2 and the middle layer 5-4 is the speaker adaptation layer 5-3.
 誤差算出部6は、DNN5における出力層5-5の出力データと教師データとの誤差を算出する。例えば、誤差算出部6は、音声認識部3aから入力されたアライメント情報に基づいて、適応対象話者から発話された音声の特徴量が入力層5-1に入力されたときに出力層5-5から出力されるべき出力データを特定する。そして、誤差算出部6は、この出力データを教師データとして、実際に出力層5-5から出力されたデータとの間の誤差を算出する。このような誤差の算出方法は、誤差逆伝搬法として知られている。 The error calculation unit 6 calculates an error between the output data of the output layer 5-5 in the DNN 5 and the teacher data. For example, the error calculation unit 6 outputs the output layer 5- when the feature amount of the speech uttered from the adaptation target speaker is input to the input layer 5-1, based on the alignment information input from the speech recognition unit 3a. The output data to be output from 5 is specified. Then, the error calculation unit 6 calculates an error between the output data and the data actually output from the output layer 5-5 using the output data as teacher data. Such an error calculation method is known as an error back propagation method.
 適応化部7は、この発明における第1の適応化部を具体化したものであり、DNN5における話者適応層5-3を適応対象話者に適応させる。話者適応層5-3を適応対象話者に適応させる場合、適応対象話者の音声からなる適応データを用いれば、適応対象話者に対する話者適応の効果は高くなる。ただし、これには、適応対象話者の音声からなる適応データを大量に集める必要がある。 The adaptation unit 7 embodies the first adaptation unit of the present invention, and adapts the speaker adaptation layer 5-3 in the DNN 5 to the adaptation target speaker. When adapting the speaker adaptation layer 5-3 to the adaptation target speaker, if adaptation data composed of the speech of the adaptation target speaker is used, the effect of speaker adaptation on the adaptation target speaker is enhanced. However, for this purpose, it is necessary to collect a large amount of adaptation data consisting of the speech of the adaptation target speaker.
 そこで、適応化部7は、DNN5における中間層5-2~5-4のいずれか1つを話者適応層5-3とし、N人の学習話者の学習データでDNN5の学習を行って予め得られたN個の重み行列Wを話者適応に用いる。
 なお、添え字nは、N人の学習話者のうちのいずれかの学習話者を示す添え字であり、1からNまでの正の整数である。DNN5の各ノードには、接続重みとバイアスとが付与されており、重み行列Wは、DNN5におけるノード間の接続重みを要素とする行列である。
Therefore, the adaptation unit 7 sets any one of the intermediate layers 5-2 to 5-4 in the DNN 5 as the speaker adaptation layer 5-3, and learns the DNN 5 using the learning data of N learning speakers. N weight matrices W n obtained in advance are used for speaker adaptation.
The subscript n is a subscript indicating one of the N learning speakers, and is a positive integer from 1 to N. Each node of DNN 5 is given a connection weight and a bias, and weight matrix W n is a matrix having connection weights between nodes in DNN 5 as elements.
 適応化部7は、誤差算出部6により算出された誤差が減少するように話者適応層5-3における重み行列Wの重みwを算出する。
 または、適応化部7は、重み行列Wの重みwを、話者適応層5-3の出力の次元数ごとに算出する。
Adaptation unit 7 calculates the weight w n of the weight matrix W n in the speaker adaptation layer 5-3 as error calculated by the error calculating unit 6 is reduced.
Alternatively, the adaptation unit 7 calculates the weight w n of the weight matrix W n for each number of dimensions of the output of the speaker adaptation layer 5-3.
 記憶部8は、前述した特定の話者の特性によらない話者独立な学習データを記憶する。
 実施の形態1における記憶部8には、N人の学習話者の学習データから求められた重み行列データ8-1~8-Nが記憶される。なお、重み行列データ8-1~8-Nは、重み行列W(n=1~N)である。
 図2では、話者適応化装置4が記憶部8を内蔵する構成を示したが、これに限定されるものではない。すなわち、記憶部8は、話者適応化装置4から読み出しが可能な外部記憶装置に構築されていてもよい。
The storage unit 8 stores speaker-independent learning data that does not depend on the characteristics of the specific speaker described above.
In the storage unit 8 in the first embodiment, weight matrix data 8-1 to 8-N obtained from learning data of N learning speakers are stored. The weight matrix data 8-1 to 8-N are weight matrices W n (n = 1 to N).
Although FIG. 2 shows a configuration in which the speaker adaptation device 4 includes the storage unit 8, the present invention is not limited to this. That is, the storage unit 8 may be constructed in an external storage device that can be read from the speaker adaptation device 4.
 話者適応化装置4における誤差算出部6と適応化部7の各機能は、処理回路により実現される。すなわち、話者適応化装置4は、DNN5における出力層5-5の出力データと教師データとの誤差を算出し、誤差が減少するように話者適応層5-3における重み行列Wの重みwを算出するための処理回路を備える。
 処理回路は、専用のハードウェアであってもメモリに格納されるプログラムを実行するCPU(Central Processing Unit)であってもよい。
Each function of the error calculation unit 6 and the adaptation unit 7 in the speaker adaptation device 4 is realized by a processing circuit. That is, the speaker adaptation device 4 calculates the error between the output data of the output layer 5-5 and the teacher data in the DNN 5, and the weight of the weight matrix W n in the speaker adaptation layer 5-3 so that the error is reduced. comprising a processing circuit for calculating w n.
The processing circuit may be dedicated hardware or a CPU (Central Processing Unit) that executes a program stored in the memory.
 図3Aは、話者適応化装置4の機能を実現するハードウェアの処理回路を示しており、図3Bは、話者適応化装置4の機能を実現するソフトウェアを実行するハードウェア構成を示している。図3Aに示すように、処理回路が専用のハードウェアの処理回路100である場合、処理回路100は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化されたプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、または、これらを組み合わせたものが該当する。誤差算出部6と適応化部7の各部の機能をそれぞれ処理回路で実現してもよいし、各部の機能をまとめて1つの処理回路で実現してもよい。 FIG. 3A shows a hardware processing circuit that implements the function of the speaker adaptation device 4, and FIG. 3B shows a hardware configuration that executes software that implements the function of the speaker adaptation device 4. Yes. As shown in FIG. 3A, when the processing circuit is a dedicated hardware processing circuit 100, the processing circuit 100 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC ( Application Specific Integrated Circuit (FPGA), Field-Programmable Gate Array (FPGA), or a combination of these. The functions of each unit of the error calculation unit 6 and the adaptation unit 7 may be realized by a processing circuit, or the functions of each unit may be realized by a single processing circuit.
 図3Bに示すように、処理回路がCPU101である場合、誤差算出部6と適応化部7の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせにより、実現される。ソフトウェアとファームウェアは、プログラムとして記述され、メモリ102に格納される。
 CPU101は、メモリ102に格納されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、話者適応化装置4は、CPU101により実行されるときに、出力層5-5の出力データと教師データとの誤差を算出し、誤差が減少するように重みwを算出する処理が結果的に実行されるプログラムを格納するメモリ102を備えている。また、これらのプログラムは、誤差算出部6と適応化部7の手順または方法をコンピュータに実行させるものである。
As shown in FIG. 3B, when the processing circuit is the CPU 101, the functions of the error calculation unit 6 and the adaptation unit 7 are realized by software, firmware, or a combination of software and firmware. Software and firmware are described as programs and stored in the memory 102.
The CPU 101 reads out and executes the program stored in the memory 102, thereby realizing the functions of each unit. That is, the speaker adaptation apparatus 4, when executed by the CPU 101, calculates an error between the output data and the teacher data in the output layer 5-5, the process of calculating the weight w n so that the error is reduced A memory 102 for storing a program to be executed as a result is provided. In addition, these programs cause the computer to execute the procedures or methods of the error calculation unit 6 and the adaptation unit 7.
 メモリ102とは、例えば、RAM(Random Access Memory)、ROM、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disk)などが該当する。 The memory 102 is, for example, a nonvolatile or volatile semiconductor memory such as RAM (Random Access Memory), ROM, flash memory, EPROM (Erasable Programmable ROM), EEPROM (Electrically Programmable EPROM), magnetic disk, flexible disk, optical disk, Compact discs, mini discs, DVDs (Digital Versatile Disk), and the like are applicable.
 なお、誤差算出部6と適応化部7の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
 例えば、誤差算出部6は、専用のハードウェアの処理回路100でその機能を実現し、適応化部7は、CPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
 このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
In addition, about each function of the error calculation part 6 and the adaptation part 7, a part may be implement | achieved by exclusive hardware and a part may be implement | achieved by software or firmware.
For example, the error calculation unit 6 realizes its function by the dedicated hardware processing circuit 100, and the adaptation unit 7 realizes the function by the CPU 101 executing the program stored in the memory 102.
As described above, the processing circuit can realize the above-described functions by hardware, software, firmware, or a combination thereof.
 次に動作について説明する。
 図4は、音声認識装置1の動作を示すフローチャートである。
 まず、特徴量抽出部2が、マイクで集音された話者音声を入力して、入力した音声から特徴量を抽出する(ステップST1)。音声の特徴量は、例えば、特徴ベクトルの時系列である。また、音声の特徴量を示すデータは、特徴量抽出部2から音声認識部3aおよびDNN5に入力される。
Next, the operation will be described.
FIG. 4 is a flowchart showing the operation of the speech recognition apparatus 1.
First, the feature quantity extraction unit 2 inputs the speaker voice collected by the microphone, and extracts the feature quantity from the input voice (step ST1). The audio feature amount is, for example, a time series of feature vectors. Further, data indicating the voice feature amount is input from the feature amount extraction unit 2 to the voice recognition unit 3a and DNN5.
 次に、音声認識部3aが、特徴量抽出部2により抽出された音声の特徴量に基づいて、話者音声の音声認識を行う(ステップST2)。
 さらに、音声認識部3aは、この音声認識結果に基づいてアライメント情報を取得する(ステップST3)。このようにして得られたアライメント情報は、音声認識部3aから話者適応化装置4に入力される。
Next, the speech recognition unit 3a performs speech recognition of the speaker speech based on the speech feature amount extracted by the feature amount extraction unit 2 (step ST2).
Furthermore, the speech recognition unit 3a acquires alignment information based on the speech recognition result (step ST3). The alignment information obtained in this way is input to the speaker adaptation device 4 from the speech recognition unit 3a.
 誤差算出部6は、適応対象話者の発話音声の特徴量が入力されたDNN5の出力データと教師データとの誤差を算出する(ステップST4)。教師データは、アライメント情報から決定される。
 なお、アライメント情報は、前述したように教師データなしで音声認識部3aによって発話音声を音声認識して得てもよいが、適応対象話者の適応データが示す発話内容が既知であれば、この発話内容に基づいてアライメント情報を得てもよい。
The error calculation unit 6 calculates an error between the output data of the DNN 5 to which the feature amount of the speech voice of the adaptation target speaker is input and the teacher data (step ST4). The teacher data is determined from the alignment information.
As described above, the alignment information may be obtained by voice recognition of the utterance voice by the voice recognition unit 3a without teacher data. Alignment information may be obtained based on the utterance content.
 適応化部7は、記憶部8からN個の重み行列Wを入力して、誤差算出部6により算出された誤差が減少するように重み行列Wの重みwを算出する(ステップST5)。
 そして、適応化部7は、前述のようにして算出した重みwに基づいて、話者適応層5-3を適応対象話者に適応させる(ステップST6)。
Adaptation unit 7, from the storage unit 8 to input the N weight matrix W n, and calculates the weight w n of the weight matrix W n as error calculated by the error calculating unit 6 is reduced (step ST5 ).
The adaptation unit 7, based on the weight w n calculated in the manner described above, adapt the speaker adaptation layer 5-3 in the adaptive target speaker (step ST6).
 例えば、実施の形態1では、話者適応層5-3の出力xoutが、下記式(1)に従って算出される。下記式(1)において、出力xoutは、複数の次元の要素を有したベクトルで表される。Wは学習話者nの学習データに対する重み行列であり、wは重み行列Wの重みである。このように下記式(1)では、各重み行列に対して1つの重みが規定されている。入力xinは、話者適応層5-3の前段にある中間層5-2の出力、すなわち、話者適応層5-3の入力である。入力xinは複数の次元の要素を有したベクトルで表される。
Figure JPOXMLDOC01-appb-I000001
For example, in Embodiment 1, the output x out of the speaker adaptation layer 5-3 is calculated according to the following equation (1). In the following formula (1), the output x out is represented by a vector having elements of a plurality of dimensions. W n is a weight matrix for learning data of the learning speaker n, and w n is a weight of the weight matrix W n . Thus, in the following equation (1), one weight is defined for each weight matrix. The input x in is the output of the intermediate layer 5-2 preceding the speaker adaptation layer 5-3, that is, the input of the speaker adaptation layer 5-3. The input x in is represented by a vector having elements of a plurality of dimensions.
Figure JPOXMLDOC01-appb-I000001
 適応対象話者から発話された音声の特徴量がDNN5の入力層5-1に入力されると、この情報が中間層5-2、話者適応層5-3、中間層5-4と順に伝搬して出力層5-5から出力される。
 適応化部7は、入力層5-1に入力された音声の特徴量、アライメント情報および上記式(1)を用いて、話者適応層5-3の入力xinと話者適応層5-3の出力xoutとを求める。次に、適応化部7は、学習話者nの学習データに対する重み行列Wを記憶部8から読み出し、重み行列Wと入力xinと出力xoutとを用いて、上記式(1)に従って重みwを算出する。
When the feature amount of the speech uttered from the adaptation target speaker is input to the input layer 5-1 of the DNN 5, this information is sequentially input to the intermediate layer 5-2, the speaker adaptation layer 5-3, and the intermediate layer 5-4. Propagate and output from output layer 5-5.
The adaptation unit 7 uses the speech feature value, the alignment information, and the above equation (1) input to the input layer 5-1, and the input x in of the speaker adaptation layer 5-3 and the speaker adaptation layer 5- 3 output x out is obtained. Next, the adaptation unit 7 reads the weight matrix W n for the learning data of the learning speaker n from the storage unit 8, and uses the weight matrix W n , the input x in, and the output x out , the above equation (1). to calculate the weight w n in accordance with.
 適応化部7は、誤差算出部6により順次算出される誤差が減少するように重みwの値を修正する。そして、適応化部7は、上記誤差が予め定められた閾値よりも小さくなったときの重みwを、学習話者nの学習データの重み行列Wに対する最終的な重みとして上記式(1)に設定する。この処理は、適応化部7によってN個の重み行列Wの数だけ行われ、これにより、話者適応層5-3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はN個である。 Adaptation unit 7 corrects the value of the weight w n as error sequentially calculated by the error calculating unit 6 is reduced. Then, the adaptation unit 7 uses the weight (w n ) when the error is smaller than a predetermined threshold as the final weight for the weight matrix W n of the learning data of the learning speaker n (1) ). This process is performed by the number of N weight matrix W n by the adaptation unit 7, thereby, the speaker adaptation layer 5-3 is adapted to the adaptive target speaker. That is, the number of parameters that need to be adapted is N.
 なお、適応化部7は、話者適応層5-3の出力xoutを、下記式(2)に従って算出してもよい。下記式(2)において、“.*”はベクトルの要素ごとの積である。
 また、重み行列Wの重みwは、出力xoutと同じ次元数Doutの要素を有したベクトルで表される。
Figure JPOXMLDOC01-appb-I000002
The adaptation unit 7 may calculate the output x out of the speaker adaptation layer 5-3 according to the following equation (2). In the following formula (2), “. *” Is a product for each element of the vector.
The weight w n of the weight matrix W n is represented by a vector having the elements of the same number of dimensions D out and the output x out.
Figure JPOXMLDOC01-appb-I000002
 適応化部7は、誤差算出部6により順次算出される誤差が減少するように重みwの値を修正し、上記誤差が予め定められた閾値よりも小さくなったときの重みwを、学習話者nの学習データの重み行列Wに対する最終的な重みとして上記式(2)に設定する。
 この処理は、適応化部7によってN個の重み行列Wのそれぞれで出力xoutの次元数だけ行われ、これにより話者適応層5-3が適応対象話者に適応される。
 すなわち、出力xoutの次元数をDoutとした場合、適応が必要なパラメータの個数はN×Dout個である。
Adaptation unit 7, the weight w n when errors are sequentially calculated by the error calculating unit 6 modifies the value of the weight w n to decrease, becomes smaller than the threshold value the error predetermined as the final weight for weight matrix W n of the learning data of training speakers n is set to the above formula (2).
This process is performed by the adapting unit 7 for each of the N weight matrices W n by the number of dimensions of the output x out , whereby the speaker adaptation layer 5-3 is adapted to the adaptation target speaker.
That is, when the number of dimensions of the output x out is D out , the number of parameters that need to be adapted is N × D out .
 上記式(1)で得られる話者適応層5-3の出力xoutは、重みwで重み付けられた重み行列Wを用いて話者適応層5-3の入力xinを重み付けしたN個分の演算値を平均した値であったが、これに限定されるものではない。
 例えば、下記式(3)に示すようにN個分の上記演算値のうちの最大値を出力xoutとしてもよい。また、maxは、行ごとに最大の要素を返すことを表している。
Figure JPOXMLDOC01-appb-I000003
The output x out speaker adaptation layer 5-3 obtained by the above formula (1) was weighted input x in the speaker adaptation layer 5-3 with a weighting matrix W n of the weighted with weights w n N Although it was the value which averaged the operation value for each piece, it is not limited to this.
For example, as shown in the following formula (3), the maximum value among the N calculated values may be used as the output xout . Max r represents returning the maximum element for each row.
Figure JPOXMLDOC01-appb-I000003
 また、適応化部7が、上記式(2)における重みwでベクトルの要素ごとに重み付けられた重み行列Wを用いて話者適応層5-3の入力xinを順次重み付けする。
 このようにして得られたN×Dout個分の演算値のうちの最大値を話者適応層5-3の出力xoutとしてもよい。
Moreover, the adaptation unit 7 are sequentially weighted input x in the speaker adaptation layer 5-3 with a weighting matrix W n is a weighting for each element of the vector by the weight w n in the formula (2).
The maximum value among the N × D out operation values obtained in this way may be used as the output x out of the speaker adaptation layer 5-3.
 ステップST7において、音声認識部3bは、話者適応層5-3が適応対象話者に適応されたDNN5を用いて音声認識を行う。例えば、DNN5の出力層5-5の出力は、音声認識に用いられるHMMの状態ごとの事後確率である。音声認識部3bは、出力層5-5から出力されるHMMの状態ごとの事後確率を用いて、特徴量抽出部2が抽出した音声の特徴量のパターンに対してパターンマッチングを行い、パターンマッチングに基づく類似度を算出する。音声認識部3bは、このようにして算出した類似度に基づいて音声認識結果を生成して出力する。 In step ST7, the speech recognition unit 3b performs speech recognition using the DNN 5 in which the speaker adaptation layer 5-3 is adapted to the adaptation target speaker. For example, the output of the output layer 5-5 of the DNN 5 is a posterior probability for each state of the HMM used for speech recognition. The speech recognition unit 3b performs pattern matching on the feature pattern of the speech extracted by the feature extraction unit 2 using the posterior probability for each HMM state output from the output layer 5-5, and performs pattern matching. The similarity based on is calculated. The voice recognition unit 3b generates and outputs a voice recognition result based on the similarity calculated in this way.
 また、DNN5の中間層5-4からの出力を用いて音声認識を行ってもよい。
 図5は、DNN5の出力例を示す図であり、中間層5-4で得られた特徴量を出力する場合を示している。この場合、中間層5-4からの出力は、例えば、ボトルネック特徴量として後段の音声認識部3bの音声認識に使用される。
 ここで、ボトルネック特徴量とは、中間層のノード数を少なくしたボトルネック構造のDNN5から抽出される特徴量である。
Further, speech recognition may be performed using the output from the intermediate layer 5-4 of the DNN 5.
FIG. 5 is a diagram illustrating an output example of the DNN 5, and illustrates a case where the feature amount obtained in the intermediate layer 5-4 is output. In this case, the output from the intermediate layer 5-4 is used, for example, for speech recognition of the subsequent speech recognition unit 3b as a bottleneck feature amount.
Here, the bottleneck feature value is a feature value extracted from DNN 5 having a bottleneck structure in which the number of nodes in the intermediate layer is reduced.
 以上のように、実施の形態1に係る話者適応化装置4において、適応化部7は、誤差算出部6により算出された誤差が減少するように、話者適応層5-3における重み行列Wの重みwを算出する。
 または、適応化部7は、重み行列Wの重みwを、話者適応層5-3の出力xoutの次元数Doutごとに算出する。
 従来の技術では、適応が必要なパラメータの個数がDin×Dout個となっていたが、話者適応化装置4では、パラメータの個数がN個またはN×Dout個となる。
 このように、話者適応化装置4では、適応データを大量に用いなくても適切にDNN5の話者適応を行うことができる。
 また、i-ベクトルといった補助特徴量が不要であるので、演算量が軽減され、さらに話者適応の精度が補助特徴量の精度に影響されることがない。
As described above, in the speaker adaptation device 4 according to Embodiment 1, the adaptation unit 7 uses the weight matrix in the speaker adaptation layer 5-3 so that the error calculated by the error calculation unit 6 is reduced. to calculate the weight w n of W n.
Or, adaptation unit 7, the weight w n of the weight matrix W n, is calculated for each dimensionality D out of the output x out of the speaker adaptation layer 5-3.
In the conventional technique, the number of parameters that need to be adapted is D in × D out , but in the speaker adaptation device 4, the number of parameters is N or N × D out .
Thus, the speaker adaptation apparatus 4 can appropriately perform speaker adaptation of the DNN 5 without using a large amount of adaptation data.
Further, since an auxiliary feature quantity such as an i-vector is unnecessary, the amount of calculation is reduced, and the accuracy of speaker adaptation is not affected by the accuracy of the auxiliary feature quantity.
 また、従来の技術では、話者適応を精度よく行うためには、多数の適応データが必要であった。これに対して、話者適応化装置4では、例えば上記式(1)~(3)のように、N個分の平均値または最大値を出力xoutとしている。これにより、適応データが少なくても話者適応の精度を保つことができる。すなわち、適応データが少ない場合の頑健性を向上させることができる。 Further, in the conventional technique, a large amount of adaptation data is necessary to perform speaker adaptation with high accuracy. On the other hand, in the speaker adapting apparatus 4, for example, the average value or the maximum value of N pieces is set as the output xout as in the above formulas (1) to (3). Thereby, even if there is little adaptation data, the precision of speaker adaptation can be maintained. That is, robustness when there is little adaptive data can be improved.
 さらに、実施の形態1に係る音声認識装置1は、話者適応化装置4と、DNN5と、話者適応化装置4により話者適応層5-3が適応対象話者に適応されたDNN5を用いて、音声認識する音声認識部3bとを備える。このように構成することで、話者適応化装置4の上記効果が得られる音声認識装置1を実現することができる。 Furthermore, the speech recognition apparatus 1 according to the first embodiment includes a speaker adaptation device 4, a DNN 5, and a DNN 5 in which the speaker adaptation layer 5-3 is adapted to the adaptation target speaker by the speaker adaptation device 4. And a voice recognition unit 3b for voice recognition. With this configuration, it is possible to realize the speech recognition device 1 that can obtain the above-described effects of the speaker adaptation device 4.
 さらに、実施の形態1に係る音声認識方法では、話者適応化装置4が、DNN5を適応対象の話者に適応させるステップと、音声認識部3bが、話者適応層5-3が適応対象話者に適応されたDNN5を用いて音声認識するステップとを備える。これにより、話者適応化装置4の上記効果が得られる音声認識方法を提供することができる。 Furthermore, in the speech recognition method according to the first embodiment, the speaker adaptation device 4 adapts the DNN 5 to the adaptation target speaker, the speech recognition unit 3b, and the speaker adaptation layer 5-3 applies the adaptation target. Voice recognition using DNN5 adapted to the speaker. Thereby, the speech recognition method by which the said effect of the speaker adaptation apparatus 4 is acquired can be provided.
実施の形態2.
 図6は、この発明の実施の形態2に係る音声認識装置1Aの構成例を示すブロック図である。図7は、話者適応化装置4AおよびDNN5Aの構成例を示すブロック図である。
 音声認識装置1Aは、図6に示すように特徴量抽出部2、音声認識部3a,3b、話者適応化装置4AおよびDNN5Aを備える。
 話者適応化装置4Aは、図7に示すように誤差算出部6、適応化部7Aおよび記憶部8を備える。なお、図6および図7において、図1および図2と同一の構成要素には同一の符号を付して説明を省略する。
Embodiment 2. FIG.
FIG. 6 is a block diagram showing a configuration example of a speech recognition apparatus 1A according to Embodiment 2 of the present invention. FIG. 7 is a block diagram illustrating a configuration example of the speaker adaptation device 4A and the DNN 5A.
As shown in FIG. 6, the speech recognition apparatus 1A includes a feature amount extraction unit 2, speech recognition units 3a and 3b, a speaker adaptation device 4A, and a DNN 5A.
The speaker adaptation device 4A includes an error calculation unit 6, an adaptation unit 7A, and a storage unit 8, as shown in FIG. 6 and 7, the same components as those in FIGS. 1 and 2 are denoted by the same reference numerals, and description thereof is omitted.
 話者適応化装置4Aは、話者適応層5A-3の出力xoutのオフセットoに基づいてDNN5Aを適応対象話者に適応させる。DNN5Aは、多数の層を有するニューラルネットワークであって、入力層5-1、出力層5-5、および入力層5-1と出力層5-5との間に設けられた1層以上の中間層5-2~5-4を有する。図7では、中間層5-2と中間層5-4との間にある中間層が話者適応層5A-3となっている。
 なお、話者適応層5A-3は、オフセットoに基づいて適応対象話者に適応された中間層である。
Speaker adaptation apparatus 4A adapts the DNN5A based on the offset o n of output x out of the speaker adaptation layer 5A-3 to the adaptive target speaker. The DNN 5A is a neural network having a number of layers, and includes an input layer 5-1, an output layer 5-5, and one or more intermediate layers provided between the input layer 5-1 and the output layer 5-5. It has layers 5-2 to 5-4. In FIG. 7, the middle layer between the middle layer 5-2 and the middle layer 5-4 is the speaker adaptation layer 5A-3.
Incidentally, the speaker adaptation layer 5A-3 is an intermediate layer which is adapted to the adaptive target speaker based on the offset o n.
 適応化部7Aは、この発明における第2の適応化部を具体化したものであって、DNN5Aにおける話者適応層5A-3を適応対象話者に適応させる。具体的には、適応化部7Aは、誤差算出部6により算出された誤差が減少するように、重み行列Wによって重み付けされた話者適応層5A-3の出力xoutのオフセットoを算出する。このとき、1次元のオフセットo、または話者適応層5A-3の出力xoutと同じ次元のオフセットoが算出される。 The adaptation unit 7A embodies the second adaptation unit of the present invention, and adapts the speaker adaptation layer 5A-3 in the DNN 5A to the adaptation target speaker. Specifically, the adaptation unit 7A, so that the error calculated by the error calculating unit 6 is reduced, the offset o n of output x out of the speaker adaptation layer 5A-3 weighted by the weighting matrix W n calculate. In this case, one-dimensional offset o n or offset o n of the same dimensions as the output x out of the speaker adaptation layer 5A-3, are calculated.
 また、話者適応化装置4Aにおける誤差算出部6と適応化部7Aの各機能は、処理回路により実現される。誤差算出部6と適応化部7Aの各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
 例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7Aは、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
 このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
The functions of the error calculation unit 6 and the adaptation unit 7A in the speaker adaptation device 4A are realized by a processing circuit. About each function of the error calculation part 6 and the adaptation part 7A, a part may be implement | achieved by exclusive hardware and a part may be implement | achieved by software or firmware.
For example, the error calculation unit 6 realizes its function by the dedicated hardware processing circuit 100 shown in FIG. 3A, and the adaptation unit 7A executes the program stored in the memory 102 by the CPU 101 shown in FIG. 3B. The function is realized.
As described above, the processing circuit can realize the above-described functions by hardware, software, firmware, or a combination thereof.
 次に動作について説明する。
 図8は、音声認識装置1Aの動作を示すフローチャートである。図8におけるステップST1からステップST4までの処理およびステップST7の処理は、図4と同様であるので、説明を省略する。
 ステップST5aにおいて、適応化部7Aは、記憶部8からN個の重み行列Wを入力して、誤差算出部6により算出された誤差が減少するように、重み行列Wにより重み付けされた話者適応層5A-3の出力xoutのオフセットoを算出する。
 この後に、適応化部7Aは、このようにして算出したオフセットoに基づいて、話者適応層5A-3を適応対象話者に適応させる(ステップST6a)。
Next, the operation will be described.
FIG. 8 is a flowchart showing the operation of the speech recognition apparatus 1A. The processes from step ST1 to step ST4 and the process of step ST7 in FIG. 8 are the same as those in FIG.
In step ST5a, the adaptation unit 7A inputs N weight matrices W n from the storage unit 8, and the story weighted by the weight matrix W n so that the error calculated by the error calculation unit 6 decreases. calculating the offset o n the speaker adaptation layer 5A-3 output x out.
After this, the adaptation unit 7A, based on the offset o n calculated in this way, adapt the speaker adaptation layer 5A-3 to the adaptive target speaker (Step ST6a).
 例えば、実施の形態2では、話者適応層5A-3の出力xoutが下記式(4)に従って算出される。下記式(4)において、oは重み行列Wのオフセットである。
 下記式(4)には、話者適応層5A-3の出力xoutのオフセットoとして1次元のオフセットが規定される。
Figure JPOXMLDOC01-appb-I000004
For example, in the second embodiment, the output x out of the speaker adaptation layer 5A-3 is calculated according to the following equation (4). In the following formula (4), o n is the offset of the weight matrix W n.
The following equation (4), one-dimensional offset is defined as an offset o n of output x out of the speaker adaptation layer 5A-3.
Figure JPOXMLDOC01-appb-I000004
 適応対象話者から発話された音声の特徴量が、DNN5Aの入力層5-1に入力されると、この情報が中間層5-2、話者適応層5A-3、中間層5-4と順に伝搬して出力層5-5から出力される。
 適応化部7Aは、入力層5-1に入力された音声の特徴量とアライメント情報と上記式(4)とを用いて、話者適応層5A-3の入力xinと話者適応層5-3の出力xoutとを求める。次に、適応化部7Aは、学習話者nの学習データに対する重み行列Wを記憶部8から読み出し、重み行列Wと入力xinと出力xoutとを用い、上記式(4)に従ってオフセットoを算出する。
When the feature amount of the speech uttered from the adaptation target speaker is input to the input layer 5-1 of the DNN 5A, this information is stored in the intermediate layer 5-2, the speaker adaptation layer 5A-3, and the intermediate layer 5-4. Propagated in order and output from the output layer 5-5.
The adaptation unit 7A uses the speech feature amount and alignment information input to the input layer 5-1 and the above equation (4) to input the input x in of the speaker adaptation layer 5A-3 and the speaker adaptation layer 5 -3 output x out is obtained. Next, the adaptation unit 7A reads the weight matrix W n for the learning data of the learning speaker n from the storage unit 8, and uses the weight matrix W n , the input x in, and the output x out , according to the above equation (4). to calculate the offset o n.
 ここで、適応化部7Aは、誤差算出部6により順次算出された誤差が減少するように、オフセットoの値を修正する。次に、適応化部7Aは、誤差が予め定められた閾値よりも小さくなったときのオフセットoを、最終的なオフセットとして上記式(4)に設定する。この処理は、適応化部7AによってN個の重み行列Wの数だけ行われて、これにより、話者適応層5A-3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はN個である。 Here, the adaptation unit 7A, so that the error which is sequentially calculated by the error calculating unit 6 is reduced, to modify the value of the offset o n. Then, the adaptation unit 7A, sets the offset o n when the error is smaller than a predetermined threshold, the above formula as a final offset (4). This process is performed by the number of N weight matrix W n by adaptation unit 7A, thereby, the speaker adaptation layer 5A-3 is adapted to the adaptive target speaker. That is, the number of parameters that need to be adapted is N.
 なお、適応化部7Aは、話者適応層5-3の出力xoutを下記式(5)に従って算出してもよい。下記式(5)におけるオフセットoは話者適応層5A-3の出力xoutと同じ次元数Doutの要素を有したベクトルとして表される。
Figure JPOXMLDOC01-appb-I000005
Note that the adaptation unit 7A may calculate the output x out of the speaker adaptation layer 5-3 according to the following equation (5). Offset o n in formula (5) is expressed as a vector having the elements of the same number of dimensions D out and the output x out of the speaker adaptation layer 5A-3.
Figure JPOXMLDOC01-appb-I000005
 適応化部7Aは、誤差算出部6により順次算出される誤差が減少するようにオフセットoの値を修正する。次に、適応化部7Aは、誤差が予め定められた閾値よりも小さくなったときのオフセットoを最終的なオフセットとして上記式(5)に設定する。
 この処理は、適応化部7AによってN個の重み行列Wのそれぞれで出力xoutの次元数Doutだけ行われ、これにより話者適応層5A-3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はN×Dout個である。
Adaptation unit 7A modifies the value of the offset o n as error sequentially calculated by the error calculating unit 6 is reduced. Then, the adaptation unit 7A is set on the equation (5) the offset o n as the final offset when the error is smaller than a predetermined threshold.
This process is performed by the adapting unit 7A for each of the N weight matrices W n for the dimension D out of the output x out , and thereby the speaker adaptation layer 5A-3 is adapted to the adaptation target speaker. That is, the number of parameters requiring adaptation is N × D out .
 上記式(4)で得られる話者適応層5A-3の出力xoutは、重み行列Wで重み付けされた話者適応層5A-3の入力xinに1次元のオフセットoが加算されたN個分の演算値を平均した値であったが、これに限定されるものではない。
 例えば、上記式(3)と同様に、N個分の上記演算値のうちの最大値を出力xoutとしてもよい。また、適応化部7Aが、重み行列Wで重み付けされた話者適応層5A-3の入力xinに、話者適応層5A-3の出力xoutと同じ次元のオフセットoを加算する。このように算出されたN×Dout個分の演算値のうちの最大値を、話者適応層5A-3の出力xoutとしてもよい。
The output x out of the speaker adaptation layer 5A-3 obtained by the above formula (4), the one-dimensional offset o n the input x in the speaker adaptation layer 5A-3 weighted by the weighting matrix W n are added However, the average value of the calculated values for N is not limited to this.
For example, similarly to the above equation (3), the maximum value among the N calculated values may be used as the output xout . Moreover, the adaptation unit 7A is the input x in the speaker adaptation layer 5A-3 weighted by the weighting matrix W n, adds the offset o n of the same dimensions as the output x out of the speaker adaptation layer 5A-3 . The maximum value among the N × D out calculated values calculated in this way may be used as the output x out of the speaker adaptation layer 5A-3.
 以上のように、実施の形態2に係る話者適応化装置4Aにおいて、適応化部7Aは、誤差算出部6により算出された誤差が減少するように、1次元のオフセットoまたは話者適応層5A-3の出力xoutと同じ次元のオフセットoを算出する。
 このようにオフセットoを適応させることで、適応が必要なパラメータの個数が、実施の形態1と同様にN個またはN×Dout個となる。従って、適応データを大量に用いなくても適切にDNN5Aの話者適応を行うことができる。
 また、i-ベクトルといった補助特徴量が不要であるので、演算量が軽減され、さらに話者適応の精度が補助特徴量の精度に影響されることがない。
As described above, in the speaker adaptation apparatus 4A according to the second embodiment, the adaptation unit 7A, so that the error calculated by the error calculating unit 6 decreases, adaptive one-dimensional offset o n or speaker calculating the offset o n of the same dimensions as the output x out layer 5A-3.
By thus adapt the offset o n, the number of adaptive parameters require likewise a N number or N × D out pieces in the first embodiment. Accordingly, DNN5A speaker adaptation can be appropriately performed without using a large amount of adaptation data.
Further, since an auxiliary feature quantity such as an i-vector is unnecessary, the amount of calculation is reduced, and the accuracy of speaker adaptation is not affected by the accuracy of the auxiliary feature quantity.
 また、従来の技術では、話者適応を精度よく行うためには、多数の適応データが必要であった。これに対して、話者適応化装置4Aでは、例えば、N個分の平均値または最大値を出力xoutとすることで、話者適応の精度を保つことができる。すなわち、適応データが少ない場合の頑健性を向上させることができる。 Further, in the conventional technique, a large amount of adaptation data is necessary to perform speaker adaptation with high accuracy. On the other hand, in the speaker adapting apparatus 4A, for example, the accuracy of speaker adaptation can be maintained by setting the average value or maximum value for N as the output xout . That is, robustness when there is little adaptive data can be improved.
 さらに、実施の形態2に係る音声認識装置1Aは、話者適応化装置4Aと、DNN5Aと、話者適応化装置4Aにより話者適応層5-3が適応対象話者に適応されたDNN5Aを用いて音声認識する音声認識部3bとを備える。このように構成することで、話者適応化装置4Aの上記効果が得られる音声認識装置1Aを実現することができる。 Furthermore, the speech recognition apparatus 1A according to Embodiment 2 includes a speaker adaptation apparatus 4A, a DNN 5A, and a DNN 5A in which the speaker adaptation layer 5-3 is adapted to the adaptation target speaker by the speaker adaptation apparatus 4A. And a voice recognition unit 3b for voice recognition. With this configuration, it is possible to realize a speech recognition device 1A that can obtain the above-described effects of the speaker adaptation device 4A.
 さらに、実施の形態2に係る音声認識方法では、話者適応化装置4Aが、DNN5Aを適応対象の話者に適応させるステップと、音声認識部3bが、話者適応層5A-3が適応対象話者に適応されたDNN5Aを用いて音声認識するステップとを備える。
 これにより、話者適応化装置4Aの上記効果が得られる音声認識方法を提供することができる。
Furthermore, in the speech recognition method according to the second embodiment, the speaker adaptation device 4A adapts the DNN 5A to the adaptation target speaker, the speech recognition unit 3b, the speaker adaptation layer 5A-3 the adaptation target Voice recognition using DNN 5A adapted to the speaker.
Thereby, it is possible to provide a speech recognition method capable of obtaining the above effects of the speaker adaptation device 4A.
実施の形態3.
 実施の形態3に係る話者適応化装置は、話者適応層の出力のオフセットを算出することに加え、誤差算出部により算出された誤差が減少するように重み行列の重みを算出する。
 そこで、以降の説明では、実施の形態3に係る話者適応化装置の構成については、図7を参照する。
Embodiment 3 FIG.
In addition to calculating the offset of the speaker adaptation layer output, the speaker adaptation apparatus according to Embodiment 3 calculates the weight of the weight matrix so that the error calculated by the error calculation unit is reduced.
Therefore, in the following description, FIG. 7 is referred to for the configuration of the speaker adaptation device according to the third embodiment.
 図9は、この発明の実施の形態3におけるDNN5Bの構成例を示す図である。
 なお、図9で記載を省略したが、入力層5-1と話者適応層5B-3との間および話者適応層5B-3と出力層5-5との間には、中間層5-2,5-4があるものとする。
 図9に示すDNN5Bにおいて、話者適応層5B-3が、重み行列Wの重みwと出力xoutのオフセットoとによって適応対象話者に適応されている。
 また、話者適応層5B-3には、重みwとして、上記式(1)と同様に、各重み行列に対して1つの重みが設定されており、オフセットoとして、上記式(4)と同様に、1次元のオフセットが設定されている。
FIG. 9 is a diagram showing a configuration example of the DNN 5B according to the third embodiment of the present invention.
Although omitted in FIG. 9, the intermediate layer 5 is provided between the input layer 5-1 and the speaker adaptation layer 5B-3 and between the speaker adaptation layer 5B-3 and the output layer 5-5. -2, 5-4.
In DNN5B shown in FIG. 9, the speaker adaptation layer 5B-3, has been adapted to the adaptive target speaker by the offset o n the weight w n and the output x out of the weight matrix W n.
In addition, the speaker adaptation layer 5B-3, as the weight w n, similarly to the above formula (1), one weight is set for each weight matrix, as an offset o n, the above formula (4 ), A one-dimensional offset is set.
 話者適応層5B-3の入力をxin、出力をxoutとし、話者適応層5B-3の出力xoutは、例えば、winに対して1次元のオフセットoが加算された演算値のN個分の平均値で表される。また、N個分の上記演算値のうちの最大値を、話者適応層5B-3の出力xoutとしてもよい。 Enter the x in the speaker adaptation layer 5B-3, the output and x out, output x out of the speaker adaptation layer 5B-3 is, for example, is w n W n x in 1-dimensional offset o n against It is represented by an average value for N of the added operation values. Further, the maximum value among the N calculated values may be used as the output x out of the speaker adaptation layer 5B-3.
 また、重み行列Wの重みwは、上記式(2)と同様に、話者適応層5B-3の出力xoutの次元数Doutごとに設定された重みであってもよい。さらに、出力xoutのオフセットoは、上記式(4)と同様に出力xoutと同じ次元のオフセットoであってもよい。この場合、話者適応層5B-3の出力xoutは、例えば、w.*(Win)に出力xoutと同じ次元のオフセットoが加算された演算値の平均値または最大値で表される。 The weight w n of the weight matrix W n, similarly to the above formula (2) may be a weight set for each number of dimensions D out of the output x out of the speaker adaptation layer 5B-3. Further, the offset o n output x out may be offset o n of the same dimensions as well as the output x out in the above formula (4). In this case, the output x out of the speaker adaptation layer 5B-3 is, for example, w n . * (W n x in) to the offset o n of the same dimensions as the output x out is expressed by the average value or the maximum value of the summed calculated value.
 さらに、話者適応層5B-3の出力xoutが、winに出力xoutと同じ次元のオフセットoが加算された演算値の平均値または最大値であってもよい。
 さらに、話者適応層5B-3の出力xoutが、w.*(Win)に1次元のオフセットoが加算された演算値の平均値または最大値であってもよい。
 すなわち、実施の形態3における話者適応層5B-3では、重み行列Wの重みwと話者適応層5B-3の出力のオフセットoとを組み合わせたパラメータで適応対象話者に適応されていればよい。
Further, the output x out of the speaker adaptation layer 5B-3 may be an average value or the maximum value of calculation value w n W n x in the same dimension as the output x out offset o n is added.
Further, the output x out of the speaker adaptation layer 5B-3 becomes w n . * (W n x in) to one-dimensional offset o n may be an average value or the maximum value of the summed calculated value.
That is, in the speaker adaptation layer 5B-3 in the third embodiment, adapted to the adaptive target speaker by a parameter combining the offset o n the output of the weight w n with speaker adaptation layer 5B-3 the weighting matrix W n It only has to be done.
 次に動作について説明する。
 図10は、実施の形態3に係る話者適応化装置4Aの動作の一部を示すフローチャートであり、話者適応層5B-3の適応処理に関する部分を示している。なお、図10に示すステップST5bおよびステップST6bは、図8に示した一連の処理におけるステップST5aおよびステップST6aの代わりに実行される。
 以降では、ステップST5bおよびステップST6b以外の処理については説明を省略する。
Next, the operation will be described.
FIG. 10 is a flowchart showing a part of the operation of the speaker adaptation device 4A according to Embodiment 3, and shows a part related to the adaptation process of the speaker adaptation layer 5B-3. Note that step ST5b and step ST6b shown in FIG. 10 are executed instead of step ST5a and step ST6a in the series of processing shown in FIG.
Hereinafter, description of processes other than step ST5b and step ST6b is omitted.
 ステップST5bにおいて、適応化部7Aは、記憶部8からN個の重み行列Wを入力し、誤差算出部6により算出された誤差が減少するように、重み行列Wにより重み付けされた話者適応層5B-3の出力xoutのオフセットoを算出する。
 さらに、適応化部7Aは、誤差算出部6によって算出された誤差が減少するように重み行列Wの重みwを算出する。
 ステップST6bにおいて、適応化部7Aは、ステップST5bで算出したオフセットoと重みwとに基づいて、話者適応層5B-3を適応対象話者に適応させる。
In step ST5b, the adaptation unit 7A inputs N weight matrices W n from the storage unit 8, and the speaker weighted by the weight matrix W n so that the error calculated by the error calculation unit 6 decreases. calculating the offset o n of output x out of the adaptive layer 5B-3.
Furthermore, the adaptation unit 7A calculates the weight w n of the weight matrix W n as error calculated by the error calculating unit 6 is reduced.
In step ST6b, adaptation unit 7A, based on the offset o n the weight w n calculated in step ST5b, adapt the speaker adaptation layer 5B-3 the adaptive target speaker.
 以上のように、実施の形態3に係る話者適応化装置4Aにおいて、適応化部7Aは、出力xoutのオフセットoの算出に加え、誤差算出部6により算出された誤差が減少するように重み行列Wの重みwを算出する。
 このように構成しても、適応データを大量に用いなくても適切にDNN5Bの話者適応を行うことができる。
As described above, in the speaker adaptation apparatus 4A according to the third embodiment, the adaptation unit 7A, in addition to the calculation of the offset o n of output x out, so that the error calculated by the error calculating unit 6 is reduced to calculate the weight w n of the weighting matrix W n to.
Even with this configuration, DNN5B speaker adaptation can be appropriately performed without using a large amount of adaptation data.
実施の形態4.
 実施の形態1~3に係る話者適応化装置では、学習話者数Nが多くなると、これに伴い適応すべきパラメータの数も増加する。このため、学習話者の学習データの数Nが過度に多くなると、話者適応に要する演算量も過度に増えてしまう。
 そこで、実施の形態4に係る話者適応化装置は、N個の重み行列WをNよりも少ない数MのクラスにクラスタリングしてM個の重み行列Wに減らす。これにより、Nが過度に多くなっても、話者適応に要する演算量の増加を軽減することができる。なお、添え字のmは、1からMまでの正の整数である。
Embodiment 4 FIG.
In the speaker adaptation apparatus according to Embodiments 1 to 3, as the number N of learned speakers increases, the number of parameters to be adapted increases accordingly. For this reason, when the number N of learning data of a learning speaker increases excessively, the amount of calculation required for speaker adaptation also increases excessively.
Therefore, the speaker adaptation apparatus according to the fourth embodiment clusters the N weight matrices W n into a number M classes smaller than N and reduces the number to M weight matrices W m . Thereby, even if N increases excessively, the increase in the amount of calculation required for speaker adaptation can be reduced. The subscript m is a positive integer from 1 to M.
 図11は、この発明の実施の形態4に係る話者適応化装置4BおよびDNN5の構成例を示すブロック図である。話者適応化装置4Bは、誤差算出部6、適応化部7B、記憶部8およびクラスタリング部9を備える。なお、図11において、図2と同一の構成要素には同一の符号を付して説明を省略する。 FIG. 11 is a block diagram showing a configuration example of the speaker adaptation device 4B and DNN 5 according to Embodiment 4 of the present invention. The speaker adaptation device 4B includes an error calculation unit 6, an adaptation unit 7B, a storage unit 8, and a clustering unit 9. In FIG. 11, the same components as those in FIG.
 クラスタリング部9は、記憶部8に記憶されたN個の重み行列Wをクラス10-1~10-Mにクラスタリングして、M個の重み行列Wを求める。
 なお、クラスタリングの方法としては、例えば、W間の距離に基づくk-meansクラスタリングが挙げられる。
 また、クラスタリング部9が、重み行列Wをベクトル化してDin×Dout行、N列の行列を求めて、求めた行列に対してスペクトルクラスタリングを施してもよい。
 以降、クラス10-1~10-Mにクラスタリングされた重み行列をW’,・・・,W’とする。
The clustering unit 9 clusters the N weight matrices W n stored in the storage unit 8 into classes 10-1 to 10-M to obtain M weight matrices W m .
As a clustering method, for example, k-means clustering based on the distance between W n can be cited.
Further, the clustering unit 9 may vectorize the weight matrix W n to obtain a matrix of D in × D out rows and N columns, and perform spectrum clustering on the obtained matrix.
Hereinafter, a weight matrix clustered into classes 10-1 to 10-M is assumed to be W ′ 1 ,..., W ′ M.
 適応化部7Bは、クラスタリングされた重み行列W’,・・・,W’を入力して、誤差算出部6により算出された誤差が減少するように、重み行列W’の重みwを算出する。例えば、話者適応層5-3の出力xoutが、下記式(6)に従って算出される。
 下記式(6)において、W’は、クラス10-1~10-Mにクラスタリングされた重み行列であり、wは、重み行列W’の重みである。
 なお、下記式(6)では、クラス10-1~10-Mの各重み行列に対して1つの重みが規定される。
Figure JPOXMLDOC01-appb-I000006
The adaptation unit 7B receives the clustered weight matrices W ′ 1 ,..., W ′ M, and the weight w of the weight matrix W ′ m so that the error calculated by the error calculation unit 6 decreases. m is calculated. For example, the output x out of the speaker adaptation layer 5-3 is calculated according to the following equation (6).
In the following equation (6), W ′ m is a weight matrix clustered into classes 10-1 to 10-M, and w m is a weight of the weight matrix W ′ m .
In the following equation (6), one weight is defined for each weight matrix of classes 10-1 to 10-M.
Figure JPOXMLDOC01-appb-I000006
 適応化部7Bは、誤差算出部6により順次算出される誤差が減少するように、重みwの値を修正する。次に、適応化部7Bは、上記誤差が予め定められた閾値よりも小さくなったときの重みwを、重み行列W’に対する最終的な重みとして上記式(6)に設定する。この処理は、適応化部7BによってM個の重み行列W’の数だけ行われ、これにより、話者適応層5-3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はM個である。 The adapting unit 7B corrects the value of the weight w m so that errors sequentially calculated by the error calculating unit 6 are reduced. Next, the adaptation unit 7B sets the weight w m when the error is smaller than a predetermined threshold as the final weight for the weight matrix W ′ m in the above formula (6). This process is performed by the adaptation unit 7B by the number of M weight matrices W ′ m , and thereby the speaker adaptation layer 5-3 is adapted to the adaptation target speaker. That is, the number of parameters that need to be adapted is M.
 なお、適応化部7Bは、話者適応層5-3の出力xoutを、下記式(7)に従って算出してもよい。下記式(7)における重み行列W’の重みwは、出力xoutと同じ次元数Doutの要素を有したベクトルで表される。
Figure JPOXMLDOC01-appb-I000007
Note that the adaptation unit 7B may calculate the output x out of the speaker adaptation layer 5-3 according to the following equation (7). The weight w m of the weight matrix W ′ m in the following equation (7) is represented by a vector having elements of the same dimensionality D out as the output x out .
Figure JPOXMLDOC01-appb-I000007
 適応化部7Bは、誤差算出部6により順次算出される誤差が減少するように重みwの値を修正する。
 次に、適応化部7Bは、誤差が予め定められた閾値よりも小さくなったときの重みwを、重み行列W’に対する最終的な重みとして上記式(7)に設定する。この処理は、適応化部7BによってM個の重み行列W’のそれぞれで出力xoutの次元数Doutだけ行われ、これにより話者適応層5-3が適応対象話者に適応される。すなわち、適応が必要なパラメータの個数はM×Dout個である。
 なお、上記式(6)および(7)は、出力xoutをM個の平均値としたが、M個のうちの最大値を出力xoutとしてもよい。
The adapting unit 7B corrects the value of the weight w m so that the errors sequentially calculated by the error calculating unit 6 are reduced.
Next, the adaptation unit 7B sets the weight w m when the error is smaller than a predetermined threshold as the final weight for the weight matrix W ′ m in the above formula (7). This process is performed by the adapting unit 7B for each of the M weight matrices W ′ m for the dimension D out of the output x out , whereby the speaker adaptation layer 5-3 is adapted to the adaptation target speaker. . That is, the number of parameters that need to be adapted is M × D out .
In the above formulas (6) and (7), the output x out is the M average value, but the maximum value among the M values may be the output x out .
 また、話者適応化装置4Bにおける誤差算出部6と適応化部7Bとクラスタリング部9の各機能は、処理回路により実現される。誤差算出部6と適応化部7Bとクラスタリング部9の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。
 例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7Bおよびクラスタリング部9は、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
 このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
Further, the functions of the error calculation unit 6, the adaptation unit 7B, and the clustering unit 9 in the speaker adaptation device 4B are realized by a processing circuit. A part of the functions of the error calculation unit 6, the adaptation unit 7B, and the clustering unit 9 may be realized by dedicated hardware, and a part may be realized by software or firmware.
For example, the error calculation unit 6 realizes its function with the dedicated hardware processing circuit 100 shown in FIG. 3A, and the adaptation unit 7B and the clustering unit 9 store the CPU 101 shown in FIG. This function is realized by executing the program.
As described above, the processing circuit can realize the above-described functions by hardware, software, firmware, or a combination thereof.
 また、これまで、実施の形態1の構成にクラスタリング部9が設けられた場合を示したが、実施の形態2または実施の形態3の構成にクラスタリング部9を設けてもよい。
 このように構成しても、話者適応に要する演算量の増加を軽減することができる。
Further, the case where the clustering unit 9 is provided in the configuration of the first embodiment has been described so far, but the clustering unit 9 may be provided in the configuration of the second or third embodiment.
Even if comprised in this way, the increase in the computational complexity required for speaker adaptation can be reduced.
 例えば、実施の形態2の構成にクラスタリング部9を設けた場合、話者適応層5A-3が、出力xoutのオフセットoによって適応対象話者に適応される。
 適応化部7Aは、上記式(4)または(5)におけるwとWとを、wとW’とに置き換えた式に従って、オフセットoを算出する。
For example, the case of providing the clustering portion 9 to the configuration of the second embodiment, the speaker adaptation layer 5A-3, is adapted to the adaptive target speaker by the offset o m output x out.
Adaptation unit 7A in accordance with a w n and W n in the formula (4) or (5) was replaced with the w m and W 'm wherein calculating the offset o m.
 さらに、実施の形態3の構成にクラスタリング部9を設けた場合、話者適応層5B-3が、重み行列W’の重みwと出力xoutのオフセットoとによって適応対象話者に適応される。適応化部7Aは、wとWとを、wとW’とに置き換えてオフセットoと重みwとを算出する。 Furthermore, the case of providing the clustering portion 9 to the configuration of the third embodiment, the speaker adaptation layer 5B-3, the adaptive target speaker by the offset o m of the weight w m and the output x out of the weight matrix W 'm Adapted. Adaptation unit 7A, the w n and W n, by replacing the w m and W 'm calculates the offset o m and weight w m.
 以上のように、実施の形態4に係る話者適応化装置4Bは、クラスタリング部9を備える。クラスタリング部9は、重み行列Wを学習話者数Nよりも少ない数Mのクラスにクラスタリングする。実施の形態4における適応化部は、クラスタリング部9によりクラスタリングされた重みwおよびオフセットoのうちの少なくとも一方をクラスごとに算出する。これにより、Nが過度に多くなっても適切にDNN5の話者適応を行うことができる。 As described above, the speaker adaptation device 4B according to Embodiment 4 includes the clustering unit 9. The clustering unit 9 clusters the weight matrix W n into a number M of classes smaller than the learning speaker number N. Adaptation unit according to the fourth embodiment is calculated for each class at least one of the weights w m and offset o m which is clustered by the clustering unit 9. Thereby, even if N increases excessively, the speaker adaptation of DNN5 can be performed appropriately.
実施の形態5.
 図12は、この発明の実施の形態5に係る話者適応化装置4CおよびDNN5の構成例を示すブロック図である。話者適応化装置4Cは、誤差算出部6、適応化部7,11、記憶部8および切り替え部12を備える。なお、図12において、図2と同一の構成要素には同一の符号を付して説明を省略する。
Embodiment 5 FIG.
FIG. 12 is a block diagram showing a configuration example of the speaker adaptation device 4C and DNN5 according to the fifth embodiment of the present invention. The speaker adaptation device 4 </ b> C includes an error calculation unit 6, adaptation units 7 and 11, a storage unit 8, and a switching unit 12. In FIG. 12, the same components as those in FIG.
 適応化部11は、この発明における第3の適応化部を具体化したものであり、DNN5における話者適応層5-3を適応対象話者に適応させる。具体的には、適応化部11が、記憶部8からN個の重み行列Wを入力して、誤差算出部6により算出された誤差が減少するように、話者適応層5-3における重み行列Wを修正する。
 重み行列Wにより話者適応層5-3の入力xinが重み付けされるので、適応が必要なパラメータの個数はDin×Dout個となる。
The adaptation unit 11 embodies the third adaptation unit of the present invention, and adapts the speaker adaptation layer 5-3 in the DNN 5 to the adaptation target speaker. Specifically, the adaptation unit 11 inputs N weight matrices W n from the storage unit 8 so that the error calculated by the error calculation unit 6 is reduced in the speaker adaptation layer 5-3. to modify the weighting matrix W n.
Since the input x in of the speaker adaptation layer 5-3 is weighted by the weight matrix W n , the number of parameters that need to be adapted is D in × D out .
 切り替え部12は、予め定められた条件に応じて、適応化部7による話者適応層5-3の適応化と適応化部11による話者適応層5-3の適応化とを切り替える。
 学習話者数Nが多い場合、N個の重み行列Wに基づいて話者適応を行った方が、重みwに基づく適応処理よりも話者適応の効果が大きくなる。
The switching unit 12 switches between adaptation of the speaker adaptation layer 5-3 by the adaptation unit 7 and adaptation of the speaker adaptation layer 5-3 by the adaptation unit 11 in accordance with a predetermined condition.
If learning speaker number N is large, who was speaker adaptation based on the N-number of the weight matrix W n is, the effect of the speaker adaptation than the adaptation process based on the weight w n increases.
 そこで、切り替え部12は、学習話者数Nが閾値以上になった場合、適応化部7による適応化から適応化部11による適応化へ切り替える。これにより、話者適応の効果を向上させることができる。
 また、切り替え部12は、適応化部7による適応化および適応化部11による適応化のうち、誤差算出部6により算出された誤差が小さい方に切り替えてもよい。
Therefore, the switching unit 12 switches from adaptation by the adaptation unit 7 to adaptation by the adaptation unit 11 when the learning speaker number N is equal to or greater than the threshold. Thereby, the effect of speaker adaptation can be improved.
In addition, the switching unit 12 may switch between the adaptation performed by the adaptation unit 7 and the adaptation performed by the adaptation unit 11 so that the error calculated by the error calculation unit 6 is smaller.
 また、話者適応化装置4Cにおける誤差算出部6と適応化部7と適応化部11と切り替え部12の各機能は、処理回路により実現される。誤差算出部6と適応化部7と適応化部11と切り替え部12の各機能について、一部を専用のハードウェアで実現して、一部をソフトウェアまたはファームウェアで実現してもよい。
 例えば、誤差算出部6は、図3Aに示した専用のハードウェアの処理回路100でその機能を実現し、適応化部7,11と切り替え部12とは、図3Bに示したCPU101がメモリ102に格納されたプログラム実行することにより、その機能を実現する。
 このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
Moreover, each function of the error calculation unit 6, the adaptation unit 7, the adaptation unit 11, and the switching unit 12 in the speaker adaptation device 4C is realized by a processing circuit. About each function of the error calculation part 6, the adaptation part 7, the adaptation part 11, and the switching part 12, a part may be implement | achieved by exclusive hardware and a part may be implement | achieved by software or firmware.
For example, the error calculation unit 6 realizes its function by the dedicated hardware processing circuit 100 shown in FIG. 3A, and the adaptation units 7 and 11 and the switching unit 12 are configured by the CPU 101 shown in FIG. The function is realized by executing the program stored in the.
As described above, the processing circuit can realize the above-described functions by hardware, software, firmware, or a combination thereof.
 なお、図12では、適応化部11および切り替え部12を実施の形態1の構成に設けた場合を示したが、実施の形態2から実施の形態4までに示した各構成に設けてもよい。
 すなわち、切り替え部12が、予め定められた条件に応じて、適応化部7Aまたは適応化部7Bによる適応化と、適応化部11による適応化とを切り替えるようにしてもよい。
FIG. 12 shows the case where the adaptation unit 11 and the switching unit 12 are provided in the configuration of the first embodiment. However, the adaptation unit 11 and the switching unit 12 may be provided in each configuration described in the second to fourth embodiments. .
That is, the switching unit 12 may switch between adaptation by the adaptation unit 7A or the adaptation unit 7B and adaptation by the adaptation unit 11 according to a predetermined condition.
 以上のように、実施の形態5に係る話者適応化装置4Cは、適応化部11と切り替え部12とを備える。適応化部11は、誤差算出部6により算出された誤差が減少するように話者適応層5-3における重み行列Wを修正する。切り替え部12は、適応化部7による適応化と適応化部11による適応化とを切り替える。このように構成することで、話者適応の効果を向上させることができる。 As described above, the speaker adaptation device 4C according to the fifth embodiment includes the adaptation unit 11 and the switching unit 12. The adaptation unit 11 modifies the weight matrix W n in the speaker adaptation layer 5-3 so that the error calculated by the error calculation unit 6 is reduced. The switching unit 12 switches between adaptation by the adaptation unit 7 and adaptation by the adaptation unit 11. With this configuration, the effect of speaker adaptation can be improved.
 なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせあるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In the present invention, within the scope of the invention, a free combination of each embodiment, a modification of an arbitrary component of each embodiment, or an omission of any component in each embodiment is possible.
 この発明に係る話者適応化装置は、HMMを用いた音声認識技術に広く適用することが可能である。 The speaker adaptation device according to the present invention can be widely applied to speech recognition technology using HMM.
 1,1A 音声認識装置、2 特徴量抽出部、3a,3b 音声認識部、4、4A~4C 話者適応化装置、5,5A,5B DNN、5-1 入力層、5-2,5-4 中間層、5-3,5A-3,5B-3 話者適応層、5-5 出力層、6 誤差算出部、7,7A,7B,11 適応化部、8 記憶部、8-1~8-N 重み行列データ、9 クラスタリング部、10-1~10-M クラス、12 切り替え部、100 処理回路、101 CPU、102 メモリ。 1, 1A speech recognition device, 2 feature extraction unit, 3a, 3b speech recognition unit, 4, 4A-4C speaker adaptation device, 5, 5A, 5B DNN, 5-1 input layer, 5-2, 5- 4 Intermediate layer, 5-3, 5A-3, 5B-3 Speaker adaptation layer, 5-5 Output layer, 6 Error calculation unit, 7, 7A, 7B, 11 Adaptation unit, 8 Storage unit, 8-1 ~ 8-N weight matrix data, 9 clustering unit, 10-1 to 10-M class, 12 switching unit, 100 processing circuit, 101 CPU, 102 memory.

Claims (10)

  1.  入力層、出力層および前記入力層と前記出力層との間にある1層以上の中間層を有し、前記1層以上の中間層のいずれかに話者適応層があるディープニューラルネットワークにおける前記出力層の出力データと教師データとの誤差を算出する誤差算出部と、
     学習話者の学習データから求められた前記ディープニューラルネットワークのノード間の接続重みを示す重み行列を入力して、前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列の重みを、学習話者数ごとに、または学習話者数ごとかつ前記話者適応層の出力の次元数ごとに算出する第1の適応化部と
    を備えたことを特徴とする話者適応化装置。
    The input layer, the output layer, and the deep neural network in the deep neural network having one or more intermediate layers between the input layer and the output layer, and having a speaker adaptation layer in any one of the one or more intermediate layers An error calculation unit for calculating an error between the output data of the output layer and the teacher data;
    In the speaker adaptation layer, a weight matrix indicating connection weights between nodes of the deep neural network obtained from learning data of the learning speaker is input, and the error calculated by the error calculation unit is reduced. And a first adaptation unit that calculates the weight of the weight matrix for each number of learning speakers, or for each number of learning speakers and for each number of dimensions of the output of the speaker adaptation layer. Speaker adaptation device.
  2.  入力層、出力層および前記入力層と前記出力層との間にある1層以上の中間層を有し、前記1層以上の中間層のいずれかに話者適応層があるディープニューラルネットワークにおける前記出力層の出力データと教師データとの誤差を算出する誤差算出部と、
     学習話者の学習データから求められた前記ディープニューラルネットワークのノード間の接続重みを示す重み行列を入力して、前記誤差算出部により算出された誤差が減少するように、前記重み行列により重み付けされた前記話者適応層の出力の1次元のオフセットまたは前記話者適応層の出力と同じ次元のオフセットを、学習話者数ごとに算出する第2の適応化部と
    を備えたことを特徴とする話者適応化装置。
    The input layer, the output layer, and the deep neural network in the deep neural network having one or more intermediate layers between the input layer and the output layer, and having a speaker adaptation layer in any one of the one or more intermediate layers An error calculation unit for calculating an error between the output data of the output layer and the teacher data;
    A weight matrix indicating connection weights between nodes of the deep neural network obtained from learning data of a learning speaker is input, and weighted by the weight matrix so that an error calculated by the error calculation unit is reduced. And a second adaptation unit that calculates a one-dimensional offset of the output of the speaker adaptation layer or an offset of the same dimension as the output of the speaker adaptation layer for each number of learning speakers. Speaker adaptation device.
  3.  前記第2の適応化部は、前記話者適応層の出力のオフセットの算出に加えて、前記誤差算出部により算出された誤差が減少するように、前記重み行列の重みを学習話者数ごとに算出することを特徴とする請求項2記載の話者適応化装置。 In addition to calculating the offset of the speaker adaptation layer output, the second adaptation unit sets the weight of the weight matrix for each learning speaker number so that the error calculated by the error calculation unit is reduced. The speaker adaptation apparatus according to claim 2, wherein
  4.  前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
     前記第1の適応化部は、前記重み行列の重みをクラスごとに算出することを特徴とする請求項1記載の話者適応化装置。
    A clustering unit that clusters the weight matrix into a number of classes less than the number of learning speakers;
    The speaker adaptation apparatus according to claim 1, wherein the first adaptation unit calculates a weight of the weight matrix for each class.
  5.  前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
     前記第2の適応化部は、前記重み行列のオフセットをクラスごとに算出することを特徴とする請求項2記載の話者適応化装置。
    A clustering unit that clusters the weight matrix into a number of classes less than the number of learning speakers;
    The speaker adaptation apparatus according to claim 2, wherein the second adaptation unit calculates an offset of the weight matrix for each class.
  6.  前記重み行列を、学習話者数よりも少ない数のクラスにクラスタリングするクラスタリング部を備え、
     前記第2の適応化部は、前記話者適応層の出力のオフセットおよび前記重み行列の重みをクラスごとに算出することを特徴とする請求項3記載の話者適応化装置。
    A clustering unit that clusters the weight matrix into a number of classes less than the number of learning speakers;
    The speaker adaptation apparatus according to claim 3, wherein the second adaptation unit calculates an offset of the output of the speaker adaptation layer and a weight of the weight matrix for each class.
  7.  前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列を修正する第3の適応化部と、
     前記第1の適応化部による前記話者適応層の適応化と前記第3の適応化部による前記話者適応層の適応化とを切り替える切り替え部と
    を備えたことを特徴とする請求項1記載の話者適応化装置。
    A third adaptation unit that modifies the weight matrix in the speaker adaptation layer so that the error calculated by the error calculation unit is reduced;
    The switching unit for switching between adaptation of the speaker adaptation layer by the first adaptation unit and adaptation of the speaker adaptation layer by the third adaptation unit. The speaker adaptation device described.
  8.  前記誤差算出部により算出された誤差が減少するように、前記話者適応層における前記重み行列を修正する第3の適応化部と、
     前記第2の適応化部による前記話者適応層の適応化と前記第3の適応化部による前記話者適応層の適応化とを切り替える切り替え部と
    を備えたことを特徴とする請求項2記載の話者適応化装置。
    A third adaptation unit that modifies the weight matrix in the speaker adaptation layer so that the error calculated by the error calculation unit is reduced;
    3. The switching unit for switching between adaptation of the speaker adaptation layer by the second adaptation unit and adaptation of the speaker adaptation layer by the third adaptation unit. The speaker adaptation device described.
  9.  請求項1記載の話者適応化装置と、
     前記ディープニューラルネットワークと、
     話者適応化装置により適応対象話者に前記話者適応層が適応された前記ディープニューラルネットワークを用いて音声認識する音声認識部と
    を備えたことを特徴とする音声認識装置。
    A speaker adaptation device according to claim 1;
    The deep neural network;
    A speech recognition apparatus comprising: a speech recognition unit that recognizes speech using the deep neural network in which the speaker adaptation layer is adapted to an adaptation target speaker by a speaker adaptation device.
  10.  請求項1記載の話者適応化装置が、前記ディープニューラルネットワークを適応対象の話者に適応させるステップと、
     音声認識部が、適応対象話者に前記話者適応層が適応された前記ディープニューラルネットワークを用いて音声認識するステップと
    を備えたことを特徴とする音声認識方法。
    The speaker adaptation apparatus according to claim 1, wherein the deep neural network is adapted to a speaker to be adapted.
    A speech recognition method comprising: a speech recognition unit using the deep neural network in which the speaker adaptation layer is adapted to a target speaker.
PCT/JP2016/073408 2016-08-09 2016-08-09 Speaker adaptation device, speech recognition apparatus and speech recognition method WO2018029777A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2016/073408 WO2018029777A1 (en) 2016-08-09 2016-08-09 Speaker adaptation device, speech recognition apparatus and speech recognition method
JP2018506628A JP6324647B1 (en) 2016-08-09 2016-08-09 Speaker adaptation device, speech recognition device, and speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/073408 WO2018029777A1 (en) 2016-08-09 2016-08-09 Speaker adaptation device, speech recognition apparatus and speech recognition method

Publications (1)

Publication Number Publication Date
WO2018029777A1 true WO2018029777A1 (en) 2018-02-15

Family

ID=61161907

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/073408 WO2018029777A1 (en) 2016-08-09 2016-08-09 Speaker adaptation device, speech recognition apparatus and speech recognition method

Country Status (2)

Country Link
JP (1) JP6324647B1 (en)
WO (1) WO2018029777A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706714A (en) * 2018-06-21 2020-01-17 株式会社东芝 Speaker model creation system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274455A (en) * 1992-03-27 1993-10-22 Toshiba Corp Neural network device
JP2015102806A (en) * 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 Statistical acoustic model adaptation method, acoustic model learning method suited for statistical acoustic model adaptation, storage medium storing parameters for constructing deep neural network, and computer program for statistical acoustic model adaptation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274455A (en) * 1992-03-27 1993-10-22 Toshiba Corp Neural network device
JP2015102806A (en) * 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 Statistical acoustic model adaptation method, acoustic model learning method suited for statistical acoustic model adaptation, storage medium storing parameters for constructing deep neural network, and computer program for statistical acoustic model adaptation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KATSUHIKO OTSUKA ET AL: "Wakatikaki by Neural Network", IEICE TECHNICAL REPORT, vol. 101, no. 735, 11 March 2002 (2002-03-11), pages 53 - 58 *
YOSUKE KASHIWAGI ET AL: "Deep Neural Network", REPORT OF THE 2013 SPRING MEETING, THE ACOUSTICAL SOCIETY OF JAPAN, 5 March 2013 (2013-03-05), pages 67 - 70 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706714A (en) * 2018-06-21 2020-01-17 株式会社东芝 Speaker model creation system
CN110706714B (en) * 2018-06-21 2023-12-01 株式会社东芝 Speaker model making system

Also Published As

Publication number Publication date
JP6324647B1 (en) 2018-05-16
JPWO2018029777A1 (en) 2018-08-09

Similar Documents

Publication Publication Date Title
US9824683B2 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
US9400955B2 (en) Reducing dynamic range of low-rank decomposition matrices
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
Senior et al. Improving DNN speaker independence with i-vector inputs
US9653093B1 (en) Generative modeling of speech using neural networks
Samarakoon et al. Factorized hidden layer adaptation for deep neural network based acoustic modeling
KR102167719B1 (en) Method and apparatus for training language model, method and apparatus for recognizing speech
US20180025721A1 (en) Automatic speech recognition using multi-dimensional models
JP5423670B2 (en) Acoustic model learning device and speech recognition device
CN110914899A (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP6506074B2 (en) Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method and program
Aggarwal et al. Filterbank optimization for robust ASR using GA and PSO
US20210073645A1 (en) Learning apparatus and method, and program
JP2010078650A (en) Speech recognizer and method thereof
Billa Improving LSTM-CTC based ASR performance in domains with limited training data
WO2020135324A1 (en) Audio signal processing
Georges et al. Compact speaker embedding: lrx-vector
WO2022083165A1 (en) Transformer-based automatic speech recognition system incorporating time-reduction layer
JP6324647B1 (en) Speaker adaptation device, speech recognition device, and speech recognition method
Lu et al. Joint uncertainty decoding for noise robust subspace Gaussian mixture models
JP5738216B2 (en) Feature amount correction parameter estimation device, speech recognition system, feature amount correction parameter estimation method, speech recognition method, and program
JP2020034870A (en) Signal analysis device, method, and program
Zhu et al. Gaussian free cluster tree construction using deep neural network.
KR102292921B1 (en) Method and apparatus for training language model, method and apparatus for recognizing speech

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018506628

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16912660

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16912660

Country of ref document: EP

Kind code of ref document: A1