WO2019235191A1 - モデル学習装置、方法及びプログラム - Google Patents

モデル学習装置、方法及びプログラム Download PDF

Info

Publication number
WO2019235191A1
WO2019235191A1 PCT/JP2019/019830 JP2019019830W WO2019235191A1 WO 2019235191 A1 WO2019235191 A1 WO 2019235191A1 JP 2019019830 W JP2019019830 W JP 2019019830W WO 2019235191 A1 WO2019235191 A1 WO 2019235191A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
unit
neural network
output
network model
Prior art date
Application number
PCT/JP2019/019830
Other languages
English (en)
French (fr)
Inventor
崇史 森谷
山口 義和
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US15/734,212 priority Critical patent/US20210225367A1/en
Publication of WO2019235191A1 publication Critical patent/WO2019235191A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Definitions

  • the present invention relates to a technique for learning a model used for recognizing speech.
  • a method for learning a neural network model type model for speech recognition using this learning method is described in, for example, the section “TRAINING DEEP NEURAL NETWORKS” of Non-Patent Document 1.
  • 1 includes an intermediate feature quantity calculation unit 101, an output probability distribution calculation unit 102, and a model update unit 103.
  • a pair of feature quantities that are real vectors extracted from each sample of learning data in advance, correct unit number corresponding to each feature quantity, and an appropriate initial model.
  • an initial model a neural network model in which random numbers are assigned to each parameter, a neural network model that has already been learned with different learning data, or the like can be used.
  • the intermediate feature amount calculation unit 101 calculates an intermediate feature amount for making it easy to identify the correct unit in the output probability distribution calculation unit 102 from the input feature amount.
  • the intermediate feature amount is defined by Equation (1) in Non-Patent Document 1.
  • the calculated intermediate feature amount is output to the output probability distribution calculation unit 102.
  • the intermediate feature amount calculation unit 101 includes an input layer and a plurality of intermediate layers.
  • the intermediate feature amount is calculated for each of.
  • the intermediate feature amount calculation unit 101 outputs the intermediate feature amount calculated in the last intermediate layer among the plurality of intermediate layers to the output probability distribution calculation unit 102.
  • the output probability distribution calculation unit 102 inputs the intermediate feature value finally calculated by the intermediate feature value calculation unit 101 to the output layer of the current model, thereby arranging the probabilities corresponding to the units of the output layer. Calculate the probability distribution.
  • the output probability distribution is defined by Equation (2) in Non-Patent Document 1.
  • the calculated output probability distribution is output to the model update unit 103.
  • the model updating unit 103 calculates the value of the loss function based on the correct unit number and the output probability distribution, and updates the model so as to decrease the value of the loss function.
  • the loss function is defined by Equation (3) in Non-Patent Document 1.
  • the model update by the model update unit 103 is performed according to Equation (4) in Non-Patent Document 1.
  • Non-Patent Document 1 the output symbol is a state-shared triphone that is a finer representation than a phoneme.
  • a voice that directly outputs an appearance probability distribution of words from a voice feature amount.
  • a recognition model is used.
  • An object of the present invention is to provide a model learning apparatus, method, and program capable of adding a new word or character at a lower cost than before.
  • a neural network model in which a storage unit storing a neural network model for speech recognition and a unit corresponding to a word or a character to be added are read from the storage unit.
  • Output from the output layer when the addition unit to be added to the output layer and each feature quantity corresponding to the word or character are input to the neural network model in which the unit corresponding to the word or character is added to the output layer
  • a model calculation unit that calculates an output probability distribution
  • a model update unit that updates parameters of the output layer of the neural network model based on the correct unit number corresponding to each feature amount and the calculated output probability distribution.
  • New words or letters can be added at a lower cost than before.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of the model learning device of Non-Patent Document 1.
  • FIG. 2 is a diagram showing an example of the functional configuration of the model learning apparatus according to the present invention.
  • FIG. 3 is a diagram illustrating an example of a processing procedure of the model learning method.
  • the model learning device includes, for example, a model calculation unit 30, a model update unit 31, a storage unit 32, and an addition unit 33.
  • the model calculation unit 30 includes an intermediate feature amount calculation unit 301 and an output probability distribution calculation unit 302, for example.
  • the model learning method is realized, for example, when each component of the model learning device performs the processing of step S33, step S30, and step S31 described below and shown in FIG.
  • the storage unit 32 stores a neural network model for speech recognition learned in advance.
  • the adding unit 33 reads the neural network model from the storage unit 32. In addition, information about a word or a character to be added is input to the adding unit 33. There may be two or more words or characters to be added.
  • the adding unit 33 adds a unit corresponding to the word or character to be added to the output layer of the neural network model read from the storage unit 32 (step S33).
  • the adding unit 33 determines a parameter related to the neural network model of the unit corresponding to the word or character to be added by using, for example, a random number.
  • N 1 the number of units in the output layer of the neural network model read from the storage unit 32 that has already been learned is N 1 and the number of words or characters to be added is N 2 , N 2 Since units are added to the output layer, the total number of units in the output layer is N 1 + N 2 .
  • the input layer and the intermediate layer remain the input layer and the intermediate layer of the neural network model in which the unit is read from the storage unit 32. However, it is assumed that the intermediate feature amount calculated from the last intermediate layer is input to the added unit of the output layer.
  • the neural network model with the unit added to the output layer is output to the model calculation unit 30.
  • the adding unit 33 may discard all of the existing output layer units and configure the output layer only with units corresponding to words or characters to be added. As a result, a neural network model specialized for a new domain can be generated.
  • the domains listed here are linguistic domains such as speech search, natural utterances, parliamentary speech, dialogues and other utterance purposes and topics.
  • the model calculation unit 30 receives the neural network model in which a unit corresponding to a word or a character is added to the output layer by the adding unit 33 and each feature amount corresponding to the word or the character to be added.
  • the model calculation unit 30 inputs each feature amount corresponding to the word or character to be added from the output layer when the unit corresponding to the word or character to be added is input to the neural network model added to the output layer.
  • the output probability distribution which is the output of is calculated (step S30).
  • the calculated output probability distribution is output to the model update unit 31.
  • the processing of the intermediate feature amount calculation unit 301 and the output probability distribution calculation unit 302 described below is performed for each feature amount corresponding to the word or character to be added. Thereby, an output probability distribution corresponding to each feature amount corresponding to the word or character to be added is obtained.
  • Intermediate feature amount calculation unit 301 performs the same processing as the intermediate feature amount calculation unit 101.
  • the intermediate feature amount calculation unit 301 receives the feature amount.
  • the intermediate feature amount calculation unit 301 generates an intermediate feature amount using the input feature amount and the neural network model (step S301).
  • the intermediate feature amount is defined by, for example, Equation (1) in Non-Patent Document 1.
  • the calculated intermediate feature amount is output to the output probability distribution calculation unit 302.
  • the intermediate feature amount calculation unit 301 calculates an intermediate feature amount for making it easy to identify the correct unit in the output probability distribution calculation unit 302 from the input feature amount and the current model. Specifically, assuming that the neural network model of the current model is composed of one input layer, a plurality of intermediate layers, and one output layer, the intermediate feature amount calculation unit 301 includes an input layer and a plurality of input layers. The intermediate feature amount is calculated in each of the intermediate layers. The intermediate feature amount calculation unit 301 outputs the intermediate feature amount calculated in the last intermediate layer among the plurality of intermediate layers to the output probability distribution calculation unit 302.
  • the current model is a neural network model itself in which a unit corresponding to a word or a character to be added is added to the output layer when the intermediate feature amount calculation unit 301 performs the first processing, and k Is a positive integer greater than or equal to 2, when the intermediate feature amount calculation unit 301 performs the k-th process, the neural network model is generated by the k-1th process of the model learning apparatus and method.
  • Output probability distribution calculation unit 302 >> The output probability distribution calculation unit 302 performs the same processing as the output probability distribution calculation unit 102.
  • the intermediate feature amount calculated by the intermediate feature amount calculation unit 301 is input to the output probability distribution calculation unit 302.
  • the output probability distribution calculation unit 302 inputs the intermediate feature amount finally calculated by the intermediate feature amount calculation unit 301 to the output layer of the current model, thereby arranging the outputs corresponding to the units of the output layer. A probability distribution is calculated (step S302).
  • the output probability distribution is defined by, for example, Equation (2) in Non-Patent Document 1.
  • the calculated output probability distribution is output to the model update unit 31.
  • the output probability distribution calculation unit 302 makes it easy to identify the voice feature quantity. Which speech output symbol (phoneme state) is calculated is calculated, in other words, an output probability distribution corresponding to the feature amount of the input speech is obtained.
  • the model update unit 31 receives a correct unit number corresponding to each feature amount and an output probability distribution corresponding to each feature amount calculated by the model calculation unit 30.
  • the model update unit 31 updates the parameters of the output layer of the neural network model based on the correct unit number corresponding to each feature quantity and the calculated output probability distribution (step S31). The model update unit 31 does not update the parameters of the input layer and intermediate layer of the neural network model.
  • the model updating unit 31 sets the value of the loss function calculated based on the correct unit number corresponding to each feature quantity and the output probability distribution corresponding to each feature quantity, so as to minimize the value of the loss function. Update parameters.
  • the loss function is defined by the equation (3) in Non-Patent Document 1, for example.
  • the model update by the model update unit 31 is performed by, for example, Equation (4) in Non-Patent Document 1.
  • the parameters in the model to be updated are, for example, the weight w and the bias b in Equation (1) of Non-Patent Document 1.
  • the updated neural network model is output to the intermediate feature amount calculation unit 301 and the output probability distribution calculation unit 302.
  • a neural network model can be learned only by learning data. In this way, new words or characters can be added at a lower cost than before.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • this program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads the program stored in its own storage device and executes the process according to the read program. As another execution form of the program, the computer may directly read the program from the portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. In addition, the program is not transferred from the server computer to the computer, and the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • ASP Application Service Provider
  • the present apparatus is configured by executing a predetermined program on a computer.
  • a predetermined program on a computer.
  • at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

従来よりも低いコストで新たな単語又は文字を追加することができるモデル学習技術を提供する。モデル学習装置は、音声認識用のニューラルネットワークモデルが記憶されている記憶部32と、追加しようとする単語又は文字に対応するユニットを、記憶部32から読み込んだニューラルネットワークモデルの出力層に追加する追加部33と、単語又は文字に対応する各特徴量を、単語又は文字に対応するユニットが出力層に追加されたニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部30と、各特徴量に対応する正解ユニット番号及び計算された出力確率分布に基づいて、ニューラルネットワークモデルの出力層のパラメタを更新するモデル更新部31と、を備えている。

Description

モデル学習装置、方法及びプログラム
 この発明は、音声を認識するために用いられるモデルを学習する技術に関する。
 図1を参照して、一般的なニューラルネットワークモデルの学習方法を説明する。この学習方法を用いた、音声認識用のニューラルネットワークモデル型のモデルを学習する方法は、非特許文献1の”TRAINING DEEP NEURAL NETWORKS”の節に例えば記載されているものである。
 図1のモデル学習装置は、中間特徴量計算部101と、出力確率分布計算部102と、モデル更新部103とを備えている。
 事前に学習データの各サンプルから抽出した実数のベクトルである特徴量及び各特徴量に対応する正解ユニット番号のペアと、適当な初期モデルとを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークモデルや、既に別の学習データで学習済みのニューラルネットワークモデル等を利用することができる。
 中間特徴量計算部101は、入力された特徴量から、出力確率分布計算部102において正解ユニットを識別しやすくするための中間特徴量を計算する。中間特徴量は、非特許文献1の式(1)により定義されるものである。計算された中間特徴量は、出力確率分布計算部102に出力される。
 より具体的には、ニューラルネットワークモデルが1個の入力層、複数個の中間層及び1個の出力層で構成されているとして、中間特徴量計算部101は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部101は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部102に出力する。
 出力確率分布計算部102は、中間特徴量計算部101で最終的に計算された中間特徴量を現在のモデルの出力層に入力することにより、出力層の各ユニットに対応する確率を並べた出力確率分布を計算する。出力確率分布は、非特許文献1の式(2)により定義されるものである。計算された出力確率分布は、モデル更新部103に出力される。
 モデル更新部103は、正解ユニット番号と出力確率分布に基づいて損失関数の値を計算し、損失関数の値を減少させるようにモデルを更新する。損失関数は、非特許文献1の式(3)により定義されるものである。モデル更新部103によるモデルの更新は、非特許文献1の式(4)によって行われる。
 学習データの特徴量及び正解ユニット番号の各ペアに対して、上記の中間特徴量の抽出、出力確率分布の計算及びモデルの更新の処理を繰り返し、所定回数の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。所定回数は、通常、数千万から数億回である。
 非特許文献1では、出力シンボルを、音素よりも細かい表現である状態共有トライフォンとしていたが、近年では非特許文献2に示すように音声の特徴量から直接単語の出現確率分布を出力する音声認識モデルが用いられるようになっている。
Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. Hagen Soltau, Hank Liao, and Hasim Sak,"Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition," INTERSPEECH, pp. 3707-3711, 2017.
 従来技術で述べたように音声の特徴量から単語の出現確率分布を直接出力する音声認識モデルでは、新たな単語又は文字を追加しようとする場合に、再学習が必要であり、この再学習には大量の学習データと時間が必要であり、コストがかかるという問題があった。
 この発明は、従来よりも低いコストで新たな単語又は文字を追加することができるモデル学習装置、方法及びプログラムを提供することを目的とする。
 この発明の一態様によるモデル学習装置によれば、音声認識用のニューラルネットワークモデルが記憶されている記憶部と、追加しようとする単語又は文字に対応するユニットを、記憶部から読み込んだニューラルネットワークモデルの出力層に追加する追加部と、単語又は文字に対応する各特徴量を、単語又は文字に対応するユニットが出力層に追加されたニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部と、各特徴量に対応する正解ユニット番号及び計算された出力確率分布に基づいて、ニューラルネットワークモデルの出力層のパラメタを更新するモデル更新部と、を備えている。
 従来よりも低いコストで新たな単語又は文字を追加することができる。
図1は、非特許文献1のモデル学習装置の機能構成の例を示す図である。 図2は、この発明のモデル学習装置の機能構成の例を示す図である。 図3は、モデル学習方法の処理手続きの例を示す図である。
 以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 [モデル学習装置及び方法]
 モデル学習装置は、図2に示すように、モデル計算部30と、モデル更新部31と、記憶部32と、追加部33とを例えば備えている。モデル計算部30は、中間特徴量計算部301と出力確率分布計算部302とを例えば備えている。
 モデル学習方法は、モデル学習装置の各構成部が、以下に説明する及び図3に示すステップS33、ステップS30及びステップS31の処理を行うことにより例えば実現される。
 以下、モデル学習装置の各構成部について説明する。
 <記憶部32>
 記憶部32には、予め学習された音声認識用のニューラルネットワークモデルが記憶されている。
 <追加部33>
 追加部33は、記憶部32からニューラルネットワークモデルを読み込む。また、追加部33には、追加しようとする単語又は文字についての情報が入力される。追加しようとする単語又は文字は、2個以上あってもよい。
 追加部33は、追加しようとする単語又は文字に対応するユニットを、記憶部32から読み込んだニューラルネットワークモデルの出力層に追加する(ステップS33)。
 追加部33は、追加しようとする単語又は文字に対応するユニットの、ニューラルネットワークモデルに関するパラメタを例えば乱数により決定する。
 例えば、既に学習済みである、記憶部32から読み込んだニューラルネットワークモデルの出力層のユニットの数がN1個であり、追加しようとする単語又は文字がN2個である場合には、N2個のユニットが出力層に追加されるため、出力層のユニットの総数はN1+N2個になる。
 入力層及び中間層は、ユニットを記憶部32から読み込んだニューラルネットワークモデルの入力層及び中間層のままとする。ただし、最後の中間層から計算された中間特徴量は、出力層の追加されたユニットに入力されるとする。
 出力層にユニットが追加されたニューラルネットワークモデルは、モデル計算部30に出力される。
 なお、追加部33は、既存の出力層のユニットの全てを破棄し、追加しようとする単語又は文字に対応するユニットだけで出力層を構成するようにしてもよい。これにより、新たなドメインに特化したニューラルネットワークモデルを生成することができる。
 ここで挙げるドメインとは、音声検索、自然発話、議会音声、対話などの発話目的や話題(トピック)等の言語的なドメインのことである。
 <モデル計算部30>
 モデル計算部30には、追加部33により、単語又は文字に対応するユニットが出力層に追加されたニューラルネットワークモデルと、追加しようとする単語又は文字に対応する各特徴量とが入力される。
 モデル計算部30は、追加しようとする単語又は文字に対応する各特徴量を、追加しようとする単語又は文字に対応するユニットが出力層に追加されたニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算する(ステップS30)。
 計算された出力確率分布は、モデル更新部31に出力される。
 以下、モデル計算部30の処理を詳細に説明するために、モデル計算部30の中間特徴量計算部301及び出力確率分布計算部302について説明する。
 以下に説明する中間特徴量計算部301及び出力確率分布計算部302の処理は、追加しようとする単語又は文字に対応する各特徴量に対して行われる。これにより、追加しようとする単語又は文字に対応する各特徴量に対応する出力確率分布が得られる。
 <<中間特徴量計算部301>>
 中間特徴量計算部301は、中間特徴量計算部101と同様の処理を行う。
 中間特徴量計算部301には、特徴量が入力される。
 中間特徴量計算部301は、入力された特徴量とニューラルネットワークモデルとを用いて、中間特徴量を生成する(ステップS301)。中間特徴量は、例えば非特許文献1の式(1)により定義されるものである。
 計算された中間特徴量は、出力確率分布計算部302に出力される。
 中間特徴量計算部301は、入力された特徴量及び現在のモデルから、出力確率分布計算部302において正解ユニットを識別しやすくするための中間特徴量を計算する。具体的には、現在のモデルのニューラルネットワークモデルが1個の入力層、複数個の中間層及び1個の出力層で構成されているとして、中間特徴量計算部301は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部301は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部302に出力する。
 現在のモデルとは、中間特徴量計算部301が第1回目の処理をする場合には、追加しようとする単語又は文字に対応するユニットが出力層に追加されたニューラルネットワークモデルそのものであり、kを2以上の正の整数として、中間特徴量計算部301が第k回目の処理をする場合には、モデル学習装置及び方法の第k-1回目の処理により生成されたニューラルネットワークモデルである。
 <<出力確率分布計算部302>>
 出力確率分布計算部302は、出力確率分布計算部102と同様の処理を行う。
 出力確率分布計算部302には、中間特徴量計算部301が計算した中間特徴量が入力される。
 出力確率分布計算部302は、中間特徴量計算部301で最終的に計算された中間特徴量を現在のモデルの出力層に入力することにより、出力層の各ユニットに対応する確率を並べた出力確率分布を計算する(ステップS302)。出力確率分布は、例えば非特許文献1の式(2)により定義されるものである。
 計算された出力確率分布は、モデル更新部31に出力される。
 入力された特徴量が音声の特徴量であり、モデルが音声認識用のニューラルネットワーク型の音響モデルである場合には、出力確率分布計算部302により、音声の特徴量を識別しやすくした中間特徴量がどの音声の出力シンボル(音素状態)であるかが計算され、言い換えれば入力された音声の特徴量に対応した出力確率分布が得られる。
 <モデル更新部31>
 モデル更新部31には、各特徴量に対応する正解ユニット番号と、モデル計算部30が計算した各特徴量に対応する出力確率分布とが入力される。
 モデル更新部31は、各特徴量に対応する正解ユニット番号及び前記計算された出力確率分布に基づいて、ニューラルネットワークモデルの出力層のパラメタを更新する(ステップS31)。モデル更新部31は、ニューラルネットワークモデルの入力層及び中間層のパラメタについては更新しない。
 モデル更新部31は、各特徴量に対応する正解ユニット番号と、各特徴量に対応する出力確率分布とに基づいて計算される損失関数の値を最小化するようにニューラルネットワークモデルの出力層のパラメタを更新する。
 損失関数は、例えば非特許文献1の式(3)により定義されるものである。モデル更新部31によるモデルの更新は、例えば非特許文献1の式(4)によって行われる。更新されるモデル内のパラメタは、例えば非特許文献1の式(1)の重みwとバイアスbである。
 更新されたニューラルネットワークモデルは、中間特徴量計算部301及び出力確率分布計算部302に出力される。
 このように、ニューラルネットワークモデルの出力層のパラメタをのみを更新し、入力層及び中間層のパラメタについては、既に学習されているパラメタを用いることで、追加しようとする単語又は文字についての少量の学習データのみでニューラルネットワークモデルの学習を行うことができる。このようにして、従来よりも低いコストで新たな単語又は文字を追加することができる。
 [変形例]
 以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。
 実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
 [プログラム、記録媒体]
 上記説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
101 中間特徴量計算部
102 出力確率分布計算部
103 モデル更新部
30   モデル計算部
301 中間特徴量計算部
302 出力確率分布計算部
31   モデル更新部
32   記憶部
33   追加部

Claims (3)

  1.  音声認識用のニューラルネットワークモデルが記憶されている記憶部と、
     追加しようとする単語又は文字に対応するユニットを、前記記憶部から読み込んだニューラルネットワークモデルの出力層に追加する追加部と、
     前記単語又は文字に対応する各特徴量を、前記単語又は文字に対応するユニットが出力層に追加されたニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部と、
     前記各特徴量に対応する正解ユニット番号及び前記計算された出力確率分布に基づいて、前記ニューラルネットワークモデルの出力層のパラメタを更新するモデル更新部と、
     を含むモデル学習装置。
  2.  記憶部には、音声認識用のニューラルネットワークモデルが記憶されているとし、
     追加部が、追加しようとする単語又は文字に対応するユニットを、前記記憶部から読み込んだニューラルネットワークモデルの出力層に追加する追加ステップと、
     モデル計算部が、前記単語又は文字に対応する各特徴量を、前記単語又は文字に対応するユニットが出力層に追加されたニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算ステップと、
     モデル更新部が、前記各特徴量に対応する正解ユニット番号及び前記計算された出力確率分布に基づいて、前記ニューラルネットワークモデルの出力層のパラメタを更新するモデル更新ステップと、
     を含むモデル学習方法。
  3.  請求項1のモデル学習装置の各部としてコンピュータを機能させるためのプログラム。
PCT/JP2019/019830 2018-06-05 2019-05-20 モデル学習装置、方法及びプログラム WO2019235191A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/734,212 US20210225367A1 (en) 2018-06-05 2019-05-20 Model learning apparatus, method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018107644A JP2019211627A (ja) 2018-06-05 2018-06-05 モデル学習装置、方法及びプログラム
JP2018-107644 2018-06-05

Publications (1)

Publication Number Publication Date
WO2019235191A1 true WO2019235191A1 (ja) 2019-12-12

Family

ID=68769364

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/019830 WO2019235191A1 (ja) 2018-06-05 2019-05-20 モデル学習装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20210225367A1 (ja)
JP (1) JP2019211627A (ja)
WO (1) WO2019235191A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220118583A (ko) * 2021-02-18 2022-08-26 삼성전자주식회사 안면 인장 데이터를 사용한 음성 인식

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03157697A (ja) * 1989-11-16 1991-07-05 Sekisui Chem Co Ltd 単語認識システム
JPH06161495A (ja) * 1992-01-24 1994-06-07 Ricoh Co Ltd 音声認識装置
JPH0744195A (ja) * 1993-07-28 1995-02-14 Meidensha Corp 音声認識用リカレントニューラルネットワーク

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01233579A (ja) * 1988-03-15 1989-09-19 Nippon Telegr & Teleph Corp <Ntt> ニューラルネット型パターン識別装置
JPH0535710A (ja) * 1991-08-01 1993-02-12 Ricoh Co Ltd ニユーラルネツトワークの学習方法および学習装置
JP2002324226A (ja) * 2001-04-25 2002-11-08 Fuji Electric Co Ltd ニューロシステム及びその構築方法
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
US9984682B1 (en) * 2016-03-30 2018-05-29 Educational Testing Service Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items
KR102486395B1 (ko) * 2017-11-23 2023-01-10 삼성전자주식회사 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03157697A (ja) * 1989-11-16 1991-07-05 Sekisui Chem Co Ltd 単語認識システム
JPH06161495A (ja) * 1992-01-24 1994-06-07 Ricoh Co Ltd 音声認識装置
JPH0744195A (ja) * 1993-07-28 1995-02-14 Meidensha Corp 音声認識用リカレントニューラルネットワーク

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TANAKA, GOUHEI: "Concept of reservoir computing and its recent trends", THE JOURNAL OF INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. 102, no. 2, February 2019 (2019-02-01), pages 108 - 113, ISSN: 0913-5693 *
TANAKA, NAOKI ET AL.: "A method of additional learning for BP network by adding extra neurons", THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. J82-D-II, no. 4, April 1999 (1999-04-01), pages 669 - 676, ISSN: 0915-1923 *
UENO, SEI ET AL.: "non-official translation: Adaptation of word by word speech recognition with attention mechanism by transfer learning", IEICE TECHNICAL REPORT, vol. 118, no. 198, August 2018 (2018-08-01), pages 7 - 8, ISSN: 2432-6380 *

Also Published As

Publication number Publication date
JP2019211627A (ja) 2019-12-12
US20210225367A1 (en) 2021-07-22

Similar Documents

Publication Publication Date Title
JP6712642B2 (ja) モデル学習装置、その方法、及びプログラム
JP6712644B2 (ja) 音響モデル学習装置、その方法、及びプログラム
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
KR20180107940A (ko) 음성 인식을 위한 학습 방법 및 장치
US11182665B2 (en) Recurrent neural network processing pooling operation
Bacchiani et al. Context dependent state tying for speech recognition using deep neural network acoustic models
JPWO2019163718A1 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
JP2020042257A (ja) 音声認識方法及び装置
KR20220070709A (ko) 음성인식기의 결과 텍스트와 음성 특징을 이용한 음성인식 오류교정 모델링 방법
WO2019235283A1 (ja) モデル学習装置、方法及びプログラム
Bacchiani et al. Asynchronous, online, GMM-free training of a context dependent acoustic model for speech recognition
JP2019095600A (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
JP7095747B2 (ja) 音響モデル学習装置、モデル学習装置、それらの方法、およびプログラム
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
WO2019235191A1 (ja) モデル学習装置、方法及びプログラム
JP2019095599A (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
JP7218803B2 (ja) モデル学習装置、方法及びプログラム
JP2018081294A (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP6625961B2 (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
JP2018180045A (ja) 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19814227

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19814227

Country of ref document: EP

Kind code of ref document: A1