WO2019235283A1 - モデル学習装置、方法及びプログラム - Google Patents

モデル学習装置、方法及びプログラム Download PDF

Info

Publication number
WO2019235283A1
WO2019235283A1 PCT/JP2019/020897 JP2019020897W WO2019235283A1 WO 2019235283 A1 WO2019235283 A1 WO 2019235283A1 JP 2019020897 W JP2019020897 W JP 2019020897W WO 2019235283 A1 WO2019235283 A1 WO 2019235283A1
Authority
WO
WIPO (PCT)
Prior art keywords
task
model
probability distribution
neural network
output probability
Prior art date
Application number
PCT/JP2019/020897
Other languages
English (en)
French (fr)
Inventor
崇史 森谷
山口 義和
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US15/734,201 priority Critical patent/US20210224642A1/en
Priority to JP2020523646A priority patent/JP7031741B2/ja
Publication of WO2019235283A1 publication Critical patent/WO2019235283A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Definitions

  • the present invention relates to a technique for learning a model used for recognizing speech, images, and the like.
  • a method of learning a neural network type model for speech recognition using this learning method is described in, for example, the section “TRAINING DEEP NEURAL NETWORKS” of Non-Patent Document 1.
  • 1 includes an intermediate feature quantity calculation unit 101, an output probability distribution calculation unit 102, and a model update unit 103.
  • a pair of feature quantities that are real vectors extracted from each sample of learning data in advance, correct unit number corresponding to each feature quantity, and an appropriate initial model.
  • an initial model a neural network model in which random numbers are assigned to each parameter, a neural network model that has already been learned with different learning data, or the like can be used.
  • the intermediate feature amount calculation unit 101 calculates an intermediate feature amount for making it easy to identify the correct unit in the output probability distribution calculation unit 102 from the input feature amount.
  • the intermediate feature amount is defined by Equation (1) in Non-Patent Document 1.
  • the calculated intermediate feature amount is output to the output probability distribution calculation unit 102.
  • the intermediate feature amount calculation unit 101 includes an input layer and a plurality of intermediate layers.
  • the intermediate feature amount is calculated for each of.
  • the intermediate feature amount calculation unit 101 outputs the intermediate feature amount calculated in the last intermediate layer among the plurality of intermediate layers to the output probability distribution calculation unit 102.
  • the output probability distribution calculation unit 102 inputs the intermediate feature value finally calculated by the intermediate feature value calculation unit 101 to the output layer of the current model, thereby arranging the probabilities corresponding to the units of the output layer. Calculate the probability distribution.
  • the output probability distribution is defined by Equation (2) in Non-Patent Document 1.
  • the calculated output probability distribution is output to the model update unit 103.
  • the model updating unit 103 calculates the value of the loss function based on the correct unit number and the output probability distribution, and updates the model so as to decrease the value of the loss function.
  • the loss function is defined by Equation (3) in Non-Patent Document 1.
  • the model update by the model update unit 103 is performed according to Equation (4) in Non-Patent Document 1.
  • Non-Patent Document 2 describes a method of simultaneously learning a plurality of tasks different from the main task and the main task in order to improve the performance with respect to the main task to be finally solved. This learning method is called multitask learning, and it has been reported that performance is improved in various fields.
  • Non-Patent Document 2 a model learning apparatus that performs multitask learning of Non-Patent Document 2 will be described.
  • FIG. 2 includes an intermediate feature amount calculation unit 101, an output probability distribution calculation unit 102, and a multitask model update unit 201, as in the model learning device of FIG.
  • the processing of the intermediate feature amount calculation unit 101 and the output probability distribution calculation unit 102 in FIG. 2 is the same as the processing of the intermediate feature amount calculation unit 101 and the output probability distribution calculation unit 102 in FIG.
  • the multi-task type model updating unit 201 includes an output probability distribution of each feature quantity of each task j ⁇ 1,..., J, a correct unit number corresponding to each feature quantity, a hyperparameter, where J is an integer of 2 or more.
  • ⁇ j is input.
  • the hyper parameter ⁇ j is a weight parameter indicating the importance of the task, and is manually set.
  • the multitasking model updating unit 201 calculates the loss function value L j of each task obtained from the output probability distribution of each feature quantity of each task j ⁇ 1,..., J and the correct unit number corresponding to each feature quantity. Learning is performed so as to minimize the sum L of the product of the hyperparameter ⁇ j ⁇ [0,1] multiplied by.
  • Non-Patent Document 2 learning is performed so as to minimize the sum L obtained by multiplying the weights ⁇ j ⁇ [0,1] of the loss function values L j of each task.
  • Non-Patent Document 2 has room for improvement in this respect.
  • An object of the present invention is to provide a model learning apparatus, method, and program for learning a model in which the performance for a task to be finally solved is improved as compared with the prior art.
  • J is a predetermined integer of 2 or more
  • the main task is task J
  • at least one subtask necessary for performing the main task is task 1,.
  • a model calculation unit that calculates an output probability distribution that is an output from the output layer when each feature amount corresponding to each task j ⁇ 1,..., J-1 is input to the neural network model, and each task Each task calculated based on the correct unit number corresponding to each feature corresponding to j ⁇ 1, ..., J-1 and the calculated output probability distribution corresponding to each task j ⁇ 1, ..., J-1.
  • a multitasking model updating unit After updating the parameters of the neural network model so as to minimize the value of the loss function of j ⁇ 1, ..., J-1, the correct unit number corresponding to the feature corresponding to task J and the calculated output probability distribution Task J loss function calculated based on And a, a multitasking model updating unit that updates the parameters of the neural network model to minimize the value.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of the model learning device of Non-Patent Document 1.
  • FIG. 2 is a diagram illustrating an example of a functional configuration of the model learning device of Non-Patent Document 2.
  • FIG. 3 is a diagram showing an example of the functional configuration of the model learning apparatus of the present invention.
  • FIG. 4 is a diagram showing an example of a functional configuration of the multitasking model update unit 31 of the present invention.
  • FIG. 5 is a diagram illustrating an example of a processing procedure of the model learning method.
  • FIG. 6 is a diagram illustrating a functional configuration example of a computer.
  • the model learning apparatus includes a model calculation unit 30 and a multitasking model update unit 31, for example.
  • the model calculation unit 30 includes, for example, an intermediate feature amount calculation unit 301 and an output probability distribution calculation unit 302.
  • the multitasking model update unit 31 includes, for example, a loss selection unit 311 and a model update unit 312.
  • the model learning method is realized, for example, when each component of the model learning device performs the processing from step S30 to step S31 described below and shown in FIG.
  • the main task is task J, and at least one subtask necessary for performing the main task is task 1,..., J-1, and each task 1,.
  • a feature quantity which is a real vector extracted from each sample of learning data, a pair of correct unit numbers corresponding to each feature quantity, and a neural network model of an appropriate initial model are prepared.
  • the initial neural network model for example, a neural network model in which a random number is assigned to each parameter, a neural network model that has already been learned with different learning data, or the like can be used.
  • At least one subtask necessary for performing the main task is a task related to the main task. At least one subtask is a task related to each other.
  • main task word recognition
  • subtask 1 monophone recognition
  • subtask 2 triphone recognition
  • subtask 3 katakana recognition
  • main task image recognition including character recognition
  • subtask 1 character recognition based on an image of only characters.
  • Model calculation unit 30 The feature quantity corresponding to each task j ⁇ 1,..., J is input to the model calculation unit 30.
  • the model calculation unit 30 calculates an output probability distribution that is an output from the output layer when each feature amount corresponding to each task j ⁇ 1,..., J is input to the neural network model.
  • the calculated output probability distribution is output to the multitasking model update unit 31.
  • the processing of the intermediate feature amount calculation unit 301 and the output probability distribution calculation unit 302 described below is performed for each feature amount corresponding to each task j ⁇ 1,. Thereby, an output probability distribution corresponding to each feature amount corresponding to each task j ⁇ 1,..., J is obtained.
  • Intermediate feature amount calculation unit 301 performs the same processing as the intermediate feature amount calculation unit 101.
  • the intermediate feature amount calculation unit 301 receives the feature amount.
  • the intermediate feature amount calculation unit 301 generates an intermediate feature amount using the input feature amount and the initial neural network model (step S301).
  • the intermediate feature amount is defined by, for example, Equation (1) in Non-Patent Document 1.
  • the calculated intermediate feature amount is output to the output probability distribution calculation unit 302.
  • the intermediate feature amount calculation unit 301 calculates an intermediate feature amount for making it easy to identify the correct unit in the output probability distribution calculation unit 302 from the input feature amount and the neural network model. Specifically, assuming that the neural network model is composed of one input layer, a plurality of intermediate layers, and one output layer, the intermediate feature amount calculation unit 301 includes an input layer and a plurality of intermediate layers. Intermediate feature values are calculated for each. The intermediate feature amount calculation unit 301 outputs the intermediate feature amount calculated in the last intermediate layer among the plurality of intermediate layers to the output probability distribution calculation unit 302.
  • Output probability distribution calculation unit 302 >> The output probability distribution calculation unit 302 performs the same processing as the output probability distribution calculation unit 102.
  • the intermediate feature amount calculated by the intermediate feature amount calculation unit 301 is input to the output probability distribution calculation unit 302.
  • the output probability distribution calculation unit 302 inputs the intermediate feature amount finally calculated by the intermediate feature amount calculation unit 301 to the output layer of the neural network model, thereby arranging the probabilities corresponding to the units of the output layer.
  • a probability distribution is calculated (step S302).
  • the output probability distribution is defined by, for example, Equation (2) in Non-Patent Document 1.
  • the calculated output probability distribution is output to the multitasking model update unit 31.
  • the output probability distribution calculation unit 302 identifies the voice feature quantity. It is calculated which speech output symbol (phoneme state) the simplified intermediate feature amount is, in other words, an output probability distribution corresponding to the feature amount of the input speech is obtained.
  • the multi-task type model updating unit 31 includes correct unit numbers corresponding to the feature quantities corresponding to the tasks j ⁇ 1,..., J-1 and the tasks j ⁇ 1,. An output probability distribution corresponding to each feature amount corresponding to J is input.
  • the multitasking model update unit 31 includes a correct unit number corresponding to each feature quantity corresponding to each task j ⁇ 1,..., J-1 and a model calculation unit corresponding to each task j ⁇ 1,. After updating the parameters of the neural network model so as to minimize the value of the loss function of each task j ⁇ 1,..., J-1 calculated based on the output probability distribution calculated in 30, The parameter of the neural network model is updated so as to minimize the value of the loss function of task J calculated based on the correct unit number corresponding to the corresponding feature quantity and the output probability distribution calculated by the model calculation unit 30 ( Step S31).
  • loss selection unit 311 and the model update unit 312 of the multitask type model update unit 31 will be described in order to describe the processing of the multitask type model update unit 31 in detail.
  • Loss selection part 311 corresponds to the correct unit number corresponding to each feature quantity corresponding to each task j ⁇ 1,..., J-1 and to each task j ⁇ 1,. And an output probability distribution corresponding to each feature amount to be input.
  • the loss selection unit 311 corresponds to the correct unit number corresponding to each feature amount corresponding to each task j ⁇ 1,..., J-1 and each task j ⁇ 1,.
  • the output probability distribution corresponding to each feature amount is output to the model update unit 312 in a predetermined order (step S311).
  • the predetermined order is the order in which the information corresponding to task J is output last, the order of outputting the information corresponding to other tasks 1,..., J-1 is arbitrary. There can be only (J-1)! For example, the predetermined order is an order other than ascending order for the tasks 1,..., J-1.
  • the predetermined order is determined in advance and input to the loss selection unit 311.
  • the loss selection unit 311 may determine the predetermined order.
  • main task word recognition
  • subtask 1 monophone recognition
  • subtask 2 triphone recognition
  • subtask 3 katakana recognition
  • Model update unit 312 includes a correct unit number corresponding to each feature amount corresponding to each task j ⁇ 1,..., J ⁇ 1, and each task j ⁇ 1,1 output by the loss selection unit 311 in a predetermined order. ..., the output probability distribution corresponding to each feature quantity corresponding to J is input.
  • the model update unit 312 is calculated based on the correct unit number corresponding to each feature quantity corresponding to the task and the output probability distribution corresponding to each feature quantity corresponding to the task for each task in the input task order.
  • the parameters of the neural network model are updated so as to minimize the value of the task loss function (step S312).
  • the loss function is defined by the equation (3) in Non-Patent Document 1, for example.
  • the model update by the model update unit 312 is performed by, for example, Equation (4) in Non-Patent Document 1.
  • the parameters in the model to be updated are, for example, the weight w and the bias b in Equation (1) of Non-Patent Document 1.
  • the model updating unit 312 first sets the parameter of the neural network model so as to minimize the value of the loss function of each task j ⁇ 1,. Update. Thereafter, the model update unit 312 updates the parameters of the neural network model so as to minimize the value of the loss function of task J.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • this program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads the program stored in its own storage device and executes the process according to the read program. As another execution form of the program, the computer may directly read the program from the portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. In addition, the program is not transferred from the server computer to the computer, and the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • ASP Application Service Provider
  • the present apparatus is configured by executing a predetermined program on a computer.
  • a predetermined program on a computer.
  • at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

モデル学習装置によれば、メインタスクをタスクJとし、サブタスクをタスク1,…,J-1とし、各タスクj∈1,…,J-1に対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部と、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応する計算された出力確率分布に基づいて計算される各タスクj∈1,…,J-1の損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する特徴量に対応する正解ユニット番号及び計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新するマルチタスク型モデル更新部とを備えている。

Description

モデル学習装置、方法及びプログラム
 この発明は、音声、画像等を認識するために用いられるモデルを学習する技術に関する。
 図1を参照して、一般的なニューラルネットワークモデルの学習方法を説明する。この学習方法を用いた、音声認識用のニューラルネットワーク型のモデルを学習する方法は、非特許文献1の”TRAINING DEEP NEURAL NETWORKS”の節に例えば記載されているものである。
 図1のモデル学習装置は、中間特徴量計算部101と、出力確率分布計算部102と、モデル更新部103とを備えている。
 事前に学習データの各サンプルから抽出した実数のベクトルである特徴量及び各特徴量に対応する正解ユニット番号のペアと、適当な初期モデルとを用意する。初期モデルとしては、各パラメタに乱数を割り当てたニューラルネットワークモデルや、既に別の学習データで学習済みのニューラルネットワークモデル等を利用することができる。
 中間特徴量計算部101は、入力された特徴量から、出力確率分布計算部102において正解ユニットを識別しやすくするための中間特徴量を計算する。中間特徴量は、非特許文献1の式(1)により定義されるものである。計算された中間特徴量は、出力確率分布計算部102に出力される。
 より具体的には、ニューラルネットワークモデルが1個の入力層、複数個の中間層及び1個の出力層で構成されているとして、中間特徴量計算部101は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部101は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部102に出力する。
 出力確率分布計算部102は、中間特徴量計算部101で最終的に計算された中間特徴量を現在のモデルの出力層に入力することにより、出力層の各ユニットに対応する確率を並べた出力確率分布を計算する。出力確率分布は、非特許文献1の式(2)により定義されるものである。計算された出力確率分布は、モデル更新部103に出力される。
 モデル更新部103は、正解ユニット番号と出力確率分布に基づいて損失関数の値を計算し、損失関数の値を減少させるようにモデルを更新する。損失関数は、非特許文献1の式(3)により定義されるものである。モデル更新部103によるモデルの更新は、非特許文献1の式(4)によって行われる。
 学習データの特徴量及び正解ユニット番号の各ペアに対して、上記の中間特徴量の抽出、出力確率分布の計算及びモデルの更新の処理を繰り返し、所定回数の繰り返しが完了した時点のモデルを学習済みモデルとして利用する。所定回数は、通常、数千万から数億回である。
 非特許文献2には、最終的に解きたいメインのタスクに対する性能を向上させるために、メインのタスクとは別の複数のタスクと、メインのタスクとを同時に学習する方法が記載されている。この学習方法は、マルチタスク学習と呼ばれており、様々な分野で性能が改善されていることが報告されている。
 図2を参照して、非特許文献2のマルチタスク学習を行うモデル学習装置について説明する。
 図2のモデル学習装置は、図1のモデル学習装置と同様に、中間特徴量計算部101と、出力確率分布計算部102と、マルチタスク型モデル更新部201とを備えている。図2の中間特徴量計算部101及び出力確率分布計算部102の処理は、図1の中間特徴量計算部101及び出力確率分布計算部102の処理と同様であるため、重複説明を省略する。
 マルチタスク型モデル更新部201には、Jを2以上の整数として、各タスクj∈1,…,Jの各特徴量の出力確率分布と、各特徴量に対応する正解ユニット番号と、ハイパーパラメタλjとが入力される。ハイパーパラメタλjは、タスクの重要度を表す重みのパラメタであり、手動で設定される。
 マルチタスク型モデル更新部201は、各タスクj∈1,…,Jの各特徴量の出力確率分布と、各特徴量に対応する正解ユニット番号とから得られる各タスクの損失関数の値Ljにハイパーパラメタλj∈[0,1]を乗算したものの和Lを最小化するように学習を行う。
Figure JPOXMLDOC01-appb-M000001
 このようにして、相互作用のあるタスクを同時に解くことで認識性能が向上することが期待される。
Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," IEEE Signal Processing Magazine, Vol. 29, No 6, pp.82-97, 2012. Yanmin Qian, Tian Tan, Dong Yu, and Yu Zhang,"INTEGRATED ADAPTATION WITH MULTI-FACTOR JOINT-LEARNING FOR FAR-FIELD SPEECH RECOGNITION," ICASSP, pp. 5770-5774, 2016
 非特許文献2では、各タスクの損失関数の値Ljの重みλj∈[0,1]を乗算したものの和Lを最小化するように学習が行われる。
Figure JPOXMLDOC01-appb-M000002
 この和Lを最小化することで全体の損失を最小化するように学習できるが、Lは重み付き和のため個々のタスクを明示的に最小化するようには設計されていない。非特許文献2の技術はこの点において改善の余地があった。
 この発明は、最終的に解きたいタスクに対する性能を従来よりも改善したモデルを学習するモデル学習装置、方法及びプログラムを提供することを目的とする。
 この発明の一態様によるモデル学習装置によれば、Jを所定の2以上の整数とし、メインタスクをタスクJとし、メインタスクを行うために必要な少なくとも1個のサブタスクをタスク1,…,J-1とし、各タスクj∈1,…,J-1に対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部と、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応する計算された出力確率分布に基づいて計算される各タスクj∈1,…,J-1の損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する特徴量に対応する正解ユニット番号及び計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新するマルチタスク型モデル更新部と、を備えている。
 最終的に解きたいタスク以外のタスクの損失関数の値のそれぞれを明示的に最小化することで、最終的に解きたいタスクの性能を従来よりも改善することができる。
図1は、非特許文献1のモデル学習装置の機能構成の例を示す図である。 図2は、非特許文献2のモデル学習装置の機能構成の例を示す図である。 図3は、この発明のモデル学習装置の機能構成の例を示す図である。 図4は、この発明のマルチタスク型モデル更新部31の機能構成の例を示す図である。 図5は、モデル学習方法の処理手続きの例を示す図である。 図6は、コンピュータの機能構成例を示す図である。
 以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 [モデル学習装置及び方法]
 モデル学習装置は、図3に示すように、モデル計算部30と、マルチタスク型モデル更新部31とを例えば備えている。モデル計算部30は、中間特徴量計算部301と、出力確率分布計算部302とを例えば備えている。マルチタスク型モデル更新部31は、図4に示すように、損失選択部311と、モデル更新部312とを例えば備えている。
 モデル学習方法は、モデル学習装置の各構成部が、以下に説明する及び図5に示すステップS30からステップS31の処理を行うことにより例えば実現される。
 なお、以下に説明する処理を行う前に、メインタスクをタスクJとし、メインタスクを行うために必要な少なくとも1個のサブタスクをタスク1,…,J-1として、各タスク1,…,Jの学習データの各サンプルから抽出した実数のベクトルである特徴量及び各特徴量に対応する正解ユニット番号のペアと、適当な初期モデルのニューラルネットワークモデルとが用意されているとする。初期モデルのニューラルネットワークモデルとしては、各パラメタに乱数を割り当てたニューラルネットワークモデルや、既に別の学習データで学習済みのニューラルネットワークモデル等を例えば利用することができる。
 メインタスクを行うために必要な少なくとも1個のサブタスクは、メインタスクに関連するタスクである。少なくとも1個のサブタスクは、互いに関連するタスクである。
 メインタスク及び少なくとも1個のサブタスクの例は、メインタスク=単語の認識、サブタスク1=モノフォンの認識、サブタスク2=トライフォンの認識、サブタスク3=カタカナの認識である。
 メインタスク及び少なくとも1個のサブタスクの他の例は、メインタスク=文字認識を含む画像認識、サブタスク1=文字のみの画像に基づく文字認識である。
 以下、モデル学習装置の各構成部について説明する。
 <モデル計算部30>
 モデル計算部30には、各タスクj∈1,…,Jに対応する特徴量が入力される。
 モデル計算部30は、各タスクj∈1,…,Jに対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算する。
 計算された出力確率分布は、マルチタスク型モデル更新部31に出力される。
 以下、モデル計算部30の処理を詳細に説明するために、モデル計算部30の中間特徴量計算部301及び出力確率分布計算部302について説明する。
 以下に説明する中間特徴量計算部301及び出力確率分布計算部302の処理は、各タスクj∈1,…,Jに対応する各特徴量に対して行われる。これにより、各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布が得られる。
 <<中間特徴量計算部301>>
 中間特徴量計算部301は、中間特徴量計算部101と同様の処理を行う。
 中間特徴量計算部301には、特徴量が入力される。
 中間特徴量計算部301は、入力された特徴量と初期モデルのニューラルネットワークモデルとを用いて、中間特徴量を生成する(ステップS301)。中間特徴量は、例えば非特許文献1の式(1)により定義されるものである。
 計算された中間特徴量は、出力確率分布計算部302に出力される。
 中間特徴量計算部301は、入力された特徴量及びニューラルネットワークモデルから、出力確率分布計算部302において正解ユニットを識別しやすくするための中間特徴量を計算する。具体的には、ニューラルネットワークモデルが1個の入力層、複数個の中間層及び1個の出力層で構成されているとして、中間特徴量計算部301は、入力層及び複数個の中間層のそれぞれで中間特徴量の計算を行う。中間特徴量計算部301は、複数個の中間層の中の最後の中間層で計算された中間特徴量を出力確率分布計算部302に出力する。
 <<出力確率分布計算部302>>
 出力確率分布計算部302は、出力確率分布計算部102と同様の処理を行う。
 出力確率分布計算部302には、中間特徴量計算部301が計算した中間特徴量が入力される。
 出力確率分布計算部302は、中間特徴量計算部301で最終的に計算された中間特徴量をニューラルネットワークモデルの出力層に入力することにより、出力層の各ユニットに対応する確率を並べた出力確率分布を計算する(ステップS302)。出力確率分布は、例えば非特許文献1の式(2)により定義されるものである。
 計算された出力確率分布は、マルチタスク型モデル更新部31に出力される。
 例えば、入力された特徴量が音声の特徴量であり、ニューラルネットワークモデルが音声認識用のニューラルネットワーク型の音響モデルである場合には、出力確率分布計算部302により、音声の特徴量を識別しやすくした中間特徴量がどの音声の出力シンボル(音素状態)であるかが計算され、言い換えれば入力された音声の特徴量に対応した出力確率分布が得られる。
 <マルチタスク型モデル更新部31>
 マルチタスク型モデル更新部31には、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号と、モデル計算部30が計算した各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布とが入力される。
 マルチタスク型モデル更新部31は、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応するモデル計算部30で計算された出力確率分布に基づいて計算される前記各タスクj∈1,…,J-1の損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する特徴量に対応する正解ユニット番号及びモデル計算部30で計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新する(ステップS31)。
 以下、マルチタスク型モデル更新部31の処理を詳細に説明するために、マルチタスク型モデル更新部31の損失選択部311及びモデル更新部312について説明する。
 <<損失選択部311>>
 損失選択部311には、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号と、モデル計算部30が計算した各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布とが入力される。
 損失選択部311は、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号と、モデル計算部30が計算した各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布とを、所定の順序で、モデル更新部312に出力する(ステップS311)。
 以下では、j=1,…,Jとして、タスクjに対応する各特徴量に対応する正解ユニット番号と、モデル計算部30が計算したタスクjに対応する各特徴量に対応する出力確率分布とを、タスクjに対応する情報と略記する。
 所定の順序は、タスクJに対応する情報を最後に出力する順序であれば、他のタスク1,…,J-1に対応する情報の出力の順序は任意である。所定の順序の数は、(J-1)!個だけ有り得る。例えば、所定の順序は、タスク1,…,J-1について昇順以外の順序である。
 例えば、所定の順序は、予め決定され、損失選択部311に入力される。所定の順序が予め決定されていない場合には、損失選択部311が、所定の順序を決定してもよい。
 例えば、メインタスク=単語の認識、サブタスク1=モノフォンの認識、サブタスク2=トライフォンの認識、サブタスク3=カタカナの認識である場合には、まずサブタスク1からサブタスク3のそれぞれに対応する情報がモデル更新部312に出力され、最後に解きたいメインタスクに対応する情報がモデル更新部312に出力される。
 <<モデル更新部312>>
 モデル更新部312には、損失選択部311が所定の順序で出力した、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号と、各タスクj∈1,…,Jに対応する各特徴量に対応する出力確率分布とが入力される。
 モデル更新部312は、入力されたタスク順に、タスクごとに、タスクに対応する各特徴量に対応する正解ユニット番号と、タスクに対応する各特徴量に対応する出力確率分布とに基づいて計算されるタスクの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタを更新する(ステップS312)。
 損失関数は、例えば非特許文献1の式(3)により定義されるものである。モデル更新部312によるモデルの更新は、例えば非特許文献1の式(4)によって行われる。更新されるモデル内のパラメタは、例えば非特許文献1の式(1)の重みwとバイアスbである。
 例えば、所定の順序では、タスクJが最後であるため、モデル更新部312は、まず、各タスクj∈1,…,J-1の損失関数の値を最小化するようにニューラルネットワークモデルのパラメタ更新を行う。その後、モデル更新部312は、タスクJの損失関数の値を最小化するようにニューラルネットワークモデルのパラメタ更新を行う。
 このようにして、最終的に解きたいタスク以外のタスクの損失関数のそれぞれを明示的に最小化することで、最終的に解きたいタスクの性能を従来よりも改善することができる。
 [変形例]
 以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。
 実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
 [プログラム、記録媒体]
 上述の各種の処理は、図6に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
101 中間特徴量計算部
102 出力確率分布計算部
103 モデル更新部
201 マルチタスク型モデル更新部
30 モデル計算部
301 中間特徴量計算部
302 出力確率分布計算部
31 マルチタスク型モデル更新部
311 損失選択部
312 モデル更新部

Claims (5)

  1.  Jを所定の2以上の整数とし、メインタスクをタスクJとし、メインタスクを行うために必要な少なくとも1個のサブタスクをタスク1,…,J-1とし、各タスクj∈1,…,J-1に対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算部と、
     各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応する前記計算された出力確率分布に基づいて計算される前記各タスクj∈1,…,J-1の損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する前記特徴量に対応する正解ユニット番号及び前記計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタを更新するマルチタスク型モデル更新部と、
     を含むモデル学習装置。
  2.  請求項1のモデル学習装置であって、
     前記モデル更新部は、タスク1,…,J-1について昇順以外の順序で、前記各タスクj∈1,…,J-1の損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタ更新を行う、
     モデル学習装置。
  3.  モデル計算部が、Jを所定の2以上の整数とし、メインタスクをタスクJとし、メインタスクを行うために必要な少なくとも1個のサブタスクをタスク1,…,J-1とし、各タスクj∈1,…,J-1に対応する各特徴量をニューラルネットワークモデルに入力したときの出力層からの出力である出力確率分布を計算するモデル計算ステップと、
     マルチタスク型モデル更新部が、各タスクj∈1,…,J-1に対応する各特徴量に対応する正解ユニット番号及び各タスクj∈1,…,J-1に対応する前記計算された出力確率分布に基づいて計算される前記各タスクj∈1,…,J-1の損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタを更新した後に、タスクJに対応する前記特徴量に対応する正解ユニット番号及び前記計算された出力確率分布に基づいて計算されるタスクJの損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタを更新するマルチタスク型モデル更新ステップと、
     を含むモデル学習方法。
  4.  請求項3のモデル学習方法であって、
     前記モデル更新ステップは、タスク1,…,J-1について昇順以外の順序で、前記各タスクj∈1,…,J-1の損失関数の値を最小化するように前記ニューラルネットワークモデルのパラメタ更新を行う、
     モデル学習方法。
  5.  請求項1又は2のモデル学習装置の各部としてコンピュータを機能させるためのプログラム。
PCT/JP2019/020897 2018-06-05 2019-05-27 モデル学習装置、方法及びプログラム WO2019235283A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/734,201 US20210224642A1 (en) 2018-06-05 2019-05-27 Model learning apparatus, method and program
JP2020523646A JP7031741B2 (ja) 2018-06-05 2019-05-27 モデル学習装置、方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018107643 2018-06-05
JP2018-107643 2018-06-05

Publications (1)

Publication Number Publication Date
WO2019235283A1 true WO2019235283A1 (ja) 2019-12-12

Family

ID=68770361

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/020897 WO2019235283A1 (ja) 2018-06-05 2019-05-27 モデル学習装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20210224642A1 (ja)
JP (1) JP7031741B2 (ja)
WO (1) WO2019235283A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818658A (zh) * 2020-01-14 2021-05-18 腾讯科技(深圳)有限公司 文本对分类模型的训练方法、分类方法、设备及存储介质
JP7421363B2 (ja) 2020-02-14 2024-01-24 株式会社Screenホールディングス パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114926447B (zh) * 2022-06-01 2023-08-29 北京百度网讯科技有限公司 用于训练模型的方法、用于检测目标的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009525547A (ja) * 2006-02-01 2009-07-09 本田技研工業株式会社 質問分類のためのメタ学習
WO2018047225A1 (ja) * 2016-09-06 2018-03-15 三菱電機株式会社 学習装置、信号処理装置および学習方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6823809B2 (ja) 2016-08-09 2021-02-03 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置およびプログラム
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
KR102424540B1 (ko) * 2017-10-16 2022-07-25 삼성전자주식회사 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
US20190324795A1 (en) * 2018-04-24 2019-10-24 Microsoft Technology Licensing, Llc Composite task execution

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009525547A (ja) * 2006-02-01 2009-07-09 本田技研工業株式会社 質問分類のためのメタ学習
WO2018047225A1 (ja) * 2016-09-06 2018-03-15 三菱電機株式会社 学習装置、信号処理装置および学習方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818658A (zh) * 2020-01-14 2021-05-18 腾讯科技(深圳)有限公司 文本对分类模型的训练方法、分类方法、设备及存储介质
CN112818658B (zh) * 2020-01-14 2023-06-27 腾讯科技(深圳)有限公司 文本对分类模型的训练方法、分类方法、设备及存储介质
JP7421363B2 (ja) 2020-02-14 2024-01-24 株式会社Screenホールディングス パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法

Also Published As

Publication number Publication date
JPWO2019235283A1 (ja) 2021-06-03
JP7031741B2 (ja) 2022-03-08
US20210224642A1 (en) 2021-07-22

Similar Documents

Publication Publication Date Title
JP6712642B2 (ja) モデル学習装置、その方法、及びプログラム
CN110807515B (zh) 模型生成方法和装置
CN110366734B (zh) 优化神经网络架构
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
JP6712644B2 (ja) 音響モデル学習装置、その方法、及びプログラム
JP6628350B2 (ja) リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
WO2019235283A1 (ja) モデル学習装置、方法及びプログラム
WO2019198306A1 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP6827911B2 (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
KR20180107940A (ko) 음성 인식을 위한 학습 방법 및 장치
JP7095747B2 (ja) 音響モデル学習装置、モデル学習装置、それらの方法、およびプログラム
JP6453681B2 (ja) 演算装置、演算方法およびプログラム
CN115762484B (zh) 用于语音识别的多模态数据融合方法、装置、设备及介质
CN113488023A (zh) 一种语种识别模型构建方法、语种识别方法
JPWO2019163718A1 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
Vaněk et al. A regularization post layer: An additional way how to make deep neural networks robust
JP6856503B2 (ja) 印象推定モデル学習装置、印象推定装置、印象推定モデル学習方法、印象推定方法、およびプログラム
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
JP6827910B2 (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
KR20230141828A (ko) 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들
WO2019208564A1 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム
WO2019235191A1 (ja) モデル学習装置、方法及びプログラム
WO2019194128A1 (ja) モデル学習装置、モデル学習方法、プログラム
CN113128677A (zh) 模型生成方法和装置
JP6633556B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19815546

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020523646

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19815546

Country of ref document: EP

Kind code of ref document: A1