WO2019208523A1 - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
WO2019208523A1
WO2019208523A1 PCT/JP2019/017094 JP2019017094W WO2019208523A1 WO 2019208523 A1 WO2019208523 A1 WO 2019208523A1 JP 2019017094 W JP2019017094 W JP 2019017094W WO 2019208523 A1 WO2019208523 A1 WO 2019208523A1
Authority
WO
WIPO (PCT)
Prior art keywords
function
output
learning
softmax
output signal
Prior art date
Application number
PCT/JP2019/017094
Other languages
English (en)
French (fr)
Inventor
関利 金井
靖宏 藤原
友貴 山中
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/045,765 priority Critical patent/US20210056418A1/en
Publication of WO2019208523A1 publication Critical patent/WO2019208523A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/556Logarithmic or exponential functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program.
  • the probability of each class is expressed by using an output function that outputs a vector in which the sum of all elements is 1 and each value is in [0; 1].
  • softmax may be used as an output function because of its compatibility with cross entropy used during learning (see, for example, Non-Patent Document 1).
  • a technique called “mixture of softmax (Mos)” in which a plurality of softmaxes are mixed in order to improve the deep learning expression ability is known (for example, see Non-Patent Document 2).
  • the conventional method has a problem that it is sometimes difficult to efficiently perform deep learning with improved expression ability.
  • the learning device of the present invention is an output function having an output signal of the output layer of the neural network as a variable, and an output function having a non-linear log-likelihood function. And a calculation unit for calculating, and an update unit for updating parameters of the neural network so that a log likelihood function of the output function is optimized based on the output signal.
  • FIG. 1 is a diagram for explaining a deep learning model.
  • FIG. 2 is a diagram illustrating an example of a configuration of the learning device according to the first embodiment.
  • FIG. 3 is a flowchart showing the flow of the learning process according to the first embodiment.
  • FIG. 4 is a flowchart showing the flow of the learning process according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of a computer that executes a learning program.
  • FIG. 1 is a diagram for explaining a deep learning model.
  • a model for classifying classes will be described in particular.
  • the deep learning model has an input layer, one or more intermediate layers, and an output layer.
  • Input data is input to the input layer.
  • the probability of each class is output from the output layer.
  • the input data is image data expressed in a predetermined format.
  • the probability of being a car the probability of being a ship in the image that is the source of the input data,
  • the probability of being a dog and the probability of being a cat are each output.
  • softmax is used to output the probability from the output layer.
  • u ⁇ R' the output signal of the L intermediate layer is the last intermediate layer, from the output layer, Y ⁇ R K of formula (1) using the softmax is output.
  • the matrix W in Expression (1) is a parameter called weight that is learned in deep learning.
  • [Y] i is the i-th element of the vector y.
  • softmax performs a nonlinear transformation using an exponential function for the vector Wu after the weight calculation.
  • the i-th element [y] i of the output vector y represents the probability that the input is class i, for example.
  • Equation (1) since the denominator on the right side of Equation (1) is the sum of the exponential functions of each element, each element [y] i is 1 or less. Since the exponential function takes a value of 0 or more, each output element [y] i is in the range of [0, 1]. For this reason, Formula (1) can express a probability.
  • log softmax which is the logarithm of softmax.
  • log softmax is included in the log likelihood function of softmax.
  • log softmax: f is a vector value function of R K ⁇ R K.
  • the i-th element of f (x) is expressed as in Expression (2).
  • Equation (2) becomes Equation (4).
  • Equation (5) f (x) is as shown in Equation (5).
  • a space Y span (y (1) ,..., Y (N) ) spanned by the outputs of L primary independent inputs Wu (i ) is expressed by equation (7).
  • Equation (8) the dimension of Y is as shown in Equation (8).
  • the expression capability of deep learning is improved by using an output function whose log likelihood function is nonlinear. Furthermore, since the parameters of the output function used in the embodiment can be the same as those of the conventional softmax, it is not necessary to set new learning parameters.
  • FIG. 2 is a diagram illustrating an example of a configuration of the learning device according to the first embodiment.
  • the learning device 10 includes a storage unit 11 and a control unit 12.
  • the storage unit 11 is a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or an optical disk.
  • the storage unit 11 may be a semiconductor memory capable of rewriting data such as RAM (Random Access Memory), flash memory, NVSRAM (Non Volatile Static Random Access Memory).
  • the storage unit 11 stores an OS (Operating System) executed by the learning device 10 and various programs. Furthermore, the storage unit 11 stores various information used in executing the program.
  • the storage unit 11 also stores parameters of the deep learning model.
  • the control unit 12 controls the entire learning device 10.
  • the control unit 12 is, for example, an electronic circuit such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
  • the control unit 12 has an internal memory for storing programs and control data that define various processing procedures, and executes each process using the internal memory.
  • the control unit 12 functions as various processing units when various programs are operated.
  • the control unit 12 includes a calculation unit 121 and an update unit 122.
  • the calculation unit 121 calculates an output function having an output signal of the output layer of the neural network as a variable and having a non-linear log likelihood function.
  • the calculation unit 121 is an output function in which an exponential function included in softmax is replaced with a product of an exponential function and a predetermined function having no parameters with respect to the output signal of the output layer of the neural network, and a log likelihood function Compute an output function that is non-linear.
  • the calculation unit 121 calculates an output function in which the exponential function included in softmax is replaced with the product of the exponential function and the sigmoid function.
  • the expression (5) taking the logarithm of the output function has no nonlinear element, and is the sum of the original input vector Wu and the scalar multiple of one vector. Therefore, the expression ability was limited.
  • the learning device 10 of the embodiment uses a function in which the exponential function included in softmax is replaced with the product of the exponential function and the sigmoid function as the output function.
  • the output function of the embodiment is g (x) in Expression (10).
  • the sigmoid function is ⁇ ([x]) in Expression (10).
  • the calculation unit 121 calculates an output function using only the output signal as a variable. For this reason, in this embodiment, the learning parameter for the output function is not necessary, and the calculation unit 121 calculates an output function having no parameter with only the output signal of the output layer of the neural network as a variable.
  • the logarithm of the output function g (x) has a nonlinear element ⁇ log (1 + exp (x)).
  • -Log (1 + exp (x)) is a vector value function that performs nonlinear transformation.
  • Expression (10) is configured using only the same parameters as Expression (2), which is the conventional softmax.
  • the updating unit 122 updates the parameters of the neural network so that the log likelihood function of the output function is optimized based on the output signal. For example, the update unit 122 updates the parameter matrix W stored in the storage unit 11.
  • the calculation unit 121 calculates the output function in which the exponential function included in softmax is replaced with the product of the exponential function and the sigmoid function has been described.
  • the output function is not limited to what has been described so far, and may be a function in which the logarithm has nonlinearity and the exponent function of softmax is replaced with another function.
  • the calculation unit 121 can use, as an output function, a function obtained by replacing the softmax exponential function with a sigmoid function as shown in Expression (12).
  • the calculation unit 121 can use, as an output function, a function in which the softmax exponential function is replaced with softplus, as shown in Expression (13). That is, the calculation unit 121 can calculate an output function in which the exponential function included in softmax is replaced with one of the product of the exponential function and the sigmoid function, the sigmoid function, and softplus.
  • FIG. 3 is a flowchart showing the flow of the learning process according to the first embodiment.
  • the learning device 10 accepts input data input to the input layer (step S10).
  • the learning device 10 first calculates the output signal of the output layer by applying a weight to the output signal of the L-th layer that is the last intermediate layer (step S701). For example, if the output signal of the L-th intermediate layer is represented by a vector u and the weight is represented by a matrix W, the learning device 10 calculates Wu.
  • the learning device 10 calculates an exponential function and a sigmoid function with the output signal as a variable (step S702). For example, when the output signal is a vector x, the learning apparatus 10 calculates an exponential function exp ([x] i ) and a sigmoid function ⁇ ([x] i ) for the i-th element of the vector x. Note that ⁇ () is as shown in Expression (10).
  • the learning device 10 calculates the product of the exponential function and the sigmoid function as elements (step S703).
  • the learning device 10 calculates the sum of all the calculated elements (step S704), and calculates the probability of each class by dividing the elements by the sum (step S705).
  • the calculation unit 121 calculates an output function that uses the output signal of the output layer of the neural network as a variable, and whose log likelihood function is nonlinear.
  • the updating unit 122 updates the parameters of the neural network based on the output signal so that the log likelihood function of the output function is optimized.
  • the learning device 10 learns using a function created without adding parameters based on softmax as an output function.
  • the logarithmic likelihood function of the output function is non-linear, the output expression capability is not limited by the input dimension. Therefore, according to the present embodiment, deep learning with improved expression ability can be performed efficiently.
  • the calculation unit 121 calculates an output function in which the exponential function included in softmax is replaced with the product of the exponential function and a predetermined function having no parameters, and the log likelihood function is nonlinear.
  • the calculation unit 121 can calculate an output function in which an exponential function included in softmax is replaced with any of a product of an exponential function and a sigmoid function, a sigmoid function, and softplus. The logarithm of these replaced functions is non-linear.
  • each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated. That is, the specific form of distribution and integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. Furthermore, all or a part of each processing function performed in each device may be realized by a CPU and a program that is analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • the learning apparatus 10 can be implemented by installing a learning program that executes the above-described learning processing as package software or online software on a desired computer.
  • the information processing apparatus can function as the learning apparatus 10 by causing the information processing apparatus to execute the learning program.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • the information processing apparatus includes mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDA (Personal Digital Assistant).
  • the learning device 10 can be implemented as a learning server device that uses a terminal device used by a user as a client and provides the client with services related to the learning processing described above.
  • the learning server device is implemented as a server device that provides a learning service in which the parameters before the update are input and the parameters after the update are output.
  • the learning server device may be implemented as a Web server, or may be implemented as a cloud that provides a service related to the above learning process by outsourcing.
  • FIG. 5 is a diagram illustrating an example of a computer that executes a learning program.
  • the computer 1000 includes a memory 1010 and a CPU 1020, for example.
  • the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to a mouse 1110 and a keyboard 1120, for example.
  • the video adapter 1060 is connected to the display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process of the learning device 10 is implemented as a program module 1093 in which a code executable by a computer is described.
  • the program module 1093 is stored in the hard disk drive 1090, for example.
  • a program module 1093 for executing processing similar to the functional configuration in the learning device 10 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD.
  • the setting data used in the processing of the above-described embodiment is stored as the program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processing of the above-described embodiment.
  • the program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Image Analysis (AREA)

Abstract

計算部(121)は、ニューラルネットワークの出力層の出力信号について、softmaxに含まれる指数関数を指数関数とパラメータを持たない所定の関数との積に置き換えた出力関数であって、対数尤度関数が非線形である出力関数を計算する。また、更新部(122)は、出力信号に基づいて、出力関数の対数尤度関数が最適化されるように、ニューラルネットワークのパラメータを更新する。

Description

学習装置、学習方法及び学習プログラム
 本発明は、学習装置、学習方法及び学習プログラムに関する。
 例えば、ニューラルネットワークを多層にした深層学習を用いて、画像に写っている物体のクラス(車、犬等)の確率を出力する手法が知られている。このような深層学習の手法においては、全要素の和が1、各値が[0;1]の中になるようなベクトルを出力する出力関数を用いることで、各クラスの確率を表現している。特に、学習時に用いられる交差エントロピーとの相性から、出力関数としてsoftmaxが用いられる場合がある(例えば、非特許文献1を参照)。さらに、深層学習の表現能力を向上せるため、複数のsoftmaxを混合させるmixture of softmax(Mos)という手法が知られている(例えば、非特許文献2を参照)。
Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016. Zhilin Yang et al. Breaking the softmax bottleneck: a high-rank RNN language model. In: arXivpreprint arXiv:1711.03953 (2017).
 しかしながら、従来の手法には、表現能力が向上した深層学習を効率的に行うことが困難な場合があるという問題がある。例えば、非特許文献2に記載の手法を用いて学習を行う場合、softmaxを用いる場合に比べ、学習するパラメータ及び調整するパラメータを追加で設定する必要があるため、効率が低下することがある。
 上述した課題を解決し、目的を達成するために、本発明の学習装置は、ニューラルネットワークの出力層の出力信号を変数とする出力関数であって、対数尤度関数が非線形である出力関数を計算する計算部と、前記出力信号に基づいて、前記出力関数の対数尤度関数が最適化されるように、前記ニューラルネットワークのパラメータを更新する更新部と、を有することを特徴とする。
 本発明によれば、表現能力が向上した深層学習を効率的に行うことができる。
図1は、深層学習のモデルを説明するための図である。 図2は、第1の実施形態に係る学習装置の構成の一例を示す図である。 図3は、第1の実施形態に係る学習処理の流れを示すフローチャートである。 図4は、第1の実施形態に係る学習処理の流れを示すフローチャートである。 図5は、学習プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[従来の深層学習の出力]
 まず、図1を用いて深層学習について説明する。図1は、深層学習のモデルを説明するための図である。ここでは、特に、クラスの分類を行うためのモデルについて説明する。図1に示すように、深層学習のモデルは、入力層、1つ以上の中間層及び出力層を有する。
 入力層には入力データが入力される。また、出力層からは各クラスの確率が出力される。例えば、入力データは、所定の形式で表現された画像データである。また、例えば、クラスが車、船、犬、猫についてそれぞれ設定されている場合、出力層からは、入力データの元になった画像に写っているものが車である確率、船である確率、犬である確率及び猫である確率がそれぞれ出力される。
 従来、出力層から確率を出力するために、softmaxが用いられている。ここで、最後の中間層である第L中間層の出力信号をu∈R´とすると、出力層からは、softmaxを使った式(1)のy∈Rが出力される。
Figure JPOXMLDOC01-appb-M000001
 式(1)の行列Wは、深層学習において学習される重みと呼ばれるパラメータである。
[y]はベクトルyのi番目の要素である。式(1)において、softmaxは、重み計算後のベクトルWuに対する指数関数を使った非線形変換を行っている。また、出力ベクトルyのi番目の要素[y]は、例えば入力がクラスiである確率を表している。
 また、式(1)の右辺の分母は、各要素の指数関数の和であるため、各要素[y]は1以下である。また、指数関数が0以上の値をとることから、出力の各要素[y]は[0,1]の範囲である。このため、式(1)は、確率を表現することができる。
 しかしながら、softmaxには表現能力の限界が存在する。まず、softmaxの対数をとったlog softmaxについて考える。log softmaxは、softmaxの対数尤度関数に含まれる。log softmax:fは、R→Rのベクトル値関数である。f(x)のi番目の要素は、式(2)のように表される。
Figure JPOXMLDOC01-appb-M000002
 ここで、モデルに入力されたベクトルuがNサンプルあると仮定し、i番目の入力をu(i)とする。このとき、全ての入力u(1),…,u(N)が張る空間U=span(u(1),…,u(N))の次元がrであるとする。つまり、モデルに入力された入力の中には、一次独立な入力がr個存在するとする。すると、ベクトルWu(i)(i=1,…,N)が張る空間について、式(3)が成り立つ。
Figure JPOXMLDOC01-appb-M000003
 ここで、log softmaxの出力空間Yについて考える。まず、対数と割り算の関係から、式(2)は式(4)のようになる。
Figure JPOXMLDOC01-appb-M000004
 また、f(x)は、式(5)のようになる。
Figure JPOXMLDOC01-appb-M000005
 よって、y(i)は、式(6)のようになる。
Figure JPOXMLDOC01-appb-M000006
 一次独立なL個の入力Wu(i)に対する出力の張る空間Y=span(y(1),…,y(N))は、式(7)のようになる。
Figure JPOXMLDOC01-appb-M000007
 このため、Yの次元は、式(8)のようになる。
Figure JPOXMLDOC01-appb-M000008
 以上より、出力yの張る空間は、式(9)のようになる。
Figure JPOXMLDOC01-appb-M000009
 式(9)より、もし、真の出力ベクトルの張る空間がm>min(rank(W),r)+1であったとすると、log softmaxでは表現することができないことがいえる。このように、従来のsoftmaxを使った深層学習では、出力関数の対数尤度関数が線形であることによって表現能力が制限されている。
 そこで、実施形態では、対数尤度関数が非線形であるような出力関数を用いることで、深層学習の表現能力を向上させる。さらに、実施形態で使用する出力関数のパラメータは、従来のsoftmaxと同じものとすることができるため、新たな学習パラメータの設定等は不要である。
[第1の実施形態の構成]
 まず、図2を用いて、第1の実施形態に係る学習装置の構成について説明する。図2は、第1の実施形態に係る学習装置の構成の一例を示す図である。図2に示すように、学習装置10は、記憶部11及び制御部12を有する。
 記憶部11は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部11は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部11は、学習装置10で実行されるOS(Operating System)や各種プログラムを記憶する。さらに、記憶部11は、プログラムの実行で用いられる各種情報を記憶する。また、記憶部11は、深層学習のモデルのパラメータを記憶する。
 制御部12は、学習装置10全体を制御する。制御部12は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部12は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部12は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部12は、計算部121及び更新部122を有する。
 計算部121は、ニューラルネットワークの出力層の出力信号を変数とする出力関数であって、対数尤度関数が非線形である出力関数を計算する。例えば、計算部121は、ニューラルネットワークの出力層の出力信号について、softmaxに含まれる指数関数を指数関数とパラメータを持たない所定の関数との積に置き換えた出力関数であって、対数尤度関数が非線形である出力関数を計算する。ここでは、計算部121は、softmaxに含まれる指数関数を指数関数とシグモイド関数との積に置き換えた出力関数を計算する。
 前述の通り、従来のsoftmaxを使った深層学習では、出力関数の対数をとった式(5)が非線形要素を有しておらず、もとの入力ベクトルWuと1ベクトルのスカラー倍の和になっているため、表現能力が制限されていた。
 そこで、実施形態の学習装置10は、softmaxに含まれる指数関数を、指数関数とシグモイド関数との積に置き換えた関数を出力関数として使用する。実施形態の出力関数は、式(10)のg(x)である。また、シグモイド関数は、式(10)のσ([x])である。
Figure JPOXMLDOC01-appb-M000010
 このように、計算部121は、出力層においては、出力信号のみを変数とする出力関数の計算を行う。このため、本実施形態では出力関数のための学習パラメータは不要であり、計算部121は、ニューラルネットワークの出力層の出力信号のみを変数とする、パラメータを持たない出力関数を計算する。
 また、式(11)に示すように、出力関数g(x)の対数は、非線形要素-log(1+exp(x))を有する。-log(1+exp(x))は、非線形変換を行うベクトル値関数である。
Figure JPOXMLDOC01-appb-M000011
 このように、実施形態の深層学習のモデルにおいては、出力関数の対数尤度関数が非線形であるため、出力の空間が入力の次元によって制限されず、表現能力が制限されない。また、式(10)は、従来のsoftmaxである式(2)と同じパラメータのみを使って構成されている。
 また、更新部122は、出力信号に基づいて、出力関数の対数尤度関数が最適化されるように、ニューラルネットワークのパラメータを更新する。例えば、更新部122は、記憶部11に記憶されたパラメータの行列Wを更新する。
 ここまで、計算部121が、softmaxに含まれる指数関数を指数関数とシグモイド関数との積に置き換えた出力関数を計算する場合について説明した。一方で、出力関数は、これまでに説明したものに限られず、対数が非線形性を有する関数であって、softmaxの指数関数を他の関数に置き換えた関数であってよい。例えば、計算部121は、式(12)に示すような、softmaxの指数関数をシグモイド関数に置き換えた関数を出力関数とすることができる。
Figure JPOXMLDOC01-appb-M000012
 また、計算部121は、式(13)に示すような、softmaxの指数関数をsoftplusに置き換えた関数を出力関数とすることができる。つまり、計算部121は、softmaxに含まれる指数関数を、指数関数とシグモイド関数との積、シグモイド関数及びsoftplusのいずれかに置き換えた出力関数を計算することができる。
Figure JPOXMLDOC01-appb-M000013
[第1の実施形態の処理]
 図3を用いて、学習装置10の処理の流れについて説明する。図3は、第1の実施形態に係る学習処理の流れを示すフローチャートである。図3に示すように、まず、学習装置10は、入力層への入力データの入力を受け付ける(ステップS10)。
 次に、学習装置10は、入力層の出力信号を計算する(ステップS20)。そして、学習装置10は、iを1に設定し(ステップS30)、i=Lになるまで(ステップS50、No)、iを1ずつ増加させながら(ステップS60)、第i層の出力信号を計算する(ステップS40)。つまり、学習装置10は、第1層から第L層までの中間層の出力信号を計算し、第L層の出力信号を得る。そして、学習装置10は、出力層の処理を行う(ステップS70)。
 図4を用いて、学習装置10の出力層の処理について説明する。図4に示すように、学習装置10は、まず、最後の中間層である第L層の出力信号に重みを掛けて、出力層の出力信号を計算する(ステップS701)。例えば、第L中間層の出力信号をベクトルu、重みを行列Wで表すとすると、学習装置10はWuを計算する。
 次に、学習装置10は、出力信号を変数とする指数関数及びシグモイド関数を計算する(ステップS702)。例えば、出力信号をベクトルxとすると、学習装置10は、ベクトルxの第i要素について、指数関数exp([x])及びシグモイド関数σ([x])を計算する。なお、σ()は、式(10)に示す通りである。
 そして、学習装置10は、要素として指数関数とシグモイド関数の積を計算する(ステップS703)。学習装置10は、計算した全要素の和を計算し(ステップS704)、要素を和で割って各クラスの確率を計算する(ステップS705)。
[第1の実施形態の効果]
 本実施形態において、計算部121は、ニューラルネットワークの出力層の出力信号を変数とする出力関数であって、対数尤度関数が非線形である出力関数を計算する。更新部122は、出力信号に基づいて、出力関数の対数尤度関数が最適化されるように、ニューラルネットワークのパラメータを更新する。
 このように、本実施形態の学習装置10は、softmaxを基に、パラメータを追加することなく作成された関数を出力関数として学習を行う。また、当該出力関数は、対数尤度関数が非線形であるため、入力の次元によって出力の表現能力が制限されない。このため、本実施形態によれば、表現能力が向上した深層学習を効率的に行うことができる。
 また、計算部121は、softmaxに含まれる指数関数を指数関数とパラメータを持たない所定の関数との積に置き換えた出力関数であって、対数尤度関数が非線形である出力関数を計算する。例えば、計算部121は、softmaxに含まれる指数関数を指数関数とシグモイド関数との積、シグモイド関数及びsoftplusのいずれかに置き換えた出力関数を計算することができる。これらの置き換えられた関数の対数は、非線形性を有する。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 一実施形態として、学習装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、学習装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、更新前のパラメータを入力とし、更新後のパラメータを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図5は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 学習装置
 11 記憶部
 12 制御部
 121 計算部
 122 更新部

Claims (5)

  1.  ニューラルネットワークの出力層の出力信号を変数とする出力関数であって、対数尤度関数が非線形である出力関数を計算する計算部と、
     前記出力信号に基づいて、前記出力関数の対数尤度関数が最適化されるように、前記ニューラルネットワークのパラメータを更新する更新部と、
     を有することを特徴とする学習装置。
  2.  前記計算部は、softmaxに含まれる指数関数を前記指数関数とパラメータを持たない所定の関数との積に置き換えた出力関数を計算することを特徴とする請求項1に記載の学習装置。
  3.  前記計算部は、softmaxに含まれる指数関数を、前記指数関数とシグモイド関数との積、シグモイド関数及びsoftplusのいずれかに置き換えた出力関数を計算することを特徴とする請求項1又は2に記載の学習装置。
  4.  コンピュータによって実行される学習方法であって、
     ニューラルネットワークの出力層の出力信号を変数とする出力関数であって、対数尤度関数が非線形である出力関数を計算する計算工程と、
     前記出力信号に基づいて、前記出力関数の対数尤度関数が最適化されるように、前記ニューラルネットワークのパラメータを更新する更新工程と、
     を含むことを特徴とする学習方法。
  5.  コンピュータを、請求項1から3のいずれか1項に記載の学習装置として機能させるための学習プログラム。
PCT/JP2019/017094 2018-04-24 2019-04-22 学習装置、学習方法及び学習プログラム WO2019208523A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/045,765 US20210056418A1 (en) 2018-04-24 2019-04-22 Learning device, learning method, and learning program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-083122 2018-04-24
JP2018083122A JP7077746B2 (ja) 2018-04-24 2018-04-24 学習装置、学習方法及び学習プログラム

Publications (1)

Publication Number Publication Date
WO2019208523A1 true WO2019208523A1 (ja) 2019-10-31

Family

ID=68295321

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/017094 WO2019208523A1 (ja) 2018-04-24 2019-04-22 学習装置、学習方法及び学習プログラム

Country Status (3)

Country Link
US (1) US20210056418A1 (ja)
JP (1) JP7077746B2 (ja)
WO (1) WO2019208523A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069455A (zh) * 2020-09-16 2020-12-11 成都启英泰伦科技有限公司 一种log-softmax函数硬件加速计算方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6509694B2 (ja) * 2015-09-15 2019-05-08 株式会社東芝 学習装置、音声検出装置、学習方法およびプログラム
US11574164B2 (en) * 2017-03-20 2023-02-07 International Business Machines Corporation Neural network cooperation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LINH LE ET AL.: "Deep Kernel: Learning Kernel Function from Data Using Deep Neural Network", PROCEEDINGS OF 2016 IEEE /ACM 3RD INTERNATIONAL CONFERENCE ON BIG DATA COMPUTING, APPLICATIONS AND TECHNOLOGIES (BDCAT, 9 December 2016 (2016-12-09), pages 1 - 7, XP033077537, ISBN: 978-1-4503-4617-7, DOI: 10.1145/3006299.3006312 *
ROWLAND, T.: "Linear Function", MATHWORLD - A WOLFRAM WEB RESOURCE, 13 June 2019 (2019-06-13), XP055650248, Retrieved from the Internet <URL:http://mathworld.wolfram.com/LinearFunction.html> [retrieved on 20190702] *
SUGOMORI, Y: "Java Deep Learning Essentials - 9781785282195'' which was published in English language", DEEP LEARNING JAVA (DEEP LEARNING JAVA PROGRAMMING - THE THEORY AND IMPLEMENTATION OF DEEP LEARNING, 11 October 2016 (2016-10-11), pages 41 - 66, ISBN: 978-4-8443-8128-0 *

Also Published As

Publication number Publication date
US20210056418A1 (en) 2021-02-25
JP7077746B2 (ja) 2022-05-31
JP2019191868A (ja) 2019-10-31

Similar Documents

Publication Publication Date Title
WO2022141869A1 (zh) 模型训练方法、调用方法、装置、计算机设备和存储介质
CN110689139A (zh) 用于机器学习的方法和计算机系统
TW201915839A (zh) 對人工神經網路及浮點神經網路進行量化的方法及裝置
US20210241119A1 (en) Pre-trained model update device, pre-trained model update method, and program
JP6831347B2 (ja) 学習装置、学習方法および学習プログラム
US11551093B2 (en) Resource-aware training for neural networks
JP6870508B2 (ja) 学習プログラム、学習方法及び学習装置
WO2017130835A1 (ja) 作成装置、作成方法、および作成プログラム
CN107292323B (zh) 用于训练混合模型的方法和设备
JP6767312B2 (ja) 検知システム、検知方法及び検知プログラム
CN115271980A (zh) 风险值预测方法、装置、计算机设备和存储介质
WO2019208523A1 (ja) 学習装置、学習方法及び学習プログラム
Marino et al. Compressive Big Data Analytics: An ensemble meta-algorithm for high-dimensional multisource datasets
Sherzer et al. Can machines solve general queueing systems?
US20230016772A1 (en) Checking device, checking method, and checking program
JP7420244B2 (ja) 学習装置、学習方法、推定装置、推定方法及びプログラム
Wang et al. Constrained spline regression in the presence of AR (p) errors
JP2019101781A (ja) 検知システム、学習方法及び学習プログラム
US20220207413A1 (en) Loss augmentation for predictive modeling
WO2019208248A1 (ja) 学習装置、学習方法及び学習プログラム
WO2022249327A1 (ja) 学習装置、学習方法及び学習プログラム
CN111310823A (zh) 目标分类方法、装置和电子系统
WO2023195138A1 (ja) 学習方法、学習装置及び学習プログラム
WO2022029945A1 (ja) 推論方法、学習方法、推論装置、学習装置及びプログラム
WO2022070342A1 (ja) 学習装置、学習方法及び学習プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19793540

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19793540

Country of ref document: EP

Kind code of ref document: A1