WO2019167665A1 - 学習装置、方法及びプログラム - Google Patents

学習装置、方法及びプログラム Download PDF

Info

Publication number
WO2019167665A1
WO2019167665A1 PCT/JP2019/005533 JP2019005533W WO2019167665A1 WO 2019167665 A1 WO2019167665 A1 WO 2019167665A1 JP 2019005533 W JP2019005533 W JP 2019005533W WO 2019167665 A1 WO2019167665 A1 WO 2019167665A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
layer
skip
unit
neural network
Prior art date
Application number
PCT/JP2019/005533
Other languages
English (en)
French (fr)
Inventor
喬俊 狩野
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2020503389A priority Critical patent/JP6865889B2/ja
Publication of WO2019167665A1 publication Critical patent/WO2019167665A1/ja
Priority to US16/999,081 priority patent/US20200380365A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Definitions

  • the present invention relates to a learning apparatus, method, and program, and more particularly, to a learning apparatus, method, and program using deep learning.
  • the error back propagation method is used for learning in the neural network.
  • the error between the output of each layer and the correct answer is propagated back from the output layer side to the input layer side, and the gradient is calculated from this error, whereby the weight in each layer is updated.
  • the gradient becomes 0 or a small value close to 0, the gradient disappearance problem that the weight in each layer is not updated occurs, and the performance of the neural network deteriorates.
  • Non-Patent Documents 1 and 2 A model having a skip connection coupled to a third layer has been proposed (Non-Patent Documents 1 and 2).
  • Non-Patent Document 1 is a document related to Residual Network (ResNet).
  • ResNet Residual Network
  • the residual is learned by adding the output of the previous layer to the downstream side using a skip connection.
  • Non-Patent Document 2 is a document related to Dense Convolutional Network (DenseNet).
  • DenseNet the output of the previous layer is coupled to the downstream side using a skip connection.
  • Non-Patent Documents 1 and 2 it is considered that the problem of disappearance of the gradient due to the deeper layer can be improved by connecting the output of the previous layer to the downstream side using a skip connection.
  • Non-Patent Documents 1 and 2 cannot cope with the problem of deterioration in generalization performance due to overlearning.
  • Patent Literature 1 and Non-Patent Literature 3 disclose techniques for improving generalization performance in a neural network.
  • Patent Document 1 discloses a technique called DROPOUT.
  • DROPOUT a technique called DROPOUT.
  • feature detector featurefedetector
  • Patent Document 1 discloses a technique called DROPOUT.
  • when learning is performed ensemble learning is performed to improve generalization performance by randomly selecting a feature detector (featurefedetector) and invalidating it.
  • the feature detector in Patent Document 1 corresponds to a node in a neural network and a filter in a convolutional neural network.
  • Non-Patent Document 3 when performing learning, a connection from each layer to the next layer in ResNet's Residual Block (ResBlock) is removed at random to maintain a skip connection.
  • ResNet's Residual Block ResNet's Residual Block
  • Patent Document 1 and Non-Patent Document 3 a main stream (main stream) that is not a skip connection but a connection from each layer to the next layer is invalidated or removed.
  • the ensemble learning is performed, if the connection of the main stream is invalidated, learning in the layer coupled to the invalidated main stream is not performed, so that there is a problem that the convergence performance is deteriorated.
  • the present invention has been made in view of such circumstances, and provides a learning device, method, and program capable of preventing overlearning and improving generalization performance while suppressing a decrease in convergence performance in learning. For the purpose.
  • a learning device is a neural network including a plurality of layers, and is a second layer that is a layer subsequent to the first layer from the first layer.
  • the skip connection is provided in the intermediate layer.
  • connection invalidation unit randomly selects a skip connection to be invalidated.
  • connection invalidation unit selects a skip connection to be invalidated based on a preset probability. Is.
  • the coupling invalidation unit invalidates the skip connection by setting the output that propagates forward through the skip connection to 0. It is intended to be.
  • the coupling invalidation unit invalidates the skip connection by blocking back propagation via the skip connection. It is a thing.
  • a learning method is a neural network including a plurality of layers, and branches an output from a first layer to a second layer that is a layer next to the first layer,
  • a learning unit that learns a neural network including a plurality of skip connections that are coupled to the input of the third layer downstream of the second layer by skipping the second layer,
  • a coupling invalidation step for invalidating at least one of the above, and a learning control step for causing the learning unit to perform learning by changing the skip connection invalidated in the coupling invalidation step.
  • a learning program is a neural network including a plurality of layers, and branches an output from a first layer to a second layer that is a layer next to the first layer,
  • a function for learning a neural network including a plurality of skip connections coupled to the input of the third layer downstream from the second layer by skipping the second layer, and when performing learning,
  • the computer realizes a function of invalidating at least one of the above and a function of performing learning by changing the skip connection to be invalidated.
  • the processor is a neural network including a plurality of layers, and the output from the first layer to the second layer that is the next layer of the first layer
  • the neural network including a plurality of skip connections coupled to the input of the third layer downstream from the second layer by skipping the second layer is skipped.
  • a learning device that performs learning by disabling at least one of them and changing the skip connection to be invalidated.
  • the present invention it is possible to repeatedly perform learning using a neural network in which the layers are connected differently by performing learning while changing the skip connection to be invalidated. Thereby, since ensemble learning can be realized, the generalization performance of the neural network can be improved. Furthermore, according to the present invention, since the main stream connection is maintained by setting only the skip connection as the invalidation target, it is possible to suppress a decrease in learning convergence performance.
  • FIG. 1 is a block diagram showing a learning apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining the skip connection.
  • FIG. 3 is a block diagram illustrating a configuration example of a neural network in the classifier according to an embodiment of the present invention.
  • FIG. 4 is a flowchart showing a learning method according to an embodiment of the present invention.
  • FIG. 5 is a block diagram showing an image recognition system provided with a learning apparatus according to an embodiment of the present invention.
  • FIG. 6 is a block diagram illustrating a configuration example of a neural network in the classifier used in the first embodiment.
  • FIG. 7 is a block diagram illustrating a configuration example of a neural network in the classifier used in the second embodiment.
  • FIG. 1 is a block diagram showing a learning apparatus according to an embodiment of the present invention.
  • the learning device 10 includes a control unit 12, an operation unit 14, a memory 16, a recording unit 18, a display unit 20, a data acquisition unit 22, a learning unit 24, and a communication interface (communication I / F) 26.
  • the control unit 12 includes a CPU (Central Processing Unit) that controls the operation of each unit of the learning device 10.
  • the control unit 12 may include a GPU (Graphics Processing Unit) in addition to the CPU or instead of the CPU.
  • the control unit 12 can transmit and receive control signals and data to and from each unit of the learning device 10 via the bus.
  • the control unit 12 receives an operation input from the operator via the operation unit 14 and transmits a control signal corresponding to the operation input to each unit of the learning apparatus 10 via the bus to control the operation of each unit.
  • the operation unit 14 is an input device that receives an operation input from an operator.
  • the operation unit 14 is a keyboard for inputting characters and the like, and a pointing device (for example, a mouse, a trackball) for operating a pointer and an icon displayed on the display unit 20. Etc.).
  • a touch panel may be provided on the surface of the display unit 20 instead of the keyboard and the pointing device or in addition to the keyboard and the pointing device.
  • the memory 16 includes a RAM (Random Access Memory) used as a work area for various calculations performed by the control unit 12 and the like, and a VRAM used as an area for temporarily storing image data output to the display unit 20. (Video Random Access Memory) is included.
  • RAM Random Access Memory
  • VRAM Video Random Access Memory
  • the recording unit 18 is a storage device that stores a control program used by the control unit 12, data received from the learning device 10, and the like.
  • a device including a magnetic disk such as an HDD (Hard Disk Drive), a device including a flash memory such as an eMMC (embedded Multi Media Card), an SSD (Solid State Drive), or the like can be used.
  • eMMC embedded Multi Media Card
  • SSD Solid State Drive
  • the display unit 20 is a device for displaying an image.
  • a liquid crystal monitor can be used as the display unit 20.
  • the communication I / F 26 is a means for performing communication with other devices via a network, and performs conversion processing of data to be transmitted and received according to the communication method.
  • wired communication or wireless communication for example, LAN (Local Area Network), WAN (Wide Area Network), Internet connection, etc.
  • LAN Local Area Network
  • WAN Wide Area Network
  • Internet connection etc.
  • the data acquisition unit 22 acquires the learning data set TD1 via the communication I / F 26.
  • the learning unit 24 causes the discriminator 30 to perform learning using the learning data set TD1 acquired by the data acquisition unit 22.
  • the discriminator 30 is an image recognition engine for recognizing a subject in an image
  • the learning data set TD1 receives, for example, an image, and the name, type, or property of the subject in the image. Can be used as a supervised learning data set.
  • the discriminator 30 is configured using, for example, a convolutional neural network, and the convolutional neural network includes a skip connection.
  • FIG. 2 is a diagram for explaining the skip connection.
  • layers L1 to L5 are shown in order from the upstream side to the downstream side. Inputs to the layers L1 to L5 are x0 to x4, respectively.
  • the skip connection SC branches the output from the first layer to the second layer, which is the next layer of the first layer, skips the second layer, and is located downstream of the second layer.
  • the coupling MS other than the skip connection is referred to as a main stream.
  • FIG. 3 is a block diagram showing a configuration example of a neural network in the discriminator according to one embodiment of the present invention.
  • FIG. 3 shows an example in which the present invention is applied to Dense Convolutional Network (DenseNet).
  • DenseNet has a skip connection and combines (concatenates) data at the connection location.
  • the discriminator 30 is an image recognition engine that receives an image, recognizes what the subject is in the image, and outputs it as a prediction.
  • FIG. 3 shows three dense blocks.
  • the white circles in FIG. 3 indicate the input layer of Dense Block, and the black circles indicate the layer that performs a series of batch normalization processing (Batch Normalization) ⁇ activation function (rectified linear unit: ReLU) ⁇ convolution. ing.
  • Batch Normalization batch normalization processing
  • activation function rectified linear unit: ReLU
  • convolution convolution
  • the batch normalization process is a process for preventing the disappearance of the gradient, and is a process for normalizing the value of each element of the batch in the batch learning using the average and the variance in the batch.
  • the batch normalization processing is described in, for example, Ioffe, S. et al., “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, 2015, International Conference on Machine Learning (ICML).
  • the ReLU has a role of determining how the sum of input signals is activated, and arranges a value to be passed to the next layer. ReLU is described in Glorot, X. et al., “Deep Sparse Rectifier Neural Networks”, 2011, Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS).
  • Each arrow in FIG. 3 represents a connection (connection) between the layers.
  • Curved arrows indicate skip connections.
  • the skip connection is provided in an intermediate layer that is a layer other than the input layer and the output layer.
  • the skip connection extending from each layer is configured to be coupled to all of the main stream coupling between the black circles, but the present embodiment is not limited to this. .
  • the input from the main stream and the data input from the skip connection are combined.
  • a method of combining data for example, an input from a main stream and an input from a skip connection may be combined by calculation (for example, addition).
  • a method of connecting data arranged in the same order to the end of numerical data arranged in the order of Channel, Height, and Width may be adopted. Note that the order and method of concatenating data are not limited to the above. As for the order and method of data connection, any method may be adopted as long as it is fixed at the time of learning and inference.
  • FIG. 4 is a flowchart showing a learning method according to an embodiment of the present invention.
  • connection invalidation unit 32 of the learning unit 24 selects a skip connection to be invalidated (step S10), and invalidates the selected skip connection (step S12).
  • Steps S10 and S12 are referred to as a coupling invalidation step.
  • the learning control unit 34 performs neural network learning in the discriminator 30 in a state where the skip connection is invalidated (step S14). And the learning control part 34 changes the skip connection of invalidation object, and makes the discrimination device 30 perform learning repeatedly (No of step S16: learning control step). Steps S14 and S16 are referred to as learning control steps.
  • step S10 processes (1) and (2) are performed for each Dense unit included in the neural network.
  • each skip connection is selected with a predetermined probability (for example, a probability of 20%).
  • a skip connection with a large number of skipped layers or a skip connection with a small number of skipped layers may be preferentially selected. That is, the skip connection with a larger number of skipped layers or the skip connection with a smaller number of skipped layers may have a higher probability of being selected as an invalidation target. For example, in consideration of the fact that the deeper the layer, the more likely the gradient disappears. The deeper the layer, the lower the probability that a skip connection with a larger number of skipped layers will be selected for invalidation is skipped. A skip connection having a large number of layers may be left at the time of learning. Alternatively, the skip connection to be invalidated may be selected at random with the same probability.
  • At least one skip connection is invalidated at each learning.
  • the skip connection invalidation process in step S12 is performed according to (A) and (B).
  • step S16 the learning of the discriminator 30 is repeated by changing the skip connection invalidation pattern.
  • the discriminator 30 including the learned neural network in which all the neural networks of the discriminator 30 are validated is obtained. Can do.
  • all skip connections may be invalidated once, or skip connections that are not invalidated may occur.
  • the main stream connection is maintained by setting only the skip connection as the invalidation target. Thereby, it is possible to suppress a decrease in learning convergence performance.
  • FIG. 5 is a block diagram showing an image recognition system including a learning apparatus according to an embodiment of the present invention.
  • FIG. 6 is a block diagram illustrating a configuration example of a neural network in the classifier used in the first embodiment.
  • the image recognition system 1 includes an image recognition device 100 and an imaging device 150.
  • the imaging device 150 is a device for imaging a subject, and is a device for imaging a still image or a moving image. Image data captured by the imaging device 150 is input to the image recognition device 100.
  • the image recognition device 100 is a device that recognizes a subject in an image using the discriminator 30 that is an image recognition engine learned in the learning device 10. Then, the image recognition apparatus 100 performs image classification based on the recognized subject.
  • the discriminator 30 of the image recognition device 100 can be updated by being replaced with the latest discriminator 30 that has been learned by the learning device 10.
  • images are classified using a data set relating to image classification (for example, ImageNet) as a reference for a subject in the image.
  • learning by the discriminator 30 is performed using a learning data set in which the input is image data and the output (correct answer label) is a subject expressed in 1-of-K expression.
  • the 1-of-K expression is a vector format expression in which only one element is 1 and the others are 0, and is sometimes called a one-hot expression.
  • the neural network according to the first embodiment has a structure in which four dense blocks are connected by three transition layers. After the output from DenseDBlock 4 is input to the classification layer (Classification), a prediction indicating the name or type of the subject is output from the classification layer.
  • classification layer Classification
  • Example 1 the learning method similar to that of the above embodiment is executed for each Dense Block of the neural network shown in FIG. 6, and the generalization performance is high while suppressing deterioration in convergence performance. It is possible to create an image recognition engine for performing image classification.
  • Example 2 applies the learning method according to the present embodiment to lesion segmentation for a moving image captured by an endoscope.
  • the imaging device 150 is provided in an endoscope.
  • FIG. 7 is a block diagram illustrating a configuration example of a neural network in the discriminator used in the second embodiment.
  • the neural network according to the second embodiment has a structure in which four dense blocks are connected by three transition layers as in FIG. Then, the output from Dense Block 4 is sequentially propagated to the convolution layer and the activation function (Softmax function), and the prediction is output.
  • Softmax function the activation function
  • Example 2 first, a frame included in moving image data captured by an endoscope is taken out as still image data and used as an input to a neural network.
  • the input is still image data that is a frame of a moving image captured by an endoscope
  • one of the outputs is a score map indicating the probability that a lesion exists in the input still image data
  • the other output Performs learning of the discriminator 30 using a learning data set as a score map representing the probability that no lesion exists in the input still image data.
  • the probability that a lesion exists in the input still image data for example, a numerical value in the range of 0 to 1, and a value closer to 1 can be used as the lesion has a higher probability of existence.
  • a numerical value in the range of 0 to 1 As the probability that there is no lesion in the input still image data, for example, a numerical value in the range of 0 to 1, and the closer to 1, the lower the probability of lesion presence can be used.
  • Example 2 the same learning method as that of the above embodiment is executed for each Dense block of the neural network shown in FIG. 7 to suppress the deterioration of the convergence performance and to improve the segmentation of the lesion with high generalization performance. It is possible to create an image recognition engine for this purpose.
  • Example 3 applies the learning method according to the present embodiment to image recognition for a three-dimensional image (for example, a medical image).
  • the imaging device 150 is provided in a device for imaging 3D image data, for example.
  • the three-dimensional image includes cross-sectional image data of a subject imaged by an apparatus such as CT (Computed Tomography) or MRI (Magnetic Resonance Imaging), and includes a group of image data in a direction perpendicular to the cross-section. .
  • CT Computer Tomography
  • MRI Magnetic Resonance Imaging
  • the input is a 3D CT image and the output is the presence or absence of a lesion or the type of lesion.
  • the classifier 30 is trained using the data set.
  • the discriminator 30 is applied to image recognition.
  • the present invention is not limited to this.
  • the present invention can be applied to a speech recognition engine.
  • the present invention can also be realized as a program (learning program) that causes a computer to realize the above processing, or as a non-transitory recording medium or program product that stores such a program.
  • a program learning program
  • a non-transitory recording medium or program product that stores such a program.
  • processors include general-purpose processors that execute software (programs) and function as various processing units such as CPU (Central Processing Unit), GPU (Graphics Processing Unit), and FPGA (Field Programmable Gate Array).
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • FPGA Field Programmable Gate Array
  • a processor that has a circuit configuration that is specifically designed to execute a specific process such as a programmable logic device (PLD: Programmable Logic Device) or an ASIC (Application Specific Integrated Circuit) that can change the circuit configuration after manufacturing.
  • PLD Programmable logic device
  • ASIC Application Specific Integrated Circuit
  • One processing unit may be composed of one of these various processors, or two or more processors of the same type or different types (for example, a plurality of FPGAs, a combination of a CPU and a GPU, or a CPU and an FPGA). A combination thereof.
  • the plurality of processing units may be configured by one processor.
  • a plurality of processing units with one processor, first, as represented by a computer such as a client or server, one processor is configured with a combination of one or more CPUs and software. There is a form in which the processor functions as a plurality of processing units.
  • SoC system-on-chip
  • IC integrated circuit
  • circuitry circuitry in which circuit elements such as semiconductor elements are combined.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

学習における収束性能の低下を抑えながら、過学習を防止して汎化性能を向上させることが可能な学習装置、方法及びプログラムを提供する。学習装置は、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部と、学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にする結合無効部と、結合無効部により無効にするスキップコネクションを変えて、学習部に学習を行わせる学習制御部とを備える。

Description

学習装置、方法及びプログラム
 本発明は学習装置、方法及びプログラムに係り、特に深層学習を利用した学習装置、方法及びプログラムに関する。
 近年、画像中の対象物の認識において、深層学習(Deep Learning)、特に、ニューラルネットワーク(Neural Network:NN)又は畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を利用することが提案されている。深層学習では、層を深くするほど、認識精度が向上すると考えられている。
 ニューラルネットワークにおける学習では、誤差逆伝播法が用いられる。誤差逆伝播法では、各層の出力と正解との誤差を出力層側から入力層側に向かって逆伝播させ、この誤差から勾配を計算することにより、各層における重みが更新される。深層学習において、単純に層を深くすると、層が深いほど、入力層側に誤差が伝わりづらくなる。このため、勾配が0又は0に近い小さな値となって、各層における重みが更新されなくなるという勾配消失問題が発生し、ニューラルネットワークの性能が悪化する。
 そこで、ニューラルネットワークにおいて、第1の層からその次の第2の層への出力を分岐させて第2の層をショートカットして、第1の層からの出力を第2の層よりも下流にある第3の層に結合するスキップコネクション(skip connection)を持つモデルが提案されている(非特許文献1及び2)。
 非特許文献1は、Residual Network(ResNet)に関する文献である。ResNetでは、スキップコネクションを用いて前層の出力を下流側に加算することにより、残差(Residual)を学習するようになっている。
 非特許文献2は、Dense Convolutional Network(DenseNet)に関する文献である。DenseNetでは、スキップコネクションを用いて前層の出力を下流側に結合させるようになっている。
 非特許文献1及び2によれば、スキップコネクションを用いて前層の出力を下流側に結合させることにより、層が深くなることによる勾配消失問題を改善することができると考えられる。
 ところで、ニューラルネットワークにおいて、層が深くなりパラメータの数が増えて、ニューラルネットワークの構造が複雑化すると、学習済みのデータに対しては正解が得られるものの、学習済みのデータ以外の未知のデータに対して適合できない過学習という状態になる場合がある。非特許文献1及び2に記載の発明では、過学習による汎化性能の低下の問題に対応することはできない。
 この過学習に関する問題に対して、特許文献1及び非特許文献3には、ニューラルネットワークにおける汎化性能を向上させる技術が開示されている。
 特許文献1には、DROPOUTという手法が開示されている。特許文献1では、学習を行うときに、ランダム(確率的)に特徴検出器(feature detector)を選択して無効にすることにより、汎化性能を上げるアンサンブル学習を行うようになっている。なお、特許文献1における特徴検出器は、ニューラルネットワークにおけるノード、畳み込みニューラルネットワークにおけるフィルタに相当する。
 非特許文献3では、学習を行うときに、ResNetのResidual Block(ResBlock)における各層から次の層に至る結合をランダムに除去(remove)して、スキップコネクションを維持するようになっている。
米国特許第9406017号明細書
He, K. et al.,"Deep Residual Learning for Image Recognition", 2016, Proceedings of IEEE conference on Computer Vision and Pattern Recognition (CVPR) Huang, G. et al.,"Densely connected convolutional networks", [online], 2016, arXiv,[平成30年2月26日検索],インターネット<URL:https://arxiv.org/abs/1608.06993> Huang, G. et al.,"Deep Networks with Stochastic Depth", 2016, European Conference on Computer Vision (ECCV), Springer International Publishing
 特許文献1及び非特許文献3では、スキップコネクションではなく、各層からその次の層に至る結合であるメインストリーム(main stream)が無効化又は除去されるようになっている。アンサンブル学習を行うときに、メインストリームの結合が無効化されると、無効化されたメインストリームに結合する層における学習が行われなくなるため、収束性能が低下するという問題がある。
 本発明はこのような事情に鑑みてなされたもので、学習における収束性能の低下を抑えながら、過学習を防止して汎化性能を向上させることが可能な学習装置、方法及びプログラムを提供することを目的とする。
 上記課題を解決するために、本発明の第1の態様に係る学習装置は、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部と、学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にする結合無効部と、結合無効部により無効にするスキップコネクションを変えて、学習部に学習を行わせる学習制御部とを備える。
 本発明の第2の態様に係る学習装置は、第1の態様において、ニューラルネットワークにおいて、スキップコネクションは中間層に設けられるようにしたものである。
 本発明の第3の態様に係る学習装置は、第1又は第2の態様において、結合無効部は、無効にするスキップコネクションをランダムに選択するようにしたものである。
 本発明の第4の態様に係る学習装置は、第1から第3の態様のいずれかにおいて、結合無効部は、あらかじめ設定された確率に基づいて、無効にするスキップコネクションを選択するようにしたものである。
 本発明の第5の態様に係る学習装置は、第1から第4の態様のいずれかにおいて、結合無効部は、スキップコネクションを介して順伝播する出力を0にすることにより、スキップコネクションを無効にするようにしたものである。
 本発明の第6の態様に係る学習装置は、第1から第5の態様のいずれかにおいて、結合無効部は、スキップコネクションを介した逆伝播を遮断することにより、スキップコネクションを無効にするようにしたものである。
 本発明の第7の態様に係る学習方法は、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部により学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にする結合無効ステップと、結合無効ステップにおいて無効にするスキップコネクションを変えて、学習部に学習を行わせる学習制御ステップとを備える。
 本発明の第8の態様に係る学習プログラムは、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う機能と、学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にする機能と、無効にするスキップコネクションを変えて、学習を行う機能とをコンピュータに実現させる。また、本発明の他の対応に係る学習装置は、プロセッサが、複数の層を備えるニューラルネットワークであって、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行い、学習を行うときに、スキップコネクションのうちの少なくとも1つを無効にし、無効にするスキップコネクションを変えて、学習を行う学習装置である。
 本発明によれば、無効にするスキップコネクションを変えて学習を行うことにより、各層の結合の仕方が異なるニューラルネットワークを用いた学習を繰り返し行うことができる。これにより、アンサンブル学習を実現することができるので、ニューラルネットワークの汎化性能を向上させることができる。さらに、本発明によれば、無効化対象をスキップコネクションのみにすることにより、メインストリームの結合は維持されるので、学習の収束性能の低下を抑えることが可能になる。
図1は、本発明の一実施形態に係る学習装置を示すブロック図である。 図2は、スキップコネクションについて説明するための図である。 図3は、本発明の一実施形態に係る判別器におけるニューラルネットワークの構成例を示すブロック図である。 図4は、本発明の一実施形態に係る学習方法を示すフローチャートである。 図5は、本発明の一実施形態に係る学習装置を備えた画像認識システムを示すブロック図である。 図6は、実施例1において用いられる判別器におけるニューラルネットワークの構成例を示すブロック図である。 図7は、実施例2において用いられる判別器におけるニューラルネットワークの構成例を示すブロック図である。
 以下、添付図面に従って本発明に係る学習装置、方法及びプログラムの実施の形態について説明する。
 [学習装置]
 図1は、本発明の一実施形態に係る学習装置を示すブロック図である。
 図1に示すように、本実施形態に係る学習装置10は、制御部12、操作部14、メモリ16、記録部18、表示部20、データ取得部22、学習部24及び通信インターフェース(通信I/F)26を備える。
 制御部12は、学習装置10の各部の動作を制御するCPU(Central Processing Unit)を含んでいる。制御部12は、CPUに加えて、又はCPUの代わりに、GPU(Graphics Processing Unit)を備えていてもよい。制御部12は、バスを介して、学習装置10の各部との間で制御信号及びデータの送受信が可能となっている。制御部12は、操作部14を介してオペレータからの操作入力を受け付け、バスを介してこの操作入力に応じた制御信号を学習装置10の各部に送信して各部の動作を制御する。
 操作部14は、オペレータからの操作入力を受け付ける入力装置であり、文字入力等のためのキーボード、表示部20に表示されるポインタ及びアイコン等を操作するためのポインティングデバイス(例えば、マウス、トラックボール等)を含んでいる。なお、操作部14としては、キーボード及びポインティングデバイスに代えて、又は、キーボード及びポインティングデバイスに加えて、表示部20の表面にタッチパネルを設けてもよい。
 メモリ16は、制御部12等により行われる各種演算のための作業領域として使用されるRAM(Random Access Memory)、及び表示部20に出力される画像データを一時記憶するため領域として使用されるVRAM(Video Random Access Memory)を含んでいる。
 記録部18は、制御部12が使用する制御プログラム、及び学習装置10から受信したデータ等を格納するストレージデバイスである。記録部18としては、例えば、HDD(Hard Disk Drive)等の磁気ディスクを含む装置、eMMC(embedded Multi Media Card)、SSD(Solid State Drive)等のフラッシュメモリを含む装置等を用いることができる。
 表示部20は、画像を表示するための装置である。表示部20としては、例えば、液晶モニタを用いることができる。
 通信I/F26は、ネットワークを介して、ほかの装置との間で通信を行うための手段であり、通信の方法に応じて送受信するデータの変換処理を行う。学習装置10とほかの装置との間のデータの送受信方法としては、有線通信又は無線通信(例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット接続等)を用いることができる。
 データ取得部22は、通信I/F26を介して、学習用データセットTD1を取得する。
 学習部24は、データ取得部22により取得した学習用データセットTD1を用いて判別器30に学習を行わせる。ここで、判別器30が画像中の被写体を認識するための画像認識エンジンの場合には、学習用データセットTD1は、例えば、画像を入力とし、画像に写っている被写体の名称、種類又は性質を出力(正解データ)とする教師あり学習用のデータセットを用いることができる。
 判別器30は、例えば、畳み込みニューラルネットワークを用いて構成されており、この畳み込みニューラルネットワークには、スキップコネクションが含まれている。図2は、スキップコネクションについて説明するための図である。
 図2に示すニューラルネットワークでは、上流側から下流側に向かって、層L1からL5が順番に示されている。各層L1からL5に対する入力をそれぞれx0からx4とする。
 スキップコネクションSCとは、第1の層から第1の層の次の層である第2の層への出力を分岐させ、第2の層をスキップして第2の層よりも下流にある第3の層の入力に結合する結合、すなわち、1つ以上先の層への結合をいう。
 以下の説明では、各層間の結合のうち、スキップコネクション以外の結合MSをメインストリームと呼ぶこととする。
 図3は、本発明の一実施形態に係る判別器におけるニューラルネットワークの構成例を示すブロック図である。
 図3は、本発明をDense Convolutional Network(DenseNet)に適用した例を示している。DenseNetは、スキップコネクションを有し、結合箇所でデータの結合(連結)を行う。
 図3では、判別器30は、画像を入力とし、その画像に写っている被写体が何であるかを認識し、予測として出力する画像認識エンジンである。
 図3に示す例では、白丸1つ、黒丸4つのセットをデンスブロック(Dense Block)として定義する。図3には、Dense Blockが3つ示されている。
 図3における白丸はDense Blockの入力層を示しており、黒丸はバッチ正規化処理(Batch Normalization)→活性化関数(rectified linear unit:ReLU)→畳み込み(Convolution)の一連の処理を行う層を示している。以下の説明では、黒丸をDense Unitと呼ぶこととする。
 ここで、バッチ正規化処理とは、勾配消失を防止するための処理であり、バッチ学習におけるバッチの各要素の値を、バッチ内における平均及び分散を用いて正規化する処理である。バッチ正規化処理については、例えば、Ioffe, S. et al.,“Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, 2015, International Conference on Machine Learning(ICML)に記載されている。
 また、ReLUは、入力信号の総和がどのように活性化するかを決定する役割を持ち、次の層に渡す値を整える。ReLUについては、Glorot, X. et al.,“Deep Sparse Rectifier Neural Networks”, 2011, Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics(AISTATS)に記載されている。
 図3における各矢印は、各層間の結合(コネクション)を表す。曲線矢印は、スキップコネクションを示している。図3に示すように、本実施形態では、スキップコネクションは、入力層及び出力層以外の層である中間層に設けられている。なお、本実施形態では、各層(白丸及び黒丸)から伸びるスキップコネクションが黒丸間のメインストリームの結合のすべてに結合するように構成されているが、本実施形態はこれに限定されるものではない。例えば、スキップコネクションが結合しないメインストリームがあってもよい。
 Dense Unitに向かう矢印が複数の場合(スキップコネクションの入力がある場合)、メインストリームからの入力と、スキップコネクションから入力されるデータが結合される。本実施形態では、データの結合の方法としては、例えば、メインストリームからの入力とスキップコネクションからの入力を演算(例えば、加算)により結合するようにしてもよい。また、深層学習フレームワークテンソルフロー(TensorFlow(登録商標))において、Channel, Height, Widthの順に並んだ数値データの末尾に、これと同じ順に並んだデータを連結させる方法を採用してもよい。なお、データの連結の順序及び方法については、上記に限定されるものではない。データの連結の順序及び方法については、学習時と推論時に固定されていれば、どのような方法を採用してもよい。
 [学習方法]
 以下に、ニューラルネットワークの学習を行うときの動作について、図4を参照して説明する。以下の動作は、バッチごとに行われる。図4は、本発明の一実施形態に係る学習方法を示すフローチャートである。
 まず、学習部24の結合無効部32は、無効化対象のスキップコネクションを選択し(ステップS10)、選択したスキップコネクションを無効化する(ステップS12)。ステップS10及びS12を結合無効ステップという。
 次に、学習制御部34は、スキップコネクションを無効化した状態で、判別器30におけるニューラルネットワークの学習を行う(ステップS14)。そして、学習制御部34は、無効化対象のスキップコネクションを変えて、判別器30に繰り返し学習を行わせる(ステップS16のNo:学習制御ステップ)。ステップS14及びS16を学習制御ステップという。
 ステップS10では、ニューラルネットワークに含まれるDense Unitごとに(1)及び(2)の処理を行う。
 (1)まず、スキップコネクションをそれぞれあらかじめ定められた確率(例えば、20%の確率)で選択する。
 (2)次に、(1)で選択されたスキップコネクションがある場合に、選択されたスキップコネクションの中から無効化対象のスキップコネクションを1つ選択する。(2)では、スキップした層の数が多いスキップコネクション、又はスキップした層の数が少ないスキップコネクションを優先して選択するようにしてもよい。すなわち、スキップした層の数が多いスキップコネクション、又はスキップした層の数が少ないスキップコネクションほど、無効化対象として選択される確率が高くなるようにしてもよい。例えば、深い層であるほど、勾配消失が起こりやすいことを考慮して、深い層であるほど、スキップした層の数が多いスキップコネクションが無効化対象として選択される確率を低くして、スキップした層の数が多いスキップコネクションを学習時に残すようにしてもよい。また、無効化対象のスキップコネクションをランダムに、同じ確率で選択してもよい。
 これらの処理により、各Dense Unitにおいて、無効化対象のスキップコネクションが0又は1つ選択される。
 本実施形態では、各学習のときに、少なくとも1つのスキップコネクションを無効化する。なお、繰り返し学習のうちの1回の学習については、スキップコネクションの無効化を行わずに、学習を行うようにしてもよい。
 ステップS12におけるスキップコネクションの無効化処理は、(A)及び(B)により行われる。
 (A)損失を計算するための順伝播を行うときには、無効化対象のスキップコネクションを介して伝播してきたデータの値を全て0として結合させる。
 (B)誤差逆伝播時には、無効化対象のスキップコネクションに対しては誤差を伝播しないか、あるいは勾配0を伝播する。これにより、無効化対象として選択されたスキップコネクションを介したデータの伝播が遮断されて、スキップコネクションが無効化される。
 ステップS16では、スキップコネクションの無効化のパターンを変えて、判別器30の学習が繰り返し行われる。そして、所定の無効化のパターンのすべてについて、学習が終了すると(ステップS16のYes)、判別器30のニューラルネットワークのすべてが有効化された学習済みのニューラルネットワークを含んだ判別器30を得ることができる。なお、本実施形態に係る学習方法では、すべてのスキップコネクションが必ず1回は無効化されるようにしてもよいし、無効化されないスキップコネクションが生じてもよい。
 本実施形態によれば、無効にするスキップコネクションを変えて学習を行うことにより、各層の結合の仕方が異なるニューラルネットワークを用いた学習を繰り返し行うことができる。これにより、アンサンブル学習を実現することができるので、ニューラルネットワークの汎化性能を向上させることができる。さらに、本実施形態では、無効化対象がスキップコネクションのみにすることにより、メインストリームの結合は維持される。これにより、学習の収束性能の低下を抑えることが可能になる。
 [実施例1:画像分類(Classification)への適用例]
 次に、本実施形態の判別器30を画像認識エンジンに適用した例について説明する。
 図5は、本発明の一実施形態に係る学習装置を備えた画像認識システムを示すブロック図である。図6は、実施例1において用いられる判別器におけるニューラルネットワークの構成例を示すブロック図である。
 図5に示すように、本実施形態に係る画像認識システム1は、画像認識装置100及び撮像装置150を備えている。
 撮像装置150は、被写体を撮像するための装置であり、静止画又は動画を撮像する装置である。撮像装置150によって撮像された画像データは、画像認識装置100に入力される。
 画像認識装置100は、学習装置10において学習が行われた画像認識エンジンである判別器30を用いて、画像に写っている被写体の認識を行う装置である。そして、画像認識装置100は、認識した被写体を基準として画像の分類を行う。
 画像認識装置100の判別器30は、学習装置10によって学習が行われた最新の判別器30と置き換えられることにより、更新することが可能となっている。
 実施例1では、画像分類に関するデータセット(例えば、ImageNet等)を用いて、画像内に写っている被写体を基準として画像を分類する。実施例1では、入力を画像データ、出力(正解ラベル)を1-of-K表現で表現された被写体とする学習用データセットを用いて、判別器30の学習を行う。ここで、1-of-K表現とは、ある要素だけが1で、それ以外が0となるベクトル形式の表現であり、one-hot表現と呼ばれる場合もある。
 図6に示すように、実施例1に係るニューラルネットワークは、4つのDense Blockが3つのトランジションレイヤー(Transition Layer)でつながれた構造を有している。そして、Dense Block 4からの出力が分類層(Classification)に入力された後、分類層から被写体の名称又は種類を示す予測が出力されるようになっている。
 実施例1では、図6に示すニューラルネットワークの各Dense Blockについて、上記の実施形態と同様の学習方法を実行することにより、収束性能の低下を抑えながら、汎化性能の高い、一例で1000クラスの画像分類を行うための画像認識エンジンを作成することが可能になる。
 [実施例2:病変セグメンテーションへの適用例]
 実施例2は、内視鏡により撮像した動画を対象とした病変セグメンテーションに、本実施形態に係る学習方法を適用するものである。実施例2では、撮像装置150は、内視鏡に設けられる。
 図7は、実施例2において用いられる判別器におけるニューラルネットワークの構成例を示すブロック図である。
 図7に示すように、実施例2に係るニューラルネットワークは、図6と同様に、4つのDense Blockを3つのTransition Layerでつないだ構造を有している。そして、Dense Block 4からの出力が畳み込み層及び活性化関数(Softmax関数)に順次伝播して、予測が出力されるようになっている。
 実施例2では、まず、内視鏡により撮像した動画データに含まれるフレームを静止画データとして取り出し、ニューラルネットワークの入力とする。実施例1では、入力を内視鏡により撮像した動画のフレームである静止画データとし、出力のうちの一方は、入力の静止画データに病変が存在する確率を表すスコアマップ、出力のもう一方は、入力の静止画データに病変が存在しない確率を表すスコアマップとする学習用のデータセットを用いて判別器30の学習を行う。ここで、入力の静止画データに病変が存在する確率としては、例えば、0から1の範囲の数値であって、1に近いほど、病変の存在確率が高い値を用いることができる。入力の静止画データに病変が存在しない確率としては、例えば、0から1の範囲の数値であって、1に近いほど、病変の存在確率が低い値を用いることができる。
 実施例2では、図7に示すニューラルネットワークの各Dense Blockについて、上記の実施形態と同様の学習方法を実行することにより、収束性能の低下を抑えながら、汎化性能の高い、病変のセグメンテーションのための画像認識エンジンを作成することが可能になる。
 [実施例3]
 実施例3は、3次元画像(例えば、医療画像)を対象とした画像認識に、本実施形態に係る学習方法を適用するものである。実施例3では、撮像装置150は、例えば、3次元画像データを撮像するための装置に設けられる。ここで、3次元画像には、CT(Computed Tomography)又はMRI(Magnetic Resonance Imaging)等の装置により撮像された被写体の断面画像データであって、その断面に垂直な方向の画像データ群が含まれる。
 実施例3においても、図3、図6又は図7に示したようなスキップコネクションを有するニューラルネットワークを使用することが可能である。
 例えば、3次元画像データに含まれる被写体(例えば、病変)を基準として画像データの分類を行う場合には、入力を3次元のCT画像とし、出力を病変の有無又は病変の種類とする学習用のデータセットを用いて判別器30の学習を行う。
 また、セグメンテーションを行う場合には、入力を3次元のCT画像とし、出力をCT画像に含まれる被写体が特定の臓器(例えば、肺領域)である確率を表すスコアマップとする学習用のデータセットを用いて判別器30の学習を行う。
 これにより、3次元画像データに対しても、上記の実施形態と同様の学習方法を実行することにより、収束性能の低下を抑えながら、汎化性能の高い画像認識エンジンを作成することが可能になる。
 なお、本実施形態では、2次元及び3次元の画像データにおける画像認識について説明したが、本発明はこれらに限定されるものではなく、スキップコネクションを有するN次元(Nは自然数)のデータの畳み込みを行うための畳み込みニューラルネットワークに適用することが可能である。
 また、本実施形態では、判別器30を画像認識に適用する例について説明したが、本発明はこれに限定されない。例えば、音声認識エンジンに本発明を適用することも可能である。
 [プログラムの発明について]
 本発明は、コンピュータに上記の処理を実現させるプログラム(学習プログラム)、又は、このようなプログラムを格納した非一時的な記録媒体又はプログラムプロダクトとして実現することも可能である。このようなプログラムをコンピュータに適用することにより、コンピュータの演算手段、記録手段等に、本実施形態に係る学習方法の各ステップに対応する機能を実現させることが可能になる。
 各実施形態において、各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)として実現することが可能である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(PLD:Programmable Logic Device)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
 1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種または異種の2つ以上のプロセッサ(例えば、複数のFPGA、CPUとGPUの組み合わせ、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(SoC:System On Chip)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
 10 学習装置
 12 制御部
 14 操作部
 16 メモリ
 18 記録部
 20 表示部
 22 データ取得部
 24 学習部
 26 通信I/F
 30 判別器
 32 結合無効部
 34 学習制御部
 1 画像認識システム
 100 画像認識装置
 150 撮像装置
 S10~S16 学習方法の各ステップ

Claims (8)

  1.  複数の層を備えるニューラルネットワークであって、第1の層から前記第1の層の次の層である第2の層への出力を分岐させ、前記第2の層をスキップして前記第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部と、
     前記学習を行うときに、前記スキップコネクションのうちの少なくとも1つを無効にする結合無効部と、
     前記結合無効部により無効にするスキップコネクションを変えて、前記学習部に学習を行わせる学習制御部と、
     を備える学習装置。
  2.  前記ニューラルネットワークにおいて、前記スキップコネクションは中間層に設けられる、請求項1記載の学習装置。
  3.  前記結合無効部は、無効にするスキップコネクションをランダムに選択する、請求項1又は2記載の学習装置。
  4.  前記結合無効部は、あらかじめ設定された確率に基づいて、無効にするスキップコネクションを選択する、請求項1から3のいずれか1項記載の学習装置。
  5.  前記結合無効部は、前記スキップコネクションを介して順伝播する出力を0にすることにより、前記スキップコネクションを無効にする、請求項1から4のいずれか1項記載の学習装置。
  6.  前記結合無効部は、前記スキップコネクションを介した逆伝播を遮断することにより、前記スキップコネクションを無効にする、請求項1から5のいずれか1項記載の学習装置。
  7.  複数の層を備えるニューラルネットワークであって、第1の層から前記第1の層の次の層である第2の層への出力を分岐させ、前記第2の層をスキップして前記第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う学習部により学習を行うときに、前記スキップコネクションのうちの少なくとも1つを無効にする結合無効ステップと、
     前記結合無効ステップにおいて無効にするスキップコネクションを変えて、前記学習部に学習を行わせる学習制御ステップと、
     を備える学習方法。
  8.  複数の層を備えるニューラルネットワークであって、第1の層から前記第1の層の次の層である第2の層への出力を分岐させ、前記第2の層をスキップして前記第2の層よりも下流にある第3の層の入力に結合するスキップコネクションを複数含むニューラルネットワークの学習を行う機能と、
     前記学習を行うときに、前記スキップコネクションのうちの少なくとも1つを無効にする機能と、
     無効にするスキップコネクションを変えて、前記学習を行う機能と、
     をコンピュータに実現させる学習プログラム。
PCT/JP2019/005533 2018-02-28 2019-02-15 学習装置、方法及びプログラム WO2019167665A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020503389A JP6865889B2 (ja) 2018-02-28 2019-02-15 学習装置、方法及びプログラム
US16/999,081 US20200380365A1 (en) 2018-02-28 2020-08-21 Learning apparatus, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-035356 2018-02-28
JP2018035356 2018-02-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/999,081 Continuation US20200380365A1 (en) 2018-02-28 2020-08-21 Learning apparatus, method, and program

Publications (1)

Publication Number Publication Date
WO2019167665A1 true WO2019167665A1 (ja) 2019-09-06

Family

ID=67806150

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/005533 WO2019167665A1 (ja) 2018-02-28 2019-02-15 学習装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20200380365A1 (ja)
JP (1) JP6865889B2 (ja)
WO (1) WO2019167665A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119506A (ja) * 2019-01-25 2020-08-06 株式会社ストラドビジョンStradvision,Inc. メタ学習のために残差ネットワークが提供されるcnnのパラメータを調整するための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置{learning method and learning device for adjusting parameters of cnn in which residual networks are provided for meta learning, and testing method and testing device using the same}
EP3995999A1 (en) 2020-11-06 2022-05-11 Fujitsu Limited Machine learning program, machine learning method, and information processing apparatus

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI767122B (zh) * 2018-05-25 2022-06-11 宏達國際電子股份有限公司 模型建構方法、系統及非揮發性電腦可讀取記錄媒體
US11537436B2 (en) * 2019-10-02 2022-12-27 Qualcomm Incorporated Method of configuring a memory block allocation of a machine learning network
JP2022174422A (ja) 2021-05-11 2022-11-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
KR102646762B1 (ko) * 2023-03-13 2024-03-12 (주)빛과 수학 3차원 유저 인터페이스를 이용한 기계학습 모델 설계 방법 및 이를 이용하는 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10650286B2 (en) * 2017-09-07 2020-05-12 International Business Machines Corporation Classifying medical images using deep convolution neural network (CNN) architecture

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KHENED, MAHENDRA ET AL.: "Fully Convolutional Multi-scale Residual DenseNets for Cardiac Segmentation and Automated Cardiac Diagnosis using Ensemble of Classifiers", ARXIV:1801.05173V1, 16 January 2018 (2018-01-16), pages 1 - 59, XP055635612, Retrieved from the Internet <URL:https://arxiv.org/pdf/1801.05173.pdf> [retrieved on 20190508] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119506A (ja) * 2019-01-25 2020-08-06 株式会社ストラドビジョンStradvision,Inc. メタ学習のために残差ネットワークが提供されるcnnのパラメータを調整するための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置{learning method and learning device for adjusting parameters of cnn in which residual networks are provided for meta learning, and testing method and testing device using the same}
EP3995999A1 (en) 2020-11-06 2022-05-11 Fujitsu Limited Machine learning program, machine learning method, and information processing apparatus

Also Published As

Publication number Publication date
JPWO2019167665A1 (ja) 2021-02-04
JP6865889B2 (ja) 2021-04-28
US20200380365A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
WO2019167665A1 (ja) 学習装置、方法及びプログラム
Zhu et al. Adversarial deep structured nets for mass segmentation from mammograms
Man et al. Deep Q learning driven CT pancreas segmentation with geometry-aware U-Net
Ayalew et al. Detection and classification of COVID-19 disease from X-ray images using convolutional neural networks and histogram of oriented gradients
Saha et al. Retracted article: Graphcovidnet: A graph neural network based model for detecting COVID-19 from ct scans and x-rays of chest
Rahim et al. A deep convolutional neural network for the detection of polyps in colonoscopy images
US11929174B2 (en) Machine learning method and apparatus, program, learned model, and discrimination apparatus using multilayer neural network
Xiang et al. Towards interpretable skin lesion classification with deep learning models
JP2021056995A (ja) 医用情報処理装置、医用情報処理システム及び医用情報処理方法
Zhao et al. Versatile framework for medical image processing and analysis with application to automatic bone age assessment
Rajesh et al. An evolutionary block based network for medical image denoising using Differential Evolution
CN107688815A (zh) 医学图像的分析方法和分析系统以及存储介质
Pandey et al. Segmentation of liver lesions with reduced complexity deep models
Maity et al. Automatic lung parenchyma segmentation using a deep convolutional neural network from chest X-rays
Cheng et al. DDU-Net: A dual dense U-structure network for medical image segmentation
CN113256592A (zh) 图像特征提取模型的训练方法、系统及装置
Nguyen et al. Bone age assessment and sex determination using transfer learning
Liu et al. 3d tomographic pattern synthesis for enhancing the quantification of covid-19
JP2022536732A (ja) 敵対的生成ネットワークを使用してoct画像から雑音及び/又はアーチファクトを除去するためのシステム及び方法
Wang et al. PaI‐Net: A modified U‐Net of reducing semantic gap for surgical instrument segmentation
de Vente et al. Automated COVID-19 grading with convolutional neural networks in computed tomography scans: a systematic comparison
Wang et al. Skin lesion image segmentation based on adversarial networks
JP2021527859A (ja) 深層領域拡張を使用した画像内の不規則形状のセグメント化
Hu et al. Mixture of calibrated networks for domain generalization in brain tumor segmentation
Zhang et al. MAGI: Multi-Annotated Explanation-Guided Learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19760436

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020503389

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19760436

Country of ref document: EP

Kind code of ref document: A1