WO2020065908A1 - パターン認識装置、パターン認識方法およびパターン認識プログラム - Google Patents

パターン認識装置、パターン認識方法およびパターン認識プログラム Download PDF

Info

Publication number
WO2020065908A1
WO2020065908A1 PCT/JP2018/036217 JP2018036217W WO2020065908A1 WO 2020065908 A1 WO2020065908 A1 WO 2020065908A1 JP 2018036217 W JP2018036217 W JP 2018036217W WO 2020065908 A1 WO2020065908 A1 WO 2020065908A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
data
neural network
network type
layer
Prior art date
Application number
PCT/JP2018/036217
Other languages
English (en)
French (fr)
Inventor
高橋 勝彦
博義 宮野
哲夫 井下
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/036217 priority Critical patent/WO2020065908A1/ja
Priority to JP2020547786A priority patent/JP7024881B2/ja
Publication of WO2020065908A1 publication Critical patent/WO2020065908A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a pattern recognition device, a pattern recognition method, and a pattern recognition program, and more particularly to a pattern recognition device, a pattern recognition method, and a pattern recognition program to which a statistical pattern recognition technology is applied.
  • Image recognition technology using deep learning is installed in various video surveillance systems.
  • deep learning for example, a calculation algorithm called a neural network is used.
  • Patent Documents 1 to 4 disclose techniques related to neural networks.
  • Patent Literature 1 discloses an information processing device using a multilayer neural network.
  • Patent Document 2 discloses a machine learning device that can create a neural network of an appropriate scale.
  • Patent Document 3 discloses a neural network learning device capable of optimizing the structure of a neural network.
  • Patent Document 4 discloses a character recognition device using a neuro that performs learning by not only learning the overall shape of a character but also the shape of a character in units of small regions.
  • fine-tuning a procedure called “fine-tuning” is often used as a procedure for performing deep learning.
  • fine tuning a pre-trained dictionary learned using a large amount of image data in advance is used as an initial value, and image data indicating an object originally recognized by the video monitoring system is additionally learned. .
  • the method of correcting only the weight parameter of the intermediate layer close to the output layer of the network has a feature that the amount of calculation for correcting the weight parameter is smaller than the method of correcting the weight parameter of the entire network.
  • Modifying the weight parameters of the entire network increases the possibility of constructing a network with a high identification rate because the appropriate extraction of features from newly added training data and classes to be recognized is necessary at the front end of the network. This is because the possibility of execution in a part increases.
  • the learning data is often image data.
  • SVM support vector machine
  • LVQ learning vector quantization
  • the feature extracting means is completely independent of the discriminating means. Therefore, the single feature amount data output by the feature extraction unit is often used as learning data of the identification unit.
  • the feature amount data has an advantage that a privacy problem hardly occurs even when used in comparison with image data.
  • the learning device be capable of recording image data that cannot be recorded but record feature amount data that is abstracted to the extent that no individual is specified is imposed.
  • JP 2018-026040 A JP 2017-182319 A Japanese Patent Application Laid-Open No. 2017-037392 JP-A-07-160830
  • FIG. 11 is an explanatory diagram showing an example of a neural network type discriminator.
  • FIG. 11 shows the structure of the neural network type classifier and the position of the layer from which the feature data is extracted.
  • the neural network type discriminator shown in FIG. 11 is a network type discriminator in which a convolution layer and a fully connected layer are connected in layers.
  • each number in the convolution layer shown in FIG. 11 indicates a size obtained by multiplying a vertical size and a horizontal size of two-dimensional data such as an image or a feature amount.
  • 224x224 is the size of data having a vertical size of 224 (pixels or pieces) and a horizontal size of 224 (pixels or pieces).
  • the neurons in the fully connected layer shown in FIG. 11 are connected to all the neurons in the previous layer.
  • Each number in the all connected layers shown in FIG. 11 indicates the size of the feature amount data expressed in one dimension. For example, “4096” means that the size of the feature amount data output from the layer is 4096 (pieces).
  • the amount of usable learning data is preferably larger. From the viewpoint of adapting the network to new data as much as possible, it is considered preferable to modify the weight parameters of the network as much as possible by fine tuning.
  • an object of the present invention is to provide a pattern recognition device, a pattern recognition method, and a pattern recognition program that can execute fine tuning while considering the amount of reusable feature amount data, which solves the above-described problem. .
  • the pattern recognition device includes a feature amount data output from one of a plurality of layers of a neural network type discriminator in which a plurality of layers to which learning image data is input are connected in layers.
  • Second learning data including one learning data and feature amount data output from one of a plurality of layers of the neural network type discriminator to which learning image data different from the image data is input;
  • Prediction means for predicting the discriminating performance of the neural network type discriminator after the learning has been performed using, and determining means for determining the range of the learning target layer of the neural network type discriminator based on the predicted discriminating performance
  • a pattern recognition apparatus includes a neural network type discriminator in which a plurality of layers are connected in a layered manner, a determining unit for determining a candidate of a range of a learning target layer, and a neural network type input of learning image data.
  • Learning means for learning the neural network type discriminator using the learning data including the feature amount data output from the candidate layer of the determined range of the discriminator, and the discrimination performance of the neural network type discriminator after the learning.
  • the pattern recognition method is characterized in that the plurality of layers to which the image data for learning are input are combined in a layered manner, and the neural network type discriminator includes feature amount data output from one of the plurality of layers.
  • Second learning data including one learning data and feature amount data output from one of a plurality of layers of the neural network type discriminator to which learning image data different from the image data is input; And estimating the discrimination performance of the neural network type discriminator after the learning is performed by using, and determining a range of a learning target layer of the neural network type discriminator based on the predicted discrimination performance.
  • the pattern recognition method determines a candidate of a range of a learning target layer of a neural network type discriminator in which a plurality of layers are connected in a layered manner, and a neural network type discriminator to which learning image data is input.
  • the neural network type discriminator is learned using the learning data including the feature amount data output by the determined range candidate layer, and the discrimination performance of the neural network type discriminator after the learning is evaluated.
  • the parameters of the derived neural network type classifier are stored in the storage unit together with the candidates of the determined range, and the parameters are selected from the storage unit based on the evaluated classification performance and the number of learning data used for learning. It is characterized by the following.
  • the pattern recognition program is characterized in that a computer outputs feature amount data output from one of a plurality of layers of a neural network type discriminator in which a plurality of layers to which learning image data is input are connected in layers. And learning amount data output from one of the plurality of layers of the neural network type discriminator to which learning image data different from the image data is input.
  • a pattern recognition program is a neural network type discriminator in which a plurality of layers are connected in a layered manner.
  • fine tuning can be performed while considering the amount of reusable feature amount data.
  • FIG. 1 is a block diagram illustrating a configuration example of a first embodiment of a pattern recognition device according to the present invention.
  • 6 is a flowchart illustrating an operation of a fine tuning execution process by the pattern recognition device 100 according to the first embodiment.
  • FIG. 6 is a block diagram illustrating a configuration example of a second embodiment of the pattern recognition device according to the present invention.
  • FIG. 4 is an explanatory diagram illustrating an example of learning data stored in a learning data storage unit 202.
  • FIG. 4 is an explanatory diagram illustrating an example of a relationship between a range of a layer to be subjected to fine tuning and a learning data amount.
  • 9 is a flowchart illustrating an operation of a fine tuning execution process performed by the pattern recognition device 200 according to the second embodiment.
  • FIG. 1 is a block diagram showing a configuration example of a first embodiment of a pattern recognition device according to the present invention.
  • the pattern recognition apparatus 100 includes a neural network type discriminator 101, a first learning data storage unit 102, a second learning data storage unit 103, and a learning unit 104.
  • learning data for fine tuning includes a plurality of feature data in which respective outputs from a plurality of intermediate layers of the neural network type discriminator are recorded in addition to the image data, the discrimination performance and the feature are evaluated. There is a trade-off between quantity data reusability.
  • the discrimination performance of the neural network type discriminator and the reusability of feature data are related to the range of the layer to be fine-tuned.
  • the pattern recognition apparatus 100 of the present embodiment has both the discrimination performance after fine tuning and the reusability of the learning data. In consideration of the above, the range of the layer to be fine-tuned is determined.
  • the neural network type discriminator 101 is a discriminator that performs a pattern recognition process using a neural network.
  • the neural network type discriminator 101 of the present embodiment is, for example, a neural network type discriminator shown in FIG. Also, the neural network type discriminator 101 may be ResNet, GoogleNet, MobileNet, or the like.
  • the first learning data storage means 102 has a function of storing the first learning data.
  • the first learning data corresponds to, for example, feature amount data output from one layer when learning image data is input to the neural network type discriminator 101, and the input learning image data. It includes the correct answer class and the identification information of the layer from which the feature data has been output.
  • the second learning data storage means 103 has a function of storing the second learning data.
  • the second learning data for example, a feature output when image data different from the learning image data from which the feature amount data included in the first learning data is generated is input to the neural network type discriminator 101. Includes quantity data.
  • the included feature amount data is data output from one layer different from the one layer to which the feature amount data included in the first learning data is output.
  • the second learning data includes the correct answer class corresponding to the input image data and the identification information of the layer from which the feature data has been output, together with the feature data.
  • FIG. 3 is a block diagram showing a configuration example of the second embodiment of the pattern recognition device according to the present invention.
  • the learning data storage unit 202 has a function of storing learning data including image data for learning and feature amount data output from the intermediate layer of the neural network type discriminator 201.
  • the stored learning data includes the first learning data of the first embodiment and the second learning data.
  • the learning data may include only one of the image data and the feature amount data.
  • the re-learning range determining means 205 has a function of determining one or more candidates for the range (re-learning range) of the layer to be subjected to fine tuning.
  • the re-learning range determining unit 205 determines one or a plurality of candidates for the range of the layer to be fine-tuned from among the layers constituting the neural network type discriminator 201.
  • re-learning range determining unit 205 For example, re-learning range determining unit 205, "higher layers than the L 1 layer” candidates ranging executed layers of fine-tuned to the neural network discriminator shown in FIG. 11, "the L 2 Top layers “than the layer, to determine three ways” layer higher than the L 3 layer ".
  • the re-learning range determining unit 205 outputs information indicating the determined candidates for the range of the layer to be fine-tuned to be executed.
  • Figure 4 shows that the training data E and learning data F includes a feature amount data extracted from the intermediate layer L 2. Also, Figure 4 shows that the training data G and learning data H includes the feature amount data extracted from the intermediate layer L 1.
  • the learning data selection unit 204 sets the learning data A and the learning data B to fine tuning. Select the learning data to be used.
  • the learning data selecting unit 204 learning data A, the learning data B, the learning data C, And the learning data D is selected as learning data used for fine tuning.
  • the evaluation means 206 obtains, for example, the discrimination performance of the neural network type discriminator 201 with respect to the evaluation data by using the neural network type discriminator 201 updated by the learning means 203.
  • the identification performance may be represented by, for example, a correct recognition rate and an incorrect recognition rate.
  • the re-learning result storage means 207 has a function of temporarily storing information indicating the weight parameter of the neural network type discriminator 201 after the fine tuning has been performed.
  • the re-learning result selecting means 208 selects the best neural network type discriminator 201. More specifically, the re-learning result selecting unit 208 determines the discrimination performance for each candidate of the range of the layer to be subjected to fine tuning stored in the re-learning result storing unit 207, and the learning data selected by the learning data selecting unit 204. Select based on the number of data.
  • the re-learning result selecting unit 208 selects the re-learning result having the smallest number of layers to be fine-tuned from among the re-learning results whose discrimination performance is within the permissible range. Just choose the result. By selecting the re-learning result based on the above criteria, the re-learning result selecting unit 208 can maximize the amount of reusable learning data.
  • the re-learning result selection means 208 may calculate a score representing the discrimination performance negatively affected by the decrease in the amount of reusable learning data, for example, as follows.
  • the re-learning result selecting means 208 may select the neural network type discriminator 201 corresponding to the re-learning result giving the maximum score.
  • the neural network type discriminator 201 may be a network type discriminator for solving a problem other than the discrimination problem.
  • the evaluation unit 206 may express the detection performance in mAP (mean ⁇ Average ⁇ Precision) ⁇ , or may determine the false detection rate and the detection rate.
  • the detection performance may be expressed by the ratio.
  • the evaluation unit 206 converts the two-dimensional index of the false detection rate and the detection rate into a one-dimensional index of the detection performance.
  • the detection rates and the false detection rates may be added after weighting the rates.
  • the re-learning result selecting means 208 selects the re-learning result having the smallest number of the layers to be fine-tuned from among the re-learning results whose detection performance is within the permissible range. Just choose the result. By selecting the re-learning result based on the above criteria, the re-learning result selecting unit 208 can maximize the amount of reusable learning data.
  • the re-learning result selecting means 208 may select the neural network type discriminator 201 corresponding to the re-learning result giving the maximum score.
  • a linear expression is shown as an example of an expression in which the re-learning result selection unit 208 calculates a score from the value of the identification performance or the value of the detection performance.
  • the re-learning result selecting unit 208 may use a higher-order calculation formula instead of a linear formula as a formula for calculating the score.
  • the re-learning result selecting means 208 may calculate the score based on a specific model formula.
  • FIG. 6 is a flowchart showing the operation of the fine tuning execution process by the pattern recognition device 200 of the second embodiment.
  • the re-learning range determining unit 205 determines a candidate of a range of a layer to be subjected to fine tuning for the neural network type classifier 201 (step S201).
  • the re-learning range determining unit 205 inputs the determined candidates for the range of the layer to be subjected to the fine tuning to the learning data selecting unit 204.
  • the learning data selection unit 204 focuses on one range candidate among the range candidates of the layers to be subjected to fine tuning input in step S201. That is, the process enters a relearning loop (step S202).
  • the learning data selection unit 204 stores learning data required for performing fine tuning on a candidate of the range of the layer to which the fine tuning is to be performed, based on the learning data stored in the learning data storage unit 202. It is selected from among them (step S203). The learning data selection unit 204 inputs the selected learning data to the learning unit 203.
  • the learning means 203 performs fine tuning on the neural network type discriminator 201 using the learning data selected in step S203 (step S204).
  • the evaluation means 206 evaluates the discrimination performance of the neural network type discriminator 201 with respect to the evaluation data using the neural network type discriminator 201 updated in step S204 (step S205).
  • the evaluation means 206 stores the discrimination performance evaluated in step S205 as the re-learning result in the re-learning result storage means 207 (step S206).
  • the learning unit 203 stores the information indicating the weight parameter of the neural network type classifier 201 updated in step S204 and the information indicating the candidate of the range of the layer to be subjected to the fine tuning into the relearning result storage unit 207. Include it in the stored re-learning results. Further, the learning data selection unit 204 includes the number of selected learning data in the re-learning result stored in the re-learning result storage unit 207.
  • the pattern recognition apparatus 200 repeatedly executes the processing of steps S203 to S206 until fine tuning is performed on all the candidates of the range of the layer to be subjected to fine tuning determined in step S201.
  • the pattern recognition device 200 exits the relearning loop (step S207).
  • the re-learning result selecting means 208 selects an optimal re-learning result from the re-learning results stored in the re-learning result storage means 207 (step S208). After selecting the optimal re-learning result, the pattern recognition device 200 ends the fine tuning execution process.
  • the pattern recognition device 200 of the above example includes only one type of neural network type discriminator 201.
  • the feature data extracted from the intermediate layer is only the feature data related to one type of neural network type discriminator.
  • the neural network type discriminator from which the feature data has been extracted is specified in advance as one type.
  • the feature data extracted from each of the plurality of neural network classifiers may be mixed and stored in the learning data storage unit 202 of the present embodiment. That is, the pattern recognition device 200 may include a plurality of types of neural network type discriminators. When the pattern recognition device 200 includes a plurality of types of neural network type discriminators, each neural network type discriminator has network identification information.
  • the network identification information may be represented by a single numerical value or a character string.
  • the network identification information may be information in which the number of layers, the type of each layer, a filter size, a filter coefficient, a stride width, an activation function, and the like are developed as a single numerical sequence according to a predetermined rule.
  • each layer includes a convolution layer, a pooling layer, a full connect layer, and a softmax layer.
  • each piece of information about a layer such as a filter size may be listed for each layer.
  • the learning data stored in the learning data storage means 202 includes network identification information that can identify the neural network type discriminator, and the position of the layer of the neural network type discriminator from which the feature data included in the learning data is extracted. Is associated with the information.
  • the network identification information of the neural network type classifier from which the feature data has been extracted, and the feature data are A set with information indicating the position of the extracted layer is stored.
  • one feature amount data may be associated with a plurality of neural network type classifiers.
  • the pattern recognition device 200 includes a neural network type discriminator A and a neural network type discriminator B having different network structures from the input layer to the N-th layer, but having the same network weight parameter. Suppose you have
  • the stored feature amount data includes the Nth layer of the neural network type discriminator B. Also, information indicating that the data is feature amount data extracted from is added. The feature data to which information has been added is used over different fine tunings.
  • FIG. 7 is an explanatory diagram showing another example of the learning data stored in the learning data storage unit 202.
  • FIG. 7 also shows the data name of the learning data and the contents of the data.
  • the content of the data indicates that the learning data includes either image data or feature amount data.
  • the content of the data also indicates the network identification information of the neural network type classifier from which the feature data has been extracted and the layer from which the feature data has been extracted.
  • the structure of the network type identifier identified by network identification information N 1, the structure of the network type identifier identified by network identification information N 2, and the network type identifier identified by network identification information N 3 Structure are common from the input layer to the intermediate layer L 3.
  • the learning data E and learning data F is identified by network identification information N network discriminator of the intermediate layer L feature data extracted from the 2 identified by 1, and the network identification information N 2 that indicates that it contains the feature amount data extracted from the intermediate layer L 2 of the network type identifier.
  • the structure of the network type identifier identified by network identification information N 1 structure of the network type identifier that is identified by a network identification information N 2 are common from the input layer to the intermediate layer L 2.
  • the learning data G and learning data H indicates that including the feature amount data extracted from the intermediate layer L 1 of the network type identifier identified by network identification information N 1.
  • the learning data selection unit 204 focuses on one range candidate among the range candidates of the layer to be subjected to fine tuning determined by the re-learning range determination unit 205. Next, the learning data selecting unit 204 selects only learning data obtained from sources other than candidates of the range of the layer to be subjected to fine tuning of the neural network type discriminator among the learning data stored in the learning data storage unit 202. select.
  • the learning data selection means 204 of this modification selects only learning data in which the network identification information indicating the neural network type discriminator to be subjected to fine tuning is equal to the included network identification information.
  • the pattern recognition device 200 of the present modified example can be used for a plurality of neural network type discriminators within a similar structure.
  • the same feature data can be used.
  • FIG. 8 is an explanatory diagram showing a hardware configuration example of the pattern recognition device according to the present invention.
  • the pattern recognition device shown in FIG. 8 includes a CPU (Central Processing Unit) 11, a main storage unit 12, a communication unit 13, and an auxiliary storage unit 14. Further, an input unit 15 for the user to operate and an output unit 16 for presenting the processing result or the progress of the processing content to the user may be provided.
  • a CPU Central Processing Unit
  • main storage unit 12 main storage unit 12
  • communication unit 13 main storage unit 13
  • auxiliary storage unit 14 auxiliary storage unit 14. Further, an input unit 15 for the user to operate and an output unit 16 for presenting the processing result or the progress of the processing content to the user may be provided.
  • the pattern recognition device shown in FIG. 8 may include a DSP (Digital Signal Processor) instead of the CPU 11.
  • the pattern recognition device illustrated in FIG. 8 may include the CPU 11 and the DSP together.
  • the main storage unit 12 is used as a data work area and a data temporary save area.
  • the main storage unit 12 is, for example, a RAM (Random Access Memory).
  • the communication unit 13 has a function of inputting and outputting data to and from peripheral devices via a wired network or a wireless network (information communication network).
  • the auxiliary storage unit 14 is a non-temporary tangible storage medium.
  • Non-transitory tangible storage media include, for example, magnetic disks, magneto-optical disks, CD-ROMs (Compact Disk Read Only Memory), DVD-ROMs (Digital Versatile Disk Read Only Memory), and semiconductor memories.
  • the input unit 15 has a function of inputting data and processing instructions.
  • the input unit 15 is an input device such as a keyboard and a mouse.
  • the output unit 16 has a function of outputting data.
  • the output unit 16 is, for example, a display device such as a liquid crystal display device or a printing device such as a printer.
  • each component of the pattern recognition device is connected to the system bus 17.
  • the auxiliary storage unit 14 stores, for example, programs for realizing the learning unit 104, the learning unit 203, the learning data selecting unit 204, the relearning range determining unit 205, the evaluating unit 206, and the relearning result selecting unit 208. I have.
  • the first learning data includes a correct answer class corresponding to the learning image data from which the feature amount data included in the first learning data is generated, and one of the ones that output the feature amount data included in the first learning data.
  • the second learning data includes information indicating a layer, the second learning data includes a correct answer class corresponding to learning image data from which the feature amount data included in the second learning data is generated, and a feature amount included in the second learning data. And information indicating one layer that has output data.
  • the pattern recognition device can further improve the accuracy of fine tuning.
  • the learning means includes a learning image data different from the learning image data from which the feature amount data included in the first learning data is generated, and a correct answer class corresponding to the different learning image data. Learning may be performed using the third learning data and the first learning data.
  • FIG. 10 is a block diagram showing another outline of the pattern recognition device according to the present invention.
  • the pattern recognition device 30 includes: a determination unit 31 (for example, a re-learning range determination unit 205) that determines a candidate of a range of a learning target layer of a neural network type classifier in which a plurality of layers are connected in layers; A learning means 32 (for example, learning means for learning a neural network type discriminator using learning data including feature amount data output from a candidate layer in a determined range of the neural network type discriminator to which the image data for learning is input) The learning means 203), the evaluation means 33 (e.g., the evaluation means 206) for evaluating the discrimination performance of the learned neural network type discriminator, and the parameters of the learned and derived neural network type discriminator are determined.
  • a determination unit 31 for example, a re-learning range determination unit 205
  • a learning means 32 for example, learning means for learning a neural network type discriminator using learning data including feature amount data output from a candidate layer in a determined
  • Storage means 34 for example, re-learning result storage means 207) for storing together with the candidates of the range that has been evaluated, It comprises a selection means 35 for selecting a parameter from the storage unit 34 based on the number of learning data used for learning (e.g., re-learning result selection unit 208).
  • the pattern recognition device can execute fine tuning while considering the amount of reusable feature amount data.
  • the pattern recognition device can recognize all feature data extracted from a layer higher than a predetermined layer.
  • the learning data may include learning image data from which the feature data included in the learning data is generated, and a correct answer class corresponding to the feature data and the image data.
  • the pattern recognition device can further improve the accuracy of fine tuning.
  • the learning data may include network information indicating a neural network type discriminator that has output feature data included in the learning data.
  • the pattern recognition device can support a plurality of types of neural network type classifiers.
  • the learning means 32 may perform learning using learning data including network information indicating a neural network type discriminator to be learned.
  • the pattern recognition device can support a plurality of types of neural network type classifiers.
  • the storage unit 34 may store the parameter, the discrimination performance of the neural network type discriminator having the parameter, and the number of pieces of learning data used for learning from which the parameter is derived.
  • the pattern recognition device can collectively manage the results of a plurality of fine tunings.
  • the learning means includes learning image data different from the learning image data from which the feature amount data included in the first learning data is generated, and a correct answer class corresponding to the different learning image data. 4. The pattern recognition device according to claim 3, wherein learning is performed using third learning data including the following and the first learning data.
  • Determining means for determining a candidate of a range of a learning target layer of a neural network type discriminator in which a plurality of layers are connected in layers, and a neural network type discriminator to which image data for learning is input.
  • Learning means for learning the neural network type discriminator using learning data including feature amount data output from the determined range candidate layer; and evaluating the discrimination performance of the neural network type discriminator after the learning.
  • Evaluation means, and storage means for storing the learned and derived parameters of the neural network type discriminator together with the candidates for the determined range, the evaluated discrimination performance and the number of learning data used for learning.
  • a selecting means for selecting a parameter from the storage means based on the information.
  • the supplementary note 5 or supplementary note 6 includes the learning image data from which the feature amount data included in the learning data is generated, and the correct amount class corresponding to the feature amount data and the image data.
  • the pattern recognition device according to the above.
  • Appendix 9 The pattern recognition device according to Appendix 8, wherein the learning means learns using learning data including network information indicating a neural network type classifier to be learned.
  • the storage means additionally stores the parameter, the discrimination performance of the neural network type discriminator having the parameter, and the number of pieces of learning data used for learning from which the parameter is derived. 10.
  • the pattern recognition device according to any one of 9.
  • First learning data including feature amount data output from one of the plurality of layers of the neural network type discriminator in which the plurality of layers to which the learning image data is input are connected in layers.
  • Second learning including feature amount data output from one of the plurality of layers of the neural network type discriminator to which learning image data different from the image data is input.
  • Characteristic pattern recognition method Characteristic pattern recognition method.
  • a candidate of a range of a learning target layer of the neural network type classifier in which a plurality of layers are connected in layers is determined, and the neural network type classifier to which the learning image data is input is determined.
  • Learning the neural network type discriminator using learning data including feature amount data output from the range candidate layer evaluating the discrimination performance of the neural network type discriminator after learning, learning and deriving
  • the stored parameters of the neural network type discriminator are stored in the storage unit together with the candidates for the determined range, and the parameters are stored in the storage unit based on the evaluated discrimination performance and the number of learning data used for learning.
  • a pattern recognition method characterized by selecting.
  • a computer including feature amount data output from one of the plurality of layers of the neural network type discriminator in which a plurality of layers to which learning image data is input are connected in layers. 1 learning data and feature amount data output by one of the plurality of layers of the neural network type discriminator to which learning image data different from the image data is input, the one being different from the one of the plurality of layers.
  • a prediction process for predicting the discrimination performance of the neural network type discriminator after learning using the second learning data; and a learning target layer of the neural network type discriminator based on the predicted discrimination performance.
  • a pattern recognition program for executing a determination process for determining a range.
  • Evaluation processing for evaluating, storage processing for storing, in the storage means, parameters of the neural network type discriminator derived and learned together with candidates for the determined range, and learning data used for the evaluated discrimination performance and learning For executing a selection process of selecting a parameter from the storage means based on the number of Identification program.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

パターン認識装置20は、学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、画像データと異なる学習用の画像データが入力されたニューラルネットワーク型識別器の複数の層のうちの1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後のニューラルネットワーク型識別器の識別性能を予測する予測部21と、予測された識別性能に基づいてニューラルネットワーク型識別器の学習対象の層の範囲を決定する決定部22とを備える。

Description

パターン認識装置、パターン認識方法およびパターン認識プログラム
 本発明は、パターン認識装置、パターン認識方法およびパターン認識プログラムに関し、特に統計的パターン認識技術を応用したパターン認識装置、パターン認識方法およびパターン認識プログラムに関する。
 ディープラーニングを用いた画像認識技術が、様々な映像監視システムに搭載されている。ディープラーニングでは、例えばニューラルネットワークという計算アルゴリズムが扱われる。
 特許文献1~特許文献4には、ニューラルネットワークに関する技術が記載されている。例えば、特許文献1には、多層ニューラルネットワークを用いた情報処理装置が記載されている。また、特許文献2には、適切な規模のニューラルネットワークを作成できる機械学習装置が記載されている。
 また、特許文献3には、ニューラルネットワークの構造を最適化することが可能なニューラルネットワーク学習装置が記載されている。また、特許文献4には、文字の全体形状のみならず文字の小領域単位の形状の学習も行い、認識を行うようにしたニューロを使った文字認識装置が記載されている。
 ディープラーニングの実行手順として、特にファインチューニング(fine-tuning) と呼ばれる手順が使用されることが多い。ファインチューニングでは、予め大量の画像データが用いられて学習されたプレトレインド(pre-trained) の辞書が初期値とされ、映像監視システムが本来認識する対象物を示す画像データが追加で学習される。
 辞書は、例えばニューラルネットワーク等のネットワークモデル、およびネットワークモデルの重みパラメータを含む。対象物を示す画像データが追加で学習されることによって、ネットワークモデルの重みパラメータが修正される。
 例えば、非特許文献1に、ファインチューニングに関連する技術が記載されている。非特許文献1には、教師なし学習で特徴抽出ネットワークを構築した後、認識対象ラベルが用いられたファインチューニングでネットワーク全体の重みパラメータを調整し直す学習方法が記載されている。
 また、非特許文献2には、新しい学習データが得られた場合のネットワークの重みパラメータを修正する方法や、新しいクラスのデータが追加された場合の出力層へのニューロンの追加を伴うネットワークの重みパラメータを修正する方法が記載されている。
 学習データや認識対象のクラスが追加された場合、ネットワーク全体の重みパラメータを修正する方法と、ネットワークの出力層に近い2層~3層の中間層の重みパラメータのみを修正する方法がある。
 ネットワーク全体の重みパラメータを修正する方法は、ネットワークの出力層に近い中間層の重みパラメータのみを修正する方法に比べて、高い識別率を有するネットワークを構築できる可能性が理論的に高いという特長を有する。
 また、ネットワークの出力層に近い中間層の重みパラメータのみを修正する方法は、ネットワーク全体の重みパラメータを修正する方法に比べて、重みパラメータの修正に係る計算量が少ないという特長を有する。
 ネットワーク全体の重みパラメータを修正した方が高い識別率を有するネットワークを構築できる可能性が高まる理由は、新たに追加された学習データや認識対象のクラスからの特徴の適切な抽出が、ネットワークの前段部分で実行される可能性が高まるためである。
 よって、計算リソースも学習データも十分に利用可能である場合、学習データや認識対象のクラスが追加されたらネットワーク全体の重みパラメータを修正する方が好ましい。また、少なくとも計算リソースと学習データのどちらかが十分に利用可能でない場合、学習データや認識対象のクラスが追加されたらネットワークの出力層に近い層の重みパラメータのみを修正する方が好ましい。
 また、学習データは画像データであることが多い。しかし、SVM(Support Vector Machine:サポートベクトルマシン)やLVQ (Learning Vector Quantization:学習ベクトル量子化)識別器の学習において、特徴抽出手段は、識別手段と完全に独立している。よって、特徴抽出手段が出力する単一の特徴量データが、識別手段の学習データとして用いられることも多い。
 特徴量データは、画像データに比べて使用されてもプライバシ問題が発生しにくいという優位性を有する。すなわち、画像データは記録不可であるが、個人が特定されない程度に抽象化された特徴量データは記録可能であるという要件が学習装置に課せられることも考えられる。
 上記の要件が学習装置に課せられた場合、学習装置に特徴量データのみが存在し、特徴量データに対応する画像データは記録されていないため存在しないという状況が生じることが考えられる。上記の状況では、ニューラルネットワーク型識別器の異なる層で異なる画像データからそれぞれ抽出された各特徴量データが混合された学習データが用いられる場合がある。
特開2018-026040号公報 特開2017-182319号公報 特開2017-037392号公報 特開平07-160830号公報
P. Sermanet, K. Kavukcuoglu, S. Chintala, and Y. LeCun, "Pedestrian detection with unsupervised multi-stage feature learning," In Proc. International Conference on Computer Vision and Pattern Recognition (CVPR), 2013. Christoph K¨ading, Erik Rodner, Alexander Freytag, and Joachim Denzler, "Fine-tuning Deep Neural Networks in Continuous Learning Scenarios," In ACCV 2016 Workshop on Interpretation and Visualization of Deep Neural Nets, 2016.
 画像データと特徴量データとが混合された学習データ、またはニューラルネットワーク型識別器の異なる層で異なる画像データからそれぞれ抽出された各特徴量データが混合された学習データが用いられる学習方法には、課題が存在する。以下、学習方法に課題が存在する理由を、図面を参照して説明する。
 図11は、ニューラルネットワーク型識別器の一例を示す説明図である。図11は、ニューラルネットワーク型識別器の構造、および特徴量データが抽出される層の位置を示す。図11に示すニューラルネットワーク型識別器は、コンボリューション層と全結合層とが層状に結合されたネットワーク型識別器である。
 図11に示すコンボリューション層では、局所領域内でコンボリューションが行われる。また、図11に示すコンボリューション層における各数字は、画像または特徴量等の2次元で表現されるデータの、縦のサイズと横のサイズが掛け合わせられたサイズを示す。例えば、「224x224 」は、縦のサイズが224 (ピクセルまたは個)、横のサイズが224 (ピクセルまたは個)のデータのサイズである。
 また、図11に示す全結合層のニューロンは、前段の層内の全てのニューロンと結合されている。また、図11に示す全結合層における各数字は、1次元で表現される特徴量データのサイズを示す。例えば、「4096」は、層から出力される特徴量データのサイズが4096(個)であることを意味する。
 図11に示すネットワークの学習が実行される場合、特にファインチューニングが実行される場合、使用可能な学習データの量は、多い方が好ましいと考えられる。また、ネットワークを新しいデータに可能な限り適合させるという観点から、ファインチューニングでネットワークの重みパラメータを可能な限り修正する方が好ましいと考えられる。
 しかし、ネットワークの重みパラメータが修正されると、修正された重みパラメータを有する層よりも上位の層から抽出された特徴量データは、利用不可能になる。よって、特徴量データが含まれている学習データが利用されている場合、重みパラメータが変更された分だけ利用可能な学習データが減少するという課題が存在する。
 上記のように、ファインチューニングで重みパラメータが修正される層を増やすことと、再利用可能な特徴量データの量を増やすことは、同時に満たされない。よって、再利用可能な特徴量データの量を考慮しながら重みパラメータが修正される層を最適に決定する方法が求められる。特許文献1~特許文献4、および非特許文献1~非特許文献2には、上記の決定方法が記載されていない。
 そこで、本発明は、上述した課題を解決する、再利用可能な特徴量データの量を考慮しながらファインチューニングを実行できるパターン認識装置、パターン認識方法およびパターン認識プログラムを提供することを目的とする。
 本発明によるパターン認識装置は、学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、画像データと異なる学習用の画像データが入力されたニューラルネットワーク型識別器の複数の層のうちの1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後のニューラルネットワーク型識別器の識別性能を予測する予測手段と、予測された識別性能に基づいてニューラルネットワーク型識別器の学習対象の層の範囲を決定する決定手段とを備えることを特徴とする。
 本発明によるパターン認識装置は、複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定する決定手段と、学習用の画像データが入力されたニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いてニューラルネットワーク型識別器を学習する学習手段と、学習された後のニューラルネットワーク型識別器の識別性能を評価する評価手段と、学習されて導出されたニューラルネットワーク型識別器のパラメータを決定された範囲の候補と共に記憶する記憶手段と、評価された識別性能と学習に利用された学習データの数とに基づいて記憶手段からパラメータを選択する選択手段とを備えることを特徴とする。
 本発明によるパターン認識方法は、学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、画像データと異なる学習用の画像データが入力されたニューラルネットワーク型識別器の複数の層のうちの1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後のニューラルネットワーク型識別器の識別性能を予測し、予測された識別性能に基づいてニューラルネットワーク型識別器の学習対象の層の範囲を決定することを特徴とする。
 本発明によるパターン認識方法は、複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定し、学習用の画像データが入力されたニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いてニューラルネットワーク型識別器を学習し、学習された後のニューラルネットワーク型識別器の識別性能を評価し、学習されて導出されたニューラルネットワーク型識別器のパラメータを決定された範囲の候補と共に記憶手段に記憶させ、評価された識別性能と学習に利用された学習データの数とに基づいて記憶手段からパラメータを選択することを特徴とする。
 本発明によるパターン認識プログラムは、コンピュータに、学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、画像データと異なる学習用の画像データが入力されたニューラルネットワーク型識別器の複数の層のうちの1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後のニューラルネットワーク型識別器の識別性能を予測する予測処理、および予測された識別性能に基づいてニューラルネットワーク型識別器の学習対象の層の範囲を決定する決定処理を実行させることを特徴とする。
 本発明によるパターン認識プログラムは、コンピュータに、複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定する決定処理、学習用の画像データが入力されたニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いてニューラルネットワーク型識別器を学習する学習処理、学習された後のニューラルネットワーク型識別器の識別性能を評価する評価処理、学習されて導出されたニューラルネットワーク型識別器のパラメータを決定された範囲の候補と共に記憶手段に記憶させる記憶処理、および評価された識別性能と学習に利用された学習データの数とに基づいて記憶手段からパラメータを選択する選択処理を実行させることを特徴とする。
 本発明によれば、再利用可能な特徴量データの量を考慮しながらファインチューニングを実行できる。
本発明によるパターン認識装置の第1の実施形態の構成例を示すブロック図である。 第1の実施形態のパターン認識装置100によるファインチューニング実行処理の動作を示すフローチャートである。 本発明によるパターン認識装置の第2の実施形態の構成例を示すブロック図である。 学習データ記憶手段202に記憶されている学習データの例を示す説明図である。 ファインチューニングの実行対象の層の範囲と学習データ量との関係の例を示す説明図である。 第2の実施形態のパターン認識装置200によるファインチューニング実行処理の動作を示すフローチャートである。 学習データ記憶手段202に記憶されている学習データの他の例を示す説明図である。 本発明によるパターン認識装置のハードウェア構成例を示す説明図である。 本発明によるパターン認識装置の概要を示すブロック図である。 本発明によるパターン認識装置の他の概要を示すブロック図である。 ニューラルネットワーク型識別器の一例を示す説明図である。
[構成の説明]
実施形態1.
 以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明によるパターン認識装置の第1の実施形態の構成例を示すブロック図である。
 図1に示すように、パターン認識装置100は、ニューラルネットワーク型識別器101と、第1学習データ記憶手段102と、第2学習データ記憶手段103と、学習手段104とを備える。
 上述したように、ファインチューニング用の学習データとして、画像データ以外にニューラルネットワーク型識別器の複数の中間層からの各出力がそれぞれ記録された複数の特徴量データが存在する場合、識別性能と特徴量データの再利用可能性との間にトレードオフの関係がある。
 ニューラルネットワーク型識別器の識別性能、および特徴量データの再利用可能性は、ファインチューニングの対象の層の範囲と関連する。本実施形態のパターン認識装置100は、画像データと特徴量データ、または複数種類の特徴量データが学習データとして与えられている場合、ファインチューニング後の識別性能と学習データの再利用可能性の両方を考慮してファインチューニングの対象の層の範囲を決定する。
 ニューラルネットワーク型識別器101は、ニューラルネットワークを用いてパターン認識処理を行う識別器である。
 ニューラルネットワークは、例えば局所領域内でコンボリューションが行われるコンボリューション層、局所領域内で指定された性質の値が抽出されるプーリング層、およびニューロンが前段の層内の全てのニューロンと結合された全結合層等が層状に結合されたネットワークである。
 本実施形態のニューラルネットワーク型識別器101は、例えば図11に示すニューラルネットワーク型識別器である。また、ニューラルネットワーク型識別器101は、ResNet、GoogleNet 、またはMobileNet 等でもよい。
 第1学習データ記憶手段102は、第1学習データを記憶する機能を有する。第1学習データには、例えば、学習用の画像データがニューラルネットワーク型識別器101に入力された際に1つの層から出力される特徴量データと、入力された学習用の画像データに対応する正解クラスと、特徴量データが出力された層の識別情報とが含まれる。
 本実施形態の第1学習データは、ニューラルネットワーク型識別器101により事前に生成されている。例えば、図11に示すニューラルネットワーク型識別器の入力層に学習用の画像データが入力された際、中間層L3の有効な状態(発火)のニューロンの値がサンプリングされて特徴量データが生成される。ニューラルネットワーク型識別器101は、生成された特徴量データを基に第1学習データを生成する。
 次いで、第1学習データ記憶手段102には、生成された特徴量データと、入力された学習用の画像データに対応する正解クラスを示す情報と、中間層L3を示す情報とを含む第1学習データが保存される。予め定められた層が入力層であれば、特徴量データの保存は、入力された学習用の画像データの保存と等価になる。
 第2学習データ記憶手段103は、第2学習データを記憶する機能を有する。第2学習データには、例えば、第1学習データに含まれる特徴量データの生成元である学習用の画像データと異なる画像データがニューラルネットワーク型識別器101に入力された際に出力される特徴量データが含まれる。含まれる特徴量データは、第1学習データに含まれる特徴量データが出力された1つの層と異なる1つの層から出力されるデータである。
 また、第2学習データには、入力された画像データに対応する正解クラスと、特徴量データが出力された層の識別情報とが、特徴量データと共に含まれる。
 第2学習データは、第1学習データと同一構造のデータである。上記のように、第2学習データは、第1学習データに含まれる特徴量データがサンプリングされた層と別の層からサンプリングされた特徴量データを含む。
 また、第1学習データ記憶手段102に記憶されている第1学習データの生成に利用された学習用の画像データは、第2学習データ記憶手段103に記憶されている第2学習データの生成に利用された学習用の画像データと異なる。なお、共通の学習用の画像データを基にそれぞれ生成された第1学習データおよび第2学習データが、各記憶手段に記憶されていてもよい。
 学習手段104は、第1学習データと第2学習データとを両方用いて、ニューラルネットワーク型識別器101に対してファインチューニングを実行する機能を有する。以下、学習手段104によるファインチューニングの実行方法をいくつか示す。
 例えば、図11に示す中間層L1から特徴量データF1、中間層L2から特徴量データF2がそれぞれ抽出されたとする。特徴量データF1は第1学習データに、特徴量データF2は第2学習データにそれぞれ含まれている。学習手段104は、第1学習データと第2学習データとを両方用いて、中間層L1よりも上位の層のみに対してファインチューニングを実行してもよい。
 中間層L1よりも上位の層のみに対してファインチューニングを実行する際、学習手段104は、特徴量データF1を中間層L1へ、特徴量データF2を中間層L2へそれぞれ入力する。学習手段104は、例えば、入力層に画像データが入力された場合と同様に、出力層からの出力と正解ラベルとの二乗和を誤差関数として、バックプロパゲーションで誤差関数の値を減少させるようにネットワークの重みパラメータを修正する。
 学習手段104は、バックプロパゲーションにおける誤差の逆伝搬を中間層L1で止める。上記の方法によれば、ファインチューニングで重みパラメータが修正される層は、中間層L1よりも上位の層に限られる。しかし、特徴量データF1および特徴量データF2は、ファインチューニングが実行された後のニューラルネットワーク型識別器101においても使用可能なデータになる。
 また、学習手段104は、上記の方法で中間層L1よりも上位の層のみを学習した後、特徴量データF2を用いて中間層L2よりも上位の層を学習するという2段階でファインチューニングを実行してもよい。
 2段階でファインチューニングを実行する方法によれば、学習手段104は、ニューラルネットワーク型識別器101の、より下位の中間層L2まで学習データに適合させることができる。
 ただし、一度中間層L2以上の層の重みパラメータが修正されると、中間層L2よりも上位の層からサンプリングされた特徴量データ(本例では特徴量データF1)が、ニューラルネットワーク型識別器101で使用不可能になる。学習データの削減を回避する要請がある場合、本方法は、要請にそぐわない。
 第1学習データと第2学習データとを利用してニューラルネットワーク型識別器101に対してファインチューニングを実行する際、学習手段104は、上記のような検討を行った上でファインチューニングの実行対象の層の範囲を決定する。
 上記の例であれば、学習手段104は、特徴量データF1と特徴量データF2とを用いて中間層L1よりも上位の層のみを学習するか、さらに特徴量データF2のみを用いて中間層L2まで学習するかを、それぞれの識別性能、および学習データの減少量を考慮して決定する。
 上記の識別性能は、学習手段104がファインチューニングを実行する前に予測可能な値である。ニューラルネットワーク型識別器101に対するファインチューニングの実行対象の層の範囲を決定した後、学習手段104は、ニューラルネットワーク型識別器101の決定された範囲に対してファインチューニングを実行する。
 例えば、学習手段104は、以下の計算式で算出されるスコアのうち最大のスコアが算出される範囲を、ファインチューニングの実行対象の層の範囲に決定してもよい。
(スコア)=(識別性能)-α×(学習データの減少量)・・・式(1)
 ただし、式(1)における定数αは、識別性能の次元と学習データの減少量の次元とを揃えるための定数である。
 また、学習手段104は、第1学習データと第2学習データとを利用して学習を行う。例えば、第1学習データは、学習用の画像データがニューラルネットワーク型識別器101に入力された際に予め定められた層から出力された特徴量データと、入力された学習用の画像データに対応する正解クラスと、特徴量データが出力された層の識別情報との組を含む。
 本実施形態の第1学習データに含まれる特徴量データと第2学習データに含まれる特徴量データは、基本的に同一の画像データを基に生成されたデータではない。よって、本実施形態の学習手段104は、同一の画像データに対する複数種類の特徴量データを生成し、生成された特徴量データを結合した上で識別器の学習を行う一般的な学習手段と異なる。
 また、本実施形態の学習手段104は、異なる2つの層からそれぞれ抽出された特徴量データを用いる。しかし、学習手段104は、より多くの層からそれぞれ抽出された特徴量データを併せて学習に用いてもよい。
 なお、通常教師情報は、最上位層である出力層からの理想的な出力値として与えられる。学習手段104は、ニューラルネットワーク型識別器101の出力層からの出力値と、理想的な出力値との誤差を最小化するように、上位層側から層間のネットワークの重みパラメータを更新する。
 すなわち、学習手段104は、残差が1層ずつ下位の層に伝搬されていく手順でファインチューニングを実行する。よって、本実施形態の学習手段104は、中間の層のみに対するファインチューニングを実行しない。
[動作の説明]
 以下、本実施形態のパターン認識装置100のファインチューニングを実行する動作を図2を参照して説明する。図2は、第1の実施形態のパターン認識装置100によるファインチューニング実行処理の動作を示すフローチャートである。
 最初に、学習用の画像データが、ニューラルネットワーク型識別器101に入力される。次いで、ニューラルネットワーク型識別器101の予め定められた1つの層から、特徴量データが出力される。
 次いで、ニューラルネットワーク型識別器101は、出力された特徴量データ、入力された学習用の画像データに対応する正解カテゴリを示す情報、および第何層目であるか等の特徴量データが出力された層の位置を示す情報を含む第1学習データを生成する(ステップS101)。ニューラルネットワーク型識別器101は、生成された第1学習データを第1学習データ記憶手段102に保存する。
 次いで、ステップS101で入力された学習用の画像データと異なる学習用の画像データが、ニューラルネットワーク型識別器101に入力される。次いで、ニューラルネットワーク型識別器101の第1学習データに関して予め定められた層と異なる層から特徴量データが出力される。
 次いで、ニューラルネットワーク型識別器101は、出力された特徴量データ、入力された学習用の画像データに対応する正解カテゴリを示す情報、および第何層目であるか等の特徴量データが出力された層の位置を示す情報を含む第2学習データを生成する(ステップS102)。ニューラルネットワーク型識別器101は、生成された第2学習データを第2学習データ記憶手段103に保存する。
 次いで、学習手段104は、ニューラルネットワーク型識別器101に対するファインチューニングの実行対象の層の範囲を決定する(ステップS103)。学習手段104は、第1学習データ記憶手段102に保存されている第1学習データ、および第2学習データ記憶手段103に保存されている第2学習データの両方を利用して決定する。
 具体的には、学習手段104は、第1学習データと第2学習データとを用いて予め定められた層よりも上位の層のみを学習するか、さらに第2学習データのみを用いてより下位の層まで学習するかを、それぞれの学習後の識別性能、および学習データの減少量を考慮して決定する。
 例えば、学習手段104は、学習後の識別性能を予測し、予測された識別性能を基に式(1)のスコアを算出する。学習手段104は、算出された式(1)のスコアを基に実行対象の層の範囲を決定する。
 決定した後、学習手段104は、ニューラルネットワーク型識別器101の決定された範囲に対してファインチューニングを実行する(ステップS104)。ファインチューニングを実行した後、パターン認識装置100は、ファインチューニング実行処理を終了する。
[効果の説明]
 本実施形態のパターン認識装置100は、ネットワーク構造で表現されるニューラルネットワーク型識別器101を備える。また、パターン認識装置100は、第1学習データを記憶する第1学習データ記憶手段102と、第2学習データを記憶する第2学習データ記憶手段103とを備える。
 第1学習データは、学習用の画像データがニューラルネットワーク型識別器101に入力された際に1つの層から出力される特徴量データと、入力された学習用の画像データに対応する正解クラスと、特徴量データを出力する層の識別情報とを含む。
 第2学習データは、第1学習データの生成に使用された学習用の画像データと異なる画像データがニューラルネットワーク型識別器101に入力された際に、第1学習データに含まれる特徴量データを出力した1つの層と異なる層から出力される特徴量データを含む。また、第2学習データは、入力された学習用の画像データに対応する正解クラスと、特徴量データを出力する層の識別情報とを含む。
 また、パターン認識装置100は、第1学習データと第2学習データの両方を用いて、ニューラルネットワーク型識別器101に対してファインチューニングを実行する学習手段104を備える。
 本実施形態のパターン認識装置100は、ファインチューニングで重みパラメータが修正される層の最適な範囲を決定できる。その理由は、学習手段104がファインチューニング後の識別性能と学習データの再利用可能性の2つの観点でファインチューニングの結果を表す指標を算出し、算出された指標に基づいて最適な学習範囲を選択するためである。
実施形態2.
[構成の説明]
 次に、本発明によるパターン認識装置の第2の実施形態を、図面を参照して説明する。図3は、本発明によるパターン認識装置の第2の実施形態の構成例を示すブロック図である。
 図3に示すように、パターン認識装置200は、ニューラルネットワーク型識別器201と、学習データ記憶手段202と、学習手段203と、学習データ選択手段204と、再学習範囲決定手段205と、評価手段206と、再学習結果記憶手段207と、再学習結果選択手段208とを備える。
 ニューラルネットワーク型識別器201は、ニューラルネットワークを用いてパターン認識処理を行う識別器である。ニューラルネットワーク型識別器201が有する機能は、第1の実施形態のニューラルネットワーク型識別器101が有する機能と同様である。
 学習データ記憶手段202は、学習用の画像データと、ニューラルネットワーク型識別器201の中間層から出力された特徴量データとを含む学習データを記憶する機能を有する。記憶されている学習データには、第1の実施形態の第1学習データと、第2学習データとが含まれる。なお、学習データには、画像データ、または特徴量データのうちのいずれか1つのみが含まれていてもよい。
 学習手段203は、学習データ記憶手段202に記憶されている学習データを用いて、ニューラルネットワーク型識別器201に対してファインチューニングを実行する機能を有する。学習手段203が有する機能は、第1の実施形態の学習手段104が有する機能と同様である。
 学習データ選択手段204は、学習データ記憶手段202に記憶されている学習データの中から、ファインチューニングの実行対象の層よりも下位の層から抽出された特徴量データを含む学習データを選択する機能を有する。
 再学習範囲決定手段205は、ファインチューニングの実行対象の層の範囲(再学習範囲)の候補を1通り以上決定する機能を有する。再学習範囲決定手段205は、ニューラルネットワーク型識別器201を構成する層の中からファインチューニングの実行対象の層の範囲の候補を1通り、または複数通り決定する。
 例えば、再学習範囲決定手段205は、図11に示すニューラルネットワーク型識別器に対してファインチューニングの実行対象の層の範囲の候補を「第L1層よりも上位の層」、「第L2層よりも上位の層」、「第L3層よりも上位の層」と3通り決定する。再学習範囲決定手段205は、決定されたファインチューニングの実行対象の層の範囲の候補を示す情報を出力する。
 学習データ選択手段204は、再学習範囲決定手段205が決定したファインチューニングの実行対象の層の範囲の候補を示す1つの情報に着目する。次いで、学習データ選択手段204は、学習データ記憶手段202に記憶されている学習データのうち、ファインチューニングの実行対象の層の範囲の候補以外から得られた学習データのみ選択する。
 学習データ選択手段204が選択した学習データは、継続して利用可能なデータである。一般的に、継続して利用可能なデータは、多い方が好ましいと考えられる。以下、学習データ選択手段204の具体的な選択方法を、図4を参照して説明する。図4は、学習データ記憶手段202に記憶されている学習データの例を示す説明図である。
 図4は、学習データのデータ名と、データの内容とを併せて示す。データの内容は、学習データが画像データ、または特徴量データのいずれかを含むことを示す。学習データが特徴量データを含む場合、データの内容は、特徴量データが抽出されたニューラルネットワーク型識別器201の層も示す。
 図4は、学習データAおよび学習データBが画像データを含むことを示す。また、図4は、学習データCおよび学習データDが中間層L3から抽出された特徴量データを含むことを示す。
 また、図4は、学習データEおよび学習データFが中間層L2から抽出された特徴量データを含むことを示す。また、図4は、学習データGおよび学習データHが中間層L1から抽出された特徴量データを含むことを示す。
 例えば、入力層が含まれる全ての層を再学習範囲決定手段205がファインチューニングの実行対象の範囲の候補に決定した場合、学習データ選択手段204は、学習データAおよび学習データBをファインチューニングに用いる学習データに選択する。
 また、中間層L3以上の層を再学習範囲決定手段205がファインチューニングの実行対象の範囲の候補に決定した場合、学習データ選択手段204は、学習データA、学習データB、学習データC、および学習データDをファインチューニングに用いる学習データに選択する。
 図5は、ファインチューニングの実行対象の層の範囲と学習データ量との関係の例を示す説明図である。図5に示すように、一般的にファインチューニングの実行対象の層の範囲が狭いほど、学習に用いられる学習データ量、およびファインチューニング後に再利用可能な学習データ量は増える。
 なお、図5は、学習に利用される学習データ量、および再利用可能な学習データ量の変化を定性的に示す。ファインチューニングの実行対象の層の範囲と、学習に利用される学習データ量、およびファインチューニング後に再利用可能な学習データ量との関係は、必ずしも図5に示すように線形関数で表されるわけではない。両者の関係は、学習データ量に含まれる画像データの量、および各層からサンプリングされた特徴量データの量の割合に依存する。
 評価手段206は、ファインチューニングが実行された後のニューラルネットワーク型識別器201の識別性能を評価する機能を有する。
 評価手段206は、学習手段203により更新されたニューラルネットワーク型識別器201を用いて、例えば評価データに対するニューラルネットワーク型識別器201の識別性能を求める。識別性能は、例えば正認識率と誤認識率とで表現されてもよい。
 再学習結果記憶手段207は、ファインチューニングが実行された後のニューラルネットワーク型識別器201の重みパラメータを示す情報を一時的に記憶する機能を有する。
 再学習結果記憶手段207は、学習手段203により更新されたニューラルネットワーク型識別器201のネットワークの重みパラメータを示す情報を記憶する。また、再学習結果記憶手段207は、評価手段206で求められた識別性能、ファインチューニングの実行対象の層の範囲の候補を示す情報、および学習データ選択手段204が選択した学習データ数を、重みパラメータを示す情報と共に記憶する。
 再学習結果選択手段208は、評価手段206により評価された識別性能と、ファインチューニングが実行された後も利用可能な学習データ量とに基づいて、再学習結果(ファインチューニングの結果)を選択する機能を有する。再学習結果選択手段208は、識別性能と利用可能な学習データ量とが考慮された統一的な指標に基づいて、最適な再学習結果を選択できる。
 すなわち、再学習結果選択手段208は、最良のニューラルネットワーク型識別器201を選出する。具体的には、再学習結果選択手段208は、再学習結果記憶手段207に記憶されているファインチューニングの実行対象の層の範囲の候補毎の識別性能、および学習データ選択手段204が選択した学習データ数に基づいて選出する。
 最良のニューラルネットワーク型識別器201の選択基準として、例えば以下に示す基準が考えられる。
 例えば、識別性能の許容範囲が既知である場合、再学習結果選択手段208は、識別性能が許容範囲内である再学習結果の中から、最もファインチューニングの実行対象の層の数が少ない再学習結果を選べばよい。上記の基準で再学習結果を選ぶことによって、再学習結果選択手段208は、再利用可能な学習データ量を最大にできる。
 また、再学習結果選択手段208は、再利用可能な学習データ量の減少による負の影響が与えられた識別性能を表すスコアを、例えば以下のように計算してもよい。
(スコア)=(識別性能)-α×(学習データの減少量)・・・式(2)
 ただし、式(2)における定数αは、識別性能の次元と学習データの減少量の次元とを揃えるための定数である。再学習結果選択手段208は、最大のスコアを与える再学習結果に対応するニューラルネットワーク型識別器201を選択してもよい。
 また、再利用可能な学習データ量を最大にする場合、再学習結果選択手段208は、最もファインチューニングの実行対象の層の数が少ないニューラルネットワーク型識別器201を選択すればよい。再利用可能な学習データ量を最大にするという基準が当初から明確である場合、再学習範囲決定手段205は、基準に対応する層の範囲のみを示す情報を出力すればよい。
 本実施形態では、識別問題を題材としてパターン認識処理を行うためのニューラルネットワーク型識別器がニューラルネットワーク型識別器201として用いられる例を説明した。しかし、ニューラルネットワーク型識別器201は、識別問題以外の問題を解決するためのネットワーク型識別器でもよい。
 例えば、オブジェクト検知を行うように学習されたネットワーク型識別器や、数値を予測するために回帰問題が学習されたネットワーク型識別器が、ニューラルネットワーク型識別器201でもよい。
 ニューラルネットワーク型識別器201が識別問題以外の問題を解決するためのネットワーク型識別器である場合、評価手段206が有する機能と再学習結果選択手段208が有する機能のみ変更される。
 ニューラルネットワーク型識別器201がオブジェクト検知を行うように学習されたネットワーク型識別器である場合、評価手段206は、mAP(mean Average Precision) で検知性能を表してもよいし、誤検知率と検知率とで検知性能を表してもよい。
 誤検知率と検知率とで検知性能を表す場合、評価手段206は、誤検知率および検知率の2次元の指標を検知性能という1次元の指標に変換するために、例えば検知率と誤検知率にそれぞれ重みを付けた上で検知率と誤検知率を加算してもよい。
 評価手段206は、例えば誤検知率に付けられる重みを負の値にするか、検知率に付けられる重みの絶対値よりも誤検知率に付けられる重みの絶対値を大きくすれば、誤検知に対するペナルティをより大きく勘案できる。
 また、検知性能の許容範囲が既知である場合、再学習結果選択手段208は、検知性能が許容範囲内である再学習結果の中から、最もファインチューニングの実行対象の層の数が少ない再学習結果を選べばよい。上記の基準で再学習結果を選ぶことによって、再学習結果選択手段208は、再利用可能な学習データ量を最大にできる。
 また、再学習結果選択手段208は、再利用可能な学習データ量の減少による負の影響が与えられた検知性能を表すスコアを、例えば以下のように計算してもよい。
(スコア)=(検知性能)-β×(学習データの減少量)・・・式(3)
 ただし、式(3)における定数βは、検知性能の次元と学習データの減少量の次元とを揃えるための定数である。再学習結果選択手段208は、最大のスコアを与える再学習結果に対応するニューラルネットワーク型識別器201を選択してもよい。
 また、再利用可能な学習データ量を最大にする場合、再学習結果選択手段208は、最もファインチューニングの実行対象の層の数が少ないニューラルネットワーク型識別器201を選択すればよい。再利用可能な学習データ量を最大にするという基準が当初から明確である場合、再学習範囲決定手段205は、基準に対応する層の範囲のみを示す情報を出力すればよい。
 また、ニューラルネットワーク型識別器201が回帰問題が学習されたネットワーク型識別器である場合、評価手段206は、例えば予測された数値と真値との二乗誤差の逆数等を検知性能の性能値として求めればよい。
 なお、上記の説明では、再学習結果選択手段208が識別性能の値や検知性能の値からスコアを算出する式の例として、一次式を示した。しかし、統計的な関係性を高精度に表現することが求められる場合、再学習結果選択手段208は、スコアを算出する式として一次式の代わりに、より高次の計算式を用いてもよい。また、再学習結果選択手段208は、特定のモデル式に基づいてスコアを計算してもよい。
[動作の説明]
 以下、本実施形態のパターン認識装置200のファインチューニングを実行する動作を図6を参照して説明する。図6は、第2の実施形態のパターン認識装置200によるファインチューニング実行処理の動作を示すフローチャートである。
 最初に、再学習範囲決定手段205が、ニューラルネットワーク型識別器201に対するファインチューニングの実行対象の層の範囲の候補を決定する(ステップS201)。再学習範囲決定手段205は、決定されたファインチューニングの実行対象の層の範囲の候補を学習データ選択手段204に入力する。
 次いで、学習データ選択手段204が、ステップS201で入力された各ファインチューニングの実行対象の層の範囲の候補のうち、1つの範囲の候補に着目する。すなわち、再学習ループに入る(ステップS202)。
 学習データ選択手段204は、着目されたファインチューニングの実行対象の層の範囲の候補に対してファインチューニングを実行するために求められる学習データを、学習データ記憶手段202に記憶されている学習データの中から選択する(ステップS203)。学習データ選択手段204は、選択された学習データを学習手段203に入力する。
 次いで、学習手段203は、ステップS203で選択された学習データを用いて、ニューラルネットワーク型識別器201に対してファインチューニングを実行する(ステップS204)。
 次いで、評価手段206は、ステップS204で更新されたニューラルネットワーク型識別器201を用いて、評価データに対するニューラルネットワーク型識別器201の識別性能を評価する(ステップS205)。
 次いで、評価手段206は、ステップS205で評価された識別性能を再学習結果記憶手段207に再学習結果として格納する(ステップS206)。
 また、学習手段203は、ステップS204で更新されたニューラルネットワーク型識別器201の重みパラメータを示す情報、およびファインチューニングの実行対象の層の範囲の候補を示す情報を、再学習結果記憶手段207に格納されている再学習結果に含める。また、学習データ選択手段204は、選択された学習データ数を、再学習結果記憶手段207に格納されている再学習結果に含める。
 パターン認識装置200は、ステップS201で決定された各ファインチューニングの実行対象の層の範囲の候補全てに対してファインチューニングが実行されるまでの間、ステップS203~ステップS206の処理を繰り返し実行する。各ファインチューニングの実行対象の層の範囲の候補全てに対してファインチューニングが実行された時、パターン認識装置200は、再学習ループを抜ける(ステップS207)。
 次いで、再学習結果選択手段208は、再学習結果記憶手段207に格納されている再学習結果のうち最適な再学習結果を選択する(ステップS208)。最適な再学習結果を選択した後、パターン認識装置200は、ファインチューニング実行処理を終了する。
 以下、本実施形態の他の例を、図7を参照して説明する。上記の例のパターン認識装置200は、1種類のニューラルネットワーク型識別器201のみ備える。
 すなわち、中間層から抽出された特徴量データは、1種類のニューラルネットワーク型識別器に関する特徴量データのみである。換言すると、特徴量データが抽出されたニューラルネットワーク型識別器は、予め1種類に特定された。
 しかし、本実施形態の学習データ記憶手段202には、複数のニューラルネットワーク型識別器からそれぞれ抽出された各特徴量データが、混在して記憶されてもよい。すなわち、パターン認識装置200は、複数種類のニューラルネットワーク型識別器を備えてもよい。パターン認識装置200が複数種類のニューラルネットワーク型識別器を備える場合、各ニューラルネットワーク型識別器は、ネットワーク識別情報をそれぞれ有する。
 本変形例では、ニューラルネットワーク型識別器が、ネットワーク識別情報をさらに具備する。ネットワーク識別情報は、各ネットワークのモデル、および各ネットワーク係数を区別可能な情報である。
 すなわち、例えば同じネットワーク構造のニューラルネットワーク型識別器同士であっても各ネットワーク係数が異なる場合、各ニューラルネットワーク型識別器には、それぞれ異なるネットワーク識別情報が割り当てられる。
 ネットワーク識別情報は、単一の数値、または文字列で表現されてもよい。また、ネットワーク識別情報は、層数、各層の種類、フィルタサイズ、フィルタ係数、ストライド幅、活性化関数等が所定の規則に従って1列の数値列として展開された情報でもよい。
 各層の種類は、コンボリューション層、プーリング層、フルコネクト層、softmax 層等である。また、フィルタサイズ等の層に関する各情報は、層毎に列挙されてもよい。
 また、学習データ記憶手段202に記憶されている学習データでは、ニューラルネットワーク型識別器を識別できるネットワーク識別情報と、学習データに含まれる特徴量データが抽出されたニューラルネットワーク型識別器の層の位置を示す情報とが対応付けられている。
 具体的には、学習データ記憶手段202に記憶されている画像データと特徴量データのうち特徴量データに関して、特徴量データが抽出されたニューラルネットワーク型識別器のネットワーク識別情報と、特徴量データが抽出された層の位置を示す情報との組が記憶される。
 また、1つの特徴量データは、複数のニューラルネットワーク型識別器と対応付けられてもよい。例えば全体の構造が異なるが、入力層から第N層までのネットワーク構造およびネットワークの重みパラメータが共通しているニューラルネットワーク型識別器Aとニューラルネットワーク型識別器Bを、パターン認識装置200が備えているとする。
 ニューラルネットワーク型識別器Aの第N層から抽出された特徴量データが学習データ記憶手段202に記憶されている場合、記憶されている特徴量データには、ニューラルネットワーク型識別器Bの第N層から抽出された特徴量データであることを示す情報も追記される。情報が追記された特徴量データは、異なるファインチューニングに渡って使用される。
 図7は、学習データ記憶手段202に記憶されている学習データの他の例を示す説明図である。図7は、学習データのデータ名と、データの内容とを併せて示す。
 データの内容は、学習データが画像データ、または特徴量データのいずれかを含むことを示す。学習データが特徴量データを含む場合、データの内容は、特徴量データが抽出されたニューラルネットワーク型識別器のネットワーク識別情報と、特徴量データが抽出された層も示す。
 図7は、学習データAおよび学習データBが画像データを含むことを示す。また、図7は、学習データCおよび学習データDが、ネットワーク識別情報N1で識別されるネットワーク型識別器の中間層L3から抽出された特徴量データを含むことを示す。
 同様に、学習データCおよび学習データDは、ネットワーク識別情報N2で識別されるネットワーク型識別器の中間層L3から抽出された特徴量データ、およびネットワーク識別情報N3で識別されるネットワーク型識別器の中間層L3から抽出された特徴量データを含む。
 すなわち、ネットワーク識別情報N1で識別されるネットワーク型識別器の構造、ネットワーク識別情報N2で識別されるネットワーク型識別器の構造、およびネットワーク識別情報N3で識別されるネットワーク型識別器の構造は、入力層から中間層L3まで共通である。
 また、図7は、学習データEおよび学習データFが、ネットワーク識別情報N1で識別されるネットワーク型識別器の中間層L2から抽出された特徴量データ、およびネットワーク識別情報N2で識別されるネットワーク型識別器の中間層L2から抽出された特徴量データを含むことを示す。
 すなわち、ネットワーク識別情報N1で識別されるネットワーク型識別器の構造とネットワーク識別情報N2で識別されるネットワーク型識別器の構造は、入力層から中間層L2まで共通である。
 また、図7は、学習データGおよび学習データHが、ネットワーク識別情報N1で識別されるネットワーク型識別器の中間層L1から抽出された特徴量データを含むことを示す。
 学習データ選択手段204は、再学習範囲決定手段205が決定したファインチューニングの実行対象の層の範囲の候補のうち、1つの範囲の候補に着目する。次いで、学習データ選択手段204は、学習データ記憶手段202に記憶されている学習データのうち、ニューラルネットワーク型識別器のファインチューニングの実行対象の層の範囲の候補以外から得られた学習データのみを選択する。
 すなわち、本変形例の学習データ選択手段204は、ファインチューニングの実行対象のニューラルネットワーク型識別器を示すネットワーク識別情報と、含まれているネットワーク識別情報が等しい学習データだけを選択する。
 従って、本変形例のパターン認識装置200は、様々な撮影地点向けに様々なニューラルネットワーク型識別器が構築されていた場合であっても、構造が同様な範囲で複数のニューラルネットワーク型識別器に対して同じ特徴量データを利用できる。
 以下、各実施形態のパターン認識装置のハードウェア構成の具体例を説明する。図8は、本発明によるパターン認識装置のハードウェア構成例を示す説明図である。
 図8に示すパターン認識装置は、CPU(Central Processing Unit )11と、主記憶部12と、通信部13と、補助記憶部14とを備える。また、ユーザが操作するための入力部15や、ユーザに処理結果または処理内容の経過を提示するための出力部16を備えてもよい。
 なお、図8に示すパターン認識装置は、CPU11の代わりにDSP(Digital Signal Processor)を備えてもよい。または、図8に示すパターン認識装置は、CPU11とDSPとを併せて備えてもよい。
 主記憶部12は、データの作業領域やデータの一時退避領域として用いられる。主記憶部12は、例えばRAM(Random Access Memory)である。
 通信部13は、有線のネットワークまたは無線のネットワーク(情報通信ネットワーク)を介して、周辺機器との間でデータを入力および出力する機能を有する。
 補助記憶部14は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体として、例えば磁気ディスク、光磁気ディスク、CD-ROM(Compact Disk Read Only Memory )、DVD-ROM(Digital Versatile Disk Read Only Memory )、半導体メモリが挙げられる。
 入力部15は、データや処理命令を入力する機能を有する。入力部15は、例えばキーボードやマウス等の入力デバイスである。
 出力部16は、データを出力する機能を有する。出力部16は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。
 また、図8に示すように、パターン認識装置において、各構成要素は、システムバス17に接続されている。
 補助記憶部14は、例えば、学習手段104、学習手段203、学習データ選択手段204、再学習範囲決定手段205、評価手段206、および再学習結果選択手段208を実現するためのプログラムを記憶している。
 なお、パターン認識装置は、ハードウェアにより実現されてもよい。例えば、パターン認識装置は、内部に図1に示すような機能を実現するプログラムが組み込まれたLSI(Large Scale Integration )等のハードウェア部品が含まれる回路が実装されてもよい。
 また、パターン認識装置は、図8に示すCPU11が各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現されてもよい。
 ソフトウェアにより実現される場合、CPU11が補助記憶部14に格納されているプログラムを、主記憶部12にロードして実行し、パターン認識装置の動作を制御することによって、各機能がソフトウェアにより実現される。また、CPU11が、補助記憶部14に格納されている学習データ等を、主記憶部12にロードしてもよい。
 また、各構成要素の一部または全部は、汎用の回路(circuitry )または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
 各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本発明の概要を説明する。図9は、本発明によるパターン認識装置の概要を示すブロック図である。本発明によるパターン認識装置20は、学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、画像データと異なる学習用の画像データが入力されたニューラルネットワーク型識別器の複数の層のうちの1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後のニューラルネットワーク型識別器の識別性能を予測する予測手段21(例えば、学習手段104)と、予測された識別性能に基づいてニューラルネットワーク型識別器の学習対象の層の範囲を決定する決定手段22(例えば、学習手段104)とを備える。
 そのような構成により、パターン認識装置は、再利用可能な特徴量データの量を考慮しながらファインチューニングを実行できる。
 また、パターン認識装置20は、決定された範囲の層が出力する特徴量データを用いてニューラルネットワーク型識別器を学習する学習手段(例えば、学習手段104)を備えてもよい。
 そのような構成により、パターン認識装置は、再利用可能な特徴量データの量を考慮しながらファインチューニングを実行できる。
 また、第1学習データは、第1学習データに含まれる特徴量データの生成元である学習用の画像データに対応する正解クラスと、第1学習データに含まれる特徴量データを出力した1つの層を示す情報とを含み、第2学習データは、第2学習データに含まれる特徴量データの生成元である学習用の画像データに対応する正解クラスと、第2学習データに含まれる特徴量データを出力した1つの層を示す情報とを含んでもよい。
 そのような構成により、パターン認識装置は、ファインチューニングの精度をより高めることができる。
 また、学習手段は、第1学習データに含まれる特徴量データの生成元である学習用の画像データと異なる学習用の画像データと、異なる学習用の画像データに対応する正解クラスとを含む第3学習データと、第1学習データとを用いて学習してもよい。
 そのような構成により、パターン認識装置は、より多様なファインチューニングを実行できる。
 また、図10は、本発明によるパターン認識装置の他の概要を示すブロック図である。本発明によるパターン認識装置30は、複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定する決定手段31(例えば、再学習範囲決定手段205)と、学習用の画像データが入力されたニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いてニューラルネットワーク型識別器を学習する学習手段32(例えば、学習手段203)と、学習された後のニューラルネットワーク型識別器の識別性能を評価する評価手段33(例えば、評価手段206)と、学習されて導出されたニューラルネットワーク型識別器のパラメータを決定された範囲の候補と共に記憶する記憶手段34(例えば、再学習結果記憶手段207)と、評価された識別性能と学習に利用された学習データの数とに基づいて記憶手段34からパラメータを選択する選択手段35(例えば、再学習結果選択手段208)とを備える。
 そのような構成により、パターン認識装置は、再利用可能な特徴量データの量を考慮しながらファインチューニングを実行できる。
 また、学習データは、学習データに含まれる特徴量データを出力した層を示す情報を含んでもよい。
 そのような構成により、パターン認識装置は、所定の層よりも上位の層から抽出された全ての特徴量データを認識できる。
 また、学習データは、学習データに含まれる特徴量データの生成元である学習用の画像データと、特徴量データおよび画像データに対応する正解クラスとを含んでもよい。
 そのような構成により、パターン認識装置は、ファインチューニングの精度をより高めることができる。
 また、学習データは、学習データに含まれる特徴量データを出力したニューラルネットワーク型識別器を示すネットワーク情報を含んでもよい。
 そのような構成により、パターン認識装置は、複数種類のニューラルネットワーク型識別器に対応できる。
 また、学習手段32は、学習対象のニューラルネットワーク型識別器を示すネットワーク情報を含む学習データを用いて学習してもよい。
 そのような構成により、パターン認識装置は、複数種類のニューラルネットワーク型識別器に対応できる。
 また、記憶手段34は、パラメータと、パラメータを有するニューラルネットワーク型識別器の識別性能と、パラメータが導出された学習に利用された学習データの数とを併せて記憶してもよい。
 そのような構成により、パターン認識装置は、複数のファインチューニングの結果をまとめて管理できる。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。
 (付記1)学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の前記複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、前記画像データと異なる学習用の画像データが入力された前記ニューラルネットワーク型識別器の前記複数の層のうちの前記1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後の前記ニューラルネットワーク型識別器の識別性能を予測する予測手段と、予測された識別性能に基づいて前記ニューラルネットワーク型識別器の学習対象の層の範囲を決定する決定手段とを備えることを特徴とするパターン認識装置。
 (付記2)決定された範囲の層が出力する特徴量データを用いてニューラルネットワーク型識別器を学習する学習手段を備える付記1記載のパターン認識装置。
 (付記3)第1学習データは、前記第1学習データに含まれる特徴量データの生成元である学習用の画像データに対応する正解クラスと、前記第1学習データに含まれる特徴量データを出力した1つの層を示す情報とを含み、第2学習データは、前記第2学習データに含まれる特徴量データの生成元である学習用の画像データに対応する正解クラスと、前記第2学習データに含まれる特徴量データを出力した1つの層を示す情報とを含む付記2記載のパターン認識装置。
 (付記4)学習手段は、第1学習データに含まれる特徴量データの生成元である学習用の画像データと異なる学習用の画像データと、前記異なる学習用の画像データに対応する正解クラスとを含む第3学習データと、前記第1学習データとを用いて学習する付記3記載のパターン認識装置。
 (付記5)複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定する決定手段と、学習用の画像データが入力された前記ニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いて前記ニューラルネットワーク型識別器を学習する学習手段と、学習された後の前記ニューラルネットワーク型識別器の識別性能を評価する評価手段と、学習されて導出された前記ニューラルネットワーク型識別器のパラメータを前記決定された範囲の候補と共に記憶する記憶手段と、評価された識別性能と学習に利用された学習データの数とに基づいて前記記憶手段からパラメータを選択する選択手段とを備えることを特徴とするパターン認識装置。
 (付記6)学習データは、前記学習データに含まれる特徴量データを出力した層を示す情報を含む付記5記載のパターン認識装置。
 (付記7)学習データは、前記学習データに含まれる特徴量データの生成元である学習用の画像データと、前記特徴量データおよび前記画像データに対応する正解クラスとを含む付記5または付記6記載のパターン認識装置。
 (付記8)学習データは、前記学習データに含まれる特徴量データを出力したニューラルネットワーク型識別器を示すネットワーク情報を含む付記5から付記7のうちのいずれかに記載のパターン認識装置。
 (付記9)学習手段は、学習対象のニューラルネットワーク型識別器を示すネットワーク情報を含む学習データを用いて学習する付記8記載のパターン認識装置。
 (付記10)記憶手段は、パラメータと、前記パラメータを有するニューラルネットワーク型識別器の識別性能と、前記パラメータが導出された学習に利用された学習データの数とを併せて記憶する付記5から付記9のうちのいずれかに記載のパターン認識装置。
 (付記11)学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の前記複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、前記画像データと異なる学習用の画像データが入力された前記ニューラルネットワーク型識別器の前記複数の層のうちの前記1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後の前記ニューラルネットワーク型識別器の識別性能を予測し、予測された識別性能に基づいて前記ニューラルネットワーク型識別器の学習対象の層の範囲を決定することを特徴とするパターン認識方法。
 (付記12)複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定し、学習用の画像データが入力された前記ニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いて前記ニューラルネットワーク型識別器を学習し、学習された後の前記ニューラルネットワーク型識別器の識別性能を評価し、学習されて導出された前記ニューラルネットワーク型識別器のパラメータを前記決定された範囲の候補と共に記憶手段に記憶させ、評価された識別性能と学習に利用された学習データの数とに基づいて前記記憶手段からパラメータを選択することを特徴とするパターン認識方法。
 (付記13)コンピュータに、学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の前記複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、前記画像データと異なる学習用の画像データが入力された前記ニューラルネットワーク型識別器の前記複数の層のうちの前記1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後の前記ニューラルネットワーク型識別器の識別性能を予測する予測処理、および予測された識別性能に基づいて前記ニューラルネットワーク型識別器の学習対象の層の範囲を決定する決定処理を実行させるためのパターン認識プログラム。
 (付記14)コンピュータに、複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定する決定処理、学習用の画像データが入力された前記ニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いて前記ニューラルネットワーク型識別器を学習する学習処理、学習された後の前記ニューラルネットワーク型識別器の識別性能を評価する評価処理、学習されて導出された前記ニューラルネットワーク型識別器のパラメータを前記決定された範囲の候補と共に記憶手段に記憶させる記憶処理、および評価された識別性能と学習に利用された学習データの数とに基づいて前記記憶手段からパラメータを選択する選択処理を実行させるためのパターン認識プログラム。
11 CPU
12 主記憶部
13 通信部
14 補助記憶部
15 入力部
16 出力部
17 システムバス
20、30、100、200 パターン認識装置
21 予測手段
22、31 決定手段
32、104、203 学習手段
33、206 評価手段
34 記憶手段
35 選択手段
101、201 ニューラルネットワーク型識別器
102 第1学習データ記憶手段
103 第2学習データ記憶手段
202 学習データ記憶手段
204 学習データ選択手段
205 再学習範囲決定手段
207 再学習結果記憶手段
208 再学習結果選択手段

Claims (14)

  1.  学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の前記複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、前記画像データと異なる学習用の画像データが入力された前記ニューラルネットワーク型識別器の前記複数の層のうちの前記1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後の前記ニューラルネットワーク型識別器の識別性能を予測する予測手段と、
     予測された識別性能に基づいて前記ニューラルネットワーク型識別器の学習対象の層の範囲を決定する決定手段とを備える
     ことを特徴とするパターン認識装置。
  2.  決定された範囲の層が出力する特徴量データを用いてニューラルネットワーク型識別器を学習する学習手段を備える
     請求項1記載のパターン認識装置。
  3.  第1学習データは、前記第1学習データに含まれる特徴量データの生成元である学習用の画像データに対応する正解クラスと、前記第1学習データに含まれる特徴量データを出力した1つの層を示す情報とを含み、
     第2学習データは、前記第2学習データに含まれる特徴量データの生成元である学習用の画像データに対応する正解クラスと、前記第2学習データに含まれる特徴量データを出力した1つの層を示す情報とを含む
     請求項2記載のパターン認識装置。
  4.  学習手段は、第1学習データに含まれる特徴量データの生成元である学習用の画像データと異なる学習用の画像データと、前記異なる学習用の画像データに対応する正解クラスとを含む第3学習データと、前記第1学習データとを用いて学習する
     請求項3記載のパターン認識装置。
  5.  複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定する決定手段と、
     学習用の画像データが入力された前記ニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いて前記ニューラルネットワーク型識別器を学習する学習手段と、
     学習された後の前記ニューラルネットワーク型識別器の識別性能を評価する評価手段と、
     学習されて導出された前記ニューラルネットワーク型識別器のパラメータを前記決定された範囲の候補と共に記憶する記憶手段と、
     評価された識別性能と学習に利用された学習データの数とに基づいて前記記憶手段からパラメータを選択する選択手段とを備える
     ことを特徴とするパターン認識装置。
  6.  学習データは、前記学習データに含まれる特徴量データを出力した層を示す情報を含む
     請求項5記載のパターン認識装置。
  7.  学習データは、前記学習データに含まれる特徴量データの生成元である学習用の画像データと、前記特徴量データおよび前記画像データに対応する正解クラスとを含む
     請求項5または請求項6記載のパターン認識装置。
  8.  学習データは、前記学習データに含まれる特徴量データを出力したニューラルネットワーク型識別器を示すネットワーク情報を含む
     請求項5から請求項7のうちのいずれか1項に記載のパターン認識装置。
  9.  学習手段は、学習対象のニューラルネットワーク型識別器を示すネットワーク情報を含む学習データを用いて学習する
     請求項8記載のパターン認識装置。
  10.  記憶手段は、パラメータと、前記パラメータを有するニューラルネットワーク型識別器の識別性能と、前記パラメータが導出された学習に利用された学習データの数とを併せて記憶する
     請求項5から請求項9のうちのいずれか1項に記載のパターン認識装置。
  11.  学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の前記複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、前記画像データと異なる学習用の画像データが入力された前記ニューラルネットワーク型識別器の前記複数の層のうちの前記1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後の前記ニューラルネットワーク型識別器の識別性能を予測し、
     予測された識別性能に基づいて前記ニューラルネットワーク型識別器の学習対象の層の範囲を決定する
     ことを特徴とするパターン認識方法。
  12.  複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定し、
     学習用の画像データが入力された前記ニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いて前記ニューラルネットワーク型識別器を学習し、
     学習された後の前記ニューラルネットワーク型識別器の識別性能を評価し、
     学習されて導出された前記ニューラルネットワーク型識別器のパラメータを前記決定された範囲の候補と共に記憶手段に記憶させ、
     評価された識別性能と学習に利用された学習データの数とに基づいて前記記憶手段からパラメータを選択する
     ことを特徴とするパターン認識方法。
  13.  コンピュータに、
     学習用の画像データが入力された複数の層が層状に結合されたニューラルネットワーク型識別器の前記複数の層のうちの1つの層が出力する特徴量データを含む第1学習データと、前記画像データと異なる学習用の画像データが入力された前記ニューラルネットワーク型識別器の前記複数の層のうちの前記1つの層と異なる1つの層が出力する特徴量データを含む第2学習データとが用いられて学習された後の前記ニューラルネットワーク型識別器の識別性能を予測する予測処理、および
     予測された識別性能に基づいて前記ニューラルネットワーク型識別器の学習対象の層の範囲を決定する決定処理
     を実行させるためのパターン認識プログラム。
  14.  コンピュータに、
     複数の層が層状に結合されたニューラルネットワーク型識別器の学習対象の層の範囲の候補を決定する決定処理、
     学習用の画像データが入力された前記ニューラルネットワーク型識別器の決定された範囲の候補の層が出力する特徴量データを含む学習データを用いて前記ニューラルネットワーク型識別器を学習する学習処理、
     学習された後の前記ニューラルネットワーク型識別器の識別性能を評価する評価処理、
     学習されて導出された前記ニューラルネットワーク型識別器のパラメータを前記決定された範囲の候補と共に記憶手段に記憶させる記憶処理、および
     評価された識別性能と学習に利用された学習データの数とに基づいて前記記憶手段からパラメータを選択する選択処理
     を実行させるためのパターン認識プログラム。
PCT/JP2018/036217 2018-09-28 2018-09-28 パターン認識装置、パターン認識方法およびパターン認識プログラム WO2020065908A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2018/036217 WO2020065908A1 (ja) 2018-09-28 2018-09-28 パターン認識装置、パターン認識方法およびパターン認識プログラム
JP2020547786A JP7024881B2 (ja) 2018-09-28 2018-09-28 パターン認識装置およびパターン認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/036217 WO2020065908A1 (ja) 2018-09-28 2018-09-28 パターン認識装置、パターン認識方法およびパターン認識プログラム

Publications (1)

Publication Number Publication Date
WO2020065908A1 true WO2020065908A1 (ja) 2020-04-02

Family

ID=69950472

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/036217 WO2020065908A1 (ja) 2018-09-28 2018-09-28 パターン認識装置、パターン認識方法およびパターン認識プログラム

Country Status (2)

Country Link
JP (1) JP7024881B2 (ja)
WO (1) WO2020065908A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229901A1 (ja) * 2020-05-15 2021-11-18 オムロン株式会社 画像検査装置、画像検査方法及び学習済みモデル生成装置
JP2022055302A (ja) * 2020-09-28 2022-04-07 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド 遮蔽された画像の検出方法、装置、及び媒体
WO2024095721A1 (ja) * 2022-11-01 2024-05-10 パナソニックIpマネジメント株式会社 画像処理装置および画像処理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018142766A1 (ja) * 2017-02-03 2018-08-09 パナソニックIpマネジメント株式会社 学習済みモデル提供方法および学習済みモデル提供装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018142766A1 (ja) * 2017-02-03 2018-08-09 パナソニックIpマネジメント株式会社 学習済みモデル提供方法および学習済みモデル提供装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OKATANI,TAKAYUKI.: "Research Trend in Deep Learning for Visual Recognition: Advances of Convolutional Neural Networks and Their Use. .)", JOURNAL OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 31, no. 2, 1 March 2016 (2016-03-01), pages 169 - 179 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229901A1 (ja) * 2020-05-15 2021-11-18 オムロン株式会社 画像検査装置、画像検査方法及び学習済みモデル生成装置
JP7505256B2 (ja) 2020-05-15 2024-06-25 オムロン株式会社 画像検査装置、画像検査方法及び学習済みモデル生成装置
JP2022055302A (ja) * 2020-09-28 2022-04-07 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド 遮蔽された画像の検出方法、装置、及び媒体
JP7167244B2 (ja) 2020-09-28 2022-11-08 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド 遮蔽された画像の検出方法、装置、及び媒体
US11961278B2 (en) 2020-09-28 2024-04-16 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and apparatus for detecting occluded image and medium
WO2024095721A1 (ja) * 2022-11-01 2024-05-10 パナソニックIpマネジメント株式会社 画像処理装置および画像処理方法

Also Published As

Publication number Publication date
JPWO2020065908A1 (ja) 2021-08-30
JP7024881B2 (ja) 2022-02-24

Similar Documents

Publication Publication Date Title
CN107679859B (zh) 一种基于迁移深度学习的风险识别方法以及系统
CN110852447B (zh) 元学习方法和装置、初始化方法、计算设备和存储介质
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
US11392846B2 (en) Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset
JP6208552B2 (ja) 識別器、識別プログラム、及び識別方法
US9002101B2 (en) Recognition device, recognition method, and computer program product
US9015083B1 (en) Distribution of parameter calculation for iterative optimization methods
JP2007128195A (ja) 画像処理システム
US9842279B2 (en) Data processing method for learning discriminator, and data processing apparatus therefor
JP7028322B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2020065908A1 (ja) パターン認識装置、パターン認識方法およびパターン認識プログラム
CN114580263A (zh) 基于知识图谱的信息系统故障预测方法及相关设备
EP3649582A1 (en) System and method for automatic building of learning machines using learning machines
JPWO2019102984A1 (ja) 学習装置、識別装置及びプログラム
CN111008631A (zh) 图像的关联方法及装置、存储介质和电子装置
JP2020187417A (ja) 物性予測装置及び物性予測方法
CN110705622A (zh) 一种决策方法、系统以及电子设备
CN111783936B (zh) 卷积神经网络构建方法、装置、设备及介质
CN113822411A (zh) 学习方法和信息处理设备
CN116976461A (zh) 联邦学习方法、装置、设备及介质
JP7230324B2 (ja) ニューラルネットワークの学習方法、コンピュータプログラム及びコンピュータ装置
JP7438544B2 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
JP2012173795A (ja) クラス分類装置、クラス分類方法、及びクラス分類プログラム
US20220300818A1 (en) Structure optimization apparatus, structure optimization method, and computer-readable recording medium
US20220405632A1 (en) Machine learning replacements for legacy cyber security

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18934667

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020547786

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18934667

Country of ref document: EP

Kind code of ref document: A1