WO2017073373A1 - 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置 - Google Patents

学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置 Download PDF

Info

Publication number
WO2017073373A1
WO2017073373A1 PCT/JP2016/080558 JP2016080558W WO2017073373A1 WO 2017073373 A1 WO2017073373 A1 WO 2017073373A1 JP 2016080558 W JP2016080558 W JP 2016080558W WO 2017073373 A1 WO2017073373 A1 WO 2017073373A1
Authority
WO
WIPO (PCT)
Prior art keywords
label
evaluation
unit
data
input data
Prior art date
Application number
PCT/JP2016/080558
Other languages
English (en)
French (fr)
Inventor
康浩 黒田
平賀 督基
顕至 大熊
理弘 小林
紘史 小山
Original Assignee
株式会社モルフォ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社モルフォ filed Critical 株式会社モルフォ
Priority to JP2017513559A priority Critical patent/JP6271085B2/ja
Priority to KR1020187015260A priority patent/KR102114564B1/ko
Priority to CN201680062416.3A priority patent/CN108351986B/zh
Priority to US15/771,735 priority patent/US11170262B2/en
Priority to EP16859603.9A priority patent/EP3361423B1/en
Publication of WO2017073373A1 publication Critical patent/WO2017073373A1/ja
Priority to US17/494,100 priority patent/US20220101059A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Definitions

  • the present disclosure relates to a learning system, a learning device, a learning method, a learning program, a teacher data creation device, a teacher data creation method, a teacher data creation program, a terminal device, and a threshold value changing device.
  • Patent Document 1 describes an apparatus for learning a neural network that classifies recognition target data using a plurality of labels by an error back propagation method.
  • This neural network includes an input layer, a plurality of intermediate layers (hidden layers), and an output layer.
  • the input layer includes a plurality of artificial neurons.
  • Each of the intermediate layers includes a plurality of artificial neurons.
  • the output layer comprises the same number of artificial neurons as the number of labels.
  • the learning device learns a neural network using teacher data including input data and label evaluation.
  • the label evaluation includes “positive evaluation” indicating that the data content matches the label and “negative evaluation” indicating that the data content does not match the label.
  • the positive evaluation or negative evaluation is associated with a numerical value (correct answer score) such as “0” or “1”, and these numerical values are also referred to as a correct answer value (Ground Truth).
  • the learning device acquires input data in the input layer, calculates in the intermediate layer, and adjusts the calculation parameter in the intermediate layer so that the recognition score output from the output layer and the correct answer score of the evaluation approach each other.
  • the labeling method (classification method) of the neural network includes a single label classification in which only one label selected from a plurality of labels is given to recognition target data, and a plurality of labels.
  • There is a multi-label classification that allows a plurality of labels selected from the above to be given to recognition target data.
  • a single label if one label is positive, the other label is negative.
  • a multi-label a plurality of labels may be evaluated positively.
  • Non-Patent Documents 1 to 3 describe that, as an approach to such incomplete teacher data, label estimation is automatically estimated by separate learning.
  • a learning system includes a learning device and a teacher data creation device for the learning device.
  • the learning device learns a neural network that classifies recognition target data using a plurality of labels by an error back propagation method.
  • the teacher data creation device creates teacher data for the learning device.
  • the teacher data creation device includes an input data acquisition unit, an evaluation acquisition unit, and a teacher data creation unit.
  • the input data acquisition unit acquires input data.
  • the evaluation acquisition unit for the input data acquired by the input data acquisition unit, for each label, a positive evaluation indicating that the content of the input data matches the label, and a negative evaluation indicating that the content of the input data does not match the label And any one of ignoring evaluations indicating exclusion from the learning target label is acquired.
  • the teacher data creation unit creates teacher data by associating the input data acquired by the input data acquisition unit with the evaluation for each label acquired by the evaluation acquisition unit.
  • the learning device includes a teacher data acquisition unit, an input layer, an intermediate layer, an output layer, and an error back propagation unit.
  • the teacher data acquisition unit acquires teacher data created by the teacher data creation device.
  • the input layer acquires the input data included in the teacher data acquired by the teacher data acquisition unit as a score.
  • the intermediate layer calculates the score acquired by the input layer using a weighting coefficient.
  • the output layer outputs a recognition score for each label using the score calculated by the intermediate layer.
  • the error back propagation unit adjusts the weighting factor of the intermediate layer using the recognition score for each label output from the output layer and the correct score for the evaluation for each label.
  • the error backpropagation unit adjusts the weight coefficient of the intermediate layer so that the recognition score of the positive or negative evaluation label approaches the correct evaluation score of the positive or negative evaluation, and the recognition score of the neglected evaluation label is intermediate. Do not affect the adjustment of the layer weighting factor.
  • any one of positive evaluation, negative evaluation, and neglected evaluation is acquired for each label as a label evaluation by the teacher data generation device, and teacher data is generated. That is, in this learning system, learning can be performed using teacher data that can include a new evaluation of “ignore evaluation” in addition to “positive evaluation” and “negative evaluation”.
  • the learning device adjusts the weighting factor of the intermediate layer so that the recognition score of the positive evaluation or negative evaluation label approaches the correct score of the positive evaluation or negative evaluation, and the recognition score of the neglected evaluation label is Do not affect the adjustment of the weighting factor. For this reason, the accuracy of the recognition unit can be improved with respect to the positive evaluation label or the negative evaluation label, and the accuracy of the recognition unit can be prevented from being affected with respect to the label with the ignorance evaluation.
  • the error backpropagation unit may set the correct score of the ignore evaluation to the same value as the recognition score of the ignore evaluation label, or the correct score of the ignore evaluation and the recognition score of the ignore evaluation label, May be changed to 0, or the differential value of the difference between the correct score of the ignorance evaluation and the recognition score of the label of the ignorance evaluation may be changed to 0.
  • the weighting coefficient of the intermediate layer is not adjusted. Accordingly, it is possible to invalidate the back propagation related to the label of the ignorance evaluation without changing the configuration of the neural network or the back propagation formula by the error back propagation unit.
  • the error backpropagation unit may block the connection of the neural network related to the label of the ignore evaluation. Thereby, the back propagation itself can be directly invalidated.
  • the teacher data creation unit may associate a label that cannot be evaluated by the evaluation acquisition unit with the ignored evaluation. As a result, it is possible to learn an unevaluated label without forcibly setting positive or negative evaluation.
  • the teacher data creation device includes a reception unit that receives a user operation that specifies label evaluation, and the evaluation acquisition unit acquires the evaluation of the label specified by the user operation received by the reception unit. May be.
  • the evaluation acquisition unit acquires the evaluation of the label specified by the user operation received by the reception unit. May be.
  • the accepting unit accepts a user operation for designating an evaluation of a part of the label of the input data
  • the teacher data creating unit evaluates the evaluation of the part of the label acquired by the evaluation acquiring unit.
  • the evaluation of the remaining labels of the input data may be ignored.
  • the teacher data creation unit sets all label evaluations of the input data to be ignored before associating the label evaluation acquired by the evaluation acquisition unit with the input data acquired by the input data acquisition unit. May be. In this way, all labels can be ignored as default settings, and the evaluation can be changed from neglected evaluation to positive evaluation or negative evaluation. In other words, when the annotator works, it is possible to save the trouble of explicitly instructing the ignore evaluation.
  • a learning device is a learning device that learns a neural network that classifies recognition target data using a plurality of labels by an error back propagation method.
  • the learning device includes a teacher data acquisition unit, an input layer, an intermediate layer, an output layer, and an error back propagation unit.
  • the teacher data acquisition unit acquires teacher data including input data and an evaluation for each label associated with the input data in advance. For input data, any of positive evaluation indicating that the content of the input data matches the label, negative evaluation indicating that the content of the input data does not match the label, and ignore evaluation indicating exclusion from the learning target label One is associated with each label.
  • the input layer acquires the input data included in the teacher data acquired by the teacher data acquisition unit as a score.
  • the intermediate layer calculates the score acquired by the input layer using a weighting coefficient.
  • the output layer outputs a recognition score for each label using the score calculated by the intermediate layer.
  • the error back propagation unit adjusts the weighting factor of the intermediate layer using the recognition score for each label output from the output layer and the correct score for the evaluation for each label.
  • the error backpropagation unit adjusts the weight coefficient of the intermediate layer so that the recognition score of the positive or negative evaluation label approaches the correct evaluation score of the positive or negative evaluation, and the recognition score of the neglected evaluation label is intermediate. Do not affect the adjustment of the layer weighting factor.
  • This learning apparatus can learn using teacher data that can include a new evaluation of “ignore evaluation” in addition to “positive evaluation” and “negative evaluation”.
  • the learning device adjusts the weighting factor of the intermediate layer so that the recognition score of the positive evaluation or negative evaluation label approaches the correct score of the positive evaluation or negative evaluation, and the recognition score of the neglected evaluation label is Do not affect the adjustment of the weighting factor. For this reason, the accuracy of the recognition unit can be improved with respect to the positive evaluation label or the negative evaluation label, and the accuracy of the recognition unit can be prevented from being affected with respect to the label with the ignorance evaluation.
  • an approach has been adopted in which an incomplete label evaluation is approximated to a complete label evaluation by estimation or the like.
  • by introducing a new evaluation called neglected evaluation it is possible to adopt a new approach of learning using only correctly assigned evaluations among incomplete evaluations. Learning based on this can be avoided.
  • a teacher data creation device creates teacher data for a learning device that learns a neural network that classifies recognition target data using a plurality of labels by an error back propagation method. It is.
  • This apparatus includes an input data acquisition unit, an evaluation acquisition unit, and a teacher data creation unit.
  • the input data acquisition unit acquires input data.
  • the evaluation acquisition unit for the input data acquired by the input data acquisition unit, for each label, a positive evaluation indicating that the content of the input data matches the label, and a negative evaluation indicating that the content of the input data does not match the label And any one of ignoring evaluations indicating exclusion from the learning target label is acquired.
  • the teacher data creation unit creates teacher data by associating the input data acquired by the input data acquisition unit with the evaluation for each label acquired by the evaluation acquisition unit.
  • teacher data may be created by a person (annotator). Annotators need to evaluate labels to create teacher data, regardless of whether they are confident in the evaluation of labels. For this reason, learning may be performed based on an erroneous evaluation.
  • teacher data is created by obtaining each label as an evaluation of one of positive evaluation, negative evaluation, and neglected evaluation.
  • the teacher data can include a new evaluation of “ignore evaluation” in addition to “positive evaluation” and “negative evaluation”.
  • a new evaluation called neglected evaluation it is possible to adopt a new approach of learning using only correctly assigned evaluations among incomplete evaluations. Can be avoided.
  • a learning method is a learning method for learning a neural network that classifies recognition target data using a plurality of labels by an error back propagation method.
  • the learning method includes a teacher data acquisition step, an input data acquisition step, a calculation step, an output step, and an error back propagation step.
  • teacher data acquisition step teacher data including input data and evaluation for each label associated with the input data in advance is acquired.
  • the input layer acquires the input data included in the teacher data acquired in the teacher data acquisition step as a score.
  • the intermediate layer calculates the score acquired in the input step using a weighting factor.
  • the output step the output layer outputs a recognition score for each label using the score calculated in the calculation step.
  • the weighting coefficient of the intermediate layer is adjusted using the recognition score for each label output in the output step and the correct answer score for the evaluation for each label. For input data, any of positive evaluation indicating that the content of the input data matches the label, negative evaluation indicating that the content of the input data does not match the label, and ignore evaluation indicating exclusion from the learning target label One is associated with each label.
  • the weighting coefficient of the middle layer is adjusted so that the recognition score of the positive or negative evaluation label and the correct evaluation score of the positive or negative evaluation are close to each other, and the recognition score of the neglected evaluation label is intermediate. Do not affect the adjustment of the layer weighting factor.
  • a teacher data creation method is a teacher data creation method for creating teacher data for a learning device that learns a neural network that classifies recognition target data using a plurality of labels by an error back propagation method. It is.
  • This method includes an input data acquisition step, an evaluation acquisition step, and a teacher data creation step.
  • input data is acquired.
  • evaluation acquisition step with respect to the input data acquired in the input data acquisition step, for each label, a positive evaluation indicating that the content of the input data matches the label, and a negative evaluation indicating that the content of the input data does not match the label And any one of ignoring evaluations indicating exclusion from the learning target label is acquired.
  • teacher data creation step teacher data is created by associating the input data acquired in the input data acquisition step with the evaluation for each label acquired in the evaluation acquisition step.
  • a learning program is a learning program for operating a computer so as to learn a neural network that classifies recognition target data using a plurality of labels by an error back propagation method.
  • the learning program causes the computer to function as a teacher data acquisition unit, an input layer, an intermediate layer, an output layer, and an error back propagation unit.
  • the teacher data acquisition unit acquires teacher data including input data and an evaluation for each label associated with the input data in advance. For input data, any of positive evaluation indicating that the content of the input data matches the label, negative evaluation indicating that the content of the input data does not match the label, and ignore evaluation indicating exclusion from the learning target label One is associated with each label.
  • the input layer acquires the input data included in the teacher data acquired by the teacher data acquisition unit as a score.
  • the intermediate layer calculates the score acquired by the input layer using a weighting coefficient.
  • the output layer outputs a recognition score for each label using the score calculated by the intermediate layer.
  • the error back propagation unit adjusts the weighting factor of the intermediate layer using the recognition score for each label output from the output layer and the correct score for the evaluation for each label.
  • the error backpropagation unit adjusts the weight coefficient of the intermediate layer so that the recognition score of the positive or negative evaluation label approaches the correct evaluation score of the positive or negative evaluation, and the recognition score of the neglected evaluation label is intermediate. Do not affect the adjustment of the layer weighting factor.
  • a teacher data creation program provides a computer for creating teacher data for a learning device that learns a neural network that classifies recognition target data using a plurality of labels by an error back propagation method.
  • This is a teacher data creation program to be operated.
  • the teacher data creation program causes the computer to function as an input data acquisition unit, an evaluation acquisition unit, and a teacher data creation unit.
  • the input data acquisition unit acquires input data.
  • the evaluation acquisition unit for the input data acquired by the input data acquisition unit, for each label, a positive evaluation indicating that the content of the input data matches the label, and a negative evaluation indicating that the content of the input data does not match the label And any one of ignoring evaluations indicating exclusion from the learning target label is acquired.
  • the teacher data creation unit creates teacher data by associating the input data acquired by the input data acquisition unit with the evaluation for each label acquired by the evaluation acquisition unit.
  • a terminal device is a terminal device capable of communicating with the learning device described above, using a recognition target data acquisition unit that acquires recognition target data, and a parameter learned by the learning device, A recognition unit that assigns a label representing the content of the recognition target data to the recognition target data, an operation reception unit that receives a user operation for determining a private label to be given to the recognition target data acquired by the recognition target data acquisition unit, A label editing unit that adds a private label to the recognition target data based on a user operation received by the operation receiving unit.
  • This terminal device can give a label (private label) other than the label given based on the learning result of the learning device. For this reason, this terminal device can improve a user's convenience.
  • the terminal device may include a label presenting unit that presents the private label to the user based on the history of the date and time of the private label given by the label editing unit and the reference date and time. With this configuration, the terminal device can present a private label to the user according to the user's behavior.
  • the terminal device may include a label presenting unit that presents a private label to the user based on the accompanying information given when the recognition target data is generated.
  • the terminal device can present a private label to the user according to the situation at the time of generating the recognition target data.
  • the terminal device is configured such that the operation reception unit receives a user operation for adding a comment and sharing the recognition target data with another person, and is shared based on the user operation received by the operation reception unit.
  • a determination unit that determines data, an analysis unit that analyzes the content of comments attached to recognition target data determined by the determination unit, and a label presentation unit that presents a private label to the user based on the analysis result of the analysis unit May be provided.
  • the terminal device can present a private label to the user in accordance with the comment given by the user.
  • the terminal device is configured to be communicable with the language server, and outputs a list of assigned private labels to the language server, and a relationship between the representative label and the assigned private label from the language server. And a recommendation unit that recommends the user to correct the private label to the representative label based on the relationship acquired by the relationship acquisition unit.
  • a list acquisition unit that acquires a label, an aggregation unit that aggregates private labels into groups based on the list acquired by the list acquisition unit, and a representative label selection unit that selects a representative label for the group aggregated by the aggregation unit And the relationship between the representative label and the assigned private label based on the selection result of the representative label selector.
  • a representative label output unit for outputting to the end device may be provided. With this configuration, this terminal device can prompt the user to organize private labels.
  • a threshold value changing device is a device that changes a threshold value in a terminal device.
  • the terminal device acquires recognition target data, outputs a recognition score indicating the degree to which the content of the recognition target data matches a predetermined label by a neural network, and uses the recognition score and a threshold value set in advance for the recognition score.
  • a recognition result indicating whether or not the content of the recognition target data matches a predetermined label is output.
  • the threshold value changing device includes an evaluation data acquisition unit, a terminal data acquisition unit, a recognition score acquisition unit, a calculation unit, and a change unit.
  • the evaluation data acquisition unit is associated with the input data and a predetermined label indicating whether the content of the input data is a positive evaluation that matches the predetermined label or whether the content of the input data is a negative evaluation that does not match the predetermined label Evaluation data including the correct answer evaluation is obtained.
  • the terminal data acquisition unit acquires a ratio of positive evaluation and negative evaluation of data associated with the terminal device.
  • the recognition score acquisition unit receives a recognition score of a predetermined label for input data from a neural network (for example, a neural network for recognition) or a neural network (for example, a neural network for learning) having the same weighting coefficient as the neural network. To get.
  • the calculation unit uses the recognition score of the predetermined label acquired by the recognition score acquisition unit and the threshold value, and the number of data in which the input data whose correct evaluation is correct evaluation is recognized as the positive evaluation, and the correct evaluation is negative evaluation
  • the number of data in which the input data is recognized as a positive evaluation is calculated, and the precision of the predetermined label is calculated using the calculated number of data.
  • the changing unit changes the threshold value using the relevance ratio calculated by the calculating unit.
  • the calculation unit calculates the number of data in which the input data whose correct evaluation is negative evaluation is recognized as the positive evaluation, the ratio of the positive evaluation and negative evaluation of the evaluation data, and the positive evaluation and negative evaluation of the data associated with the terminal device. Correction is performed using the ratio, and the precision is calculated using the corrected number of data.
  • the number of data recognized as negative evaluation input data is the ratio between the positive evaluation and negative evaluation of the evaluation data, and the positive evaluation and negative evaluation of the data associated with the terminal device. It is corrected using the ratio. And the threshold value used in the recognition performed by a terminal device is changed based on the relevance ratio regarding the predetermined label calculated using the corrected data number. In this way, when calculating the relevance ratio for a predetermined label, the negative recognition input data is recognized as a positive evaluation in consideration of the distribution of positive and negative data in the evaluation data and the distribution of positive and negative data in the terminal device. The number is corrected.
  • the bias of positive and negative data in the terminal device can be reflected in the number of data after canceling the bias of positive and negative data in the evaluation data. Therefore, even if there is a bias in the positive and negative data in the evaluation data and there is a difference from the bias in the positive and negative data in the terminal device, this device can perform an appropriate evaluation according to the terminal device. As a result, the threshold value can be appropriately changed according to the terminal device.
  • the calculation unit may calculate a recall rate and a matching rate for a predetermined label.
  • the changing unit may change the threshold value to a recognition score that maximizes the harmonic average of the recall rate and the matching rate.
  • the device can change the threshold using the recall and corrected precision.
  • the terminal data acquisition unit calculates a ratio of positive evaluation and negative evaluation of data associated with the terminal device based on a recognition result of the neural network of the terminal device or an annotation result by a user of the terminal device. You may get it. In this case, this device can acquire the bias of positive and negative data in the terminal device based on actual data.
  • the terminal data acquisition unit may acquire a ratio of positive evaluation and negative evaluation of data associated with the terminal device based on a user operation of the terminal device or terminal information. In this case, this apparatus can predict and acquire a bias of positive and negative data in the terminal apparatus.
  • a threshold value changing device is a device that changes a threshold value in a terminal device.
  • the terminal device acquires recognition target data, outputs a recognition score indicating the degree to which the content of the recognition target data matches a predetermined label by a neural network, and uses the recognition score and a threshold value set in advance for the recognition score.
  • a recognition result indicating whether or not the content of the recognition target data matches a predetermined label is output.
  • the threshold value changing device includes a terminal data acquisition unit, a storage unit, and a changing unit.
  • the terminal data acquisition unit acquires a ratio of positive evaluation and negative evaluation of data associated with the terminal device.
  • the storage unit stores the relationship between the ratio and the threshold value.
  • the changing unit changes the threshold value using the relationship stored in the storage unit and the ratio acquired by the terminal data acquisition unit.
  • the threshold value is changed using the relationship between the ratio and the threshold value stored in advance and the ratio acquired by the terminal data acquisition unit.
  • the calculation load for changing the threshold value can be reduced.
  • FIG. 1 It is a figure explaining a recognition part. It is a figure explaining the neural network in a recognition part. It is a figure explaining the artificial neuron shown in FIG. It is a functional block diagram of the learning system concerning an embodiment.
  • a learning system 100 (see FIG. 4) is a system that learns parameters of a recognition unit 11 (see FIG. 1) that recognizes the contents of recognition target data.
  • the recognition target data is data that is to be recognized by the computer, such as image data, sound data, text data, and the like.
  • the parameters of the recognition unit 11 are values used for recognition processing for recognizing recognition target data.
  • the recognition target data is image data and the recognition target is the content of an image (such as a person, an animal, an object, a landscape, or a room).
  • FIG. 1 is a diagram illustrating the recognition unit 11.
  • the recognition unit 11 is provided in the terminal device 10.
  • the recognition unit 11 receives recognition target data G1, which is image data, and outputs a recognition result.
  • the recognition target data G1 is image data of an image in which a dog is drawn.
  • the recognition unit 11 inputs image data (more specifically, pixel values), and outputs a label representing the content of the image using the learned parameters.
  • the label is used to classify the contents of the recognition target data, and is information for identifying a category set in advance by the system user.
  • the recognition unit 11 outputs a label “dog” as a recognition result.
  • the label is given to the recognition target data G1 by the recognition unit 11. Giving means to associate, and for example, only the relationship between the recognition target data G1 and the label may be recorded in a relation table or the like, or may be incorporated into the recognition target data G1 itself. Generally, giving a label to recognition target data is called annotation. Since the recognition unit 11 can input image data and assign a label, the recognition unit 11 can automatically classify the image data or search for a desired image on the Web.
  • the recognition target data G2 is image data of an image in which a person and a flower are drawn.
  • the recognition unit 11 gives a “person” label to the recognition target data G2.
  • the recognition unit 11 assigns two labels “person” and “flower” to the recognition target data G2.
  • FIG. 2 is a diagram for explaining a neural network in the recognition unit 11.
  • the recognition unit 11 recognizes a label corresponding to image data using a neural network.
  • a neural network is an information processing system modeled on the cranial nervous system.
  • the neural network of the recognition unit 11 is a so-called hierarchical neural network, and many artificial neurons indicated by circles are connected while forming a hierarchy.
  • the hierarchical neural network includes an artificial neuron for input, an artificial neuron for processing, and an artificial neuron for output.
  • the input artificial neuron acquires recognition target data and distributes it to the artificial neuron for processing.
  • the signal itself exchanged with a neural network is called a score.
  • the score is a numerical value.
  • the input artificial neurons form the input layer 111 by being arranged in parallel.
  • the artificial neuron for processing is connected to the artificial neuron for input, processes the input according to the function of the artificial neuron, and transmits the output to other neurons.
  • Artificial neurons for processing are arranged in parallel to form the intermediate layer 112.
  • the intermediate layer 112 may be a plurality of layers.
  • a neural network having three or more layers provided with the intermediate layer 112 is referred to as a deep neural network.
  • the output artificial neuron outputs the recognition score to the outside.
  • the same number of output artificial neurons as the number of labels are prepared. That is, the neural network outputs a recognition score for each label.
  • three artificial neurons are prepared according to three labels “dog”, “person”, and “flower”.
  • the output artificial neuron outputs a recognition score B1 corresponding to the label “dog”, a recognition score B2 corresponding to the label “human”, and a recognition score B3 corresponding to the label “flower”.
  • the recognition score is a score representing the probability of recognition.
  • the recognition score is a label that indicates the content of the image as the label recognition score increases. The quality is increased.
  • the output artificial neurons form the output layer 113 by being arranged in parallel.
  • the recognizing unit 11 determines a given label using the recognition score output by the output layer 113. For example, the recognition unit 11 gives a label corresponding to a recognition score equal to or greater than a predetermined value to the recognition target data. Thereby, the label which shows the content is automatically provided to recognition object data. In the case of single label processing, the recognition unit 11 assigns a label corresponding to the highest recognition score to the recognition target data.
  • FIG. 3 is a diagram for explaining the artificial neuron shown in FIG.
  • the artificial neuron shown in FIG. 3A inputs x 1 , x 2 , and x 3, and integrates weighting factors w 1 , w 2 , and w 3 corresponding to each of them.
  • the artificial neuron calculates the sum of the integrated value (x 1 ⁇ w 1 , x 2 ⁇ w 2 , x 3 ⁇ w 3 ) and the bias value b. This sum is substituted into the activation function and used as the output of the artificial neuron.
  • g is an activation function, for example, a sigmoid function.
  • N 3
  • the outputs h 1 (2) , h 2 (2) , and h 3 (2) of the artificial neurons located in the two layers are respectively expressed by the following equations. 3-5.
  • n is the number of artificial neurons in the target hierarchy
  • w 1j (1) is a weighting factor corresponding to the 1st hierarchy jth output in the 2nd hierarchy 1st artificial neuron
  • b 1 (1) is the bias value of 1 hierarchy. It is.
  • w 2j (1) is a weighting factor corresponding to the 1st layer jth output in the 2nd layer 2nd artificial neuron
  • w 3j (1) is a weight corresponding to the 1st layer jth output in the 2nd layer 3rd artificial neuron.
  • the coefficient, b 2 (1) is the second bias value of the first layer
  • b 3 (1) is the third bias value of the first layer.
  • the output h 1 (3) of the three-layer artificial neuron is expressed by Equation 6 below. Note that the bias value b is not necessarily required, and the output may be calculated using only the integrated value of the output of the preceding artificial neuron and the weighting factor.
  • the artificial neuron is not limited to the above, but may be a generalized one.
  • a general expression relating to the function of the i-th intermediate layer 112 is represented by Expression 7 below.
  • x (i) is an input vector to the intermediate layer 112
  • w (i) is a weight parameter vector of the intermediate layer 112
  • b (i) is a bias vector
  • v (i) is an output vector of the intermediate layer 112.
  • An example of an intermediate layer 112 commonly used in image recognition is a fully connected layer and a convolutional layer. The output of all the coupling layers expressed in FIG.
  • x p (i) is the p-th component of the output of the i-th intermediate layer 112
  • v q (i) is the q-th component of the output of the intermediate layer 112
  • w p, q (i) is the output of the intermediate layer 112.
  • the output of the convolution layer is expressed by the following Equation 9.
  • xp, (r, s) (i) is the (r, s) component of the p-th channel input to the i-th intermediate layer 112
  • v q, (r, s) (i) is the intermediate layer 112.
  • (R, s) component of output q, w p, q, (r ′, s ′) (i) is a weighting coefficient relating to the convolution filter of the intermediate layer 112.
  • r ′ and s ′ vary from 0 to values of (width ⁇ 1) and (height ⁇ 1) of the convolution filter.
  • the learning system 100 is a system that learns the weighting factor and the bias value for associating the feature quantity of the recognition target data with the label indicating the content.
  • the learning system 100 learns only the weighting coefficient.
  • FIG. 4 is a functional block diagram of the learning system 100 according to the embodiment.
  • the learning system 100 collects and learns image data, and provides the learned weighting coefficient and bias value to the terminal device 10.
  • the learning system 100 is connected to a database 21 that stores image data, a camera 22 that generates image data, a Web site 23 that can download image data, and the like, and can acquire image data that serves as input data for learning. it can.
  • the learning system 100 may acquire image data by connecting an external storage medium, may receive image data via communication, and is not limited to the mode of image data acquisition.
  • FIG. 5 is a block diagram showing a hardware configuration of the apparatus shown in FIG.
  • the terminal device 10 is physically composed of a main storage device such as a CPU (Central Processing Unit) 101, a RAM (Random Access Memory) 102, and a ROM (Read Only Memory) 103, a touch panel, a keyboard, and the like.
  • a main storage device such as a CPU (Central Processing Unit) 101, a RAM (Random Access Memory) 102, and a ROM (Read Only Memory) 103, a touch panel, a keyboard, and the like.
  • a main storage device such as a CPU (Central Processing Unit) 101, a RAM (Random Access Memory) 102, and a ROM (Read Only Memory) 103, a touch panel, a keyboard, and the like.
  • ROM Read Only Memory
  • the CPU 101 loads predetermined computer software on hardware such as the RAM 102 and the ROM 103, operates the input device 104 and the output device 105 under the control of the CPU 101, This is realized by reading and writing data in the auxiliary storage device 106.
  • the hardware of the teacher data creation device 30 and the learning device 40 can also be configured with the same hardware as the terminal device 10. That is, the teacher data creation apparatus 30 is physically configured as a normal computer system including a main storage device such as a CPU 301, a RAM 302, and a ROM 303, an input device 304, an output device 305, an auxiliary storage device 306, and the like.
  • the learning device 40 is physically configured as a normal computer system including a main storage device such as a CPU 401, a RAM 402, and a ROM 403, an input device 404, an output device 405, an auxiliary storage device 406, and the like.
  • the learning system 100 includes a teacher data creation device 30 and a learning device 40.
  • the teacher data creation device 30 creates teacher data to be used when the learning device 40 learns and provides it to the learning device 40.
  • the teacher data includes data whose processing target data and recognition target are the same, and evaluation of a label corresponding to the data.
  • the teacher data creation device 30 includes an input data acquisition unit 31, an evaluation acquisition unit 32, a reception unit 33, and a teacher data creation unit 34.
  • the input data acquisition unit 31 acquires input data.
  • the input data acquisition unit 31 acquires learning input data from the database 21, the camera 22, the Web site 23, an external storage medium, and the like.
  • the input data is data used for learning, and is data for which processing target data and recognition target are the same.
  • the input data is image data.
  • the input data is data to be evaluated for a plurality of preset labels. Input data may have already been evaluated for some labels or not at all. That is, some label may already be given to the input data.
  • the input data includes at least a label for which it has not been determined whether or not to add.
  • the evaluation acquisition unit 32 is “correct evaluation” indicating that the content of the input data matches the label for each label, and the content of the input data does not match the label
  • One of “negative evaluation” indicating “exclusion” and “ignore evaluation” indicating exclusion from the learning target label is acquired.
  • the evaluation of a certain label is a positive evaluation, it means that the content of the input data belongs to the category indicated by the label. If the evaluation of a certain label is negative, it means that the content of the input data does not belong to the category indicated by the label.
  • the evaluation of a certain label is neglected evaluation, it means that the label is excluded from the learning target label.
  • the evaluation acquisition unit 32 includes not only “positive evaluation” and “negative evaluation” but also “ignore evaluation” in the acquisition target options.
  • the evaluation acquisition unit 32 acquires the content determined by the human annotator as the label evaluation.
  • the teacher data creation device 30 includes a reception unit 33 that receives a user operation for designating label evaluation.
  • the user operation is an annotator operation.
  • the user operation is an operation of selecting any one of “positive evaluation”, “negative evaluation”, and “ignore evaluation” for a certain label, or two evaluations for a certain label. It is an operation to eliminate.
  • the reception unit 33 acquires a signal related to the user operation to the evaluation acquisition unit 32.
  • the evaluation acquisition unit 32 acquires the evaluation of the label specified by the user operation received by the reception unit 33.
  • the user operation may include an operation by the user of the terminal device 10. For example, after the user actually operates the recognition unit 11, a user operation for determining an evaluation is performed.
  • the terminal device 10 transmits user operation and input data to the teacher data creation device 30.
  • the evaluation acquisition unit 32 determines the evaluation of the label of the input data based on the acquired user operation.
  • the evaluation acquisition unit 32 may acquire the evaluation of the label already associated with the input data as it is. For example, if there is teacher data related to the label “dog”, any one of “positive evaluation”, “negative evaluation”, and “ignore evaluation” is already associated with the input data for the label “dog”. ing. If there is an evaluation of a label, the evaluation acquisition unit 32 may use the evaluation and accept the user operation described above for an unevaluated label to determine the evaluation. With this configuration, for example, new teacher data can be easily created using existing teacher data.
  • the teacher data creation unit 34 creates teacher data by associating the input data acquired by the input data acquisition unit 31 with the evaluation for each label acquired by the evaluation acquisition unit 32.
  • the teacher data creation unit 34 may use the input data and the evaluation for each label as one data to form the teacher data, or may associate the input data with the evaluation for each label using a table.
  • FIG. 6 is an example of teacher data.
  • a plurality of labels are associated with each of the input data T1 to TN (N is a natural number).
  • three labels are respectively associated with the input data T1 to TN.
  • the first label L1 is a label indicating that the content of the image is “dog”
  • the second label L2 is a label indicating that the content of the image is “person”
  • the third label L3 is an image. Is a label indicating that the content of is “flower”.
  • the teacher data creation unit 34 associates evaluations of all labels for each input data. For example, it is assumed that the input data T1 is a dog image and no person is captured.
  • a positive value that is the evaluation of the first label L1 is stored in the table
  • a negative value that is the evaluation of the second label L2 is stored in the table.
  • the evaluation is ignored.
  • the neglect that is the evaluation of the third label L3 is stored in the table.
  • the evaluation of each label is associated with each of the input data T1 to TN.
  • the positive evaluation may be displayed as a score such as “1” and the negative evaluation may be “0”.
  • a score indicating such evaluation of input data is referred to as a correct answer score.
  • FIG. 6B shows the table shown in FIG. 6A displayed as a score. Ignore evaluations are associated with input data as asterisks.
  • the teacher data creation unit 34 ignores the evaluation of all the labels of the input data before associating the label evaluation acquired by the evaluation acquisition unit 32 with the input data acquired by the input data acquisition unit 31. Also good. That is, the teacher data creation unit 34 sets all labels as neglected evaluation as a default setting, and changes from neglected evaluation to positive evaluation or negative evaluation for those for which the evaluation has been acquired.
  • the teacher data creation unit 34 provides the created teacher data to the learning device 40.
  • the output of the teacher data creation unit 34 may be stored in a recording medium, and the storage medium may be read by the learning device 40, or may be transmitted from the teacher data creation unit 34 to the learning device 40 via communication.
  • the learning device 40 includes a teacher data acquisition unit 41, a learning recognition unit 42, and an error back propagation unit 43.
  • the teacher data acquisition unit 41 acquires the teacher data created by the teacher data creation device 30.
  • the learning recognition unit 42 has the same configuration as the recognition unit 11 and includes an input layer 111, an intermediate layer 112, and an output layer 113.
  • the input layer 111 acquires input data included in the teacher data acquired by the teacher data acquisition unit 41 as a score.
  • the intermediate layer 112 calculates the score acquired by the input layer 111 using a weighting coefficient.
  • the output layer 113 outputs a recognition score for each label using the score calculated by the intermediate layer 112.
  • the error back propagation unit 43 adjusts the weighting coefficient of the intermediate layer 112 using the recognition score for each label output from the output layer 113 and the correct score for the evaluation for each label.
  • FIG. 7 is a diagram for explaining a neural network in the learning recognition unit 42. As shown in FIG. 7, the error backpropagation unit 43 adjusts the weighting coefficient of the intermediate layer 112 so that the recognition scores B1 to B3 and the correct scores Y1 to Y3 for each label come closer. For example, the error back propagation unit 43 calculates the difference between the recognition scores B1 to B3 and the correct scores Y1 to Y3 for each label. The correct scores Y1 to Y3 are “1” for a positive evaluation and “0” for a negative evaluation.
  • the error back propagation unit 43 adjusts the above-described weighting factors w 1 , w 2 , w 3 and the bias value b so that the difference between the recognition scores B 1 to B 3 and the correct scores Y 1 to Y 3 for each label becomes small.
  • the difference is small means that the error is equal to or less than a predetermined value, or that the difference is smaller after the adjustment than before the adjustment.
  • the error back propagation unit 43 determines the weighting factors w 1 , w 2 , w 3 and the bias value b with the smallest difference by the gradient method. Such a method is also called an error back propagation method.
  • the error back propagation unit 43 determines, for example, the minimum value of the square error by the gradient method.
  • the error back propagation unit 43 repeatedly executes the updating of the weighting factors w 1 , w 2 , w 3 and the bias value b, the input to the output of the neural network, and the calculation of the square error as one set. When the variation of the square error is equal to or less than a predetermined value, the iterative process is terminated and the learning of the input data is terminated.
  • the error back propagation unit 43 does not necessarily use the difference between the recognition scores B1 to B3 and the correct score Y1 to Y3 for each label. For example, the likelihood corresponding to the correct score may be calculated. A larger likelihood means that the label is closer to the correct answer. The error back propagation unit 43 adjusts the weight coefficient in a direction in which the likelihood increases.
  • Equation 11 The general equation for error back propagation is given by Equation 11 below, where E (x) is the error function (square error, log likelihood function, etc.) calculated by the output layer 113.
  • E (x) is the error function (square error, log likelihood function, etc.) calculated by the output layer 113.
  • w j (i) is the j component of the weight coefficient of the i-th layer
  • h k (i) is the k-th component of the output vector of the i-th intermediate layer 112
  • g ′ (i) is the activation function It is differentiation.
  • the bias value b can be calculated by the same method.
  • each intermediate layer 112 is updated as the following equation 12.
  • the following terms cannot be calculated from the i-th layer alone, and thus calculations using the values of the i + 1-th layer are necessary. Specifically, the following calculation is performed. Since the calculation is performed in such a manner that the error is propagated to the input side from the calculation result on the side close to the output layer in this way, this is called error back propagation.
  • the error backpropagation unit 43 prevents the recognition score of the ignored evaluation label from affecting the adjustment of the weighting factor of the intermediate layer. “Does not affect the adjustment of the weighting coefficient of the intermediate layer” means that there is no difference in the adjustment of the weighting coefficient regardless of whether the recognition score of the label for the ignorance evaluation is input or not input. For example, the error back propagation unit 43 sets the correct score for the ignore evaluation to the same value as the recognition score of the label for the ignore evaluation. Thereby, since the difference between the recognition score and the correct score is 0, the weighting factors w 1 , w 2 , w 3 and the bias value b are not changed with respect to the label of the ignore evaluation.
  • the error back propagation unit 43 may change the differential value of the difference between the correct score of the neglected evaluation and the recognition score of the label of the neglected evaluation to 0.
  • the square error takes the minimum value for the neglected evaluation label in the square error evaluation formula.
  • the weighting factors w 1 , w 2 , w 3 and the bias value b are not changed with respect to the label of the ignore evaluation.
  • a separate layer may be provided in the neural network, and the connection of the neural network related to the neglected evaluation label may be blocked. Thereby, the back propagation itself can be directly invalidated.
  • FIG. 8 is a flowchart of the teacher data creation method according to the embodiment. The flowchart shown in FIG. 8 is executed every time one piece of teacher data is created.
  • the input data acquisition unit 31 of the teacher data creation device 30 acquires input data as an input data acquisition process (S10: input data acquisition step).
  • the evaluation acquisition unit 32 of the teacher data creation device 30 performs “correct evaluation” for each label regarding the input data T3 acquired in the input data acquisition process (S10) as the evaluation acquisition process (S12: evaluation acquisition step).
  • One of “negative evaluation” and “ignore evaluation” is acquired.
  • the evaluation acquisition unit 32 performs “negative evaluation” as the evaluation of the first label L1 indicating that the content of the image is “dog”, and evaluation of the second label L2 that indicates that the content of the image is “person”.
  • “Ignore evaluation” is acquired, and “Ignore evaluation” is acquired as the evaluation of the third label L3 indicating that the content of the image is “flower”.
  • the evaluation acquisition unit 32 may acquire the evaluation using a user operation received by the reception unit 33.
  • the teacher data creation unit 34 of the teacher data creation device 30 performs the teacher data creation process (S14: teacher data creation step) and the input data acquired in the input data acquisition process (S10) and the evaluation acquisition process (S12).
  • Teacher data is created by associating with the evaluation for each label acquired in (1).
  • the input data T3 is associated with “negative”, “ignore”, and “ignore”, and becomes one teacher data.
  • FIG. 9 is a flowchart of the learning method according to the embodiment.
  • the flowchart shown in FIG. 9 shows the flow of learning using one teacher data.
  • the teacher data acquisition unit 41 of the learning device 40 acquires teacher data as teacher data acquisition processing (S20: teacher data acquisition step).
  • the input layer 111 of the learning device 40 acquires input data included in the teacher data as input processing (S22: input step).
  • the intermediate layer 112 of the learning device 40 performs a calculation based on the function of the artificial neuron as a calculation process (S24: calculation step).
  • the output layer 113 of the learning apparatus 40 outputs the recognition score for every label as an output process (S26: output step).
  • the error back propagation unit 43 of the learning device 40 inputs the correct score for each label acquired in the teacher data acquisition process (S20) as the correct score input process (S28: correct score input step).
  • the error back propagation unit 43 executes the processes from S301 to S304 as the back propagation process (S30: Error back propagation step).
  • the error back propagation unit 43 determines whether or not the correct evaluation score input in the correct score input process (S28) includes negligence evaluation as the ignore evaluation determination process (S301). For example, assume that input data T1 shown in FIG. 6B is a learning target. As shown in FIG. 6B, the third label L3 corresponding to the input data T1 is “asterisk” indicating neglected evaluation. In this case, the error back propagation unit 43 performs invalidation processing (S302). As the invalidation process (S302), the error back propagation unit 43 sets the recognition score output in the output process (S26) as the correct score for the ignore evaluation determined in the ignore evaluation determination process (S301). For example, when the input data T1 is a learning target, the recognition score B3 is substituted for the correct score of the third label L3.
  • the error back propagation unit 43 performs the error calculation process (S303). I do.
  • the error back propagation unit 43 calculates a difference between the recognition score output in the output process (S26) and the correct answer score as an example of the error calculation process (S303). Then, the error back propagation unit 43 adjusts the weight coefficients w 1 , w 2 , w 3 and the bias value b so that the error evaluation function becomes the minimum value as the adjustment process (S304).
  • the adjustment process (S304) ends, the learning process shown in FIG. 9 ends.
  • the teacher data creation program includes a main module, an input data acquisition module, an evaluation acquisition module, a reception module, and a teacher data creation module.
  • the main module is a part that performs overall control of the apparatus.
  • the functions realized by executing the input data acquisition module, the evaluation acquisition module, the reception module, and the teacher data creation module are the input data acquisition unit 31, the evaluation acquisition unit 32, the reception unit 33, and the teacher data generation device 30 described above.
  • the function is the same as that of the teacher data creation unit 34.
  • the learning program includes a main module, a teacher data acquisition module, a learning recognition module, and an error back propagation module.
  • the main module is a part that performs overall control of the apparatus. Functions realized by executing the teacher data acquisition module, the learning recognition module, and the error back propagation module are the functions of the teacher data acquisition unit 41, the learning recognition unit 42, and the error back propagation unit 43 of the learning device 40 described above. And the same for each.
  • the teacher data creation program and the learning program are provided by a non-transitory recording medium such as a ROM or a semiconductor memory, for example. Moreover, the teacher data creation program and the learning program may be provided via communication such as a network.
  • the teacher data creation device 30 acquires any one of the positive evaluation, the negative evaluation, and the neglected evaluation for each label as the label evaluation, and creates the teacher data. That is, in this learning system 100, learning can be performed using teacher data that can include a new evaluation of “ignore evaluation” in addition to “positive evaluation” and “negative evaluation”.
  • the learning device 40 adjusts the weight coefficient of the intermediate layer 112 so that the recognition score of the positive evaluation or negative evaluation label approaches the correct evaluation score of the positive evaluation or negative evaluation, and the recognition score of the label of neglected evaluation is intermediate. The adjustment of the weight coefficient of the layer 112 is not affected.
  • the weighting factors w 1 , w 2 , w 3 and the bias value b of the intermediate layer 112 are not adjusted. Therefore, it is possible to invalidate the back propagation regarding the label of the ignorance evaluation without changing the configuration of the neural network or the back propagation formula by the error back propagation unit 43.
  • the learning system 100 it is possible to learn an unevaluated label without forcibly setting a positive evaluation or a negative evaluation.
  • the learning system 100 it is possible not only to avoid learning based on an erroneous evaluation but also to be correct by adopting a configuration in which the user can change or add the evaluation. Learning can be performed based on the evaluation, and as a result, the accuracy of the recognition unit 11 can be improved.
  • all labels are set as neglected evaluation as a default setting, and the evaluation can be changed from neglected evaluation to positive evaluation or negative evaluation. In other words, when the annotator works, it is possible to save the trouble of explicitly instructing the ignore evaluation.
  • teacher data may be created by a person (annotator). Annotators need to evaluate labels to create teacher data, regardless of whether they are confident in the evaluation of labels. For this reason, learning may be performed based on an erroneous evaluation.
  • the teacher data is created by obtaining each label as an evaluation of one of positive evaluation, negative evaluation, and neglected evaluation.
  • a new evaluation of “ignore evaluation” can be included in the teacher data in addition to “positive evaluation” and “negative evaluation”.
  • a new evaluation called neglected evaluation it is possible to adopt a new approach of learning using only correctly assigned evaluations among incomplete evaluations. Can be avoided.
  • the recognition target data is image data
  • the recognition target data may be voice data or character data. Even when such data is targeted, it is possible to avoid learning based on erroneous evaluation.
  • the positive evaluation is “1” and the negative evaluation is “0” has been described as an example, but an arbitrary value can be set.
  • the positive evaluation may be “0”
  • the negative evaluation may be “1”
  • the positive evaluation may be “2”
  • the negative evaluation may be “1”.
  • the teacher data creation device 30 and the learning device 40 may be configured as one device.
  • data to be preferentially added to the teacher data may be selected.
  • the teacher data creation device 30 recognizes a plurality of images having a neglected evaluation label, and preferentially receives annotation information for input data whose recognition score is an intermediate value that is neither positive evaluation nor negative evaluation. Acquired and used as teacher data. Thereby, since it is possible to prioritize difficult data (a large amount of information) by the recognizing unit 11, the learning efficiency is increased, and as a result, the efficiency of the annotation can be increased.
  • an evaluation obtained by averaging the evaluations of a plurality of annotators may be used as the label evaluation.
  • the labels may be hierarchized.
  • the major classification label is “A”
  • the minor classification labels are “A1”, “A2”, and “A3”.
  • the learning device 40 may adopt the weighting factor for the label A as the initial value of the small classification label. In this case, since the convergence efficiency of the gradient method can be increased, the learning time can be shortened.
  • the teacher data creation unit 34 may process the input data.
  • the teacher data creation unit 34 may perform normalization processing (processing for resizing to a certain size in the case of an image) on the input data.
  • the input layer 111 may process the input data.
  • the hardware configurations of the terminal device 10, the teacher data creation device 30, and the learning device 40 do not have to be physically integrated, and may be configured by a plurality of devices. That is, a plurality of devices may be connected via a network, and the terminal device 10, the teacher data creation device 30, and the learning device 40 may be configured virtually.
  • the terminal device 10 gives a label learned by the learning system 100.
  • the label in the first embodiment is a label representing preset contents, and is common to the terminal device 10 and the learning system 100. Further, the label may be common among the plurality of terminal devices 10. That is, the label in the first embodiment is not a label freely set by a user or the like. In the second embodiment, the user is allowed to give a label freely.
  • the label in 1st Embodiment is called a public label, and the label freely set by the user is called a private label. In the following, description of the contents described in the first embodiment is omitted.
  • FIG. 10 is a functional block diagram of the terminal device 50 according to the second embodiment.
  • the terminal device 50 includes a data acquisition unit (recognition target data acquisition unit) 51, a recognition unit 52, a given label storage unit 53, a feedback unit 54, an operation reception unit 55, and a label editing unit 56.
  • the hardware of the terminal device 50 is the same as that of the terminal device 10.
  • the data acquisition unit 51 acquires recognition target data.
  • the data acquisition unit 51 acquires image data stored in a storage medium provided in the terminal device 50.
  • the data acquisition unit 51 may acquire image data via communication.
  • the recognition unit 52 is the same as the recognition unit 11 in the above-described embodiment.
  • the recognizing unit 52 uses the parameters learned by the learning device 40 to give a public label representing the content of the recognition target data to the recognition target data.
  • the recognition unit 52 stores the recognition result in the assigned label storage unit 53.
  • the assigned label storage unit 53 stores recognition target data and public labels in association with each other.
  • FIG. 11 is an example of data stored in the assigned label storage unit 53.
  • recognition target data and public labels are stored in association with each other.
  • the recognition target data is configured to be identifiable by a recognition target data ID.
  • the recognition target data ID is an identifier of the recognition target data.
  • the recognition target data ID “1” and the public label “flower, outdoors” are stored in association with each other.
  • the recognition target data ID “2” and the public label “person” are stored in association with each other.
  • the recognition target data ID “3” and the public label “person, school, indoor” are stored in association with each other.
  • the recognition target data ID “4” and the public label “indoor, dish, person” are stored in association with each other.
  • the recognition unit 52 may further store accompanying information, which is information attached to the recognition target data, in the assigned label storage unit 53.
  • the accompanying information is information indicating, for example, the generation status of recognition target data.
  • the accompanying information is embedded in the recognition target data as part of the recognition target data, or is managed in association with the identifier of the recognition target data as data different from the recognition target data.
  • the recognizing unit 52 acquires accompanying information based on the recognition target data and further stores it in the assigned label storage unit 53.
  • the accompanying information includes, for example, the reliability of the public label, the position information at the time of data generation, the data generation date and time, and the like.
  • the reliability of the public label means the certainty of the public label.
  • the reliability of the public label is, for example, a score value when recognized by the recognition unit 52.
  • the recognition target data is image data
  • the accompanying information includes public label reliability, shooting position, shooting date, camera information, face recognition result, and the like.
  • the shooting position is, for example, latitude and longitude information, and is GPS information as a specific example.
  • the shooting date and time includes date and time, day of the week, season, and the like.
  • the camera information includes focal length, exposure time, aperture, presence / absence of flash, and the like.
  • the face recognition result is a recognition result of the face recognition function of the camera.
  • the assigned label storage unit 53 stores the relationship between the recognition target data and the label, and the relationship between the private label and the assigned time.
  • the contents stored in the assigned label storage unit 53 are updated by the operation receiving unit 55 and the label editing unit 56.
  • Update is a concept that includes addition, modification, overwriting, deletion, and the like.
  • the operation accepting unit 55 accepts a user operation for determining a private label to be given to the recognition target data acquired by the data acquiring unit 51.
  • the user operation is a terminal operation by the user of the terminal device 50.
  • the user operation includes an operation for specifying recognition target data and an operation for specifying a private label.
  • the operation for specifying the recognition target data is, for example, an operation for selecting one icon from a list of recognition target data icons displayed on a display device or the like.
  • the operation for specifying a private label is, for example, an operation for inputting a label name of the private label, an operation for selecting one label from a list of private labels displayed in the past and displayed on a display device or the like.
  • the label editing unit 56 assigns a private label to the recognition target data based on the user operation received by the operation receiving unit 55.
  • the label editing unit 56 causes the assigned label storage unit 53 to store the relationship between the recognition target data and the private label.
  • the recognition target data ID “4” shown in FIG. 11A does not have a private label.
  • the user performs a user operation to select the recognition target data ID “4” and the private labels “Chinese cuisine” and “friend”.
  • the recognition target data ID “4” and the private labels “Chinese cuisine” and “friend” are stored in association with each other.
  • the label editing unit 56 may also store the date and time when the private label was given in the given label storage unit 53.
  • the label editing unit 56 may change the information stored in the assigned label storage unit 53. That is, the label editing unit 56 can also correct or delete the private label once given.
  • the operation reception unit 55 receives a user operation for correcting or deleting the public label given to the recognition target data.
  • the user operation includes an operation for specifying the recognition target data and an operation for correcting or deleting the public label.
  • the operation for specifying the recognition target data is, for example, an operation for selecting one icon from a list of recognition target data icons displayed on a display device or the like.
  • the operation for correcting or deleting the public label is, for example, an operation for inputting a label name of the public label, an operation for selecting a delete button, or the like.
  • the label editing unit 56 corrects or deletes the public label based on the user operation received by the operation receiving unit 55.
  • the feedback unit 54 outputs the correction content to the teacher data creation device 30.
  • the reception unit 33 of the teacher data creation device 30 receives a user operation that is an operation of the terminal device 10 by a user.
  • the receiving unit 33 may receive a user operation that specifies evaluation of a part of the labels of the input data. That is, the user need not evaluate all the labels of the input data.
  • the teacher data creation unit 34 acquires the evaluation of a part of the label by the input data acquisition unit 31. And the evaluation of the remaining labels of the input data is ignored. In this way, the public label is corrected by the user, and the learning efficiency of the learning system 100 is improved by re-learning the corrected evaluation. In addition, what is necessary is just to provide the feedback part 54 as needed.
  • FIG. 12 is a flowchart showing a method for assigning a private label.
  • the flowchart shown in FIG. 12 is executed, for example, when the label edit button is selected by the user.
  • the operation reception unit 55 of the terminal device 50 receives a user operation for determining a private label to be given to the recognition target data as the operation reception process (S40).
  • the label editing unit 56 of the terminal device 50 determines a private label to be added to the recognition target data based on the user operation received in the process of S40 as a private label addition process (S42), and recognizes the recognition target. Give the determined private label to the data.
  • the private label assignment method ends.
  • the terminal device 50 can give a private label other than the public label given based on the learning result of the learning device 40.
  • the recognition target data can be easily organized and accessed. For this reason, this terminal device 50 can improve a user's convenience.
  • the terminal device 50A according to the third embodiment is different from the terminal device 50 according to the second embodiment in that a label presenting unit 57A is provided, and the others are the same.
  • the terminal device 50A according to the third embodiment has an additional function of reducing the user's labor for labeling by presenting the private label to the user.
  • the attached label storage unit 53 arbitrarily stores accompanying information and private label assignment date and time.
  • the attached label storage unit 53 stores attached information and private information. At least one of the label assignment date and time is stored.
  • FIG. 13 is a functional block diagram of the terminal device 50A according to the third embodiment.
  • the terminal device 50A includes a data acquisition unit 51, a recognition unit 52, a given label storage unit 53, a feedback unit 54, an operation reception unit 55, a label editing unit 56, and a label presentation unit 57A.
  • the hardware of the terminal device 50 ⁇ / b> A is the same as that of the terminal device 10.
  • the label presenting unit 57A presents the private label to the user.
  • the label presenting unit 57A presents the private label to the user based on the history of private label assignment date and time given by the label editing unit 56 and the reference date and time.
  • Presentation means notifying the user.
  • the presentation is to display characters or icons on the display device. Alternatively, sound may be output from a speaker or the like, or vibration may be operated.
  • the label presenting unit 57A presents the private label to the user at the timing when the operation accepting unit 55 accepts the operation of the label edit button, for example.
  • the label presenting unit 57A acquires a signal indicating that the operation has been received from the operation receiving unit 55
  • the label presenting unit 57A refers to the assigned label storage unit 53.
  • the assigned label storage unit 53 stores a history of the assignment date and time of the private label assigned by the label editing unit 56. That is, the label presenting unit 57 ⁇ / b> A can acquire the history of the date and time of giving the private label by referring to the given label storage unit 53. Then, the label presenting unit 57A acquires the reference date and time.
  • the reference date / time is the date / time used for estimation of the private label.
  • the label presentation unit 57A acquires the current date and time based on a real-time clock or the like and sets it as the reference date and time. Then, the label presenting unit 57A predicts the user's behavior based on the relationship between the date / time given to each private label and the reference date / time, and presents the private label.
  • the label presenting unit 57A refers to the history of a past predetermined period (or a predetermined number), calculates the difference between the given date and the reference date and time for each history, and weights the inverse of the difference as a weight A private label is determined by voting.
  • FIG. 14 is a table for explaining private label selection processing.
  • the private label “A” is associated with the assigned dates “19:30”, “19:30”, “19:42”, “19:53”, and “20:04”.
  • the private label “B” is associated with the assignment dates “20:51” and “20:55”.
  • information about time is described, and information about date is omitted.
  • the reference date and time is “21:02”.
  • the label presenting unit 57A calculates the difference between the given date and time and the given date and time for each history. That is, the label presenting unit 57A calculates all the difference columns shown in FIG. Then, the label presentation unit 57A calculates a weight based on the difference and performs a weighted vote. In the example shown in FIG. 14, the number of votes for the private label “A” is “0.06597”, and the number of votes for the private label “B” is “0.23377”. When other private labels are included in the history of the predetermined period, the label presenting unit 57A calculates the number of votes for other private labels using the same method. Then, the label presentation unit 57A presents the private label with the largest number of votes to the user. In the example illustrated in FIG.
  • the label presenting unit 57A presents the private label “B” to the user.
  • the label presenting unit 57A may present a plurality of private labels in descending order of the number of votes.
  • Other configurations of the terminal device 50 ⁇ / b> A are the same as those of the terminal device 50.
  • FIG. 15 is a flowchart showing a method for presenting a private label.
  • the flowchart shown in FIG. 15 is executed, for example, when the label edit button is selected by the user.
  • the label presenting unit 57A of the terminal device 50A refers to the assigned label storage unit 53 and acquires history information.
  • the label presenting unit 57A of the terminal device 50A executes, for example, the process described using FIG. 14 as the label presenting process (S46), and determines the private label.
  • the label presenting unit 57A presents the determined private label to the user.
  • the public label may be presented simultaneously.
  • the private label presentation method is terminated.
  • the label editing unit 56 assigns a correct label or deletes an incorrect label by a user operation.
  • the label presenting unit 57A may present a private label in consideration of past labeling contents, that is, including a corrected portion by a user operation.
  • the terminal device 50A may present the private label based on the accompanying information.
  • the label presenting unit 57A presents the private label to the user based on the accompanying information given when the recognition target data is generated. Further, the terminal device 50A may present the private label to the user using both the action history and the accompanying information.
  • the label presenting unit 57 ⁇ / b> A When the label presenting unit 57 ⁇ / b> A acquires a signal indicating that the operation has been received from the operation receiving unit 55, the label presenting unit 57 ⁇ / b> A refers to the assigned label storage unit 53. As illustrated in (A) or (B) of FIG. 11, the assigned label storage unit 53 stores accompanying information associated with the recognition target data. That is, the label presenting unit 57 ⁇ / b> A can acquire accompanying information by referring to the assigned label storage unit 53. Then, the label presenting unit 57A presents the private label from the relationship between the accompanying information and the private label assigned in the past.
  • the label presenting unit 57A identifies other recognition target data to which the same public label is assigned, and the private information assigned to the other recognition target data.
  • Present a label For example, when the accompanying information includes a shooting position, the label presenting unit 57A specifies other recognition target data shot at the same or close shooting position, and the private label assigned to the other recognition target data Present.
  • the label presenting unit 57A specifies other recognition target data shot at the shooting date and time of the same period or the same period, and the private information assigned to the other recognition target data Label it.
  • the label presenting unit 57A specifies other recognition target data captured with the same or similar camera information, and the private label attached to the other recognition target data Present.
  • the label presenting unit 57A specifies other recognition target data of the same face recognition result and presents a private label attached to the other recognition target data.
  • the label presenting unit 57A determines the private label to be presented by comprehensively considering when there are a plurality of types of information as the accompanying information of the recognition target data. For example, the label presenting unit 57A may determine a private label to be presented by weighted voting.
  • the label presenting unit 57A determines a private label to be presented by using a predetermined relationship between the accompanying information and the assumed situation without using the relationship between the accompanying information and a private label given in the past. May be.
  • the predetermined relationship between the accompanying information and the assumed situation is stored in advance in a database or the like before the process is executed. Such a relationship may be derived by general rules or empirical rules.
  • Such a predetermined relationship between the accompanying information and the assumed situation will be described using camera information as an example. For example, when the focal length, which is camera information, is short, there is a high possibility that still images and portraits have been taken. Alternatively, when the focal length, which is camera information, is long, there is a high possibility that a landscape has been shot.
  • the label presenting unit 57A may present the private label based on the predetermined relationship between the accompanying information and the assumed situation.
  • FIG. 16 is a flowchart showing a method for presenting a private label.
  • the flowchart shown in FIG. 16 is executed, for example, when the label edit button is selected by the user.
  • the label presenting unit 57A of the terminal device 50A refers to the attached label storage unit 53 and acquires the accompanying information as the accompanying information acquisition process (S48).
  • the label presenting unit 57A of the terminal device 50A determines a private label using accompanying information as a label presenting process (S50).
  • the label presenting unit 57A presents the determined private label to the user.
  • the private label presentation method ends.
  • the terminal device 50A according to the third embodiment can present the private label to the user according to the user's behavior. Further, the terminal device 50A according to the third embodiment can present a private label to the user according to the situation at the time of generating the recognition target data. For this reason, the user's labor for labeling can be reduced.
  • the terminal device 50B according to the fourth embodiment has an operation reception unit 55B, an image determination unit (determination unit) 59, a comment analysis unit (analysis unit) 60, and a label presentation unit.
  • the difference is that 57B is provided, and the others are the same.
  • the terminal device 50B according to the fourth embodiment provides an additional function that reduces the user's labor for labeling by presenting a private label to the user using a comment generated when the user shares recognition target data.
  • FIG. 17 is a functional block diagram of the terminal device 50B according to the fourth embodiment.
  • the terminal device 50B includes a data acquisition unit 51, a recognition unit 52, a given label storage unit 53, a feedback unit 54, an operation reception unit 55B, a label editing unit 56, an image determination unit 59, a comment analysis unit 60, and a label presentation unit 57B.
  • the hardware of the terminal device 50B is the same as that of the terminal device 10.
  • the operation accepting unit 55B accepts a user operation for attaching a comment and sharing the recognition target data with another person.
  • the operation accepting unit 55B accepts a comment operation attached when sharing image data with others via the Internet. That is, the recognition target data to which the comment is attached does not need to be associated with the comment and the recognition target data in the database, and may be any comment and recognition target data uploaded in the same period.
  • the image determination unit 59 determines the recognition target data based on a user operation that shares the recognition target data with another person. Subsequently, the comment analysis unit 60 analyzes the content of the comment attached to the recognition target data specified by the image determination unit 59. The comment analysis unit 60 analyzes the content of the comment using a well-known language function. The comment analysis unit 60 extracts words from the sentences and outputs them as analysis results.
  • the label presentation unit 57B presents the private label to the user based on the analysis result of the comment analysis unit 60. Specifically, the label presentation unit 57B estimates a season and an event related to the extracted word and presents a private label to the user.
  • the label presenting unit 57B refers to the assigned label storage unit 53, and presents the private label to the user based on the relationship between the season and the event related to the extracted word and the private label assigned in the past. May be.
  • the other configuration of the terminal device 50B is the same as that of the terminal device 50.
  • FIG. 18 is a flowchart showing a method for presenting a private label.
  • the flowchart shown in FIG. 18 is executed when, for example, the data sharing button is selected by the user.
  • the image determination unit 59 of the terminal device 50B determines the recognition target data based on a user operation for sharing the recognition target data with another person as an image determination process (S52).
  • the comment analysis unit 60 of the terminal device 50B analyzes the content of the comment attached to the recognition target data identified in the image determination process as the comment analysis process (S54).
  • the label presentation unit 57B of the terminal device 50B presents a private label to the user based on the analysis result of the comment analysis unit 60 as a label presentation process (S56). When the process of S56 ends, the private label presentation method ends.
  • the terminal device 50B according to the fourth embodiment can present the private label to the user according to the comment given by the user. For this reason, a label with relatively high accuracy can be presented with a simple configuration.
  • the terminal device 50C according to the fifth embodiment includes a list output unit 62, a representative label acquisition unit (relation acquisition unit) 63, and a correction recommendation unit 64. It is different and the others are the same.
  • the terminal device 50C according to the fifth embodiment has an additional function that makes it easier to organize private labels that have already been assigned by pointing out fluctuations, misprints, divergences, and the like of private labels.
  • the learning system 100A according to the fifth embodiment is different from the learning system according to the first embodiment in that it includes a language server 80, and the others are the same.
  • FIG. 19 is a functional block diagram of the learning system 100A and the terminal device 50C according to the fifth embodiment.
  • the terminal device 50C includes a data acquisition unit 51 (not shown), a recognition unit 52 (not shown), a given label storage unit 53, a feedback unit 54 (not shown), an operation reception unit 55 (not shown), and a label editing unit 56 ( (Not shown), a list output unit 62, a representative label acquisition unit 63, and a correction recommendation unit 64.
  • the hardware of the terminal device 50C is the same as that of the terminal device 10.
  • the learning system 100A includes a teacher data creation device 30 (not shown), a learning device 40 (not shown), and a language server 80.
  • the hardware of the language server 80 is the same as that of the terminal device 10.
  • the terminal device 50C is configured to be able to communicate with the language server 80.
  • the list output unit 62 outputs a list of assigned private labels to the language server 80.
  • the list output unit 62 refers to the assigned label storage unit 53, lists a predetermined range (predetermined number) of private labels, and outputs the list to the language server 80.
  • This list may be only text information of a private label among the data shown in (A) or (B) of FIG. Of course, the list may include information other than the text information of the private label.
  • the list output unit 62 outputs a list including private labels “Sakura”, “Sakura”, “Hanami”, “Ohanami”, and “Hanami”.
  • the representative label acquisition unit 63 acquires the relationship between the representative label and the assigned private label from the language server 80.
  • the representative label is a label in which similar private labels are aggregated, or a label in which a wobbling or misprinting is corrected.
  • the representative label acquisition unit 63 acquires the representative label “cherry blossom viewing” associated with the private label information “cherry blossom viewing”, “cherry blossom viewing”, and “hanami”.
  • the representative label acquisition unit 63 acquires the representative label “Sakura” associated with the private label information “Sakura” and “Sakura”.
  • the correction recommendation unit 64 recommends the user to correct the private label to the representative label based on the relationship acquired by the representative label acquisition unit 63. For example, the correction recommendation unit 64 displays the assigned private label and the representative label on the display device, and prompts the user to correct.
  • the recommended display is not limited to the above. The user may be prompted by voice information using a device other than the display device, for example, a speaker.
  • the language server 80 includes a list acquisition unit 81, an aggregation unit 82, a representative label selection unit 83, a representative label storage unit 84, and a representative label output unit 85.
  • the list acquisition unit 81 acquires a list from one or a plurality of terminal devices 50C. As described above, the list includes text information of the private label.
  • the aggregation unit 82 aggregates private labels into groups based on the list acquired by the list acquisition unit 81.
  • the aggregation unit 82 groups the private labels of the list based on the similarity of meaning, the similarity of sound, and the like.
  • the list includes private labels “Sakura”, “Sagra”, “Hanami”, “Ohanami”, and “Hanami”. In this case, “Sakura” and “Sakura” are collected as one group. In addition, “Hanami”, “Ohanami” and “Hanami” will be consolidated as one group.
  • the representative label selection unit 83 selects a representative label for the group aggregated by the aggregation unit 82. For a group in which similar private labels are aggregated, the representative label selection unit 83 selects a word having the largest number of searches as a representative label using an Internet search engine or the like. The representative label selection unit 83 selects a correct or appropriate word as a representative label by utilizing a dictionary database or the like when a notation fluctuation or an error is included. As a specific example, the representative label selection unit 83 selects “Sakura” in which an error is corrected as a representative label for a group in which “Sakura” and “Sakura” are collected. The representative label selection unit 83 selects “cherry blossom viewing” with the largest number of search results as a representative label for the group in which “cherry blossom viewing”, “cherry blossom viewing”, and “hanami” are collected.
  • the representative label selection unit 83 may store the selected representative label in the representative label storage unit 84.
  • the representative label selection unit 83 may compare the selected representative label with the past representative label based on the representative label selection history with reference to the representative label storage unit 84. By comprising in this way, the representative label which the representative label selection part 83 selects can be stabilized.
  • the representative label output unit 85 Based on the selection result of the representative label selection unit 83, the representative label output unit 85 outputs the relationship between the representative label and the assigned private label to the terminal device 50C.
  • FIG. 20 is a flowchart showing a private label correction recommendation method.
  • the flowchart shown in FIG. 20 can be executed at a predetermined timing.
  • the list output unit 62 of the terminal device 50C outputs the assigned private label list to the language server 80 as list output processing (S70).
  • the list acquisition unit 81 of the language server 80 acquires a list as list acquisition processing (S72).
  • the aggregation unit 82 of the language server 80 aggregates private labels into groups based on the list acquired by the list acquisition unit 81 as an aggregation process (S74). Then, the representative label selection unit 83 of the language server 80 selects a representative label for the group aggregated by the aggregation unit 82 as a representative label selection process (S76). Then, the representative label output unit 85 of the language server 80 sets the relationship between the representative label and the assigned private label to the terminal device 50C based on the selection result of the representative label selection unit 83 as representative label output processing (S77). Output.
  • the representative label acquisition unit 63 of the terminal device 50C acquires the relationship between the representative label and the assigned private label from the language server 80 as a representative label acquisition process (S78).
  • the correction recommendation unit 64 of the terminal device 50C recommends the user to correct the private label to the representative label based on the relationship acquired by the representative label acquisition unit 63 as the recommendation process (S80).
  • the private label correction recommendation method ends.
  • the learning system 100A and the terminal device 50C according to the fifth embodiment can prompt the user to organize the private labels. For this reason, the already assigned private labels can be organized.
  • the learning system 100B according to the sixth embodiment is different from the learning system 100 according to the first embodiment in that it includes a threshold value setting unit 44 (an example of a threshold value changing device), and is otherwise the same. Below, it demonstrates centering around the difference between the learning system 100B and the learning system 100, and the overlapping description is abbreviate
  • the weighting factor learned by the learning device 40 is distributed to the terminal device 10.
  • the terminal device 10 operates the recognition unit 11 using the distributed weight coefficient.
  • the recognition unit 11 updates the neural network using the distributed weighting factor.
  • the recognition part 11 acquires recognition object data, and outputs the recognition score which shows the degree to which the content of recognition object data corresponds to a predetermined label with a neural network.
  • the recognition unit 11 assigns a label corresponding to a recognition score equal to or greater than a predetermined value to the recognition target data.
  • the recognition unit 11 outputs a recognition result indicating whether or not the content of the recognition target data matches a predetermined label using the recognition score and a threshold value preset for the recognition score.
  • the predetermined value is a threshold for determining the recognition score, and is set in advance for the recognition score. “Preliminarily set” means that the threshold is set before the recognition unit 11 performs the recognition process.
  • the threshold value (predetermined value) may be set in advance at the time of initial setting, or may be calculated by evaluating using evaluation data during learning or after completion of learning.
  • the threshold value is determined using the evaluation data. That is, the threshold value is calculated by evaluating the learning recognition unit 42 or the recognition unit 11 using the evaluation data during or after learning.
  • the evaluation data is data that does not overlap with the teacher data, and includes the correct evaluation for the input data and the predetermined label.
  • the correct evaluation is associated with the input data and indicates whether the content of the input data is a positive evaluation that matches a predetermined label or whether the content of the input data is a negative evaluation that does not match the predetermined label.
  • the correct evaluation may include not only “positive evaluation” and “negative evaluation” but also “ignore evaluation”. However, the evaluation data to which “ignore evaluation” is assigned is not used for determining the threshold value.
  • the learning system 100B inputs evaluation data to the neural network that is being learned or has been learned, and sets a threshold for the output of the learning recognition unit 42 or the recognition unit 11 using the output recognition score.
  • FIG. 22 is a graph for explaining the threshold value of the recognition score.
  • the learning recognition unit 42 or the recognition unit 11 recognizes evaluation data to which “positive evaluation” or “negative evaluation” is given with respect to a predetermined label. It is a result.
  • the horizontal axis is the recognition score, and the vertical axis is the frequency.
  • the recognition score is a score representing the probability of recognition.
  • the frequency is the number of evaluation data.
  • a threshold value t i for determining a positive evaluation or a negative evaluation from the recognition score is required.
  • FIGS. 22A and 22B as a result of evaluation using evaluation data, a distribution of positive evaluation data and a distribution of negative evaluation data can be obtained.
  • Learning system 100B based on general statistics, to set these distributions recognition score distinguishing the threshold t i.
  • the threshold value is set using an F-measure that is a harmonic average of recall and precision. It will be described in detail later in the setting of the threshold t i.
  • the threshold value t i is set to the evaluation score using common statistics
  • a general statistics threshold t i to the evaluation score using is set.
  • FIG. 23 is a functional block diagram of the learning system and the terminal device according to the sixth embodiment.
  • Learning system 100B shown in FIG. 23 delivers the threshold t i to the terminal unit 10B together with the learning result.
  • the learning system 100B is different from the learning system 100 according to the first embodiment in the learning device 40B, and the others are the same.
  • the learning device 40B is different from the learning device 40 according to the first embodiment in that the learning device 40B includes a threshold setting unit 44, and the others are the same.
  • the threshold setting unit 44 includes an evaluation data acquisition unit 441, a terminal data acquisition unit 442, a recognition score acquisition unit 443, a calculation unit 444, and a change unit 445.
  • the evaluation data acquisition unit 441 acquires evaluation data.
  • the evaluation data is stored, for example, in the storage unit of the learning device 40B.
  • the evaluation data includes a correct answer evaluation for a predetermined label (hereinafter, label i is a predetermined label). More specifically, the evaluation data is a set (data set) of image data (input data) to which a correct answer label is assigned.
  • label i is a predetermined label
  • the evaluation data is a set (data set) of image data (input data) to which a correct answer label is assigned.
  • G i + a set of positive evaluation data of label i included in the evaluation data
  • G i ⁇ a negative evaluation data set of label i included in the evaluation data
  • the number of image data included in the set X will be described as # (X).
  • the terminal data acquisition unit 442 acquires the ratio r i, a between the positive evaluation and the negative evaluation related to the label i of the data associated with the terminal device 10B.
  • the terminal device 10B is the same as the terminal device 10 according to the first embodiment.
  • the data associated with the terminal device 10B is recognition target data related to the terminal device 10B and is recognized data.
  • the data associated with the terminal device 10B is stored in a set of recognized image data stored in the terminal device 10B or an external recording medium, and the terminal ID and user ID of the terminal device 10B A set of associated recognized image data.
  • a more specific example is an album of images stored in the terminal device 10B.
  • the ratio r i, a between the positive evaluation and the negative evaluation regarding the label i is the ratio of the number of positive evaluation data and the number of negative evaluation data among the recognized data, and the positive evaluation data and the negative evaluation data Is the abundance ratio.
  • a set of positive evaluation data is denoted as G ′ i +
  • a set of negative evaluation data is denoted as G ′ i ⁇ . That is, the ratio r i, a is a value # (G ′ i + ) / # (G ′ i ⁇ ) obtained by dividing the number of positive evaluation data by the number of negative evaluation data.
  • the terminal data acquisition unit 442 can acquire the ratios r i, a of the positive evaluation and the negative evaluation regarding the label i using various methods.
  • the terminal data acquisition unit 442 acquires the ratio r i, a based on the recognition result of the neural network of the terminal device 10B.
  • the terminal data acquisition unit 442 acquires the ratio r i, a based on the recognition result of the recognition unit 11. be able to.
  • the terminal data acquisition part 442 may acquire ratio ri , a based on the result of the annotation by the user of the terminal device 10B.
  • the terminal data acquisition unit 442 can acquire the ratios r i, a based on the result of the annotation.
  • the terminal data acquisition unit 442 can acquire the ratio r i, a based on a user operation of the terminal device 10B or terminal information.
  • the terminal data acquisition unit 442 estimates the ratio r i, a based on a user input (user operation) regarding the label i.
  • the terminal data acquisition unit 442 inquires the user about the degree of interest indicating the degree of interest regarding the label i, and estimates the ratio r i, a based on the user input to the inquiry.
  • the terminal data acquisition unit 442 may directly query the user for the ratio r i, a .
  • the terminal data acquisition unit 442 may estimate the ratio r i, a based on the terminal information of the terminal device 10B.
  • the terminal information is information stored in the terminal device 10B, such as regional data.
  • the terminal data acquisition unit 442 estimates the ratio r i, a based on the correlation between the area stored in advance and the label i and the acquired area data.
  • the recognition score acquisition unit 443 acquires a recognition score of a predetermined label related to input data from a neural network (recognition unit 11) or a neural network (learning recognition unit 42) having the same weighting factor as the neural network. Since the weighting factor of the learning recognition unit 42 and the weighting factor of the recognition unit 11 are synchronized, the recognition score acquisition unit 443 may use either neural network.
  • the recognition score acquisition unit 443 acquires the recognition score of the predetermined label related to the input data by causing the learning recognition unit 42 or the recognition unit 11 to read the evaluation data acquired by the evaluation data acquisition unit 441.
  • p i a degree of probability for the label i (probability as an example)
  • the recognition unit for learning 42 recognizes input data whose true evaluation is a positive evaluation as true evaluation and input data whose negative evaluation is a negative evaluation as negative evaluation.
  • Data number true negative
  • input data with correct evaluation as positive evaluation number of data recognized as negative evaluation (false negative)
  • input data with correct evaluation as negative evaluation number of data recognized as positive evaluation (false positive).
  • the calculation unit 444 performs evaluation using at least the precision.
  • the relevance rate is obtained by dividing the number of data whose correct answer is “correct evaluation” among the data recognized as “correct evaluation” by the learning recognition unit 42 by the number of data recognized as “correct evaluation”. Value.
  • a set of data whose recognition result is “positive evaluation” is P i +
  • a set of data whose recognition result is “negative evaluation” is P i ⁇ .
  • the number of data used for the evaluation can be expressed as # (P i + ) + # (P i ⁇ ).
  • the number of data of “true positive”, “true negative”, “false negative”, and “false positive” for the label i described above can be expressed as follows.
  • G i + is a set of positive evaluation data of label i included in the evaluation data
  • G i ⁇ is a set of negative evaluation data of label i included in the evaluation data. According to the above definition, the precision is expressed as follows.
  • the calculation unit 444 may perform evaluation using the recall rate.
  • the recall rate is obtained by dividing the number of data recognized as “correct evaluation” by the learning recognition unit 42 among the data whose correct answer is “correct evaluation” by the number of “correct evaluation” data among the evaluation data. Value. Specifically, it is expressed as follows.
  • the calculation unit 444 calculates a harmonic average (f-measure) of the recall rate and the matching rate as an evaluation value when using the matching rate and the recall rate.
  • f-measure is an index that pays attention to the equality of recall and precision.
  • the evaluation value described above is influenced by the data distribution of positive evaluation and negative evaluation in the evaluation data. That is, when there is a bias in the ratio between positive evaluation and negative evaluation in the evaluation data, the calculated evaluation value is a value reflecting the bias in the evaluation data. For this reason, the difference between the data distribution of the evaluation data and the environment (data distribution of the terminal device 10B) actually used by the user is ideally small. For this reason, the calculation unit 444 has a function of correcting the number of data so as to reduce the above-described difference, and calculating the precision using the corrected number of data. In particular, when “ignore evaluation” is included in the evaluation data, the above-described difference may become remarkable.
  • FIG. 24 is a diagram for explaining data bias in evaluation data. The distribution shown in FIG.
  • 24A is a true distribution of “positive evaluation” and “negative evaluation” (distribution in the terminal device 10B).
  • the annotator performs “positive evaluation” tagging on all evaluation data, and then performs “negative evaluation” tagging on some evaluation data.
  • This is a distribution when the remaining evaluation data is “ignore evaluation”.
  • the data that should be regarded as “negative evaluation” becomes “ignore evaluation” data, so that the data distribution of the evaluation data may be greatly different from the data distribution of the user environment.
  • the calculation unit 444 corrects the evaluation data so as to have the same existence ratio as the ratio r i, a in the terminal device 10B, and performs evaluation.
  • the evaluation value based on ideal data is expressed as follows. As described above, among the recognized data associated with the terminal device 10B, a set of positive evaluation data is G ′ i + and a set of negative evaluation data is G ′ i ⁇ . Further, among recognized data associated with the terminal device 10B, a set of data whose recognition result is “positive evaluation” is P ′ i + , and a set of data whose recognition result is “negative evaluation” is P ′ i ⁇ . And
  • the calculation unit 444 performs correction to reduce the influence of fluctuations in the number of “false positives”. Specifically, the calculation unit 444 corrects as follows.
  • r i test is a ratio of “positive evaluation” and “negative evaluation” in the evaluation data.
  • the calculation unit 444 calculates the number of “false positives” by the ratios r i, test of “positive evaluation” and “negative evaluation” in the evaluation data, and “positive evaluation” and “negative evaluation” in the terminal device 10B. By correcting using the ratios r i, a , the number of correction “false positives” is obtained. In other words, the calculation unit 444 calculates the relevance ratio using the following Expression 13.
  • the changing unit 445 changes the threshold value t i using the precision calculated by the calculating unit 444.
  • the recognition score relevance ratio is the highest may be a threshold t i.
  • the changing unit 445, the harmonic mean of the thresholds t i recall and precision rate may change to the recognition score of maximum.
  • the changed threshold value t i is distributed to the terminal device 10B.
  • FIG. 25 is a flowchart showing the threshold value changing process.
  • the flowchart shown in FIG. 25 is executed, for example, at a predetermined timing during learning.
  • the evaluation data acquisition unit 441 of the threshold setting unit 44 acquires evaluation data as the evaluation data acquisition process (S90).
  • the evaluation data acquisition unit 441 acquires, for example, a data set of image data to which any of “correct evaluation”, “negative evaluation”, and “ignore evaluation” regarding the label i is assigned as the correct evaluation.
  • the terminal data acquisition unit 442 of the threshold setting unit 44 acquires terminal data as terminal data acquisition processing (S92).
  • the terminal data acquisition unit 442 acquires, for example, the ratio r i, a between the positive evaluation and the negative evaluation related to the label i of the data associated with the terminal device 10B.
  • the recognition score acquisition unit 443 of the threshold setting unit 44 acquires a recognition score as a recognition score acquisition process (S94).
  • the recognition score acquisition unit 443 acquires the recognition score of the predetermined label related to the input data by causing the learning recognition unit 42 to read the evaluation data acquired in the evaluation data acquisition process (S90).
  • the calculation part 444 of the threshold value setting part 44 calculates a relevance rate as a calculation process (S96).
  • the calculation unit 444 calculates the relevance ratio using the above-described Expression 13. Specifically, the calculation unit 444 calculates “true positive” and “false positive” based on the recognition score acquired in the recognition score acquisition process (S94). Then, the calculation unit 444 determines “false” based on the ratios r i, test of “positive evaluation” and “negative evaluation” in the evaluation data and the ratio r i, a acquired in the terminal data acquisition process (S92). Correct “positive”. Then, the calculation unit 444 calculates the relevance ratio using “true positive” and the correction “false positive” (Formula 13).
  • the changing unit 445 of the threshold setting unit 44 changes the threshold t i as the changing process (S98).
  • Changing unit 445 changes the threshold t i using a precision rate calculated by the calculation processing (S96).
  • the flowchart shown in FIG. 25 ends.
  • the number of data recognized as negative evaluation input data is the ratio r i, test of the positive evaluation and negative evaluation of the evaluation data, and the terminal device Correction is performed using the ratio r i, a of the positive evaluation and the negative evaluation of the data associated with 10B. Then, based on the relevance ratio regarding the label i calculated using the corrected number of data, the threshold value t i used in the recognition performed by the terminal device 10B is changed. In this way, when calculating the relevance ratio for the label i, the negative evaluation input data is recognized as a positive evaluation in consideration of the distribution of positive and negative data in the evaluation data and the distribution of positive and negative data in the terminal device 10B. The number of data is corrected.
  • the threshold setting unit 44 can make the ratios r i, test and the ratios r i, a equal by correcting the “false positive” number.
  • the terminal device 10C according to the seventh embodiment includes a threshold setting unit 44C (an example of a threshold changing device), as compared with the terminal device 10B according to the sixth embodiment (or the terminal device 10 according to the first embodiment).
  • a threshold setting unit 44C an example of a threshold changing device
  • the threshold t i changing process described in the sixth embodiment needs to use evaluation data having a certain number. For this reason, when it processes with the terminal device 10B, there exists a possibility that it may take time.
  • the terminal device 10C according to the seventh embodiment stores in advance the relationship between the positive and negative evaluation ratios r i, a of the data associated with the terminal device 10C and the threshold value t i . It is possible to appropriately change the threshold value t i according to the environmental change.
  • FIG. 26 is a functional block diagram of the terminal device 10C according to the seventh embodiment. As illustrated in FIG. 26, the terminal device 10C includes a terminal data acquisition unit 446, a change unit 447, and a storage unit 448.
  • the terminal data acquisition unit 446 has the same function as the terminal data acquisition unit 442 according to the sixth embodiment.
  • the storage unit 448 stores the relationship between the ratio r i, a of positive evaluation and negative evaluation of data associated with the terminal device 10C and the threshold value t i .
  • the storage unit 448 stores a function of the threshold value t i with the ratio r i, a as a variable.
  • the changing unit 447 changes the threshold value t i using the relationship stored in the storage unit 448 and the ratio r i, a acquired by the terminal data acquisition unit 446.
  • the changing unit 447 uses the ratio r i is stored in the storage unit 448, and the function of the threshold value t i of the variables a, is the ratio r i acquired by the terminal data acquiring unit 446, and a, change A later threshold t i is obtained.
  • the changing unit 447 acquires the changed threshold value t i by interpolation using the threshold value t i stored discretely in the storage unit 448 and the ratio r i, a acquired by the terminal data acquiring unit 446. To do.
  • the ratio r i, a acquired by the terminal data acquisition unit 446 is 0.15.
  • the changing unit 447 sets (t i (0.1) + t i (0.2)) / 2 as the changed threshold value t i (linear interpolation). Changing unit 447 replaces the threshold t i after the change the current threshold.
  • the other configuration of the terminal device 10C is the same as that of the terminal device 10B.
  • FIG. 27 is a flowchart showing the threshold value changing process.
  • the flowchart shown in FIG. 27 is executed, for example, when a threshold change process start button is selected by a user operation.
  • the terminal data acquisition unit 446 of the terminal device 10C acquires terminal data as terminal data acquisition processing (S100). For example, the terminal data acquisition unit 446 acquires the ratios r i, a of the positive evaluation and the negative evaluation regarding the label i of the data associated with the terminal device 10C.
  • the changing unit 447 of the terminal apparatus 10C as the threshold value obtaining process (S102), and acquires the threshold t i after the change.
  • Changing unit 447 for example, the ratio r i is stored in the storage unit 448, a and a threshold t and relationship with i, is the ratio r i acquired by the terminal data acquisition process (S100), based on the a Then, the changed threshold value t i is acquired.
  • the changing unit 447 of the terminal apparatus 10C changes the threshold value t i.
  • Changing unit 447 replaces the threshold t i after the change acquired the current threshold t i at the threshold acquisition process (S102).
  • the flowchart shown in FIG. 27 ends.
  • the threshold value setting unit 44C As described above, according to the threshold value setting unit 44C according to the seventh embodiment, the relationship between the ratio r i, a stored in advance and the threshold value t i and the ratio r i, a acquired by the terminal data acquisition unit 446 Is used to change the threshold t i . In this way, by using the relationship between the ratio r i, a stored in advance and the threshold value t i , the calculation load for changing the threshold value can be reduced. Further, the ratios r i, a of positive evaluation and negative evaluation of data associated with the terminal device are different for each terminal device. According to the threshold setting unit 44C according to the seventh embodiment, it can be changed to the optimal threshold t i in accordance with the use environment of the terminal device 10C.
  • the present invention is not limited to the above embodiment.
  • the present invention can be variously modified without departing from the gist thereof.
  • FIG. 21 is a diagram showing a hierarchical structure of private labels.
  • the hierarchized private label has an item of “category” for classifying the label.
  • the labels “A”, “B”, and “C” are the category “person name”
  • the labels “D” and “E” are the category “place names”
  • the label “F” is the category “time”
  • the label “G” is It is classified into the category "Other”.
  • a private label may be automatically assigned on the terminal device side. Further, when the private label satisfies a predetermined condition, the private label may be promoted to a public label. For example, when a certain number of users use the same private label, the private label may be changed to a public label. Alternatively, the private label assigned to the same public label may be totaled by the learning system, and the private label may be replaced with the public label according to the usage situation.
  • the learning system 100B according to the above-described sixth embodiment has been described as a learning system that can use not only positive evaluation and negative evaluation but also ignore evaluation, it is not always necessary to use ignore evaluation. That is, the threshold setting unit 44 described in the sixth embodiment may be applied to a conventional learning system that makes a determination based only on positive evaluation and negative evaluation. Even in this case, the threshold value can be appropriately changed according to the terminal device.
  • the threshold setting unit 44 according to the sixth embodiment described above may be provided in the terminal device 10B instead of the learning device 40B. Further, the terminal data acquisition process (S92) shown in FIG. 25 is not limited to the case where it is executed between the evaluation data acquisition process (S90) and the recognition score acquisition process (S94), but the calculation process (S96). It only has to be executed before.
  • the apparatus according to the second to seventh embodiments described above may exhibit its functions by a program.
  • Another form of the second to seventh embodiments includes a method corresponding to the operation of these apparatuses, a program having the functions of the apparatus, or a storage medium storing the program.
  • aggregating unit 83 ... representative label selecting unit, 84 ... representative label storage section, 85 ... representative label output unit, 44,44C ... threshold setting unit, t i ... threshold, 100, 100A, 100B ... learning system, 111 Input layer, 112 ... intermediate layer, 113 ... output layer, 441 ... evaluation data acquisition unit, 442,446 ... terminal data acquiring unit, 443 ... recognition score acquisition unit, 444 ... calculator, 445, 447 ... change unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

学習システムは、学習装置及び学習装置用の教師データ作成装置を備える。学習装置は、ニューラルネットワークを誤差逆伝搬法によって学習する。教師データ作成装置は、入力データに関して、ラベルごとに、入力データの内容がラベルに合致することを示す正評価、入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得して、教師データを作成する。学習装置は、学習用のニューラルネットワークを学習する際に、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが中間層の重み係数の調整に影響を与えないようにする。

Description

学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置
 本開示は、学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置に関する。
 特許文献1には、複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習する装置が記載されている。このニューラルネットワークは、入力層、複数の中間層(隠れ層)及び出力層を備える。入力層は、複数個の人工ニューロンを備える。中間層のそれぞれは複数個の人工ニューロンを備える。出力層は、ラベルの数と同一の数の人工ニューロンを備える。学習装置は、入力データとラベルの評価とを含む教師データを用いてニューラルネットワークを学習する。
 ラベルの評価には、データの内容がラベルに合致することを示す「正評価」、及び、データの内容がラベルに合致しないことを示す「負評価」がある。正評価又は負評価は、「0」「1」などの数値(正解スコア)に関連付けられており、これらの数値は正解値(Ground Truth)ともいう。学習装置は、入力データを入力層で取得し、中間層で演算し、出力層から出力された認識スコアと評価の正解スコアとが近づくように、中間層の演算パラメータを調整する。
 ところで、ニューラルネットワークのラベルの付与のやり方(分類の仕方)には、複数のラベルの中から選択された1つのラベルのみが認識対象データに付与されるシングルラベルの分類と、複数のラベルの中から選択された複数のラベルが認識対象データに付与されることを許容するマルチラベルの分類が存在する。シングルラベルの場合、あるラベルが正評価であれば、他のラベルは負評価になる。一方、マルチラベルの場合には、複数のラベルが正評価である場合がある。
 マルチラベルの教師データについて、一部のラベルの評価が間違っていたり存在しなかったりする場合もある。非特許文献1~3には、このような不完全な教師データに対するアプローチとして、別途の学習によってラベルの評価を自動的に推定することが記載されている。
特開2014-229124号公報
E. Come, L. Oukhellou, T. Denoeux, and P. Aknin. Mixture model estimation with soft labels. International Conference on Soft Methods in Probability and  Statistics, 2008 R. Jin and Z., Ghahramani.  Learning with multiple labels.  In Advances in Neural Information Processing 2002 C. Leistner, M Godec, S. Schulter, A. Saffari, M. Werlberger and H. Bischof. Improving Classifiers with Unlabeled Weakly-Related Videos. IEEE Computer Society International Conference on Computer Vision and Pattern Recognition. 2011
 別途の学習によってラベルの評価を自動的に推定する従来のアプローチでは、ラベルを付与する人(アノテータ)の作業負荷が軽減する可能性があるが、必ずしも正しい評価を推定できるとは限らない。このため、本技術分野では、誤った評価に基づいて学習が行われることを回避することが望まれている。
 本発明の一側面に係る学習システムは、学習装置及び学習装置用の教師データ作成装置を備える。学習装置は、複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習する。教師データ作成装置は、学習装置のための教師データを作成する。教師データ作成装置は、入力データ取得部、評価取得部及び教師データ作成部を備える。入力データ取得部は、入力データを取得する。評価取得部は、入力データ取得部により取得された入力データに関して、ラベルごとに、入力データの内容がラベルに合致することを示す正評価、入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得する。教師データ作成部は、入力データ取得部により取得された入力データと評価取得部により取得されたラベルごとの評価とを関連付けることにより、教師データを作成する。学習装置は、教師データ取得部、入力層、中間層、出力層及び誤差逆伝搬部を備える。教師データ取得部は、教師データ作成装置により作成された教師データを取得する。入力層は、教師データ取得部により取得された教師データに含まれる入力データをスコアとして取得する。中間層は、入力層が取得したスコアを、重み係数を用いて演算する。出力層は、中間層が演算したスコアを用いて、ラベルごとの認識スコアを出力する。誤差逆伝搬部は、出力層が出力したラベルごとの認識スコアとラベルごとの評価の正解スコアとを用いて中間層の重み係数を調整する。誤差逆伝搬部は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが中間層の重み係数の調整に影響を与えないようにする。
 この学習システムでは、教師データ作成装置により、正評価、負評価及び無視評価の何れか1つがラベルの評価としてラベルごとに取得されて、教師データが作成される。つまり、この学習システムでは、「正評価」及び「負評価」に加えて「無視評価」という新たな評価を含むことができる教師データを用いて学習することができる。学習装置は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが中間層の重み係数の調整に影響を与えないようにする。このため、正評価又は負評価のラベルについては認識部の精度向上を図ることができるとともに、無視評価のラベルに関しては認識部の精度に影響を及ぼさないようにすることができる。入力データには必ず正評価又は負評価が付与されていなければならないという従来の枠組みにおいては、不完全なラベルの評価を推定などにより完全なラベルの評価に近づけるというアプローチが採用されていた。これに対して、無視評価という新たな評価を導入することにより、不完全な評価のうち正しく付与された評価のみを用いて学習するという新たなアプローチを採用することができるため、誤った評価に基づいて学習が行われることを回避することができる。
 一実施形態においては、誤差逆伝搬部は、無視評価の正解スコアを無視評価のラベルの認識スコアと同じ値に設定してもよいし、無視評価の正解スコアと無視評価のラベルの認識スコアとの差分を0に変更してもよいし、又は、無視評価の正解スコアと無視評価のラベルの認識スコアとの差分の微分値を0に変更してもよい。これにより、無視評価のラベルについても逆伝搬は行われるものの、中間層の重み係数は無調整となる。よって、ニューラルネットワークの構成や誤差逆伝搬部による逆伝搬の数式を変更することなく、無視評価のラベルに関する逆伝搬を無効化することができる。
 一実施形態においては、誤差逆伝搬部は、無視評価のラベルに関するニューラルネットワークの接続を遮断してもよい。これにより、逆伝搬そのものを直接的に無効化することができる。
 一実施形態においては、教師データ作成部は、評価取得部によって評価が取得できないラベルと無視評価とを関連付けてもよい。これにより、未評価のラベルについて、正評価か負評価を無理に設定することなく学習することができる。
 一実施形態においては、教師データ作成装置は、ラベルの評価を指定するユーザ操作を受け付ける受付部を備え、評価取得部は、受付部により受け付けられたユーザ操作によって指定されるラベルの評価を取得してもよい。このように、ユーザが評価を変更又は追加することができる構成とすることで、誤った評価に基づいて学習が行われることを回避することができるだけでなく、正しい評価に基づいて学習を行うことができ、結果として認識部の精度を向上させることができる。
 一実施形態においては、受付部は、入力データの一部のラベルの評価を指定するユーザ操作を受け付け、教師データ作成部は、評価取得部により取得された一部のラベルの評価を、入力データ取得部により取得された入力データと関連付けるとともに、入力データの残りのラベルの評価を無視評価にしてもよい。このように構成することで、一部のラベルに対して評価された場合であっても、教師データを作成することができる。
 一実施形態においては、教師データ作成部は、評価取得部により取得されたラベルの評価を入力データ取得部により取得された入力データと関連付ける前に、入力データの全てのラベルの評価を無視評価にしてもよい。このように、デフォルト設定として全てのラベルを無視評価としておき、評価を取得できたものについて無視評価から正評価又は負評価へ変更することができる。つまり、アノテータが作業する場合に、無視評価を明示的に指示する手間を省くことができる。
 本発明の他の側面に係る学習装置は、複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習する学習装置である。学習装置は、教師データ取得部、入力層、中間層、出力層及び誤差逆伝搬部を備える。教師データ取得部は、入力データと入力データに予め関連付けられたラベルごとの評価とを含む教師データを取得する。入力データには、入力データの内容がラベルに合致することを示す正評価、入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つがラベルごとに関連付けられている。入力層は、教師データ取得部により取得された教師データに含まれる入力データをスコアとして取得する。中間層は、入力層が取得したスコアを、重み係数を用いて演算する。出力層は、中間層が演算したスコアを用いて、ラベルごとの認識スコアを出力する。誤差逆伝搬部は、出力層が出力したラベルごとの認識スコアとラベルごとの評価の正解スコアとを用いて中間層の重み係数を調整する。誤差逆伝搬部は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが中間層の重み係数の調整に影響を与えないようにする。
 この学習装置では、「正評価」及び「負評価」に加えて「無視評価」という新たな評価を含むことができる教師データを用いて学習することができる。学習装置は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが中間層の重み係数の調整に影響を与えないようにする。このため、正評価又は負評価のラベルについては認識部の精度向上を図ることができるとともに、無視評価のラベルに関しては認識部の精度に影響を及ぼさないようにすることができる。入力データには必ず正評価又は負評価が付与されていなければならないという従来の枠組みにおいては、不完全なラベルの評価を推定などにより完全なラベルの評価に近づけるというアプローチが採用されていた。これに対して、無視評価という新たな評価を導入することにより、不完全な評価のうち正しく付与された評価のみを用いて学習するという新たなアプローチを採用することができるため、誤った評価に基づいて学習が行われることを回避することができる。
 本発明の他の側面に係る教師データ作成装置は、複数のラベルを用いて認識対象データを分類するニューラルネットワークを誤差逆伝搬法によって学習する学習装置のための教師データを作成する教師データ作成装置である。この装置は、入力データ取得部、評価取得部及び教師データ作成部を備える。入力データ取得部は、入力データを取得する。評価取得部は、入力データ取得部により取得された入力データに関して、ラベルごとに、入力データの内容がラベルに合致することを示す正評価、入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得する。教師データ作成部は、入力データ取得部により取得された入力データと評価取得部により取得されたラベルごとの評価とを関連付けることにより、教師データを作成する。
 上述したとおり、教師有り学習においては全てのラベルの正解値が必要であるため、教師データの作成にコストがかかる。特にマルチラベルの場合には、シングルラベルの場合のように、あるラベルが正評価であれば他のラベルは負評価になるという関係性がないことから、全てのラベルについて、正評価又は負評価の何れかを付与する必要がある。さらに、教師データの作成は、人(アノテータ)が行うことがある。アノテータは、ラベルについての評価に自信が有る無しにかかわらず、教師データ作成のためにラベルの評価を下す必要がある。このため、誤った評価に基づいて学習が行われる可能性がある。これに対して、この教師データ作成装置では、正評価、負評価及び無視評価の何れかラベルの評価としてラベルごとに取得されて、教師データが作成される。つまり、この教師データ作成装置では、教師データに「正評価」及び「負評価」に加えて「無視評価」という新たな評価を含ませることができる。無視評価という新たな評価を導入することにより、不完全な評価のうち正しく付与された評価のみを用いて学習するという新たなアプローチを採用することができるため、誤った評価に基づいて学習が行われることを回避することができる。
 本発明の他の側面に係る学習方法は、複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習する学習方法である。学習方法は、教師データ取得ステップ、入力データ取得ステップ、演算ステップ、出力ステップ及び誤差逆伝搬ステップを備える。教師データ取得ステップでは、入力データと入力データに予め関連付けられたラベルごとの評価とを含む教師データを取得する。入力ステップでは、入力層が、教師データ取得ステップで取得された教師データに含まれる入力データをスコアとして取得する。演算ステップでは、中間層が、入力ステップで取得されたスコアを、重み係数を用いて演算する。出力ステップでは、出力層が、演算ステップで演算されたスコアを用いて、ラベルごとの認識スコアを出力する。誤差逆伝搬ステップでは、出力ステップで出力されたラベルごとの認識スコアとラベルごとの評価の正解スコアとを用いて中間層の重み係数を調整する。入力データには、入力データの内容がラベルに合致することを示す正評価、入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つがラベルごとに関連付けられている。誤差逆伝搬ステップでは、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが中間層の重み係数の調整に影響を与えないようにする。
 この学習方法の効果は、上述した学習装置の効果と同一である。
 本発明の他の側面に係る教師データ作成方法は、複数のラベルを用いて認識対象データを分類するニューラルネットワークを誤差逆伝搬法によって学習する学習装置のための教師データを作成する教師データ作成方法である。この方法は、入力データ取得ステップ、評価取得ステップ及び教師データ作成ステップを備える。入力データ取得ステップでは、入力データを取得する。評価取得ステップでは、入力データ取得ステップにより取得された入力データに関して、ラベルごとに、入力データの内容がラベルに合致することを示す正評価、入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得する。教師データ作成ステップでは、入力データ取得ステップで取得された入力データと評価取得ステップで取得されたラベルごとの評価とを関連付けることにより、教師データを作成する。
 この教師データ作成方法の効果は、上述した教師データ作成装置の効果と同一である。
 本発明の他の側面に係る学習プログラムは、複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習するようにコンピュータを動作させる学習プログラムである。学習プログラムは、コンピュータを、教師データ取得部、入力層、中間層、出力層及び誤差逆伝搬部として機能させる。教師データ取得部は、入力データと入力データに予め関連付けられたラベルごとの評価とを含む教師データを取得する。入力データには、入力データの内容がラベルに合致することを示す正評価、入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つがラベルごとに関連付けられている。入力層は、教師データ取得部により取得された教師データに含まれる入力データをスコアとして取得する。中間層は、入力層が取得したスコアを、重み係数を用いて演算する。出力層は、中間層が演算したスコアを用いて、ラベルごとの認識スコアを出力する。誤差逆伝搬部は、出力層が出力したラベルごとの認識スコアとラベルごとの評価の正解スコアとを用いて中間層の重み係数を調整する。誤差逆伝搬部は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが中間層の重み係数の調整に影響を与えないようにする。
 この学習プログラムの効果は、上述した学習装置の効果と同一である。
 本発明の他の側面に係る教師データ作成プログラムは、複数のラベルを用いて認識対象データを分類するニューラルネットワークを誤差逆伝搬法によって学習する学習装置のための教師データを作成するようにコンピュータを動作させる教師データ作成プログラムである。教師データ作成プログラムは、コンピュータを、入力データ取得部、評価取得部及び教師データ作成部として機能させる。入力データ取得部は、入力データを取得する。評価取得部は、入力データ取得部により取得された入力データに関して、ラベルごとに、入力データの内容がラベルに合致することを示す正評価、入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得する。教師データ作成部は、入力データ取得部により取得された入力データと評価取得部により取得されたラベルごとの評価とを関連付けることにより、教師データを作成する。
 この教師データ作成プログラムの効果は、上述した教師データ作成装置の効果と同一である。
 本発明の他の側面に係る端末装置は、上述した学習装置と通信可能な端末装置であって、認識対象データを取得する認識対象データ取得部と、学習装置によって学習されたパラメータを用いて、認識対象データの内容を表すラベルを認識対象データに付与する認識部と、認識対象データ取得部により取得された認識対象データに付与するためのプライベートラベルを決定するユーザ操作を受け付ける操作受付部と、操作受付部により受け付けられたユーザ操作に基づいて、プライベートラベルを認識対象データに付与するラベル編集部と、を備える。
 この端末装置は、学習装置の学習結果に基づいて付与されるラベル以外のラベル(プライベートラベル)を付与することができる。このため、この端末装置は、ユーザの利便性を向上させることができる。
 一実施形態において、端末装置は、ラベル編集部により付与されたプライベートラベルの付与日時の履歴、及び、基準日時に基づいて、プライベートラベルをユーザに提示するラベル提示部を備えてもよい。このように構成することで、この端末装置は、ユーザの行動に応じてユーザに対してプライベートラベルを提示することができる。
 一実施形態において、端末装置は、認識対象データの生成時に付与された付随情報に基づいて、プライベートラベルをユーザに提示するラベル提示部を備えてもよい。このように構成することで、この端末装置は、認識対象データの生成時の状況に応じてユーザに対してプライベートラベルを提示することができる。
 一実施形態において、端末装置は、操作受付部は、コメントを付して認識対象データを他人と共有するユーザ操作を受け付け、操作受付部により受け付けられたユーザ操作に基づいて、共有される認識対象データを決定する決定部と、決定部により決定された認識対象データに付されたコメントの内容を解析する解析部と、解析部の解析結果に基づいて、プライベートラベルをユーザに提示するラベル提示部を備えてもよい。このように構成することで、この端末装置は、ユーザにより付与されたコメントに応じてユーザに対してプライベートラベルを提示することができる。
 一実施形態において、端末装置は、言語サーバと通信可能に構成され、付与されたプライベートラベルのリストを言語サーバへ出力するリスト出力部と、言語サーバから代表ラベルと付与されたプライベートラベルとの関係を取得する関係取得部と、関係取得部により取得された関係に基づいて、プライベートラベルを代表ラベルへ修正することをユーザに推奨する推奨部と、を有し、言語サーバは、端末装置からリストを取得するリスト取得部と、リスト取得部により取得されたリストに基づいて、プライベートラベルをグループに集約する集約部と、集約部により集約されたグループに対して代表ラベルを選択する代表ラベル選択部と、代表ラベル選択部の選択結果に基づいて、代表ラベルと付与されたプライベートラベルとの関係を端末装置へ出力する代表ラベル出力部と、を備えてもよい。このように構成することで、この端末装置は、プライベートラベルを整理することをユーザに促すことができる。
 本発明の他の側面に係る閾値変更装置は、端末装置における閾値を変更する装置である。端末装置は、認識対象データを取得し、ニューラルネットワークによって認識対象データの内容が所定ラベルに合致する度合いを示す認識スコアを出力し、認識スコアと認識スコアに対して予め設定された閾値とを用いて認識対象データの内容が所定ラベルに合致するか否かを示す認識結果を出力する。閾値変更装置は、評価データ取得部、端末データ取得部、認識スコア取得部、算出部及び変更部を備える。評価データ取得部は、入力データと、入力データに関連付けられ、入力データの内容が所定ラベルに合致する正評価であるか入力データの内容が所定ラベルに合致しない負評価であるかを示す所定ラベルの正解評価と、を含む評価データを取得する。端末データ取得部は、端末装置に関連付けられたデータの正評価及び負評価の比を取得する。認識スコア取得部は、ニューラルネットワーク(例えば認識用のニューラルネットワーク)又は当該ニューラルネットワークの重み係数と同一の重み係数を有するニューラルネットワーク(例えば学習用のニューラルネットワーク)から、入力データに関する所定ラベルの認識スコアを取得する。算出部は、認識スコア取得部により取得された所定ラベルの認識スコアと、閾値を用いて、正解評価が正評価の入力データが正評価として認識されたデータ数、及び、正解評価が負評価の入力データが正評価として認識されたデータ数を算出し、算出されたデータ数を用いて所定ラベルに関する適合率を算出する。変更部は、算出部により算出された適合率を用いて閾値を変更する。算出部は、正解評価が負評価の入力データが正評価として認識されたデータ数を、評価データの正評価及び負評価の比、及び、端末装置に関連付けられたデータの正評価及び負評価の比を用いて補正し、補正されたデータ数を用いて適合率を算出する。
 この閾値変更装置によれば、負評価の入力データを正評価として認識したデータ数が、評価データの正評価及び負評価の比、及び、端末装置に関連付けられたデータの正評価及び負評価の比を用いて補正される。そして、補正後のデータ数を用いて算出された所定ラベルに関する適合率に基づいて、端末装置によって行われる認識の際に用いられる閾値が変更される。このように、所定ラベルに関する適合率を算出する際に、評価データにおける正負のデータの分布と端末装置における正負のデータの分布とを考慮して、負評価の入力データを正評価として認識したデータ数が補正される。このため、例えば、評価データにおける正負のデータの偏りを打ち消した上で端末装置における正負のデータの偏りを、データ数に反映させることができる。よって、評価データにおける正負のデータに偏りが存在し、端末装置における正負のデータの偏りと差異が生じている場合であっても、この装置は、端末装置に合わせた適切な評価を行うことができるので、結果として端末装置に合わせて適切に閾値を変更することができる。
 一実施形態において、算出部は、所定ラベルに関する再現率及び適合率を算出してもよい。変更部は、閾値を再現率及び適合率の調和平均が最大となる認識スコアへ変更してもよい。この場合、この装置は、再現率及び補正された適合率を用いて閾値を変更することができる。
 一実施形態において、端末データ取得部は、端末装置のニューラルネットワークの認識結果、又は、端末装置のユーザによるアノテーションの結果に基づいて、端末装置に関連付けられたデータの正評価及び負評価の比を取得してもよい。この場合、この装置は、端末装置における正負のデータの偏りを実際のデータに基づいて取得することができる。
 一実施形態において、端末データ取得部は、端末装置のユーザの操作又は端末情報に基づいて、端末装置に関連付けられたデータの正評価及び負評価の比を取得してもよい。この場合、この装置は、端末装置における正負のデータの偏りを予測して取得することができる。
 本発明の他の側面に係る閾値変更装置は、端末装置における閾値を変更する装置である。端末装置は、認識対象データを取得し、ニューラルネットワークによって認識対象データの内容が所定ラベルに合致する度合いを示す認識スコアを出力し、認識スコアと認識スコアに対して予め設定された閾値とを用いて認識対象データの内容が所定ラベルに合致するか否かを示す認識結果を出力する。閾値変更装置は、端末データ取得部、記憶部及び変更部を備える。端末データ取得部は、端末装置に関連付けられたデータの正評価及び負評価の比を取得する。記憶部は、比と閾値との関係性を記憶する。変更部は、記憶部に記憶された関係性、及び、端末データ取得部により取得された比を用いて閾値を変更する。
 この閾値変更装置によれば、予め記憶された比と閾値との関係性と、端末データ取得部により取得された比とを用いて閾値が変更される。このように、予め記憶された比と閾値との関係性を用いることで、閾値変更のための演算負荷を軽減することができる。
 本発明の種々の側面によれば、誤った評価に基づいて学習が行われることを回避することができる。
認識部を説明する図である。 認識部におけるニューラルネットワークを説明する図である。 図2に示す人工ニューロンを説明する図である。 実施形態に係る学習システムの機能ブロック図である。 図4に示す装置のハードウェア構成を示すブロック図。 教師データの一例である。 学習用認識部におけるニューラルネットワークを説明する図である。 実施形態に係る教師データ作成方法のフローチャートである。 実施形態に係る学習方法のフローチャートである。 第2実施形態に係る端末装置の機能ブロック図である。 付与ラベル記憶部に記憶されたデータの一例である。 プライベートラベルの付与方法を示すフローチャートである。 第3実施形態に係る端末装置の機能ブロック図である。 プライベートラベルの選択処理を説明する表である。 プライベートラベルの提示方法を示すフローチャートである。 プライベートラベルの他の提示方法を示すフローチャートである。 第4実施形態に係る端末装置の機能ブロック図である。 プライベートラベルの他の提示方法を示すフローチャートである。 第5実施形態に係る学習システム及び端末装置の機能ブロック図である。 プライベートラベルの修正推奨方法を示すフローチャートである。 プライベートラベルの階層化構造を示す図である。 認識スコアの閾値を説明するグラフである。 第6実施形態に係る学習システム及び端末装置の機能ブロック図である。 評価データにおけるデータの偏りを説明する図である。 閾値変更処理を示すフローチャートである。 第7実施形態に係る端末装置の機能ブロック図である。 閾値変更処理を示すフローチャートである。
 以下、添付図面を参照して本発明の実施形態について説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
[第1実施形態]
 実施形態に係る学習システム100(図4参照)は、認識対象データの内容を認識する認識部11(図1参照)のパラメータを学習するシステムである。認識対象データとは、コンピュータに認識させる対象となるデータであり、例えば、画像データ、音声データ、テキストデータなどである。認識部11のパラメータは、認識対象データを認識する認識処理に用いられる値である。以下では、一例として、認識対象データが画像データであり、認識する対象が画像の内容(人、動物、物体、風景、室内など)である場合を説明する。
 最初に、認識部11を説明する。図1は、認識部11を説明する図である。図1に示すように、認識部11は、端末装置10に備わる。認識部11は、画像データである認識対象データG1を入力し、認識結果を出力する。図1の(A)に示すように、認識対象データG1は、犬が描画された画像の画像データである。認識部11は、画像データ(より詳細には画素値)を入力し、学習済みのパラメータを用いて画像の内容を表すラベルを出力する。ラベルとは、認識対象データの内容を分類するために用いるものであり、システム利用者によって予め設定されたカテゴリを識別する情報である。図1の(A)の場合、認識部11は認識結果として「犬」のラベルを出力する。ラベルは、認識部11によって認識対象データG1に付与される。付与とは、関連付けされることを意味し、例えば関連テーブルなどで認識対象データG1とラベルとの関係性のみが記録されてもよいし、認識対象データG1そのものに組み込まれてもよい。一般的に、認識対象データにラベルを付与することをアノテーションという。認識部11は、画像データを入力してラベルを付与することができるため、画像データを自動的に分類したり、Web上で所望の画像を検索したりすることができる。
 システム利用者によって予め設定されたラベルが複数ある場合、その中から最も確からしいラベルを認識対象データに付与するシングルラベル処理と、ある一定の確からしさとなったラベルの全てを認識対象データに付与するマルチラベル処理が存在する。図1の(B)に示すように、認識対象データG2は、人及び花が描画された画像の画像データである。認識部11がシングルラベル処理を行う場合、認識部11によって認識対象データG2に「人」のラベルが付与される。認識部11がマルチラベル処理を行う場合、認識部11によって認識対象データG2に「人」のラベルと「花」のラベルの2つが付与される。本実施形態は、シングルラベル処理及びマルチラベル処理の何れの場合にも採用することができるが、以下では一例として、マルチラベル処理を行う場合を説明する。
 次に、認識部11の詳細について説明する。図2は、認識部11におけるニューラルネットワークを説明する図である。認識部11は、ニューラルネットワークを用いて画像データに対応するラベルを認識する。ニューラルネットワークとは、脳神経系をモデルにした情報処理システムである。図2に示すように、認識部11のニューラルネットワークは、いわゆる階層型ニューラルネットワークであり、円で示す多数の人工ニューロンが階層を形成しつつ連結されている。階層型ニューラルネットワークは、入力用の人工ニューロン、処理用の人工ニューロン及び出力用の人工ニューロンを備える。
 入力用の人工ニューロンは、認識対象データを取得して処理用の人工ニューロンへ分配する。以下では、ニューラルネットワークでやり取りされる信号そのものをスコアという。スコアは数値である。入力用の人工ニューロンは、並列配置されることで入力層111を形成する。
 処理用の人工ニューロンは、入力用の人工ニューロンに接続され、人工ニューロンの機能にしたがって入力を処理し、出力を他のニューロンへ伝える。処理用の人工ニューロンは、並列配置されることで中間層112を形成する。中間層112は、複数の層であってもよい。なお、中間層112を備えた3階層以上のニューラルネットワークをディープニューラルネットワークという。
 出力用の人工ニューロンは、外部へ認識スコアを出力する。出力用の人工ニューロンは、ラベルの数と同じ数だけ用意される。つまり、ニューラルネットワークでは、ラベルごとに認識スコアを出力する。図2の例では、「犬」「人」「花」の3つのラベルに合わせて3つの人工ニューロンが用意されている。出力用の人工ニューロンは、「犬」のラベルに対応する認識スコアB1、「人」のラベルに対応する認識スコアB2、「花」のラベルに対応する認識スコアB3を出力する。認識スコアは、認識の確からしさを表すスコアであり、正評価を「1」、負評価を「0」として学習した場合には、ラベルの認識スコアが高いほど画像の内容を示すラベルである確からしさが高くなる。出力用の人工ニューロンは、並列配置されることで出力層113を形成する。
 認識部11は、出力層113によって出力された認識スコアを用いて、付与ラベルを決定する。例えば、認識部11は、所定値以上の認識スコアに対応するラベルを認識対象データに付与する。これにより、認識対象データにその内容を示すラベルが自動的に付与される。なお、シングルラベル処理の場合には、認識部11は、最も高い認識スコアに対応するラベルを認識対象データに付与する。
 図3は、図2に示す人工ニューロンを説明する図である。図3の(A)に示す人工ニューロンは、x,x,xを入力し、それぞれに対応する重み係数w1,w,wをそれぞれ積算する。人工ニューロンは、積算値(x・w1,x・w,x・w)とバイアス値bとの総和を算出する。この総和を活性化関数に代入して、人工ニューロンの出力とする。
 より詳細には、対象の人工ニューロンの出力は、以下の数式となる。
Figure JPOXMLDOC01-appb-M000001
ここで、gは活性化関数であり、例えばシグモイド関数である。
 図3の(B)は、N階層(N=3)の人工ニューロンを説明する図である。図3の(B)に示されるように、3階層の場合には、2階層に位置する人工ニューロンの出力h (2)、h (2)、h (2)はそれぞれ以下の数式3~5となる。ここで、nは対象階層の人工ニューロンの数、w1j (1)は2階層1番目の人工ニューロンにおける1階層j番目の出力に対応する重み係数、b (1)は1階層のバイアス値である。
Figure JPOXMLDOC01-appb-M000002
2j (1)は2階層2番目の人工ニューロンにおける1階層j番目の出力に対応する重み係数、w3j (1)は2階層3番目の人工ニューロンにおける1階層j番目の出力に対応する重み係数、b (1)は1階層2番目のバイアス値、b (1)は1階層3番目のバイアス値である。これにより、3階層の人工ニューロンの出力h (3)は以下の数式6で表される。
Figure JPOXMLDOC01-appb-M000003
なお、バイアス値bは必ずしも必要ではなく、前段の人工ニューロンの出力と重み係数との積算値だけで出力を演算してもよい。
 人工ニューロンは上記に限定されるものではなく、一般化したものでもよい。i番目の中間層112の機能に関する一般式は以下の数式7となる。
Figure JPOXMLDOC01-appb-M000004
ここで、x(i)は中間層112への入力ベクトル、w(i) は中間層112の重みパラメータベクトル、b(i) はバイアスベクトル、v(i) は中間層112の出力ベクトルである。画像認識で一般的に使用される中間層112の一例として、全結合層及び畳み込み層がある。図3で表現されている全結合層の出力は、一般的には以下の数式8となる。
Figure JPOXMLDOC01-appb-M000005
ここで、x (i) はi番目の中間層112の出力の第p成分、v (i)は中間層112の出力の第q成分、wp,q (i) は中間層112の重み係数のp,q成分である。また、畳み込み層の出力は以下の数式9となる。
Figure JPOXMLDOC01-appb-M000006
ここで、xp,(r,s) (i) はi番目の中間層112の入力の第pチャンネルの(r,s)成分、vq,(r,s) (i)は中間層112の出力の第qチャンネルの(r,s)成分、wp,q,(r’,s’) (i)は中間層112の畳み込みフィルタに関する重み係数である。r’,s’は、0から畳み込みフィルタの(幅-1)、(高さ-1)の値まで変化する。以上のような中間層112及び活性化関数g(i)の計算を繰り返すことにより、出力層113直前の中間層の出力が以下の数式10となる。
Figure JPOXMLDOC01-appb-M000007
 上述した重み係数及びバイアス値は、後述する学習システム100で学習され、認識部11へ配布されたものである。つまり、学習システム100は、認識対象データの特徴量とその内容を示すラベルとを対応させるための重み係数及びバイアス値を学習するシステムである。なお、認識部11がバイアス値bを用いない場合には、学習システム100は、重み係数のみを学習する。
 図4は、実施形態に係る学習システム100の機能ブロック図である。学習システム100は、画像データを収集して学習し、端末装置10へ学習した重み係数及びバイアス値を提供する。学習システム100は、画像データを格納したデータベース21、画像データを生成するカメラ22、画像データをダウンロード可能なWebサイト23などに接続されており、学習の入力データとなる画像データを取得することができる。もちろん、学習システム100は、外部記憶媒体を接続して画像データを取得してもよいし、通信を介して画像データを受信してもよく、画像データ取得の態様には限定されない。
 最初に、端末装置10、並びに、学習システム100が備える教師データ作成装置30及び学習装置40のハードウェアについて説明する。図5は、図4に示す装置のハードウェア構成を示すブロック図である。図5に示すように、端末装置10は、物理的には、CPU(Central Processing Unit)101、RAM(Random Access Memory)102及びROM(Read Only Memory)103などの主記憶装置、タッチパネルやキーボードなどの入力デバイス104、ディスプレイなどの出力デバイス105、ハードディスクなどの補助記憶装置106などを含む通常のコンピュータシステムとして構成される。端末装置10の各機能は、CPU101が、RAM102、ROM103などのハードウェア上に所定のコンピュータソフトウェアを読み込ませ、CPU101の制御の元で入力デバイス104及び出力デバイス105を動作させるとともに、主記憶装置や補助記憶装置106におけるデータの読み出し及び書き込みを行うことで実現される。
 教師データ作成装置30及び学習装置40のハードウェアも端末装置10と同一のハードウェアで構成可能である。すなわち、教師データ作成装置30は、物理的には、CPU301、RAM302及びROM303などの主記憶装置、入力デバイス304、出力デバイス305、補助記憶装置306などを含む通常のコンピュータシステムとして構成される。学習装置40は、物理的には、CPU401、RAM402及びROM403などの主記憶装置、入力デバイス404、出力デバイス405、補助記憶装置406などを含む通常のコンピュータシステムとして構成される。
 次に、学習システム100の機能について説明する。図4に示すように、学習システム100は、教師データ作成装置30及び学習装置40を備える。教師データ作成装置30は、学習装置40が学習する際に利用する教師データを作成し、学習装置40へ提供する。教師データとは、処理対象データと認識対象が同一のデータと、当該データに対応するラベルの評価とを含む。教師データ作成装置30は、入力データ取得部31、評価取得部32、受付部33及び教師データ作成部34を備える。
 入力データ取得部31は、入力データを取得する。入力データ取得部31は、データベース21、カメラ22、Webサイト23、外付け記憶媒体などから学習の入力データを取得する。入力データとは、学習に用いるデータであり、処理対象データと認識対象が同一のデータである。ここでは入力データは画像データである。入力データは、予め設定された複数のラベルの評価をする対象となるデータである。入力データは、幾つかのラベルの評価が既になされていてもよいし、全くなされていなくてもよい。つまり、入力データには既に何らかのラベルが付与されていてもよい。ここでは、入力データは、付与するか否かの判断がなされていないラベルを少なくとも含む。
 評価取得部32は、入力データ取得部31により取得された入力データに関して、ラベルごとに、入力データの内容がラベルに合致することを示す「正評価」、入力データの内容がラベルに合致しないことを示す「負評価」、及び、学習対象ラベルから除外することを示す「無視評価」の何れか1つを取得する。あるラベルの評価が正評価である場合、入力データの内容はラベルが示すカテゴリに属することを意味する。あるラベルの評価が負評価である場合、入力データの内容はラベルが示すカテゴリに属さないことを意味する。あるラベルの評価が無視評価である場合、当該ラベルについては学習対象ラベルから除外することを意味する。このように、評価取得部32は、「正評価」「負評価」だけでなく「無視評価」を取得対象の選択肢に含んでいる。
 評価取得部32は、ラベルの評価として、人であるアノテータが判断した内容を取得する。図4に示すように、教師データ作成装置30は、ラベルの評価を指定するユーザ操作を受け付ける受付部33を備える。ユーザ操作とは、アノテータの操作のことである。より具体的な一例としては、ユーザ操作は、あるラベルに対して「正評価」「負評価」及び「無視評価」の何れか1つを選択する操作、又は、あるラベルに対して2つの評価を排除する操作である。受付部33は、ユーザ操作に関する信号を評価取得部32へ取得する。評価取得部32は、受付部33により受け付けられたユーザ操作によって指定されるラベルの評価を取得する。
 ユーザ操作には、端末装置10のユーザによる操作が含まれてもよい。例えば、ユーザが実際に認識部11を動作させた後、評価を決定するユーザ操作を行う。端末装置10は、ユーザ操作と入力データとを教師データ作成装置30へ送信する。評価取得部32は、取得したユーザ操作に基づいて入力データのラベルの評価を決定する。このように、認識部11を使用するユーザが、結果をフィードバックすることができるため、再学習を行うことで認識部11の精度が向上する。つまり、このように構成することで、ユーザ介在型のインタラクティブな学習を実現することができ、学習の精度を向上させることができる。
 また、評価取得部32は、入力データに既に関連付けられているラベルの評価をそのまま取得してもよい。例えば、ラベル「犬」に関する教師データが存在している場合には、その入力データにはラベル「犬」に関して、既に「正評価」「負評価」及び「無視評価」の何れか1つが関連付けされている。評価取得部32は、ラベルの評価がある場合には、その評価を利用し、未評価のラベルに対して上述したユーザ操作を受け付けて評価を決定するようにしてもよい。このように構成することで、例えば、既存の教師データを用いて新たな教師データを容易に作成することができる。
 教師データ作成部34は、入力データ取得部31により取得された入力データと評価取得部32により取得されたラベルごとの評価とを関連付けることにより、教師データを作成する。教師データ作成部34は、入力データとラベルごとの評価とを一つのデータにして教師データとしてしてもよいし、テーブルを用いて入力データとラベルごとの評価とを関連付けてもよい。
 図6は、教師データの一例である。図6の(A)に示すように、入力データT1~TN(Nは自然数)それぞれに複数のラベルが関連付けられている。ここでは入力データT1~TNにそれぞれ3つのラベルが関連付けられている。例えば、第1ラベルL1は画像の内容が「犬」であることを示すラベルであり、第2ラベルL2は画像の内容が「人」であることを示すラベルであり、第3ラベルL3は画像の内容が「花」であることを示すラベルである。教師データ作成部34は、入力データごとに全てのラベルの評価を関連付けする。例えば、入力データT1は犬の画像であり、人が写っていないとする。この場合、第1ラベルL1の評価である正がテーブルに記憶され、第2ラベルL2の評価である負がテーブルに記憶される。なお、入力データT3に花が写っているか否か不明な場合、花が写っているか否かの判断がなされていない場合(評価取得部32により評価を取得できない場合)などにおいては無視評価とされ、第3ラベルL3の評価である無視がテーブルに記憶される。このように、入力データT1~TNそれぞれに関して、各ラベルの評価が関連付けられている。なお、正評価を「1」、負評価を「0」など、スコアで表示してもよい。このような入力データの評価を示すスコアを正解スコアという。図6の(B)は、図6の(A)に示すテーブルをスコアで表示したものである。無視評価については、アスタリスクとして入力データに関連付けられる。
 また、教師データ作成部34は、評価取得部32により取得されたラベルの評価を入力データ取得部31により取得された入力データと関連付ける前に、入力データの全てのラベルの評価を無視評価にしてもよい。つまり、教師データ作成部34は、デフォルト設定として全てのラベルを無視評価としておき、評価を取得できたものについて無視評価から正評価又は負評価へ変更する。教師データ作成部34は、作成した教師データを学習装置40へ提供する。例えば、教師データ作成部34の出力を記録媒体に記憶し、記憶媒体を学習装置40に読み込ませてもよいし、教師データ作成部34から通信を介して学習装置40へ送信してもよい。
 学習装置40は、教師データ取得部41、学習用認識部42及び誤差逆伝搬部43を備えている。教師データ取得部41は、教師データ作成装置30が作成した教師データを取得する。
 学習用認識部42は、認識部11と同一の構成を有しており、入力層111、中間層112及び出力層113を備える。入力層111は、教師データ取得部41により取得された教師データに含まれる入力データをスコアとして取得する。中間層112は、入力層111が取得したスコアを、重み係数を用いて演算する。出力層113は、中間層112が演算したスコアを用いて、ラベルごとの認識スコアを出力する。
 誤差逆伝搬部43は、出力層113が出力したラベルごとの認識スコアと、ラベルごとの評価の正解スコアとを用いて中間層112の重み係数を調整する。図7は、学習用認識部42におけるニューラルネットワークを説明する図である。図7に示すように、誤差逆伝搬部43は、認識スコアB1~B3とラベルごとの正解スコアY1~Y3とが近づくように中間層112の重み係数を調整する。例えば、誤差逆伝搬部43は、認識スコアB1~B3とラベルごとの正解スコアY1~Y3との差分を算出する。正解スコアY1~Y3については、正評価であれば「1」、負評価であれば「0」となる。誤差逆伝搬部43は、認識スコアB1~B3とラベルごとの正解スコアY1~Y3との差分が小さくなるように、上述した重み係数w,w,w及びバイアス値bを調整する。なお、「差分が小さくなる」とは、誤差が所定値以下となること、あるいは、調整後の方が調整前に比べて差分が小さくなることをいう。
 誤差逆伝搬部43は、差分が最も小さくなる重み係数w,w,w及びバイアス値bを勾配法によって決定する。このような手法は、誤差逆伝搬法とも呼ばれる。誤差逆伝搬部43は、例えば二乗誤差の最小値を勾配法により決定する。誤差逆伝搬部43は、重み係数w,w,w及びバイアス値bの更新、ニューラルネットワークの入力から出力、そして、二乗誤差の算出までを1セットとして繰り返し実行する。二乗誤差の変動が所定値以下となった場合に、繰り返し処理を終了し、当該入力データの学習を終了する。
 なお、誤差逆伝搬部43は、認識スコアB1~B3とラベルごとの正解スコアY1~Y3との差分を必ずしも用いる必要ない。例えば、正解スコアに対応する尤度を計算してもよい。尤度は大きいほど当該ラベルが正解に近いことを意味する。誤差逆伝搬部43は、尤度が大きくなる方向に重み係数を調整する。
 誤差逆伝搬の一般式は、出力層113で算出される誤差関数(二乗誤差、対数尤度関数など)をE(x)とすると以下の数式11となる。
Figure JPOXMLDOC01-appb-M000008
ここで、w (i) は第i層の重み係数のj成分、h (i)は、i番目の中間層112の出力ベクトルの第k成分、g’(i)は活性化関数の微分である。バイアス値bについても同様の手法で計算することができる。
 上述した数式11及び重み更新に関するパイパーパラメータεを用いて、各中間層112は以下の数式12のように更新される。
Figure JPOXMLDOC01-appb-M000009
なお、上述した数式11のうち、以下に示す項については、第i層のみからでは算出できないため、第i+1層の値を用いた計算が必要になる。
Figure JPOXMLDOC01-appb-M000010
具体的には、以下の計算となる。
Figure JPOXMLDOC01-appb-M000011
このように出力層に近い側の計算結果から、入力側に誤差を伝播させる形で計算を行うため、誤差逆伝搬と呼ばれる。
 ここで、誤差逆伝搬部43は、無視評価のラベルの認識スコアが中間層の重み係数の調整に影響を与えないようにする。「中間層の重み係数の調整に影響を与えない」とは、無視評価のラベルの認識スコアを入力しても入力しなくても重み係数の調整に差がないことを意味する。例えば、誤差逆伝搬部43は、無視評価の正解スコアを無視評価のラベルの認識スコアと同じ値に設定する。これにより、認識スコアと正解スコアとの差分が0となるため、無視評価のラベルに関して、重み係数w,w,w及びバイアス値bが変更されることはない。あるいは、誤差逆伝搬部43は、無視評価の正解スコアと無視評価のラベルの認識スコアとの差分の微分値を0に変更してもよい。つまり、二乗誤差の評価式において無視評価のラベルについては二乗誤差が最小値をとることにする。これにより、認識スコアと正解スコアとの差分が0となるため、無視評価のラベルに関して、重み係数w,w,w及びバイアス値bが変更されることはない。あるいは、別途の層をニューラルネットワークに設け、無視評価のラベルに関するニューラルネットワークの接続を遮断してもよい。これにより、逆伝搬そのものを直接的に無効化することができる。
 次に、学習システム100の動作について説明する。最初に、教師データ作成装置30の動作について説明する。図8は、実施形態に係る教師データ作成方法のフローチャートである。図8に示すフローチャートは、一つの教師データを作成する度に実行される。
 最初に、教師データ作成装置30の入力データ取得部31は、入力データ取得処理(S10:入力データ取得ステップ)として、入力データを取得する。以下では、入力データ取得部31が入力データT3を取得した場合を例に説明する。次に、教師データ作成装置30の評価取得部32は、評価取得処理(S12:評価取得ステップ)として、入力データ取得処理(S10)で取得された入力データT3に関して、ラベルごとに「正評価」「負評価」及び「無視評価」の何れか1つを取得する。例えば、評価取得部32は、画像の内容が「犬」であることを示す第1ラベルL1の評価として「負評価」、画像の内容が「人」であることを示す第2ラベルL2の評価として「無視評価」、画像の内容が「花」であることを示す第3ラベルL3の評価として「無視評価」を取得する。なお、評価取得部32は、受付部33によって受け付けられたユーザ操作を用いて評価を取得してもよい。
 次に、教師データ作成装置30の教師データ作成部34は、教師データ作成処理(S14:教師データ作成ステップ)として、入力データ取得処理(S10)で取得された入力データと評価取得処理(S12)で取得されたラベルごとの評価とを関連付けることにより、教師データを作成する。これにより、図6の(A)に示すように、入力データT3と、「負」「無視」「無視」とが関連付けられ、一つの教師データとなる。S14の処理が終了すると、図8に示す処理を終了する。
 次に、学習装置40の動作について説明する。図9は、実施形態に係る学習方法のフローチャートである。図9に示すフローチャートは、一つの教師データを用いた学習の流れを示している。
 最初に、学習装置40の教師データ取得部41は、教師データ取得処理(S20:教師データ取得ステップ)として、教師データを取得する。次に、学習装置40の入力層111は、入力処理(S22:入力ステップ)として、教師データに含まれる入力データを取得する。次に、学習装置40の中間層112は、演算処理(S24:演算ステップ)として、人工ニューロンの機能に基づく演算を行う。そして、学習装置40の出力層113は、出力処理(S26:出力ステップ)として、ラベルごとの認識スコアを出力する。次に、学習装置40の誤差逆伝搬部43は、正解スコアの入力処理(S28:正解スコア入力ステップ)として、教師データ取得処理(S20)で取得したラベルごとの正解スコアを入力する。次に、誤差逆伝搬部43は、逆伝搬処理(S30:誤差逆伝搬ステップ)として、S301~S304までの処理を実行する。
 誤差逆伝搬部43は、無視評価判定処理(S301)として、正解スコアの入力処理(S28)で入力した正解スコアに無視評価が含まれているか否かを判定する。例えば、図6の(B)に示す入力データT1が学習対象であるとする。図6の(B)に示すように、入力データT1に対応する第3ラベルL3は、無視評価を示す「アスタリスク」となっている。この場合、誤差逆伝搬部43は、無効化処理(S302)を行う。誤差逆伝搬部43は、無効化処理(S302)として、出力処理(S26)で出力した認識スコアを、無視評価判定処理(S301)で判定した無視評価の正解スコアとする。例えば、入力データT1が学習対象の場合、第3ラベルL3の正解スコアに認識スコアB3を代入する。
 無効化処理(S302)が終了した場合、又は、無視評価判定処理(S301)で正解スコアに無視評価が含まれていないと判定された場合、誤差逆伝搬部43は、誤差演算処理(S303)を行う。誤差逆伝搬部43は、誤差演算処理(S303)の一例として、出力処理(S26)で出力した認識スコアと正解スコアとの差分を算出する。そして、誤差逆伝搬部43は、調整処理(S304)として、誤差の評価関数が最小値となるように、重み係数w,w,w及びバイアス値bを調整する。調整処理(S304)が終了すると、図9に示す学習処理が終了する。
 次に、教師データ作成装置30として機能させるための教師データ作成プログラム、及び、学習装置40として機能させるための学習プログラムを説明する。教師データ作成プログラムは、メインモジュール、入力データ取得モジュール、評価取得モジュール、受付モジュール及び教師データ作成部モジュールを備えている。メインモジュールは、装置を統括的に制御する部分である。入力データ取得モジュール、評価取得モジュール、受付モジュール及び教師データ作成モジュールを実行させることにより実現される機能は、上述した教師データ作成装置30の入力データ取得部31、評価取得部32、受付部33及び教師データ作成部34の機能とそれぞれ同様である。
 学習プログラムは、メインモジュール、教師データ取得モジュール、学習用認識モジュール及び誤差逆伝搬モジュールを備えている。メインモジュールは、装置を統括的に制御する部分である。教師データ取得モジュール、学習用認識モジュール及び誤差逆伝搬モジュールを実行させることにより実現される機能は、上述した学習装置40の教師データ取得部41、学習用認識部42及び誤差逆伝搬部43の機能とそれぞれ同様である。
 教師データ作成プログラム及び学習プログラムは、例えば、ROM又は半導体メモリなどの非一時的な記録媒体によって提供される。また、教師データ作成プログラム及び学習プログラムは、ネットワークなどの通信を介して提供されてもよい。
 以上、本実施形態に係る学習システム100では、教師データ作成装置30により、正評価、負評価及び無視評価の何れか1つがラベルの評価としてラベルごとに取得されて、教師データが作成される。つまり、この学習システム100では、「正評価」及び「負評価」に加えて「無視評価」という新たな評価を含むことができる教師データを用いて学習することができる。学習装置40は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように中間層112の重み係数を調整し、かつ、無視評価のラベルの認識スコアが中間層112の重み係数の調整に影響を与えないようにする。このため、正評価又は負評価のラベルについては認識部11の精度向上を図ることができるとともに、無視評価のラベルに関しては認識部11の精度に影響を及ぼさないようにすることができる。入力データには必ず正評価又は負評価が付与されていなければならないという従来の枠組みにおいては、不完全なラベルの評価を推定などにより完全なラベルの評価に近づけるというアプローチが採用されていた。これに対して、無視評価という新たな評価を導入することにより、不完全な評価のうち正しく付与された評価のみを用いて学習するという新たなアプローチを採用することができるため、誤った評価に基づいて学習が行われることを回避することができる。また、無視評価を用いることで、特定のラベルのみ学習を強化することもできる。
 また、本実施形態に係る学習システム100では、無視評価のラベルについても逆伝搬は行われるものの、中間層112の重み係数w,w,w及びバイアス値bは無調整となる。よって、ニューラルネットワークの構成や誤差逆伝搬部43による逆伝搬の数式を変更することなく、無視評価のラベルに関する逆伝搬を無効化することができる。
 また、本実施形態に係る学習システム100では、未評価のラベルについて、正評価か負評価を無理に設定することなく学習することができる。
 また、本実施形態に係る学習システム100では、ユーザが評価を変更又は追加することができる構成とすることで、誤った評価に基づいて学習が行われることを回避することができるだけでなく、正しい評価に基づいて学習を行うことができ、結果として認識部11の精度を向上させることができる。
 また、本実施形態に係る学習システム100では、デフォルト設定として全てのラベルを無視評価としておき、評価を取得できたものについて無視評価から正評価又は負評価へ変更することができる。つまり、アノテータが作業する場合に、無視評価を明示的に指示する手間を省くことができる。
 上述したとおり、教師有り学習においては全てのラベルの正解値が必要であるため、教師データの作成にコストがかかる。特にマルチラベルの場合には、シングルラベルの場合のように、あるラベルが正評価であれば他のラベルは負評価になるという関係性がないことから、全てのラベルについて、正評価又は負評価の何れかを付与する必要がある。さらに、教師データの作成は、人(アノテータ)が行うことがある。アノテータは、ラベルについての評価に自信が有る無しにかかわらず、教師データ作成のためにラベルの評価を下す必要がある。このため、誤った評価に基づいて学習が行われる可能性がある。これに対して、本実施形態に係る教師データ作成装置30では、では、正評価、負評価及び無視評価の何れかラベルの評価としてラベルごとに取得されて、教師データが作成される。つまり、この教師データ作成装置30では、教師データに「正評価」及び「負評価」に加えて「無視評価」という新たな評価を含ませることができる。無視評価という新たな評価を導入することにより、不完全な評価のうち正しく付与された評価のみを用いて学習するという新たなアプローチを採用することができるため、誤った評価に基づいて学習が行われることを回避することができる。
 以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
 上述した実施形態では、認識対象データが画像データである場合を一例として説明したが、認識対象データは、音声データや文字データであってもよい。このようなデータを対象とした場合であっても、誤った評価に基づいて学習が行われることを回避することができる。
 上述した実施形態では、正評価を「1」、負評価を「0」として学習した場合を一例として説明したが、任意の値を設定することができる。例えば、正評価を「0」、負評価を「1」としてもよく、正評価を「2」、負評価を「1」としてもよい。
 上述した実施形態において、教師データ作成装置30及び学習装置40が一つの装置として構成されていてもよい。
 上述した実施形態において、教師データに優先的に追加するデータを選定してもよい。例えば、教師データ作成装置30は、無視評価のラベルを持つ複数の画像に対して認識を行い、認識スコアが正評価でも負評価でもない中間値となる入力データについて、優先的にアノテーションの情報を取得し、教師データとする。これにより、認識部11によって難しい(情報量の多い)データを優先することができるので、学習効率が高まり、結果としてアノテーションの効率も高めることができる。
 上述した実施形態において、複数のアノテータの評価を平均した評価をラベルの評価としてもよい。このように構成することで、曖昧さの尺度が考慮されるため、誤った評価を減少させて学習することができるので、結果として認識部11の精度を向上させることができる。
 上述した実施形態において、ラベルを階層化してもよい。例えば、大分類のラベルを「A」とし、小分類のラベルを「A1」「A2」「A3」とする。学習装置40は、ラベルAに対する重み係数を小分類のラベルの初期値として採用してもよい。この場合、勾配法の収束効率を高めることができるので、学習時間を短縮することができる。
 上述した実施形態において、教師データ作成部34は、入力データを加工してもよい。例えば、教師データ作成部34は、正規化処理(画像の場合、一定のサイズにリサイズする処理)などを入力データに施してもよい。あるいは、入力層111が入力データを加工する処理をしてもよい。
 上述した実施形態において、端末装置10、教師データ作成装置30及び学習装置40のハードウェア構成は、物理的に一体的に構成されている必要は無く、複数の装置で構成されていてもよい。つまり、複数の装置がネットワークで接続され、仮想的に端末装置10、教師データ作成装置30及び学習装置40を構成していてもよい。
 以下では、更に他の実施形態について概説する。
[第2実施形態]
 第1実施形態においては、端末装置10は、学習システム100によって学習されたラベルを付与する。第1実施形態におけるラベルは、予め設定された内容を表すラベルであって、端末装置10及び学習システム100で共通である。また、ラベルは、複数の端末装置10間で共通であり得る。つまり、第1実施形態におけるラベルは、ユーザなどにより自由に設定されたラベルではない。第2実施形態では、ユーザが自由にラベルを付与することを許容する。以下では、第1実施形態におけるラベルをパブリックラベルといい、ユーザにより自由に設定されたラベルをプライベートラベルという。また、以下では、第1実施形態において説明した内容については説明を省略する。
 図10は、第2実施形態に係る端末装置50の機能ブロック図である。端末装置50は、データ取得部(認識対象データ取得部)51、認識部52、付与ラベル記憶部53、フィードバック部54、操作受付部55及びラベル編集部56を備える。端末装置50のハードウェアは、端末装置10と同一である。
 データ取得部51は、認識対象データを取得する。例えば、データ取得部51は、端末装置50に備わる記憶媒体に記憶された画像データを取得する。データ取得部51は、通信を介して画像データを取得してもよい。
 認識部52は、上述した実施形態における認識部11と同一である。認識部52は、学習装置40によって学習されたパラメータを用いて、認識対象データの内容を表すパブリックラベルを認識対象データに付与する。ここでは、一例として、認識部52は、付与ラベル記憶部53に認識結果を記憶させる。付与ラベル記憶部53は、認識対象データとパブリックラベルとを関連付けて記憶する。
 図11は、付与ラベル記憶部53に記憶されたデータの一例である。図11の(A)に示されるように、付与ラベル記憶部53には、認識対象データとパブリックラベルとが関連付けて記憶されている。一例として、認識対象データは認識対象データIDによって識別可能に構成されている。認識対象データIDは、認識対象データの識別子である。付与ラベル記憶部53には、例えば、認識対象データID「1」とパブリックラベル「花、屋外」とが関連付けて記憶されている。また、付与ラベル記憶部53には、例えば、認識対象データID「2」とパブリックラベル「人物」とが関連付けて記憶されている。また、付与ラベル記憶部53には、例えば、認識対象データID「3」とパブリックラベル「人物、学校、屋内」とが関連付けて記憶されている。また、付与ラベル記憶部53には、例えば、認識対象データID「4」とパブリックラベル「屋内、皿、人物」とが関連付けて記憶されている。
 認識部52は、認識対象データに付随した情報である付随情報を付与ラベル記憶部53にさらに記憶させてもよい。付随情報は、例えば認識対象データの生成の状況などを示す情報である。付随情報は、認識対象データの一部として認識対象データに埋め込まれているか、又は、認識対象データとは別のデータとして、認識対象データの識別子と関連付けて管理されている。認識部52は、認識対象データに基づいて付随情報を取得し、付与ラベル記憶部53にさらに記憶させる。
 付随情報は、一例として、パブリックラベルの信頼度、データ生成時の位置情報、データ生成日時などである。パブリックラベルの信頼度は、パブリックラベルの確からしさを意味する。パブリックラベルの信頼度は、例えば、認識部52によって認識したときのスコア値である。認識対象データが画像データである場合には、付随情報は、パブリックラベルの信頼度、撮影位置、撮影日時、カメラ情報、顔認識結果などである。撮影位置は、例えば緯度経度の情報であり、具体的な一例としてはGPS情報である。撮影日時とは、日付及び時刻、曜日、季節などである。カメラ情報は、焦点距離、露光時間、絞り、フラッシュの有無などである。顔認識結果は、カメラが有する顔認識機能の認識結果である。
 さらに、付与ラベル記憶部53は、認識対象データとラベルとの関係性、及び、プライベートラベルと付与時間との関係性を記憶する。操作受付部55及びラベル編集部56によって、付与ラベル記憶部53に記憶された内容が更新される。更新は、追加、変更、上書き、削除などを含む概念である。
 操作受付部55は、データ取得部51により取得された認識対象データに付与するためのプライベートラベルを決定するユーザ操作を受け付ける。ユーザ操作は、端末装置50のユーザによる端末操作である。ユーザ操作は、認識対象データを特定する操作、及び、プライベートラベルを特定する操作を含む。認識対象データを特定する操作は、例えば、ディスプレイ装置などに表示された認識対象データのアイコンの一覧から1のアイコンを選択する操作である。プライベートラベルを特定する操作は、例えば、プライベートラベルのラベル名を入力する操作、ディスプレイ装置などに表示され、過去に入力されたプライベートラベルの一覧から1のラベルを選択する操作などである。
 ラベル編集部56は、操作受付部55により受け付けられたユーザ操作に基づいて、プライベートラベルを認識対象データに付与する。ここでは、一例として、ラベル編集部56は、付与ラベル記憶部53に、認識対象データとプライベートラベルとの関係性を記憶させる。例えば、図11の(A)に示される認識対象データIDの「4」には、プライベートラベルが付与されていない。このような状況で、ユーザにより、認識対象データID「4」及びプライベートラベル「中華料理」「友人」を選択するユーザ操作がなされたとする。この場合、図11の(B)に示されるように、認識対象データID「4」とプライベートラベル「中華料理」「友人」とが関連付けて記憶される。このとき、ラベル編集部56は、プライベートラベルが付与された日時も、付与ラベル記憶部53に記憶させてもよい。また、ラベル編集部56は、付与ラベル記憶部53が記憶した情報を、変更してもよい。つまり、ラベル編集部56は、一度付与したプライベートラベルを修正又は削除することもできる。
 また、第1実施形態で説明したとおり、ユーザは付与されたパブリックラベルを修正又は削除することができる。操作受付部55は、認識対象データに付与されたパブリックラベルを修正又は削除するユーザ操作を受け付ける。ユーザ操作は、認識対象データを特定する操作、及び、パブリックラベルを修正又は削除する操作を含む。認識対象データを特定する操作は、例えば、ディスプレイ装置などに表示された認識対象データのアイコンの一覧から1のアイコンを選択する操作である。パブリックラベルを修正又は削除する操作は、例えば、パブリックラベルのラベル名を入力する操作、削除ボタンを選択する操作などである。ラベル編集部56は、操作受付部55により受け付けられたユーザ操作に基づいて、パブリックラベルを修正又は削除する。
 フィードバック部54は、第1実施形態で説明したとおり、ユーザによってパブリックラベルが修正された場合には、修正内容を教師データ作成装置30へ出力する。具体的には、教師データ作成装置30の受付部33は、ユーザによる端末装置10の操作であるユーザ操作を受け付ける。なお、受付部33は、入力データの一部のラベルの評価を指定するユーザ操作を受け付けてもよい。つまり、ユーザは入力データのラベル全てに対して評価する必要はない。そして、教師データ作成部34は、評価取得部32により取得されたラベルの評価が入力データのラベルの一部に対する評価である場合には、一部のラベルの評価を入力データ取得部31により取得された入力データと関連付けるとともに、入力データの残りのラベルの評価を無視評価にする。このように、ユーザによってパブリックラベルが修正され、修正された評価を再学習させることにより、学習システム100の学習効率が向上する。なお、フィードバック部54は必要に応じて備えればよい。
 次に、プライベートラベルの付与方法を説明する。図12は、プライベートラベルの付与方法を示すフローチャートである。図12に示されるフローチャートは、例えば、ユーザによりラベル編集ボタンが選択されたときに実行される。
 最初に、端末装置50の操作受付部55は、操作受付処理(S40)として、認識対象データに付与するためのプライベートラベルを決定するユーザ操作を受け付ける。次に、端末装置50のラベル編集部56は、プライベートラベル付与処理(S42)として、S40の処理で受け付けたユーザ操作に基づいて、認識対象データに付与するためのプライベートラベルを決定し、認識対象データに決定されたプライベートラベルを付与する。S42の処理が終了すると、プライベートラベルの付与方法を終了する。
 以上、第2実施形態に係る端末装置50は、学習装置40の学習結果に基づいて付与されるパブリックラベル以外のプライベートラベルを付与することができる。プライベートラベルの付与を許容することにより、認識対象データの整理やデータアクセスが容易となる。このため、この端末装置50は、ユーザの利便性を向上させることができる。
[第3実施形態]
 第3実施形態に係る端末装置50Aは、第2実施形態に係る端末装置50と比べて、ラベル提示部57Aを備えている点で相違し、その他は同一である。第3実施形態に係る端末装置50Aは、プライベートラベルをユーザに提示することで、ユーザのラベル付与の労力を軽減させる追加機能を有する。なお、第2実施形態においては、付与ラベル記憶部53は、付随情報及びプライベートラベル付与日時を任意で記憶していたが、第3実施形態においては、付与ラベル記憶部53は、付随情報及びプライベートラベル付与日時の少なくとも一方が記憶されている。
 図13は、第3実施形態に係る端末装置50Aの機能ブロック図である。端末装置50Aは、データ取得部51、認識部52、付与ラベル記憶部53、フィードバック部54、操作受付部55、ラベル編集部56及びラベル提示部57Aを備える。端末装置50Aのハードウェアは、端末装置10と同一である。
 ラベル提示部57Aは、プライベートラベルをユーザに提示する。例えば、ラベル提示部57Aは、ラベル編集部56により付与されたプライベートラベルの付与日時の履歴、及び、基準日時に基づいて、プライベートラベルをユーザに提示する。提示とは、ユーザに報知することである。例えば、提示とは、ディスプレイ装置に文字又はアイコンを表示させることである。あるいは、スピーカなどから音声を出力したり、バイブレーションを動作させたりしてもよい。
 ラベル提示部57Aは、例えば、ラベル編集ボタンの操作を操作受付部55が受け付けたタイミングで、プライベートラベルをユーザに提示する。ラベル提示部57Aは、操作受付部55から操作を受け付けたことを示す信号を取得した場合、付与ラベル記憶部53を参照する。図11の(A)又は(B)に示されるように、付与ラベル記憶部53は、ラベル編集部56により付与されたプライベートラベルの付与日時の履歴を記憶している。つまり、ラベル提示部57Aは、付与ラベル記憶部53を参照することにより、プライベートラベルの付与日時の履歴を取得することができる。そして、ラベル提示部57Aは、基準日時を取得する。基準日時とは、プライベートラベルの推定に用いられる日時である。例えば、ラベル提示部57Aは、リアルタイムクロックなどに基づいて現在日時を取得して、基準日時とする。そして、ラベル提示部57Aは、各プライベートラベルの付与日時と基準日時との関係から、ユーザの行動を予測し、プライベートラベルを提示する。
 ラベル提示部57Aは、具体的な一例として、過去の所定期間(あるいは所定数)の履歴を参照し、付与日時と基準日時との差分を履歴ごとに算出し、差分の逆数を重みとした重み付け投票を行うことで、プライベートラベルを決定する。図14は、プライベートラベルの選択処理を説明する表である。図14においては、プライベートラベル「A」は、付与日時「19:30」「19:30」「19:42」「19:53」「20:04」と関連付けられている。プライベートラベル「B」は、付与日時「20:51」「20:55」と関連付けられている。なお、図14では、時刻に関する情報を記載しており、日付に関する情報は省略している。ここで、基準日時は「21:02」であるとする。ラベル提示部57Aは、履歴ごとに、付与日時と付与日時との差分を算出する。つまり、ラベル提示部57Aは、図14に示される差分の欄を全て計算する。そして、ラベル提示部57Aは、差分に基づいて重みを算出し、重み付け投票を行う。図14に示される例では、プライベートラベル「A」の得票数が「0.06597」、プライベートラベル「B」の得票数が「0.23377」となる。所定期間の履歴に他のプライベートラベルが含まれる場合には、ラベル提示部57Aは、他のプライベートラベルについても、同一の手法で得票数を算出する。そして、ラベル提示部57Aは、最も投票数の多いプライベートラベルをユーザに提示する。図14に示される例では、ラベル提示部57Aは、プライベートラベル「B」をユーザに提示する。あるいは、ラベル提示部57Aは、投票数の多い順にプライベートラベルを複数提示してもよい。端末装置50Aのその他の構成は、端末装置50と同一である。
 次に、プライベートラベルの提示方法を説明する。図15は、プライベートラベルの提示方法を示すフローチャートである。図15に示されるフローチャートは、例えば、ユーザによりラベル編集ボタンが選択されたときに実行される。
 最初に、端末装置50Aのラベル提示部57Aは、履歴情報取得処理(S44)として、付与ラベル記憶部53を参照し、履歴情報を取得する。次に、端末装置50Aのラベル提示部57Aは、ラベル提示処理(S46)として、例えば図14を用いて説明された処理を実行し、プライベートラベルを決定する。そして、ラベル提示部57Aは、決定されたプライベートラベルをユーザに提示する。このとき、パブリックラベルを同時に提示してもよい。S46の処理が終了すると、プライベートラベルの提示方法を終了する。
 プライベートラベルの提示後は、パブリックラベルと同様に、ユーザによるラベルの正誤の判断がなされる。ラベル編集部56は、ユーザ操作によって正しいラベルを付与したり、正しくないラベルを削除したりする。ラベル提示部57Aは、過去のラベル付け内容を考慮して、つまり、ユーザ操作による修正箇所を含めてプライベートラベルを提示してもよい。
 以上、端末装置50Aがプライベートラベルをユーザの行動履歴に基づいて提示する場合を説明したが、端末装置50Aは、プライベートラベルを付随情報に基づいて提示してもよい。この場合、例えば、ラベル提示部57Aは、認識対象データの生成時に付与された付随情報に基づいて、プライベートラベルをユーザに提示する。また、端末装置50Aは、行動履歴及び付随情報の両方を利用してプライベートラベルをユーザに提示してもよい。
 ラベル提示部57Aは、操作受付部55から操作を受け付けたことを示す信号を取得した場合、付与ラベル記憶部53を参照する。図11の(A)又は(B)に示されるように、付与ラベル記憶部53は、認識対象データに関連付けられた付随情報を記憶している。つまり、ラベル提示部57Aは、付与ラベル記憶部53を参照することにより、付随情報を取得することができる。そして、ラベル提示部57Aは、付随情報と過去に付与されたプライベートラベルとの関係から、プライベートラベルを提示する。
 例えば、付随情報がパブリックラベルの信頼度を含んでいる場合、ラベル提示部57Aは、同一のパブリックラベルが付与された他の認識対象データを特定し、当該他の認識対象データに付与されたプライベートラベルを提示する。例えば、付随情報が撮影位置を含んでいる場合、ラベル提示部57Aは、同一又は近接する撮影位置で撮影された他の認識対象データを特定し、当該他の認識対象データに付与されたプライベートラベルを提示する。例えば、付随情報が撮影日時を含んでいる場合、ラベル提示部57Aは、同一又は同一期間の撮影日時で撮影された他の認識対象データを特定し、当該他の認識対象データに付与されたプライベートラベルをする。例えば、付随情報がカメラ情報を含んでいる場合、ラベル提示部57Aは、同一又は類似するカメラ情報で撮影された他の認識対象データを特定し、当該他の認識対象データに付与されたプライベートラベルを提示する。例えば、付随情報が顔認識結果を含んでいる場合、ラベル提示部57Aは、同一の顔認識結果の他の認識対象データを特定し、当該他の認識対象データに付与されたプライベートラベルを提示する。
 ラベル提示部57Aは、認識対象データの付随情報として、複数の種類の情報が存在する場合には、総合的に勘案して、提示されるプライベートラベルを決定する。例えば、ラベル提示部57Aは、提示されるプライベートラベルを重み付け投票により決定すればよい。
 あるいは、ラベル提示部57Aは、付随情報と過去に付与されたプライベートラベルとの関係を用いること無く、付随情報と想定状況との予め定められた関係を用いて、提示されるプライベートラベルを決定してもよい。付随情報と想定状況との予め定められた関係は、処理実行前に例えばデータベースなどに予め記憶される。このような関係は、一般則や経験則によって導き出されてもよい。このような付随情報と想定状況との予め定められた関係について、カメラ情報を例に説明する。例えば、カメラ情報である焦点距離が短い場合、静物、ポートレートを撮影した可能性が高い。あるいは、カメラ情報である焦点距離が長い場合、風景を撮影した可能性が高い。あるいは、カメラ情報のアスペクト比が所定値以上の場合、パノラマ撮影した可能性が高い。このように、ラベル提示部57Aは、付随情報と想定状況との予め定められた関係に基づいてプライベートラベルを提示してもよい。
 次に、プライベートラベルの提示方法を説明する。図16は、プライベートラベルの提示方法を示すフローチャートである。図16に示されるフローチャートは、例えば、ユーザによりラベル編集ボタンが選択されたときに実行される。
 最初に、端末装置50Aのラベル提示部57Aは、付随情報取得処理(S48)として、付与ラベル記憶部53を参照し、付随情報を取得する。次に、端末装置50Aのラベル提示部57Aは、ラベル提示処理(S50)として、付随情報を用いてプライベートラベルを決定する。そして、ラベル提示部57Aは、決定されたプライベートラベルをユーザに提示する。S50の処理が終了すると、プライベートラベルの提示方法を終了する。
 以上、第3実施形態に係る端末装置50Aは、ユーザの行動に応じてユーザに対してプライベートラベルを提示することができる。また、第3実施形態に係る端末装置50Aは、認識対象データの生成時の状況に応じてユーザに対してプライベートラベルを提示することができる。このため、ユーザのラベル付与の労力を軽減させることができる。
[第4実施形態]
 第4実施形態に係る端末装置50Bは、第2実施形態に係る端末装置50と比べて、操作受付部55B、画像決定部(決定部)59、コメント解析部(解析部)60及びラベル提示部57Bを備えている点で相違し、その他は同一である。第4実施形態に係る端末装置50Bは、ユーザが認識対象データを共有するときに生成されたコメントを用いて、プライベートラベルをユーザに提示することで、ユーザのラベル付与の労力を軽減させる追加機能を有する。
 図17は、第4実施形態に係る端末装置50Bの機能ブロック図である。端末装置50Bは、データ取得部51、認識部52、付与ラベル記憶部53、フィードバック部54、操作受付部55B、ラベル編集部56、画像決定部59、コメント解析部60及びラベル提示部57Bを備える。端末装置50Bのハードウェアは、端末装置10と同一である。
 操作受付部55Bは、コメントを付して認識対象データを他人と共有するユーザ操作を受け付ける。例えば、操作受付部55Bは、インターネットを介して他人と画像データを共有する際に付されるコメントの操作を受け付ける。つまり、コメントが付された認識対象データとは、データベースでコメントと認識対象データとが関連付けられている必要はなく、同一期間にアップロードされたコメント及び認識対象データであればよい。
 画像決定部59は、認識対象データを他人と共有するユーザ操作に基づいて、認識対象データを決定する。続いて、コメント解析部60は、画像決定部59により特定された認識対象データに付されたコメントの内容を解析する。コメント解析部60は、周知の言語機能を用いてコメントの内容を解析する。コメント解析部60は、文章から単語を抽出し、解析結果として出力する。ラベル提示部57Bは、コメント解析部60の解析結果に基づいて、プライベートラベルをユーザに提示する。具体的には、ラベル提示部57Bは、抽出された単語に関係する季節や行事を推定してプライベートラベルをユーザに提示する。あるいは、ラベル提示部57Bは、付与ラベル記憶部53を参照し、抽出された単語に関係する季節や行事と、過去に付与されたプライベートラベルとの関係に基づいて、プライベートラベルをユーザに提示してもよい。端末装置50Bのその他の構成は、端末装置50と同一である。
 次に、プライベートラベルの提示方法を説明する。図18は、プライベートラベルの提示方法を示すフローチャートである。図18に示されるフローチャートは、例えば、ユーザによりデータの共有ボタンが選択されたときに実行される。
 最初に、端末装置50Bの画像決定部59は、画像決定処理(S52)として、認識対象データを他人と共有するユーザ操作に基づいて、認識対象データを決定する。次に、端末装置50Bのコメント解析部60は、コメント解析処理(S54)として、画像決定処理で特定された認識対象データに付されたコメントの内容を解析する。次に、端末装置50Bのラベル提示部57Bは、ラベル提示処理(S56)として、コメント解析部60の解析結果に基づいて、プライベートラベルをユーザに提示する。S56の処理が終了すると、プライベートラベルの提示方法を終了する。
 以上、第4実施形態に係る端末装置50Bは、ユーザにより付与されたコメントに応じてユーザに対してプライベートラベルを提示することができる。このため、簡易な構成で比較的確度の高いラベルを提示することができる。
[第5実施形態]
 第5実施形態に係る端末装置50Cは、第2実施形態に係る端末装置50と比べて、リスト出力部62、代表ラベル取得部(関係取得部)63及び修正推奨部64を備えている点で相違し、その他は同一である。第5実施形態に係る端末装置50Cは、プライベートラベルの表記ゆれ、誤記、発散などを指摘することにより、既に付与したプライベートラベルをより整理し易くさせる追加機能を有する。また、第5実施形態に係る学習システム100Aは、第1実施形態に係る学習システムと比べて言語サーバ80を備える点が相違し、その他は同一である。
 図19は、第5実施形態に係る学習システム100A及び端末装置50Cの機能ブロック図である。端末装置50Cは、データ取得部51(不図示)、認識部52(不図示)、付与ラベル記憶部53、フィードバック部54(不図示)、操作受付部55(不図示)、ラベル編集部56(不図示)、リスト出力部62、代表ラベル取得部63及び修正推奨部64を備える。端末装置50Cのハードウェアは、端末装置10と同一である。学習システム100Aは、教師データ作成装置30(不図示)、学習装置40(不図示)及び言語サーバ80を備える。言語サーバ80のハードウェアは、端末装置10と同一である。端末装置50Cは、言語サーバ80と通信可能に構成されている。
 まず、端末装置50Cの構成の詳細について説明する。リスト出力部62は、付与されたプライベートラベルのリストを言語サーバ80へ出力する。具体的には、リスト出力部62は、付与ラベル記憶部53を参照し、所定範囲(所定数)のプライベートラベルについてリスト化して言語サーバ80へ出力する。このリストは、例えば図11の(A)又は(B)に示されるデータのうち、プライベートラベルのテキスト情報だけでよい。もちろん、リストは、プライベートラベルのテキスト情報以外の情報を含んでもよい。具体的な一例として、リスト出力部62は、プライベートラベルである「サクラ」「サグラ」「花見」「お花見」「ハナミ」を含むリストを出力する。
 代表ラベル取得部63は、言語サーバ80から代表ラベルと付与されたプライベートラベルとの関係を取得する。代表ラベルとは、類似するプライベートラベルを集約したラベル、あるいは、表記ゆれや誤記などを訂正したラベルである。具体的な一例として、代表ラベル取得部63は、プライベートラベルの情報「花見」「お花見」「ハナミ」に対して関連付けられた代表ラベル「お花見」を取得する。あるいは、代表ラベル取得部63は、プライベートラベルの情報「サクラ」「サグラ」に対して関連付けられた代表ラベル「サクラ」を取得する。
 修正推奨部64は、代表ラベル取得部63により取得された関係に基づいて、プライベートラベルを代表ラベルへ修正することをユーザに推奨する。例えば、修正推奨部64は、付与されたプライベートラベルと代表ラベルとをディスプレイ装置に表示させ、修正すべきことをユーザに促す。なお、推奨の表示は上記に限定されない。また、ディスプレイ装置以外の装置、例えば、スピーカなどを用いて音声情報によってユーザに促してもよい。
 次に、言語サーバ80の構成の詳細について説明する。言語サーバ80は、リスト取得部81、集約部82、代表ラベル選択部83、代表ラベル記憶部84及び代表ラベル出力部85を備える。
 リスト取得部81は、1又は複数の端末装置50Cからリストを取得する。リストは、上述したとおり、プライベートラベルのテキスト情報を含む。集約部82は、リスト取得部81により取得されたリストに基づいて、プライベートラベルをグループに集約する。集約部82は、意味の類似性、音の類似性などに基づいて、リストのプライベートラベルをグループ化する。具体的な一例として、リストは、プライベートラベルである「サクラ」「サグラ」「花見」「お花見」「ハナミ」を含むとする。この場合、「サクラ」「サグラ」を1つのグループとして集約する。また、「花見」「お花見」「ハナミ」を1つのグループとして集約する。
 代表ラベル選択部83は、集約部82により集約されたグループに対して代表ラベルを選択する。代表ラベル選択部83は、類似するプライベートラベルが集約されたグループに対しては、インターネットの検索エンジンなどを用いて最も検索件数が多い言葉を代表ラベルに選択する。代表ラベル選択部83は、表記ゆれや誤記が含まれる場合には、辞書データベースなどを活用して正しいあるいは適切な言葉を代表ラベルに選択する。具体的な一例としては、代表ラベル選択部83は、「サクラ」「サグラ」が集約されたグループについては、誤記を修正した「サクラ」を代表ラベルとして選択する。また、代表ラベル選択部83は、「花見」「お花見」「ハナミ」が集約されたグループについては、検索結果が最も多い「お花見」を代表ラベルとして選択する。
 代表ラベル選択部83は、選択した代表ラベルを代表ラベル記憶部84に記憶してもよい。代表ラベル選択部83は、代表ラベル記憶部84を参照し、代表ラベルの選択履歴に基づいて、選択した代表ラベルと過去の代表ラベルとを比較してもよい。このように構成することで、代表ラベル選択部83が選択する代表ラベルを安定化させることができる。
 代表ラベル出力部85は、代表ラベル選択部83の選択結果に基づいて、代表ラベルと付与されたプライベートラベルとの関係を端末装置50Cへ出力する。
 次に、プライベートラベルの修正推奨方法を説明する。図20は、プライベートラベルの修正推奨方法を示すフローチャートである。図20に示されるフローチャートは、所定のタイミングで実行され得る。
 最初に、端末装置50Cのリスト出力部62は、リスト出力処理(S70)として、付与されたプライベートラベルのリストを言語サーバ80へ出力する。次に、言語サーバ80のリスト取得部81は、リスト取得処理(S72)として、リストを取得する。
 次に、言語サーバ80の集約部82は、集約処理(S74)として、リスト取得部81により取得されたリストに基づいて、プライベートラベルをグループに集約する。そして、言語サーバ80の代表ラベル選択部83は、代表ラベル選択処理(S76)として、集約部82により集約されたグループに対して代表ラベルを選択する。そして、言語サーバ80の代表ラベル出力部85は、代表ラベル出力処理(S77)として、代表ラベル選択部83の選択結果に基づいて、代表ラベルと付与されたプライベートラベルとの関係を端末装置50Cへ出力する。
 次に、端末装置50Cの代表ラベル取得部63は、代表ラベル取得処理(S78)として、言語サーバ80から代表ラベルと付与されたプライベートラベルとの関係を取得する。次に、端末装置50Cの修正推奨部64は、推奨処理(S80)として、代表ラベル取得部63により取得された関係に基づいて、プライベートラベルを代表ラベルへ修正することをユーザに推奨する。S80の処理が終了すると、プライベートラベルの修正推奨方法を終了する。
 以上、第5実施形態に係る学習システム100A及び端末装置50Cは、プライベートラベルを整理することをユーザに促すことができる。このため、既に付与したプライベートラベルを整理させることができる。
[第6実施形態]
 第6実施形態に係る学習システム100Bは、第1実施形態に係る学習システム100と比べて、閾値設定部44(閾値変更装置の一例)を備える点が相違し、その他は同一である。以下では、学習システム100Bと学習システム100との相違点を中心に説明し、重複する説明は省略する。
 第1実施形態に係る学習システム100では、学習装置40により学習された重み係数が端末装置10へ配信される。端末装置10は、配信された重み係数を用いて認識部11を動作させる。認識部11は、配信された重み係数を用いてニューラルネットワークを更新する。そして、認識部11は、認識対象データを取得し、ニューラルネットワークによって認識対象データの内容が所定ラベルに合致する度合いを示す認識スコアを出力する。認識部11は、所定値以上の認識スコアに対応するラベルを認識対象データに付与する。具体的には、認識部11は、認識スコアと認識スコアに対して予め設定された閾値とを用いて認識対象データの内容が所定ラベルに合致するか否かを示す認識結果を出力する。つまり、所定値は、認識スコアを判定するための閾値であり、認識スコアに対して予め設定されている。予め設定されているとは、認識部11が認識処理をする前に閾値が定められていることをいう。なお、第1実施形態において、閾値(所定値)は、予め初期設定時に設定されてもよいし、学習中又は学習終了後において評価データを用いて評価することにより、算出されてもよい。
 第6実施形態に係る学習システム100Bにおいては、評価データを用いて閾値が決定される。つまり、閾値は、学習中又は学習終了後において評価データを用いて学習用認識部42又は認識部11を評価することにより、算出される。
 評価データは、教師データとは重なりのないデータであって、入力データ及び所定ラベルについての正解評価を含む。正解評価は、入力データに関連付けられ、入力データの内容が所定ラベルに合致する正評価であるか入力データの内容が所定ラベルに合致しない負評価であるかを示す。なお、正解評価には、「正評価」「負評価」だけでなく、「無視評価」が含まれていてもよい。ただし、「無視評価」が付与された評価データは、閾値を決定するために利用されない。
 学習システム100Bは、学習中あるいは学習済みのニューラルネットワークに対して評価データを入力させ、出力された認識スコアを用いて学習用認識部42又は認識部11の出力に対する閾値を設定する。図22は、認識スコアの閾値を説明するグラフである。図22の(A),(B)に示されるグラフは、所定のラベルに関して「正評価」又は「負評価」が付与された評価データを、学習用認識部42又は認識部11に認識させた結果である。横軸は認識スコア、縦軸は度数である。認識スコアは、認識の確からしさを表すスコアである。度数は評価データの数である。上述のとおり、学習用認識部42又は認識部11が認識対象データに対して認識スコアを出力する場合には、認識スコアから正評価又は負評価を判断するための閾値tが必要になる。図22の(A)、(B)に示されるように、評価データを用いて評価した結果、正評価のデータの分布と負評価のデータの分布とを得ることができる。学習システム100Bは、一般的な統計学に基づいて、これらの分布を区別する認識スコアを閾値tとして設定する。一般的な統計学を用いて閾値を設定する手法としては、例えば、再現率(recall)と適合率(precision)との調和平均であるF-尺度(f-measure)を用いて設定される。閾値tの設定の詳細については後述する。図22の(A)に示される例では、一般的な統計学を用いて評価スコアに対して閾値tが設定され、図22の(B)に示される例では、一般的な統計学を用いて評価スコアに対して閾値tが設定されている。
 上述した閾値tの設定処理を行う学習システム100Bの具体的な機能について説明する。図23は、第6実施形態に係る学習システム及び端末装置の機能ブロック図である。図23に示される学習システム100Bは、学習結果とともに閾値tを端末装置10Bへ配信する。学習システム100Bは、第1実施形態に係る学習システム100と比べて学習装置40Bが相違し、その他は同一である。
 学習装置40Bは、第1実施形態に係る学習装置40と比べて、閾値設定部44を備える点が相違し、その他は同一である。閾値設定部44は、評価データ取得部441、端末データ取得部442、認識スコア取得部443、算出部444及び変更部445を備える。
 評価データ取得部441は、評価データを取得する。評価データは、例えば、学習装置40Bの記憶部に格納されている。評価データは、所定ラベル(以下ではラベルiを所定ラベルとする)についての正解評価を含む。より具体的には、評価データは、正解ラベルが付与された画像データ(入力データ)の集合(データセット)である。以下では、評価データに含まれるラベルiの正評価のデータの集合をGi+、評価データに含まれるラベルiの負評価のデータの集合をGi-として説明する。また、集合Xに含まれる画像データ数を#(X)として説明する。
 端末データ取得部442は、端末装置10Bに関連付けられたデータの、ラベルiに関する正評価及び負評価の比ri,aを取得する。端末装置10Bは、第1実施形態に係る端末装置10と同一である。端末装置10Bに関連付けられたデータとは、端末装置10Bに関係した認識対象データであって、認識済みのデータである。具体的には、端末装置10Bに関連付けられたデータは、端末装置10Bに記憶された認識済みの画像データの集合、又は、外部記録媒体に記憶され、端末装置10Bの端末IDやユーザIDなどと関連付けられた、認識済みの画像データの集合などである。より具体的な一例としては、端末装置10Bに記憶された画像のアルバムなどである。
 ラベルiに関する正評価及び負評価の比ri,aとは、認識済みのデータのうち、正評価のデータ数及び負評価のデータ数の比であり、正評価のデータと負評価のデータとの存在比である。以下では、端末装置10Bに関連付けられた認識済みのデータのうち、正評価のデータの集合をG’i+、負評価のデータの集合をG’i-として説明する。つまり、比ri,aは、正評価のデータ数を負評価のデータ数で除した値#(G’i+)/#(G’i-)である。例えば、正評価のデータ数#(G’i+)が10個、負評価のデータ数#(G’i-)が20個の場合、正評価及び負評価の比ri,aは0.5となる。
 端末データ取得部442は、種々の手法を用いてラベルiに関する正評価及び負評価の比ri,aを取得することができる。一例として、端末データ取得部442は、端末装置10Bのニューラルネットワークの認識結果に基づいて比ri,aを取得する。例えば、端末装置10Bの認識部11により、アルバムに含まれる画像データが認識されている場合には、端末データ取得部442は、認識部11の認識結果に基づいて比ri,aを取得することができる。あるいは、端末データ取得部442は、端末装置10Bのユーザによるアノテーションの結果に基づいて比ri,aを取得してもよい。具体的には、ユーザ操作によってアルバムに含まれる画像データにラベルが付与されている場合には、端末データ取得部442は、アノテーションの結果に基づいて比ri,aを取得することができる。
 あるいは、端末データ取得部442は、端末装置10Bのユーザの操作又は端末情報に基づいて比ri,aを取得することができる。具体的な一例として、端末データ取得部442は、ラベルiに関するユーザ入力(ユーザの操作)に基づいて、比ri,aを推定する。例えば、端末データ取得部442は、ラベルiについての興味の度合いを示す関心度をユーザに問い合わせし、問い合わせに対するユーザ入力に基づいて比ri,aを推定する。あるいは、端末データ取得部442は、ユーザに比ri,aを直接的に問い合わせしてもよい。あるいは、端末データ取得部442は、端末装置10Bの端末情報に基づいて比ri,aを推定してもよい。端末情報とは、端末装置10Bに記憶された情報であり、地域データなどである。例えば、端末データ取得部442は、予め記憶された地域とラベルiとの相関と、取得された地域データとに基づいて、比ri,aを推定する。
 認識スコア取得部443は、ニューラルネットワーク(認識部11)又はニューラルネットワークの重み係数と同一の重み係数を有するニューラルネットワーク(学習用認識部42)から、入力データに関する所定ラベルの認識スコアを取得する。学習用認識部42の重み係数と認識部11の重み係数とは同期しているため、認識スコア取得部443は、どちらのニューラルネットワークを用いてもよい。認識スコア取得部443は、評価データ取得部441により取得された評価データを、学習用認識部42又は認識部11に読み込ませることで、入力データに関する所定ラベルの認識スコアを取得する。
 算出部444は、認識スコア取得部443により取得された認識スコアを用いて、学習用認識部42又は認識部11を評価する。以下では、算出部444は、学習用認識部42のニューラルネットワークを評価するものとする。例えば、学習用認識部42は、評価データに含まれる各画像データに対応して認識スコアp(ラベルiについての確からしさの度合い(一例として確率))を出力し、予め設定された閾値tと比較することにより、「正評価」(p>=t)又は「負評価」(p<t)の何れかを認識結果として出力する。学習用認識部42は、認識結果と正解評価とを比較することにより評価される。より具体的な一例としては、学習用認識部42は、正解評価が正評価の入力データが正評価として認識されたデータ数(true positive)、正解評価が負評価の入力データが負評価として認識されたデータ数(true negative)、正解評価が正評価の入力データが負評価として認識されたデータ数(false negative)、正解評価が負評価の入力データが正評価として認識されたデータ数(false positive)などを用いて評価される。
 算出部444は、少なくとも適合率を用いて評価を行う。適合率とは、学習用認識部42により「正評価」と認識されたデータのうち正解が「正評価」であるデータ数を、「正評価」と認識したデータ数で除して得られた値である。以下では、ラベルiに関して、認識結果が「正評価」であるデータの集合をPi+、認識結果が「負評価」であるデータの集合をPi-とする。この場合、評価に用いたデータ数は#(Pi+)+#(Pi-)と表すことができる。上述したラベルiについての「true positive」「true negative」「false negative」「false positive」のデータ数を、以下のように表現することができる。なお、Gi+は、評価データに含まれるラベルiの正評価のデータの集合、Gi-は、評価データに含まれるラベルiの負評価のデータの集合である。
Figure JPOXMLDOC01-appb-M000012
上記の定義により、適合率は、以下のように表現される。
Figure JPOXMLDOC01-appb-M000013
 なお、算出部444は、再現率をさらに用いて評価を行ってもよい。再現率とは、正解が「正評価」であるデータのうち学習用認識部42により「正評価」と認識されたデータ数を、評価データのうち「正評価」のデータ数で除して得られた値である。具体的には、以下のように表現される。
Figure JPOXMLDOC01-appb-M000014
 算出部444は、適合率及び再現率を用いる場合、再現率及び適合率の調和平均(f-measure)を算出して、評価値とする。f-measureは、再現率及び適合率の均等に着目した指標である。
Figure JPOXMLDOC01-appb-M000015
 上述した評価値は、評価データにおける正評価及び負評価のデータ分布により影響を与えられる。つまり、評価データに正評価及び負評価の比の偏りが存在する場合、算出された評価値は評価データの偏りを反映させた値となる。このため、評価データのデータ分布と、ユーザが実際に使用する環境(端末装置10Bのデータ分布)との差異は、理想的には小さい方が好ましい。このため、算出部444は、上述した差異が小さくなるようにデータ数を補正し、補正したデータ数を用いて適合率を算出する機能を有する。特に、評価データに「無視評価」が含まれている場合には、上述した差異が顕著になるおそれがある。図24は、評価データにおけるデータの偏りを説明する図である。図24の(A)に示される分布は、「正評価」及び「負評価」の真の分布(端末装置10Bにおける分布)である。図24の(B)に示される分布は、ラベルiについて、アノテータが「正評価」のタグ付けを全ての評価データを対象として行い、その後、「負評価」のタグ付けを一部の評価データを対象として行い、残りの評価データについては「無視評価」とした場合の分布である。この場合、本来であれば「負評価」とされるべきデータが「無視評価」のデータになってしまうため、評価データのデータ分布がユーザ環境のデータ分布と大きく乖離するおそれがある。
 このため、算出部444は、端末装置10Bにおける比ri,aと同じ存在比率となるように評価データを補正し、評価を行う。理想的なデータによる評価値は、以下のように表現される。なお、上述のとおり、端末装置10Bに関連付けられた認識済みのデータのうち正評価のデータの集合をG’i+、負評価のデータの集合をG’i-としている。また、端末装置10Bに関連付けられた認識済みのデータのうち、認識結果が「正評価」であるデータの集合をP’i+、認識結果が「負評価」であるデータの集合をP’i-とする。
Figure JPOXMLDOC01-appb-M000016
 ここで、上述のとおり、「正評価」と「負評価」との比率が変更された場合(ランダムに「負評価」のデータが「無視評価」とされた場合)、適合率に含まれる「false positive」数(具体的には#(G’i- ∩ P’i+))が変動する。このため、算出部444は、「false positive」数の変動の影響を小さくする補正をおこなう。具体的には、算出部444は、以下のように補正する。
Figure JPOXMLDOC01-appb-M000017
ここで、ri,testは、評価データにおける「正評価」及び「負評価」の比である。このように、算出部444は、「false positive」数を、評価データにおける「正評価」及び「負評価」の比ri,testと、端末装置10Bにおける「正評価」及び「負評価」の比ri,aとを用いて補正することにより、補正「false positive」数を得る。つまり、算出部444は、以下の式13で適合率を算出する。
Figure JPOXMLDOC01-appb-M000018
 変更部445は、算出部444により算出された適合率を用いて閾値tを変更する。例えば、適合率が最も高くなる認識スコアを閾値tとしてもよい。あるいは、変更部445は、閾値tを再現率及び適合率の調和平均が最大となる認識スコアへ変更してもよい。
 学習システム100Bの他の構成及び端末装置10Bは、学習システム100及び端末装置10と同一である。上述のとおり、変更された閾値tは、端末装置10Bへ配信される。
 次に、学習システム100Bによる閾値変更処理を説明する。図25は、閾値変更処理を示すフローチャートである。図25に示されるフローチャートは、例えば学習中の所定タイミングで実行される。
 図25に示されるように、閾値設定部44の評価データ取得部441は、評価データ取得処理(S90)として、評価データを取得する。評価データ取得部441は、例えば、ラベルiに関する「正評価」「負評価」「無視評価」の何れかが正解評価として付与された画像データのデータセットを取得する。
 次に、閾値設定部44の端末データ取得部442は、端末データ取得処理(S92)として、端末データを取得する。端末データ取得部442は、例えば、端末装置10Bに関連付けられたデータの、ラベルiに関する正評価及び負評価の比ri,aを取得する。
 次に、閾値設定部44の認識スコア取得部443は、認識スコア取得処理(S94)として、認識スコアを取得する。認識スコア取得部443は、評価データ取得処理(S90)にて取得された評価データを、学習用認識部42に読み込ませることで、入力データに関する所定ラベルの認識スコアを取得する。
 次に、閾値設定部44の算出部444は、算出処理(S96)として、適合率を算出する。算出部444は、上述した式13を用いて適合率を算出する。具体的には、算出部444は、認識スコア取得処理(S94)にて取得された認識スコアに基づいて「true positive」と「false positive」とを算出する。そして、算出部444は、評価データにおける「正評価」及び「負評価」の比ri,testと、端末データ取得処理(S92)にて取得された比ri,aとに基づいて「false positive」を補正する。そして、算出部444は、「true positive」と補正「false positive」とを用いて、適合率を算出する(式13)。
 次に、閾値設定部44の変更部445は、変更処理(S98)として、閾値tを変更する。変更部445は、算出処理(S96)にて算出された適合率を用いて閾値tを変更する。変更処理(S98)が終了すると、図25に示されるフローチャートが終了する。
 以上、第6実施形態に係る閾値設定部44によれば、負評価の入力データを正評価として認識したデータ数が、評価データの正評価及び負評価の比ri,test、及び、端末装置10Bに関連付けられたデータの正評価及び負評価の比ri,aを用いて補正される。そして、補正後のデータ数を用いて算出されたラベルiに関する適合率に基づいて、端末装置10Bによって行われる認識の際に用いられる閾値tが変更される。このように、ラベルiに関する適合率を算出する際に、評価データにおける正負のデータの分布と端末装置10Bにおける正負のデータの分布とを考慮して、負評価の入力データを正評価として認識したデータ数が補正される。図22の(C)は、評価データにおける正負のデータの分布が変動した場合を示している。例えば、「負評価」の一部が「無視評価」に変更された場合、「正評価」及び「負評価」のデータ分布が変更され(図中の実線から破線へ変更)、これに伴い、閾値tが第1閾値ti1から第2閾値ti2へ変更されるおそれがある。このため、閾値設定部44は、「false positive」数を補正することで、擬似的に比ri,testと比ri,aとが等しくすることができる。これにより、端末装置10Bに合わせて適切に閾値tを変更することができる。
[第7実施形態]
 第7実施形態に係る端末装置10Cは、第6実施形態に係る端末装置10B(あるいは第1実施形態に係る端末装置10)と比べて、閾値設定部44C(閾値変更装置の一例)を備える点が相違し、その他は同一である。以下では、端末装置10Cと端末装置10B(あるいは端末装置10)との相違点を中心に説明し、重複する説明は省略する。
 第6実施形態において説明された閾値tの変更処理は、ある程度の数を持った評価データを用いる必要がある。このため、端末装置10Bで処理した場合、時間がかかるおそれがある。第7実施形態に係る端末装置10Cは、端末装置10Cに関連付けられたデータの正評価及び負評価の比ri,aと閾値tとの関係性を予め記憶しておき、端末装置10Cの環境変化に応じて適切に閾値tを変更することを実現する。
 図26は、第7実施形態に係る端末装置10Cの機能ブロック図である。図26に示されるように、端末装置10Cは、端末データ取得部446、変更部447及び記憶部448を備える。
 端末データ取得部446は、第6実施形態に係る端末データ取得部442と同一の機能を有する。記憶部448は、端末装置10Cに関連付けられたデータの正評価及び負評価の比ri,aと閾値tとの関係性を記憶する。例えば、記憶部448は、比ri,aを変数とする閾値tの関数を記憶する。あるいは、比ri,aが0.1のときの閾値t(0.1)、比ri,aが0.2のときの閾値t(0.2)、比ri,aが0.3のときの閾値t(0.3)など、複数の比ri,aに対する閾値tを離散的に記憶する。
 変更部447は、記憶部448に記憶された関係性、及び、端末データ取得部446により取得された比ri,aを用いて閾値tを変更する。例えば、変更部447は、記憶部448に記憶された比ri,aを変数とする閾値tの関数と、端末データ取得部446により取得された比ri,aとを用いて、変更後の閾値tを取得する。あるいは、変更部447は、離散的に記憶部448に記憶された閾値tと端末データ取得部446により取得された比ri,aとを用いて、補間により変更後の閾値tを取得する。例えば、0.1ごとの比ri,aに対する閾値tが記憶部448に記憶されている場合において、端末データ取得部446により取得された比ri,aが0.15の場合には、変更部447は、(t(0.1)+t(0.2))/2を変更後の閾値tとする(線形補間)。変更部447は、現在の閾値を変更後の閾値tに置き換える。端末装置10Cのその他の構成は、端末装置10Bと同一である。
 次に、閾値変更処理について説明する。図27は、閾値変更処理を示すフローチャートである。図27に示されるフローチャートは、例えばユーザ操作により閾値変更処理の開始ボタンが選択された場合に実行される。
 図27に示されるように、端末装置10Cの端末データ取得部446は、端末データ取得処理(S100)として、端末データを取得する。端末データ取得部446は、例えば、端末装置10Cに関連付けられたデータの、ラベルiに関する正評価及び負評価の比ri,aを取得する。
 次に、端末装置10Cの変更部447は、閾値取得処理(S102)として、変更後の閾値tを取得する。変更部447は、例えば、記憶部448に記憶された比ri,aと閾値tとの関係性と、端末データ取得処理(S100)にて取得された比ri,aとに基づいて、変更後の閾値tを取得する。
 次に、端末装置10Cの変更部447は、閾値変更処理(S104)として、閾値tを変更する。変更部447は、現在の閾値tを閾値取得処理(S102)にて取得された変更後の閾値tに置き換える。変更処理(S104)が終了すると、図27に示されるフローチャートが終了する。
 以上、第7実施形態に係る閾値設定部44Cによれば、予め記憶された比ri,aと閾値tとの関係性と、端末データ取得部446により取得された比ri,aとを用いて閾値tが変更される。このように、予め記憶された比ri,aと閾値tとの関係性を用いることで、閾値変更のための演算負荷を軽減することができる。また、端末装置に関連付けられたデータの正評価及び負評価の比ri,aは、端末装置ごとに異なる。第7実施形態に係る閾値設定部44Cによれば、端末装置10Cの使用環境に応じて最適な閾値tに変更することができる。
 なお、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
 例えば、プライベートラベルを階層化してもよい。図21は、プライベートラベルの階層化構造を示す図である。図21に示されるように、階層化されたプライベートラベルは、ラベルを分類する「カテゴリ」の項目を有する。図21の例では、ラベル「A」「B」「C」はカテゴリ「人名」、ラベル「D」「E」はカテゴリ「地名」、ラベル「F」はカテゴリ「時間」、ラベル「G」はカテゴリ「その他」に分類されている。このように階層化することによって、例えばユーザは目的のラベルを見つけやすくなり、端末装置は、カテゴリ単位で候補を推定した後にプライベートラベルを選定することにより、効率良くプライベートラベルをユーザに提示することができる。
 また、上述した第2実施形態~第4実施形態にかかる端末装置では、プライベートラベルを出力する例を説明したが、端末装置側でプライベートラベルを自動的に付与してもよい。また、プライベートラベルが所定条件を満たした場合、パブリックラベルへ昇格させる構成としてもよい。例えば、一定数以上のユーザが同一のプライベートラベルを利用している場合には、当該プライベートラベルをパブリックラベルへ変更してもよい。あるいは、同一のパブリックラベルに付与されたプライベートラベルを学習システムが集計し、利用状況に応じて当該プライベートラベルをパブリックラベルに置き換えてもよい。
 上述した第6実施形態に係る学習システム100Bは、正評価及び負評価だけでなく無視評価を用いることができる学習システムとして説明したが、必ずしも無視評価を用いる必要はない。つまり、正評価及び負評価だけで判断する従来の学習システムに、第6実施形態で説明された閾値設定部44を適用してもよい。この場合であっても、端末装置に合わせて適切に閾値を変更することができる。
 上述した第6実施形態に係る閾値設定部44は、学習装置40Bではなく端末装置10Bに備わっていてもよい。また、図25に示された端末データ取得処理(S92)は、評価データ取得処理(S90)と認識スコア取得処理(S94)との間に実行する場合に限定されず、算出処理(S96)の前に実行されていればよい。
 上述した第2実施形態から第7実施形態に係る装置は、その機能をプログラムにより発揮してもよい。第2実施形態から第7実施形態の別の形態は、これら装置の動作に対応する方法、当該装置の機能を有するプログラム、又は当該プログラムを記憶した記憶媒体が含まれる。
 10,50,50A,50B,50C,10B,10C…端末装置、11,52…認識部、30…教師データ作成装置、31…入力データ取得部、32…評価取得部、33…受付部、34…教師データ作成部、40,40B…学習装置、41…教師データ取得部、42…学習用認識部、43…誤差逆伝搬部、55,55B…操作受付部、56…ラベル編集部、57A,57B…ラベル提示部、59…画像決定部、60…コメント解析部、62…リスト出力部、63…代表ラベル取得部、64…修正推奨部、80…言語サーバ、81…リスト取得部、82…集約部、83…代表ラベル選択部、84…代表ラベル記憶部、85…代表ラベル出力部、44,44C…閾値設定部、t…閾値、100,100A,100B…学習システム、111…入力層、112…中間層、113…出力層、441…評価データ取得部、442,446…端末データ取得部、443…認識スコア取得部、444…算出部、445,447…変更部。

Claims (23)

  1.  複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習する学習装置と、前記学習装置のための教師データを作成する教師データ作成装置と、を備える学習システムであって、
     前記教師データ作成装置は、
     入力データを取得する入力データ取得部と、
     前記入力データ取得部により取得された前記入力データに関して、ラベルごとに、前記入力データの内容がラベルに合致することを示す正評価、前記入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得する評価取得部と、
     前記入力データ取得部により取得された前記入力データと前記評価取得部により取得されたラベルごとの評価とを関連付けることにより、前記教師データを作成する教師データ作成部と、
    を備え、
     前記学習装置は、
     前記教師データ作成装置により作成された前記教師データを取得する教師データ取得部と、
     前記教師データ取得部により取得された前記教師データに含まれる前記入力データをスコアとして取得する入力層と、
     前記入力層が取得したスコアを、重み係数を用いて演算する中間層と、
     前記中間層が演算したスコアを用いて、ラベルごとの認識スコアを出力する出力層と、
     前記出力層が出力したラベルごとの認識スコアとラベルごとの評価の正解スコアとを用いて前記中間層の重み係数を調整する誤差逆伝搬部と、
    を備え、
     前記誤差逆伝搬部は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように前記中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが前記中間層の重み係数の調整に影響を与えないようにする、
    学習システム。
  2.  前記誤差逆伝搬部は、無視評価の正解スコアを無視評価のラベルの認識スコアと同じ値に設定する、無視評価の正解スコアと無視評価のラベルの認識スコアとの差分を0に変更する、又は、無視評価の正解スコアと無視評価のラベルの認識スコアとの差分の微分値を0に変更する、請求項1に記載の学習システム。
  3.  前記誤差逆伝搬部は、無視評価のラベルに関する前記ニューラルネットワークの接続を遮断する、請求項1に記載の学習システム。
  4.  前記教師データ作成部は、前記評価取得部によって評価が取得できないラベルと無視評価とを関連付ける請求項1~3の何れか一項に記載の学習システム。
  5.  前記教師データ作成装置は、ラベルの評価を指定するユーザ操作を受け付ける受付部を備え、
     前記評価取得部は、前記受付部により受け付けられた前記ユーザ操作によって指定されるラベルの評価を取得する請求項1~4の何れか一項に記載の学習システム。
  6.  前記受付部は、前記入力データの一部のラベルの評価を指定する前記ユーザ操作を受け付け、
     前記教師データ作成部は、前記評価取得部により取得された一部のラベルの評価を、前記入力データ取得部により取得された前記入力データと関連付けるとともに、前記入力データの残りのラベルの評価を無視評価にする、請求項5に記載の学習システム。
  7.  前記教師データ作成部は、前記評価取得部により取得されたラベルの評価を前記入力データ取得部により取得された前記入力データと関連付ける前に、前記入力データの全てのラベルの評価を無視評価にする、請求項1~6の何れか一項に記載の学習システム。
  8.  複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習する学習装置であって、
     入力データと前記入力データに予め関連付けられたラベルごとの評価とを含む教師データを取得する教師データ取得部と、
     前記教師データ取得部により取得された前記教師データに含まれる前記入力データをスコアとして取得する入力層と、
     前記入力層が取得したスコアを、重み係数を用いて演算する中間層と、
     前記中間層が演算したスコアを用いて、ラベルごとの認識スコアを出力する出力層と、
     前記出力層が出力したラベルごとの認識スコアとラベルごとの評価の正解スコアとを用いて前記中間層の重み係数を調整する誤差逆伝搬部と、
    を備え、
     前記入力データには、前記入力データの内容がラベルに合致することを示す正評価、前記入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つがラベルごとに関連付けられており、
     前記誤差逆伝搬部は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように前記中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが前記中間層の重み係数の調整に影響を与えないようにする、
    学習装置。
  9.  複数のラベルを用いて認識対象データを分類するニューラルネットワークを誤差逆伝搬法によって学習する学習装置のための教師データを作成する教師データ作成装置であって、
     入力データを取得する入力データ取得部と、
     前記入力データ取得部により取得された前記入力データに関して、ラベルごとに、前記入力データの内容がラベルに合致することを示す正評価、前記入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得する評価取得部と、
     前記入力データ取得部により取得された前記入力データと前記評価取得部により取得されたラベルごとの評価とを関連付けることにより、前記教師データを作成する教師データ作成部と、
    を備える教師データ作成装置。
  10.  複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習する学習方法であって、
     入力データと前記入力データに予め関連付けられたラベルごとの評価とを含む教師データを取得する教師データ取得ステップと、
     入力層が、前記教師データ取得ステップで取得された前記教師データに含まれる前記入力データをスコアとして取得する入力ステップと、
     中間層が、前記入力ステップで取得されたスコアを、重み係数を用いて演算する演算ステップと、
     出力層が、前記演算ステップで演算されたスコアを用いて、ラベルごとの認識スコアを出力する出力ステップと、
     前記出力ステップで出力されたラベルごとの認識スコアとラベルごとの評価の正解スコアとを用いて前記中間層の重み係数を調整する誤差逆伝搬ステップと、
    を備え、
     前記入力データには、前記入力データの内容がラベルに合致することを示す正評価、前記入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つがラベルごとに関連付けられており、
     前記誤差逆伝搬ステップでは、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように前記中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが前記中間層の重み係数の調整に影響を与えないようにする、
    学習方法。
  11.  複数のラベルを用いて認識対象データを分類するニューラルネットワークを誤差逆伝搬法によって学習する学習装置のための教師データを作成する教師データ作成方法であって、
     入力データを取得する入力データ取得ステップと、
     前記入力データ取得ステップにより取得された前記入力データに関して、ラベルごとに、前記入力データの内容がラベルに合致することを示す正評価、前記入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得する評価取得ステップと、
     前記入力データ取得ステップで取得された前記入力データと前記評価取得ステップで取得されたラベルごとの評価とを関連付けることにより、前記教師データを作成する教師データ作成ステップと、
    を備える教師データ作成方法。
  12.  複数のラベルを用いて認識対象データを分類するニューラルネットワークを、誤差逆伝搬法によって学習するようにコンピュータを動作させる学習プログラムであって、
     前記コンピュータを、
     入力データと前記入力データに予め関連付けられたラベルごとの評価とを含む教師データを取得する教師データ取得部、
     前記入力データをスコアとして取得する入力層、
     前記入力層が取得したスコアを、重み係数を用いて演算する中間層、
     前記中間層が演算したスコアを用いて、ラベルごとの認識スコアを出力する出力層、及び、
     前記出力層が出力したラベルごとの認識スコアとラベルごとの評価の正解スコアとを用いて前記中間層の重み係数を調整する誤差逆伝搬部
    として機能させ、
     前記入力データには、前記入力データの内容がラベルに合致することを示す正評価、前記入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つがラベルごとに関連付けられており、
     前記誤差逆伝搬部は、正評価又は負評価のラベルの認識スコアと正評価又は負評価の正解スコアとが近づくように前記中間層の重み係数を調整し、かつ、無視評価のラベルの認識スコアが前記中間層の重み係数の調整に影響を与えないようにする、
    学習プログラム。
  13.  複数のラベルを用いて認識対象データを分類するニューラルネットワークを誤差逆伝搬法によって学習する学習装置のための教師データを作成するようにコンピュータを動作させる教師データ作成プログラムであって、
     前記コンピュータを、
     入力データを取得する入力データ取得部、
     前記入力データ取得部により取得された前記入力データに関して、ラベルごとに、前記入力データの内容がラベルに合致することを示す正評価、前記入力データの内容がラベルに合致しないことを示す負評価、及び、学習対象ラベルから除外することを示す無視評価の何れか1つを取得する評価取得部、及び、
     前記入力データ取得部により取得された前記入力データと前記評価取得部により取得されたラベルごとの評価とを関連付けることにより、前記教師データを作成する教師データ作成部
    として機能させる教師データ作成プログラム。
  14.  請求項8に記載の学習装置と通信可能な端末装置であって、
     前記認識対象データを取得する認識対象データ取得部と、
     前記学習装置によって学習されたパラメータを用いて、前記認識対象データの内容を表す前記ラベルを前記認識対象データに付与する認識部と、
     前記認識対象データ取得部により取得された前記認識対象データに付与するためのプライベートラベルを決定するユーザ操作を受け付ける操作受付部と、
     前記操作受付部により受け付けられた前記ユーザ操作に基づいて、前記プライベートラベルを前記認識対象データに付与するラベル編集部と、
    を備える端末装置。
  15.  前記ラベル編集部により付与された前記プライベートラベルの付与日時の履歴、及び、基準日時に基づいて、前記プライベートラベルをユーザに提示するラベル提示部を備える請求項14に記載の端末装置。
  16.  前記認識対象データの生成時に付与された付随情報に基づいて、前記プライベートラベルをユーザに提示するラベル提示部を備える請求項14に記載の端末装置。
  17.  前記操作受付部は、コメントを付して前記認識対象データを他人と共有するユーザ操作を受け付け、
     前記操作受付部により受け付けられた前記ユーザ操作に基づいて、共有される前記認識対象データを決定する決定部と、
     前記決定部により決定された前記認識対象データに付されたコメントの内容を解析する解析部と、
     前記解析部の解析結果に基づいて、前記プライベートラベルをユーザに提示するラベル提示部を備える請求項14に記載の端末装置。
  18.  言語サーバと通信可能に構成され、
     付与された前記プライベートラベルのリストを前記言語サーバへ出力するリスト出力部と、
     前記言語サーバから代表ラベルと付与された前記プライベートラベルとの関係を取得する関係取得部と、
     前記関係取得部により取得された前記関係に基づいて、前記プライベートラベルを前記代表ラベルへ修正することをユーザに推奨する推奨部と、
    を有し、
     前記言語サーバは、
     前記端末装置から前記リストを取得するリスト取得部と、
     前記リスト取得部により取得された前記リストに基づいて、前記プライベートラベルをグループに集約する集約部と、
     前記集約部により集約された前記グループに対して前記代表ラベルを選択する代表ラベル選択部と、
     前記代表ラベル選択部の選択結果に基づいて、前記代表ラベルと付与された前記プライベートラベルとの関係を前記端末装置へ出力する代表ラベル出力部と、
    を備える、請求項14に記載の端末装置。
  19.  認識対象データを取得し、ニューラルネットワークによって前記認識対象データの内容が所定ラベルに合致する度合いを示す認識スコアを出力し、前記認識スコアと前記認識スコアに対して予め設定された閾値とを用いて前記認識対象データの内容が所定ラベルに合致するか否かを示す認識結果を出力する端末装置における前記閾値を変更する閾値変更装置であって、
     入力データと、前記入力データに関連付けられ、前記入力データの内容が前記所定ラベルに合致する正評価であるか前記入力データの内容が所定ラベルに合致しない負評価であるかを示す前記所定ラベルの正解評価と、を含む評価データを取得する評価データ取得部と、
     前記端末装置に関連付けられたデータの前記正評価及び前記負評価の比を取得する端末データ取得部と、
     前記ニューラルネットワーク又は前記ニューラルネットワークの重み係数と同一の重み係数を有するニューラルネットワークから、前記入力データに関する前記所定ラベルの前記認識スコアを取得する認識スコア取得部と、
     前記認識スコア取得部により取得された前記所定ラベルの前記認識スコアと、前記閾値を用いて、正解評価が正評価の前記入力データが正評価として認識されたデータ数、及び、正解評価が負評価の前記入力データが正評価として認識されたデータ数を算出し、算出されたデータ数を用いて前記所定ラベルに関する適合率を算出する算出部と、
     前記算出部により算出された前記適合率を用いて前記閾値を変更する変更部と、
    を備え、
     前記算出部は、正解評価が負評価の前記入力データが正評価として認識されたデータ数を、前記評価データの正評価及び負評価の比、及び、前記端末装置に関連付けられたデータの正評価及び負評価の比を用いて補正し、補正されたデータ数を用いて前記適合率を算出する、
    閾値変更装置。
  20.  前記算出部は、前記所定ラベルに関する再現率及び前記適合率を算出し、
     前記変更部は、前記閾値を前記再現率及び前記適合率の調和平均が最大となる認識スコアへ変更する請求項19に記載の閾値変更装置。
  21.  前記端末データ取得部は、前記端末装置の前記ニューラルネットワークの認識結果、又は、前記端末装置のユーザによるアノテーションの結果に基づいて、前記端末装置に関連付けられたデータの前記正評価及び前記負評価の比を取得する請求項19又は20に記載の閾値変更装置。
  22.  前記端末データ取得部は、前記端末装置のユーザの操作又は端末情報に基づいて、前記端末装置に関連付けられたデータの前記正評価及び前記負評価の比を取得する請求項19~21の何れか一項に記載の閾値変更装置。
  23.  認識対象データを取得し、ニューラルネットワークによって前記認識対象データの内容が所定ラベルに合致する度合いを示す認識スコアを出力し、前記認識スコアと前記認識スコアに対して予め設定された閾値とを用いて前記認識対象データの内容が所定ラベルに合致するか否かを示す認識結果を出力する端末装置における前記閾値を変更する閾値変更装置であって、
     前記端末装置に関連付けられたデータの正評価及び負評価の比を取得する端末データ取得部と、
     前記比と前記閾値との関係性を記憶する記憶部と、
     前記記憶部に記憶された前記関係性、及び、前記端末データ取得部により取得された前記比を用いて前記閾値を変更する変更部と、
    を備える閾値変更装置。
PCT/JP2016/080558 2015-10-30 2016-10-14 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置 WO2017073373A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2017513559A JP6271085B2 (ja) 2015-10-30 2016-10-14 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置
KR1020187015260A KR102114564B1 (ko) 2015-10-30 2016-10-14 학습 시스템, 학습 장치, 학습 방법, 학습 프로그램, 교사 데이터 작성 장치, 교사 데이터 작성 방법, 교사 데이터 작성 프로그램, 단말 장치 및 임계치 변경 장치
CN201680062416.3A CN108351986B (zh) 2015-10-30 2016-10-14 学习系统及装置和方法、训练数据生成装置及生成方法
US15/771,735 US11170262B2 (en) 2015-10-30 2016-10-14 Training system, training device, method for training, training data creation device, training data creation method, terminal device, and threshold value changing device
EP16859603.9A EP3361423B1 (en) 2015-10-30 2016-10-14 Learning system, learning device, learning method, learning program, teacher data creation device, teacher data creation method, teacher data creation program, terminal device, and threshold value changing device
US17/494,100 US20220101059A1 (en) 2015-10-30 2021-10-05 Learning system, learning device, learning method, learning program, teacher data creation device, teacher data creation method, teacher data creation program, terminal device, and threshold value changing device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2015215057 2015-10-30
JP2015-215057 2015-10-30
JP2016141558 2016-07-19
JP2016-141558 2016-07-19

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/771,735 A-371-Of-International US11170262B2 (en) 2015-10-30 2016-10-14 Training system, training device, method for training, training data creation device, training data creation method, terminal device, and threshold value changing device
US17/494,100 Division US20220101059A1 (en) 2015-10-30 2021-10-05 Learning system, learning device, learning method, learning program, teacher data creation device, teacher data creation method, teacher data creation program, terminal device, and threshold value changing device

Publications (1)

Publication Number Publication Date
WO2017073373A1 true WO2017073373A1 (ja) 2017-05-04

Family

ID=58630045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/080558 WO2017073373A1 (ja) 2015-10-30 2016-10-14 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置

Country Status (6)

Country Link
US (2) US11170262B2 (ja)
EP (1) EP3361423B1 (ja)
JP (2) JP6271085B2 (ja)
KR (1) KR102114564B1 (ja)
CN (1) CN108351986B (ja)
WO (1) WO2017073373A1 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609084A (zh) * 2017-09-06 2018-01-19 华中师范大学 一种基于群智汇聚收敛的资源关联方法
US20190034764A1 (en) * 2017-07-31 2019-01-31 Samsung Electronics Co., Ltd. Method and apparatus for generating training data to train student model using teacher model
JP2019046095A (ja) * 2017-08-31 2019-03-22 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム
JP2019067299A (ja) * 2017-10-04 2019-04-25 株式会社豊田中央研究所 ラベル推定装置及びラベル推定プログラム
WO2019102892A1 (ja) * 2017-11-21 2019-05-31 千代田化工建設株式会社 検査支援システム、学習装置、及び判定装置
JP2019095898A (ja) * 2017-11-20 2019-06-20 株式会社日立製作所 インスタンス利用促進システム
EP3502966A1 (en) * 2017-12-25 2019-06-26 Omron Corporation Data generation apparatus, data generation method, and data generation program
CN109978812A (zh) * 2017-12-24 2019-07-05 奥林巴斯株式会社 摄像系统、学习装置、摄像装置和学习方法
JP2019144767A (ja) * 2018-02-19 2019-08-29 富士通株式会社 学習プログラム、学習方法および学習装置
WO2019176806A1 (ja) * 2018-03-16 2019-09-19 富士フイルム株式会社 機械学習装置および方法
JP2019197441A (ja) * 2018-05-11 2019-11-14 株式会社 日立産業制御ソリューションズ 学習装置、学習方法及び学習プログラム
EP3582142A1 (en) * 2018-06-15 2019-12-18 Université de Liège Image classification using neural networks
CN110610169A (zh) * 2019-09-20 2019-12-24 腾讯科技(深圳)有限公司 图片标注方法和装置、存储介质及电子装置
CN111507371A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 方法和装置
JPWO2021044459A1 (ja) * 2019-09-02 2021-03-11
JP2021119524A (ja) * 2018-11-15 2021-08-12 LeapMind株式会社 ニューラルネットワークモデル、ニューラルネットワーク処理装置、およびニューラルネットワークの演算方法
JP2022506866A (ja) * 2018-11-07 2022-01-17 エレメント・エイ・アイ・インコーポレイテッド トレーニングセットとして用いる文書からの機密データの除去
US11803615B2 (en) 2019-03-04 2023-10-31 Nec Corporation Generating 3D training data from 2D images
JP7427072B2 (ja) 2021-12-29 2024-02-02 楽天グループ株式会社 情報処理装置、情報処理方法、及び記録媒体

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017073373A1 (ja) 2015-10-30 2017-05-04 株式会社モルフォ 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置
CN108268938B (zh) * 2018-01-24 2020-04-21 清华大学 神经网络及其信息处理方法、信息处理系统
US20210209466A1 (en) * 2018-05-31 2021-07-08 Sony Corporation Information processing apparatus, information processing method, and program
CN109348400B (zh) * 2018-09-16 2020-08-04 台州昉创科技有限公司 一种3d音效的主体位姿预判方法
US20220044147A1 (en) * 2018-10-05 2022-02-10 Nec Corporation Teaching data extending device, teaching data extending method, and program
EP3867919A4 (en) * 2018-10-19 2022-08-31 F. Hoffmann-La Roche AG DEFECT DETECTION IN LYOPHILIZED MEDICINAL PRODUCTS USING NEURAL CONVOLUTIONAL NETWORKS
JP7135750B2 (ja) * 2018-11-12 2022-09-13 富士通株式会社 学習プログラム、学習方法、学習装置、検知プログラム、検知方法及び検知装置
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
US11087170B2 (en) * 2018-12-03 2021-08-10 Advanced Micro Devices, Inc. Deliberate conditional poison training for generative models
JP6632773B1 (ja) * 2018-12-14 2020-01-22 三菱電機株式会社 学習識別装置、学習識別方法、及び、学習識別プログラム
JP6989485B2 (ja) * 2018-12-21 2022-01-05 株式会社 日立産業制御ソリューションズ マルチラベルデータ学習支援装置、マルチラベルデータ学習支援方法およびマルチラベルデータ学習支援プログラム
KR102189761B1 (ko) * 2018-12-21 2020-12-11 주식회사 엘지씨엔에스 딥러닝 학습 방법 및 서버
US11373298B2 (en) * 2019-03-28 2022-06-28 Canon Medical Systems Corporation Apparatus and method for training neural networks using small, heterogeneous cohorts of training data
JP2020161086A (ja) * 2019-03-28 2020-10-01 株式会社デンソーテン 制御装置および補正方法
CN113557536B (zh) * 2019-04-25 2024-05-31 欧姆龙株式会社 学习系统、数据生成装置、数据生成方法及存储介质
US11804070B2 (en) 2019-05-02 2023-10-31 Samsung Electronics Co., Ltd. Method and apparatus with liveness detection
CN110147852A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
KR20200144658A (ko) 2019-06-19 2020-12-30 삼성전자주식회사 분류 장치 및 이의 동작 방법과 트레이닝 방법
JP7200851B2 (ja) * 2019-06-27 2023-01-10 トヨタ自動車株式会社 学習装置、リハビリ支援システム、方法、プログラム、及び学習済みモデル
WO2021044671A1 (ja) * 2019-09-03 2021-03-11 富士フイルム株式会社 学習装置、学習装置の作動方法、学習装置の作動プログラム
CN114730309A (zh) * 2019-11-20 2022-07-08 Oppo广东移动通信有限公司 数据清洗设备、数据清洗方法和人脸验证方法
KR102131347B1 (ko) * 2020-01-29 2020-07-07 주식회사 이글루시큐리티 머신 러닝 학습 데이터 생성 방법 및 그 시스템
JP7421363B2 (ja) * 2020-02-14 2024-01-24 株式会社Screenホールディングス パラメータ更新装置、分類装置、パラメータ更新プログラム、および、パラメータ更新方法
WO2021241173A1 (ja) * 2020-05-27 2021-12-02 コニカミノルタ株式会社 学習装置、学習方法及び学習プログラム、認識装置、認識方法及び認識プログラム並びに学習認識装置
CN113188715A (zh) * 2021-03-17 2021-07-30 重庆大学 基于机器学习的多维力传感器静态校准数据处理方法
US12038980B2 (en) * 2021-08-20 2024-07-16 Optum Services (Ireland) Limited Machine learning techniques for generating string-based database mapping prediction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002008000A (ja) * 2000-06-16 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体
JP2005215988A (ja) * 2004-01-29 2005-08-11 Canon Inc パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP2014238763A (ja) * 2013-06-10 2014-12-18 ヤフー株式会社 分類精度推定装置、分類精度推定方法、およびプログラム
JP2015170281A (ja) * 2014-03-10 2015-09-28 日本電信電話株式会社 データ解析装置、方法、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109733A (ja) 1999-10-12 2001-04-20 Hitachi Ltd 識別モデルの評価方法及び閾値調整方法
AU2002228700A1 (en) 2000-11-02 2002-05-15 Cybersource Corporation Method and apparatus for evaluating fraud risk in an electronic commerce transaction
US7925080B2 (en) * 2006-01-13 2011-04-12 New Jersey Institute Of Technology Method for identifying marked images based at least in part on frequency domain coefficient differences
US8352386B2 (en) * 2009-07-02 2013-01-08 International Business Machines Corporation Identifying training documents for a content classifier
US8423568B2 (en) * 2009-09-16 2013-04-16 Microsoft Corporation Query classification using implicit labels
US8774515B2 (en) 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
CN102298606B (zh) * 2011-06-01 2013-07-17 清华大学 基于标签图模型随机游走的图像自动标注方法及装置
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN108073948A (zh) 2012-01-17 2018-05-25 华为技术有限公司 一种照片分类管理方法、服务器、装置及系统
US9536178B2 (en) * 2012-06-15 2017-01-03 Vufind, Inc. System and method for structuring a large scale object recognition engine to maximize recognition accuracy and emulate human visual cortex
US9122950B2 (en) * 2013-03-01 2015-09-01 Impac Medical Systems, Inc. Method and apparatus for learning-enhanced atlas-based auto-segmentation
US8923608B2 (en) * 2013-03-04 2014-12-30 Xerox Corporation Pre-screening training data for classifiers
JP6164639B2 (ja) 2013-05-23 2017-07-19 国立研究開発法人情報通信研究機構 ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム
US9430460B2 (en) * 2013-07-12 2016-08-30 Microsoft Technology Licensing, Llc Active featuring in computer-human interactive learning
US10373047B2 (en) * 2014-02-28 2019-08-06 Educational Testing Service Deep convolutional neural networks for automated scoring of constructed responses
US9552549B1 (en) * 2014-07-28 2017-01-24 Google Inc. Ranking approach to train deep neural nets for multilabel image annotation
US9965704B2 (en) 2014-10-31 2018-05-08 Paypal, Inc. Discovering visual concepts from weakly labeled image collections
US9495619B2 (en) * 2014-12-30 2016-11-15 Facebook, Inc. Systems and methods for image object recognition based on location information and object categories
JP6182279B2 (ja) * 2015-03-31 2017-08-16 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
WO2017073373A1 (ja) 2015-10-30 2017-05-04 株式会社モルフォ 学習システム、学習装置、学習方法、学習プログラム、教師データ作成装置、教師データ作成方法、教師データ作成プログラム、端末装置及び閾値変更装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002008000A (ja) * 2000-06-16 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> データ分類学習方法、データ分類方法、データ分類学習装置、データ分類装置、データ分類学習プログラムを記録した記録媒体、データ分類プログラムを記録した記録媒体
JP2005215988A (ja) * 2004-01-29 2005-08-11 Canon Inc パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP2014238763A (ja) * 2013-06-10 2014-12-18 ヤフー株式会社 分類精度推定装置、分類精度推定方法、およびプログラム
JP2015170281A (ja) * 2014-03-10 2015-09-28 日本電信電話株式会社 データ解析装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3361423A4 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034764A1 (en) * 2017-07-31 2019-01-31 Samsung Electronics Co., Ltd. Method and apparatus for generating training data to train student model using teacher model
KR20190013011A (ko) * 2017-07-31 2019-02-11 삼성전자주식회사 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
US12039016B2 (en) 2017-07-31 2024-07-16 Samsung Electronics Co., Ltd. Method and apparatus for generating training data to train student model using teacher model
KR102570278B1 (ko) * 2017-07-31 2023-08-24 삼성전자주식회사 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
JP7197971B2 (ja) 2017-08-31 2022-12-28 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム
JP2019046095A (ja) * 2017-08-31 2019-03-22 キヤノン株式会社 情報処理装置、情報処理装置の制御方法及びプログラム
CN107609084B (zh) * 2017-09-06 2021-01-26 华中师范大学 一种基于群智汇聚收敛的资源关联方法
CN107609084A (zh) * 2017-09-06 2018-01-19 华中师范大学 一种基于群智汇聚收敛的资源关联方法
JP2019067299A (ja) * 2017-10-04 2019-04-25 株式会社豊田中央研究所 ラベル推定装置及びラベル推定プログラム
JP2019095898A (ja) * 2017-11-20 2019-06-20 株式会社日立製作所 インスタンス利用促進システム
JP7050470B2 (ja) 2017-11-21 2022-04-08 千代田化工建設株式会社 検査支援システム、学習装置、及び判定装置
US11301976B2 (en) 2017-11-21 2022-04-12 Chiyoda Corporation Inspection support system, learning device, and determination device
WO2019102892A1 (ja) * 2017-11-21 2019-05-31 千代田化工建設株式会社 検査支援システム、学習装置、及び判定装置
JP2019095247A (ja) * 2017-11-21 2019-06-20 千代田化工建設株式会社 検査支援システム、学習装置、及び判定装置
CN109978812A (zh) * 2017-12-24 2019-07-05 奥林巴斯株式会社 摄像系统、学习装置、摄像装置和学习方法
JP2019114243A (ja) * 2017-12-24 2019-07-11 オリンパス株式会社 撮像装置および学習方法
JP2019114116A (ja) * 2017-12-25 2019-07-11 オムロン株式会社 データ生成装置、データ生成方法及びデータ生成プログラム
US10878283B2 (en) 2017-12-25 2020-12-29 Omron Corporation Data generation apparatus, data generation method, and data generation program
EP3502966A1 (en) * 2017-12-25 2019-06-26 Omron Corporation Data generation apparatus, data generation method, and data generation program
JP2019144767A (ja) * 2018-02-19 2019-08-29 富士通株式会社 学習プログラム、学習方法および学習装置
JP7040104B2 (ja) 2018-02-19 2022-03-23 富士通株式会社 学習プログラム、学習方法および学習装置
US11823375B2 (en) 2018-03-16 2023-11-21 Fujifilm Corporation Machine learning device and method
WO2019176806A1 (ja) * 2018-03-16 2019-09-19 富士フイルム株式会社 機械学習装置および方法
JPWO2019176806A1 (ja) * 2018-03-16 2021-04-08 富士フイルム株式会社 機械学習装置および方法
JP2019197441A (ja) * 2018-05-11 2019-11-14 株式会社 日立産業制御ソリューションズ 学習装置、学習方法及び学習プログラム
JP7025989B2 (ja) 2018-05-11 2022-02-25 株式会社 日立産業制御ソリューションズ 学習装置、学習方法及び学習プログラム
EP3582142A1 (en) * 2018-06-15 2019-12-18 Université de Liège Image classification using neural networks
WO2019238976A1 (en) * 2018-06-15 2019-12-19 Université de Liège Image classification using neural networks
JP2022506866A (ja) * 2018-11-07 2022-01-17 エレメント・エイ・アイ・インコーポレイテッド トレーニングセットとして用いる文書からの機密データの除去
JP7353366B2 (ja) 2018-11-07 2023-09-29 サービスナウ・カナダ・インコーポレイテッド トレーニングセットとして用いる文書からの機密データの除去
JP2021119524A (ja) * 2018-11-15 2021-08-12 LeapMind株式会社 ニューラルネットワークモデル、ニューラルネットワーク処理装置、およびニューラルネットワークの演算方法
JP7274180B2 (ja) 2018-11-15 2023-05-16 LeapMind株式会社 プログラム、ニューラルネットワーク処理コンピュータ、ニューラルネットワーク処理装置、およびニューラルネットワークの演算方法
CN111507371B (zh) * 2019-01-31 2023-12-19 斯特拉德视觉公司 自动评估对训练图像的标签可靠性的方法和装置
CN111507371A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 方法和装置
US11803615B2 (en) 2019-03-04 2023-10-31 Nec Corporation Generating 3D training data from 2D images
JPWO2021044459A1 (ja) * 2019-09-02 2021-03-11
JP7283548B2 (ja) 2019-09-02 2023-05-30 日本電気株式会社 学習装置、予測システム、方法およびプログラム
WO2021044459A1 (ja) * 2019-09-02 2021-03-11 日本電気株式会社 学習装置、予測システム、方法およびプログラム
CN110610169A (zh) * 2019-09-20 2019-12-24 腾讯科技(深圳)有限公司 图片标注方法和装置、存储介质及电子装置
CN110610169B (zh) * 2019-09-20 2023-12-15 腾讯科技(深圳)有限公司 图片标注方法和装置、存储介质及电子装置
JP7427072B2 (ja) 2021-12-29 2024-02-02 楽天グループ株式会社 情報処理装置、情報処理方法、及び記録媒体

Also Published As

Publication number Publication date
EP3361423B1 (en) 2022-12-14
KR20180079391A (ko) 2018-07-10
US11170262B2 (en) 2021-11-09
JP2018018537A (ja) 2018-02-01
EP3361423A1 (en) 2018-08-15
CN108351986A (zh) 2018-07-31
JP6453968B2 (ja) 2019-01-16
CN108351986B (zh) 2022-03-29
JPWO2017073373A1 (ja) 2017-10-26
EP3361423A4 (en) 2019-06-12
US20180307946A1 (en) 2018-10-25
US20220101059A1 (en) 2022-03-31
KR102114564B1 (ko) 2020-05-22
JP6271085B2 (ja) 2018-01-31

Similar Documents

Publication Publication Date Title
JP6453968B2 (ja) 閾値変更装置
US9965717B2 (en) Learning image representation by distilling from multi-task networks
US11501161B2 (en) Method to explain factors influencing AI predictions with deep neural networks
CN109213864A (zh) 基于深度学习的刑事案件预判系统及其构建和预判方法
CN105164672A (zh) 内容分类
CN115858919A (zh) 基于项目领域知识和用户评论的学习资源推荐方法及系统
CN108304568A (zh) 一种房地产公众预期大数据处理方法及系统
WO2023164312A1 (en) An apparatus for classifying candidates to postings and a method for its use
CN112069806A (zh) 简历筛选方法、装置、电子设备及存储介质
US20230018525A1 (en) Artificial Intelligence (AI) Framework to Identify Object-Relational Mapping Issues in Real-Time
US12124352B1 (en) Apparatus and method generating a path using classified distractions
CN117764536B (zh) 一种基于人工智能的创新创业项目辅助管理系统
CN113011551B (zh) 一种基于用户情感反馈的机器人服务认知方法及系统
CN116303376B (zh) 一种基于资产大数据平台的资产管理优化方法及系统
US20240248765A1 (en) Integrated platform graphical user interface customization
US11829735B2 (en) Artificial intelligence (AI) framework to identify object-relational mapping issues in real-time
Cuevas et al. An improved evolutionary algorithm for reducing the number of function evaluations
CN118313446A (zh) 面向冷启动场景的因果元学习多视角图学习方法及设备
Mouakher et al. Explainable evaluation framework for facial expression recognition in web-based learning environments
Pancini Enhancing data preparation with adaptive learning
Sumithabhashini et al. Introduction And Fundamental Concepts Of Machine Learning
Pancini Enhancing Data Preparation with Adaptive Learning: A Contextual Bandit Approach for Recommender Systems
CN117688241A (zh) 一种教育资源推荐方法及系统
CN116911801A (zh) 活动方案生成方法、装置、设备及存储介质
CN115934561A (zh) 测试结果分类模型的训练方法、装置和计算机设备

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2017513559

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16859603

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15771735

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016859603

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20187015260

Country of ref document: KR

Kind code of ref document: A