WO2021044591A1 - モデル生成装置、モデル生成方法、及び、記録媒体 - Google Patents

モデル生成装置、モデル生成方法、及び、記録媒体 Download PDF

Info

Publication number
WO2021044591A1
WO2021044591A1 PCT/JP2019/035014 JP2019035014W WO2021044591A1 WO 2021044591 A1 WO2021044591 A1 WO 2021044591A1 JP 2019035014 W JP2019035014 W JP 2019035014W WO 2021044591 A1 WO2021044591 A1 WO 2021044591A1
Authority
WO
WIPO (PCT)
Prior art keywords
reliability
model
target
class
recognition
Prior art date
Application number
PCT/JP2019/035014
Other languages
English (en)
French (fr)
Inventor
哲夫 井下
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/640,571 priority Critical patent/US20220301293A1/en
Priority to PCT/JP2019/035014 priority patent/WO2021044591A1/ja
Priority to JP2021543900A priority patent/JP7405145B2/ja
Publication of WO2021044591A1 publication Critical patent/WO2021044591A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to a technique for generating a new model using a plurality of trained models.
  • Patent Document 1 describes a method of creating a DNN classifier by learning a student DNN model with a larger and more accurate teacher DNN model.
  • One object of the present invention is to quickly and easily generate a student model having various recognition target classes by using a large-scale and high-precision teacher model.
  • the model generator A plurality of recognition units that recognize image data using a trained model and output reliability for each class to be recognized, A reliability generation unit that generates reliability for each of a plurality of target classes based on the reliability output by the plurality of recognition units.
  • a target model recognition unit that recognizes the image data using the target model and outputs the reliability for each target class.
  • a parameter adjustment unit that adjusts the parameters of the target model so that the reliability of each target class generated by the reliability generation unit and the reliability of each target class output by the target model recognition unit match.
  • the model generation method Image data is recognized by a plurality of recognition units using the trained model, and each of the plurality of recognition units outputs the reliability for each class to be recognized. Based on the reliability output by the plurality of recognition units, the first reliability for each of the plurality of target classes is generated. The image data is recognized using the target model, and the second reliability for each target class is output. The parameters of the target model are adjusted so that the first reliability and the second reliability match.
  • the recording medium is: Image data is recognized by a plurality of recognition units using the trained model, and each of the plurality of recognition units outputs the reliability for each class to be recognized. Based on the reliability output by the plurality of recognition units, the first reliability for each of the plurality of target classes is generated. The image data is recognized using the target model, and the second reliability for each target class is output. A program that causes a computer to execute a process of adjusting parameters of the target model so that the first reliability and the second reliability match is recorded.
  • a new student model is generated by distillation using a teacher model composed of a large-scale trained network.
  • distillation is a method of transferring knowledge from a trained teacher model to an unlearned student model.
  • FIG. 1 is a conceptual diagram showing the basic principle of the present embodiment.
  • the recognition target classes are "people", “cars”, and “traffic lights”.
  • a student model (hereinafter, also referred to as a “target model”) is prepared using a relatively small-scale network that can be installed at a traffic monitoring site or the like.
  • recognition target classes hereinafter, also referred to as "target classes” of the student model: "people", “cars”, and "traffic lights”.
  • teacher models A to C that have been learned in advance using a large-scale network are prepared.
  • Each teacher model A to C recognizes the input image data.
  • the target classes of the student model are "people", “cars”, and “signals”
  • models that recognize "people", “cars”, and “signals” are prepared as teacher models A to C, respectively.
  • the teacher model A recognizes whether the recognition target is a "person” and the image data is "a person” or "not a person” (hereinafter, "Not” is used). Then, the teacher model A outputs the reliability indicating the certainty of recognition for each of the class "person” and the class "Not person” as the recognition result.
  • the teacher model B recognizes whether the recognition target is a "car” and the image data is a "car” or a “non-car”. Then, the teacher model B outputs the reliability indicating the certainty of recognition for each of the class "car” and the class “Not car” as the recognition result.
  • the teacher model C recognizes whether the recognition target is a "signal” and the image data is a "signal” or a "non-signal”. Then, the teacher model C outputs the reliability indicating the certainty of recognition for each of the class "signal” and the class "Not signal” as the recognition result.
  • the teacher models A to C have a class indicating that the image data is a recognition target (such as "person” in this example) (hereinafter, also referred to as a "affirmative class”) and the image data is not the recognition target.
  • a recognition target such as "person” in this example
  • the two classes indicating the presence or absence of a certain recognition target are also referred to as "negative type 2 classes" in the present specification.
  • Image data for distillation is input to the teacher models A to C and the student model.
  • the teacher models A to C each recognize the input image data.
  • the teacher model A recognizes whether or not the input image data is a "person”, and outputs the reliability of being a "person” and the reliability of being “not a person”.
  • the teacher model B recognizes whether or not the input image data is a "car”, and outputs the "car” reliability and the "non-car” reliability.
  • the teacher model C recognizes whether or not the input image data is a "signal”, and outputs a reliability that is a "signal” and a reliability that is "not a signal”.
  • the recognition results by the teacher models A to C are integrated, and the teacher model reliability is generated.
  • the "teacher model reliability” is the reliability comprehensively generated on the teacher model side with respect to the input image data, and is generated based on the recognition results by the teacher models A to C for each target class. Reliability. Specifically, for a certain image data X, the reliability of the "person” output by the teacher model A, the reliability of the "car” output by the teacher model B, and the "signal" output by the teacher model C.
  • the teacher model reliability is generated by integrating the reliability that is. In the example of FIG.
  • the teacher model A when certain image data X is input to the teacher models A to C, the teacher model A outputs a reliability of 72%, which is a “person”, and the teacher model B outputs a reliability of 72%, which is a “car”. % Was output, and the teacher model C output a reliability of 1%, which is a “signal”. Therefore, the teacher model reliability generated by integrating these is a ratio of 72% for cars, 2% for cars, and 1% for signals. In practice, these ratios are normalized and used so that the total is 100%.
  • the student model recognizes the same image data X and outputs the reliability for each of the three target classes (people, cars, and traffic lights).
  • the recognition result is basically different from the teacher models A to C. Therefore, the student model is trained to output the same reliability as the teacher model reliability generated based on the outputs of the teacher models A to C. Specifically, the internal parameters of the network that composes the student model are modified so that the reliability of each target class output by the student model matches the reliability of the teacher model.
  • the internal parameters of the network that composes the student model are modified so that the reliability of each target class output by the student model matches the reliability of the teacher model.
  • the reliability that the output of the student model is "person” is 72%
  • the reliability that is "car” is 2%
  • the reliability that is "signal” is 72%
  • the parameters of the student model are modified so that is a 1% ratio. In this way, the student model is constructed so as to imitate the output of the trained teacher model by the so-called distillation method.
  • FIG. 2 is a block diagram showing a hardware configuration of the model generator according to the first embodiment.
  • the model generator 10 includes an interface (IF) 12, a processor 13, a memory 14, a recording medium 15, and a database (DB) 16.
  • IF interface
  • DB database
  • Interface 12 communicates with an external device. Specifically, the interface 12 is used when inputting image data for distillation from the outside and outputting finally determined parameters of the student model to an external device.
  • the processor 13 is a computer such as a CPU (Central Processing Unit) or a CPU and a GPU (Graphics Processing Unit), and controls the entire model generation device 10 by executing a program prepared in advance.
  • the memory 14 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the memory 14 stores various programs executed by the processor 13.
  • the memory 14 is also used as a working memory during execution of various processes by the processor 13.
  • the recording medium 15 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be removable from the model generation device 10.
  • the recording medium 15 records various programs executed by the processor 13. When the model generation device 10 executes the model generation process, the program recorded on the recording medium 15 is loaded into the memory 14 and executed by the processor 13.
  • Database 16 stores image data for distillation used in the model generation process.
  • the model generation device 10 may include an input device such as a keyboard and a mouse, a display device, and the like.
  • FIG. 3 is a block diagram showing a functional configuration of the model generation device 10.
  • the model generation device 10 is roughly divided into a teacher model unit 20 and a student model unit 30.
  • the teacher model unit 20 includes an image input unit 21, two-class recognition units 22a to 22c, and a reliability generation unit 23.
  • the student model unit 30 includes a student model recognition unit 32, a loss calculation unit 33, and a parameter correction unit 34.
  • Image data for distillation is input to the image input unit 21.
  • the image data for distillation is usually taken at the site where an image recognition device using a student model is used.
  • the image input unit 21 supplies the same image data to the two-class recognition units 22a to 22c and the student model recognition unit 32.
  • the two-class recognition units 22a to 22c are recognition units that use a teacher model that has been learned in advance, and each recognizes the negative type two classes, that is, the presence or absence of a recognition target. Specifically, the second class recognition unit 22a recognizes whether the image data is "human” or “non-human", and the second class recognition unit 22b recognizes whether the image data is "car” or “not a car”. The second class recognition unit 22c recognizes whether the image data is a "signal” or a "non-signal”. The two-class recognition units 22a to 22c recognize the image data for distillation supplied from the image input unit 21, and output the reliability of each affirmative class and negative class as the recognition result.
  • the two-class recognition unit 22a outputs the reliability of the affirmative class "person” and the reliability of the negative class "not a person”.
  • the second class recognition unit 22b outputs the reliability of the affirmative class "car” and the reliability of the negative class "not a car”
  • the second class recognition unit 22c outputs the reliability and the negative class of the positive class "signal”. Outputs the reliability of "not a signal”.
  • the reliability generation unit 23 generates the teacher model reliability based on the recognition results output from the two-class recognition units 22a to 22c. Specifically, the reliability generation unit 23 integrates the reliability of each affirmative class output by the two-class recognition units 22a to 22c.
  • the reliability of 2 positive class class recognition unit 22a has output "human", “p a" reliability of 2 positive class class recognition unit 22b has output “car", “p b ", when the reliability of 2 positive class class recognition unit 22c has output” signal "and” p c ", reliability determining unit 23, the reliability p person class” person ", trust of the class” car "
  • the reliability p signal of the degree p car and the class "signal" is calculated as follows.
  • the reliability of the affirmative class "person" output by the second class recognition unit 22a is 72%
  • the reliability of the affirmative class "car” output by the second class recognition unit 22b is 2%.
  • the reliability pepperson of the class person is as follows.
  • the reliability generation unit 23 normalizes and uses the reliability of each class thus obtained so that the total is 100%.
  • the reliability generation unit 23 supplies the generated teacher model reliability to the loss calculation unit 33.
  • the student model recognition unit 32 corresponds to a newly created target model and is provided with a deep neural network (DNN) or the like inside.
  • the student model recognition unit 32 recognizes the same image data recognized by the two-class recognition units 22a to 22c, and outputs the recognition result to the loss calculation unit 33.
  • the student model recognition unit 32 targets "people", “cars”, and “signals” as target classes. Therefore, as recognition results, the reliability of the class "people", the reliability of the class "car”, and the class Output the reliability of the "signal”.
  • These reliabilitys output by the student model recognition unit 32 are also referred to as "student model reliability".
  • the student model recognition unit 32 outputs the reliability so that the total reliability of these three classes is 100%.
  • the loss calculation unit 33 compares the teacher model reliability output from the reliability generation unit 23 with the student model reliability output from the student model recognition unit 32, calculates the loss (difference), and calculates the parameter correction unit. Supply to 34.
  • the parameter correction unit 34 corrects the parameters of the internal network of the student model recognition unit 32 so that the loss calculated by the loss calculation unit 33 becomes small and optimally becomes 0.
  • the fact that the loss between the teacher model reliability and the student model reliability becomes 0 means that the recognition result (reliability) of the teacher model unit 20 and the recognition result (reliability) of the student model recognition unit 32 for the same image data. Is to match. In this way, the knowledge of the teacher model can be transmitted to the student model recognition unit 32, and a highly accurate target model can be generated.
  • FIG. 4 is a flowchart of the model generation process by the model generation device 10. This process is realized by the processor 13 shown in FIG. 2 executing a program prepared in advance.
  • image data for distillation is input from the image input unit 21 to the two-class recognition units 22a to 22c and the student model recognition unit 32 (step S11).
  • the two-class recognition units 22a to 22c recognize the image data, calculate the reliability of each, and output the reliability to the reliability generation unit 23 (step S12).
  • the reliability generation unit 23 generates the teacher model reliability based on the reliability input from the two-class recognition units 22a to 22c (step S13).
  • the student model recognition unit 32 recognizes the same image data (step S14) and generates the student model reliability as a recognition result (step S15).
  • the loss calculation unit 33 calculates the loss of the teacher model reliability generated by the reliability calculation unit 23 and the student model reliability generated by the student model recognition unit 32 (step S16).
  • the parameter correction unit 34 corrects the internal parameters of the student model recognition unit so that the loss calculated by the loss calculation unit 33 becomes small (step S17).
  • the model generator 10 determines whether or not the predetermined end condition is satisfied (step S18).
  • the model generation device 10 repeats steps S11 to S17 until the end condition is satisfied, and ends the process when the end condition is satisfied (step S18: Yes).
  • the "predetermined end condition” is a condition related to the number of repetitions, the degree of change in the loss value, and the like, and any of the methods adopted as many deep learning learning procedures can be used.
  • the model generation device 10 performs the above model generation process on all the image data for distillation prepared in advance.
  • the student model recognition unit 32 generated in this way is used in the image recognition device as a learned recognition unit.
  • the reliability generation unit 23 uses the reliability values themselves output by the two-class recognition units 22a to 22c as shown in the above equations (1) to (3) to obtain the teacher model reliability. Is being generated. Instead, the reliability generation unit 23 may generate the teacher model reliability by weighting the reliability values output by the two-class recognition units 22a to 22c. For example, assuming that the weights for the reliability output by the two-class recognition units 22a to 22c are " ⁇ ", " ⁇ ", and " ⁇ ”, the reliability generation unit 23 has the reliability pperson of the class "person” and the class "person”. car "of confidence p car, the reliability p signal of the class” signal "is calculated as follows.
  • the reliability is relative to the reliability of the "car (2%)” or “signal (1%)” having a low reliability. It is preferable to give a larger weight than a “person (72%)” with a large degree.
  • the weights " ⁇ " and “ ⁇ " are set to be larger than the weight " ⁇ ".
  • the second embodiment of the present invention will be described.
  • the two-class recognition units 22a to 22c used in the teacher model unit 20 each recognize the presence or absence of one recognition target, that is, the affirmative class and the negative class for one recognition target. there were.
  • the second embodiment is different from the first embodiment in that a recognition unit that recognizes a plurality of recognition targets is used.
  • the hardware configuration of the model generator according to the second embodiment is the same as that of the first embodiment shown in FIG.
  • FIG. 6 is a block diagram showing a functional configuration of the model generation device 10x according to the second embodiment.
  • the model generator 10x differs from the model generator 10 of the first embodiment in that it has the recognition units 22e to 22g instead of the two-class recognition units 22a to 22c. Other than that, it is the same as that of the model generator 10, and operates in the same manner.
  • the recognition unit 22e sets “people” and “cars” as recognition target classes
  • the recognition unit 22f sets “people” and “bicycles” as recognition target classes
  • the recognition unit 22g sets "signals”. And "building” are the recognition target classes.
  • the student model recognition unit 32 sets "people", “cars”, and “signals” as recognition target classes as in the first embodiment.
  • the reliability calculation unit 23 outputs the reliability of the "person” and the "car” output from the recognition unit 22e, the reliability of the "car” output from the recognition unit 22f, and the recognition unit 22g.
  • the reliability of the "signal” is integrated to generate the teacher model reliability.
  • the parameter correction unit 34 adjusts the parameters of the student model recognition unit 32 so that the teacher model reliability and the student model reliability match.
  • the target model is generated by utilizing the knowledge of the teacher model as in the first embodiment. Can be done.
  • FIG. 8 shows the functional configuration of the model generation device 40 according to the third embodiment.
  • the model generator 40 is realized by the hardware configuration shown in FIG.
  • the model generation device 40 includes a plurality of recognition units 41, a reliability generation unit 42, a target model recognition unit 43, and a parameter adjustment unit 44.
  • Each of the plurality of recognition units 41 recognizes the image data using the trained model, and outputs the reliability for each class to be recognized.
  • the reliability generation unit 42 generates reliability for each of a plurality of target classes based on the reliability output by the plurality of recognition units 41.
  • the "target model” is a model to be generated by the model generation device 40, and the "target class” is a recognition target class of the target model.
  • the target model recognition unit 43 recognizes the same image data recognized by the plurality of recognition units 41 using the target model, and outputs the reliability for each target class.
  • the parameter adjustment unit 44 adjusts the parameters of the target model so that the reliability for each target class generated by the reliability generation unit 42 and the reliability for each target class output by the target model recognition unit 43 match. .. In this way, the target model can be generated by using the plurality of trained recognition units 41.
  • a plurality of recognition units that recognize image data using a trained model and output reliability for each class to be recognized, A reliability generation unit that generates reliability for each of a plurality of target classes based on the reliability output by the plurality of recognition units.
  • a target model recognition unit that recognizes the image data using the target model and outputs the reliability for each target class.
  • a parameter adjustment unit that adjusts the parameters of the target model so that the reliability of each target class generated by the reliability generation unit and the reliability of each target class output by the target model recognition unit match.
  • the reliability generation unit integrates the reliability of the classes included in the target class among the reliability of each class output by the plurality of recognition units, and generates the reliability for each target class.
  • Each of the plurality of recognition units is a two-class recognition unit that outputs reliability for an affirmative class indicating that the image data includes a recognition target and a negative class indicating that the image data does not include a recognition target.
  • Appendix 4 The model generation device according to Appendix 3 or 4, wherein the reliability generation unit generates reliability for each target class by using the reliability output by each of the plurality of recognition units for the affirmative class.
  • the reliability generation unit generates the reliability for each target class based on the ratio of the reliability of each affirmative class to the total reliability of the affirmative classes output by the plurality of recognition units. Model generator.
  • Appendix 9 The model generation device according to Appendix 1 or 2, wherein each of the plurality of recognition units recognizes a plurality of different recognition targets.
  • each of the plurality of recognition units includes at least one class of the plurality of target classes as a recognition target.
  • Image data is recognized by a plurality of recognition units using the trained model, and each of the plurality of recognition units outputs the reliability for each class to be recognized. Based on the reliability output by the plurality of recognition units, the first reliability for each of the plurality of target classes is generated. The image data is recognized using the target model, and the second reliability for each target class is output. A model generation method in which parameters of the target model are adjusted so that the first reliability and the second reliability match.
  • Image data is recognized by a plurality of recognition units using the trained model, and each of the plurality of recognition units outputs the reliability for each class to be recognized. Based on the reliability output by the plurality of recognition units, the first reliability for each of the plurality of target classes is generated. The image data is recognized using the target model, and the second reliability for each target class is output.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

複数の認識部の各々は、学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する。信頼度生成部は、複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する。ターゲットモデル認識部は、ターゲットモデルを用いて、複数の認識部が認識したのと同一の画像データを認識し、ターゲットクラス毎の信頼度を出力する生成部が生成したターゲットクラス毎の信頼度と、ターゲットモデル認識部が出力したターゲットクラス毎の信頼度とが一致するように、ターゲットモデルのパラメータを調整する。

Description

モデル生成装置、モデル生成方法、及び、記録媒体
 本発明は、複数の学習済みモデルを用いて新たなモデルを生成する技術に関する。
 大規模なネットワークを用いて学習した教師モデルを、小規模な生徒モデルに転移する技術が知られている。例えば、特許文献1は、生徒DNNモデルを、それよりも大きく精度が高い教師DNNモデルによって学習することにより、DNNクラシファイアを作成する手法を記載している。
特表2017-531255号公報
 上記の手法のように教師モデルを用いて生徒モデルを生成する場合、教師モデルと生徒モデルの認識対象クラスが一致している必要がある。よって、既存の教師モデルと異なる新たなクラスを有する生徒モデルを生成する場合には、新たなクラスに対応するように教師モデルを再学習する必要がある。しかし、教師モデルは大規模ネットワークで構成されるため、教師モデルの再学習には時間がかかるという問題がある。
 本発明の1つの目的は、大規模かつ高精度の教師モデルを用いて、様々な認識対象クラスを有する生徒モデルを迅速かつ簡便に生成することにある。
 上記の課題を解決するため、本発明の一つの観点では、モデル生成装置は、
 学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識部と、
 前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する信頼度生成部と、
 ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識部と、
 前記信頼度生成部が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識部が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整部と、
 を備える。
 本発明の他の観点では、モデル生成方法は、
 学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
 前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
 ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
 前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する。
 本発明のさらに他の観点では、記録媒体は、
 学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
 前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
 ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
 前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させるプログラムを記録する。
 本発明によれば、大規模かつ高精度の教師モデルを用いて、様々な認識対象クラスを有する生徒モデルを迅速かつ簡便に生成することが可能となる。
本実施形態の基本原理を示す概念図である。 実施形態に係るモデル生成装置のハードウェア構成を示すブロック図である。 第1実施形態に係るモデル生成装置の機能構成を示すブロック図である。 教師モデル信頼度を生成する例を示す。 モデル生成処理のフローチャートである。 第2実施形態に係るモデル生成装置の機能構成を示すブロック図である。 第2実施形態の認識部による認識結果の例を示す。 第3実施形態に係るモデル生成装置の機能構成を示すブロック図である。
 [原理説明]
 まず、本発明の実施形態の基本原理について説明する。本実施形態では、学習済みの大規模ネットワークにより構成される教師モデルを用いて、蒸留により新たな生徒モデルを生成する。「蒸留」とは、学習済みの教師モデルから未学習の生徒モデルに知識を伝達する手法である。
 図1は、本実施形態の基本原理を示す概念図である。いま、例えば交通監視システムに利用される画像認識処理のニーズに基づき、新たなモデルを生成するものとする。認識対象クラスは、「人」、「車」、「信号」であるものとする。この場合、交通監視の現場などに設置可能な比較的小規模のネットワークを用いて、生徒モデル(以下、「ターゲットモデル」とも呼ぶ。)が用意される。生徒モデルの認識対象クラス(以下、「ターゲットクラス」とも呼ぶ。)は、「人」、「車」、「信号」の3つとなる。
 次に、予め大規模ネットワークを用いて学習済みの教師モデルA~Cが用意される。各教師モデルA~Cは、入力される画像データの認識を行う。ここで、生徒モデルのターゲットクラスが「人」、「車」、「信号」であるため、教師モデルA~Cとして、それぞれ「人」、「車」、「信号」を認識するモデルが用意される。具体的に、教師モデルAは、認識対象が「人」であり、画像データが「人」か「人でない」(以下、「Not」を用いて示す。)かを認識する。そして、教師モデルAは、認識結果として、クラス「人」及びクラス「Not人」のそれぞれについて認識の確からしさを示す信頼度を出力する。同様に、教師モデルBは、認識対象が「車」であり、画像データが「車」か「車でない」かを認識する。そして、教師モデルBは、認識結果として、クラス「車」及びクラス「Not車」のそれぞれについて認識の確からしさを示す信頼度を出力する。教師モデルCは、認識対象が「信号」であり、画像データが「信号」か「信号でない」かを認識する。そして、教師モデルCは、認識結果として、クラス「信号」及びクラス「Not信号」のそれぞれについて認識の確からしさを示す信頼度を出力する。
 なお、教師モデルA~Cは、画像データがある認識対象(本例では「人」など)であることを示すクラス(以下「肯定クラス」とも呼ぶ。)と、画像データがその認識対象でないことを示すクラス(「Not」で示されるクラスであり、以下「否定クラス」とも呼ぶ。)との2つのクラスを認識する2クラス認識モデルである。このように、ある認識対象の有無を示す2つのクラスを、本明細書では「否定型2クラス」とも呼ぶ。
 教師モデルA~C及び生徒モデルには、蒸留用の画像データが入力される。蒸留用の画像データとしては、生徒モデルが配置される場所で収集された画像データが使用される。教師モデルA~Cは、それぞれ入力された画像データの認識を行う。教師モデルAは、入力された画像データが「人」であるか否かの認識を行い、「人」である信頼度と「人でない」信頼度とを出力する。教師モデルBは、入力された画像データが「車」であるか否かの認識を行い、「車」である信頼度と「車でない」信頼度とを出力する。教師モデルCは、入力された画像データが「信号」であるか否かの認識を行い、「信号」である信頼度と「信号でない」信頼度とを出力する。
 教師モデルA~Cによる認識結果は統合され、教師モデル信頼度が生成される。「教師モデル信頼度」は、入力された画像データに対して教師モデル側で総合的に生成された信頼度であり、教師モデルA~Cによる認識結果に基づいて生成される、ターゲットクラス毎の信頼度である。具体的には、ある画像データXについて、教師モデルAが出力した「人」である信頼度と、教師モデルBが出力した「車」である信頼度と、教師モデルCが出力した「信号」である信頼度を統合し、教師モデル信頼度が生成される。図1の例では、ある画像データXを教師モデルA~Cに入力したところ、教師モデルAは「人」である信頼度72%を出力し、教師モデルBは「車」である信頼度2%を出力し、教師モデルCは「信号」である信頼度1%を出力した。よって、これらを統合して生成される教師モデル信頼度は、車が人72%、車が2%、信号が1%という比率となる。なお、実際には、これらの比率は、合計が100%になるように正規化されて使用される。
 一方、生徒モデルは、同一の画像データXの認識を行い、3つのターゲットクラス(人、車、信号)についてそれぞれ信頼度を出力する。ここで、生徒モデルは、初期値のパラメータが設定されている内部のネットワークにより画像データの認識を行うため、基本的にその認識結果は教師モデルA~Cとは異なる。そこで、生徒モデルは、教師モデルA~Cの出力に基づいて生成された教師モデル信頼度と同一の信頼度を出力するように学習が行われる。具体的には、生徒モデルが出力する各ターゲットクラスの信頼度が教師モデル信頼度と一致するように、生徒モデルを構成するネットワークの内部パラメータが修正される。図1の例では、画像データXが入力されたときに、生徒モデルの出力が「人」である信頼度が72%、「車」である信頼度が2%、「信号」である信頼度が1%の比率となるように、生徒モデルのパラメータが修正される。こうして、いわゆる蒸留という手法により、学習済みの教師モデルの出力をまねるように生徒モデルが構成される。
 この手法では、教師モデルとして様々な認識対象について否定型2クラスのモデルを用意しておけば、あらゆる生徒モデルのターゲットクラスに適応することが可能となる。例えば、教師モデルとして、さらに認識対象クラス「自転車」、「歩道橋」などを用意しておけば、「人」、「車」、「信号」、「自転車」をターゲットクラスとする新たな生徒モデルや、「人」、「車」、「信号」、「歩道橋」をターゲットクラスとする新たな生徒モデルを生成することができる。よって、様々なニーズに応じて、高精度の教師モデルを組み合わせて新たなターゲットモデルを生成することが可能となる。
 [第1実施形態]
 次に、本発明の第1実施形態について説明する。
 (ハードウェア構成)
 図2は、第1実施形態に係るモデル生成装置のハードウェア構成を示すブロック図である。図示のように、モデル生成装置10は、インタフェース(IF)12と、プロセッサ13と、メモリ14と、記録媒体15と、データベース(DB)16と、を備える。
 インタフェース12は、外部装置との通信を行う。具体的に、インタフェース12は、蒸留用の画像データを外部から入力したり、最終的に決定された生徒モデルのパラメータを外部装置へ出力したりする際に使用される。
 プロセッサ13は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、モデル生成装置10の全体を制御する。メモリ14は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ14は、プロセッサ13により実行される各種のプログラムを記憶する。また、メモリ14は、プロセッサ13による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体15は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、モデル生成装置10に対して着脱可能に構成される。記録媒体15は、プロセッサ13が実行する各種のプログラムを記録している。モデル生成装置10がモデル生成処理を実行する際には、記録媒体15に記録されているプログラムがメモリ14にロードされ、プロセッサ13により実行される。
 データベース16は、モデル生成処理において使用される、蒸留用の画像データを記憶する。なお、上記に加えて、モデル生成装置10は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。
 (機能構成)
 次に、モデル生成装置10の機能構成について説明する。図3は、モデル生成装置10の機能構成を示すブロック図である。モデル生成装置10は、大別して、教師モデル部20と、生徒モデル部30とを備える。教師モデル部20は、画像入力部21と、2クラス認識部22a~22cと、信頼度生成部23とを備える。また、生徒モデル部30は、生徒モデル認識部32と、ロス算出部33と、パラメータ修正部34とを備える。
 画像入力部21には、蒸留用の画像データが入力される。蒸留用の画像データは、通常、生徒モデルを用いた画像認識装置が使用される現場で撮影されたものである。画像入力部21は、2クラス認識部22a~22cと、生徒モデル認識部32に同一の画像データを供給する。
 2クラス認識部22a~22cは、予め学習済みの教師モデルを使用する認識部であり、それぞれが否定型2クラスの認識、即ち認識対象の有無の認識を行う。具体的に、2クラス認識部22aは画像データが「人」か「人でない」かの認識を行い、2クラス認識部22bは画像データが「車」か「車でない」かの認識を行い、2クラス認識部22cは画像データが「信号」か「信号でない」かの認識を行う。2クラス認識部22a~22cは、画像入力部21から供給された蒸留用の画像データに対して認識を行い、認識結果として、それぞれの肯定クラス及び否定クラスの信頼度を出力する。例えば、2クラス認識部22aは、肯定クラス「人」の信頼度と、否定クラス「人でない」の信頼度とを出力する。同様に、2クラス認識部22bは、肯定クラス「車」の信頼度と否定クラス「車でない」の信頼度を出力し、2クラス認識部22cは、肯定クラス「信号」の信頼度と否定クラス「信号でない」の信頼度を出力する。
 信頼度生成部23は、2クラス認識部22a~22cから出力された認識結果に基づいて、教師モデル信頼度を生成する。具体的には、信頼度生成部23は、2クラス認識部22a~22cが出力した各肯定クラスの信頼度を統合する。いま、図4に示すように、2クラス認識部22aが出力した肯定クラス「人」の信頼度を「p」、2クラス認識部22bが出力した肯定クラス「車」の信頼度を「p」、2クラス認識部22cが出力した肯定クラス「信号」の信頼度を「p」とすると、信頼度生成部23は、クラス「人」の信頼度pperson、クラス「車」の信頼度pcar、クラス「信号」の信頼度psignalを以下のように算出する。
Figure JPOXMLDOC01-appb-M000001
       
 なお、仮に図1の例と同様に、2クラス認識部22aが出力した肯定クラス「人」の信頼度が72%、2クラス認識部22bが出力した肯定クラス「車」の信頼度が2%、2クラス認識部22cが出力した肯定クラス「信号」の信頼度が1%であるとすると、クラス人の信頼度ppersonは以下のようになる。
Figure JPOXMLDOC01-appb-M000002
       
 なお、実際には、信頼度生成部23は、こうして得られた各クラスの信頼度を、合計が100%となるように正規化して使用する。なお、上記の例を正規化すると、各クラスの信頼度Pperson、Pcar、Psignalは以下のようになる。
   Pperson=96%、Pcar=3%、Psignal=1%
 信頼度生成部23は、生成した教師モデル信頼度をロス算出部33に供給する。
 生徒モデル認識部32は、新たに作成するターゲットモデルに相当し、内部にディープニューラルネットワーク(DNN)などを備える。生徒モデル認識部32は、2クラス認識部22a~22cが認識したのと同一の画像データの認識を行い、認識結果をロス算出部33に出力する。本実施形態では、生徒モデル認識部32は「人」、「車」、「信号」をターゲットクラスとするため、認識結果として、クラス「人」の信頼度、クラス「車」の信頼度、クラス「信号」の信頼度を出力する。生徒モデル認識部32が出力するこれらの信頼度を「生徒モデル信頼度」とも呼ぶ。なお、生徒モデル認識部32は、これら3つのクラスの信頼度の合計が100%となるように信頼度を出力する。
 ロス算出部33は、信頼度生成部23から出力された教師モデル信頼度と、生徒モデル認識部32から出力された生徒モデル信頼度とを比較し、ロス(差分)を算出してパラメータ修正部34に供給する。パラメータ修正部34は、ロス算出部33が算出したロスが小さくなるように、最適には0になるように、生徒モデル認識部32の内部ネットワークのパラメータを修正する。教師モデル信頼度と生徒モデル信頼度のロスが0になるということは、同一の画像データに対する教師モデル部20の認識結果(信頼度)と、生徒モデル認識部32の認識結果(信頼度)とが一致するということである。こうして、生徒モデル認識部32に教師モデルの知識を伝達し、高精度なターゲットモデルを生成することが可能となる。
 (モデル生成処理)
 次に、モデル生成処理について説明する。図4は、モデル生成装置10によるモデル生成処理のフローチャートである。この処理は、図2に示すプロセッサ13が予め用意されたプログラムを実行することにより実現される。
 まず、画像入力部21から2クラス認識部22a~22c及び生徒モデル認識部32に蒸留用の画像データが入力される(ステップS11)。2クラス認識部22a~22cは、画像データの認識を行い、それぞれ信頼度を算出して信頼度生成部23に出力する(ステップS12)。信頼度生成部23は、2クラス認識部22a~22cから入力された信頼度に基づいて、教師モデル信頼度を生成する(ステップS13)。
 一方、生徒モデル認識部32は、同一の画像データの認識を行い(ステップS14)、認識結果として生徒モデル信頼度を生成する(ステップS15)。ロス算出部33は、信頼度算出部23が生成した教師モデル信頼度と、生徒モデル認識部32が生成した生徒モデル信頼度のロスを算出する(ステップS16)。パラメータ修正部34は、ロス算出部33が算出したロスが小さくなるように、生徒モデル認識部の内部パラメータを修正する(ステップS17)。
 次に、モデル生成装置10は、所定の終了条件が具備されたか否かを判定する(ステップS18)。モデル生成装置10は、終了条件が具備されるまでステップS11~S17を繰返し、終了条件が具備されると(ステップS18:Yes)、処理を終了する。なお、「所定の終了条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。モデル生成装置10は、予め用意された全ての蒸留用の画像データについて上記のモデル生成処理を行う。こうして生成された生徒モデル認識部32は、学習済みの認識部として画像認識装置に使用される。
 (変形例)
 上記の実施形態では、信頼度生成部23は、上記の式(1)~(3)に示すように、2クラス認識部22a~22cが出力した信頼度の値そのものを用いて教師モデル信頼度を生成している。その代わりに、信頼度生成部23は、2クラス認識部22a~22cが出力した信頼度の値に対して重み付けを行って教師モデル信頼度を生成してもよい。例えば、2クラス認識部22a~22cが出力した信頼度に対する重みを「α」、「β」、「γ」とすると、信頼度生成部23は、クラス「人」の信頼度pperson、クラス「車」の信頼度pcar、クラス「信号」の信頼度psignalを以下のように算出する。
Figure JPOXMLDOC01-appb-M000003
       
 この場合、2クラス認識部22a~22cが出力した信頼度のうち、特に小さい値の信頼度に対しては、大きな重み付けを行うことが好ましい。例えば、各2クラス認識部22a~22cが出力した信頼度に差がある場合には、信頼度の小さい「車(2%)」や「信号(1%)」の信頼度に対して、信頼度の大きい「人(72%)」よりも大きい重みを与えることが好ましい。上記の例では、重み「β」、「γ」を重み「α」よりも大きい値とする。これにより、教師モデルから生徒モデル認識部32に伝達される認識のための知識が特定のクラスに偏りすぎることを防止でき、様々な認識対象を適切に認識可能なターゲットモデルを生成することが可能となる。
 [第2実施形態]
 次に、本発明の第2実施形態について説明する。上述の第1実施形態では、教師モデル部20に使用される2クラス認識部22a~22cは、それぞれ1つの認識対象の有無、即ち、1つの認識対象について肯定クラスと否定クラスを認識するものであった。これに対し、第2実施形態では、複数の認識対象を認識する認識部を用いる点が第1実施形態と異なる。なお、第2実施形態に係るモデル生成装置のハードウェア構成は、図2に示す第1実施形態のものと同様である。
 図6は、第2実施形態に係るモデル生成装置10xの機能構成を示すブロック図である。図3と比較すると理解されるように、モデル生成装置10xは、2クラス認識部22a~22cの代わりに認識部22e~22gを有する点が第1実施形態のモデル生成装置10と異なるが、それ以外はモデル生成装置10と同様であり、同様に動作する。
 例えば、図7に示すように、認識部22eは「人」と「車」を認識対象クラスとし、認識部22fは「人」と「自転車」を認識対象クラスとし、認識部22gは「信号」と「建物」を認識対象クラスとする。一方、生徒モデル認識部32は、第1実施形態と同様に、「人」、「車」、「信号」を認識対象クラスとするものとする。この場合、信頼度算出部23は、認識部22eから出力される「人」及び「車」の信頼度と、認識部22fから出力される「車」の信頼度と、認識部22gから出力される「信号」の信頼度を統合して、教師モデル信頼度を生成する。そして、パラメータ修正部34は、教師モデル信頼度と生徒モデル信頼度とが一致するように、生徒モデル認識部32のパラメータを調整する。
 このように、教師モデル部20で使用される認識部が複数の認識対象クラスを有するモデルである場合でも、第1実施形態と同様に、教師モデルの知識を利用してターゲットモデルを生成することができる。
 [第3実施形態]
 次に、本発明の第3実施形態について説明する。図8は、第3実施形態によるモデル生成装置40の機能構成を示す。なお、モデル生成装置40は、図2に示すハードウェア構成により実現される。
 図示のように、モデル生成装置40は、複数の認識部41と、信頼度生成部42と、ターゲットモデル認識部43と、パラメータ調整部44とを備える。複数の認識部41の各々は、学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する。信頼度生成部42は、複数の認識部41が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する。なお、「ターゲットモデル」とは、モデル生成装置40が生成しようとするモデルであり、「ターゲットクラス」とは、ターゲットモデルの認識対象クラスである。
 ターゲットモデル認識部43は、ターゲットモデルを用いて、複数の認識部41が認識したのと同一の画像データを認識し、ターゲットクラス毎の信頼度を出力する。パラメータ調整部44は、信頼度生成部42が生成したターゲットクラス毎の信頼度と、ターゲットモデル認識部43が出力したターゲットクラス毎の信頼度とが一致するように、ターゲットモデルのパラメータを調整する。こうして、学習済みの複数の認識部41を用いて、ターゲットモデルを生成することができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識部と、
 前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する信頼度生成部と、
 ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識部と、
 前記信頼度生成部が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識部が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整部と、
 を備えるモデル生成装置。
 (付記2)
 前記信頼度生成部は、前記複数の認識部が出力したクラス毎の信頼度のうち、前記ターゲットクラスに含まれるクラスの信頼度を統合して、前記ターゲットクラス毎の信頼度を生成する付記1に記載のモデル生成装置。
 (付記3)
 前記複数の認識部の各々は、前記画像データが認識対象を含むことを示す肯定クラス、及び、前記画像データが認識対象を含まないことを示す否定クラスについて信頼度を出力する2クラス認識部である付記1又は2に記載のモデル生成装置。
 (付記4)
 前記信頼度生成部は、前記複数の認識部の各々が、前記肯定クラスについて出力した信頼度を用いて、前記ターゲットクラス毎の信頼度を生成する付記3又は4に記載のモデル生成装置。
 (付記5)
 前記信頼度生成部は、前記複数の認識部が出力した肯定クラスの信頼度の合計に対する各肯定クラスの信頼度の割合に基づいて、前記ターゲットクラス毎の信頼度を生成する付記4に記載のモデル生成装置。
 (付記6)
 前記信頼度生成部は、前記割合を正規化した値を、前記ターゲットクラス毎の信頼度とする付記5に記載のモデル生成装置。
 (付記7)
 前記複数の認識部の各々は、異なる認識対象を認識する付記3乃至6のいずれか一項に記載のモデル生成装置。
 (付記8)
 前記複数の認識部の各々は、前記複数のターゲットクラスのうちの1つのクラスの認識対象を認識する付記7に記載のモデル生成装置。
 (付記9)
 前記複数の認識部の各々は、異なる複数の認識対象の認識を行う付記1又は2に記載のモデル生成装置。
 (付記10)
 前記複数の認識部の各々は、少なくとも前記複数のターゲットクラスのうちの1つのクラスを認識対象として含む付記9に記載のモデル生成装置。
 (付記11)
 学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
 前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
 ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
 前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するモデル生成方法。
 (付記12)
 学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
 前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
 ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
 前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 10、10x、40 モデル生成装置
 22a~22c 2クラス認識部
 22e~22g 認識部
 23 信頼度生成部
 32 生徒モデル認識部
 33 ロス算出部
 34 パラメータ修正部

Claims (12)

  1.  学習済みモデルを用いて画像データを認識し、各々が認識対象とするクラス毎に信頼度を出力する複数の認識部と、
     前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の信頼度を生成する信頼度生成部と、
     ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の信頼度を出力するターゲットモデル認識部と、
     前記信頼度生成部が生成した前記ターゲットクラス毎の信頼度と、前記ターゲットモデル認識部が出力した前記ターゲットクラス毎の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するパラメータ調整部と、
     を備えるモデル生成装置。
  2.  前記信頼度生成部は、前記複数の認識部が出力したクラス毎の信頼度のうち、前記ターゲットクラスに含まれるクラスの信頼度を統合して、前記ターゲットクラス毎の信頼度を生成する請求項1に記載のモデル生成装置。
  3.  前記複数の認識部の各々は、前記画像データが認識対象を含むことを示す肯定クラス、及び、前記画像データが認識対象を含まないことを示す否定クラスについて信頼度を出力する2クラス認識部である請求項1又は2に記載のモデル生成装置。
  4.  前記信頼度生成部は、前記複数の認識部の各々が、前記肯定クラスについて出力した信頼度を用いて、前記ターゲットクラス毎の信頼度を生成する請求項3又は4に記載のモデル生成装置。
  5.  前記信頼度生成部は、前記複数の認識部が出力した肯定クラスの信頼度の合計に対する各肯定クラスの信頼度の割合に基づいて、前記ターゲットクラス毎の信頼度を生成する請求項4に記載のモデル生成装置。
  6.  前記信頼度生成部は、前記割合を正規化した値を、前記ターゲットクラス毎の信頼度とする請求項5に記載のモデル生成装置。
  7.  前記複数の認識部の各々は、異なる認識対象を認識する請求項3乃至6のいずれか一項に記載のモデル生成装置。
  8.  前記複数の認識部の各々は、前記複数のターゲットクラスのうちの1つのクラスの認識対象を認識する請求項7に記載のモデル生成装置。
  9.  前記複数の認識部の各々は、異なる複数の認識対象の認識を行う請求項1又は2に記載のモデル生成装置。
  10.  前記複数の認識部の各々は、少なくとも前記複数のターゲットクラスのうちの1つのクラスを認識対象として含む請求項9に記載のモデル生成装置。
  11.  学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
     前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
     ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
     前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整するモデル生成方法。
  12.  学習済みモデルを用いる複数の認識部により画像データを認識し、前記複数の認識部の各々が認識対象とするクラス毎に信頼度を出力し、
     前記複数の認識部が出力する信頼度に基づいて、複数のターゲットクラス毎の第1の信頼度を生成し、
     ターゲットモデルを用いて前記画像データを認識し、前記ターゲットクラス毎の第2の信頼度を出力し、
     前記第1の信頼度と、前記第2の信頼度とが一致するように、前記ターゲットモデルのパラメータを調整する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2019/035014 2019-09-05 2019-09-05 モデル生成装置、モデル生成方法、及び、記録媒体 WO2021044591A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/640,571 US20220301293A1 (en) 2019-09-05 2019-09-05 Model generation apparatus, model generation method, and recording medium
PCT/JP2019/035014 WO2021044591A1 (ja) 2019-09-05 2019-09-05 モデル生成装置、モデル生成方法、及び、記録媒体
JP2021543900A JP7405145B2 (ja) 2019-09-05 2019-09-05 モデル生成装置、モデル生成方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/035014 WO2021044591A1 (ja) 2019-09-05 2019-09-05 モデル生成装置、モデル生成方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2021044591A1 true WO2021044591A1 (ja) 2021-03-11

Family

ID=74853291

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/035014 WO2021044591A1 (ja) 2019-09-05 2019-09-05 モデル生成装置、モデル生成方法、及び、記録媒体

Country Status (3)

Country Link
US (1) US20220301293A1 (ja)
JP (1) JP7405145B2 (ja)
WO (1) WO2021044591A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022201534A1 (ja) * 2021-03-26 2022-09-29

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3192012A4 (en) * 2014-09-12 2018-01-17 Microsoft Technology Licensing, LLC Learning student dnn via output distribution
WO2018126213A1 (en) * 2016-12-30 2018-07-05 Google Llc Multi-task learning using knowledge distillation
KR102570278B1 (ko) * 2017-07-31 2023-08-24 삼성전자주식회사 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
US11410029B2 (en) * 2018-01-02 2022-08-09 International Business Machines Corporation Soft label generation for knowledge distillation
CN109783824B (zh) * 2018-12-17 2023-04-18 北京百度网讯科技有限公司 基于翻译模型的翻译方法、装置及存储介质
GB2598052B (en) * 2019-03-22 2023-03-15 Ibm Unification of models having respective target classes with distillation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUNTING ZHANG ET AL.: "Class-incremental Learning via Deep Model Consolidation", ARXIV:1903.07864V3, 14 August 2019 (2019-08-14), pages 1 - 15, XP033771021, Retrieved from the Internet <URL:https://arxiv.org/pdf/1903.07864v3.pdf> [retrieved on 20191111] *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022201534A1 (ja) * 2021-03-26 2022-09-29
WO2022201534A1 (ja) * 2021-03-26 2022-09-29 三菱電機株式会社 再学習システム及び再学習方法
JP7412632B2 (ja) 2021-03-26 2024-01-12 三菱電機株式会社 再学習システム及び再学習方法

Also Published As

Publication number Publication date
US20220301293A1 (en) 2022-09-22
JPWO2021044591A1 (ja) 2021-03-11
JP7405145B2 (ja) 2023-12-26

Similar Documents

Publication Publication Date Title
US10410114B2 (en) Model training method and apparatus, and data recognizing method
US9390373B2 (en) Neural network and method of neural network training
JP6287999B2 (ja) ニューラルネットワーク学習装置
KR20190013011A (ko) 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
US20180260695A1 (en) Neural network compression via weak supervision
US20190073591A1 (en) Execution of a genetic algorithm having variable epoch size with selective execution of a training algorithm
CN115618941A (zh) 训练精炼的机器学习模型
Nguyen et al. A supervised learning approach for imbalanced data sets
EP3502978A1 (en) Meta-learning system
CN103093247B (zh) 一种植物图片的自动分类方法
WO2021044591A1 (ja) モデル生成装置、モデル生成方法、及び、記録媒体
JP2020107331A (ja) 一般化されたユーザモデルを用いたユーザ認証方法及び装置
CN111967015B (zh) 一种提升分布式学习系统拜占庭鲁棒性的防御代理方法
KR20210060146A (ko) 딥 뉴럴 네트워크 모델을 이용한 데이터 처리 방법 및 장치, 딥 뉴럴 네트워크 모델을 학습시키는 학습 방법 및 장치
JP2021103344A (ja) 学習支援装置、学習装置、学習支援方法及び学習支援プログラム
CN115147660A (zh) 基于增量学习的图像分类方法、装置、设备及存储介质
WO2021199226A1 (ja) 学習装置、学習方法、及びコンピュータ読み取り可能な記録媒体
JP2020052935A (ja) 学習済みモデルを生成する方法、データを分類する方法、コンピュータおよびプログラム
EP3955166A2 (en) Training in neural networks
JP7310927B2 (ja) 物体追跡装置、物体追跡方法及び記録媒体
JPH08202388A (ja) 音声認識装置及び音声認識方法
US20220277200A1 (en) Fast quantised training of trainable modules
JPWO2021044591A5 (ja) モデル生成装置、モデル生成方法、及び、プログラム
WO2022249308A1 (ja) 設計方法および記録媒体
JP2019204268A (ja) ニューラルネットワークを用いた情報処理方法、システムおよびその構築システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19944103

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021543900

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19944103

Country of ref document: EP

Kind code of ref document: A1