WO2021245819A1 - 学習装置、学習済みモデル生成方法、及び、記録媒体 - Google Patents

学習装置、学習済みモデル生成方法、及び、記録媒体 Download PDF

Info

Publication number
WO2021245819A1
WO2021245819A1 PCT/JP2020/021875 JP2020021875W WO2021245819A1 WO 2021245819 A1 WO2021245819 A1 WO 2021245819A1 JP 2020021875 W JP2020021875 W JP 2020021875W WO 2021245819 A1 WO2021245819 A1 WO 2021245819A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
identification
normal
loss
abnormal
Prior art date
Application number
PCT/JP2020/021875
Other languages
English (en)
French (fr)
Inventor
智一 金子
真 寺尾
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US18/007,569 priority Critical patent/US20230215152A1/en
Priority to JP2022529202A priority patent/JP7396479B2/ja
Priority to PCT/JP2020/021875 priority patent/WO2021245819A1/ja
Publication of WO2021245819A1 publication Critical patent/WO2021245819A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Definitions

  • the present invention relates to an image identification method using domain adaptation.
  • Domain adaptation is a method of learning a classifier of a diversion destination (target domain) using teacher data of a diversion source (source domain). Techniques for learning discriminators using domain adaptation are described in Patent Document 1 and Non-Patent Document 1.
  • the method described in the above documents is based on the premise that a data set such as a public data set in which teacher data is abundantly and evenly collected is used as the source domain.
  • a data set such as a public data set in which teacher data is abundantly and evenly collected is used as the source domain.
  • One object of the present invention is to provide a learning device capable of generating a highly accurate discriminative model by using domain adaptation even when the sample size of some classes of the source domain is small.
  • the learning device Feature extraction means for extracting image features from input images, A class identification means that identifies a class of the input image based on the image feature amount and generates a class identification result.
  • a class identification loss calculation means for calculating a class identification loss based on the class identification result, and a class identification loss calculation means.
  • a normal / abnormal discrimination means that discriminates whether the class is a normal class or an abnormal class based on the image feature amount and generates a normal / abnormal discrimination result.
  • AUC loss calculation means for calculating AUC loss based on the normal / abnormal discrimination result, and A first learning means for updating the parameters of the feature extraction means, the class identification means, and the normal / abnormal identification means based on the class identification loss and the AUC loss.
  • a domain identification means that identifies the domain of the input image based on the image feature amount and generates a domain identification result.
  • a domain identification loss calculation means for calculating a domain identification loss based on the domain identification result, and a domain identification loss calculation means.
  • a second learning means for updating the parameters of the feature extraction means and the domain identification means based on the domain identification loss is provided.
  • the trained model generation method The image feature amount is extracted from the input image using the feature extraction model, and Based on the image feature amount, the class of the input image is identified using the class identification model to generate a class identification result. Based on the class identification result, the class identification loss is calculated. Based on the image feature amount, the normal / abnormal discrimination model is used to discriminate whether the class is a normal class or an abnormal class, and a normal / abnormal discrimination result is generated. The AUC loss is calculated based on the normal / abnormal discrimination result. Based on the class discrimination loss and the AUC loss, the parameters of the feature extraction model, the class discrimination model, and the normal / abnormal discrimination model are updated.
  • the domain of the input image is identified using the domain identification model to generate a domain identification result. Based on the domain identification result, the domain identification loss is calculated. Based on the domain identification loss, the parameters of the feature extraction model and the domain identification model are updated.
  • the recording medium is: The image feature amount is extracted from the input image using the feature extraction model, and Based on the image feature amount, the class of the input image is identified using the class identification model to generate a class identification result. Based on the class identification result, the class identification loss is calculated. Based on the image feature amount, the normal / abnormal discrimination model is used to discriminate whether the class is a normal class or an abnormal class, and a normal / abnormal discrimination result is generated. The AUC loss is calculated based on the normal / abnormal discrimination result. Based on the class discrimination loss and the AUC loss, the parameters of the feature extraction model, the class discrimination model, and the normal / abnormal discrimination model are updated.
  • the domain of the input image is identified using the domain identification model to generate a domain identification result. Based on the domain identification result, the domain identification loss is calculated.
  • a program that causes a computer to execute a process of updating the parameters of the feature extraction model and the domain identification model based on the domain identification loss is recorded.
  • the overall configuration of the learning apparatus according to the first embodiment is shown. It is a block diagram which shows the hardware composition of a learning apparatus. It is a block diagram which shows the functional structure of a learning apparatus. An example of the configuration of the normal / abnormal identification unit is shown. It is a figure explaining an example of the operation of a normal / abnormality identification part. It is a flowchart of the discriminative model generation process by a learning device. It is a block diagram which shows the functional structure of the learning apparatus which concerns on 2nd Embodiment.
  • FIG. 1 shows the overall configuration of the learning device according to the first embodiment.
  • the learning device 100 uses domain adaptation to learn the discriminative model used in the target domain.
  • the learning device 100 is connected to a teacher database (hereinafter, “database” is referred to as “DB”).
  • the teacher DB 2 stores teacher data used for learning the discriminative model.
  • the teacher data is data prepared in advance for learning the discriminative model, and is a pair of an input image and a correct label for the input image.
  • An "input image” is an image obtained in a source domain or a target domain.
  • the "correct answer label” is a label indicating the correct answer for the input image.
  • the correct answer label includes a class correct answer label, a normal / abnormal correct answer label, and a domain correct answer label.
  • a class correct answer label and a normal / abnormal correct answer label are prepared.
  • the "class correct answer label” is a label indicating the correct answer of the class identification result by the discrimination model, that is, the correct answer of the class such as the object shown by the input image.
  • the "normal / abnormal correct answer label” is a label indicating the correct answer as to whether the class such as an object shown by the input image is a normal class or an abnormal class.
  • Each class to be identified by the discriminative model is classified into either a normal class or an abnormal class in advance, and the normal / abnormal correct answer label is the class of the object indicated by the input image, which is the normal class and the abnormal class. It is a label indicating which of the above belongs to.
  • domain correct labels are prepared for input images obtained from both the source domain and the target domain.
  • the "domain correct answer label” is a label indicating whether the input image is an image obtained in the source domain or the target domain.
  • the discriminative model to be learned is a product identification model that identifies a product class from a product image
  • a product image collected from a shopping site on the Web is used as a source domain, and a product handled in a physical store as a target domain. Images can be used.
  • the product class that is rarely handled on the Web can be regarded as an abnormal class because the sample of the product image is small. Therefore, among the plurality of product classes to be identified, the product class that is rarely handled on the Web is set as the abnormal class, and the other product classes are set as the normal class.
  • the camera A installed in one place is set as the source domain
  • the camera B installed in another place is set as the target domain.
  • the class of the object or event can be regarded as an abnormal class.
  • rare person attributes such as firefighters and police officers can be set as an abnormal class
  • other person attributes can be set as a normal class.
  • FIG. 2 is a block diagram showing a hardware configuration of the learning device 100.
  • the learning device 100 includes an interface (hereinafter referred to as “IF”) 11, a processor 12, a memory 13, a recording medium 14, and a database (DB) 15.
  • IF interface
  • DB database
  • IF11 inputs and outputs data to and from an external device.
  • the teacher data stored in the teacher DB 2 is input to the learning device 100 via the IF 11.
  • the processor 12 is a computer such as a CPU (Central Processing Unit), and controls the entire learning device 100 by executing a program prepared in advance. Specifically, the processor 12 executes the discriminative model generation process described later.
  • CPU Central Processing Unit
  • the memory 13 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the memory 13 is also used as a working memory during execution of various processes by the processor 12.
  • the recording medium 14 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be removable from the learning device 100.
  • the recording medium 14 records various programs executed by the processor 12. When the learning device 100 executes various processes, the program recorded on the recording medium 14 is loaded into the memory 13 and executed by the processor 12.
  • Database 15 temporarily stores teacher data input through IF11. Further, the database 15 stores parameters such as a neural network constituting an identification model of each identification unit described later in the learning device 100.
  • the learning device 100 may include an input unit such as a keyboard and a mouse for the user to give instructions and inputs, and a display unit such as a liquid crystal display.
  • FIG. 3 is a block diagram showing a functional configuration of the learning device 100.
  • the learning device 100 includes a feature amount extraction unit 21, a class identification unit 22, a normal / abnormal identification unit 23, a domain identification unit 24, a class identification learning unit 25, and a class identification loss calculation unit 26.
  • An AUC (Area Under an ROC Curve) loss calculation unit 27, a domain identification loss calculation unit 28, and a domain identification learning unit 29 are provided.
  • the input image of the teacher data is input to the feature extraction unit 21.
  • the feature extraction unit 21 extracts the image feature amount D1 from the input image by a CNN (Convolutional Neural Network) or other method, and outputs the image feature amount D1 to the class identification unit 22, the normal / abnormality identification unit 23, and the domain identification unit 24.
  • a CNN Convolutional Neural Network
  • the class identification unit 22 identifies the class of the input image based on the image feature amount D1, and outputs the class identification result D2 to the class identification loss calculation unit 26.
  • the class identification unit 22 identifies the class of the input image by using a class identification model using various machine learning methods, neural networks, and the like.
  • the class identification result D2 includes a confidence score for each class to be identified.
  • the class identification loss calculation unit 26 calculates the class identification loss D3 using the class identification result D2 and the class correct answer label for the input image included in the teacher data, and outputs the class identification loss D3 to the class identification learning unit 25.
  • the class identification loss calculation unit 26 calculates a loss such as cross entropy using the class identification result D2 and the class correct answer label, and outputs the loss as the class identification loss D3 to the class identification learning unit 25.
  • the normal / abnormal discrimination unit 23 generates a normal / abnormal discrimination result D5 indicating whether the input image is a normal class or an abnormal class based on the image feature amount D1, and outputs the normal / abnormal discrimination result D5 to the AUC loss calculation unit 27. Specifically, the normal / abnormal identification unit 23 calculates the normal / abnormal score g P (x) indicating the normal class likeness for each sample x of the input image by the following formula, and sets it as the normal / abnormal identification result D5. Output.
  • FIG. 4A shows an example of the configuration of the normal / abnormal identification unit 23.
  • the example of FIG. 4A is an example in which the class identification unit 22 performs two-class identification.
  • the class identification unit 22 identifies whether the input image is a class X or a class Y.
  • class X is a normal class
  • class Y is an abnormal class.
  • the normal / abnormal identification unit 23 may calculate the normal / abnormal score indicating the normality of the class using the same discrimination model as the class identification unit 22, and output it as the normal / abnormal identification result D5.
  • FIG. 4B shows another example of the configuration of the normal / abnormal identification unit 23.
  • the example of FIG. 4B is an example in which the class identification unit 22 performs multi-class identification of three or more classes.
  • the normal / abnormal identification unit 23 includes a class identification unit 23a for performing multi-class identification and a normal / abnormal score calculation unit 23b.
  • the class identification unit 23a may have the same configuration as the class identification unit 22.
  • the class identification unit 23a calculates the reliability score p ⁇ (i
  • the normal / abnormal score calculation unit 23b calculates a normal / abnormal score g P (x) indicating the normality class for each sample x of the input image based on the input reliability score p ⁇ (i
  • FIG. 5 is a diagram illustrating an example of the operation of the normal / abnormal identification unit 23 shown in FIG. 4 (B).
  • the class identification unit 23a identifies the five classes A to E. Further, among these five classes, it is assumed that classes A to C are set as normal classes and classes D to E are set as abnormal classes.
  • the class identification unit 23a identifies the class of the input image, calculates the reliability scores Sa to Se of each class, and outputs the normal / abnormal score calculation unit 23b.
  • the normal / abnormal score calculation unit 23b outputs the obtained normal / abnormal score as the normal / abnormal discrimination result D5.
  • the normal / abnormal discrimination result can be calculated even when the class identification unit 22 performs multi-class classification.
  • the AUC loss calculation unit 27 calculates the AUC loss based on the normal / abnormal discrimination result D5 and the normal / abnormal correct answer label included in the teacher data. Specifically, the AUC loss calculation unit 27 first acquires the normal / abnormal correct answer label of each sample x of the input image, and divides each sample x into a normal class and an abnormal class. Next, the AUC loss calculation unit 27 takes out the sample x N of the normal class and the sample x P of the abnormal class and makes a pair.
  • the AUC loss calculation unit 27 uses the difference between the normal / abnormal scores g p (x N ) and g P (x P ) of each sample x N and x P to calculate the AUC loss R sp by the following equation. It is calculated and output to the class identification learning unit 25.
  • the class identification learning unit 25 updates the parameters of the model constituting the feature extraction unit 21, the class identification unit 22, and the normal / abnormality identification unit 23 by the control signal D4 based on the class identification loss D3 and the AUC loss R sp. .. Specifically, the class identification learning unit 25 has a feature extraction unit 21, a class identification unit 22, and a normal / abnormality identification unit 23 so that the class identification loss D3 is small and the AUC loss R sp is small. Update the parameters of.
  • the domain identification unit 24 identifies the domain of the input image based on the image feature amount D1, and outputs the domain identification result D6 to the domain identification loss calculation unit 28.
  • the domain identification result D6 is a score indicating the source domain-likeness or the target domain-likeness of the input image.
  • the domain identification loss calculation unit 28 calculates the domain identification loss D7 based on the domain identification result D6 and the domain correct answer label of the input image included in the teacher data, and outputs the domain identification loss D7 to the domain identification learning unit 29.
  • the domain identification learning unit 29 updates the parameters of the feature extraction unit 21 and the domain identification unit 24 by the control signal D8 based on the domain identification loss D7. Specifically, the domain identification learning unit 29 extracts the image feature amount D1 that makes it difficult for the feature extraction unit 21 to identify the domain, and the domain identification unit 24 can correctly identify the domain. The parameters of the extraction unit 21 and the domain identification unit 24 are updated.
  • the parameters of the feature extraction unit 21, the class identification unit 22, and the normal / abnormality identification unit 23 are updated by using the AUC loss R sp. . It is possible to suppress the adverse effect caused by the imbalance in the number of samples for each class of the input image. Therefore, it is possible to generate a class discrimination model capable of highly accurate discrimination even in a situation where there are few input images of a specific abnormal class.
  • FIG. 6 is a flowchart of the discriminative model generation process by the learning device 100. This process is realized by the processor 12 shown in FIG. 2 executing a program prepared in advance and operating as each element shown in FIG.
  • the input image included in the teacher data is input to the feature extraction unit 21 (step S11), and the feature extraction unit 21 extracts the image feature amount D1 from the input image (step S12).
  • the domain identification unit 24 identifies the domain based on the image feature amount D1 and outputs the domain identification result D6 (step S13).
  • the domain identification result calculation unit 28 calculates the domain identification loss D7 based on the domain identification result D6 and the domain correct answer label (step S14).
  • the domain identification learning unit 29 updates the parameters of the feature extraction unit 21 and the domain identification unit 24 based on the domain identification loss D7 (step S15).
  • steps S13 to S15 are called "domain mixed processing".
  • the class identification unit 22 identifies the class of the input image based on the image feature amount D1 and generates the class identification result D2 (step S16).
  • the class identification loss calculation unit 26 calculates the class identification loss D3 using the class identification result D2 and the class correct answer label (step S17). In addition, steps S16 to S17 are called "class identification loss calculation processing".
  • the normal / abnormal identification unit 23 discriminates whether the input image is a normal class or an abnormal class based on the image feature amount D1, and outputs a normal / abnormal identification result D5 (step S18).
  • the AUC loss calculation unit 27 calculates the AUC loss R sp based on the normal / abnormal discrimination result D5 (step S19). In addition, steps S18 to S19 are called "AUC loss calculation processing".
  • the class identification learning unit 25 updates the parameters of the feature extraction unit 21, the class identification unit 22, and the normal / abnormal identification unit 23 based on the class identification loss D3 and the AUC loss R sp (step S20).
  • steps S16 to S20 are called "class identification learning process”.
  • the learning device 100 determines whether or not to end learning (step S21).
  • the learning device 100 determines that the learning is completed when the class identification loss, the AUC loss, and the domain identification loss converge within a predetermined range. If the learning is not completed (step S21: No), the process returns to step S11, and the processes of steps S11 to S20 are repeated using another input image. On the other hand, when the learning is finished (step S21: Yes), the process is finished.
  • the domain mixing process (steps S13 to S15) is followed by the class identification learning process (steps S16 to S20), but the order of the domain mixing process and the class identification learning process may be reversed. good.
  • the AUC loss calculation process (steps S18 to 19) is performed after the class identification loss calculation process (steps S16 to S17), but the order of the class identification loss calculation process and the AUC loss calculation process is changed. It may be reversed.
  • the parameter is updated based on the class identification loss and the AUC loss in step S20.
  • a step of updating the parameter based on the class identification loss is provided after step S17, and step S20. Then, the parameter may be updated based on the AUC loss.
  • FIG. 7 is a block diagram showing a functional configuration of the learning device 70 according to the second embodiment.
  • the learning device 70 includes a feature extraction means 71, a class identification means 72, a normal / abnormality identification means 73, a domain identification means 74, a first learning means 75, and a class identification loss calculation means 76.
  • the AUC loss calculation means 77, the domain identification loss calculation means 78, and the second learning means 79 are provided.
  • the feature extraction means 71 extracts an image feature amount from the input image.
  • the class identification means 72 identifies the class of the input image based on the image feature amount, and generates the class identification result.
  • the class identification loss calculation means 76 calculates the class identification loss based on the class identification result.
  • the normal / abnormal discrimination means 73 discriminates whether the class is a normal class or an abnormal class based on the image feature amount, and generates a normal / abnormal discrimination result.
  • the AUC loss calculation means 77 calculates the AUC loss based on the normal / abnormal discrimination result.
  • the first learning means 75 updates the parameters of the feature extraction means, the class identification means, and the normal / abnormal identification means based on the class identification loss and the AUC loss.
  • the domain identification means 74 identifies the domain of the input image based on the image feature amount, and generates the domain identification result.
  • the domain identification loss calculation means 78 calculates the domain identification loss based on the domain identification result.
  • the second learning means 79 updates the parameters of the feature extraction means and the domain identification means based on the domain identification loss.
  • (Appendix 1) Feature extraction means for extracting image features from input images, A class identification means that identifies a class of the input image based on the image feature amount and generates a class identification result.
  • a class identification loss calculation means for calculating a class identification loss based on the class identification result, and a class identification loss calculation means.
  • a normal / abnormal discrimination means that discriminates whether the class is a normal class or an abnormal class based on the image feature amount and generates a normal / abnormal discrimination result.
  • AUC loss calculation means for calculating AUC loss based on the normal / abnormal discrimination result, and A first learning means for updating the parameters of the feature extraction means, the class identification means, and the normal / abnormal identification means based on the class identification loss and the AUC loss.
  • a domain identification means that identifies the domain of the input image based on the image feature amount and generates a domain identification result.
  • a domain identification loss calculation means for calculating a domain identification loss based on the domain identification result, and a domain identification loss calculation means.
  • a second learning means for updating the parameters of the feature extraction means and the domain identification means based on the domain identification loss, and A learning device equipped with.
  • the class identification means classifies the input image into two classes and classifies the input image into two classes.
  • the learning device according to Appendix 1, wherein the normal / abnormal identification means has the same parameters as the class identification means.
  • the class identification means classifies the input image into three or more classes and classifies the input image into three or more classes.
  • the normal / abnormal discrimination means classifies the input image into three or more classes, calculates a class identification score for each class, and uses the normal class class identification score and the abnormal class class identification score to obtain a normal class.
  • the learning device according to Appendix 1, which generates a normal / abnormal discrimination result indicating the peculiarity.
  • the normal / abnormal discrimination result is a value indicating the normal class-likeness of each input image.
  • the AUC loss calculation means uses a normal / abnormal correct answer label indicating whether each input image is a normal class or an abnormal class, and a normal / abnormal discrimination result calculated for the input image of the normal class and an abnormal class.
  • the learning device according to any one of Supplementary note 1 to 3, wherein the difference from the normal / abnormal discrimination result calculated for the input image of the above is calculated as the AUC loss.
  • Appendix 5 The learning device according to Appendix 4, wherein the first learning means updates the parameters of the feature extraction means, the class identification means, and the normal / abnormality identification means so that the AUC loss becomes small.
  • the image feature amount is extracted from the input image using the feature extraction model, and Based on the image feature amount, the class of the input image is identified using the class identification model to generate a class identification result. Based on the class identification result, the class identification loss is calculated. Based on the image feature amount, the normal / abnormal discrimination model is used to discriminate whether the class is a normal class or an abnormal class, and a normal / abnormal discrimination result is generated. The AUC loss is calculated based on the normal / abnormal discrimination result. Based on the class discrimination loss and the AUC loss, the parameters of the feature extraction model, the class discrimination model, and the normal / abnormal discrimination model are updated.
  • the domain of the input image is identified using the domain identification model to generate a domain identification result. Based on the domain identification result, the domain identification loss is calculated.
  • a trained model generation method for updating the parameters of the feature extraction model and the domain discrimination model based on the domain discrimination loss is used.
  • the image feature amount is extracted from the input image using the feature extraction model, and Based on the image feature amount, the class of the input image is identified using the class identification model to generate a class identification result. Based on the class identification result, the class identification loss is calculated. Based on the image feature amount, the normal / abnormal discrimination model is used to discriminate whether the class is a normal class or an abnormal class, and a normal / abnormal discrimination result is generated. The AUC loss is calculated based on the normal / abnormal discrimination result. Based on the class discrimination loss and the AUC loss, the parameters of the feature extraction model, the class discrimination model, and the normal / abnormal discrimination model are updated.
  • a recording medium recording a program that causes a computer to execute a process of updating the parameters of the feature extraction model and the domain identification model based on the domain identification loss.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

学習装置において、特徴抽出手段は、入力画像から画像特徴量を抽出する。クラス識別手段は、画像特徴量に基づいて、入力画像のクラスを識別し、クラス識別結果を生成する。クラス識別損失計算手段は、クラス識別結果に基づいて、クラス識別損失を計算する。正常/異常識別手段は、画像特徴量に基づいて、クラスが正常クラスであるか異常クラスであるかを識別し、正常/異常識別結果を生成する。AUC損失計算手段は、正常/異常識別結果に基づいて、AUC損失を計算する。第1の学習手段は、クラス識別損失及びAUC損失に基づいて、特徴抽出手段、クラス識別手段及び正常/異常識別手段のパラメータを更新する。

Description

学習装置、学習済みモデル生成方法、及び、記録媒体
 本発明は、ドメイン適応を用いた画像識別手法に関する。
 画像認識などにおいて、対象領域における十分な教師データが得られない場合に、ドメイン適応を用いて識別器を学習する手法が知られている。ドメイン適応とは、流用元(ソースドメイン)の教師データを用いて、流用先(ターゲットドメイン)の識別器を学習する手法である。ドメイン適応を用いて識別器を学習する手法が、特許文献1及び非特許文献1に記載されている。
特開2016-224821号公報 Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, Francois Laviolette, Mario Marchand, and Victor Lempitsky. 2016. Domain-adversarial training of neural networks. J. Mach. Learn. Res. 17, 1 (January 2016), 2096‐2030.
 上記の文献などに記載される手法は、ソースドメインとして、公開データセットなどの教師データが潤沢かつ均等に収集されたデータセットを用いることを前提としている。しかし、実用上は識別対象の全クラスについて潤沢かつ均等に教師データを用意できないことがある。特に、所定の異常クラスに分類されるクラスについては、画像自体の収集が困難な場合もある。異常クラスについての教師データが少ないと、ドメイン適応を用いて学習を行っても、識別器の学習が正常クラスに集中してしまい、学習により得られた識別器は異常クラスを正しく識別できなくなる。
 本発明の1つの目的は、ソースドメインの一部のクラスのサンプル数が少ない場合でも、ドメイン適応を用いて、精度の高い識別モデルを生成することが可能な学習装置を提供することにある。
 本発明の一つの観点では、学習装置は、
 入力画像から画像特徴量を抽出する特徴抽出手段と、
 前記画像特徴量に基づいて、前記入力画像のクラスを識別し、クラス識別結果を生成するクラス識別手段と、
 前記クラス識別結果に基づいて、クラス識別損失を計算するクラス識別損失計算手段と、
 前記画像特徴量に基づいて、前記クラスが正常クラスであるか異常クラスであるかを識別し、正常/異常識別結果を生成する正常/異常識別手段と、
 前記正常/異常識別結果に基づいて、AUC損失を計算するAUC損失計算手段と、
 前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出手段、前記クラス識別手段及び前記正常/異常識別手段のパラメータを更新する第1の学習手段と、
 前記画像特徴量に基づいて、前記入力画像のドメインを識別し、ドメイン識別結果を生成するドメイン識別手段と、
 前記ドメイン識別結果に基づいて、ドメイン識別損失を計算するドメイン識別損失計算手段と、
 前記ドメイン識別損失に基づいて、前記特徴抽出手段及び前記ドメイン識別手段のパラメータを更新する第2の学習手段と、を備える。
 本発明の他の観点では、学習済みモデル生成方法は、
 特徴抽出モデルを用いて入力画像から画像特徴量を抽出し、
 前記画像特徴量に基づいて、クラス識別モデルを用いて前記入力画像のクラスを識別してクラス識別結果を生成し、
 前記クラス識別結果に基づいて、クラス識別損失を計算し、
 前記画像特徴量に基づいて、正常/異常識別モデルを用いて前記クラスが正常クラスであるか異常クラスであるかを識別して正常/異常識別結果を生成し、
 前記正常/異常識別結果に基づいてAUC損失を計算し、
 前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出モデル、前記クラス識別モデル及び前記正常/異常識別モデルのパラメータを更新し、
 前記画像特徴量に基づいて、ドメイン識別モデルを用いて前記入力画像のドメインを識別してドメイン識別結果を生成し、
 前記ドメイン識別結果に基づいて、ドメイン識別損失を計算し、
 前記ドメイン識別損失に基づいて、前記特徴抽出モデル及び前記ドメイン識別モデルのパラメータを更新する。
 本発明のさらに他の観点では、記録媒体は、
 特徴抽出モデルを用いて入力画像から画像特徴量を抽出し、
 前記画像特徴量に基づいて、クラス識別モデルを用いて前記入力画像のクラスを識別してクラス識別結果を生成し、
 前記クラス識別結果に基づいて、クラス識別損失を計算し、
 前記画像特徴量に基づいて、正常/異常識別モデルを用いて前記クラスが正常クラスであるか異常クラスであるかを識別して正常/異常識別結果を生成し、
 前記正常/異常識別結果に基づいてAUC損失を計算し、
 前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出モデル、前記クラス識別モデル及び前記正常/異常識別モデルのパラメータを更新し、
 前記画像特徴量に基づいて、ドメイン識別モデルを用いて前記入力画像のドメインを識別してドメイン識別結果を生成し、
 前記ドメイン識別結果に基づいて、ドメイン識別損失を計算し、
 前記ドメイン識別損失に基づいて、前記特徴抽出モデル及び前記ドメイン識別モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録する。
 本発明によれば、ソースドメインの一部のクラスのサンプル数が少ない場合でも、ドメイン適応を用いて、精度の高い識別モデルを生成することが可能となる。
第1実施形態に係る学習装置の全体構成を示す。 学習装置のハードウェア構成を示すブロック図である。 学習装置の機能構成を示すブロック図である。 正常/異常識別部の構成例を示す。 正常/異常識別部の動作の一例を説明する図である。 学習装置による識別モデル生成処理のフローチャートである。 第2実施形態に係る学習装置の機能構成を示すブロック図である。
 以下、図面を参照して、本発明の好適な実施形態について説明する。
 <第1実施形態>
 まず、第1実施形態に係る学習装置について説明する。
 [全体構成]
 図1は、第1実施形態に係る学習装置の全体構成を示す。学習装置100は、ドメイン適応を用いて、ターゲットドメインにおいて使用される識別モデルを学習する。学習装置100は、教師データベース(以下、「データベース」を「DB」と記す。)に接続されている。教師DB2には、識別モデルの学習に使用する教師データが記憶されている。
 [教師データ]
 教師データは、識別モデルの学習のために予め用意されたデータであり、入力画像と、それに対する正解ラベルのペアである。「入力画像」は、ソースドメイン又はターゲットドメインにおいて得られた画像である。「正解ラベル」は、入力画像に対する正解を示すラベルである。本実施形態では、正解ラベルは、クラス正解ラベルと、正常/異常正解ラベルと、ドメイン正解ラベルとを含む。
 具体的に、ソースドメインから得られた入力画像に対しては、クラス正解ラベルと正常/異常正解ラベルが用意される。「クラス正解ラベル」は、識別モデルによるクラス識別結果の正解、即ち、入力画像が示す物体などのクラスの正解を示すラベルである。「正常/異常正解ラベル」は、入力画像が示す物体などのクラスが、正常クラスであるか異常クラスであるかの正解を示すラベルである。なお、識別モデルが識別の対象とする各クラスは、予め正常クラスと異常クラスのいずれかに分類されており、正常/異常正解ラベルは、入力画像が示す物体のクラスが、正常クラスと異常クラスのいずれに属するかを示すラベルである。
 また、ソースドメイン及びターゲットドメインの両方から得られた入力画像について、ドメイン正解ラベルが用意される。「ドメイン正解ラベル」は、入力画像がソースドメインとターゲットドメインのいずれのドメインで得られた画像であるかを示すラベルである。
 次に、ドメイン、及び、正常/異常クラスの例を説明する。一例として、学習の対象となる識別モデルが商品画像から商品クラスを識別する商品識別モデルである場合、ソースドメインとしてWeb上のショッピングサイトから収集した商品画像を用い、ターゲットドメインとして実店舗で取り扱う商品画像を用いることができる。この場合、Web上で取り扱いの少ない商品クラスは商品画像のサンプルが少ないため、異常クラスとみなすことができる。よって、識別対象となる複数の商品クラスのうち、Web上で取り扱いの少ない商品クラスを異常クラスと設定し、それ以外の商品クラスを正常クラスと設定する。
 別の例として、監視カメラの撮影画像から物体や事象を認識する識別モデルを学習する場合、ある場所に設置されたカメラAをソースドメインとし、別の場所に設置されたカメラBをターゲットドメインとすることができる。ここで、特定の物体や事象が希少である場合、その物体や事象のクラスを異常クラスとみなすことができる。例えば、人物を識別する場合、消防士や警察官などの希少な人物属性を異常クラスと設定し、それ以外の人物属性を正常クラスと設定することができる。
 [ハードウェア構成]
 図2は、学習装置100のハードウェア構成を示すブロック図である。図示のように、学習装置100は、インタフェース(以下、「IF」と記す。)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
 IF11は、外部装置との間でデータの入出力を行う。具体的に、教師DB2に記憶されている教師データは、IF11を介して学習装置100に入力される。
 プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、学習装置100の全体を制御する。具体的に、プロセッサ12は、後述する識別モデル生成処理を実行する。
 メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。学習装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
 データベース15は、IF11を通じて入力された教師データを一時的に記憶する。また、データベース15は、学習装置100内の後述する各識別部の識別モデルを構成するニューラルネットワークなどのパラメータを記憶する。なお、学習装置100は、使用者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
 [機能構成]
 図3は、学習装置100の機能構成を示すブロック図である。図示のように、学習装置100は、特徴量抽出部21と、クラス識別部22と、正常/異常識別部23と、ドメイン識別部24と、クラス識別学習部25と、クラス識別損失計算部26と、AUC(Area Under an ROC Curve)損失計算部27と、ドメイン識別損失計算部28と、ドメイン識別学習部29と、を備える。
 特徴抽出部21には、教師データの入力画像が入力される。特徴抽出部21は、入力画像からCNN(Convolutional Neural Network)や、その他の方法で画像特徴量D1を抽出し、クラス識別部22、正常/異常識別部23及びドメイン識別部24に出力する。
 クラス識別部22は、画像特徴量D1に基づいて入力画像のクラスを識別し、クラス識別結果D2をクラス識別損失計算部26へ出力する。クラス識別部22は、各種の機械学習手法やニューラルネットワークなどを利用したクラス識別モデルを用いて、入力画像のクラスを識別する。クラス識別結果D2は、識別対象のクラス毎の信頼度スコアを含む。
 クラス識別損失計算部26は、クラス識別結果D2と、教師データに含まれる、その入力画像に対するクラス正解ラベルとを用いて、クラス識別損失D3を計算し、クラス識別学習部25へ出力する。クラス識別損失計算部26は、クラス識別結果D2とクラス正解ラベルとを用いて、例えば交差エントロピーなどの損失を計算し、クラス識別損失D3としてクラス識別学習部25へ出力する。
 正常/異常識別部23は、画像特徴量D1に基づいて、入力画像が正常クラスであるか異常クラスであるかを示す正常/異常識別結果D5を生成し、AUC損失計算部27へ出力する。具体的に、正常/異常識別部23は、入力画像の各サンプルxごとに、以下の式により正常クラスらしさを示す正常/異常スコアg(x)を計算し、正常/異常識別結果D5として出力する。
Figure JPOXMLDOC01-appb-M000001
 図4(A)は、正常/異常識別部23の構成の一例を示す。図4(A)の例は、クラス識別部22が2クラス識別を行う場合の例である。例えば、クラス識別部22は、入力画像がクラスXとクラスYのいずれであるか識別するものとする。ここで、クラスXは正常クラスであり、クラスYは異常クラスであると仮定する。この場合、正常/異常識別部23として、クラス識別部22とパラメータを共有する識別モデルを使用することができる。例えば、ある入力画像について、クラス識別部22が「クラスXの信頼度スコア=0.8、クラスYの信頼度スコア=0.2」というクラス識別結果を出力したとする。この場合、クラスXは正常クラスであるので、入力画像の正常クラスらしさのスコアは、クラスXの信頼度スコアと同一の「0.8」となる。即ち、正常/異常識別部23は、クラス識別部22と同一の識別モデルを用いて正常クラスらしさを示す正常/異常スコアを計算し、それを正常/異常識別結果D5として出力すればよい。
 図4(B)は、正常/異常識別部23の構成の他の例を示す。図4(B)の例は、クラス識別部22が3クラス以上の多クラス識別を行う場合の例である。この場合、正常/異常識別部23は、多クラス識別を行うクラス識別部23aと、正常/異常スコア計算部23bとを備える。なお、クラス識別部23aは、クラス識別部22と同一の構成でよい。クラス識別部23aは、入力画像の各サンプルxごとに信頼度スコアp(i|x)を算出し、正常/異常スコア計算部23bへ出力する。正常/異常スコア計算部23bは、入力された信頼度スコアp(i|x)に基づいて、入力画像の各サンプルxごとに正常クラスらしさを示す正常/異常スコアg(x)を算出し、正常/異常識別結果D5として出力する。
 図5は、図4(B)に示す正常/異常識別部23の動作の一例を説明する図である。いま、クラス識別部23aが、クラスA~Eの5クラスの識別を行うとする。また、この5クラスのうち、クラスA~Cが正常クラス、クラスD~Eが異常クラスに設定されているものとする。クラス識別部23aは、入力画像のクラス識別を行い、各クラスの信頼度スコアSa~Seを算出し、正常/異常スコア計算部23bへ出力する。なお、入力画像xに対する各クラスの信頼度スコアは全クラスの和が1となる。即ち、
  Sa+Sb+Sc+Sd+Se=1
となる。
 正常/異常スコア計算部23bは、入力された各クラスの信頼度スコアに基づいて、その入力画像の正常クラスらしさのスコアを計算する。具体的に、正常/異常スコア計算部23bは、正常クラスであるクラスA~Cの信頼度スコアを合計し、以下のように正常/異常スコアを算出する。
  正常/異常スコア=Sa+Sb+Sc
 そして、正常/異常スコア計算部23bは、得られた正常/異常スコアを、正常/異常識別結果D5として出力する。このように、図4(B)の例では、クラス識別部22が多クラス分類を行う場合であっても正常/異常識別結果を計算することができる。
 図3に戻り、AUC損失計算部27は、正常/異常識別結果D5と、教師データに含まれる正常/異常正解ラベルとに基づいて、AUC損失を計算する。具体的には、AUC損失計算部27は、まず、入力画像の各サンプルxの正常/異常正解ラベルを取得し、各サンプルxを正常クラスと異常クラスとに分ける。次に、AUC損失計算部27は、正常クラスのサンプルxと、異常クラスのサンプルxとを取り出してペアを作る。次に、AUC損失計算部27は、各サンプルxとxの正常/異常スコアg(x)とg(x)の差分を用いて、以下の式によりAUC損失Rspを計算し、クラス識別学習部25へ出力する。
Figure JPOXMLDOC01-appb-M000002
なお、上記の式において、「l(エル)」は、0以上の値をとる単調減少関数で、例として下記のシグモイド関数などが用いられる。
Figure JPOXMLDOC01-appb-M000003
 クラス識別学習部25は、クラス識別損失D3及びAUC損失Rspに基づいて、制御信号D4により、特徴抽出部21、クラス識別部22及び正常/異常識別部23を構成するモデルのパラメータを更新する。具体的には、クラス識別学習部25は、クラス識別損失D3が小さくなるように、かつ、AUC損失Rspが小さくなるように、特徴抽出部21、クラス識別部22及び正常/異常識別部23のパラメータを更新する。
 ドメイン識別部24は、画像特徴量D1に基づいて、入力画像のドメインを識別し、ドメイン識別結果D6をドメイン識別損失計算部28へ出力する。ドメイン識別結果D6は、入力画像のソースドメインらしさ又はターゲットドメインらしさを示すスコアである。ドメイン識別損失計算部28は、ドメイン識別結果D6と、教師データに含まれる、その入力画像のドメイン正解ラベルとに基づいて、ドメイン識別損失D7を計算し、ドメイン識別学習部29へ出力する。
 ドメイン識別学習部29は、ドメイン識別損失D7に基づいて、制御信号D8により、特徴抽出部21及びドメイン識別部24のパラメータを更新する。具体的には、ドメイン識別学習部29は、特徴抽出部21がドメインの識別をしにくくなるような画像特徴量D1を抽出し、かつ、ドメイン識別部24が正しくドメインを識別できるように、特徴抽出部21及びドメイン識別部24のパラメータを更新する。
 このように、本実施形態では、ドメイン適応を用いたクラス識別モデルの学習において、AUC損失Rspを用いて特徴抽出部21、クラス識別部22及び正常/異常識別部23のパラメータを更新するので、入力画像のクラス毎のサンプル数の不均衡により生じる悪影響を抑制することができる。よって、特定の異常クラスの入力画像が少ない状況においても、精度の高い識別が可能なクラス識別モデルを生成することができる。
 [識別モデル生成処理]
 図6は、学習装置100による識別モデル生成処理のフローチャートである。この処理は、図2に示すプロセッサ12が、予め用意されたプログラムを実行し、図3に示す各要素として動作することにより実現される。
 まず、教師データに含まれる入力画像が特徴抽出部21に入力され(ステップS11)、特徴抽出部21は、入力画像から画像特徴量D1を抽出する(ステップS12)。次に、ドメイン識別部24は、画像特徴量D1に基づいてドメインを識別し、ドメイン識別結果D6を出力する(ステップS13)。次に、ドメイン識別結果計算部28は、ドメイン識別結果D6とドメイン正解ラベルとに基づいて、ドメイン識別損失D7を計算する(ステップS14)。次に、ドメイン識別学習部29は、ドメイン識別損失D7に基づいて、特徴抽出部21とドメイン識別部24のパラメータを更新する(ステップS15)。なお、ステップS13~S15を、「ドメイン混合処理」と呼ぶ。
 次に、クラス識別部22は、画像特徴量D1に基づいて入力画像のクラスを識別し、クラス識別結果D2を生成する(ステップS16)。次に、クラス識別損失計算部26は、クラス識別結果D2とクラス正解ラベルとを用いて、クラス識別損失D3を計算する(ステップS17)。なお、ステップS16~S17を、「クラス識別損失計算処理」と呼ぶ。
 次に、正常/異常識別部23は、画像特徴量D1に基づいて、入力画像が正常クラスであるか異常クラスであるかを識別し、正常/異常識別結果D5を出力する(ステップS18)。次に、AUC損失計算部27は、正常/異常識別結果D5に基づいて、AUC損失Rspを計算する(ステップS19)。なお、ステップS18~S19を、「AUC損失計算処理」と呼ぶ。
 そして、クラス識別学習部25は、クラス識別損失D3とAUC損失Rspとに基づいて、特徴抽出部21、クラス識別部22及び正常/異常識別部23のパラメータを更新する(ステップS20)。なお、ステップS16~S20を「クラス識別学習処理」と呼ぶ。
 次に、学習装置100は、学習を終了するか否かを判定する(ステップS21)。学習装置100は、クラス識別損失、AUC損失及びドメイン識別損失が所定範囲に収束した場合、学習を終了すると判定する。学習を終了しない場合(ステップS21:No)、処理はステップS11へ戻り、別の入力画像を用いてステップS11~S20の処理が繰り返される。一方、学習を終了する場合(ステップS21:Yes)、処理は終了する。
 なお、上記の例では、ドメイン混合処理(ステップS13~S15)の後でクラス識別学習処理(ステップS16~S20)を行っているが、ドメイン混合処理とクラス識別学習処理の順序を逆にしてもよい。また、上記の例では、クラス識別損失計算処理(ステップS16~S17)の後でAUC損失計算処理(ステップS18~19)を行っているが、クラス識別損失計算処理とAUC損失計算処理の順序を逆にしてもよい。
 さらに、上記の例では、ステップS20でクラス識別損失とAUC損失に基づいてパラメータ更新を行っているが、その代わりに、ステップS17の後にクラス識別損失に基づいてパラメータ更新するステップを設け、ステップS20ではAUC損失に基づいてパラメータ更新を行うようにしてもよい。
 <第2実施形態>
 次に、本発明の第2実施形態について説明する。図7は、第2実施形態に係る学習装置70の機能構成を示すブロック図である。図示のように、学習装置70は、特徴抽出手段71と、クラス識別手段72と、正常/異常識別手段73と、ドメイン識別手段74と、第1の学習手段75と、クラス識別損失計算手段76と、AUC損失計算手段77と、ドメイン識別損失計算手段78と、第2の学習手段79と、を備える。
 特徴抽出手段71は、入力画像から画像特徴量を抽出する。クラス識別手段72は、画像特徴量に基づいて、入力画像のクラスを識別し、クラス識別結果を生成する。クラス識別損失計算手段76は、クラス識別結果に基づいて、クラス識別損失を計算する。正常/異常識別手段73は、画像特徴量に基づいて、クラスが正常クラスであるか異常クラスであるかを識別し、正常/異常識別結果を生成する。AUC損失計算手段77は、正常/異常識別結果に基づいて、AUC損失を計算する。第1の学習手段75は、クラス識別損失及びAUC損失に基づいて、特徴抽出手段、クラス識別手段及び正常/異常識別手段のパラメータを更新する。
 また、ドメイン識別手段74は、画像特徴量に基づいて、入力画像のドメインを識別し、ドメイン識別結果を生成する。ドメイン識別損失計算手段78は、ドメイン識別結果に基づいて、ドメイン識別損失を計算する。第2の学習手段79は、ドメイン識別損失に基づいて、特徴抽出手段及び前記ドメイン識別手段のパラメータを更新する。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 入力画像から画像特徴量を抽出する特徴抽出手段と、
 前記画像特徴量に基づいて、前記入力画像のクラスを識別し、クラス識別結果を生成するクラス識別手段と、
 前記クラス識別結果に基づいて、クラス識別損失を計算するクラス識別損失計算手段と、
 前記画像特徴量に基づいて、前記クラスが正常クラスであるか異常クラスであるかを識別し、正常/異常識別結果を生成する正常/異常識別手段と、
 前記正常/異常識別結果に基づいて、AUC損失を計算するAUC損失計算手段と、
 前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出手段、前記クラス識別手段及び前記正常/異常識別手段のパラメータを更新する第1の学習手段と、
 前記画像特徴量に基づいて、前記入力画像のドメインを識別し、ドメイン識別結果を生成するドメイン識別手段と、
 前記ドメイン識別結果に基づいて、ドメイン識別損失を計算するドメイン識別損失計算手段と、
 前記ドメイン識別損失に基づいて、前記特徴抽出手段及び前記ドメイン識別手段のパラメータを更新する第2の学習手段と、
 を備える学習装置。
 (付記2)
 前記クラス識別手段は、前記入力画像を2クラスに分類し、
 前記正常/異常識別手段は、前記クラス識別手段と同一のパラメータを有する付記1に記載の学習装置。
 (付記3)
 前記クラス識別手段は、前記入力画像を3クラス以上に分類し、
 前記正常/異常識別手段は、前記入力画像を3クラス以上に分類してクラス毎にクラス識別スコアを算出し、正常クラスのクラス識別スコアと、異常クラスのクラス識別スコアとを用いて、正常クラスらしさを示す正常/異常識別結果を生成する付記1に記載の学習装置。
 (付記4)
 前記正常/異常識別結果は、各入力画像の正常クラスらしさを示す値であり、
 前記AUC損失計算手段は、各入力画像が正常クラスであるか異常クラスであるかを示す正常/異常正解ラベルを用いて、正常クラスの入力画像について計算された正常/異常識別結果と、異常クラスの入力画像について計算された正常/異常識別結果との差分を前記AUC損失として計算する付記1乃至3のいずれか一項に記載の学習装置。
 (付記5)
 前記第1の学習手段は、前記AUC損失が小さくなるように、前記特徴抽出手段、前記クラス識別手段及び前記正常/異常識別手段のパラメータを更新する付記4に記載の学習装置。
 (付記6)
 特徴抽出モデルを用いて入力画像から画像特徴量を抽出し、
 前記画像特徴量に基づいて、クラス識別モデルを用いて前記入力画像のクラスを識別してクラス識別結果を生成し、
 前記クラス識別結果に基づいて、クラス識別損失を計算し、
 前記画像特徴量に基づいて、正常/異常識別モデルを用いて前記クラスが正常クラスであるか異常クラスであるかを識別して正常/異常識別結果を生成し、
 前記正常/異常識別結果に基づいてAUC損失を計算し、
 前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出モデル、前記クラス識別モデル及び前記正常/異常識別モデルのパラメータを更新し、
 前記画像特徴量に基づいて、ドメイン識別モデルを用いて前記入力画像のドメインを識別してドメイン識別結果を生成し、
 前記ドメイン識別結果に基づいて、ドメイン識別損失を計算し、
 前記ドメイン識別損失に基づいて、前記特徴抽出モデル及び前記ドメイン識別モデルのパラメータを更新する学習済みモデル生成方法。
 (付記7)
 特徴抽出モデルを用いて入力画像から画像特徴量を抽出し、
 前記画像特徴量に基づいて、クラス識別モデルを用いて前記入力画像のクラスを識別してクラス識別結果を生成し、
 前記クラス識別結果に基づいて、クラス識別損失を計算し、
 前記画像特徴量に基づいて、正常/異常識別モデルを用いて前記クラスが正常クラスであるか異常クラスであるかを識別して正常/異常識別結果を生成し、
 前記正常/異常識別結果に基づいてAUC損失を計算し、
 前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出モデル、前記クラス識別モデル及び前記正常/異常識別モデルのパラメータを更新し、
 前記画像特徴量に基づいて、ドメイン識別モデルを用いて前記入力画像のドメインを識別してドメイン識別結果を生成し、
 前記ドメイン識別結果に基づいて、ドメイン識別損失を計算し、
 前記ドメイン識別損失に基づいて、前記特徴抽出モデル及び前記ドメイン識別モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 2 教師データベース
 21 特徴抽出部
 22 クラス識別部
 23 正常/異常識別部
 24 ドメイン識別部
 25 クラス識別学習部
 26 クラス識別損失計算部
 27 AUC損失計算部
 28 ドメイン識別損失計算部
 29 ドメイン識別学習部
 100 学習装置

Claims (7)

  1.  入力画像から画像特徴量を抽出する特徴抽出手段と、
     前記画像特徴量に基づいて、前記入力画像のクラスを識別し、クラス識別結果を生成するクラス識別手段と、
     前記クラス識別結果に基づいて、クラス識別損失を計算するクラス識別損失計算手段と、
     前記画像特徴量に基づいて、前記クラスが正常クラスであるか異常クラスであるかを識別し、正常/異常識別結果を生成する正常/異常識別手段と、
     前記正常/異常識別結果に基づいて、AUC損失を計算するAUC損失計算手段と、
     前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出手段、前記クラス識別手段及び前記正常/異常識別手段のパラメータを更新する第1の学習手段と、
     前記画像特徴量に基づいて、前記入力画像のドメインを識別し、ドメイン識別結果を生成するドメイン識別手段と、
     前記ドメイン識別結果に基づいて、ドメイン識別損失を計算するドメイン識別損失計算手段と、
     前記ドメイン識別損失に基づいて、前記特徴抽出手段及び前記ドメイン識別手段のパラメータを更新する第2の学習手段と、
     を備える学習装置。
  2.  前記クラス識別手段は、前記入力画像を2クラスに分類し、
     前記正常/異常識別手段は、前記クラス識別手段と同一のパラメータを有する請求項1に記載の学習装置。
  3.  前記クラス識別手段は、前記入力画像を3クラス以上に分類し、
     前記正常/異常識別手段は、前記入力画像を3クラス以上に分類してクラス毎にクラス識別スコアを算出し、正常クラスのクラス識別スコアと、異常クラスのクラス識別スコアとを用いて、正常クラスらしさを示す正常/異常識別結果を生成する請求項1に記載の学習装置。
  4.  前記正常/異常識別結果は、各入力画像の正常クラスらしさを示す値であり、
     前記AUC損失計算手段は、各入力画像が正常クラスであるか異常クラスであるかを示す正常/異常正解ラベルを用いて、正常クラスの入力画像について計算された正常/異常識別結果と、異常クラスの入力画像について計算された正常/異常識別結果との差分を前記AUC損失として計算する請求項1乃至3のいずれか一項に記載の学習装置。
  5.  前記第1の学習手段は、前記AUC損失が小さくなるように、前記特徴抽出手段、前記クラス識別手段及び前記正常/異常識別手段のパラメータを更新する請求項4に記載の学習装置。
  6.  特徴抽出モデルを用いて入力画像から画像特徴量を抽出し、
     前記画像特徴量に基づいて、クラス識別モデルを用いて前記入力画像のクラスを識別してクラス識別結果を生成し、
     前記クラス識別結果に基づいて、クラス識別損失を計算し、
     前記画像特徴量に基づいて、正常/異常識別モデルを用いて前記クラスが正常クラスであるか異常クラスであるかを識別して正常/異常識別結果を生成し、
     前記正常/異常識別結果に基づいてAUC損失を計算し、
     前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出モデル、前記クラス識別モデル及び前記正常/異常識別モデルのパラメータを更新し、
     前記画像特徴量に基づいて、ドメイン識別モデルを用いて前記入力画像のドメインを識別してドメイン識別結果を生成し、
     前記ドメイン識別結果に基づいて、ドメイン識別損失を計算し、
     前記ドメイン識別損失に基づいて、前記特徴抽出モデル及び前記ドメイン識別モデルのパラメータを更新する学習済みモデル生成方法。
  7.  特徴抽出モデルを用いて入力画像から画像特徴量を抽出し、
     前記画像特徴量に基づいて、クラス識別モデルを用いて前記入力画像のクラスを識別してクラス識別結果を生成し、
     前記クラス識別結果に基づいて、クラス識別損失を計算し、
     前記画像特徴量に基づいて、正常/異常識別モデルを用いて前記クラスが正常クラスであるか異常クラスであるかを識別して正常/異常識別結果を生成し、
     前記正常/異常識別結果に基づいてAUC損失を計算し、
     前記クラス識別損失及び前記AUC損失に基づいて、前記特徴抽出モデル、前記クラス識別モデル及び前記正常/異常識別モデルのパラメータを更新し、
     前記画像特徴量に基づいて、ドメイン識別モデルを用いて前記入力画像のドメインを識別してドメイン識別結果を生成し、
     前記ドメイン識別結果に基づいて、ドメイン識別損失を計算し、
     前記ドメイン識別損失に基づいて、前記特徴抽出モデル及び前記ドメイン識別モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2020/021875 2020-06-03 2020-06-03 学習装置、学習済みモデル生成方法、及び、記録媒体 WO2021245819A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/007,569 US20230215152A1 (en) 2020-06-03 2020-06-03 Learning device, trained model generation method, and recording medium
JP2022529202A JP7396479B2 (ja) 2020-06-03 2020-06-03 学習装置、学習済みモデル生成方法、及び、プログラム
PCT/JP2020/021875 WO2021245819A1 (ja) 2020-06-03 2020-06-03 学習装置、学習済みモデル生成方法、及び、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/021875 WO2021245819A1 (ja) 2020-06-03 2020-06-03 学習装置、学習済みモデル生成方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2021245819A1 true WO2021245819A1 (ja) 2021-12-09

Family

ID=78830702

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/021875 WO2021245819A1 (ja) 2020-06-03 2020-06-03 学習装置、学習済みモデル生成方法、及び、記録媒体

Country Status (3)

Country Link
US (1) US20230215152A1 (ja)
JP (1) JP7396479B2 (ja)
WO (1) WO2021245819A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024162589A1 (ko) * 2023-02-01 2024-08-08 삼성전자주식회사 전자 장치 및 그 영상 처리 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7136329B2 (ja) * 2019-03-27 2022-09-13 日本電気株式会社 異常検知装置、制御方法、及びプログラム
JP7375934B2 (ja) * 2020-06-24 2023-11-08 日本電気株式会社 学習装置、推定装置、学習方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016224821A (ja) * 2015-06-02 2016-12-28 キヤノン株式会社 学習装置、学習装置の制御方法及びプログラム
WO2019146057A1 (ja) * 2018-01-26 2019-08-01 株式会社ソニー・インタラクティブエンタテインメント 学習装置、実写画像分類装置の生成システム、実写画像分類装置の生成装置、学習方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127390B (zh) 2019-10-21 2022-05-27 哈尔滨医科大学 基于迁移学习的x射线影像处理方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016224821A (ja) * 2015-06-02 2016-12-28 キヤノン株式会社 学習装置、学習装置の制御方法及びプログラム
WO2019146057A1 (ja) * 2018-01-26 2019-08-01 株式会社ソニー・インタラクティブエンタテインメント 学習装置、実写画像分類装置の生成システム、実写画像分類装置の生成装置、学習方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAROSLAV GANIN, EVGENIYA USTINOVA, HANA AJAKAN, PASCAL GERMAIN, HUGO LAROCHELLE, FRANçOIS LAVIOLETTE, MARIO MARCHAND, VICTOR : "Domain-adversarial training of neural networks", THE JOURNAL OF MACHINE LEARNING RESEARCH, vol. 17, 26 May 2016 (2016-05-26), pages 1 - 35, XP002789597, DOI: 10.1007/978-3-319-58347-1_10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024162589A1 (ko) * 2023-02-01 2024-08-08 삼성전자주식회사 전자 장치 및 그 영상 처리 방법

Also Published As

Publication number Publication date
JP7396479B2 (ja) 2023-12-12
JPWO2021245819A1 (ja) 2021-12-09
US20230215152A1 (en) 2023-07-06

Similar Documents

Publication Publication Date Title
WO2021245819A1 (ja) 学習装置、学習済みモデル生成方法、及び、記録媒体
US7447338B2 (en) Method and system for face detection using pattern classifier
JP7266674B2 (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
WO2022134833A1 (zh) 语音信号的处理方法、装置、设备及存储介质
KR20200093426A (ko) 이미지 분석 기반으로 환경에 영향 받지 않는 감시를 위한 보행자 검출기의 학습 방법 및 학습 장치, 그리고, 이를 이용하여 테스트 방법 및 테스트장치
US20230119593A1 (en) Method and apparatus for training facial feature extraction model, method and apparatus for extracting facial features, device, and storage medium
US20060179016A1 (en) Preparing data for machine learning
CN110688454A (zh) 咨询对话处理的方法、装置、设备及存储介质
CN112989035B (zh) 基于文本分类识别用户意图的方法、装置及存储介质
CN111783505A (zh) 伪造人脸的识别方法、装置和计算机可读存储介质
CN108804453A (zh) 一种视音频识别方法及装置
CN113222149B (zh) 模型训练方法、装置、设备和存储介质
CN112541529A (zh) 表情与姿态融合的双模态教学评价方法、设备及存储介质
CN115082740B (zh) 目标检测模型训练方法、目标检测方法、装置、电子设备
US20220237917A1 (en) Video comparison method and apparatus, computer device, and storage medium
Haque et al. Two-handed bangla sign language recognition using principal component analysis (PCA) and KNN algorithm
CN113448843B (zh) 基于缺陷分析的图像识别软件测试数据增强方法及装置
CN111126347B (zh) 人眼状态识别方法、装置、终端及可读存储介质
US10885593B2 (en) Hybrid classification system
US11562133B2 (en) System and method for detecting incorrect triple
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
WO2022063076A1 (zh) 对抗样本的识别方法及装置
CN117334186B (zh) 一种基于机器学习的语音识别方法及nlp平台
CN113283388A (zh) 活体人脸检测模型的训练方法、装置、设备及存储介质
Kailash et al. Deep learning based detection of mobility aids using yolov5

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20939103

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022529202

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20939103

Country of ref document: EP

Kind code of ref document: A1