WO2024079820A1 - 学習装置、学習方法、プログラム、および分類装置 - Google Patents

学習装置、学習方法、プログラム、および分類装置 Download PDF

Info

Publication number
WO2024079820A1
WO2024079820A1 PCT/JP2022/038080 JP2022038080W WO2024079820A1 WO 2024079820 A1 WO2024079820 A1 WO 2024079820A1 JP 2022038080 W JP2022038080 W JP 2022038080W WO 2024079820 A1 WO2024079820 A1 WO 2024079820A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
learning
belongs
feature amount
interest
Prior art date
Application number
PCT/JP2022/038080
Other languages
English (en)
French (fr)
Inventor
康夫 尾見
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/038080 priority Critical patent/WO2024079820A1/ja
Publication of WO2024079820A1 publication Critical patent/WO2024079820A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Definitions

  • the present invention relates to a learning device, a learning method, a program, and a classification device that classifies images, for training a machine learning model (neural network) that performs image recognition tasks based on image features.
  • a machine learning model neural network
  • a method for learning a machine learning model takes an image as input and outputs an inference result based on the characteristics of the subject contained in the image.
  • Patent Document 1 discloses a method for training a machine learning model using biological images such as fundus images as input and data related to disease risk as training data.
  • Contrastive learning is known as a learning method that can obtain invariant features that are less dependent on the type of image recognition task than this method.
  • contrastive learning a machine learning model is trained so that the dot product of the feature vector between the anchor, which is the image of interest, and the positive example becomes large, and the dot product of the feature vector between the anchor and the negative example becomes small.
  • a machine learning model that infers whether a specimen cell contained as a subject in an image is a benign or malignant cell is trained by contrastive learning.
  • an image in which the type of specimen cell contained as a subject in an image is the same as the type of cell contained as a subject in an anchor image is treated as a positive example.
  • An image in which the type of specimen cell is different from the type of cell contained as a subject in an anchor image is treated as a negative example.
  • a negative example will be generated if the type of specimen cell contained as a subject in the image is different from the type of benign (or malignant) cell contained as a subject in the anchor image, but the specimen cell is a benign (or malignant) cell.
  • a negative example will be generated if the subclassification of the cells (adenocarcinoma, squamous cell carcinoma) is different, but the broad classification of the cells (benign or malignant) is the same.
  • the negative example may have characteristics that are partially common to the specimen cell and the cell contained as a subject in the anchor image.
  • conventional contrast learning does not anticipate such cases, and therefore has the problem of being unable to improve inference accuracy.
  • One aspect of the present invention has been made in consideration of the above problems, and one example of the purpose of the present invention is to provide a technology for training a machine learning model to improve inference accuracy.
  • a learning device is a learning device that generates features of an input image and trains a machine learning model that performs an image recognition task, and includes an acquisition means for acquiring a plurality of training images, and a learning means for training the machine learning model using the plurality of training images, each training image belonging to one of a plurality of classes classified according to the features of a subject included in the training image, and each of the plurality of classes belonging to one of a plurality of subclasses further classified according to the features of the subject, and the learning means selects, for a target image included in the plurality of training images, a training image belonging to the same subclass as the subclass to which the target image belongs.
  • a training image that belongs to a subclass different from the subclass to which the image of interest belongs and that belongs to the same class as the class to which the image of interest belongs is a quasi-positive example
  • a training image that belongs to a class different from the class to which the image of interest belongs is a negative example
  • the machine learning model is trained so that the similarity between the feature of the image of interest and the feature of the positive example becomes large, the similarity between the feature of the image of interest and the feature of the quasi-positive example becomes small, the similarity between the feature of the image of interest and the feature of the negative example becomes small, and the similarity between the feature of the image of interest and the feature of the quasi-positive example becomes larger than the similarity between the feature of the image of interest and the feature of the negative example.
  • a learning method is a learning method executed by a learning device that generates features of an input image and trains a machine learning model that performs an image recognition task, and includes acquiring a plurality of training images and training the machine learning model using the plurality of training images, wherein each training image belongs to one of a plurality of classes classified according to the features of a subject included in the training image, and each of the plurality of classes belongs to one of a plurality of subclasses that are further classified into a plurality of classes according to the features of the subject, and during the training, a target image included in the plurality of training images is trained using a training device that generates features of an input image and trains a machine learning model that performs an image recognition task, and includes acquiring a plurality of training images and training the machine learning model using the plurality of training images, wherein each training image belongs to one of a plurality of classes that are classified according to the features of the subject, and each of the plurality of classes belongs to one of a plurality of
  • a program is a program that causes a computer to function as a learning device that generates features of an input image and trains a machine learning model that performs an image recognition task, the program causes the computer to function as an acquisition means that acquires a plurality of training images, and a learning means that trains the machine learning model using the plurality of training images, each training image belonging to one of a plurality of classes classified according to the features of a subject contained in the training image, and each of the plurality of classes belonging to one of a plurality of subclasses that are further classified into a plurality of classes according to the features of the subject, and the learning means determines, for a target image included in the plurality of training images, the class to which the target image belongs.
  • the machine learning model is trained such that a training image belonging to the same subclass as the subclass is a positive example, a training image belonging to a subclass different from the subclass to which the target image belongs and belonging to the same class to which the target image belongs is a quasi-positive example, and a training image belonging to a class different from the class to which the target image belongs is a negative example, so that the similarity between the feature of the target image and the feature of the positive example becomes large, the similarity between the feature of the target image and the feature of the quasi-positive example becomes small, the similarity between the feature of the target image and the feature of the negative example becomes small, and the similarity between the feature of the target image and the feature of the quasi-positive example becomes larger than the similarity between the feature of the target image and the feature of the negative example.
  • a machine learning model can be trained to improve inference accuracy.
  • FIG. 1 is a block diagram showing a configuration of a learning device according to an exemplary embodiment 1 of the present invention.
  • FIG. 2 is a flow chart showing the flow of a learning method according to the first exemplary embodiment of the present invention.
  • FIG. 11 is a diagram showing an example of classes and subclasses in exemplary embodiment 2 of the present invention.
  • FIG. 11 is a diagram showing an example of a class, an intermediate class, and a subclass in exemplary embodiment 2 of the present invention.
  • FIG. 11 is a block diagram showing a configuration of a learning device according to an exemplary embodiment 2 of the present invention.
  • FIG. 11 is a block diagram showing a configuration of a classification unit 22 according to an exemplary embodiment 2 of the present invention.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of a learning device according to each exemplary embodiment of the present invention.
  • Example embodiment 1 DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS
  • This exemplary embodiment is a basic form of the exemplary embodiments described below.
  • the learning device 1 is a learning device that learns a machine learning model that performs an image recognition task in which an image is input, features of the input image are generated, and a result of recognizing the image based on the features is output.
  • An example of the image recognition task is a classification task in which an object included as a subject in an image belongs to one of predefined labels.
  • An example of the machine learning model is a neural network.
  • each training image used by the learning device 1 to train the machine learning model belongs to one of a number of classes classified according to the characteristics of the subject contained in the training image. Furthermore, each training image belongs to one of a number of subclasses that are further classified into a number of subclasses according to the characteristics of the subject.
  • the learning device 1 trains a machine learning model by contrastive learning.
  • the learning device 1 selects an arbitrary image of interest (anchor) from the learning images.
  • anchor an arbitrary image of interest
  • each learning image is classified as a positive example (positive sample), a quasi-positive example, or a negative example (negative sample) as follows:
  • the training images that belong to the same subclass as the image of interest are used as positive examples.
  • training images that belong to a subclass different from the subclass to which the image of interest belongs, but belong to the same class as the image of interest, are used as quasi-canonical examples.
  • a training image that belongs to a different class than the class to which the image of interest belongs is used as a negative example.
  • the learning device 1 trains the machine learning model depending on whether the training image is a positive example, a quasi-positive example, or a negative example. As an example, the learning device 1 trains the machine learning model using a loss function whose contribution changes depending on whether the training image is a positive example, a quasi-positive example, or a negative example. The method by which the learning device 1 trains the machine learning model will be described later.
  • Fig. 1 is a block diagram showing the configuration of a learning device 1 according to this exemplary embodiment.
  • the learning device 1 includes an acquisition unit 11 and a learning unit 12.
  • the acquisition unit 11 and the learning unit 12 are components that respectively realize an acquisition means and a learning means.
  • the acquisition unit 11 acquires a plurality of learning images.
  • the acquisition unit 11 supplies the acquired plurality of learning images to the learning unit 12.
  • the learning unit 12 trains a machine learning model using the multiple learning images acquired by the acquisition unit 11.
  • the learning unit 12 trains the machine learning model so that the similarity between the features of the image of interest and the features of the positive examples is large, the similarity between the features of the image of interest and the features of the quasi-positive examples is small, the similarity between the features of the image of interest and the features of the negative examples is small, and the similarity between the features of the image of interest and the features of the quasi-positive examples is larger than the similarity between the features of the image of interest and the features of the negative examples.
  • the learning device 1 is a learning device 1 that generates features of an input image and trains a machine learning model that performs an image recognition task, and is configured to include an acquisition unit 11 that acquires multiple learning images, and a learning unit 12 that trains the machine learning model using the multiple learning images acquired by the acquisition unit 11.
  • each training image belongs to one of a number of classes that are classified according to the characteristics of the subject contained in the training image, and each of the classes is further classified into one of a number of subclasses according to the characteristics of the subject.
  • the learning unit 12 also trains the machine learning model by treating, for a target image included in a plurality of training images, training images that belong to the same subclass as the subclass to which the target image belongs as positive examples, training images that belong to a subclass different from the subclass to which the target image belongs and that belong to the same class to which the target image belongs as quasi-positive examples, and training images that belong to a class different from the class to which the target image belongs as negative examples, as follows.
  • the learning unit 12 trains the machine learning model so that the similarity between the features of the image of interest and the features of the positive examples is large, the similarity between the features of the image of interest and the features of the quasi-positive examples is small, the similarity between the features of the image of interest and the features of the negative examples is small, and the similarity between the features of the image of interest and the features of the quasi-positive examples is larger than the similarity between the features of the image of interest and the features of the negative examples.
  • the learning device 1 trains a machine learning model using training images that belong to a subclass different from the subclass to which the image of interest belongs and that belong to the same class as the class to which the image of interest belongs as quasi-positive examples, so that the similarity between the features of the image of interest and the features of the quasi-positive examples is greater than the similarity between the features of the image of interest and the features of the negative examples.
  • the learning device 1 trains a machine learning model taking into account the quasi-positive examples, thereby achieving the effect of training the machine learning model to have higher inference accuracy.
  • Fig. 2 is a flow diagram showing the flow of the learning method S1 according to this exemplary embodiment.
  • Step S11 the acquisition unit 11 acquires a plurality of learning images.
  • the acquisition unit 11 supplies the acquired plurality of learning images to the learning unit 12.
  • step S12 In step S ⁇ b>12 , the learning unit 12 trains a machine learning model using the multiple learning images acquired by the acquisition unit 11 .
  • step S12 the learning unit 12 trains the machine learning model so that the similarity between the features of the image of interest and the features of the positive examples is large, the similarity between the features of the image of interest and the features of the quasi-positive examples is small, the similarity between the features of the image of interest and the features of the negative examples is small, and the similarity between the features of the image of interest and the features of the quasi-positive examples is larger than the similarity between the features of the image of interest and the features of the negative examples.
  • the learning method S1 is executed by a learning device 1 that generates features of an input image and trains a machine learning model to perform an image recognition task, and employs a configuration in which, in step S11, the acquisition unit 11 acquires a plurality of training images, and, in step S12, the learning unit 12 trains the machine learning model using the plurality of training images acquired by the acquisition unit 11.
  • step S12 the learning unit 12 trains the machine learning model so that the similarity between the features of the image of interest and the features of the positive examples is large, the similarity between the features of the image of interest and the features of the quasi-positive examples is small, the similarity between the features of the image of interest and the features of the negative examples is small, and the similarity between the features of the image of interest and the features of the quasi-positive examples is larger than the similarity between the features of the image of interest and the features of the negative examples.
  • the learning method S1 provides the same effects as the learning device 1 described above.
  • Exemplary embodiment 2 A second exemplary embodiment of the present invention will be described in detail with reference to the drawings. Note that components having the same functions as those described in the first exemplary embodiment are denoted by the same reference numerals, and the description thereof will be omitted as appropriate.
  • the classification device 2 is a device that classifies images including a subject into classes or subclasses using a second learning model including a first machine learning model trained using a first loss function described later, and a second machine learning model trained using a second loss function (cross entropy).
  • the classification device 2 can be used for cytological diagnosis in rapid on-site evaluation (ROSE).
  • the training images belong to one of a number of classes that are classified according to the characteristics of the subject contained in the training images. Furthermore, the training images belong to one of a number of subclasses that are further classified into a number of subclasses according to the characteristics of the subject.
  • An example of classes and subclasses is shown in FIG. 3.
  • FIG. 3 is a diagram showing an example of classes and subclasses in this exemplary embodiment.
  • specimen cells contained as subjects in an image are classified into classes depending on whether they are benign or malignant.
  • specimen cells contained as subjects in an image are classified into subclasses depending on the type of cell.
  • the class “benign cells” is classified into multiple subclasses "EC normal epithelial cells,” “IEC inflammatory EC,” “M macrophages,” “LC lymphocytes,” and “WBC white blood cells.”
  • the learning images may belong to one of a number of middle classes obtained by classifying each class into a number of middle classes, each of which is a group of one or more subclasses.
  • Figure 4 shows an example in which the example shown in Figure 3 is further classified into middle classes.
  • Figure 4 shows an example of classes, middle classes, and subclasses in this exemplary embodiment.
  • the class “benign cells” is classified into three middle classes: "normal cells,” “normal cells with findings,” and “other normal cells.” Also in Figure 4, the middle class “normal cells” is grouped with the subclass “EC normal epithelial cells,” and the middle class “normal cells with findings” is grouped with the subclasses "IEC inflammatory EC” and "M macrophage.”
  • the classification device 2 also executes learning of the first machine learning model and learning of the second machine learning model. In other words, the classification device 2 also functions as a learning device. Details of the process in which the classification device 2 executes learning of the first machine learning model and learning of the second machine learning model will be described later.
  • (Configuration of Classification Device 2) 5 is a block diagram showing the configuration of the classification device 2 according to this exemplary embodiment. As shown in FIG. 5, the classification device 2 includes a control unit 21, a storage unit 25, a communication unit 26, an input unit 27, and an output unit 28.
  • the memory unit 25 stores data referenced by the control unit 21. Examples of data stored in the memory unit 25 include learning images and teacher data (teacher labels).
  • the communication unit 26 is a communication module that communicates with other devices connected via a network. As an example, the communication unit 26 receives learning images and outputs classification results.
  • the input unit 27 is an interface that acquires data from other connected devices. As an example, the input unit 27 acquires learning images.
  • the output unit 28 is an interface that outputs data to other connected devices. As an example, the output unit 28 outputs the classification results.
  • Control unit 21 The control unit 21 controls each component included in the classification device 2. As shown in Fig. 5, the control unit 21 also includes an acquisition unit 11, a learning unit 12, and a classification unit 22. In this exemplary embodiment, the acquisition unit 11, the learning unit 12, and the classification unit 22 are components that respectively realize an acquisition means, a learning means, and a classification means.
  • the acquisition unit 11 acquires data via the communication unit 26 or the input unit 27. Examples of data acquired by the acquisition unit 11 include images for learning and images to be classified. The acquisition unit 11 stores the acquired data in the storage unit 25.
  • the learning unit 12 trains a first machine learning model using a first loss function, and trains a second machine learning model using a second loss function.
  • the first machine learning model is an Encoder (feature analysis model) that uses an input image as input and generates features of the input image, and is used as a pre-learning model for the second machine learning model.
  • the second machine learning model is a Classifier (classifier, second layer group) connected to an Encoder (first layer group) that is the first machine learning model.
  • the learning unit 12 includes a first learning unit 12A and a second learning unit 12B.
  • the first learning unit 12A and the second learning unit 12B are configured to realize a learning means and a second learning means, respectively, in this exemplary embodiment.
  • the first learning unit 12A trains a first machine learning model using a plurality of learning images stored in the memory unit 25 and teacher labels corresponding to each of the plurality of learning images.
  • the first machine learning model is an Encoder (feature analysis model) and is used as a pre-training model for the second machine learning model.
  • the second learning unit 12B trains a second machine learning model using a plurality of learning images stored in the storage unit 25 and teacher labels corresponding to the results of classifying each of the plurality of learning images into the class or subclass.
  • the second machine learning model is a model in which a classifier is connected to an encoder, which is the first machine learning model.
  • Known methods are used as the method by which the second learning unit 12B trains the second machine learning model and the loss function (second loss function).
  • One example is a method of minimizing the error between the output data from the second machine learning model and the teacher labels using cross-entropy.
  • the second learning unit 12B mainly trains the classifier portion, but may also train the encoder portion to fine-tune it as necessary.
  • the classification unit 22 inputs an image into a second machine learning model, thereby classifying the input image into a class or subclass.
  • FIG. 6 is a block diagram showing the configuration of the classification unit 22 according to this exemplary embodiment.
  • the classification unit 22 includes a first machine learning model, which is an Encoder (feature analysis model), and a second machine learning model in which a Classifier is connected to the Encoder (feature analysis model).
  • a first machine learning model which is an Encoder (feature analysis model)
  • a second machine learning model in which a Classifier is connected to the Encoder (feature analysis model).
  • the first machine learning model receives an input image including a subject and outputs a feature vector optimized by a first loss function.
  • the second machine learning model includes an Encoder and a Classifier that is connected to the Encoder and classifies the input image into a class or subclass using the features of the input image output from the Encoder as input.
  • the second machine learning model outputs the class or subclass classified by the Classifier as the classification result.
  • the first learning unit 12A selects an arbitrary image of interest (anchor) from among a plurality of learning images.
  • Each learning image is classified into a positive example, a semi-positive example, or a negative example according to the class and subclass to which the selected image of interest belongs and the class and subclass to which each learning image belongs, as follows.
  • the training images that belong to the same subclass as the image of interest are used as positive examples.
  • training images that belong to a subclass different from the subclass to which the image of interest belongs, but belong to the same class as the image of interest, are used as quasi-canonical examples.
  • a training image that belongs to a class different from the class to which the quasi-image belongs is used as a negative example.
  • the first learning unit 12A to add a data-augmented image, which is the data-augmented image of the image of interest, to the positive example.
  • data-augmented images include an image in which the image of interest is rotated, an image in which the subject included in the image of interest is moved, an image in which the subject included in the image of interest is enlarged or reduced, an image in which the image of interest is flipped at least in either the vertical or horizontal direction, an image in which a part of the image of interest is cut out, and an image in which the hue, saturation, or brightness of the image of interest is changed.
  • the first learning unit 12A trains the first machine learning model so that the similarity between the features of the image of interest and the features of the positive examples (i.e., the inner product of the feature vectors) is large, the similarity between the features of the image of interest and the features of the quasi-positive examples is small, the similarity between the features of the image of interest and the features of the negative examples is small, and the similarity between the features of the image of interest and the features of the quasi-positive examples is larger than the similarity between the features of the image of interest and the features of the negative examples.
  • the similarity between the features of the image of interest and the features of the positive examples i.e., the inner product of the feature vectors
  • the first learning unit 12A trains the first machine learning model so that the value of the following loss function, Equation (1), becomes small.
  • I set of images of interest i: selected image of interest z i : feature vector of image of interest
  • W n weighting coefficient assigned to negative examples
  • inner product
  • temperature parameter (constant)
  • the first learning unit 12A trains the first machine learning model so that the inner product of the feature vector of the image of interest and the feature vector of the positive example becomes large in order to reduce the value of the loss function, Equation (1).
  • the first learning unit 12A also trains the first machine learning model so that the inner product of the feature vector of the image of interest and the feature vector of the quasi-positive example becomes small.
  • the first learning unit 12A also trains the first machine learning model so that the inner product of the feature vector of the image of interest and the feature vector of the negative example becomes small.
  • the feature amount is a feature vector
  • the similarity between the feature vector of the target image and each of the feature vectors of the positive example, semi-positive example, and negative example is based on the inner product of the feature vector of the target image and each of the feature vectors of the positive example, semi-positive example, and negative example.
  • the weighting factor Wq assigned to the quasi-positive examples is set to a value larger than the weighting factor Wn assigned to the negative examples.
  • the value of formula (1) changes more greatly depending on the inner product of the feature vector of the image of interest and the feature vector of the quasi-positive examples than on the inner product of the feature vector of the image of interest and the feature vector of the negative examples.
  • the first learning unit 12A can train the first machine learning model so that the similarity between the feature vector of the image of interest and the feature vector of the quasi-positive examples is greater than the similarity between the feature vector of the image of interest and the feature vector of the negative examples.
  • the learning images may be classified into a plurality of middle classes into which each class is classified, and may belong to one of a plurality of middle classes into which one or more subclasses are grouped.
  • each learning image is classified into either a first quasi-positive example or a second quasi-positive example as follows.
  • the training images that belong to the same middle class as the target image are used as the first quasi-canonical examples.
  • the training images that belong to a different middle class from the middle class to which the target image belongs are used as second quasi-canonical examples.
  • the first learning unit 12A trains the first machine learning model so that the similarity between the feature of the image of interest and the feature of the first quasi-positive example is greater than the similarity between the feature of the image of interest and the feature of the second quasi-positive example. Note that the process in which the first learning unit 12A trains the first machine learning model using positive examples and negative examples is as described above.
  • the first learning unit 12A trains the first machine learning model so that the value of the following loss function, Equation (2), becomes small.
  • I set of images of interest i: selected image of interest z i : feature vector of image of interest
  • W n weighting coefficient assigned to negative examples
  • W q1 weighting coefficient assigned to the first quasi-positive example q2: second quasi-positive example z q2 : feature vector of the second quasi-positive example
  • W q2 weighting coefficient assigned to the second quasi-positive example
  • inner product
  • temperature parameter (constant)
  • the first learning unit 12A trains the first machine learning model so that the value
  • the first learning unit 12A trains the first machine learning model so that the inner product between the feature vector of the image of interest and the feature vector of the second quasi-positive example is reduced.
  • the first learning unit 12A trains the first machine learning model so that the inner product between the feature vector of the image of interest and the feature vector of the positive example is increased.
  • the first learning unit 12A trains the first machine learning model so that the inner product between the special report vector of the image of interest and the feature vector of the negative example is reduced.
  • the weighting factor Wq1 assigned to the first quasi-canonical example is preferably set to a value greater than the weighting factor Wq2 assigned to the second quasi-canonical example.
  • the value of formula (2) changes more greatly depending on the inner product of the feature vector of the image of interest and the feature vector of the first quasi-canonical example than on the inner product of the feature vector of the image of interest and the feature vector of the second quasi-canonical example.
  • the first learning unit 12A can train the first machine learning model so that the similarity between the feature vector of the image of interest and the feature vector of the first quasi-canonical example is greater than the similarity between the feature vector of the image of interest and the feature vector of the second quasi-canonical example.
  • each training image belongs to one of a plurality of middle classes obtained by further classifying each of a plurality of classes into a plurality of classes, and a plurality of middle classes obtained by grouping one or more subclasses.
  • a training image that belongs to the same middle class as the middle class to which the image of interest belongs is set as a first quasi-canonical example
  • a training image that belongs to a different middle class from the middle class to which the image of interest belongs is set as a second quasi-canonical example
  • a machine learning model is trained such that the similarity between the feature amount of the image of interest and the feature amount of the first quasi-canonical example is greater than the similarity between the feature amount of the image of interest and the feature amount of the second quasi-canonical example.
  • the machine learning model is trained taking into consideration the first quasi-canonical examples and the second quasi-canonical examples obtained by further classifying the quasi-canonical examples, thereby obtaining the effect of training the machine learning model to have higher inference accuracy.
  • Some or all of the functions of the learning device 1 and the classification device 2 may be realized by hardware such as an integrated circuit (IC chip), or by software.
  • the learning device 1 and the classification device 2 are realized, for example, by a computer that executes instructions of a program, which is software that realizes each function.
  • a computer that executes instructions of a program, which is software that realizes each function.
  • An example of such a computer (hereinafter referred to as computer C) is shown in Figure 7.
  • Computer C has at least one processor C1 and at least one memory C2.
  • Memory C2 stores program P for operating computer C as learning device 1 and classification device 2.
  • processor C1 reads and executes program P from memory C2, thereby realizing each function of learning device 1 and classification device 2.
  • the processor C1 may be, for example, a CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit), microcontroller, or a combination of these.
  • the memory C2 may be, for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination of these.
  • Computer C may further include a RAM (Random Access Memory) for expanding program P during execution and for temporarily storing various data.
  • Computer C may further include a communications interface for sending and receiving data to and from other devices.
  • Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
  • the program P can also be recorded on a non-transitory, tangible recording medium M that can be read by the computer C.
  • a recording medium M can be, for example, a tape, a disk, a card, a semiconductor memory, or a programmable logic circuit.
  • the computer C can obtain the program P via such a recording medium M.
  • the program P can also be transmitted via a transmission medium.
  • a transmission medium can be, for example, a communications network or broadcast waves.
  • the computer C can also obtain the program P via such a transmission medium.
  • a learning device that generates features of an input image and trains a machine learning model that performs an image recognition task, comprising: an acquisition means for acquiring a plurality of learning images; and a learning means for training the machine learning model using the plurality of learning images, wherein each learning image belongs to one of a plurality of classes classified according to features of a subject included in the learning image, and each of the plurality of classes belongs to one of a plurality of subclasses that are further classified into a plurality of classes according to the features of the subject, and the learning means sets a learning image that belongs to the same subclass as the subclass to which the image of interest belongs as a positive example for an image of interest included in the plurality of learning images, and sets a learning image that belongs to the same subclass as the image of interest as a positive example for an image of interest included in the plurality of learning images.
  • the machine learning model is trained using a training image that belongs to a subclass different from a subclass to which the target image belongs and that belongs to the same class as the class to which the target image belongs as a quasi-positive example, and a training image that belongs to a class different from the class to which the target image belongs as a negative example, such that a similarity between a feature of the image of interest and a feature of the positive example becomes large, a similarity between the feature of the image of interest and a feature of the quasi-positive example becomes small, a similarity between the feature of the image of interest and a feature of the negative example becomes small, and a similarity between the feature of the image of interest and a feature of the quasi-positive example becomes larger than a similarity between the feature of the image of interest and a feature of the negative example.
  • the feature amount is a feature vector, and a similarity between the feature vector of the image of interest and each of the feature vectors of the positive example, the semi-positive example, and the negative example is based on an inner product of the feature vector of the image of interest and each of the feature vectors of the positive example, the semi-positive example, and the negative example.
  • each training image belongs to one of a plurality of middle classes obtained by further classifying each of the plurality of classes into a plurality of middle classes, the plurality of classes being grouped together to obtain one or more of the subclasses; the learning means further sets, among the quasi-canonical examples, a training image that belongs to the same middle class as the middle class to which the image of interest belongs as a first quasi-canonical example, and sets, among the quasi-canonical examples, a training image that belongs to a different middle class from the middle class to which the image of interest belongs as a second quasi-canonical example, and trains the machine learning model such that a similarity between a feature of the image of interest and a feature of the first quasi-canonical example is greater than a similarity between a feature of the image of interest and a feature of the second quasi-canonical example.
  • Appendix 4 A learning device described in any of Appendices 1 to 3, wherein the subject included in the learning image is a specimen cell, and the specimen cell is classified into a class depending on whether it is benign or malignant, and into a subclass depending on the type of the specimen cell.
  • the machine learning model includes a first layer group that receives the input image and generates a feature of the input image, and a second layer group that is connected to the first layer group and receives the feature of the input image and classifies the input image into the class or the subclass, and the learning means further trains the machine learning model using a plurality of learning images and teacher labels corresponding to the results of classifying each of the plurality of learning images into the class or the subclass.
  • a learning device according to any one of claims 1 to 5.
  • a classification device comprising: a classification means for inputting an image including a subject to the machine learning model trained by the learning device according to any one of appendices 1 to 6, and classifying the image into the class or the subclass.
  • a learning method executed by a learning device that generates features of an input image and trains a machine learning model that performs an image recognition task the method including: acquiring a plurality of learning images; and training the machine learning model using the plurality of learning images, wherein each learning image belongs to one of a plurality of classes classified according to features of a subject included in the learning image, and each of the plurality of classes belongs to one of a plurality of subclasses that are further classified into a plurality of classes according to the features of the subject, and in the training, for an image of interest included in the plurality of learning images, a learning image that belongs to the same subclass as the subclass to which the image of interest belongs is used as a positive example, a learning method in which a training image that belongs to a subclass different from the subclass to which the target image belongs and that belongs to the same class as the class to which the target image belongs is used as a quasi-positive example, and a training image that belongs to a class different from the class to which
  • a program for causing a computer to function as a learning device that generates features of an input image and trains a machine learning model that performs an image recognition task the program causing the computer to function as an acquisition means for acquiring a plurality of learning images, and a learning means for training the machine learning model using the plurality of learning images, each learning image belonging to one of a plurality of classes classified according to features of a subject included in the learning image, and each of the plurality of classes belonging to one of a plurality of subclasses further classified into a plurality of classes according to the features of the subject, and the learning means classifies an image of interest included in the plurality of learning images into the same subclass as the subclass to which the image of interest belongs.
  • the machine learning model is trained such that a training image belonging to a subclass different from the subclass to which the image of interest belongs and which belongs to the same class as the class to which the image of interest belongs is a positive example, a training image belonging to a subclass different from the subclass to which the image of interest belongs and which belongs to the same class as the class to which the image of interest belongs is a quasi-positive example, and a training image belonging to a class different from the class to which the image of interest belongs is a negative example, such that a similarity between a feature of the image of interest and a feature of the positive example becomes large, a similarity between the feature of the image of interest and a feature of the quasi-positive example becomes small, a similarity between the feature of the image of interest and a feature of the negative example becomes small, and a similarity between the feature of the image of interest and a feature of the quasi-positive example becomes larger than a similarity between the feature of the image of interest and a feature of the negative example.
  • a learning device that generates features of an input image and trains a machine learning model that performs an image recognition task includes at least one processor, and the processor executes an acquisition process for acquiring a plurality of learning images and a learning means process for training the machine learning model using the plurality of learning images, each learning image belonging to one of a plurality of classes classified according to the features of a subject included in the learning image, and each of the plurality of classes belonging to one of a plurality of subclasses further classified into a plurality of classes according to the features of the subject, and in the learning process, for a target image included in the plurality of learning images, a learning means process for training a machine learning model that belongs to the same subclass as the subclass to which the target image belongs is executed.
  • a learning device that trains the machine learning model by using an image as a positive example, a training image that belongs to a subclass different from the subclass to which the target image belongs and that belongs to the same class as the class to which the target image belongs as a quasi-positive example, and a training image that belongs to a class different from the class to which the target image belongs as a negative example, so that the similarity between the feature of the target image and the feature of the positive example becomes large, the similarity between the feature of the target image and the feature of the quasi-positive example becomes small, the similarity between the feature of the target image and the feature of the negative example becomes small, and the similarity between the feature of the target image and the feature of the quasi-positive example becomes larger than the similarity between the feature of the target image and the feature of the negative example.
  • the learning device may further include a memory, and the memory may store a program for causing the processor to execute the acquisition process and the learning process.
  • the program may also be recorded on a computer-readable, non-transitory, tangible recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

推論精度がより高くなるように機械学習モデルを学習させるために、学習装置(1)は、学習用画像を取得する取得部(11)と、学習用画像を用いて機械学習モデルを学習させる学習部(12)と、を備え、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。

Description

学習装置、学習方法、プログラム、および分類装置
 本発明は、画像の特徴量に基づいて画像認識タスクを行う機械学習モデル(ニューラルネットワーク)を学習させる学習装置、学習方法、プログラム、および画像を分類する分類装置に関する。
 画像を入力として、当該画像に含まれる被写体の特徴に応じた推論結果を出力する機械学習モデルの学習方法が開示されている。
 特許文献1には、眼底画像等の生体画像を入力として、疾患のリスクに関するデータを学習データとして機械学習モデルを学習させる方法が開示されている。
国際公開第2021/039339号
 特許文献1に記載のような学習方法では通常クロスエントロピーを損失関数として用いて、機械学習モデルからの出力と正解データとの誤差を最小化するように学習する。この方法よりも画像認識タスクの種類に依存しにくい不変的な特徴量(invariant feature)を得ることができる学習方法として、対照学習(Contrastive Learning)が知られている。対照学習では、注目画像であるアンカーと正例との特徴ベクトルの内積が大きくなるように、かつアンカーと負例との特徴ベクトルの内積が小さくなるように機械学習モデルを学習させる。
 ここで、一例として、被写体として画像に含まれている検体細胞が良性細胞であるか悪性細胞であるかを推論する機械学習モデルを、対照学習によって学習させる場合を想定してみる。この場合、被写体として画像に含まれている検体細胞の種類が、アンカーの画像に被写体として含まれている細胞の種類と同じ画像を、正例とする。また、当該検体細胞の種類がアンカーの画像に被写体として含まれている細胞の種類と異なる画像を、負例とする。さらに、アンカーの画像に対して回転や上下左右反転、拡大縮小、色合い変換、切り取りなどの任意の画像拡張(Data augmentation)を行った画像も、正例とすることが望ましい。
 この場合、被写体として画像に含まれている検体細胞の種類が、アンカーの画像に被写体として含まれている良性(または悪性)細胞の種類とは異なるものの、当該検体細胞が良性(または悪性)細胞である場合も、負例となる。すなわち、細胞の小分類(腺がん、扁平上皮癌がん)は異なるが、細胞の大分類(良性または悪性)としては同じ場合も、負例となる。当該負例は、当該検体細胞とアンカーの画像に被写体として含まれている細胞と部分的に共通する特徴を有する場合がある。しかしながら、従来の対照学習では、このような場合は想定されていないため、推論精度をより高くすることができないという問題がある。
 本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、推論精度がより高くなるように機械学習モデルを学習させる技術を提供することである。
 本発明の一側面に係る学習装置は、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置であって、複数の学習用画像を取得する取得手段と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、を備え、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習手段は、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる。
 本発明の一側面に係る学習方法は、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置が実行する学習方法であって、複数の学習用画像を取得することと、前記複数の学習用画像を用いて前記機械学習モデルを学習させることと、を含み、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習させることにおいて、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる。
 本発明の一側面に係るプログラムは、コンピュータを、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置として機能させるプログラムであって、前記プログラムは、前記コンピュータを、複数の学習用画像を取得する取得手段と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、として機能させ、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習手段は、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる。
 本発明の一態様によれば、推論精度が高くなるように機械学習モデルを学習させることができる。
本発明の例示的実施形態1に係る学習装置の構成を示すブロック図である。 本発明の例示的実施形態1に係る学習方法の流れを示すフロー図である。 本発明の例示的実施形態2におけるクラスおよびサブクラスの一例を示す図である。 本発明の例示的実施形態2におけるクラス、ミドルクラス、およびサブクラスの一例を示す図である。 本発明の例示的実施形態2に係る学習装置の構成を示すブロック図である。 本発明の例示的実施形態2に係る分類部22の構成を示すブロック図である。 本発明の各例示的実施形態に係る学習装置のハードウェア構成の一例を示すブロック図である。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 (学習装置1の概要)
 本例示的実施形態に係る学習装置1は、画像を入力として、入力画像の特徴量を生成し、特徴量に基づいて当該画像を認識した結果を出力する画像認識タスクを行う機械学習モデルを学習させる学習装置である。画像認識タスクの一例として、画像に被写体として含まれている物体が事前に定義されたラベルの何れに属するかを識別する分類タスクが挙げられる。機械学習モデルは、一例として、ニューラルネットワークである。
 この場合、学習装置1が機械学習モデルを学習させるために用いる各学習用画像は、学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属する。さらに、学習用画像は、複数のクラスのそれぞれを被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属する。
 一例として、学習装置1は、対照学習によって機械学習モデルを学習させる。この場合、学習装置1は、学習用画像から、任意の注目画像(アンカー)を選択する。選択された注目画像が属するクラスおよびサブクラスと、各学習用画像が属するクラスおよびサブクラスとに応じて、各学習用画像は以下のように正例(ポジティブサンプル)、準正例、および負例(ネガティブサンプル)の何れかに分類される。
 注目画像に対して、注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とする。
 注目画像に対して、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例とする。
 注目画像に対して、注目画像が属するクラスとは異なるクラスに属する学習用画像を負例とする。
 学習装置1は、学習用画像が正例であるか、準正例であるか、および負例であるかに応じて、機械学習モデルを学習させる。一例として、学習装置1は、学習用画像が正例であるか、準正例であるか、および負例であるかに応じて、寄与が変化するような損失関数を用いて、機械学習モデルを学習させる。学習装置1が機械学習モデルを学習させる方法については、後述する。
 (学習装置1の構成)
 本例示的実施形態に係る学習装置1の構成について、図1を参照して説明する。図1は、本例示的実施形態に係る学習装置1の構成を示すブロック図である。
 学習装置1は、図1に示すように、取得部11および学習部12を備えている。取得部11および学習部12は、それぞれ本例示的実施形態において、取得手段および学習手段を実現する構成である。
 取得部11は、複数の学習用画像を取得する。取得部11は、取得した複数の学習用画像を、学習部12に供給する。
 学習部12は、取得部11が取得した複数の学習用画像を用いて、機械学習モデルを学習させる。
 具体的には、学習部12は、注目画像の特徴量と正例の特徴量との類似度が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。
 以上のように、本例示的実施形態に係る学習装置1は、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置1であって、複数の学習用画像を取得する取得部11と、取得部11が取得した複数の学習用画像を用いて機械学習モデルを学習させる学習部12と、を備える構成が採用されている。
 また、各学習用画像は、学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、複数のクラスのそれぞれを被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属する。
 また、学習部12は、複数の学習用画像に含まれる注目画像に対し、注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、次のように機械学習モデルを学習させる。
 学習部12は、注目画像の特徴量と正例の特徴量との類似度が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。
 このため、本例示的実施形態に係る学習装置1によれば、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例として、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。このように、本例示的実施形態に係る学習装置1では、準正例を考慮して機械学習モデルを学習させるので、推論精度がより高くなるように機械学習モデルを学習させることができるという効果が得られる。
 (学習方法の流れ)
 本例示的実施形態に係る学習方法S1の流れについて、図2を参照して説明する。図2は、本例示的実施形態に係る学習方法S1の流れを示すフロー図である。
 (ステップS11)
 ステップS11において、取得部11は、複数の学習用画像を取得する。取得部11は、取得した複数の学習用画像を、学習部12に供給する。
 (ステップS12)
 ステップS12において、学習部12は、取得部11が取得した複数の学習用画像を用いて、機械学習モデルを学習させる。
 具体的には、ステップS12において、学習部12は、注目画像の特徴量と正例の特徴量との類似度が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。
 以上のように、本例示的実施形態に係る学習方法S1は、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置1が実行する学習方法S1であって、ステップS11において、取得部11が複数の学習用画像を取得し、ステップS12において、学習部12が、取得部11が取得した複数の学習用画像を用いて、機械学習モデルを学習させる構成が採用されている。
 また、ステップS12において、学習部12は、注目画像の特徴量と正例の特徴量との類似度が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。
 このため、本例示的実施形態に係る学習方法S1によれば、上述した学習装置1と同様の効果が得られる。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
 (分類装置2の概要)
 本例示的実施形態に係る分類装置2は、後述する第1の損失関数を用いて学習させた第1の機械学習モデルを含む第2の学習モデルであって、第2の損失関数(クロスエントロピー)を用いて学習させた第2の機械学習モデルを用いて、被写体を含む画像をクラスまたはサブクラスに分類する装置である。分類装置2は、一例として、術中迅速診(ROSE:Rapid On-Site Evaluation)における細胞診に用いられ得る。
 学習用画像は、学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属する。さらに、学習用画像は、複数のクラスのそれぞれを被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属する。クラスおよびサブクラスの一例を図3に示す。図3は、本例示的実施形態におけるクラスおよびサブクラスの一例を示す図である。
 図3では、画像に被写体として含まれる検体細胞が良性であるか悪性であるかに応じて、クラスに分類されることを示している。また、図3では、画像に被写体として含まれる検体細胞の種類に応じてサブクラスに分類されることを示している。図3では、例えば、クラス「良性細胞」は、複数のサブクラス「EC 正常上皮細胞」、「IEC 炎症性のEC」、「M マクロファージ」、「LC リンパ球」、および「WBC 白血球」に分類されている。
 また、学習用画像は、クラスのそれぞれを複数に分類した複数のミドルクラスであって、1以上のサブクラスをグループ化した複数のミドルクラスの何れかに属してもよい。図3に示した例をさらにミドルクラスに分類した例を、図4に示す。図4は、本例示的実施形態におけるクラス、ミドルクラス、およびサブクラスの一例を示す図である。
 図4では、例えば、クラス「良性細胞」は、3つのミドルクラス「正常細胞」、「所見のある正常細胞」、および「その他の正常細胞」に分類されている。また、図4では、ミドルクラス「正常細胞」には、サブクラス「EC 正常上皮細胞」がグループ化され、ミドルクラス「所見のある正常細胞」には、サブクラス「IEC 炎症性のEC」および「M マクロファージ」がグループ化されている。
 また、分類装置2は、第1の機械学習モデルの学習と第2の機械学習モデルの学習とを実行する。換言すると、分類装置2は、学習装置としての機能も備える。分類装置2が第1の機械学習モデルの学習と第2の機械学習モデルの学習とを実行する処理の詳細については、後述する。
 (分類装置2の構成)
 図5は、本例示的実施形態に係る分類装置2の構成を示すブロック図である。分類装置2は、図5に示すように、制御部21、記憶部25、通信部26、入力部27、および出力部28を備えている。
 記憶部25には、制御部21が参照するデータが格納されている。記憶部25に格納されているデータの一例として、学習用画像、および教師データ(教師ラベル)が挙げられる。
 通信部26は、ネットワークを介して接続されている他の装置と通信する通信モジュールである。一例として、通信部26は、学習用画像を受信したり、分類結果を出力したりする。
 入力部27は、接続されている他の装置からデータを取得するインタフェースである。一例として、入力部27は、学習用画像を取得する。
 出力部28は、接続されている他の装置にデータを出力するインタフェースである。一例として、出力部28は、分類結果を出力する。
 (制御部21)
 制御部21は、分類装置2が備える各構成要素を制御する。また、制御部21は、図5に示すように、取得部11、学習部12、および分類部22を備える。取得部11、学習部12、および分類部22は、本例示的実施形態において、それぞれ取得手段、学習手段、および分類手段を実現する構成である。
 取得部11は、通信部26または入力部27を介して、データを取得する。取得部11が取得するデータの一例として、学習用画像、分類の対象となる画像が挙げられる。取得部11は、取得したデータを記憶部25に格納する。
 学習部12は、第1の損失関数を用いて第1の機械学習モデルを学習させ、第2の損失関数を用いて第2の機械学習モデルを学習させる。第1の機械学習モデルは、入力画像を入力として、入力画像の特徴量を生成するEncoder(特徴分析モデル)であり、第2の機械学習モデルの事前学習モデルとして使用される。第2の機械学習モデルは、第1の機械学習モデルであるEncoder(第1の層群)にClassifier(分類器、第2の層群)を接続したものである。学習部12は、図5に示すように、第1の学習部12Aおよび第2の学習部12Bを備えている。第1の学習部12Aおよび第2の学習部12Bは、それぞれ本例示的実施形態において、学習手段および第2の学習手段を実現する構成である。
 第1の学習部12Aは、記憶部25に格納されている複数の学習用画像と、当該複数の学習用画像のそれぞれに対応する教師ラベルとを用いて、第1の機械学習モデルを学習させる。前述のように第1の機械学習モデルはEncoder(特徴分析モデル)であり、第2の機械学習モデルの事前学習モデルとして使用される。
 第1の学習部12Aが、第1の機械学習モデルを学習させる処理の詳細については、後述する。
 第2の学習部12Bは、記憶部25に格納されている複数の学習用画像と、当該複数の学習用画像のそれぞれを前記クラスまたは前記サブクラスに分類した結果に対応する教師ラベルとを用いて、第2の機械学習モデルを学習させる。前述のように第2の機械学習モデルは、第1の機械学習モデルであるEncoderにClassifier(分類器)を接続したものである。第2の学習部12Bが第2の機械学習モデルを学習させる方法や損失関数(第2の損失関数)は、既知の方法が用いられる。一例として、クロスエントロピーを用いて第2の機械学習モデルからの出力データと教師ラベルとの誤差を最小化する方法が挙げられる。第2の学習部12Bは、主にClassifier部分を学習させるが、必要に応じてEncoder部分も微調整するように学習させてもよい。
 分類部22は、第2の機械学習モデルに対して画像を入力することにより、入力した画像をクラスまたはサブクラスに分類する。
 分類部22の構成の一例について、図6を参照して説明する。図6は、本例示的実施形態に係る分類部22の構成を示すブロック図である。
 図6に示すように、分類部22は、Encoder(特徴分析モデル)である第1の機械学習モデルと、Encoder(特徴分析モデル)にClassifier(分類器)を接続した第2の機械学習モデルを備えている。
 第1の機械学習モデルは、被写体を含む入力画像を入力することによって、第1の損失関数によって最適化された特徴量(特徴ベクトル)を出力する。
 第2の機械学習モデルは、Encoderと、Encoderに接続され、Encoderから出力された入力画像の特徴量を入力として、入力画像をクラスまたはサブクラスに分類するClassifierとを備える。第2の機械学習モデルは、Classifierが分類したクラスまたはサブクラスを分類結果として出力する。
 (第1の機械学習モデルを学習させる処理1)
 第1の学習部12Aは、複数の学習用画像から、任意の注目画像(アンカー)を選択する。選択された注目画像が属するクラスおよびサブクラスと、各学習用画像が属するクラスおよびサブクラスとに応じて、各学習用画像は以下のように正例、準正例、および負例の何れかに分類される。
 注目画像に対して、注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とする。
 注目画像に対して、注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、注目画像が属するクラスと同じクラスに属する学習用画像を準正例とする。
 注目画像に対して、準画像が属するクラスとは異なるクラスに属する学習用画像を負例とする。
 また、第1の学習部12Aは、注目画像をデータ拡張したデータ拡張画像を正例に追加することが望ましい。データ拡張画像の一例として、注目画像を回転させた画像、注目画像に含まれる被写体を移動させた画像、注目画像に含まれる被写体を拡大または縮小させた画像、注目画像を上下および左右方向の少なくとも何れかに反転させた画像、注目画像の一部を切り取った画像、ならびに注目画像の色相や彩度や明度を変更させた画像などが挙げられる。
 そして、第1の学習部12Aは、注目画像の特徴量と正例の特徴量との類似度(すなわち特徴ベクトルの内積)が大きくなり、注目画像の特徴量と準正例の特徴量との類似度が小さくなり、注目画像の特徴量と負例の特徴量との類似度が小さくなり、かつ、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように第1の機械学習モデルを学習させる。
 第1の学習部12Aは、一例として、以下の損失関数である式(1)の値が小さくなるように第1の機械学習モデルを学習させる。
Figure JPOXMLDOC01-appb-M000001
I:注目画像の集合
i:選択された注目画像
:注目画像の特徴ベクトル
P(i):正例の集合
p:正例
:正例の特徴ベクトル
N(i):負例である画像の集合
n:負例
:負例の特徴ベクトル
:負例に付与される重み係数
Q(i):準正例の集合
q:準正例
:準正例の特徴ベクトル
:準正例に付与される重み係数
・:内積
τ:温度パラメータ(定数)
 第1の学習部12Aは、損失関数である式(1)の値を小さくするため、注目画像の特徴ベクトルと正例の特徴ベクトルとの内積が大きくなるように第1の機械学習モデルを学習させる。また、第1の学習部12Aは、注目画像の特徴ベクトルと準正例の特徴ベクトルとの内積が小さくなるように第1の機械学習モデルを学習させる。また、第1の学習部12Aは、注目画像の特徴ベクトルと負例の特徴ベクトルとの内積が小さくなるように第1の機械学習モデルを学習させる。
 すなわち、式(1)において、特徴量は特徴ベクトルであり、注目画像の特徴ベクトルと正例、準正例、および負例のそれぞれの特徴ベクトルとの類似度は、注目画像の特徴ベクトルと、正例、準正例、および負例のそれぞれの特徴ベクトルとの内積に基づく。
 また、式(1)において、準正例に付与される重み係数Wは、負例に付与される重み係数Wより大きい値に設定されることが好ましい。この場合、式(1)の値は、注目画像の特徴ベクトルと負例の特徴ベクトルとの内積よりも、注目画像の特徴ベクトルと準正例の特徴ベクトルとの内積に応じて大きく値が変わる。換言すると、第1の学習部12Aは、注目画像の特徴量と準正例の特徴量との類似度の方が、注目画像の特徴量と負例の特徴量との類似度よりも大きくなるように第1の機械学習モデルを学習させることができる。
 (第1の機械学習モデルを学習させる処理2)
 上述したように、学習用画像は、クラスのそれぞれを複数に分類した複数のミドルクラスであって、1以上のサブクラスをグループ化した複数のミドルクラスの何れかに属する構成であってもよい。この場合、各学習用画像は、上述した正例、準正例、および負例に加えて、準正例は以下のように第1の準正例および第2の準正例の何れかに分類される。
 準正例のうち、注目画像が属するミドルクラスと同じミドルクラスに属する学習用画像を第1の準正例とする。
 準正例のうち、注目画像が属するミドルクラスと異なるミドルクラスに属する学習用画像を第2の準正例とする。
 そして、第1の学習部12Aは、注目画像の特徴量と第1の準正例の特徴量との類似度の方が、注目画像の特徴量と第2の準正例の特徴量との類似度よりも大きくなるように第1の機械学習モデルを学習させる。なお、第1の学習部12Aが正例および負例を用いて第1の機械学習モデルを学習させる処理は、上述した通りである。
 第1の学習部12Aは、一例として、以下の損失関数である式(2)の値が小さくなるように第1の機械学習モデルを学習させる。
Figure JPOXMLDOC01-appb-M000002
I:注目画像の集合
i:選択された注目画像
:注目画像の特徴ベクトル
P(i):正例の集合
p:正例
:正例の特徴ベクトル
N(i):負例である画像の集合
n:負例
:負例の特徴ベクトル
:負例に付与される重み係数
Q(i):準正例の集合
q1:第1の準正例
q1:第1の準正例の特徴ベクトル
q1:第1の準正例に付与される重み係数
q2:第2の準正例
q2:第2の準正例の特徴ベクトル
q2:第2の準正例に付与される重み係数
・:内積
τ:温度パラメータ(定数)
 第1の学習部12Aは、損失関数である式(2)の値を小さくするために、注目画像の特徴ベクトルと第1の準正例の特徴ベクトルとの内積が小さくなるように第1の機械学習モデルを学習させる。さらに、第1の学習部12Aは、注目画像の特徴ベクトルと第2の準正例の特徴ベクトルとの内積が小さくなるように第1の機械学習モデルを学習させる。なお、上述したように、正例については、第1の学習部12Aは、注目画像の特徴ベクトルと正例の特徴ベクトルとの内積が大きくなるように第1の機械学習モデルを学習させる。また、負例については、第1の学習部12Aは、注目画像の特報ベクトルと負例の特徴ベクトルとの内積が小さくなるように第1の機械学習モデルを学習させる。
 また、式(2)において、第1の準正例に付与される重み係数Wq1は、第2の準正例に付与される重み係数Wq2より大きい値に設定されることが好ましい。この場合、式(2)の値は、注目画像の特徴ベクトルと第2の準正例の特徴ベクトルとの内積よりも、注目画像の特徴ベクトルと第1の準正例の特徴ベクトルとの内積に応じて大きく値が変わる。換言すると、第1の学習部12Aは、注目画像の特徴量と第1の準正例の特徴量との類似度の方が、注目画像の特徴量と第2の準正例の特徴量との類似度よりも大きくなるように第1の機械学習モデルを学習させることができる。
 (分類装置2の効果)
 以上のように、本例示的実施形態に係る分類装置2においては、各学習用画像は、さらに、複数のクラスのそれぞれを複数に分類した複数のミドルクラスであって、1以上のサブクラスをグループ化した複数のミドルクラスの何れかに属する構成が採用されている。そして、本例示的実施形態に係る分類装置2においては、準正例のうち、注目画像が属するミドルクラスと同じミドルクラスに属する学習用画像を第1の準正例とし、準正例のうち、注目画像が属するミドルクラスと異なるミドルクラスに属する学習用画像を第2の準正例とし、注目画像の特徴量と第1の準正例の特徴量との類似度の方が、注目画像の特徴量と第2の準正例の特徴量との類似度よりも大きくなるように機械学習モデルを学習させる。
 このため、本例示的実施形態に係る分類装置2によれば、準正例をさらに分類した第1の準正例と第2の準正例とを考慮して機械学習モデルを学習させるので、推論精度がより高くなるように機械学習モデルを学習させることができるという効果が得られる。
 〔ソフトウェアによる実現例〕
 学習装置1および分類装置2の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、学習装置1および分類装置2は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図7に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを学習装置1および分類装置2として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、学習装置1および分類装置2の各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置であって、複数の学習用画像を取得する取得手段と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、を備え、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習手段は、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、学習装置。
 (付記2)
 前記特徴量は、特徴ベクトルであり、前記注目画像の特徴ベクトルと前記正例、前記準正例および前記負例のそれぞれの特徴ベクトルとの類似度は、前記注目画像の特徴ベクトルと、前記正例、前記準正例および前記負例のそれぞれの特徴ベクトルとの内積に基づく、付記1に記載の学習装置。
 (付記3)
 各学習用画像は、さらに、前記複数のクラスのそれぞれを複数に分類した複数のミドルクラスであって、1以上の前記サブクラスをグループ化した複数のミドルクラスの何れかに属し、前記学習手段はさらに、前記準正例のうち、前記注目画像が属するミドルクラスと同じミドルクラスに属する学習用画像を第1の準正例とし、前記準正例のうち、前記注目画像が属するミドルクラスと異なるミドルクラスに属する学習用画像を第2の準正例とし、前記注目画像の特徴量と前記第1の準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記第2の準正例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、付記1または2に記載の学習装置。
 (付記4)
 前記学習用画像に含まれる被写体は検体細胞であり、前記検体細胞が良性であるか悪性であるかに応じてクラスに分類され、前記検体細胞の種類に応じてサブクラスに分類される、付記1~3の何れかに記載の学習装置。
 (付記5)
 前記学習手段はさらに、前記注目画像をデータ拡張したデータ拡張画像を正例とする、付記1~4の何れかに記載の学習装置。
 (付記6)
 前記機械学習モデルは、前記入力画像を入力として、前記入力画像の特徴量を生成する第1の層群と、前記第1の層群に接続され、前記入力画像の特徴量を入力として、前記入力画像を前記クラスまたは前記サブクラスに分類する第2の層群と、を備え、前記学習手段はさらに、複数の学習用画像と、当該複数の学習用画像のそれぞれを前記クラスまたは前記サブクラスに分類した結果に対応する教師ラベルとを用いて前記機械学習モデルを学習させる、
付記1~5の何れか1項に記載の学習装置。
 (付記7)
 付記1~6の何れかに記載の学習装置が学習させた前記機械学習モデルに対して、被写体を含む画像を入力することにより、前記画像を前記クラスまたは前記サブクラスに分類する分類手段、を備える分類装置。
 (付記8)
 入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置が実行する学習方法であって、複数の学習用画像を取得することと、前記複数の学習用画像を用いて前記機械学習モデルを学習させることと、を含み、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習させることにおいて、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、学習方法。
 (付記9)
 コンピュータを、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置として機能させるプログラムであって、前記プログラムは、前記コンピュータを、複数の学習用画像を取得する取得手段と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、として機能させ、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習手段は、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、プログラム。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
 入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置は、少なくとも1つのプロセッサを備え、前記プロセッサは、複数の学習用画像を取得する取得処理と、前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段処理とを実行し、各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、前記学習処理では、前記複数の学習用画像に含まれる注目画像に対し、前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、学習装置。
 なお、この学習装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記学習処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
 1 学習装置
 2 分類装置
 11 取得部
 12 学習部
 12A 第1の学習部
 12B 第2の学習部
 22 分類部

Claims (9)

  1.  入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置であって、
     複数の学習用画像を取得する取得手段と、
     前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、を備え、
     各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、
     前記学習手段は、
     前記複数の学習用画像に含まれる注目画像に対し、
      前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、
      前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、
      前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、
      前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、
      前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、
      前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、
      前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、
    学習装置。
  2.  前記特徴量は、特徴ベクトルであり、
     前記注目画像の特徴ベクトルと前記正例、前記準正例および前記負例のそれぞれの特徴ベクトルとの類似度は、前記注目画像の特徴ベクトルと、前記正例、前記準正例および前記負例のそれぞれの特徴ベクトルとの内積に基づく、
    請求項1に記載の学習装置。
  3.  各学習用画像は、さらに、前記複数のクラスのそれぞれを複数に分類した複数のミドルクラスであって、1以上の前記サブクラスをグループ化した複数のミドルクラスの何れかに属し、
     前記学習手段はさらに、
      前記準正例のうち、前記注目画像が属するミドルクラスと同じミドルクラスに属する学習用画像を第1の準正例とし、
      前記準正例のうち、前記注目画像が属するミドルクラスと異なるミドルクラスに属する学習用画像を第2の準正例とし、
      前記注目画像の特徴量と前記第1の準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記第2の準正例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、
    請求項1または2に記載の学習装置。
  4.  前記学習用画像に含まれる被写体は検体細胞であり、
     前記検体細胞が良性であるか悪性であるかに応じてクラスに分類され、
     前記検体細胞の種類に応じてサブクラスに分類される、
    請求項1~3の何れか1項に記載の学習装置。
  5.  前記学習手段はさらに、
     前記注目画像をデータ拡張したデータ拡張画像を正例とする、
    請求項1~4の何れか1項に記載の学習装置。
  6.  前記機械学習モデルは、
      前記入力画像を入力として、前記入力画像の特徴量を生成する第1の層群と、
      前記第1の層群に接続され、前記入力画像の特徴量を入力として、前記入力画像を前記クラスまたは前記サブクラスに分類する第2の層群と、
     を備え、
     前記学習手段はさらに、複数の学習用画像と、当該複数の学習用画像のそれぞれを前記クラスまたは前記サブクラスに分類した結果に対応する教師ラベルとを用いて前記機械学習モデルを学習させる、
    請求項1~5の何れか1項に記載の学習装置。
  7.  請求項1~6の何れか1項に記載の学習装置が学習させた前記機械学習モデルに対して、被写体を含む画像を入力することにより、前記画像を前記クラスまたは前記サブクラスに分類する分類手段、
    を備える分類装置。
  8.  入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置が実行する学習方法であって、
     複数の学習用画像を取得することと、
     前記複数の学習用画像を用いて前記機械学習モデルを学習させることと、を含み、
     各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、
     前記学習させることにおいて、
     前記複数の学習用画像に含まれる注目画像に対し、
      前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、
      前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、
      前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、
      前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、
      前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、
      前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、
      前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、
    学習方法。
  9.  コンピュータを、入力画像の特徴量を生成し、画像認識タスクを行う機械学習モデルを学習させる学習装置として機能させるプログラムであって、
     前記プログラムは、前記コンピュータを、
     複数の学習用画像を取得する取得手段と、
     前記複数の学習用画像を用いて前記機械学習モデルを学習させる学習手段と、として機能させ、
     各学習用画像は、当該学習用画像に含まれる被写体の特徴に応じて分類した複数のクラスの何れかに属し、かつ、前記複数のクラスのそれぞれを前記被写体の特徴に応じてさらに複数に分類した複数のサブクラスの何れかに属し、
     前記学習手段は、
     前記複数の学習用画像に含まれる注目画像に対し、
      前記注目画像が属するサブクラスと同じサブクラスに属する学習用画像を正例とし、
      前記注目画像が属するサブクラスとは異なるサブクラスに属し、かつ、前記注目画像が属するクラスと同じクラスに属する学習用画像を準正例とし、
      前記注目画像が属するクラスとは異なるクラスに属する学習用画像を負例として、
      前記注目画像の特徴量と前記正例の特徴量との類似度が大きくなり、
      前記注目画像の特徴量と前記準正例の特徴量との類似度が小さくなり、
      前記注目画像の特徴量と前記負例の特徴量との類似度が小さくなり、かつ、
      前記注目画像の特徴量と前記準正例の特徴量との類似度の方が、前記注目画像の特徴量と前記負例の特徴量との類似度よりも大きくなるように前記機械学習モデルを学習させる、
    プログラム。

     
PCT/JP2022/038080 2022-10-12 2022-10-12 学習装置、学習方法、プログラム、および分類装置 WO2024079820A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/038080 WO2024079820A1 (ja) 2022-10-12 2022-10-12 学習装置、学習方法、プログラム、および分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/038080 WO2024079820A1 (ja) 2022-10-12 2022-10-12 学習装置、学習方法、プログラム、および分類装置

Publications (1)

Publication Number Publication Date
WO2024079820A1 true WO2024079820A1 (ja) 2024-04-18

Family

ID=90669015

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/038080 WO2024079820A1 (ja) 2022-10-12 2022-10-12 学習装置、学習方法、プログラム、および分類装置

Country Status (1)

Country Link
WO (1) WO2024079820A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011229413A (ja) * 2010-04-23 2011-11-17 Nagoya Univ 細胞評価装置、インキュベータ、プログラム、および、培養方法
US20190147592A1 (en) * 2017-11-15 2019-05-16 Kun-Hsing YU Quantitative pathology analysis and diagnosis using neural networks
JP2020181486A (ja) * 2019-04-26 2020-11-05 株式会社日立製作所 特徴ベクトルを生成するシステム
WO2021161901A1 (ja) * 2020-02-13 2021-08-19 富士フイルム株式会社 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット
JP2021144675A (ja) * 2020-03-12 2021-09-24 富士フイルムビジネスイノベーション株式会社 方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011229413A (ja) * 2010-04-23 2011-11-17 Nagoya Univ 細胞評価装置、インキュベータ、プログラム、および、培養方法
US20190147592A1 (en) * 2017-11-15 2019-05-16 Kun-Hsing YU Quantitative pathology analysis and diagnosis using neural networks
JP2020181486A (ja) * 2019-04-26 2020-11-05 株式会社日立製作所 特徴ベクトルを生成するシステム
WO2021161901A1 (ja) * 2020-02-13 2021-08-19 富士フイルム株式会社 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット
JP2021144675A (ja) * 2020-03-12 2021-09-24 富士フイルムビジネスイノベーション株式会社 方法及びプログラム

Similar Documents

Publication Publication Date Title
Oyedotun et al. Deep learning in vision-based static hand gesture recognition
US10970830B2 (en) Image style conversion method, apparatus and device
He et al. Supercnn: A superpixelwise convolutional neural network for salient object detection
Feng et al. Patch-based fully convolutional neural network with skip connections for retinal blood vessel segmentation
US20230334632A1 (en) Image recognition method and device, and computer-readable storage medium
CN111274987B (zh) 人脸表情识别方法及人脸表情识别装置
Xiang et al. Towards interpretable skin lesion classification with deep learning models
Paul et al. Rethinking generalization in american sign language prediction for edge devices with extremely low memory footprint
CN114842238A (zh) 一种嵌入式乳腺超声影像的识别方法
CN114897782B (zh) 基于生成式对抗网络的胃癌病理切片图像分割预测方法
CN115004316A (zh) 采用优化的集成ai解决方案的多功能计算机辅助胃镜检查系统以及方法
Guo et al. Smile detection in the wild based on transfer learning
Lin et al. A novel approach to reconstruction based saliency detection via convolutional neural network stacked with auto-encoder
Karsh et al. mIV3Net: modified inception V3 network for hand gesture recognition
US20220301106A1 (en) Training method and apparatus for image processing model, and image processing method and apparatus
WO2024079820A1 (ja) 学習装置、学習方法、プログラム、および分類装置
Al-Qerem et al. Comparison between transfer learning and data augmentation on medical images classification
CN114913339B (zh) 特征图提取模型的训练方法和装置
Sotiropoulos Handling variable shaped & high resolution images for multi-class classification problem
Tissera et al. Modular expansion of the hidden layer in single layer feedforward neural networks
Hiremath et al. Facial Expression Recognition Using Transfer Learning with ResNet50
Kim et al. Hidden conditional ordinal random fields for sequence classification
Galchonkov et al. IMPROVING THE QUALITY OF OBJECT CLASSIFICATION IN IMAGES BY ENSEMBLE CLASSIFIERS WITH STACKING.
Wicaksono et al. Memory-based hardware-accelerated system for high-speed human detection
CN113936165B (zh) Ct图像的处理方法、终端及计算机存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22962040

Country of ref document: EP

Kind code of ref document: A1