WO2020066257A1 - 分類装置、分類方法、プログラム、ならびに、情報記録媒体 - Google Patents

分類装置、分類方法、プログラム、ならびに、情報記録媒体 Download PDF

Info

Publication number
WO2020066257A1
WO2020066257A1 PCT/JP2019/029193 JP2019029193W WO2020066257A1 WO 2020066257 A1 WO2020066257 A1 WO 2020066257A1 JP 2019029193 W JP2019029193 W JP 2019029193W WO 2020066257 A1 WO2020066257 A1 WO 2020066257A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
group
vector
groups
vectors
Prior art date
Application number
PCT/JP2019/029193
Other languages
English (en)
French (fr)
Inventor
陽一朗 山本
Original Assignee
国立研究開発法人理化学研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人理化学研究所 filed Critical 国立研究開発法人理化学研究所
Priority to US17/279,490 priority Critical patent/US20220036140A1/en
Priority to EP19867605.8A priority patent/EP3859666A4/en
Priority to CN201980063201.7A priority patent/CN112771516A/zh
Priority to JP2020548058A priority patent/JP6945253B2/ja
Publication of WO2020066257A1 publication Critical patent/WO2020066257A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Definitions

  • the present invention relates to a classification device, a classification method, a program, and an information recording device for identifying a portion characterizing any single group from a photograph of an object belonging to any one of a plurality of groups and classifying the image. Regarding the medium.
  • Patent Document 1 when a target image is captured and one or more attribute parameters associated with the target are received and the target is classified by a neural network, each element of a given feature map is used. And one or more received attribute parameters are disclosed.
  • a region that characterizes a target belonging to a specific group e.g., a group of "people with recurrent cancer" is automatically extracted with high accuracy. Accordingly, there is a demand for a technique for classifying whether or not the target belongs to a specific group and searching for a new cause of recurrence that could not be recognized by existing medical knowledge.
  • the present invention solves the above problems, from a photograph taken of an object belonging to any of a plurality of groups, identifying a portion characterizing any single group, a classification device for classifying images, It is an object to provide a classification method, a program, and an information recording medium.
  • the acquired in association with each learning photo S i to captured learning object belongs group G z (i) of, The acquired learning images S 1,1 , S 1,2 ,..., S 2,1 , S 2,2 ,..., ... Compressed vectors v 1,1 , v 1,2 ,..., v 2,1 , v 2,2 ,..., ... And a plurality of classes C 1, C 2, ..., of the C M, the learning images S i of the plurality of learning images, j and the Compressed vectors v i of said plurality of Compressed vector, j is classified Class C y (i, j), and a plurality of M-dimensional score vectors u i, j representing the closeness of each of the compressed vectors v i, j and each of the plurality of classes.
  • the classification device further includes: Learning object the shot in each learning photographic S i, each Compressed vectors v i, 1, v i, 2, ...
  • a portion characterizing any single group is identified, and a classification device, a classification method, a program, and a classifying image are provided.
  • An information recording medium can be provided.
  • FIG. 1 is an explanatory diagram illustrating a schematic configuration of a classification device (stage 1) according to an embodiment of the present invention.
  • FIG. 9 is an explanatory diagram showing a first stage of an example of a filter configuration of deep learning that can be used for learning a first model.
  • FIG. 9 is an explanatory diagram showing a latter part of an example of a filter configuration of deep learning that can be used for learning a first model.
  • It is a drawing substitute photograph which expressed a photograph given to a classification device in gray scale.
  • It is a drawing substitute photograph expressing the photograph given to the classification device in monochrome two gradations.
  • 6 is a drawing-substitute photograph expressing a state in which a photograph given to a classification device is divided in gray scale.
  • FIG. 6 is a drawing substitute photograph expressing a state in which a photograph given to a classification device is divided in two gradations of monochrome. It is a drawing substitute photograph in which a state in which a region representing each group is highlighted in the photograph given to the classification device is expressed in gray scale.
  • FIG. 4 is a drawing substitute photograph expressing a state in which a region representative of each group among the photographs given to the classifying device is highlighted and displayed in two gradations of monochrome.
  • 17 is a drawing substitute photograph expressing a photograph of another case in gray scale. 17 is a drawing substitute photograph expressing a photograph of another case in two gradations of monochrome.
  • FIG. 2 is an explanatory diagram illustrating a schematic configuration of a classification device (stage 2) according to the embodiment of the present invention.
  • FIG. 4 is an explanatory diagram showing an example of an auto encoder for deep learning that can be used for learning a first model. It is a drawing substitute photograph which expressed the learning image which shows the feature of the group with recurrence in gray scale.
  • the classification device is typically realized by a computer executing a program.
  • the computer is connected to various output devices and input devices, and exchanges information with these devices.
  • Programs to be executed on a computer can be distributed and sold by a server connected to the computer so that the computer can communicate with the computer, CD-ROM (Compact Disk Read Only Memory), flash memory, EEPROM (Electrically Erasable Programmable ROM) After recording on a non-transitory information recording medium such as the one described above, the information recording medium can be distributed and sold.
  • CD-ROM Compact Disk Read Only Memory
  • flash memory flash memory
  • EEPROM Electrically Erasable Programmable ROM
  • the program is installed on a non-temporary information recording medium such as a hard disk, a solid state drive, a flash memory, and an EEPROM of the computer. Then, the information processing device in the present embodiment is realized by the computer.
  • a CPU of a computer reads a program from an information recording medium to a RAM (Random Access Memory) under management by an OS (Operating System) of the computer, and then interprets and executes codes included in the program.
  • a CPU of a computer reads a program from an information recording medium to a RAM (Random Access Memory) under management by an OS (Operating System) of the computer, and then interprets and executes codes included in the program.
  • the information recording medium can be mapped in a memory space accessible by the CPU, it may not be necessary to explicitly load the program into the RAM. Note that various kinds of information required in the process of executing the program can be temporarily recorded in the RAM.
  • the computer includes a GPU and a GPU for performing various image processing calculations at high speed.
  • a library such as GPU and TensorFlow, it becomes possible to use learning functions and classification functions in various kinds of artificial intelligence processing under the control of the CPU.
  • the information processing apparatus can be configured by using a dedicated electronic circuit instead of realizing the information processing apparatus according to the present embodiment using a general-purpose computer.
  • the program can be used as a material for generating a wiring diagram, a timing chart, and the like of the electronic circuit.
  • an electronic circuit that satisfies the specifications defined in the program is configured by an FPGA (Field Programmable Gate Array) or an ASIC (Application Specific Integrated Circuit), and the electronic circuit has functions defined in the program.
  • the information processing apparatus according to the present embodiment is realized by functioning as a dedicated device to perform.
  • FIG. 1 is an explanatory diagram illustrating a schematic configuration of a classification device (stage 1) according to an embodiment of the present invention.
  • the classification device 101 includes an acquisition unit 102, a first learning unit 103, an association unit 104, a reception unit 105, and an identification unit 106.
  • the second learning unit 107 and the estimation unit 108 may be further provided as optional elements.
  • each of these units is realized by a computer executing a program, or by an electronic circuit constructed based on specifications defined in the program. Hereinafter, the function of each unit will be described.
  • the acquisition unit 102 is given as input an association z (i) for specifying the group to which the learning target photographed in the i-th learning photograph S i of the learning photographs S 1 , S 2 ,.
  • the correspondence z (i) is expressed in the form of a function, but may be given to the acquisition unit 102 in various forms such as an array, an associative array, and a hash.
  • a learning photo S 1, S 2, ..., S i, ... is given, acquisition unit 102, divides them properly, a plurality of learning images S 1, 1, S 1, 2 ,..., S 2,1 , S 2,2 ,..., ..., S i, 1 , S i, 2 ,..., ... (An aspect shown in this figure).
  • the learning photograph may be divided into a plurality of learning images in advance, and a plurality of learning images as a result of the division may be provided to the acquisition unit 102.
  • the learning photos are super-high-resolution photos
  • the learning images may be obtained by further reducing the resolution of each learning photo. This is suitable for speeding up learning using artificial intelligence.
  • L 2
  • healthy subjects as the first group affected individuals as the second group
  • micrographs of tissue samples taken from organs to be learned and target organs Various pathological photographs, such as an X-ray photograph of the photograph, can be adopted as the learning photographs.
  • the number of learning photos for each learning target is one to several.
  • the learning photograph is divided into a plurality of learning images, and each learning image is divided into a plurality of learning images. It is to be associated with the same group as the learning target photographed in the learning photograph as the division source.
  • a background portion or a boundary portion in which only a part of the target is imaged information other than the target, such as a shooting date and time and a patient number. May be removed from the learning image by removing the portion where the character information is drawn.
  • these backgrounds, boundaries, and character information appear in both the photograph of a healthy person and the photograph of an affected person, most of them can be automatically removed by the processing described later without removing them. .
  • the first learning unit 103 learns the first model.
  • the following three types of information can be obtained.
  • a plurality of classes C 1, C 2, ..., of the C M the learning images S i of a plurality of learning images, j and the Compressed vectors v i of the plurality of Compressed vector, j is classified Class C y (i, j) ,
  • An auto-encoder can be used to dimensionally compress the learning image to obtain a compressed vector.
  • a Convolutional AutoEncoder a Sparse AutoEncoder, a Deep AutoEncoder, a Denoising AutoEncoder, a Contractive AutoEncoder, a Saturating AutoEncoder, a Nonparametrically Guided AutoEncoder, a combination thereof, or the like can be used.
  • FIG. 2A is an explanatory diagram showing a former stage of an example of a deep learning filter configuration that can be used for learning the first model.
  • FIG. 2B is an explanatory diagram showing a latter stage of an example of a deep learning filter configuration that can be used for learning the first model.
  • various neural networks and the like can be applied to learn the first model.
  • -Dimensional compression is a process of converting a vector in which all the pixel values of a learning image are arranged into a vector having a lower dimension, which represents a feature in the appearance of the learning image.
  • artificial intelligence processing such as image processing, machine learning, and deep learning
  • a technique for extracting a feature representing an image is realized.
  • the dimensional compression is not limited to the auto-encoder, and such various techniques can be appropriately applied.
  • backpropagation is not performed in the first model, and only processing for automatically classifying features of a large number of input learning images into dimensional compression is executed.
  • backpropagation is not performed in the first model, and only processing for automatically classifying features of a large number of input learning images into dimensional compression is executed.
  • class In order to classify the compressed vector into classes, there are a method of classifying the compressed vector according to the position of the largest element of the compressed vector and a method of using clustering.
  • Each class includes a case in which a feature appears only in any one of the groups and a case in which the class represents a feature common to any of a plurality of groups.
  • the number M of classes must be L or more, and M is a multiple of L Or several tens of times.
  • the number M of classes can be further reduced.
  • the compressed vector is an M-dimensional vector
  • the index k of the largest element of the compressed vector v i, j the largest element is the k-th element
  • the compressed vector since the compressed vector has M dimensions, the compressed vector is classified into M classes.
  • y (i, j) expresses in a functional form that the learning image S i, j and the compressed vector vi , j are classified into the class C y (i, j) .
  • the classification y (i, j) can be implemented in various formats such as an array, an associative array, and a hash.
  • the dimension of the compressed vector is a vector whose dimension is sufficiently larger than M (for example, the order is sufficiently large, such as 100 times or more), by applying clustering to the compressed vector, It is possible to determine the classification y (i, j).
  • K-means, K-means ++, Affinity propagation, Mean-shift, Spectral clustering, Ward hierarchical clustering, Agglomerative clustering, DBSCAN, Gaussian mixtures, Birch, Principal component analysis, or a combination of these can be used. it can. Further, in an aspect such as X-means in which the number of classes to be classified is automatically adjusted, the number M of classes is automatically adjusted by imposing a constraint according to the number L of groups on the lower limit of the number of classes to be classified. Adjustments are also possible.
  • the learning images on which the background, boundaries, characters, and the like of the photograph are drawn are expected to be collectively classified into a class representing the background, a class representing the boundaries, and a class representing some characters or character strings. Therefore, even if the background, the border, the character, and the like are not removed in the pre-processing, it is possible to skip these classes by ignoring these classes by the processing described later.
  • Score vector u i, j is the learning image S i, j and Compressed vectors v i, j is the class C 1, C 2, ..., to each of the C M, how similar approximation, or whether the proximity Is a vector representing. Therefore, the score vector u i, j is an M-dimensional vector.
  • the k-th element of the score vector u i, j will be referred to as u i, j, k .
  • the element u i, j, k of the score vector indicates how similar, approximate, or close to the class C k the learning image S i, j and the compressed vector v i, j are.
  • the simplest score vector is that the element u i, j, y (i, j) for the class C y (i, j) is 1, and the other elements u i, j, k
  • This is a unit vector in which the y (i, j) -th element is 1 and the other elements are 0, and the class into which the training image S i, j and the compressed vector v i, j are classified is , Represented by the index of the element that has the value 1.
  • the distance d i, j, k may be a simple Euclidean distance, or the variance of a multidimensional distribution of compressed vectors v i, j
  • y (i, j) k classified into class C k
  • the distance from the representative point may be normalized in each axis direction based on the covariance matrix.
  • the application of softmax may be performed at the end of the auto encoder.
  • the compressed vector v i, j can be used as it is as the score vector u i, j .
  • each C M represents the degree of representative the representative of the vector r h, compressed vectors v i associated with the respective group G h, j
  • z (i ) score vector obtained for h u i, j
  • from z (i) h Ask.
  • Representative degree vector r h a plurality of classes C 1, C 2, ..., C M represents the degree to represent the group G h, calculated for the learning image and Compressed vectors associated with the group G h
  • z (i) h u i, j In and, k th element r h, k representative of the vector r h represents the degree of class C k is representative of the group G h.
  • the associating unit 104 maps the group G x (k) .
  • the class C k is associated with the group G h or the group G 0 .
  • maximum value r h, k are the remaining elements r 1, k, r 2, k, ..., r h-1, k, r h + 1, k, ..., r L, for k is a value, i.e., the maximum value r h, k is large projects, that is, by a class C k, group G h and, the other group G 1, G 2, ..., G h-1, G h +1 ,..., G L can be distinguished. That is, the learning images classified into the class C k characterizes the group G h, rarely seen in the other groups, so that there is a common property in appearance.
  • the maximum value rh , k exceeds a threshold determined by multiplying the sum of r 1, k , r 2, k , ..., r L, k by a constant of 0.5 or more and 1 or less.
  • the maximum value rh , k may be regarded as an outlier.
  • the constant of 0.5 or more and 1 or less may be determined in advance, or may be determined by the user of the classification device 101 by appropriately adjusting. In this embodiment, the majority is considered to be prominently large.
  • a threshold is determined based on the desired significance level from the distribution of the remaining elements, and if rh , k exceeds this threshold, the maximum value rh , k is considered to be an outlier. good.
  • various outlier tests such as a Smirnov-Grubbs test and a Thompson test can be applied to determine whether or not an outlier exists.
  • the receiving unit 105 of the classification device 101 receives a plurality of determination images obtained by dividing the determination photograph in which the determination target is captured. One or more judgment photos may be accepted.
  • the identification unit 106 classifies each of the plurality of received determination images into one of a plurality of classes by using the learned first model, and identifies a group associated with the classified class.
  • Determination image exhibiting characteristic appearance to the group G 1 is either a class C k associated with the group G 1
  • is classified as x (k) 1
  • Determination image exhibiting characteristic appearance to the group G 2 is either a class C k associated with the group G 2
  • is classified as x (k) 2
  • Determination image exhibiting characteristic appearance to the group G h is a group G one of the classes associated with the h C k
  • would be classified as x (k) L.
  • the region of the judgment image identified to any one of the groups G 1 , G 2 ,..., GL in the judgment photograph is displayed in a form associated with each group.
  • FIG. 3A is a drawing substitute photograph in which a photograph provided to the classification device is expressed in gray scale.
  • FIG. 3B is a drawing substitute photograph expressing the photograph given to the classification device in two gray levels.
  • These figures are pathological photographs used as learning photographs and judgment photographs photographed in color, but any photographs such as black-and-white photographs, infrared photographs, and radiographs can be used. Note that, in the present application, color photographs are displayed in grayscale and monochrome binarized due to restrictions in preparing application documents (the same applies hereinafter).
  • FIG. 4A is a drawing-substitute photograph in which a state in which the photograph given to the classification device is divided is expressed in gray scale.
  • FIG. 4B is a drawing-substituting photograph expressing a state in which the photograph given to the classification device is divided in two gray levels.
  • These figures show a state in which the learning picture / determination picture is divided by a mesh, and the contents of each cell correspond to the learning picture / determination picture.
  • a background portion is removed by a film scanner when scanning a pathological photograph. Therefore, the site of the main body of the sample and the cells at the boundary between the fixing members of the sample correspond to the learning image and the determination image.
  • FIG. 5A is a drawing substitute photograph in which a state in which a region representing each group is highlighted in the photograph given to the classification device is expressed in gray scale.
  • FIG. 5B is a drawing-substitute photograph that expresses a state in which a region representing each group in the photograph given to the classification device is highlighted in monochrome two gradations.
  • the region corresponding to the classified image to a class that represents a group G 1 is enclosed by the thick line corresponds to the classified image to a class that represents a group G 2 region Are shown enclosed by thin lines.
  • FIG. 6A is a drawing substitute photograph in which a photograph of another case is expressed in gray scale.
  • FIG. 6B is a drawing substitute photograph in which a photograph of another case is expressed in monochrome two gradations.
  • FIG. 7A is a drawing substitute photograph in which a state in which a region representing each group is highlighted in a photograph of another case is expressed in gray scale.
  • FIG. 7B is a drawing substitute photograph in which a region representing each group in a photograph of another case is expressed in monochrome two gradations.
  • the region surrounded by the thick line is considered to have high malignancy
  • the region surrounded by the thin line is considered to have high benignity.
  • the number of malignant regions is large, and the ratio of the number of malignant regions to the number of benign regions is considerably larger than the ratio of the number of malignant regions to the number of benign regions in FIGS. 5A and 5B. Therefore, it can be expected that the prognosis of the patients of FIGS. 7A and 7B is worse than that of the patients of FIGS. 5A and 5B.
  • this pathology photographs have been used as a learning photos, as long as the subject is originally belongs to the group G 1, makes this pathology photograph that progress in learning as a correct answer, the subject is originally belongs to the group G 2 If so, it can be considered that the subject of the pathological photograph has an exceptional symptom.
  • the classification device 101 it is possible to present important information for assisting a doctor, a technician, or the like to make a diagnosis, a judgment, and the like, and to determine a treatment policy, a measure, and the like.
  • the user can be notified of the region in the judgment photograph to be noticed when classifying the judgment target into a group, and can assist the user judgment.
  • the process further proceeds to estimate a group to which the determination target belongs, or an impact factor indicating the possibility of belonging to each group.
  • the class second learning unit 107 a learning object photographed in each learning photographic S i, each Compressed vectors v i, 1, v i, 2, which ... is classified Based on the distribution of groups G x (y (i, 1)) , G x (y (i, 2)) ,... associated with C y (i, 1) , C y (i, 2) ,... Then, a second model to be assigned to one of the groups G 1 , G 2 ,..., G L is learned.
  • 90% are identified as group G 0
  • groups G 2 are considered. without identified learning image, the learning subject being photographed on the learning photographic S i is to be allocated to group G 1, is considered.
  • the learning object originally group G 2, ..., G L If it is classified as, learning in the first model and the second model is incorrect.
  • the classification device 101 compares the group in which the learning target is originally classified and the group in which the learning target is sorted by the second model, and compares the group with the first learning unit 103 and the second learning unit 107. By minimizing and increasing the accuracy, the learning can proceed more appropriately.
  • an evaluation function for minimizing the difference between the two may be determined, and the first model and the second model may be modified by back propagation, the steepest descent method, or the like.
  • the estimating unit 108 of the classification device 101 determines, based on the distribution of the groups identified for the plurality of determination images obtained by dividing the determination photograph in which the determination It is estimated to which of the groups G 1 , G 2 ,..., GL belongs.
  • the input target is classified into one of a plurality of groups G 1 , G 2 ,..., GL , so that the support vector machine, logistic regression, ridge regression, lasso regression, neural network Alternatively, a random forest or the like can be used.
  • a score vector is obtained in the same manner as the learning image, and the sum of the score vectors (hereinafter, referred to as “determination total”) is obtained. It indicates to what extent the group of determined photos is classified into class Ck .
  • judgment images R 1 , R 2 ,... Obtained by dividing the judgment photograph R into a plurality, score vectors q 1 , q 2 ,... Are obtained by the first model, and the judgment sum Q ⁇ i q i is calculated.
  • the judgment sum Q is an M-dimensional vector, and the k-th element Q k expresses to what extent the judgment photograph R is related to the class C k .
  • the score accumulated for each group can express the degree to which group the judgment photograph R is similar.
  • the user such as a doctor refers to the impact factors P 1 , P 2 ,..., P L obtained from the judgment photograph R, and determines that the group to which the judgment target belongs belongs to G 1 , G 2 ,. It will be possible to make a diagnosis and make a decision as to which one it is.
  • Stage 1 and Stage 2 In the above processing, the group to which the subject photographed in the learning photograph or the judgment photograph belongs is learned or judged based on the learning image or the judgment image obtained by dividing the learning photograph or the judgment photograph.
  • the above processing is referred to as stage 1.
  • the learning image and the judgment image in the stage 1 are obtained by dividing the learning photograph and the judgment photograph and reducing the resolution as necessary. Therefore, it can be considered that in the processing of stage 1, observation was performed while dividing and enlarging the learning photograph and the judgment photograph.
  • FIG. 8 is an explanatory diagram illustrating a schematic configuration of a classification device (stage 2) according to the embodiment of the present invention.
  • the reception unit 105 and the identification unit 106 are omitted (not shown).
  • a change unit 109 for correcting the result of stage 1 is added.
  • stage 2 at stage 1, a plurality of groups G 1, G 2, ..., class associated with each group G h in G L C k
  • x (k ) h classified learning image and the group G h is newly given to the acquisition unit 102 as a group to which the learning photograph and the learning target belong.
  • the learning images S i, j to be processed in stage 2 are classified into class C y (i, j) in stage 1 and belong to groups G x (y (i, j)) other than group G 0. It should belong. Therefore, the set of indexes (i, j) to be processed is x (y (i, j)) ⁇ ⁇ 1, 2,..., L ⁇ Or, x (y (i, j)) ⁇ 0 Will be satisfied.
  • x (y (i, j)) ⁇ ⁇ 1, 2,..., L ⁇ that satisfies the above condition is renumbered.
  • stage 2 the subject photographed in the learning photograph S ′ k belongs to the group G z ′ (k) , and the learning photograph S ′ 1 , S ′ 2 ,. To the acquisition unit 102. Note that, similarly to the stage 1, S ′ 1 , S ′ 2 ,... May be further divided and provided to the acquisition unit 102.
  • the learning image S i, j for the set of indices (i, j) satisfying x (y (i, j)) ⁇ 1, 2,..., L ⁇ is group G x (y (i, j )) .
  • a plurality of learning pictures and associations in stage 2 are determined based on a plurality of learning images and learning results in stage 1, and given to classification device 101 in stage 2, Division, association and acquisition by the acquisition unit 102, Learning by the first learning unit 103, Association by the association unit 104, Learning by the second learning unit 107, and The estimation by the estimation unit 108 is newly performed.
  • the classifying device 101 of stage 1 and the classifying device 101 of stage 2 can have substantially the same configuration, but since the characteristics of the target image are different, the first model to be learned and the The two models will also be different.
  • the first learning unit 103 in stage 1 classifies the results of the auto encoder as shown in FIGS. 2A and 2B by clustering with k-means, and classifies the result. Different configurations are possible, such as classifying by the largest element of the resulting vector.
  • FIG. 9 is an explanatory diagram showing an example of an auto encoder for deep learning that can be used for learning the first model.
  • An embodiment in which the auto encoder as shown in this drawing is used in the first learning unit 103 of the stage 2 is possible.
  • i 'impact factor p of i' each learning photo S is determined.
  • 'Is i a vector of L dimension, as described above, learning photo S' impact factor p i a group G 1, G 2, ..., has a value which is linked to the probability that belong to the G L.
  • the class C k is associated with the group G x (k) .
  • Learning Photo S 'i at stage 2 corresponds to the learning image S f (i) in stage 1, the learning image S f (i) is, in stage 1, is divided into classes C y (f (i)) ing.
  • y (f (i)) k p ' i Is calculated.
  • the sum Z k is a degree (degree calculated in stage 2) as to which of the learning images classified into the class C k in stage 1 should belong to the group G 1 , G 2 ,..., GL .
  • the distribution is represented by an L-dimensional vector.
  • the h-th in the sum Z k obtained for the class C k Should be at a predetermined upper level (for example, the highest level) in the sum Z k .
  • the changing unit 109 changes the association of the class C k in the stage 1 from the group G h to the group G 0 if the group G h to which the class C k is associated is not a predetermined higher rank of the distribution. .
  • the predetermined higher rank may be the highest rank, or various adjustments such as up to the second rank, up to the third rank, etc. may be appropriately made according to the value of L.
  • Stage 2 is to correct the association between classes and groups in stage 1 to increase the accuracy of association between classes representing each group.
  • the classification device 101 in stage 2 does not need to include the reception unit 105 and the identification unit 106. This is because the determination image is given to the classification device 101 in stage 1 whose accuracy has been improved by stage 2, and the group to which the determination image belongs is identified.
  • Each pathological photograph has a different size because the size of the affected part differs for each case.
  • 3A and 3B show an example of a learning photograph to be processed in this experiment, which is grayscale / monochrome two-tone.
  • the original learning photo was composed of color images, 56448 pixels wide and 84224 pixels high.
  • stage 1 when each pathological photograph is scanned by the scanner, the background part is removed to some extent by the scanner. Then, the image is divided into a plurality of sections to obtain a divided image, which is used as a learning image and a determination image.
  • a divided image of 1024 pixels vertically and 1024 pixels horizontally is obtained.
  • stage 1 the second model was learned by ridge regression, lasso regression, and machine learning using a support vector machine, and the one with the highest accuracy was adopted.
  • Stage 2 the divided image of Stage 1 was further divided into 28 pixels vertically and 28 pixels horizontally before processing.
  • stage 2 the first model was learned using the filter configuration shown in FIG.
  • the discriminability when an expert physician estimates the prognosis by Gleason classification is 0.758 when represented by AUC (Area Under the Curve), but the discrimination ability by stage 1 is 0.715, and when performing stage 2 Was 0.771. Therefore, it is considered that the discrimination ability according to the present embodiment is equal to or higher than that of a skilled doctor.
  • FIG. 10A is a drawing-substitute photograph in which a learning image exhibiting the characteristics of a group with a recurrence is expressed in gray scale.
  • FIG. 10B is a drawing substitute photograph in which a learning image exhibiting the characteristics of the group with recurrence is expressed in monochrome two gradations.
  • Classified learning image to the group G 2 is one in which prognosis indicating a feature of Yes recurrence.
  • FIG. 11 is an explanatory diagram showing a positional relationship between learning images exhibiting the characteristics of the group with recurrence and those not recognized by the Gleason classification.
  • FIG. 12A is a drawing substitute photograph expressing a learning image exhibiting the characteristics of the group without recurrence in gray scale.
  • FIG. 12B is a drawing substitute photograph in which a learning image exhibiting the characteristics of the group without recurrence is expressed in monochrome two gradations. Classified learning image to the group G 1 is representative of the characteristics of recurrence-free group.
  • FIG. 13 is an explanatory diagram showing the positional relationship between learning images exhibiting the features of the group without recurrence, those that are recognized by the Gleason classification and those that are not. In this figure, the appearance of low-relapse cancer with Gleason classification can be extracted (black squares in the figure).
  • the cancer with low recurrence is a cancer that is a target of PSA monitoring therapy that does not actively treat.
  • a stump without any cancer was also extracted (open squares in the figure).
  • the characteristics of the group without recurrence were often expressed in comparison with the characteristics of the group with recurrence.
  • the characteristics of the group without recurrence are positively expressed. It becomes possible.
  • an auto-encoder or the like is used for dimensional compression.
  • a conversion device that converts an input vector into a feature vector by a conversion model, unsupervised learning is performed, and the obtained feature vector is compressed. A mode in which the vector is used will be described.
  • FIG. 14 is an explanatory diagram illustrating a basic configuration of the conversion device according to the embodiment of the present invention.
  • FIG. 15 is an explanatory diagram showing a configuration in which additional elements are added to the conversion device according to the embodiment of the present invention. The outline will be described below with reference to these figures.
  • the conversion device 1001 includes a dividing unit 1002, a first classifying unit 1003, and a first learning unit 1004.
  • the conversion apparatus 1001 can include a second classifying unit 1005 and a second learning unit 1006 as elements according to the configuration that can be omitted.
  • the conversion device 1001 converts the input vector given as an input into a feature vector by the conversion model 1101.
  • FIG. 16 is a flowchart showing processing executed by the basic configuration of the conversion device according to the embodiment of the present invention.
  • FIG. 17 is a flowchart showing a process executed by the configuration for performing the class classification of the conversion device according to the embodiment of the present invention.
  • the processing in the conversion device 1001 is performed by using the learning step of the conversion model 1101 (steps S2001-S2004), the learning step of the class classification (second classification model 1202) (steps S2005-S2006), and the class classification. It can be divided into three stages (steps S2007-S2009), and each can be executed independently.
  • the learning stage of the transformation model 1101 is executed in both FIG. 14 and FIG. 15, and the learning stage of the class classification (second classification model 1202) and the use stage of the class classification (step S2009) are the same as those in FIG. Is omitted.
  • the conversion apparatus 1001 receives a plurality of training vectors v 1 , v 2 ,..., V N as a typical example of an input vector (step S2001).
  • a plurality of classes C 1, C 2, ..., from the C L a plurality of training vectors v 1, v 2, ..., v N is correct class C c should genus respectively (1), C c (2 ), ..., class label c of C c (N) (1) , c (2), ..., c a (N), also accept combined It is possible.
  • division unit 1002 of the converter 1001 a plurality of training vectors v 1, v 2, ..., a v N, a random plurality of groups G 1, G 2, ..., is divided into G M (step S2002).
  • This division training vector v 1, v 2, ..., v in the respective N, random label corresponding to the subscript of the divided target group (group label) g (1), g ( 2), ..., g (N ) Can be expressed.
  • the number M of groups is 2 or more arbitrary.
  • the training vector v i 1, 2, ..., for each N, the training vector v i is classified into groups G g (i) (The training vectors v i, random labels g ( i)). That is, the following relationship is established. v 1 ⁇ G g (1) , v 2 ⁇ G g (2) ,..., v N ⁇ G g (N)
  • training vector v i is the class C c (i) belonging (the training vectors v i, are given correct label c (i) is) intended to. That is, the following relationship is established. v 1 ⁇ C c (1) , v 2 ⁇ C c (2) ,..., v N ⁇ C c (N)
  • the conversion apparatus 1001 converts the given input vector x into a feature vector p (x) using the conversion model 1101.
  • the conversion model 1101 various models such as a CNN (Convolutional Neural Network) and an arbitrary neural network not using convolution can be adopted.
  • the first classification unit 1003 uses the first classification model 1201 to convert the feature vector p (x) converted from the input vector x given to the conversion device 1001 into a plurality of groups G 1 , G 2 ,. It is classified into any of M. In effect, the first classification unit 1003 outputs, for a given feature vector p (x), a subscript (label) of a group to which the feature vector p (x) is to be classified.
  • the first classification model in addition to general logistic regression, ridge regression, lasso regression, SVM (Support Vector Machine), random forest, neural network, and the like can be adopted.
  • the first learning unit 1004 in the conversion device 1001 performs first training data (v 1 , g (1)) including a plurality of training vectors and a group obtained by dividing the plurality of training vectors. (v 2 , g (2)), ..., (v N , g (N)) Is generated (step S2003).
  • the first teacher data associates each training vector with a random label (group label).
  • the first learning unit 1004 in the conversion device 1001 learns the conversion model 1101 in the conversion device 1001 and the first classification model 1201 in the first classification unit 1003 based on the first teacher data (step S2004).
  • the second classification unit 1005 converts the feature vector p (x) converted from the input vector x provided to the conversion device 1001 into a plurality of classes C 1 , C 2 ,. those classified as either C L. Effectively, the second classifying unit 1005 outputs, for a given feature vector p (x), a subscript (class label) of a class to which the feature vector p (x) is to be classified. .
  • the second classification model 1202 similar to the first classification model 1201, in addition to general logistic regression, ridge regression, lasso regression, SVM (Support Vector Machine), random forest, neural network, etc. can be adopted. .
  • the first classification model 1201 and the second classification model 1202 may employ neural networks having the same structure.
  • the second learning unit 1006 of the conversion device 1001 uses the conversion model 1101 learned by the first learning unit 1004 to calculate a feature vector obtained by converting a plurality of training vectors by the conversion device 1001, and a plurality of training vectors.
  • Second teacher data (p (v 1 ), c (1)) (p (v 2 ), c (2)), ..., (p (v N ), c (N)) Is generated (step S2005).
  • this computed feature vector p (v i) the correct answer was given to the original training vector v i label c (i), and utilized as a second training data.
  • the second learning unit 1006 learns the second classification model 1202 in the second classification unit 1005 (Step S2006).
  • the conversion device 1001 is characterized in that the second classification unit 1202 is updated in the learning by the second learning unit 1006, but the conversion model 1101 is not updated.
  • the second classification model 1202 may be updated without updating the learned conversion model 1101 in the conversion device 1001.
  • the second classification model 1202 After the second classification model 1202 has been learned, it is possible to proceed to the stage using the class classification. That is, when a new input vector y is provided to the conversion device 1001 (step S2007), The conversion device 1001 converts the new input vector y into a new feature vector p (y) by the learned conversion model 1101 (Step S2008), Second classification unit 1005, the second classification model 1202 learned, by obtaining a label for the new feature vector p (y), a plurality of classes C 1, C 2, ..., classified as either C L (Step S2009). That is, the input vector y is classified into the class in which the feature vector p (y) is classified.
  • step S2007-S2009 the class classification use stage (steps S2007-S2009) is executed only once, but it can be executed any number of times each time an input vector is given.
  • the conversion model is learned in steps S2001-S2004, and the input vector is converted into the feature vector in steps S2007-S2008, so that the element of the class classification can be omitted. Also in this case, the conversion to the feature vector can be performed an arbitrary number of times.
  • the classification by the conversion apparatus 1001 of the present embodiment is performed by using (v 1 , c (1)) as teacher data in the classification using the conventional auto encoder. (v 2 , c (2)), ..., (v N , c (N)) It has been found that the accuracy and the sparseness of the obtained feature vector are improved as compared with the case where is used.
  • the conversion model 1101 converts an input vector into a feature vector, and compresses information. Therefore, the dimension of the input vector is generally lower than the dimension of the feature vector.
  • the present conversion apparatus 1001 can also employ a conversion model 1101 that converts an input vector into a feature vector by reducing the dimensions of the input vector. It is desirable that the dimension of the feature vector be equal to or greater than the number of types of random labels, that is, equal to or greater than the number M of groups.
  • the dimension of the feature vector be equal to or greater than the number of types of correct labels, that is, equal to or greater than the number L of classes.
  • the probability that the dividing unit 1002 randomly divides the training vector into each of the plurality of groups may be equal to each other, or may not coincide with each other. That is, the number of training vectors included in each group may be the same or different. Also for these, a suitable probability assignment wo can be obtained by a preliminary experiment.
  • the present conversion apparatus 1001 has good sparsity of feature vectors. Therefore, the input vector may be converted into a feature vector by increasing the dimension of the input vector. That is, the number of dimensions of the feature vector is larger than the number of dimensions of the input vector.
  • the conversion device 1001 according to the present embodiment can be widely used as a replacement for an auto encoder that has been conventionally used to obtain a feature vector.
  • the filter configuration of the encoding unit is directly used for the conversion model 1101 of the conversion device 1001. You can also.
  • the input vector has 3072 dimensions.
  • the filter configuration of converter 1001 is as follows.
  • input_img Input ((x_train.shape [1], x_train.shape [2], x_train.shape [3]));
  • the input vector was compressed to 2048 dimensions by the simplest CNN with eight output layers, kernel size and stride 2 ⁇ 2, activation function relu, no pooling, no dropout (encoded). ),
  • the feature vector is obtained. That is, of the above, the process up to obtaining encoded corresponds to the conversion model.
  • the obtained feature vector is two-dimensionalized (x2), after the number of output layers 8, kernel size and stride 2 ⁇ 2, activation function relu, through the simplest CNN without pooling, without dropout ( x3)
  • the activation function softmax is adopted and divided into L types of groups (last). That is, the range from encoded to last through x3 and x4 corresponds to the first classification model 1201.
  • the filter configuration of the encoder unit of the conventional auto encoder is the same as that of the conversion model in the conversion device 1001, and the filter configuration of the decoding unit is the reverse of this. After the learning of the auto-encoder, logistic regression learning was performed to classify the feature vectors.
  • the number of teacher data is 50,000
  • the number of input data given after learning is 10,000
  • the accuracy of feature vector determination, sparsity, and the learning of logistic regression for classifying feature vectors was examined.
  • the conversion device 1001 when the feature vector is divided into 10 groups with different numbers of elements (2500, 3000, 3500, 4000, 4500, 5550, 6000, 6500, 7000, 7500) is as follows: Such a result was obtained. Judgment accuracy 45.2% Zero element ratio in feature vector 49.7% Logistic regression learning time 798.4 seconds
  • the conversion device 1001 according to the present embodiment is superior in the sparsity of the feature vector and the determination accuracy based on the obtained feature vector. Further, in the conversion device 1001 according to the present embodiment, since the obtained feature vector is sparse, the learning time required for logistic regression can be extremely short.
  • the ratio of the zero element in the obtained compressed vector (feature vector) was increased from 45% to 55%, and the AUC was also improved by 0.023. Also, the calculation time required for dimensional compression was reduced to about one third. Therefore, in a complex image such as a pathological image, the usefulness of the conversion device 1001 could be confirmed.
  • the present embodiment can be applied to determine the state of an antique kimono. That is, the photographs (learning photographs) are grouped according to the degree of deterioration of the learning antique kimono, and the classification device 101 learns. When the learning is completed, a photo (determination photo) of the antique kimono to be examined is given to the classification device 101, and a group corresponding to the degree of deterioration of the antique kimono is estimated.
  • the present embodiment can be applied to analysis of aerial photographs and astrophotography. For example, detecting signs of meteor showers, meteorites, and supernova explosions from astrophotography, detecting underground resources such as coal, oil, water, and metal ores, and the existence of underground buried objects such as archaeological sites and relics from aerial photographs. In this case, the present embodiment can be applied.
  • the classification device includes: A plurality of learning images S i, 1 , S i, 2 ,... Obtained by dividing each learning photograph S i of the plurality of learning photographs S 1 , S 2 ,... Are combined into a plurality of groups G 1 , G 2 ,.
  • the first learning unit that learns the model, The plurality of groups G 1, G 2, ..., G the each group G h of L multiple class C 1, C 2, ..., C M representative of the vector r h of M dimensions each representing a degree of representative Is obtained from the score vector u i, j
  • z (i) h obtained for the compressed vector v i, j
  • z (i) h associated with each group G h .
  • a receiving unit that receives a plurality of determination images obtained by dividing a determination photograph in which a determination target is captured,
  • An identification unit configured to classify each of the plurality of accepted determination images into any of the plurality of classes by the learned first model, and to identify a group associated with the classified class.
  • each Compressed vectors v i, 1, v i, 2, ... were classified class C y (i, 1), C y (i, 2) ,.., G x (y (i, 1)) , G x (y (i, 2)) ,..., Based on the distribution of the groups G 1 , G 2 ,.
  • a second learning unit that learns a second model to be assigned to any group Any of the plurality of groups G 1 , G 2 ,..., GL is determined by the learned second model based on the distribution of the identified groups with respect to the determination target. It can be configured to further include an estimating unit for estimating whether it belongs to
  • Learning object the shot in each learning photographic S i, wherein each score vector u i, 1, u i, 2, ... and the plurality of classes C 1, C 2, ..., respectively associated with the C M is is group G x (1), G x (2), ... and, from the plurality of groups G 1, G 2, ..., a second learning a second model to determine the probability that distributed to each group of G L Learning department, Based on the score vector determined for the plurality of judgment image, by the learned second model, the determination target is a plurality of groups G 1, G 2, ..., the probability of belonging to each group of G L It can be configured to further include an estimating unit for estimating.
  • the plurality of compressed vectors may be obtained by an auto-encoder, and the plurality of obtained compressed vectors may be clustered to classify the plurality of compressed vectors.
  • the auto encoder can be configured to be a Convolutional AutoEncoder, a Sparse AutoEncoder, a Deep AutoEncoder, a Denoising AutoEncoder, a Contractive AutoEncoder, a Saturating AutoEncoder, a Nonparametrically Guided AutoEncoder, or a combination thereof.
  • the clustering is configured to be K-means, K-means ++, Affinity propagation, Mean-shift, Spectral clustering, Ward hierarchical clustering, Agglomerative clustering, DBSCAN, Gaussian mixtures, Birch, principal component analysis, or a combination thereof. can do.
  • the score vector u i, j can be configured to be a vector in which the element for the class C y (i, j) is 1 and the other elements are 0.
  • the score vector u i, j may be configured so that an element for each class C k is a vector that sets the degree of proximity between the compressed vector v i, j and a representative point of each class C k. it can.
  • z (i) h u i, j Can be configured as required.
  • the maximum value rh , k exceeds a threshold determined by multiplying the sum of r 1, k , r 2, k , ..., r L, k by a constant of 0.5 or more and 1 or less, the maximum value It can be configured such that r h, k is regarded as the outlier.
  • the maximum value rh , k may be regarded as the outlier.
  • an input target is classified into one of the groups G 1 , G 2 ,..., GL. Can be configured.
  • a x (k) the learning images classified into h and the group G h, the By newly giving to the acquisition unit as a group to which the learning photograph and the learning target belong, Division, association and acquisition by the acquisition unit, Learning by the first learning unit, Association by the association unit, Learning by the second learning unit, and Newly performing estimation by the estimation unit, Determine the distribution of the newly estimated group as belonging to the learning image classified into each class C k , If the contains a group G h to a predetermined level the obtained distribution, the association of the class C k, can be configured to change from the group G h in the other groups G 0 .
  • the most significant is not the group G h of distribution determined, the association of the class C k, can be configured to change from the group G h in the other groups G 0.
  • the classification device In the classification device according to the present embodiment, Obtaining the plurality of compressed vectors by a conversion device that converts an input vector into a feature vector by a conversion model, and classifying the plurality of compressed vectors by clustering the obtained plurality of compressed vectors,
  • the conversion device A dividing unit that randomly divides a plurality of training vectors into a plurality of groups, A first classification unit that classifies the feature vectors each converted by the conversion model from the plurality of training vectors into one of the plurality of groups by a first classification model, A first learning unit that learns the conversion model and the first classification model using first teacher data including the plurality of training vectors and a group into which the plurality of training vectors are divided. Can be configured.
  • the conversion device according to the present embodiment can be the conversion device in the above classification device.
  • the classification device includes: A plurality of learning photo S 1, S 2, ... a plurality of learning images S i obtained by dividing each learning photo S i of, 1, S i, 2, ... a plurality of groups G 1, G 2, ..., G L the acquired in association with each learning photo S i to captured learning object belongs group G z (i) of, The acquired learning images S 1,1 , S 1,2 ,..., S 2,1 , S 2,2 ,..., ... Compressed vectors v 1,1 , v 1,2 ,..., v 2,1 , v 2,2 ,..., ... And a plurality of classes C 1, C 2, ..., of the C M, the learning images S i of the plurality of learning images, j and the Compressed vectors v i of said plurality of Compressed vector, j is classified Class C y (i, j), and a plurality of M-dimensional score vectors u i, j representing the closeness of each of
  • the program according to the present embodiment includes a computer A plurality of learning images S i, 1 , S i, 2 ,... Obtained by dividing each learning photograph S i of the plurality of learning photographs S 1 , S 2 ,... Are combined into a plurality of groups G 1 , G 2 ,.
  • the first learning unit that learns the model, The plurality of groups G 1, G 2, ..., G the each group G h of L multiple class C 1, C 2, ..., C M representative of the vector r h of M dimensions each representing a degree of representative Is obtained from the score vector u i, j
  • z (i) h obtained for the compressed vector v i, j
  • z (i) h associated with each group G h .
  • a receiving unit that receives a plurality of determination images obtained by dividing a determination photograph in which a determination target is captured, According to the learned first model, each of the plurality of accepted determination images is classified into one of the plurality of classes, and functions as an identification unit that identifies the group associated with the classified class. Let it.
  • the program according to this embodiment can be recorded on a non-temporary computer-readable information recording medium, distributed, and sold. Further, it can be distributed and sold via a temporary transmission medium such as a computer communication network.
  • a portion characterizing any single group is identified, and a classification device, a classification method, a program, and a classifying image are provided.
  • An information recording medium can be provided.

Abstract

複数のグループのいずれかに属する対象が撮影された写真から、いずれか単一のグループを特徴付ける部分を同定する分類装置(101)を提供する。ここで、取得部(102)は、学習写真を分割した学習画像を、学習写真に撮影された学習対象が属するグループに対応付けて取得し、第1学習部(103)は、学習画像を次元圧縮してクラスに分類しスコアベクトルを求める第1モデルを学習し、対応付け部(104)は、各グループを各クラスが代表する度合を表す代表度ベクトルを求め、代表度ベクトルにより、各クラスをいずれかのグループに対応付け、受付部(105)は、判定写真を分割した判定画像を受け付け、同定部(106)は、第1モデルにより判定画像をクラスに分類し、分類されたクラスに対応付けられたグループを同定する。

Description

分類装置、分類方法、プログラム、ならびに、情報記録媒体
  本発明は、複数のグループのいずれかに属する対象が撮影された写真から、いずれか単一のグループを特徴付ける部分を同定して、画像を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体に関する。
  従来から、対象を撮影した写真をニューラルネットワークにより分類して、診断等に役立てようとする技術が提案されている。
  たとえば、特許文献1では、対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、を受け付け、対象をニューラルネットワークにより分類する際に、与えられた特徴マップの各要素と、受け付けられた1以上の属性パラメータと、を畳み込む技術が開示されている。
  ここで、病変等を有する患者を撮影した写真であっても、健常者と同じ外観を有する領域が撮影されていることは多い。たとえば、一部の細胞は病変の影響を受けているが、多数の細胞は正常のままである、という場合である。
  従来から、前立腺癌の再発予測等の予後診断においては、被験者の対象部位を撮影した病理写真から、医学知識に基いて、医師が、癌がある領域(病変がある領域)をその他の領域(正常な領域)から絞り込んで囲い込むことが広く行われている。たとえば、癌の悪性度分類として広く使われているグリソン分類では、癌の領域を絞り込んだ後で、その癌を対象として組織形態をさらに調べることで悪性度を測定する必要がある。
  このような絞り込み、囲い込みには、非常に大きな手間および長い時間がかかるとともに、医師によってその精度が異なるほか、既存の医学知識で認識できる外観についてしか解析できない、という問題がある。
特許第6345332号公報
  したがって、対象(たとえば、診断対象の「人」)を撮影した写真から、特定のグループ(たとえば、「癌が再発する人」のグループ)に属する対象を特徴付ける領域を精度高く自動的に抽出することにより、当該対象が特定のグループに属するか否か、を分類するとともに、既存の医学知識では認識できていなかった新たな再発要因を探し出す技術が望まれている。
  すなわち、どの領域が各グループを特徴付ける重要要素か判別することによって、対象を精度良くグループに分類するとともに、グループの差異に関する知見を人が理解できるようにしたい、という要望がある。
  このような領域を抽出するためには、写真を小さく分割した画像のそれぞれが、特定の一つのグループに特徴的なものであるか、それとも、他のグループとも共通して出現するものか、を同定する必要がある。
  本発明は、上記の課題を解決するもので、複数のグループのいずれかに属する対象が撮影された写真から、いずれか単一のグループを特徴付ける部分を同定して、画像を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体を提供することを目的とする。
  本発明に係る分類装置は、
  複数の学習写真S1, S2, …の各学習写真Siを分割した複数の学習画像Si,1, Si,2, …を、複数のグループG1, G2, …, GLのうち前記各学習写真Siに撮影された学習対象が属するグループGz(i)に対応付けて取得し、
  前記取得された複数の学習画像
    S1,1, S1,2, …, 
    S2,1, S2,2, …, 
     … 
を次元圧縮した複数の圧縮済ベクトル
    v1,1, v1,2, …, 
    v2,1, v2,2, …, 
     … 
と、複数のクラスC1, C2, …, CMのうち、前記複数の学習画像の各学習画像Si,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルvi,jが分類されるクラスCy(i,j)と、前記各圧縮済ベクトルvi,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルui,jと、を求める第1モデルを学習し、
  前記複数のグループG1, G2, …, GLの各グループGhを前記複数のクラスC1, C2, …, CMのそれぞれが代表する度合を表すM次元の代表度ベクトルrhを、各グループGhに対応付けられる圧縮済ベクトルvi,j|z(i)=hに対して求められたスコアベクトルui,j|z(i)=hから求め、前記求められた代表度ベクトルr1, r2, …, rLにより、前記複数のクラスの各クラスCkを前記複数のグループG1, G2, …, GLおよび他のグループG0のうち、グループGx(k)に対応付け、
  判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付け、
  前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する。
  また、本分類装置は、さらに、
  前記各学習写真Siに撮影された学習対象を、前記各圧縮済ベクトルvi,1, vi,2, …が分類されたクラスCy(i,1), Cy(i,2), …に対応付けられたグループGx(y(i,1)), Gx(y(i,2)), …の分布に基づいて、前記複数のグループG1, G2, …, GLのうち、いずれかのグループに振り分ける第2モデルを学習し、
  前記判定対象に対して前記同定されたグループの分布に基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG1, G2, …, GLのうち、いずれのグループに属するかを推定する
  ように構成することができる。
  本発明によれば、複数のグループのいずれかに属する対象が撮影された写真から、いずれか単一のグループを特徴付ける部分を同定して、画像を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体を提供することができる。
本発明の実施形態に係る分類装置(ステージ1)の概要構成を示す説明図である。 第1モデルを学習するために利用可能な深層学習のフィルタ構成の一例の前段を示す説明図である。 第1モデルを学習するために利用可能な深層学習のフィルタ構成の一例の後段を示す説明図である。 分類装置に与えられる写真をグレイスケールで表現した図面代用写真である。 分類装置に与えられる写真をモノクロ2階調で表現した図面代用写真である。 分類装置に与えられた写真を分割した様子をグレイスケールで表現した図面代用写真である。 分類装置に与えられた写真を分割した様子をモノクロ2階調で表現した図面代用写真である。 分類装置に与えられた写真のうち、各グループを代表する領域を強調表示した様子をグレイスケールで表現した図面代用写真である。 分類装置に与えられた写真のうち、各グループを代表する領域を強調表示した様子をモノクロ2階調で表現した図面代用写真である。 他の症例の写真をグレイスケールで表現した図面代用写真である。 他の症例の写真をモノクロ2階調で表現した図面代用写真である。 他の症例の写真において各グループを代表する領域を強調表示した様子をグレイスケールで表現した図面代用写真である。 他の症例の写真において各グループを代表する領域を強調表示したモノクロ2階調で表現した図面代用写真である。 本発明の実施形態に係る分類装置(ステージ2)の概要構成を示す説明図である。 第1モデルを学習するために利用可能な深層学習のオートエンコーダの一例を示す説明図である。 再発ありグループの特徴を呈する学習画像をグレイスケールで表現した図面代用写真である。 再発ありグループの特徴を呈する学習画像をモノクロ2階調で表現した図面代用写真である。 再発ありグループの特徴を呈する学習画像のうちグリソン分類にて認定されるもの、されないものの位置関係を示す説明図である。 再発なしグループの特徴を呈する学習画像をグレイスケールで表現した図面代用写真である。 再発なしグループの特徴を呈する学習画像をモノクロ2階調で表現した図面代用写真である。 再発なしグループの特徴を呈する学習画像のうちグリソン分類にて認定されるもの、されないものの位置関係を示す説明図である。 本発明の実施形態に係る変換装置の基本構成を示す説明図である。 本発明の実施形態に係る変換装置に付加的な要素を追加した構成を示す説明図である。 本発明の実施形態に係る変換装置の基本構成にて実行される処理を示すフローチャートである。 本発明の実施形態に係る変換装置のクラス分類を行う構成にて実行される処理を示すフローチャートである。
  以下に、本発明の実施形態を説明する。なお、本実施形態は、説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば、本実施形態の各要素もしくは全要素を、これと均等なものに置換した実施形態を採用することが可能である。また、各実施例にて説明する要素は、用途に応じて適宜省略することも可能である。このように、本発明の原理にしたがって構成された実施形態は、いずれも本発明の範囲に含まれる。
  (構成)
  本実施形態に係る分類装置は、典型的には、プログラムをコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。
  コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。
  プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等などの非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPUは、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。
  さらに、上記のように、コンピュータは、GPUを備え、各種画像処理計算を高速に行うためのGPUを備えることが望ましい。GPUならびにTensorFlow等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能や分類機能を利用することができるようになる。
  なお、汎用のコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置を構成することも可能である。この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)により構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。
  以下では、理解を容易にするため、分類装置101は、コンピュータがプログラムを実行することによって実現される態様を想定して説明する。図1は、本発明の実施形態に係る分類装置(ステージ1)の概要構成を示す説明図である。
  本図に示すように、本実施形態に係る分類装置101は、取得部102、第1学習部103、対応付け部104、受付部105、同定部106を備える。このほか省略可能な要素として、第2学習部107、推定部108をさらに備えることとしても良い。上記のように、これら各部は、コンピュータがプログラムを実行することによって、あるいは、プログラムに定められた仕様に基づいて構築された電子回路によって、実現される。以下、各部の機能について説明する。
  (学習写真、学習画像、グループ)
  まず、取得部102は、複数の学習写真S1, S2, …の各学習写真Siを分割した複数の学習画像Si,1, Si,2, …を、複数のグループG1, G2, …, GLのうち各学習写真Siに撮影された学習対象が属するグループGz(i)に対応付けて取得する。本図では、添字や引数等が1, 2, …の整数値をとりうることを記号「*」にて表記している。
  取得部102には、入力として、学習写真S1, S2, …のi番目の学習写真Siに撮影された学習対象が属するグループを特定するための対応付けz(i)が与えられる。ここで、対応付けz(i)は関数の形式で表現されているが、たとえば、配列、連想配列、ハッシュ等、種々の形式で取得部102に与えることとしても良い。
  したがって、取得部102では、
(1) 学習写真S1を分割した学習画像S1,1, S1,2, …がグループGz(1)に対応付けて取得され、
(2) 学習写真S2を分割した学習画像S2,1, S2,2, …がグループGz(2)に対応付けて取得され、
  … 
(i) 学習写真Siを分割した学習画像Si,1, Si,2, …がグループGz(i)に対応付けて取得され、
  … 
のように、対応付けがなされることになる。
  取得部102に対しては、学習写真S1, S2, …, Si, …が与えられ、取得部102が、これらを適宜分割して、複数の学習画像
    S1,1, S1,2, …, 
    S2,1, S2,2, …, 
     …, 
    Si,1, Si,2, …, 
     … 
としても良い(本図に示す態様)。
  また、分類装置101に対する前処理により、あらかじめ、学習写真を複数の学習画像に分割してしまい、分割結果である複数の学習画像を取得部102に与えることとしても良い。
  このほか、学習写真が超高精細な写真である場合には、学習写真を分割する際に、さらに、各学習写真の解像度を下げることによって、学習画像を得ることとしても良い。これは、人工知能を用いた学習を高速化する上で好適である。
  グループについて、たとえば、L=2とし、第1グループとして健常者を、第2グループとして罹患者を、それぞれ採用し、学習対象となる臓器から採取した組織サンプルを撮影した顕微鏡写真や対象となる臓器を撮影したレントゲン写真等、種々の病理写真を学習写真として採用することができる。
  上記の例の場合、各学習対象についての学習写真は1枚乃至数枚となる。本実施形態では、学習写真から、診断を下す医師に対して注意を喚起すべき領域を自動抽出するため、当該学習写真を、複数の学習画像に分割し、各学習画像を、その学習画像の分割元である学習写真に撮影された学習対象と同じグループに対応付けることとしている。
  したがって、各学習対象についての学習画像は多数枚になる。また、対象が罹患者であっても、健常者と区別がつかない学習画像(たとえば、罹患はしているが、健常な形態を呈する細胞が撮影された領域の画像等。)が存在することがありうる。
  学習写真を分割する際には、全学習画像が同じサイズになるように調整することができる。なお、学習画像に出現する画素値の分布や文字認識、ノイズ認識等に基づいて、対象が一部しか撮影されていない背景部分や境界部分、対象以外の情報、たとえば、撮影日時や患者番号等の文字情報が描画された部分を除去し、学習画像から排除しても良い。ただし、これらの背景、境界、文字情報については、健常者の写真にも罹患者の写真にも出現するので、排除する処理をしなくとも、後述する処理によって、そのほとんどが自動的に除去できる。
  (第1モデル)
  さて、第1学習部103は、第1モデルを学習する。この第1モデルによって、以下の3種の情報が得られることになる。
  (a) 取得された複数の学習画像
    S1,1, S1,2, …, 
    S2,1, S2,2, …, 
     …, 
    Si,1, Si,2, …, 
     … 
を次元圧縮した複数の圧縮済ベクトル
    v1,1, v1,2, …, 
    v2,1, v2,2, …, 
     …, 
    vi,1, vi,2, …, 
     … 
と、
  (b) 複数のクラスC1, C2, …, CMのうち、複数の学習画像の各学習画像Si,jならびに複数の圧縮済ベクトルの各圧縮済ベクトルvi,jが分類されるクラスCy(i,j)と、
  (c) 各圧縮済ベクトルvi,jと複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルui,j
  (次元圧縮)
  学習画像を次元圧縮して圧縮済ベクトルを得るには、オートエンコーダを利用することができる。オートエンコーダとしては、Convolutional AutoEncoder, Sparse AutoEncoder, Deep AutoEncoder, Denoising AutoEncoder, Contractive AutoEncoder, Saturating AutoEncoder, Nonparametrically Guided AutoEncoder、もしくは、これらの組合せ等を利用することができる。
  図2Aは、第1モデルを学習するために利用可能な深層学習のフィルタ構成の一例の前段を示す説明図である。図2Bは、第1モデルを学習するために利用可能な深層学習のフィルタ構成の一例の後段を示す説明図である。これら図に示すほか、種々のニューラルネットワーク等を第1モデルを学習するために適用することができる。
  次元圧縮は、学習画像の全ピクセル値を並べたベクトルを、学習画像の外観上の特徴を表す、より次元の低いベクトルに変換する処理である。上記のように、画像処理や機械学習、深層学習などの人工知能処理では、画像を表す特徴を抽出する技術が実現されている。
  したがって、次元圧縮には、オートエンコーダに限らず、このような種々の技術を適宜適用することができる。
  なお、最も単純な形態では、第1モデルではバックプロパゲーションは行わず、入力された多数の学習画像の特徴を自動的に次元圧縮へ分類する処理のみを実行する。ただし、後述する推定を行うことにより、バックプロパゲーションを行って、グループへの分類の精度を高めるように、オートエンコーダ等のパラメータ等を学習することができる。
  (クラス)
  圧縮済ベクトルをクラスに分類するには、圧縮済ベクトルの最大要素の位置により分類する手法と、クラスタリングを利用する手法と、がある。各クラスは、いずれかのグループのみに出現する特徴を表す場合と、いずれか複数のグループに共通する特徴を表す場合と、がある。
  したがって、分類されるクラスの数Mは、グループの数L、学習写真の総数およびサイズ、学習画像の総数およびサイズに応じて、適宜調整することが望ましい。
  たとえば、L個のグループの各グループについて、当該各グループの特徴を表すクラスをそれぞれ1つ以上発見するためには、クラスの数Mは、L以上である必要があり、MをLの数倍乃至数十倍にすることもできる。一方で、いずれかのグループについては特徴が見出せなくとも良い場合には、クラスの数Mをもっと小さくすることもできる。
  圧縮済ベクトルがM次元のベクトルである場合には、単純に、圧縮済ベクトルvi,jの最大要素のインデックスk(最大要素がk番目の要素)を用いて、y(i,j)=kとすることによって、圧縮済ベクトルvi,jをクラスCk(=Cy(i,j))に分類することができる。この手法では、圧縮済ベクトルがM次元であるから、圧縮済ベクトルはM個のクラスに分類されることになる。
  ここで、y(i,j)は、学習画像Si,jおよび圧縮済ベクトルvi,jがクラスCy(i,j)に分類されることを関数形式で表現したものである。上記の対応付けz(i)と同様に、分類y(i,j)は、配列、連想配列、ハッシュ等、種々の形式で実装することが可能である。
  一方で、圧縮済ベクトルの次元がMよりも十分に大きい(たとえば、100倍以上など、オーダーが十分に大きい)次元のベクトルの場合には、圧縮済ベクトルに対してクラスタリングを適用することにより、分類y(i,j)を求めることが可能である。
  クラスタリングには、K-means, K-means++, Affinity propagation, Mean-shift, Spectral clustering, Ward hierarchical clustering, Agglomerative clustering, DBSCAN, Gaussian mixtures, Birch, 主成分分析、もしくは、これらの組合せを利用することができる。また、X-meansなどのように、分類されるクラスの数を自動調整する態様では、分類されるクラス数の下限につきグループの数Lに応じた制約を課すことで、クラスの数Mを自動調整することも可能である。
  このような分類を行うと、外観が何らかの特徴で共通する学習画像が、同じクラスに分類されることになる。発明者の実験によれば、この外観による特徴には、従来の診断手法において医師が経験的に知得したものもあるし、後述するように、本発明によって初めて判明したものもある。
  写真の背景、境界、文字などが描画された学習画像は、それぞれまとまって、背景を表すクラス、境界を表すクラス、何らかの文字や文字列を表すクラスに分類されることが期待される。したがって、背景、境界、文字等を前処理で除去しなくとも、後述する処理によってこれらのクラスを無視することによって、手間なくスキップすることができる。
  (スコアベクトル)
  スコアベクトルui,jは、学習画像Si,jおよび圧縮済ベクトルvi,jがクラスC1, C2, …, CMのそれぞれに、どれだけ類似、近似、あるいは、近接しているかを表すベクトルである。したがって、スコアベクトルui,jは、M次元のベクトルである。以下、スコアベクトルui,jのk番目の要素をui,j,kと表記することとする。スコアベクトルの要素ui,j,kは、学習画像Si,jおよび圧縮済ベクトルvi,jがクラスCkにどれだけ類似、近似、あるいは、近接しているかを表すことになる。
  最も単純なスコアベクトルは、クラスCy(i,j)に対する要素ui,j,y(i,j)を1、それ以外の要素ui,j,k|y(i,j)≠kを0とするベクトルである。これは、y(i,j)番目の要素が1であり、それ以外の要素が0である単位ベクトルであり、学習画像Si,jおよび圧縮済ベクトルvi,jが分類されたクラスが、値1を持つ要素のインデックスによって表現される。
  次に簡単なスコアベクトルは、各クラスCkに対する要素を、圧縮済ベクトルvi,jと各クラスCkの代表点との近接度とするベクトルである。すなわち、k番目の要素には、クラスCkの代表点(クラスタの重心)と、圧縮済ベクトルvi,jと、の距離di,j,kにより定められる近接度を設定する。
  距離di,j,kは、単純なユークリッド距離を採用しても良いし、クラスCkに分類された圧縮済ベクトルvi,j|y(i,j)=kの多次元分布の分散共分散行列に基づいて、代表点からの距離を各軸方向に正規化することとしても良い。
  近接度としては、たとえば、
    距離di,j,kの逆数、すなわち、ui,j,k = 1/di,j,k
    距離di,j,kに正定数αを加算した値の逆数、すなわち、ui,j,k = 1/(di,j,k+α)、
    距離di,j,1, di,j,2, …, di,j,Mの中で、距離di,j,kが何番目に大きい値かを表す順序数(距離di,j,kが小さければ小さいほど順序数は大きい)、
    上記順序数に応じて単調増加する係数、たとえば、距離di,j,1, di,j,2, …, di,j,Mの中で最小の距離di,j,kには10、次に小さい距離については5、その次は2、それ以外は0
などを採用することができる。
  このほか、圧縮済ベクトルがM次元のベクトルである場合には、圧縮済ベクトルvi,jに対してsoftmaxを適用することにより、スコアベクトルui,jを得ることとしても良い。すなわち、スコアベクトルui,jのk番目の要素は、指数関数exp()を用いて、
    exp(di,j,k)/Σk=1 M exp(di,j,k)
により計算される。
  なお、softmaxの適用は、オートエンコーダの最後で行うこととしても良い。この場合には、圧縮済ベクトルvi,jをそのままスコアベクトルui,jとして利用することも可能である。
  (代表度ベクトル)
  さて、対応付け部104は、複数のグループG1, G2, …, GLの各グループGhを複数のクラスC1, C2, …, CMのそれぞれが代表する度合を表すM次元の代表度ベクトルrhを、各グループGhに対応付けられる圧縮済ベクトルvi,j|z(i)=hに対して求められたスコアベクトルui,j|z(i)=hから求める。
  代表度ベクトルrhは、複数のクラスC1, C2, …, CMがグループGhを代表する度合を表し、グループGhに対応付けられる学習画像および圧縮済ベクトルに対して計算されたスコアベクトル、すなわち、z(i)=hを満たすインデックスi,jに対するスコアベクトルui,jの総和とすることができる。すなわち、
    rh = Σi,j|z(i)=h ui,j
であり、代表度ベクトルrhのk番目の要素rh,kは、クラスCkがグループGhを代表する度合を表す。
  (クラスとグループの対応付け)
  そして、対応付け部104は、求められた代表度ベクトルr1, r2, …, rLにより、各クラスCkを複数のグループG1, G2, …, GLおよび他のグループG0のうち、グループGx(k)に対応付ける。
  具体的には、複数のクラスC1, C2, …, CMの各クラスCkについて、代表度ベクトルr1, r2, …, rLのそれぞれのk番目の要素r1,k, r2,k, …, rL,kを取得し、これらの要素の最大値rh,kが、要素r1,k, r2,k, …, rL,kから最大値rh,kを除いた残りの要素の分布に対して外れ値であれば、
    x(k) = h
であり、そうでなければ、
    x(k) = 0
である、とすることにより、クラスCkを、グループGhもしくはグループG0に対応付ける。
  ここで、最大値rh,kが、残りの要素r1,k, r2,k, …, rh-1,k, rh+1,k, …, rL,kに対して外れ値である、すなわち、最大値rh,kが突出して大きい、ということは、クラスCkによって、グループGhと、それ以外のグループG1, G2, …, Gh-1, Gh+1, …, GLと、を峻別できる、ということを意味する。すなわち、クラスCkに分類された学習画像は、グループGhを特徴付け、それ以外のグループではほとんど見られない、外観上の共通性があることになる。
  最も単純には、r1,k, r2,k, …, rL,kの総和に、0.5以上1以下の定数を乗じて定められる閾値を、最大値rh,kが超えていれば、最大値rh,kは外れ値である、とみなす手法が採用できる。0.5以上1以下の定数は、あらかじめ定めておいても良いし、分類装置101の使用者が、適宜調整して定めることができるものとしても良い。この態様では、過半数を突出して大きい、とみなしている。
  このほか、残りの要素の分布から所望の有意水準に基いて閾値を定め、この閾値をrh,kが超えていれば、最大値rh,kは外れ値である、とみなすこととしても良い。
  たとえば、残りの要素の平均値μおよび標準偏差σを求め、閾値をμ+2σ、乃至、μ+3σとすれば、簡易な外れ値検定が可能である。
  このほか、外れ値か否かを判定するために、スミルノフ・グラブス検定やトンプソン検定などの種々の外れ値検定を適用することができる。
  検定による手法では、最大値rh,kが過半数でない場合であっても、外れ値である、と判定することができる。
  (判定画像)
  これまでの処理によって、画像をクラスに分類する第1モデルが学習され、画像のクラスがグループに対応付けられた。
  そこで、分類装置101の受付部105は、判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける。受け付ける判定写真は1枚でも複数枚でも良い。
  同定部106は、学習された第1モデルにより、受け付けられた複数の判定画像のそれぞれを複数のクラスのいずれかに分類し、分類されたクラスに対応付けられたグループを同定する。
  したがって、複数の判定画像のうち、
    グループG1に特徴的な外観を呈する判定画像は、グループG1に対応付けられるいずれかのクラスCk|x(k)=1に分類され、
    グループG2に特徴的な外観を呈する判定画像は、グループG2に対応付けられるいずれかのクラスCk|x(k)=2に分類され、
     …、
    グループGhに特徴的な外観を呈する判定画像は、グループGhに対応付けられるいずれかのクラスCk|x(k)=hに分類され、
     …、
    グループGLに特徴的な外観を呈する判定画像は、グループGLに対応付けられるいずれかのクラスCk|x(k)=Lに分類される
ことになる。
  一方、複数のグループに共通して出現する外観を呈する判定画像や、背景、境界、文字などが描画されている判定画像は、グループG0に対応付けられたいずれかのクラスCk|x(k)=0に分類される。
  そこで、判定写真を画面に表示する際に、判定写真内のグループG1, G2, …, GLのいずれかのグループに同定された判定画像の領域を、各グループに対応付けられる形態で強調表示すれば、診断や判断を行う医師や技師等に対して、判定写真に撮影された判定対象が、いずれのグループに属するかを判断する際に、注目すべき領域を明示することができるようになる。
  図3Aは、分類装置に与えられる写真をグレイスケールで表現した図面代用写真である。図3Bは、分類装置に与えられる写真をモノクロ2階調で表現した図面代用写真である。これらの図は、カラーで撮影された学習写真や判定写真として利用される病理写真であるが、白黒写真や赤外線写真、レントゲン写真等、任意の写真を利用することが可能である。なお、本願では、出願書類作成上の制約のため、カラー写真を、グレイスケール化ならびにモノクロ2値化して表示している(以下同様)。これらの病理写真は、前立腺癌の再発予測のための予後診断に利用するために撮影されたもので、撮影された対象は、撮影後1年以内に再発のグループG1と、撮影後1年以上再発しなかったのグループG2と、の2つのグループ(L=2)に分類されている。
  図4Aは、分類装置に与えられた写真を分割した様子をグレイスケールで表現した図面代用写真である。図4Bは、分類装置に与えられた写真を分割した様子をモノクロ2階調で表現した図面代用写真である。これらの図では、学習写真・判定写真をメッシュで分割する様子を示しており、各桝目の中身が、学習画像・判定画像に相当する。これらの図では、病理写真をスキャンする際に、フィルムスキャナが背景部分を除去している。そこで、試料の本体の部位、および、試料の固定材の境界部分の桝目が、学習画像・判定画像に相当する。
  図5Aは、分類装置に与えられた写真のうち、各グループを代表する領域を強調表示した様子をグレイスケールで表現した図面代用写真である。図5Bは、分類装置に与えられた写真のうち、各グループを代表する領域を強調表示した様子をモノクロ2階調で表現した図面代用写真である。これらの図においては、学習の結果に基づいて、グループG1を代表するクラスに分類された画像に相当する領域は太線で囲み、グループG2を代表するクラスに分類された画像に相当する領域は細線で囲んで図示している。
  図6Aは、他の症例の写真をグレイスケールで表現した図面代用写真である。図6Bは、他の症例の写真をモノクロ2階調で表現した図面代用写真である。図7Aは、他の症例の写真において各グループを代表する領域を強調表示した様子をグレイスケールで表現した図面代用写真である。図7Bは、他の症例の写真において各グループを代表する領域を強調表示したモノクロ2階調で表現した図面代用写真である。これらは、別の対象について撮影された病理写真について同様の処理を施したものである。
  これらの図に示す例では、太線で囲まれた領域は悪性度が高いと考えられ、細線で囲まれた領域は、良性度が高いと考えられる。図7A、7Bにおいては、悪性領域の数が多く、その悪性領域の数と良性領域の数の比は、図5A、5Bにおける悪性領域の数と良性領域の数の比に比べてかなり大きい。したがって、図7A、7Bの患者の予後は、図5A、5Bの患者の予後に比べて悪い、と予想できることになる。
  なお、この病理写真が学習写真として利用されていて、対象が元々グループG1に属しているのであれば、この病理写真が正解として学習が進んだことになり、対象が元々グループG2に属しているのであれば、この病理写真の対象は、例外的な症状を呈している、と考えることができる。
  このように、上記の分類装置101によれば、医師や技師等が診断、判断等や治療方針、対策等を決定することを補助するための重要な情報を提示することができるようになる。
  (第2モデル)
  上記態様では、ユーザに対して、判定対象をグループに分類する際に注目すべき判定写真内の領域を知らせ、ユーザの判定を補助することができた。本実施形態ではさらに進んで、判定対象が属すべきグループそのもの、あるいは、各グループに属する可能性がどの程度かを表すインパクトファクターを推定する。
  本実施形態に係る分類装置101では、第2学習部107が、各学習写真Siに撮影された学習対象を、各圧縮済ベクトルvi,1, vi,2, …が分類されたクラスCy(i,1), Cy(i,2), …に対応付けられたグループGx(y(i,1)), Gx(y(i,2)), …の分布に基づいて、複数のグループG1, G2, …, GLのうち、いずれかのグループに振り分ける第2モデルを学習する。
  たとえば、学習写真Siに対する学習画像Si,1, Si,2, …の1割がグループG1に同定され、9割がグループG0に同定され、グループG2, …, GLに同定された学習画像がなければ、学習写真Siに撮影されている学習対象は、グループG1に振り分けられるべき、と考えられる。
  当該学習対象がもともとグループG1に分類されているのであれば、第1モデルおよび第2モデルにおける学習は順調に進んでいることになるが、当該学習対象がもともとグループG2, …, GLに分類されていた場合には、第1モデルおよび第2モデルにおける学習が誤っていることになる。
  分類装置101は、学習対象が元々分類されていたグループと、学習対象を第2モデルによって振り分けたグループと、を対比して、第1学習部103および第2学習部107に対して、差異を最小化し、精度を高めることによって、より適切に学習を進めることができる。
  たとえば、試行錯誤あるいはランダムウォーク的に第1モデルや第2モデルを微小に変更する試行を行い、差異が小さくなった場合に、当該変更後のモデルを採用する、という手法を採用することができる。
  このほか、両者の差異を最小化するための評価関数を定め、バックプロパゲーションや最急降下法等によって第1モデル、第2モデルを修正することとしても良い。
  このようにして、第1モデルによる分類および第2モデルによる振り分けの精度を高めることが可能となる。
  そして、分類装置101の推定部108は、判定対象が撮影された判定写真を分割した複数の判定画像に対して同定されたグループの分布に基づいて、学習された第2モデルにより、判定対象が複数のグループG1, G2, …, GLのうち、いずれのグループに属するかを推定する。
  ここで、第2モデルでは、入力された対象を、複数のグループG1, G2, …, GLのいずれかに分類するため、サポートベクターマシン、ロジスティック回帰、リッジ回帰、ラッソ回帰、ニューラルネットワーク、もしくは、ランダムフォレスト等を利用することが可能である。
  なお、複数の判定画像のそれぞれについて、学習画像と同様にスコアベクトルを求め、当該スコアベクトルの総和(以下「判定総和」という。)を求めれば、判定総和のk番目の要素は、判定画像の集合体である判定写真が、クラスCkにどの程度分類されているか、を表すことになる。
  すなわち、判定写真Rを複数に分割した判定画像R1, R2, …について、第1モデルによりスコアベクトルq1, q2, …を求めて、判定総和Q=Σi qiを計算する。判定総和QはM次元のベクトルで、そのk番目の要素Qkは、判定写真RがクラスCkにどの程度関連しているか、を表現している。
  そこで、クラスCkと対応付けられたグループGx(k)に、判定総和Qのk番目の要素Qkの値を得点として与えることとする。各グループについて積算された得点により、判定写真Rがどのグループに類似しているか、の程度を表現することができる。
  すなわち、グループGhに対する得点Whは、
    Wh = Σx(k)=h Qk
と計算することができる。すると、判定写真Rに撮影された判定対象がグループGhに属する確率に応じたインパクトファクターPhを、
    Ph = Wh / ΣhWh
により推定する。インパクトファクターPhが大きければ大きいほど、判定写真Rに撮影された判定対象がグループGhに属する可能性が高いことになる。
  したがって、医師等のユーザは、判定写真Rから得られたインパクトファクターP1, P2, …, PLを参考にしつつ、判定対象が属すべきグループがG1, G2, …, GLのいずれであるか、の診断や判断を下すことができるようになる。
  このほか、W1, W2, …, WLから最大値Wkを求め、
    k = argmaxh Wh
    Pk = 1
とし、それ以外については、
    Ph|h≠k = 0
とする態様を採用することもできる。この態様では、判定写真Rに撮影された判定対象は、グループGkに属する、と推定することになる。
  なお、ここで計算されたインパクトファクターPhと同様の計算を学習写真および学習画像に対しても行って、第1モデルおよび第2モデルの精度を高めることとしても良い。すると、あらかじめ用意された学習対象のグループ分けが実際には確率的であることに配慮しつつ、学習を進めることができるようになり、推定精度の向上が期待できる。
  (ステージ1とステージ2)
  上記の処理においては、学習写真や判定写真を分割して得られる学習画像や判定画像により、学習写真や判定写真に撮影された対象が属するグループを学習、あるいは、判定する。ここでは、上記の処理をステージ1と呼ぶことにする。
  ステージ1における学習画像や判定画像は、学習写真や判定写真を分割し、必要に応じて解像度を下げたものである。したがって、ステージ1の処理は、学習写真や判定写真を分割して拡大しながら観察を行った、と考えることができる。
  以下では、ステージ1と同様の構成を持つ分類装置101により、ステージ1における学習の精度をさらに高める手法について説明する。そこで、この段階における処理をステージ2と呼ぶこととする。図8は、本発明の実施形態に係る分類装置(ステージ2)の概要構成を示す説明図である。なお、ステージ2に係る分類装置101では、受付部105、同定部106が省略されている(図示せず)。また、ステージ1の結果を修正するための変更部109が追加されている。
  ステージ2では、ステージ1において、複数のグループG1, G2, …, GLの各グループGhに対応付けられたクラスCk|x(k)=hに分類された学習画像およびグループGhを、学習写真および学習対象が属するグループとして、取得部102に新たに与える。
  すなわち、ステージ2においては、グループG0に対応付けられたクラスに分類された学習画像は、処理の対象としない。
  ステージ2において処理の対象とされる学習画像Si,jは、ステージ1において、クラスCy(i,j)に分類され、グループG0以外のグループGx(y(i,j))に属すべき、とされたものである。したがって、処理対象となるインデックスの組(i,j)は、
    x(y(i,j))∈{1, 2, …, L}
あるいは、
    x(y(i,j))≠0
を満たすことになる。
  ステージ2においては、上記の条件を満たす各学習画像Si,j|x(y(i,j))∈{1, 2, …, L}を採番し直して、分類装置101に対して、複数の学習写真S'1, S'2, … として与える。以下、インデックスの組(i,j)と、当該組(i,j)を採番し直した新たなインデックスの値kと、の関係を、
    (i,j) = f(k)
のように、関数表記することとする。
  ステージ2においては、学習写真S'kに撮影された対象が、グループGz'(k)に属するものとして、学習写真S'1, S'2, …と、対応付けz'(k)と、を取得部102に与えることになる。なお、ステージ1と同様に、S'1, S'2, …をさらに分割したものを取得部102に与えることとしても良い。
  ここで、x(y(i,j))∈{1, 2, …, L}を満たすインデックスの組(i,j)に対する学習画像Si,jは、グループGx(y(i,j))に属すべき、とされている。
  ステージ2における学習写真S'kは、ステージ1における学習画像Sf(k)である。学習画像Sf(k)は、ステージ1においてクラスCy(f(k))に分類されているので、学習画像Sf(k)は、グループGx(y(f(k)))に属すべき、と学習されていることになる。したがって、ステージ2における対応付けは
    z'(k) = x(y(f(k)))
となる。
  このようにして、ステージ2における複数の学習写真および対応付けを、ステージ1における複数の学習画像および学習結果に基づいて定めて、ステージ2の分類装置101に与えて、
    取得部102による分割、対応付けおよび取得、
    第1学習部103による学習、
    対応付け部104による対応付け、
    第2学習部107による学習、および、
    推定部108による推定
を新たに実行する。
  ここで、ステージ1の分類装置101と、ステージ2の分類装置101と、は、ほぼ同じ構成とすることができるが、対象とされる画像の特性が異なるので、学習される第1モデル、第2モデルも異なるものとなる。
  また、ステージ1における第1学習部103では、図2A、2Bに示すようなオートエンコーダの結果をk-meansによりクラスタリングしてクラス分類するが、ステージ2における第1学習部103では、オートエンコーダの結果のベクトルの最大要素によりクラス分類する、等、異なる構成とすることも可能である。
  図9は、第1モデルを学習するために利用可能な深層学習のオートエンコーダの一例を示す説明図である。本図に示すようなオートエンコーダを、ステージ2の第1学習部103で利用するなどの形態が可能である。
  このようにして、ステージ2における学習が行われると、各学習写真S'iのインパクトファクターp'iが求められる。インパクトファクターp'iはL次元のベクトルで、上記のように、学習写真S'iがグループG1, G2, …, GLに属する確率に連動した値を持つ。
  ステージ1では、クラスCkがグループGx(k)に対応付けられていたが、ステージ2では、この対応付けが正しいか否かを吟味する。ステージ2における学習写真S'iは、ステージ1における学習画像Sf(i)に相当し、この学習画像Sf(i)は、ステージ1では、クラスCy(f(i))に分類されている。
  そこで、ステージ1において各クラスCkに分類された各学習画像について、ステージ2では、変更部109が、推定されたインパクトファクターの総和Zk
    Zk = Σi|y(f(i))=k p'i
を計算する。
  総和Zkは、ステージ1においてクラスCkに分類された複数の学習画像が、グループG1, G2, …, GLのいずれに属すべきかの度合(ステージ2で計算された度合)の分布をL次元のベクトルにより表したものである。
  ステージ1において、クラスCkがグループGhに対応付けられていた(h=x(k))とすると、この対応付けが正しければ、クラスCkに対して求められた総和Zkにおけるh番目の要素は、総和Zkの中の所定上位(たとえば、最上位)になるはずである。
  したがって、変更部109は、クラスCkが対応付けられていたグループGhが、分布の所定上位でなければ、ステージ1におけるクラスCkの対応付けを、グループGhからグループG0に変更する。
  ここで、所定上位とは、最上位としても良いし、Lの値に応じて適宜、上位2位まで、上位3位まで、…等、種々調整も可能である。
  ステージ2は、ステージ1におけるクラスとグループの対応付けを修正して、各グループを代表するクラスの対応付けの精度を高めようとするものである。
  なお、ステージ2における分類装置101は、受付部105および同定部106を備える必要がない。ステージ2によって精度が高められたステージ1における分類装置101に対して、判定画像を与え、判定画像が属するグループを同定するからである。
  (実験例)
  以下では、前立腺癌の再発予測を行う予後診断において、被験者の対象部位を撮影した病理写真を処理の対象として、実験を行った例を示す。
  本実験では、885人の患者の対象部位を撮影した10505枚の病理写真を用意した。
  グループ数L=2であり、撮影後1年再発しなかったグループG1(再発なしグループ)、撮影後1年以内に再発したグループG2(再発ありグループ)のいずれかへの分類を試みた。
  885人の症例病理写真のうち、100症例(写真100枚)を学習用に、785症例(写真10405枚)を判定用(検証用)に分け、分類の精度を計測することとした。
  各病理写真は、症例ごとに患部の大きさが異なるため、サイズが異なる。図3A、3Bは、本実験で処理対象とした学習写真の一例をグレイスケール化/モノクロ2階調化したものである。元の学習写真はカラー画像により構成されており、横56448ピクセル、縦84224ピクセルであった。
  ステージ1では、各病理写真をスキャナによりスキャンする際に、背景部分がスキャナによってある程度除去される。その上で、複数の区画に分割して分割画像を得て、これを学習画像および判定画像として利用する。図4A、4Bの例では、縦1024ピクセル、横1024ピクセルの分割画像が得られている。
  本実験では、学習効率の向上のため、および、ステージ2で再分割することを考慮して、分割画像の解像度を縦128ピクセル、横128ピクセルに下げるスムージング処理を行ってから、これらを学習画像、判定画像とした。
  ステージ1では、クラス数M=100として、図2A、2Bに示すフィルタ構成に基づく深層学習により第1モデルを学習し、k-meansによりM=100個のクラスに分類を行った。
  また、ステージ1では、リッジ回帰、ラッソ回帰、サポートベクターマシンによる機械学習により第2モデルを学習し、最も精度が高いものを採用した。
  さらに、ステージ2では、ステージ1の分割画像をさらに縦28ピクセル、横28ピクセルに分割してから、処理を行った。ステージ2では、図9に示すフィルタ構成により第1モデルを学習した。
  熟達した医師がグリソン分類により予後の推測を行った場合の判別能をAUC(Area Under the Curve)により表現すると0.758であるが、ステージ1による判別能は0.715であり、さらにステージ2を行った場合の判別能は0.771であった。したがって、本実施形態による判別能は、熟達した医師と同等以上であると考えられる。
  図10Aは、再発ありグループの特徴を呈する学習画像をグレイスケールで表現した図面代用写真である。図10Bは、再発ありグループの特徴を呈する学習画像をモノクロ2階調で表現した図面代用写真である。グループG2に分類された学習画像は、予後が再発ありの特徴を表すものである。図11は、再発ありグループの特徴を呈する学習画像のうちグリソン分類にて認定されるもの、されないものの位置関係を示す説明図である。本図では、グリソン分類にて高再発あり度癌とされる外観が抽出できている(図中黒四角)ほか、グリソン分類では認定されない間質反応も抽出できている(図中白四角)。このような間質反応は、本実施例を適用することによって初めて判明したものである。
  図12Aは、再発なしグループの特徴を呈する学習画像をグレイスケールで表現した図面代用写真である。図12Bは、再発なしグループの特徴を呈する学習画像をモノクロ2階調で表現した図面代用写真である。グループG1に分類された学習画像は、再発なしグループの特徴を表すものである。図13は、再発なしグループの特徴を呈する学習画像のうちグリソン分類にて認定されるもの、されないものの位置関係を示す説明図である。本図では、グリソン分類にて低再発あり度癌とされる外観が抽出できている(図中黒四角)。ここで、低再発あり度癌とは、治療を積極的には行わないPSA監視療法の対象となる癌である。また、癌がまったくない断端も抽出されている(図中白四角)。従来の医師の診断手法では、再発なしグループの特徴は、再発ありグループの特徴と対比して表現されることが多かったが、本発明によれば、再発なしグループの特徴を積極的に表現することが可能となる。
  このように、各グループの外観上の特徴につき、従来の知見で積極的には認定されていなかったものが、本実験によって新たに発見された。
  したがって、本実験により、学習用の病理写真とグループ分類を用意するだけで、熟達した医師と同等の予後予測が熟達した人間並の精度ででき、かつ、再発に関与する癌の悪性度を弁別する新たな外観上の特徴が発見され、本実施形態の有用性が確認できた。
  (次元圧縮の他の実施形態)
  上記した態様では、次元圧縮にオートエンコーダ等を利用していたが、以下では、変換モデルによって入力ベクトルを特徴ベクトルに変換する変換装置において、教師なし学習をおこない、得られた特徴ベクトルを圧縮済ベクトルとする態様について説明する。
  (変換装置の基本構成)
  図14は、本発明の実施形態に係る変換装置の基本構成を示す説明図である。図15は、本発明の実施形態に係る変換装置に付加的な要素を追加した構成を示す説明図である。以下、これらの図を参照して概要を説明する。
  両図に示すように、変換装置1001は、分割部1002、第1分類部1003、第1学習部1004を備える。
  また、両図を対比すればわかる通り、変換装置1001は、省略可能な構成に係る要素として、第2分類部1005、第2学習部1006を備えることができる。
  本図に示す通り、変換装置1001は、入力与えられた入力ベクトルを、変換モデル1101により、特徴ベクトルへ変換する。
  変換装置1001が使用する変換モデル1101については、あらかじめ学習を進める必要がある。図16は、本発明の実施形態に係る変換装置の基本構成にて実行される処理を示すフローチャートである。図17は、本発明の実施形態に係る変換装置のクラス分類を行う構成にて実行される処理を示すフローチャートである。以下、両図を参照して説明する。
  両図に示すように、変換装置1001における処理は、変換モデル1101の学習段階(ステップS2001-S2004)、クラス分類(第2分類モデル1202)の学習段階(ステップS2005-S2006)、クラス分類の利用段階(ステップS2007-S2009)の3段階に分けることができ、それぞれ独立して実行することができる。ここで、変換モデル1101の学習段階は、図14、図15の両方で実行されるが、クラス分類(第2分類モデル1202)の学習段階ならびにクラス分類の利用段階(ステップS2009)は、図14では省略される。
  まず、変換モデル1101の学習にあたって、変換装置1001は、入力ベクトルの典型例として、複数の訓練ベクトルv1, v2, …, vNを受け付ける(ステップS2001)。なお、省略可能な態様として、図15、図17に示すように、複数のクラスC1, C2, …, CLの中から、複数の訓練ベクトルv1, v2, …, vNがそれぞれ属すべき正解クラスCc(1), Cc(2), …, Cc(N)のクラスラベルc(1), c(2), …, c(N)を、合わせて受け付けることも可能である。一方、図14、図16に係る基本構成では、クラスラベルの受け付けは不要である。
  ついで、変換装置1001の分割部1002は、複数の訓練ベクトルv1, v2, …, vNを、ランダムに複数のグループG1, G2, …, GMに分割する(ステップS2002)。この分割は、訓練ベクトルv1, v2, …, vNのそれぞれに、分割先のグループの添字に相当するランダムラベル(グループラベル)g(1), g(2), …, g(N)を付与することにより表現することができる。グループの数Mは2以上の任意である。
  以下、理解を容易にするため、整数i=1, 2, …, Nのそれぞれについて、訓練ベクトルviがグループGg(i)に分類された(訓練ベクトルviには、ランダムラベルg(i)が付された)ものとする。すなわち、以下の関係が成立する。
    v1∈Gg(1), v2∈Gg(2), …, vN∈Gg(N)
  また、省略可能な構成下では、訓練ベクトルviは、クラスCc(i)に属する(訓練ベクトルviには、正解ラベルc(i)が付されている)ものとする。すなわち、以下の関係が成立する。
    v1∈Cc(1), v2∈Cc(2), …, vN∈Cc(N)
  変換装置1001は、変換モデル1101により、与えられた入力ベクトルxを、特徴ベクトルp(x)に変換する。変換モデル1101としては、CNN(Convolutional Neural Network)のほか、畳み込みを使用しない任意のニューラルネットワークなど、種々のモデルを採用することができる。
  さて、第1分類部1003は、変換装置1001に与えられた入力ベクトルxから変換された特徴ベクトルp(x)を、第1分類モデル1201により、複数のグループG1, G2, …, GMのいずれかに分類するものである。実質的には、第1分類部1003は、与えられた特徴ベクトルp(x)に対して、当該特徴ベクトルp(x)が分類されるべきグループの添字(ラベル)を出力するものである。第1分類モデルとしては、一般的なロジスティック回帰のほか、リッジ回帰、ラッソ回帰、SVM(Support Vector Machine)、ランダムフォレスト、ニューラルネットワークなどを採用することができる。
  そして、変換装置1001における第1学習部1004は、複数の訓練ベクトルと、複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データ
    (v1, g(1)), 
    (v2, g(2)), 
     …, 
    (vN, g(N))
を生成する(ステップS2003)。第1教師データは、各訓練ベクトルをランダムラベル(グループラベル)に対応付けるものである。
  そして、変換装置1001における第1学習部1004は、当該第1教師データにより、変換装置1001における変換モデル1101と、第1分類部1003における第1分類モデル1201と、を学習する(ステップS2004)。
  このようにして、変換装置1001における変換モデル1101の学習が行われる。この後は、変換装置1001に入力ベクトルxを与えると、変換装置1001は特徴ベクトルp(x)を出力するようになる。
  さて上記のように、以下は、図14では省略される構成である。そこで、適宜図15を参照しながら説明する。すなわち、この構成下では、複数の訓練ベクトルv1, v2, …, vNは、複数のクラスC1, C2, …, CLのいずれかにそれぞれ属する。
  以下では、変換装置1001に与えられた入力ベクトルに対して、当該入力ベクトルが属すべきクラスを出力するクラス分類の学習段階について説明する。
  ここで、第2分類部1005は、変換装置1001に与えられた入力ベクトルxから変換された特徴ベクトルp(x)を、第2分類モデル1202により、複数のクラスC1, C2, …, CLのいずれかに分類するものである。実質的には、第2分類部1005は、与えられた特徴ベクトルp(x)に対して、当該特徴ベクトルp(x)が分類されるべきクラスの添字(クラスラベル)を出力するものである。第2分類モデル1202としては、第1分類モデル1201と同様に、一般的なロジスティック回帰のほか、リッジ回帰、ラッソ回帰、SVM(Support Vector Machine)、ランダムフォレスト、ニューラルネットワークなどを採用することができる。このほか、第1分類モデル1201と第2分類モデル1202で、同じ構造のニューラルネットワークを採用することもできる。
  ここで、変換装置1001の第2学習部1006は、第1学習部1004によって学習された変換モデル1101により、複数の訓練ベクトルが変換装置1001によってそれぞれ変換された特徴ベクトルと、複数の訓練ベクトルがそれぞれ属するクラスと、からなる第2教師データ
    (p(v1), c(1)), 
    (p(v2), c(2)), 
     …, 
    (p(vN), c(N))
を生成する(ステップS2005)。ステップS2004における変換モデル1101および第1分類モデル1201の学習においては、訓練ベクトルを特徴ベクトルに変換する。したがって、訓練ベクトルvi (i=1, 2, …, N)が学習済の変換モデル1101により変換される特徴ベクトルp(vi)は、ステップS2004における処理で計算済みである。ここでは、この計算済みの特徴ベクトルp(vi)と、元の訓練ベクトルviに対して付された正解ラベルc(i)と、を、第2教師データとして利用する。
  そして、第2学習部1006は、第2分類部1005における第2分類モデル1202を学習する(ステップS2006)。
  本実施形態に係る変換装置1001では、第2学習部1006における学習では、第2分類モデル1202は更新されるが、変換モデル1101は更新されない点に特徴がある。
  なお、第2教師データとして、
    (v1, c(1)), 
    (v2, c(2)), 
     …, 
    (vN, c(N))
を採用することも可能である。この場合は、変換装置1001における学習済の変換モデル1101は更新せずに、第2分類モデル1202を更新すれば良い。
  さて、第2分類モデル1202が学習された後は、クラス分類を利用する段階に移ることができる。すなわち、新たな入力ベクトルyが変換装置1001に与えられる(ステップS2007)と、
    変換装置1001は、学習された変換モデル1101により、新たな入力ベクトルyを新たな特徴ベクトルp(y)に変換し(ステップS2008)、
    第2分類部1005は、学習された第2分類モデル1202により、新たな特徴ベクトルp(y)に対するラベルを求めることにより、複数のクラスC1, C2, …, CLのいずれかに分類する(ステップS2009)。
  すなわち、入力ベクトルyは、特徴ベクトルp(y)が分類されたクラスに分類されることになる。
  なお、本図では、クラス分類の利用段階(ステップS2007-S2009)は1回だけ実行されているが、入力ベクトルが与えられるごとに、任意の回数実行することが可能である。
  また、図16に示すように、ステップS2001-S2004により変換モデルを学習し、ステップS2007-S2008により入力ベクトルを特徴ベクトルに変換することとして、クラス分類の要素は省略することができる。この場合も、特徴ベクトルへの変換は、任意の回数実行することが可能である。
  発明者の実験によれば、本実施形態の変換装置1001による分類は、従来のオートエンコーダを用いた分類において、教師データとして
    (v1, c(1)), 
    (v2, c(2)), 
     …, 
    (vN, c(N))
を利用した場合に比べて、精度ならびに得られる特徴ベクトルのスパース性が向上することがわかっている。
  従来のオートエンコーダでは、教師データに対する過学習が生じてしまうのに対し、本実施形態の変換装置1001では、変換モデル1101の学習時には教師データを参照しないため、過学習が抑制されているものと考えられる。
  以下では、変換モデル1101の態様について種々説明する。変換モデル1101は、入力ベクトルを特徴ベクトルに変換するものであり、情報を圧縮するものである。このため、入力ベクトルの次元は、特徴ベクトルの次元より低いものとするのが一般的であった。
  本変換装置1001においても、これと同様に、入力ベクトルを次元削減することにより、特徴ベクトルに変換するような変換モデル1101を採用することができる。特徴ベクトルの次元は、ランダムラベルの種類数以上、すなわち、グループの数M以上とすることが望ましい。
  また、入力ベクトルをクラスに分類する態様では、特徴ベクトルの次元は、正解ラベルの種類数以上、すなわち、クラスの数L以上とすることが望ましい。
  なお、ランダムラベルの種類数Mと、正解ラベルの種類数Lと、の大小については、対象によって性能が異なる。この場合、事前実験によって好適なパラメータを求めることができる。
  このほか、分割部1002が訓練ベクトルを複数のグループのそれぞれにランダムに分割する確率は、互いに等しくても良いし、一致しないものがあっても良い。すなわち、各グループに含まれる訓練ベクトルの数は、一致しても良いし、異なっていても良い。これらについても、事前実験によって好適な確率割り当てwo求めることができる。
  一方で、本変換装置1001では、特徴ベクトルのスパース性が良好であることがわかっている。したがって、入力ベクトルの次元を増大させることによって、特徴ベクトルへ変換することとしても良い。すなわち、特徴ベクトルの次元数は、入力ベクトルの次元数よりも多いことになる。
  本実施形態に係る変換装置1001は、従来特徴ベクトルを得るために使われていたオートエンコーダに置き換わるものとして広く利用することができる。
  なお、オートエンコーダでは、入力ベクトルを前半のエンコード部で次元削減して特徴ベクトルを得た後、当該特徴ベクトルを後半のデコード部で次元増大して出力ベクトルを得て、入力ベクトルと出力ベクトルとの差が小さくなるような学習を行う。このため、オートエンコーダのエンコード部により次元圧縮を行う用例に対して本実施形態に係る変換装置1001を適用する際には、エンコード部のフィルタ構成を、そのまま変換装置1001の変換モデル1101に利用することもできる。
  (変換装置の実験例)
  10種類の事物の写真を分類するCIFAR-10について、オートエンコーダと本実施形態に係る変換装置1001とを比較する実験をおこなった。
  入力画像として、32ピクセル×32ピクセル×RGB 3層のカラー画像を利用しているため、入力ベクトルは3072次元となる。
  変換装置1001のフィルタ構成は以下の通りである。
     input_img = Input((x_train.shape[1], x_train.shape[2], x_train.shape[3]));
     x1 = Conv2D(8, (2,2), strides=(2,2), activation='relu', padding='same')(input_img);
     encoded = Flatten()(x1);
     x2 = Reshape((16,16,8), input_shape=(2048,))(encoded);
     x3 = Conv2D(8, (2,2), strides=(2,2), activation='relu', padding='same')(x2);
     x4 = Flatten()(x3);
     last = Dense(L, activation='softmax')(x4);
  本実験における変換装置1001では、出力レイヤー数8、カーネルサイズおよびストライド2×2、活性化関数relu、プーリングなし、ドロップアウトなしの最もシンプルなCNNにより、入力ベクトルを2048次元に圧縮して(encoded)、特徴ベクトルを得ている。すなわち、上記のうち、encodedを得るまでが、変換モデルに相当する。
  そして、得られた特徴ベクトルを2次元化して(x2)、出力レイヤー数8、カーネルサイズおよびストライド2×2、活性化関数relu、プーリングなし、ドロップアウトなしの最もシンプルなCNNを介した後(x3)、全結合してから、活性化関数softmaxを採用して、L種類のグループに分けている(last)。すなわち、encodedからx3, x4を経てlastに至るまでが、第1分類モデル1201に相当する。
  また、本実験では、第2分類モデル1202として、一般的なロジスティック回帰を用いて、2048次元の特徴ベクトルを10種類のクラスに分類した。
  従来例のオートエンコーダのエンコーダ部のフィルタ構成は、変換装置1001における変換モデルと同様であり、デコード部のフィルタ構成は、これを逆にしたものである。また、オートエンコーダの学習が済んだ後、特徴ベクトルを分類するために、ロジスティック回帰の学習をした。
  また、教師データの数は5万とし、学習が終わったあとに与える入力データの数は1万として、特徴ベクトルの判定精度、スパース性、ならびに、特徴ベクトルを分類するためのロジスティック回帰の学習に要した時間(100試行平均)を調べた。
  すると、オートエンコーダでは、以下のような結果が得られた。
    判定精度 38.2%
    特徴ベクトルにおけるゼロ要素割合 11.8%
    ロジスティック回帰の学習時間 6745.6秒
  ランダムラベルの種類数、すなわち、グループ数Mを2として、特徴ベクトルを同数(25000ずつ)のグループに2分割した場合の変換装置1001については、以下のような結果が得られた。
    判定精度 44.8%
    特徴ベクトルにおけるゼロ要素割合 55.1%
    ロジスティック回帰の学習時間 643.1秒
  グループ数Mを2として、特徴ベクトルを異なる要素数(1万と4万)のグループに2分割した場合の変換装置1001については、以下のような結果が得られた。
    判定精度 44.7%
    特徴ベクトルにおけるゼロ要素割合 59.7%
    ロジスティック回帰の学習時間 378.8秒
  グループ数Lを10として、特徴ベクトルを異なる要素数(2500, 3000, 3500, 4000, 4500, 5550, 6000, 6500, 7000, 7500)のグループに10分割した場合の変換装置1001については、以下のような結果が得られた。
    判定精度 45.2%
    特徴ベクトルにおけるゼロ要素割合 49.7%
    ロジスティック回帰の学習時間 798.4秒
  上記の結果からわかる通り、特徴ベクトルのスパース性、および、得られた特徴ベクトルに基づく判定精度は、本実施形態に係る変換装置1001の方が優れている。また、本実施形態に係る変換装置1001では、得られる特徴ベクトルがスパースであるため、ロジスティック回帰に要する学習時間も極めて短時間で済む。
  このように、CIFAR-10にかかる実験によって、本実施形態に係る変換装置1001の性能を確認することができた。
  分類装置101に上記の変換装置1001を適用した場合についても、上記と同様の条件により実験を行った。すなわち、上記したオートエンコーダ(エンコード部は、図2A、および、図2Bの2段目のフィルタまで)、を利用した分類装置101と、当該エンコード部と同じフィルタ構成でランダムなラベルを用いて教師なし学習を行う変換装置1001を利用した分類装置1001と、の比較を行った。なお、グループの数(ランダムラベルの種類数)L=2とした。
  実験によれば、分類装置1001を利用することで、得られる圧縮済ベクトル(特徴ベクトル)におけるゼロ要素の割合は45%から55%に増加し、AUCも0.023だけ向上した。また、次元圧縮に要する計算時間は約3分の1となった。したがって、病理画像のような複雑な画像において、変換装置1001の有用性を確認することができた。
  (他の応用例)
  上記実験では、学習写真、判定写真として前立腺癌の患者の対象部位の病理写真を用い、撮影後1年以内に再発したか否かによるグループ分けを行うこととしていたが、本実施形態が適用できる分野はこれに限られない。すなわち、本実施形態は、学習用、判定用の写真が用意され、学習用の写真についてグループ分けがされていれば、判定用の写真について自動グループ分類を可能とするので、他の用途にも適用可能である。
  たとえば、アンティーク着物の状態を判定するのに、本実施形態を適用することができる。すなわち、学習用のアンティーク着物の劣化の度合に応じて、その写真(学習写真)をグループ分けして、分類装置101により学習する。学習が完了したら、調べたいアンティーク着物の写真(判定写真)を分類装置101に与えると、当該アンティーク着物の劣化の度合に応じたグループが推定される。
  アンティーク着物では、虫食いなどの目立つ傷は人間が判定できるが、このような目立つ傷以外の部分についても素材が劣化していることが多い。このような劣化は、たとえば「風合いが劣る」などのように感覚的に表現され、いわゆる目利きでなければ区別が困難であったが、本実施形態に係る分類装置101によれば、このような「風合いの劣化の程度」を自動的に分類することができるようになる。
  このほか、工業製品の最終検品は、熟練工が行っていることが多いが、本実施形態を当該検品に適用することも可能である。
  さらに、航空写真や天体写真の解析にも応用が可能である。たとえば、天体写真から流星群や隕石、超新星爆発の予兆を検知したり、航空写真から石炭、石油、水、金属鉱石等の地下資源や、遺跡、遺物等の地下埋設物の存在を検知したりするのにも、本実施形態を適用することができる。
  (まとめ)
  以上説明したように、本実施形態に係る分類装置は、
  複数の学習写真S1, S2, …の各学習写真Siを分割した複数の学習画像Si,1, Si,2, …を、複数のグループG1, G2, …, GLのうち前記各学習写真Siに撮影された学習対象が属するグループGz(i)に対応付けて取得する取得部、
  前記取得された複数の学習画像
    S1,1, S1,2, …, 
    S2,1, S2,2, …, 
     … 
を次元圧縮した複数の圧縮済ベクトル
    v1,1, v1,2, …, 
    v2,1, v2,2, …, 
     … 
と、複数のクラスC1, C2, …, CMのうち、前記複数の学習画像の各学習画像Si,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルvi,jが分類されるクラスCy(i,j)と、前記各圧縮済ベクトルvi,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルui,jと、を求める第1モデルを学習する第1学習部、
  前記複数のグループG1, G2, …, GLの各グループGhを前記複数のクラスC1, C2, …, CMのそれぞれが代表する度合を表すM次元の代表度ベクトルrhを、各グループGhに対応付けられる圧縮済ベクトルvi,j|z(i)=hに対して求められたスコアベクトルui,j|z(i)=hから求め、前記求められた代表度ベクトルr1, r2, …, rLにより、前記複数のクラスの各クラスCkを前記複数のグループG1, G2, …, GLおよび他のグループG0のうち、グループGx(k)に対応付ける対応付け部、
  判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける受付部、
  前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する同定部
  を備える。
  また、本実施形態に係る分類装置において、
  前記各学習写真Siに撮影された学習対象を、前記各圧縮済ベクトルvi,1, vi,2, …が分類されたクラスCy(i,1), Cy(i,2), …に対応付けられたグループGx(y(i,1)), Gx(y(i,2)), …の分布に基づいて、前記複数のグループG1, G2, …, GLのうち、いずれかのグループに振り分ける第2モデルを学習する第2学習部、
  前記判定対象に対して前記同定されたグループの分布に基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG1, G2, …, GLのうち、いずれのグループに属するかを推定する推定部
  をさらに備えるように構成することができる。
  また、本実施形態に係る分類装置において、
  前記各学習写真Siに撮影された学習対象を、前記各スコアベクトルui,1, ui,2, …と、前記複数のクラスC1, C2, …, CMのそれぞれが対応付けられたグループGx(1), Gx(2), …と、から、前記複数のグループG1, G2, …, GLの各グループに振り分ける確率を求める第2モデルを学習する第2学習部、
  前記複数の判定画像に対して求められたスコアベクトルに基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG1, G2, …, GLの各グループに属する確率を推定する推定部
  をさらに備えるように構成することができる。
  また、本実施形態に係る分類装置において、
  前記第1モデルでは、
  オートエンコーダにより前記複数の圧縮済ベクトルを得て、前記得られた複数の圧縮済ベクトルをクラスタリングすることにより、前記複数の圧縮済ベクトルを分類する
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記オートエンコーダは、Convolutional AutoEncoder, Sparse AutoEncoder, Deep AutoEncoder, Denoising AutoEncoder, Contractive AutoEncoder, Saturating AutoEncoder, Nonparametrically Guided AutoEncoder、もしくは、これらの組合せである
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記複数の圧縮済ベクトルは、M次元のベクトルであり、
  前記各圧縮済ベクトルvi,jの最大要素がk番目の要素であれば、y(i,j)=kとする
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記クラスタリングは、K-means, K-means++, Affinity propagation, Mean-shift, Spectral clustering, Ward hierarchical clustering, Agglomerative clustering, DBSCAN, Gaussian mixtures, Birch, 主成分分析、もしくは、これらの組合せである
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記スコアベクトルui,jは、前記クラスCy(i,j)に対する要素を1、それ以外の要素を0とするベクトルである
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記スコアベクトルui,jは、前記各クラスCkに対する要素を、前記圧縮済ベクトルvi,jと前記各クラスCkの代表点との近接度とするベクトルである
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記複数の圧縮済ベクトルは、M次元のベクトルであり、
  前記各圧縮済ベクトルvi,jに対してsoftmaxを適用することにより、前記スコアベクトルui,jを得て、
  前記スコアベクトルui,jの最大要素がk番目の要素であれば、y(i,j)=kとする
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記代表度ベクトルrhは、
    rh = Σi,j|z(i)=h ui,j
により求められる
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記複数のクラスC1, C2, …, CMの各クラスCkについて、前記代表度ベクトルr1, r2, …, rLのそれぞれのk番目の要素r1,k, r2,k, …, rL,kの最大値rh,kが、要素r1,k, r2,k, …, rL,kから前記最大値rh,kを除いた要素の分布に対して外れ値であれば、
    x(k) = h
であり、そうでなければ、
    x(k) = 0
である
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  r1,k, r2,k, …, rL,kの総和に、0.5以上1以下の定数を乗じて定められる閾値を、前記最大値rh,kが超えていれば、前記最大値rh,kが前記外れ値であるとみなす
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記分布から所望の有意水準に基いて定められる閾値をrh,kが超えていれば、前記最大値rh,kが前記外れ値であるとみなす
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記第2モデルでは、
  サポートベクターマシン、ロジスティック回帰、リッジ回帰、ラッソ回帰、ニューラルネットワーク、もしくは、ランダムフォレストにより、入力された対象を、前記複数のグループG1, G2, …, GLのいずれかに分類する
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記複数のグループG1, G2, …, GLの各グループGhに対応付けられた各クラスCk|x(k)=hに分類された前記学習画像および前記グループGhを、前記学習写真および前記学習対象が属するグループとして、前記取得部に新たに与えることにより、
    前記取得部による分割、対応付けおよび取得、
    前記第1学習部による学習、
    前記対応付け部による対応付け、
    前記第2学習部による学習、および、
    前記推定部による推定
を新たに実行し、
  前記各クラスCkに分類された前記学習画像が属するとして前記新たに推定されたグループの分布を求め、
  前記求められた分布の所定上位に前記グループGhが含まれていなければ、前記クラスCkの対応付けを、前記グループGhから前記他のグループG0に変更する
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記求められた分布の最上位がグループGhでなければ、前記クラスCkの対応付けを、前記グループGhから前記他のグループG0に変更する
  ように構成することができる。
  また、本実施形態に係る分類装置において、
  前記第1モデルでは、
  入力ベクトルを変換モデルにより特徴ベクトルに変換する変換装置により前記複数の圧縮済ベクトルを得て、前記得られた複数の圧縮済ベクトルをクラスタリングすることにより、前記複数の圧縮済ベクトルを分類し、
  前記変換装置は、
    複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割部、
    前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類部、
    前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習部
  を備える
  ように構成することができる。
  本実施形態に係る変換装置は、上記の分類装置における変換装置とすることができる。
  本実施形態に係る分類方法は、分類装置が、
  複数の学習写真S1, S2, …の各学習写真Siを分割した複数の学習画像Si,1, Si,2, …を、複数のグループG1, G2, …, GLのうち前記各学習写真Siに撮影された学習対象が属するグループGz(i)に対応付けて取得し、
  前記取得された複数の学習画像
    S1,1, S1,2, …, 
    S2,1, S2,2, …, 
     … 
を次元圧縮した複数の圧縮済ベクトル
    v1,1, v1,2, …, 
    v2,1, v2,2, …, 
     … 
と、複数のクラスC1, C2, …, CMのうち、前記複数の学習画像の各学習画像Si,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルvi,jが分類されるクラスCy(i,j)と、前記各圧縮済ベクトルvi,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルui,jと、を求める第1モデルを学習し、
  前記複数のグループG1, G2, …, GLの各グループGhを前記複数のクラスC1, C2, …, CMのそれぞれが代表する度合を表すM次元の代表度ベクトルrhを、各グループGhに対応付けられる圧縮済ベクトルvi,j|z(i)=hに対して求められたスコアベクトルui,j|z(i)=hから求め、前記求められた代表度ベクトルr1, r2, …, rLにより、前記複数のクラスの各クラスCkを前記複数のグループG1, G2, …, GLおよび他のグループG0のうち、グループGx(k)に対応付け、
  判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付け、
  前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する。
  本実施形態に係るプログラムは、コンピュータを、
  複数の学習写真S1, S2, …の各学習写真Siを分割した複数の学習画像Si,1, Si,2, …を、複数のグループG1, G2, …, GLのうち前記各学習写真Siに撮影された学習対象が属するグループGz(i)に対応付けて取得する取得部、
  前記取得された複数の学習画像
    S1,1, S1,2, …, 
    S2,1, S2,2, …, 
     … 
を次元圧縮した複数の圧縮済ベクトル
    v1,1, v1,2, …, 
    v2,1, v2,2, …, 
     … 
と、複数のクラスC1, C2, …, CMのうち、前記複数の学習画像の各学習画像Si,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルvi,jが分類されるクラスCy(i,j)と、前記各圧縮済ベクトルvi,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルui,jと、を求める第1モデルを学習する第1学習部、
  前記複数のグループG1, G2, …, GLの各グループGhを前記複数のクラスC1, C2, …, CMのそれぞれが代表する度合を表すM次元の代表度ベクトルrhを、各グループGhに対応付けられる圧縮済ベクトルvi,j|z(i)=hに対して求められたスコアベクトルui,j|z(i)=hから求め、前記求められた代表度ベクトルr1, r2, …, rLにより、前記複数のクラスの各クラスCkを前記複数のグループG1, G2, …, GLおよび他のグループG0のうち、グループGx(k)に対応付ける対応付け部、
  判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける受付部、
  前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する同定部
  として機能させる。
  本実施形態に係るプログラムは、非一時的なコンピュータ読取可能な情報記録媒体に記録して配布、販売することができる。また、コンピュータ通信網等の一時的な伝送媒体を介して配布、販売することができる。
  本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
  本願においては、日本国に対して平成30年(2018年)9月26日(水)に出願した特許出願特願2018-181008を基礎とする優先権を主張するものとし、指定国の法令が許す限り、当該基礎出願の内容を本願に取り込むものとする。
  本発明によれば、複数のグループのいずれかに属する対象が撮影された写真から、いずれか単一のグループを特徴付ける部分を同定して、画像を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体を提供することができる。
  101 分類装置
  102 取得部
  103 第1学習部
  104 対応付け部
  105 受付部
  106 同定部
  107 第2学習部
  108 推定部
  109 変更部
  1001 変換装置
  1002 分割部
  1003 第1分類部
  1004 第1学習部
  1005 第2分類部
  1006 第2学習部
  1101 変換モデル
  1201 第1分類モデル
  1202 第2分類モデル

Claims (22)

  1.   複数の学習写真S1, S2, …の各学習写真Siを分割した複数の学習画像Si,1, Si,2, …を、複数のグループG1, G2, …, GLのうち前記各学習写真Siに撮影された学習対象が属するグループGz(i)に対応付けて取得する取得部、
      前記取得された複数の学習画像
        S1,1, S1,2, …, 
        S2,1, S2,2, …, 
         … 
    を次元圧縮した複数の圧縮済ベクトル
        v1,1, v1,2, …, 
        v2,1, v2,2, …, 
         … 
    と、複数のクラスC1, C2, …, CMのうち、前記複数の学習画像の各学習画像Si,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルvi,jが分類されるクラスCy(i,j)と、前記各圧縮済ベクトルvi,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルui,jと、を求める第1モデルを学習する第1学習部、
      前記複数のグループG1, G2, …, GLの各グループGhを前記複数のクラスC1, C2, …, CMのそれぞれが代表する度合を表すM次元の代表度ベクトルrhを、各グループGhに対応付けられる圧縮済ベクトルvi,j|z(i)=hに対して求められたスコアベクトルui,j|z(i)=hから求め、前記求められた代表度ベクトルr1, r2, …, rLにより、前記複数のクラスの各クラスCkを前記複数のグループG1, G2, …, GLおよび他のグループG0のうち、グループGx(k)に対応付ける対応付け部、
      判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける受付部、
      前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する同定部
      を備えることを特徴とする分類装置。
  2.   前記各学習写真Siに撮影された学習対象を、前記各圧縮済ベクトルvi,1, vi,2, …が分類されたクラスCy(i,1), Cy(i,2), …に対応付けられたグループGx(y(i,1)), Gx(y(i,2)), …の分布に基づいて、前記複数のグループG1, G2, …, GLのうち、いずれかのグループに振り分ける第2モデルを学習する第2学習部、
      前記判定対象に対して前記同定されたグループの分布に基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG1, G2, …, GLのうち、いずれのグループに属するかを推定する推定部
      をさらに備えることを特徴とする請求項1に記載の分類装置。
  3.   前記各学習写真Siに撮影された学習対象を、前記各スコアベクトルui,1, ui,2, …と、前記複数のクラスC1, C2, …, CMのそれぞれが対応付けられたグループGx(1), Gx(2), …と、から、前記複数のグループG1, G2, …, GLの各グループに振り分ける確率を求める第2モデルを学習する第2学習部、
      前記複数の判定画像に対して求められたスコアベクトルに基づいて、前記学習された第2モデルにより、前記判定対象が前記複数のグループG1, G2, …, GLの各グループに属する確率を推定する推定部
      をさらに備えることを特徴とする請求項1に記載の分類装置。
  4.   前記第1モデルでは、
      オートエンコーダにより前記複数の圧縮済ベクトルを得て、前記得られた複数の圧縮済ベクトルをクラスタリングすることにより、前記複数の圧縮済ベクトルを分類する
      ことを特徴とする請求項1に記載の分類装置。
  5.   前記オートエンコーダは、Convolutional AutoEncoder, Sparse AutoEncoder, Deep AutoEncoder, Denoising AutoEncoder, Contractive AutoEncoder, Saturating AutoEncoder, Nonparametrically Guided AutoEncoder、もしくは、これらの組合せである
      ことを特徴とする請求項4に記載の分類装置。
  6.   前記複数の圧縮済ベクトルは、M次元のベクトルであり、
      前記各圧縮済ベクトルvi,jの最大要素がk番目の要素であれば、y(i,j)=kとする
      ことを特徴とする請求項4に記載の分類装置。
  7.   前記クラスタリングは、K-means, K-means++, Affinity propagation, Mean-shift, Spectral clustering, Ward hierarchical clustering, Agglomerative clustering, DBSCAN, Gaussian mixtures, Birch, 主成分分析、もしくは、これらの組合せである
      ことを特徴とする請求項4に記載の分類装置。
  8.   前記スコアベクトルui,jは、前記クラスCy(i,j)に対する要素を1、それ以外の要素を0とするベクトルである
      ことを特徴とする請求項6または7に記載の分類装置。
  9.   前記スコアベクトルui,jは、前記各クラスCkに対する要素を、前記圧縮済ベクトルvi,jと前記各クラスCkの代表点との近接度とするベクトルである
      ことを特徴とする請求項6または7に記載の分類装置。
  10.   前記複数の圧縮済ベクトルは、M次元のベクトルであり、
      前記各圧縮済ベクトルvi,jに対してsoftmaxを適用することにより、前記スコアベクトルui,jを得て、
      前記スコアベクトルui,jの最大要素がk番目の要素であれば、y(i,j)=kとする
      ことを特徴とする請求項4に記載の分類装置。
  11.   前記代表度ベクトルrhは、
        rh = Σi,j|z(i)=h ui,j
    により求められる
      ことを特徴とする請求項6に記載の分類装置。
  12.   前記複数のクラスC1, C2, …, CMの各クラスCkについて、前記代表度ベクトルr1, r2, …, rLのそれぞれのk番目の要素r1,k, r2,k, …, rL,kの最大値rh,kが、要素r1,k, r2,k, …, rL,kから前記最大値rh,kを除いた要素の分布に対して外れ値であれば、
        x(k) = h
    であり、そうでなければ、
        x(k) = 0
    である
      ことを特徴とする請求項11に記載の分類装置。
  13.   r1,k, r2,k, …, rL,kの総和に、0.5以上1以下の定数を乗じて定められる閾値を、前記最大値rh,kが超えていれば、前記最大値rh,kが前記外れ値であるとみなす
      ことを特徴とする請求項12に記載の分類装置。
  14.   前記分布から所望の有意水準に基いて定められる閾値をrh,kが超えていれば、前記最大値rh,kが前記外れ値であるとみなす
      ことを特徴とする請求項13に記載の分類装置。
  15.   前記第2モデルでは、
      サポートベクターマシン、ロジスティック回帰、リッジ回帰、ラッソ回帰、ニューラルネットワーク、もしくは、ランダムフォレストにより、入力された対象を、前記複数のグループG1, G2, …, GLのいずれかに分類する
      ことを特徴とする請求項2に記載の分類装置。
  16.   前記複数のグループG1, G2, …, GLの各グループGhに対応付けられた各クラスCk|x(k)=hに分類された前記学習画像および前記グループGhを、前記学習写真および前記学習対象が属するグループとして、前記取得部に新たに与えることにより、
        前記取得部による分割、対応付けおよび取得、
        前記第1学習部による学習、
        前記対応付け部による対応付け、
        前記第2学習部による学習、および、
        前記推定部による推定
    を新たに実行し、
      前記各クラスCkに分類された前記学習画像が属するとして前記新たに推定されたグループの分布を求め、
      前記求められた分布の所定上位に前記グループGhが含まれていなければ、前記クラスCkの対応付けを、前記グループGhから前記他のグループG0に変更する
      ことを特徴とする請求項2、3または15に記載の分類装置。
  17.   前記求められた分布の最上位がグループGhでなければ、前記クラスCkの対応付けを、前記グループGhから前記他のグループG0に変更する
      ことを特徴とする請求項16に記載の分類装置。
  18.   前記第1モデルでは、
      入力ベクトルを変換モデルにより特徴ベクトルに変換する変換装置により前記複数の圧縮済ベクトルを得て、前記得られた複数の圧縮済ベクトルをクラスタリングすることにより、前記複数の圧縮済ベクトルを分類し、
      前記変換装置は、
        複数の訓練ベクトルを、ランダムに、複数のグループに分割する分割部、
        前記複数の訓練ベクトルから前記変換モデルによりそれぞれ変換された特徴ベクトルを、第1分類モデルにより、前記複数のグループのいずれかに分類する第1分類部、
        前記複数の訓練ベクトルと、前記複数の訓練ベクトルがそれぞれ分割されたグループと、からなる第1教師データにより、前記変換モデルと、前記第1分類モデルと、を学習する第1学習部
      を備えることを特徴とする請求項1に記載の分類装置。
  19.   請求項18に記載の分類装置における変換装置。
  20.   分類装置が、
      複数の学習写真S1, S2, …の各学習写真Siを分割した複数の学習画像Si,1, Si,2, …を、複数のグループG1, G2, …, GLのうち前記各学習写真Siに撮影された学習対象が属するグループGz(i)に対応付けて取得し、
      前記取得された複数の学習画像
        S1,1, S1,2, …, 
        S2,1, S2,2, …, 
         … 
    を次元圧縮した複数の圧縮済ベクトル
        v1,1, v1,2, …, 
        v2,1, v2,2, …, 
         … 
    と、複数のクラスC1, C2, …, CMのうち、前記複数の学習画像の各学習画像Si,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルvi,jが分類されるクラスCy(i,j)と、前記各圧縮済ベクトルvi,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルui,jと、を求める第1モデルを学習し、
      前記複数のグループG1, G2, …, GLの各グループGhを前記複数のクラスC1, C2, …, CMのそれぞれが代表する度合を表すM次元の代表度ベクトルrhを、各グループGhに対応付けられる圧縮済ベクトルvi,j|z(i)=hに対して求められたスコアベクトルui,j|z(i)=hから求め、前記求められた代表度ベクトルr1, r2, …, rLにより、前記複数のクラスの各クラスCkを前記複数のグループG1, G2, …, GLおよび他のグループG0のうち、グループGx(k)に対応付け、
      判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付け、
      前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する
      ことを特徴とする分類方法。
  21.   コンピュータを、
      複数の学習写真S1, S2, …の各学習写真Siを分割した複数の学習画像Si,1, Si,2, …を、複数のグループG1, G2, …, GLのうち前記各学習写真Siに撮影された学習対象が属するグループGz(i)に対応付けて取得する取得部、
      前記取得された複数の学習画像
        S1,1, S1,2, …, 
        S2,1, S2,2, …, 
         … 
    を次元圧縮した複数の圧縮済ベクトル
        v1,1, v1,2, …, 
        v2,1, v2,2, …, 
         … 
    と、複数のクラスC1, C2, …, CMのうち、前記複数の学習画像の各学習画像Si,jならびに前記複数の圧縮済ベクトルの各圧縮済ベクトルvi,jが分類されるクラスCy(i,j)と、前記各圧縮済ベクトルvi,jと前記複数のクラスのそれぞれとの近さを表す複数のM次元のスコアベクトルui,jと、を求める第1モデルを学習する第1学習部、
      前記複数のグループG1, G2, …, GLの各グループGhを前記複数のクラスC1, C2, …, CMのそれぞれが代表する度合を表すM次元の代表度ベクトルrhを、各グループGhに対応付けられる圧縮済ベクトルvi,j|z(i)=hに対して求められたスコアベクトルui,j|z(i)=hから求め、前記求められた代表度ベクトルr1, r2, …, rLにより、前記複数のクラスの各クラスCkを前記複数のグループG1, G2, …, GLおよび他のグループG0のうち、グループGx(k)に対応付ける対応付け部、
      判定対象が撮影された判定写真を分割して得られる複数の判定画像を受け付ける受付部、
      前記学習された第1モデルにより、前記受け付けられた複数の判定画像のそれぞれを前記複数のクラスのいずれかに分類し、前記分類されたクラスに前記対応付けられたグループを同定する同定部
      として機能させることを特徴とするプログラム。
  22.   請求項21に記載のプログラムが記録された非一時的なコンピュータ読取可能な情報記録媒体。
PCT/JP2019/029193 2018-09-26 2019-07-25 分類装置、分類方法、プログラム、ならびに、情報記録媒体 WO2020066257A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/279,490 US20220036140A1 (en) 2018-09-26 2019-07-25 Classification device, classification method, program, and information recording medium
EP19867605.8A EP3859666A4 (en) 2018-09-26 2019-07-25 CLASSIFICATION DEVICE, CLASSIFICATION METHOD, PROGRAM AND INFORMATION RECORDING MEDIA
CN201980063201.7A CN112771516A (zh) 2018-09-26 2019-07-25 分类装置、分类方法、程序以及信息记录介质
JP2020548058A JP6945253B2 (ja) 2018-09-26 2019-07-25 分類装置、分類方法、プログラム、ならびに、情報記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018181008 2018-09-26
JP2018-181008 2018-09-26

Publications (1)

Publication Number Publication Date
WO2020066257A1 true WO2020066257A1 (ja) 2020-04-02

Family

ID=69949319

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/029193 WO2020066257A1 (ja) 2018-09-26 2019-07-25 分類装置、分類方法、プログラム、ならびに、情報記録媒体

Country Status (5)

Country Link
US (1) US20220036140A1 (ja)
EP (1) EP3859666A4 (ja)
JP (2) JP6945253B2 (ja)
CN (1) CN112771516A (ja)
WO (1) WO2020066257A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307906A (zh) * 2020-10-14 2021-02-02 北方工业大学 一种近邻传播聚类下储能电池故障分类特征筛选降维方法
JP2022041434A (ja) * 2020-09-01 2022-03-11 沖電気工業株式会社 学習装置、学習方法およびプログラム
CN116628248A (zh) * 2023-07-21 2023-08-22 合肥焕峰智能科技有限公司 一种智能设备采集图像数据处理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117377968A (zh) * 2021-05-31 2024-01-09 三菱电机株式会社 信息处理装置
CN116030983B (zh) * 2023-03-29 2023-06-16 鲁东大学 一种基于机器学习的子宫内膜癌组织学等级预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6345332B2 (ja) 1980-11-25 1988-09-08 Nippon Denso Co
WO2015056436A1 (ja) * 2013-10-15 2015-04-23 国立大学法人広島大学 認識システム
JP2015146970A (ja) * 2014-02-07 2015-08-20 国立大学法人広島大学 内視鏡画像診断支援システム
JP2018181008A (ja) 2017-04-14 2018-11-15 株式会社Nttドコモ サーバ装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012111236A1 (ja) * 2011-02-17 2012-08-23 三洋電機株式会社 画像識別装置およびプログラム
JP6856950B2 (ja) * 2019-07-25 2021-04-14 国立研究開発法人理化学研究所 変換装置、変換方法、プログラム、ならびに、情報記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6345332B2 (ja) 1980-11-25 1988-09-08 Nippon Denso Co
WO2015056436A1 (ja) * 2013-10-15 2015-04-23 国立大学法人広島大学 認識システム
JP2015146970A (ja) * 2014-02-07 2015-08-20 国立大学法人広島大学 内視鏡画像診断支援システム
JP2018181008A (ja) 2017-04-14 2018-11-15 株式会社Nttドコモ サーバ装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
OKAMOTO , TAKUMI ET AL.: "Image Segmentation of Pyramid Style Identifier based on Support Vector Machine for Colorectal Endoscopic Images", PROCEEDINGS OF THE 2015 37TH ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY (EMBC, 29 August 2015 (2015-08-29), pages 2997 - 3000, XP032810799, ISBN: 978-1-4244-9270-1, DOI: 10.1109/EMBC.2015.7319022 *
See also references of EP3859666A4
SUGI , KOKI ET AL.: "High Performance Feature Transformation Architecture based on Bag-of- Features in CAD system for Colorectal Endoscopic Images", PROCEEDINGS OF THE 19TH WORKSHOP ON SYNTHESIS AND SYSTEM INTEGRATION OF MIXED INFORMATION TECHNOLOGIES (SASIMI 2015, 17 March 2015 (2015-03-17), pages 380 - 385, XP055699379, Retrieved from the Internet <URL:http://sasimi.jp/new/sasimi2015/files/archive/pdf/p380_R4-10.pdf> [retrieved on 20191001] *
SUGI, KOKI : "Architecture of Bottom-up Feature Construction for Robust Computer-Aided Diagnosis System", IEICE TECHNICAL REPORT, vol. 115, no. 343 (RECONF2015-56), 24 November 2015 (2015-11-24), pages 45 - 50, XP009526900, ISSN: 0913-5685 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022041434A (ja) * 2020-09-01 2022-03-11 沖電気工業株式会社 学習装置、学習方法およびプログラム
JP7107340B2 (ja) 2020-09-01 2022-07-27 沖電気工業株式会社 学習装置、学習方法およびプログラム
CN112307906A (zh) * 2020-10-14 2021-02-02 北方工业大学 一种近邻传播聚类下储能电池故障分类特征筛选降维方法
CN112307906B (zh) * 2020-10-14 2023-07-04 北方工业大学 一种近邻传播聚类下储能电池故障分类特征筛选降维方法
CN116628248A (zh) * 2023-07-21 2023-08-22 合肥焕峰智能科技有限公司 一种智能设备采集图像数据处理方法
CN116628248B (zh) * 2023-07-21 2023-09-26 合肥焕峰智能科技有限公司 一种智能设备采集图像数据处理方法

Also Published As

Publication number Publication date
CN112771516A (zh) 2021-05-07
JP7294695B2 (ja) 2023-06-20
EP3859666A4 (en) 2022-07-06
JP2022000777A (ja) 2022-01-04
JPWO2020066257A1 (ja) 2021-08-30
US20220036140A1 (en) 2022-02-03
JP6945253B2 (ja) 2021-10-06
EP3859666A1 (en) 2021-08-04

Similar Documents

Publication Publication Date Title
Li et al. A comprehensive review of computer-aided whole-slide image analysis: from datasets to feature extraction, segmentation, classification and detection approaches
US10991093B2 (en) Systems, methods and media for automatically generating a bone age assessment from a radiograph
CN110120040B (zh) 切片图像处理方法、装置、计算机设备和存储介质
JP7294695B2 (ja) 学習済モデルによるプログラム、情報記録媒体、分類装置、ならびに、分類方法
Rahim et al. A survey on contemporary computer-aided tumor, polyp, and ulcer detection methods in wireless capsule endoscopy imaging
US10839510B2 (en) Methods and systems for human tissue analysis using shearlet transforms
dos Santos Ferreira et al. Convolutional neural network and texture descriptor-based automatic detection and diagnosis of glaucoma
CN114846507A (zh) 用于使用人工智能(ai)模型进行非侵入性基因检测的方法和系统
US11875479B2 (en) Fusion of deep learning and handcrafted techniques in dermoscopy image analysis
Li et al. Texton analysis for mass classification in mammograms
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的系统
Nie et al. Recent advances in diagnosis of skin lesions using dermoscopic images based on deep learning
Nagalakshmi Breast cancer semantic segmentation for accurate breast cancer detection with an ensemble deep neural network
Habeeb et al. Breast cancer detection using image processing and machine learning
Hamidinekoo et al. Automated mammogram analysis with a deep learning pipeline
Masmoudi et al. Robust mass classification–based local binary pattern variance and shape descriptors
CN115880245A (zh) 一种基于自监督的乳腺癌疾病分类方法
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法
Łowicki et al. Towards sustainable health-detection of tumor changes in breast histopathological images using deep learning
CN111179226A (zh) 视野图的识别方法、装置及计算机存储介质
Polejowska et al. Impact of visual image quality on lymphocyte detection using yolov5 and retinanet algorithms
Ahmed et al. Classification of Breast Tumor Using Radon Cumulative Distribution Transform Nearest Subspace Classifier
CN114972192B (zh) 一种基于深度学习的乳腺钼靶胸大肌区域分割方法
Moh'd Rasoul et al. Pneumonia identification using organizing map algorithm
Sreelekshmi et al. Variational Auto encoders for Improved Breast Cancer Classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19867605

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020548058

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019867605

Country of ref document: EP

Effective date: 20210426