WO2021161901A1 - 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット - Google Patents

特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット Download PDF

Info

Publication number
WO2021161901A1
WO2021161901A1 PCT/JP2021/004193 JP2021004193W WO2021161901A1 WO 2021161901 A1 WO2021161901 A1 WO 2021161901A1 JP 2021004193 W JP2021004193 W JP 2021004193W WO 2021161901 A1 WO2021161901 A1 WO 2021161901A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
feature
feature amount
classes
selection
Prior art date
Application number
PCT/JP2021/004193
Other languages
English (en)
French (fr)
Inventor
雅也 長瀬
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to EP21754469.1A priority Critical patent/EP4105881A4/en
Priority to JP2022500363A priority patent/JP7507845B2/ja
Priority to CN202180014238.8A priority patent/CN115104028A/zh
Publication of WO2021161901A1 publication Critical patent/WO2021161901A1/ja
Priority to US17/876,324 priority patent/US20220391718A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Definitions

  • the present invention selects a feature quantity and classifies a sample into one of a plurality of classes based on the value of the selected feature quantity, a multi-class classification method, a multi-class classification program, a multi-class classification device, and such a multi.
  • the present invention relates to a feature amount selection method, a feature amount selection device, and a feature amount set used for classification.
  • Non-Patent Document 1 focuses on class pairwise coupling.
  • the technique described in Non-Patent Document 1 pays attention to the fact that the basic classification is "binary classification" with two classes, and takes the pairwise coupling of the classes to obtain the feature amount. It is a method of paying attention to and selecting the discriminating ability of.
  • Non-Patent Document 1 The research described in Non-Patent Document 1 is limited to feature selection, and the existing method is used as it is in the subsequent multi-class classification. Further, the extension of the present invention to the collective cover problem, which will be described later, is not specified. Independence between features for selecting robust features has not been verified, and only basic multi-class classification is assumed, and no discrimination-free classes have been introduced. .. Therefore, it was difficult to apply it as it is to the extended multi-class classification. Similarly, in the technique described in Patent Document 1, it is not considered to examine the gene cluster necessary for discrimination as an aggregate cover problem.
  • example size is small relative to the number of parameters; there are hundreds of thousands of methylation sites.
  • the number of available tumor records is less than 10,000 even with open data), and even if it succeeds, there is a problem that it is difficult to accept it because the reason for discrimination cannot be clarified, for example, in diagnostic applications.
  • the conventional technique has not been able to robustly and highly accurately classify a sample having a plurality of features into one of a plurality of classes based on the values of some of the selected features.
  • the present invention has been made in view of such circumstances, and a sample having a plurality of features is classified into one of a plurality of classes robustly and with high accuracy based on the values of some of the selected features. It is an object of the present invention to provide a multi-class classification method, a multi-class classification program, and a multi-class classification device that can be used. Another object of the present invention is to provide a feature amount selection method, a feature amount selection device, and a feature amount set used for such multi-class classification.
  • the feature amount selection method is a feature amount selection method for selecting a feature amount group used for determining which of two or more N classes the sample belongs to.
  • the quantification process that quantifies the discriminability between two classes according to each feature of the group by the training data set, and the quantified discriminability are aggregated for all of the pairwise coupling, and the aggregated result is obtained. It has an optimization step of selecting a combination of feature quantity groups to be optimized.
  • the feature amount selection method is the first marking step in which the selection step marks a part of the given classes as the first discriminant-free class group that does not need to be discriminated from each other. Further, it has a first exclusion step of excluding the pairwise coupling between the marked first discriminant class groups from the developed pairwise coupling.
  • the feature amount selection method is the first or second aspect, in which the selection step evaluates the similarity between the feature amounts based on the discriminability of each feature amount for each pairwise coupling. It has a sex evaluation step and a priority setting step for setting the priority of the feature amount to be selected based on the similarity evaluation result.
  • the feature amount selection method according to the fourth aspect is the third aspect, in which the similarity is a discriminable overlapping relationship and / or inclusion relationship for each pairwise coupling.
  • the feature amount selection method is the third or fourth aspect, and the similarity is a distance or a metric value according to the distance between the discriminable vectors for each pairwise coupling.
  • the feature amount selection method further includes a selection number input step of inputting the selection number M of the feature amount in the selection step, and the optimization is performed. It is the maximization of the minimum value of the aggregated value in all pairwise couplings by M selected features.
  • the feature amount selection method is based on the importance input step of inputting the importance of class or pairwise discrimination in any one of the first to sixth aspects and the importance at the time of aggregation. It further includes a weighting step of giving a weighting.
  • the number of feature amounts selected in the selection step is 25 or more.
  • the feature amount selection method according to the ninth aspect is that the number of feature amounts selected in the selection step is 50 or more in the eighth aspect.
  • the number of feature amounts selected in the selection step is 100 or more.
  • the feature amount selection program according to the eleventh aspect of the present invention causes a computer to execute the feature amount selection method according to any one of the first to tenth aspects.
  • the multi-class classification method is a multi-class that determines which of the N classes a sample belongs to from the feature amount of the sample when N is an integer of 2 or more.
  • a classification method which is an input step and a selection step executed by using the feature amount selection method according to any one of the first to tenth aspects, and a class for an unknown sample based on the selected feature amount group.
  • a determination step for making a determination which includes an acquisition step of acquiring a feature amount value of a selected feature amount group and a class determination step of performing a class determination based on the acquired feature amount value.
  • the class determination for an unknown sample is performed by configuring a multi-class discriminator that uses the feature quantity group selected in association with the pairwise coupling.
  • FIG. 1 is a schematic diagram of a multi-class classification problem with feature selection, which is handled by the twelfth aspect of the present invention.
  • Feature selection is a method of literally selecting in advance the feature quantities required for each subsequent process (particularly multi-class classification in the present invention) from among a large number of feature quantities included in the sample (from the first step).
  • a feature amount selection method according to any one of the tenth aspects). That is, a large number of features are acquired in advance in a certain data set (so-called learning data set), and based on the information, the features (feature sets) required for each process in the subsequent stage are selected.
  • Feature selection is particularly useful when it takes cost (including time, cost, etc.) to refer to (including acquisition, storage, etc.) the feature amount of the sample. Therefore, for example, the means for referring to the feature amount of the training data and the means for referring to the feature amount of the unknown sample may be different, and after selecting a small number of feature amounts, a suitable feature amount acquisition means is developed and prepared. You may.
  • multi-class classification is a discrimination problem that determines whether a given unknown sample belongs to any of multiple classes, and is a general problem in machine learning.
  • many of the actual multi-class classifications are not necessarily the problem of simply choosing one of the N classes. For example, even if a plurality of classes actually exist, the determination itself may not be necessary.
  • a sample set labeled as one class may contain a plurality of sample groups having different appearances. It is desirable that the method withstands such a complicated extended multi-class classification.
  • the simplest method of feature selection is to evaluate all selection of minority features from a large number of candidate features using a training dataset, but there is a risk of over-learning for the training dataset. Since there are many candidates and the number of candidates is too large to evaluate, some kind of framework is indispensable.
  • the first aspect of the present invention multi-class classification with feature selection
  • Each cancer and body tissue has its own unique DNA methylation pattern.
  • DNA released from body tissues Cell Free DNA: cfDNA
  • cfDNA Cell Free DNA
  • cfDNA derived from cancer has been detected. Therefore, by analyzing the methylation pattern of cfDNA, it is possible to determine the presence or absence of cancer and, if cancer is present, to identify the primary lesion. That is, early cancer screening test by blood sampling and guidance to appropriate detailed test are realized.
  • the problem of determining "whether it is cancer or non-cancer" and the tissue of origin from the DNA methylation pattern is extremely important.
  • This can be defined as a multiclass classification problem that distinguishes cancer from blood and normal tissues.
  • human organs for example, 8 major cancers and 20 or more normal tissues
  • subtypes of cancer for example, 8 major cancers and 20 or more normal tissues
  • some cancers of the same organ have different appearances. Therefore, it can be said that it is a difficult classification problem.
  • the method proposed in the invention is useful. Since the number of DNA methylation sites selected from, for example, 300,000 sites exceeds 10 to the 1,000th power, it can be seen that a comprehensive search method cannot be used.
  • the inventor of the present application enumerates DNA methylation sites that function like switches that contribute to robust discrimination, and proposes a feature selection method based on combination search that sufficiently covers the pairwise discrimination of the required class. .. Furthermore, we propose a method of constructing a multi-class classifier from a simple binary classifier together with the tournament hierarchy process using only the robust discriminant part of the selected sites.
  • the multi-class classification method utilizes the statistically significant difference in the feature amount in the learning data set between the pairwise-coupled classes in the quantification step in the twelfth aspect.
  • the multi-class classification method according to the fourteenth aspect is one of the pairwise-coupled classes under the threshold value set with reference to the training data set in the quantification step.
  • the probability that the class to which the unknown sample belongs can be correctly determined by the given features is used.
  • the quantification value of discriminability multiplies the statistical probability value by the number of features. This is the value corrected by the test.
  • the multi-class classification method is a cluster by clustering one or more samples belonging to a class from a training data set based on a given feature amount in any one of the twelfth to fifteenth aspects. And mark each subclass in each class as a second non-discrimination class group that does not need to be discriminated from each other in each class and the subclass setting process in which each formed cluster is set as a subclass in each class. It further comprises a second marking step and a second exclusion step of excluding the deployment of pairwise couplings between the marked second discriminant-free classes from the deployed pairwise couplings.
  • the multi-class classification method according to the 17th aspect is any one of the 12th to 16th aspects, and the aggregation is the calculation of the total value or the average value of the quantitative values of discriminability.
  • the multi-class classification method further includes, in any one of the twelfth to seventeenth aspects, a target threshold value input step of inputting the target threshold value T of the aggregated value indicating the aggregated result, and is optimized. Is to set the minimum value of the aggregated values in all pairwise couplings by the selected feature amount to be equal to or higher than the target threshold value T.
  • the multi-class classification method according to the nineteenth aspect is any one of the twelfth to eighteenth aspects. Each is configured, and a binary class discriminator is combined to form a multi-class discriminator.
  • the multi-class classification method is based on the step of evaluating the similarity between the sample and each class by a binary class discriminator and the similarity in any one of the twelfth to nineteenth aspects. It further includes a step of forming a multi-class discriminator.
  • the multi-class classification method is a step of evaluating the similarity between a sample and each class by a binary class discriminator in any one of the 12th to 20th aspects, and a class having a higher similarity. In between, it further includes a step of constructing a multi-class discriminator by reapplying the binary class discriminator used for evaluating the similarity between classes.
  • the multi-class classification method according to the 22nd aspect constitutes a decision tree that utilizes the selected feature amount group in association with each pairwise coupling in the determination step in any one of the 12th to 21st aspects. , One or more decision trees are combined to form a multi-class discriminator.
  • the multi-class classification method according to the 23rd aspect is the 22nd aspect, in which the multi-class discriminator is configured as a random forest by the combination of the decision tree and the decision tree in the determination step.
  • the multi-class classification method determines the class to which the biological tissue piece belongs from N classes by measuring the omics information of the biological tissue piece in any one of the 12th to 23rd aspects. do.
  • the multi-class classification method measures N omics switch-like information of the living tissue pieces to form N classes to which the living tissue pieces belong. Judge from the class.
  • the number of classes to be discriminated is 10 or more in any one of the 12th to 25th aspects.
  • the number of classes to be discriminated is 25 or more in the 26th aspect.
  • the multi-class classification program according to the 28th aspect of the present invention causes a computer to execute the multi-class classification method according to any one of the 12th to 27th aspects.
  • a non-temporary recording medium on which a computer-readable code of the program according to the 28th aspect is recorded can also be mentioned as an aspect of the present invention.
  • the feature amount selection device is a feature amount selection device for selecting a feature amount group used for determining which of two or more N classes the sample belongs to.
  • a first processor is provided, and the first processor is an input process for inputting a training data set composed of a known sample group belonging to a given class to be targeted and a feature amount group of the known sample group, and training data. Based on the set, a selection process for selecting a feature amount group necessary for class determination for an unknown sample to which the class to which it belongs is unknown from the feature amount group is performed, and the selection process selects two of the N classes.
  • the quantification process that quantifies the discriminability between two classes by each feature amount of the selected feature amount group by the training data set, and the quantified discriminability are pairwise cup. It has an optimization process that aggregates all of the rings and selects a combination of feature quantity groups that optimizes the aggregation result.
  • the multi-class classification device is a multi-class that determines which of the N classes a sample belongs to from the feature amount of the sample when N is an integer of 2 or more.
  • the classification device includes a feature amount selection device according to the 29th aspect and a second processor, and the second processor includes input processing and selection processing using the feature amount selection device, and selected features. Judgment processing that performs class judgment for unknown samples based on the quantity group, acquisition processing that acquires the feature quantity value of the selected feature quantity group, and class judgment processing that performs class judgment based on the acquired feature quantity value.
  • the class determination for an unknown sample is performed by configuring a multi-class discriminator that uses the feature quantity group selected in association with the pairwise coupling. ..
  • the feature amount set according to the 31st aspect of the present invention is a feature amount set used by the multi-class classification device to determine which of two or more N classes the sample belongs to, and is a target.
  • a pairwise coupling that combines two of the N classes with feature data sets of samples belonging to each class makes it possible to discriminate between two classes by each feature of the selected feature group.
  • it is marked as distinguishable by at least one feature in all pairwise couplings.
  • the feature amount set according to the 32nd aspect can be discriminated between the two classes according to each feature amount of the selected feature amount group by pairwise coupling that combines two of the N classes.
  • the sex is quantified with reference to the feature data set, it is marked that it can be discriminated by at least 5 or more features in all pairwise couplings.
  • the feature amount set according to the 33rd aspect can be discriminated between the two classes according to each feature amount of the selected feature amount group by pairwise coupling that combines two of the N classes.
  • the sex is quantified with reference to the feature amount data set, it is marked that it can be discriminated by at least 10 or more feature amounts in all pairwise couplings.
  • the feature amount set according to the 34th aspect can be discriminated between the two classes by each feature amount of the selected feature amount group by the pairwise coupling that combines two of the N classes.
  • the sex is quantified with reference to the feature data set, it is marked that at least 60 or more features can be discriminated in all pairwise couplings.
  • the number of feature amounts selected in any one of the 31st to 34th aspects is 5 times or less of the presented minimum cover number.
  • the feature amount set according to the 36th aspect has 10 or more classes to be discriminated in any one of the 31st to 35th aspects.
  • the number of classes to be discriminated is 25 or more in the 36th aspect.
  • the feature amount set according to the 38th aspect has 25 or more feature amounts selected in any one of the 31st to 37th aspects.
  • the number of feature amounts selected in the 38th aspect is 50 or more.
  • the number of feature amounts selected in the 39th aspect is 100 or more.
  • FIG. 1 is a schematic diagram showing a multi-class classification problem involving feature quantity selection.
  • FIG. 2 is a diagram showing a configuration of a multi-class classification device.
  • FIG. 3 is a diagram showing a configuration of a processing unit.
  • FIG. 4 is a flowchart showing the processing of the multi-class classification method.
  • FIG. 5 is a diagram showing a state of classification based on switch-like features.
  • FIG. 6 is a diagram showing a matrix of discrimination switch values.
  • FIG. 7 is a diagram showing a state of determination of the discrimination switch value / state value.
  • FIG. 8 is a diagram showing exclusion of pairwise expansion between discriminant-free classes.
  • FIG. 9 is a diagram showing a state of subclass introduction.
  • FIG. 1 is a schematic diagram showing a multi-class classification problem involving feature quantity selection.
  • FIG. 2 is a diagram showing a configuration of a multi-class classification device.
  • FIG. 3 is a diagram showing a configuration of
  • FIG. 10 is a diagram showing a state of creating a round robin ranking.
  • FIG. 11 is a diagram showing a state of the final tournament match.
  • FIG. 12 is a diagram showing a detailed breakdown of the data set.
  • FIG. 13 is a diagram showing a comparison result of the discrimination accuracy between the present invention and the conventional method.
  • FIG. 14 is a diagram showing a comparison result of robustness between the present invention and the conventional method.
  • FIG. 15 is a diagram showing the relationship between the number of selected feature quantities and the discrimination accuracy (F value).
  • FIG. 16 is a table showing an illustrated example of the basis for discrimination.
  • FIG. 17 is a diagram showing the relationship between the number of selected feature quantities and the minimum number of coatings.
  • FIG. 18 is a table showing the relationship between the minimum number of covers and the minimum F value.
  • FIG. 2 is a diagram showing a schematic configuration of a multi-class classification device according to the first embodiment.
  • the multi-class classification device 10 feature amount selection device, multi-class classification device
  • the first embodiment includes a processing unit 100 (first processor, second processor) and a storage unit.
  • the 200, the display unit 300, and the operation unit 400 are provided and connected to each other to transmit and receive necessary information.
  • Various installation forms can be adopted for these components, and each component may be installed in one place (in one housing, one room, etc.), or may be installed in a distant place via a network. May be connected.
  • the multi-class classification device 10 (input processing unit 102; see FIG. 3) connects to the external server 500 and the external database 510 via a network NW such as the Internet, and if necessary, a sample for multi-class classification.
  • Information such as a training data set and a feature amount set can be acquired.
  • the processing unit 100 includes an input processing unit 102, a selection processing unit 104, a determination processing unit 110, a CPU 116 (CPU: Central Processing Unit), a ROM 118 (ROM: Read Only Memory), and a RAM 120 (RAM: Random). Access Memory) is provided.
  • the input processing unit 102 inputs a learning data set composed of a known sample group whose class is known and a feature amount group of the known sample group from the storage unit 200 or a storage device on the network. It is for processing.
  • the selection processing unit 104 Based on the input training data set, the selection processing unit 104 performs selection processing for selecting a feature group required for class determination for an unknown sample whose class belongs to unknown from the feature group, and quantifies it.
  • the determination processing unit 110 performs class determination (determination processing) for an unknown sample based on the selected feature quantity group, and includes an acquisition processing unit 112 and a class determination processing unit 114.
  • the output processing unit 115 outputs the processing conditions and processing results by displaying, storing, printing, or the like. The processing by each of these parts is performed under the control of the CPU 116 (first processor, second processor).
  • processors include, for example, a CPU (Central Processing Unit), which is a general-purpose processor that executes software (programs) to realize various functions.
  • various processors described above include programmable logic devices (GPU (Graphics Processing Unit), FPGA (Field Programmable Gate Array), etc., which are processors specialized in image processing, and which are processors whose circuit configuration can be changed after manufacturing. Programmable Logic Device (PLD) is also included. When learning or recognizing an image, a configuration using a GPU is effective.
  • the above-mentioned various processors also include a dedicated electric circuit, which is a processor having a circuit configuration specially designed for executing a specific process, such as an ASIC (Application Specific Integrated Circuit).
  • ASIC Application Specific Integrated Circuit
  • each part may be realized by one processor, or may be realized by a plurality of processors of the same type or different types (for example, a plurality of FPGAs, or a combination of a CPU and an FPGA, or a combination of a CPU and a GPU). Further, a plurality of functions may be realized by one processor. As an example of configuring a plurality of functions with one processor, first, as represented by a computer, one processor is configured by a combination of one or more CPUs and software, and this processor is used as a plurality of functions. There is a form to be realized.
  • SoC System On Chip
  • a processor that realizes the functions of the entire system with one IC (Integrated Circuit) chip
  • various functions are configured by using one or more of the above-mentioned various processors as a hardware structure.
  • the hardware structure of these various processors is, more specifically, an electric circuit (circuitry) in which circuit elements such as semiconductor elements are combined.
  • These electric circuits may be electric circuits that realize the above-mentioned functions by using a logical sum, a logical product, a logical denial, an exclusive logical sum, and a logical operation combining these.
  • processor or electric circuit executes software (program)
  • a code that can be read by a computer of the software to be executed for example, various processors and electric circuits constituting the processing unit 100, and / or a combination thereof.
  • a non-temporary recording medium such as ROM 118
  • the computer refers to the software.
  • the software stored in the non-temporary recording medium is used for executing the feature quantity selection method and / or the multi-class classification method according to the present invention (feature quantity selection program, multi-class classification program) and execution. Includes data (data related to acquisition of training data, data used for feature quantity selection and class determination, etc.).
  • the code may be recorded on a non-temporary recording medium such as various optical magnetic recording devices or semiconductor memories instead of the ROM 118.
  • the RAM 120 is used as a temporary storage area, and for example, data stored in an EEPROM (Electronically Erasable and Programmable Read Only Memory) (not shown) can be referred to.
  • the storage unit 200 may be used as the "non-temporary recording medium".
  • the storage unit 200 is composed of various storage devices such as a hard disk and a semiconductor memory and a control unit thereof, and can store the above-mentioned learning set, execution conditions of selection processing and class determination processing, and as a result, a feature amount set and the like.
  • the feature amount set is a feature amount set used by the multi-class classification device 10 to determine which of two or more N classes (N is an integer of two or more) belongs to, and is a target. It is possible to discriminate between two classes by each feature of the selected feature group by pairwise coupling that includes the feature data set of the sample belonging to each class and combines two of the N classes.
  • This feature amount set can be generated by an input step (input process) and a selection step (selection process) in the feature amount selection method (feature amount selection device) of the present invention. Further, this feature amount set is preferably marked as distinguishable by at least 5 or more feature amounts, more preferably marked as distinguishable by at least 10 or more feature amounts, and at least 60 or more features. It is even more preferable that it is marked as distinguishable by quantity. Further, this feature amount set is effective when the number of classes to be discriminated is 10 or more, and further effective when the number of classes is 25 or more. Further, it is effective when the number of selected feature quantities is 50 or more, and further effective when the number of selected feature quantities is 100 or more.
  • the display unit 300 includes a monitor 310 (display device) composed of a display such as a liquid crystal display, and can display the acquired learning data and the result of the selection process and / or the class determination process.
  • the monitor 310 may be configured by a touch panel type display and may accept user's instruction input.
  • the operation unit 400 includes a keyboard 410 and a mouse 420, and the user can perform operations related to execution of the multi-class classification method according to the present invention, result display, and the like through the operation unit 400.
  • FIG. 4 is a flowchart showing the basic processing of the feature amount selection method and the multi-class classification method of the present invention.
  • the feature amount selection method of the present invention is a feature amount selection method for selecting a feature amount group used for determining which of two or more N classes the sample belongs to.
  • the multi-class classification method of the present invention is a multi-class classification method for determining which of the N classes a sample belongs to from the feature amount of the sample when N is an integer of 2 or more.
  • the class to which the known sample group belongs to the target given class is unknown based on the input step (step S100) for inputting the learning data set composed of the known sample group and the feature quantity group of the known sample group, and the learning data set.
  • the selection process is a quantification that quantifies the discriminability between two classes by each feature amount of the selected feature amount group by a pairwise coupling that combines two out of N classes by a training data set. It has a step (step S112) and an optimization step (step S114) in which the quantified discriminability is aggregated for all of the pairwise coupling and the combination of the feature quantity groups for optimizing the aggregation result is selected. .. Further, in the determination step, a class determination is performed for an unknown sample by configuring a multi-class discriminator that uses a feature quantity group selected in association with the pairwise coupling.
  • the present invention is particularly preferable in the case of selecting features having characteristics close to the binary value, and in the case of determining the class by combining such features like a "switch". In other words, it is not necessarily linearly or non-linearly quantitatively coupled to features, but this is not always simple and becomes a sufficiently complex problem when there are many switches. Therefore, the present invention is based on the policy of "searching and selecting a combination of a large number of features having a switch-like function, and constructing a multi-class classifier with a simple classifier".
  • FIG. 5 is a diagram for explaining the above-mentioned "feature amount having a switch-like function".
  • Part (a) of FIG. 5 shows how the classification is performed based on the feature amount X'and the feature amount Y', which is a complicated and non-linear classification.
  • the part (b) in FIG. 5 shows how the classification is based on the feature amount X and the feature amount Y, which is a simple and linear classification. From the viewpoint of high-precision and high-robust classification, it is preferable to select a feature quantity having a switch-like function as shown in part (b) of the figure.
  • a training data set is given, and all the samples may contain values of a plurality of common feature quantities (eg, methylation sites) (note that some of the values may include "missing values”. : Hereinafter referred to as NA) and one correct class label (eg, cancer or non-cancer, and tissue classification) are given (training data set input (input process, input process:) by the input processing unit 102. It is assumed that step S100) has been performed).
  • NA common feature quantities
  • one correct class label eg, cancer or non-cancer, and tissue classification
  • step S110 selection step
  • step S110 selection step
  • step S110 selection step
  • the class s and t can be discriminated by the selected feature set f means that one of the feature quantities is different, that is, the following equation ( It is to satisfy 1).
  • FIG. 6 is a diagram showing a state of calculation of the discrimination switch.
  • Part (a) of FIG. 6 is a table showing the values of binary features # 1 to # 5 (values are 0 or 1; binary features values) for classes A, B, and C, and (b) of the same figure. The) part shows how classes A, B, and C are pairwise expanded to form pairs ⁇ A, B ⁇ , ⁇ A, C ⁇ , ⁇ B, C ⁇ .
  • Part (c) of FIG. 6 shows the exclusive OR (value is 0 or 1; discriminant switch value) of the binary features for each pair.
  • the discrimination switch value of the feature quantity # 1 for the pair ⁇ A, B ⁇ is 0, which means that the pair ⁇ A, B ⁇ cannot be discriminated by the feature quantity # 1 (the sample is in either class A or B). I can't tell if it belongs) ".
  • the discrimination switch value of the feature quantity # 2 is 1 for the pair ⁇ A, B ⁇ , it can be seen that "the pair ⁇ A, B ⁇ can be discriminated by the value of the feature quantity # 2".
  • the feature selection for multi-class classification can be reduced to the set cover problem of selecting the subset f ⁇ F that satisfies the above equation.
  • the switch set I i ⁇ k
  • the question is, "Given a subset I (corresponding to F) of the power set of P 2 (C), the subset of I is included so that all the elements of P 2 (C) are included at least once. It is a problem of choosing (corresponding to f), that is, it can be regarded as a set cover problem.
  • the quantification processing unit 106 selects the distribution parameter ⁇ i (s) and the distribution D ( ⁇ i (s) ) of the class s and the feature quantity i from the measured value group of the feature quantity i of the sample belonging to the class s. (Step S112: quantification step). It is especially desirable to quantify the discriminability from the distribution and distribution parameter. Samples having a feature value of NA may be excluded from the quantitative treatment. Of course, if all the samples are NA, the features cannot be used.
  • the quantification processing unit 106 can obtain a p-value by subjecting the presence or absence of a significant difference between the pairwise parameters ⁇ i (s) and ⁇ i (t) to a statistical test.
  • a statistical test Specifically, Welch The t-test of can be used. Welch's t-test assumes a normal distribution and is a universally applicable method (as an image, the feature distribution of s and t is either part (a) or part (b) of FIG. 7. Significant difference is judged by whether it is close).
  • a timely and appropriate distribution and the corresponding statistical test method may be adopted.
  • FIG. 7 is a diagram showing a determination image of the discrimination switch value and the state value.
  • the part (a) in FIG. 7 is a case where the feature amount is used for discriminating pairwise ⁇ A, B ⁇ , and the quantification processing unit 106 uses the training data to determine the threshold value (the value of the position of the two vertical lines in the figure). ) Is set in advance, and the discrimination switch state value is determined from the measured value of the target sample (step S112: quantification step). If the measured value belongs to the distribution A side, the state value is +1. If it is the B side, it is -1. If it is in the holding area, it is 0.
  • the method of multiple test correction includes, for example, the Bonferroni method and the BH method [Benjamini, Y., and Y. Hochberg, 1995], and more desirable is the latter method of correcting to the so-called FDR (False Discovery Rate). Not exclusively.
  • the quantification processing unit 106 compares the obtained q value with the predetermined reference value ⁇ and assigns 0 or 1 to the discrimination switch (particularly when the discrimination switch is 1), as shown in the following equation (5). Is called "marked").
  • the discrimination switch was discretized and binaryized from the standpoint of extending the set cover problem, but continuous variables may be handled, for example, by setting it to 1-q.
  • the quantification processing unit 106 further performs pairwise under an appropriate threshold set with reference to the training data set. Given a feature of an unknown sample that belongs to any of the coupled classes, it may be quantified by the probability that the class to which it belongs can be correctly determined by the feature. Further, the quantification processing unit 106 may perform multiple test correction of such a statistical probability value according to the number of features.
  • the quantification processing unit 106 aggregates the quantitative values of the individual discriminability with the discrimination redundancy as the pairwise coverage number Z f (k) as shown in the following equation (6). (Calculate the total value as the aggregated value; step S112, quantification step).
  • Z f (k) is not limited to that shown in Eq. (6).
  • the continuous variable version of -Y i (k) it may be defined as the product of (1-Y i (k) ) as the probability that all discriminations will fail, or using an appropriate threshold value U. Therefore, the probability of success in determining at least U items may be calculated from Y i (k). In addition, the average value of individual discriminability may be calculated. As described above, various aggregation methods can be considered.
  • the optimization processing unit 108 sets the number of feature quantities to be selected as m from the standpoint that "it is desirable to reduce the bottleneck of discrimination as much as possible", for example, the following equation.
  • the feature quantity selection problem can be reduced to the problem of maximizing the minimum number of pairwise coatings (step S114: optimization step, optimization process).
  • the optimization processing unit 108 sets a threshold (target threshold T) for the minimum number of pairwise coverings (minimum value of the aggregated value of discriminability) (target threshold input process / processing).
  • target threshold T the minimum number of pairwise coverings (minimum value of the aggregated value of discriminability)
  • target threshold input process / processing targets threshold input process / processing.
  • the feature amount may be selected so as to satisfy the threshold value (step S114: optimization step / process, selection step / process).
  • it is desirable that the number of feature quantities to be selected is smaller, and it is particularly preferable that the number of feature quantities is the minimum.
  • the optimization processing unit 108 may adopt a simple greedy search procedure.
  • “features that define the i-th smallest i-position pairwise coverage in sequence and maximize the i-th pairwise coverage of the smaller i. "A method of sequentially selecting" and the like can be considered.
  • step S112 quantification step, importance input step / process
  • weighting based on the importance may be given at the time of optimization (weighting step). /process).
  • equation (7) can be modified to the following equation (8).
  • w k indicates the importance of pairwise discrimination.
  • the calculation formula that reflects the importance of the class in pairwise based on the product is only an example, and the specific calculation formula for weighting may be another method to the same effect.
  • the set I i ⁇ k
  • the equivalence feature set is an overlapping feature set, and the inclusive feature set is a group of dependent features, and if only one representative feature is narrowed down, highly similar features can be excluded. Therefore, for example, the entire feature set F may be replaced with the similarity exclusion feature set as shown in the following equation (11).
  • the selection processing unit 104 may consider only one of the equivalence feature set or the inclusion feature set as the similarity, or may create another index. For example, a method of obtaining the vector distance between the feature quantities (distance between the discriminable vectors) and regarding those having a certain threshold value or less as similar feature quantities can be considered. In addition to the simple distance, an arbitrary distance or a metric value equivalent thereto may be introduced, such as normalizing the discriminability of a plurality of features and then calculating the distance.
  • the selection processing unit 104 lowers the selection priority (priority) of the feature amount for which the similar feature amount has already been selected at the time of the optimization search (priority setting step). Therefore, a method of determining the ease of selection may be used. Of course, a method of raising the selection priority (priority) of the feature amount having a low degree of similarity to the already selected feature amount (priority setting step) may be used.
  • FIG. 8 is a diagram showing a state in which pairwise deployment is partially suppressed.
  • classes T1, T2, ..., Tm are class groups (example: cancer tissue) that need to be discriminated between classes, and classes N1, N2, ..., Nn are "not T (cancer)". It is a class group (eg, normal tissue) that needs to be discriminated as "not a tissue” but does not need to be discriminated from each other.
  • the selection processing unit 104 is pairwise between classes T (eg, classes T1 and T2, classes T1 and T3, etc.) and between class T and class N (eg, classes T1 and N1, classes T1 and N2, etc.). Expand, but do not perform pairwise expansion between Class N.
  • classes T eg, classes T1 and T2, classes T1 and T3, etc.
  • class N eg, classes T1 and N1, classes T1 and N2, etc.
  • a special class unit called a subclass which does not need to be distinguished from each other, may be introduced (step S110: selection process, subclass setting process / process, second marking process / process).
  • Subclasses can be automatically configured from samples. However, since it is difficult to identify from a single feature amount, the selection processing unit 104 clusters (forms a cluster) the sample for each class by the total feature amount (given feature amount), and an appropriate number of clusters L (or the minimum cluster size).
  • a method of associating subclasses with clusters by separating them with n C) is conceivable. For example, as shown in the part (a) of FIG. 9, samples belonging to a certain class (here, class B) are clustered using all the features, and based on the result, the sample belongs to the part (b) of the figure. Divide into subclasses X and Y as shown.
  • the feature quantity i can be used to distinguish between class A and subclass Y of class B.
  • a class is accidentally divided into multiple subclasses, and in that case it is nonsense to forcibly consider it as a "subclass".
  • clustering may be performed by another method, and cluster criteria may be set in various ways.
  • class J is divided into ⁇ J 1 , J 2 , ..., J L ⁇ (second discriminant-free class group)
  • class C ⁇ 1,2, ..., J, ..., N ⁇
  • the class binomial relationship is replaced as in the following equation (14) by excluding pairs of subclasses that do not need to be discriminated, as in the previous section (second exclusion step).
  • the final class binary relation including C N in the previous section, is P 2 (C + C ) '-C .
  • the multi-class classification device 10 may execute only the steps of the feature amount selection method (feature amount selection method, feature amount selection process) to obtain a feature amount set used for the multi-class classification.
  • Multi-class classification method the processing (step S120: determination step, determination processing) performed by the class determination processing unit 114 (determination processing unit 110) will be described.
  • a configuration example class determination step, determination step) of a binary classifier (binary class discriminator) based on the selected feature amount (selected feature amount group, feature amount set) will be described.
  • a multi-class classifier multi-class discriminator is constructed from the binary class classifier by a two-step procedure of (1) round-robin match ranking and (2) final tournament match (linked to pairwise coupling).
  • An example (class determination step, determination step) of the method (configuring a multi-class discriminator using the feature quantity group selected by attaching) will be described.
  • the acquisition processing unit 112 acquires the feature amount value of the selected feature amount group (step S122: acquisition step, acquisition process).
  • the distribution is estimated from the training data to determine the significant difference (whether it is the state shown in part (a) or part (b) of FIG. 7), and if there is a "significant difference", a threshold value is set in advance. do.
  • the class determination processing unit 114 estimates the affiliation distribution (or whether or not there is affiliation) from the value of the feature amount when classifying the given sample only when "significantly different" is selected, and the following The determination switch state value is determined as in the equation (15) (step S124: class determination step).
  • the class judgment processing unit 114 (judgment processing unit 110) totals this to calculate the discrimination score r j (s, t), and further, the binary classifier as shown in the following equations (16) and (17).
  • B j (s, t) is configured (step S124: class determination step).
  • This class score indicates "how similar the unknown sample j is to class s". Further, the class determination processing unit 114 (determination processing unit 110) lists the discrimination candidate classes in descending order of the class score and creates a brute force match ranking G (step S124: class determination step). At the time of creation, replacement processing (replace with +1 if the class score is positive, leave ⁇ 0 if the class score is zero, and replace with -1 if the class score is negative) may be performed.
  • FIG. 10 is a diagram showing a state of creating a brute force match ranking.
  • the class determination processing unit 114 determines the code value of the discrimination score (formula (17)) for each class pair ( ⁇ A, B ⁇ , ⁇ A, C ⁇ , ...) As shown in the portion (a) of FIG. Sgn (r j (s, t))) is aggregated.
  • the code value of the discrimination score formula (17)
  • the class pair ⁇ A, B ⁇ , ⁇ A, C ⁇ , ...)
  • Sgn (r j (s, t)) is aggregated.
  • the sample is similar to A in classes A and B" (the larger the subtotal value and the absolute value, the higher the similarity).
  • the class determination processing unit 114 lists (ranks) the discrimination candidate classes from this total as shown in the portion (c) of FIG. In this example, the totals for classes D, N, and A are 10, 8 and 7, respectively, with class D in first place, class N in second place, and class A in third place.
  • the class determination processing unit 114 applies the binary class classifier again to the pairwise of the lower two classes from the g classes at the top of the list to determine the remaining wins, reduces the number of lists by one, and sequentially performs the same. Take the steps (finally, compare the G top class with the surviving class).
  • the class score is calculated for the classes N, A, which are the bottom two classes, and the winner (class N or A) remains.
  • the class score is calculated in the same way for the class D, which is the highest class in the round robin ranking, and the remaining class.
  • “how many places in the round robin ranking should be the target of the final tournament match (up to 3rd place in the example of FIG. 11)" is not particularly limited.
  • the above is an example of a classifier configuration, and various machine learning methods may be used in addition to this.
  • it may be basically a random forest configuration, in which only those for which the selected feature amount discrimination switch is effective are used in the decision tree in the middle (determination step).
  • the class determination processing unit 114 (determination processing unit 110) constitutes a decision tree that uses the selected feature amount group in association with each pairwise coupling, and combines one or more decision trees to form a multi-class.
  • a discriminator may be configured (step S124: class determination step). At this time, the class determination processing unit 114 may configure the multi-class discriminator as a random forest by combining the decision tree and the decision tree (step S124: class determination step).
  • the output processing unit 115 can output the input data, the above-mentioned processing conditions, the result, and the like according to the user's operation via the operation unit 400 or without the user's operation. For example, an input learning data set, a selected feature amount set, a round-robin match ranking, a final tournament match result, etc. are displayed on a display device such as a monitor 310, or stored in a storage device such as a storage unit 200, or a printer. It can be output by printing (not shown), etc. (output process, output processing; FIG. 16 will be described later).
  • Test data and examples> The inventor of the present application selected eight types of cancers to be diagnosed (colon cancer, stomach cancer, lung cancer, breast cancer, prostate cancer, pancreatic cancer, liver cancer, and cervical cancer). These cancers account for about 70% of Japanese cancers [Hori M, Matsuda T, et al., 2015] and are therefore considered suitable for early screening.
  • the total number of methylation measurements was 485,512 sites, but the total number was 291,847 sites, excluding those for which all sample values were unmeasurable (NA).
  • post-processed data such as normalization is used as it is.
  • the entire data set was mechanically divided into equal parts, one was used as the training data set and the other was used as the test data set.
  • the trial tasks set in this embodiment are as follows. i. Data set Approximately 5,000 samples prepared Allocation class (32 types in total): Cancer (8 types) or normal tissue (24 types) Feature (methylation site): Approximately 300,000 items ii. From the above half of the training data set, select up to 10 to 300 items of methylation sites (omics information, omics switch-like information) that can be used for discrimination in advance (in addition, subclass division, distribution parameter, etc.) Learn parameters) iii.
  • Feature selection method Shannon entropy criteria with methylation site research cases [Kadota, Koji, et al., 2006; Zhang, Yan, et al., 2011]
  • Multi-class classification Naive Bayes classifier (simple but known for its high performance [Zhang, Harry, 2004])
  • the average F value of the conventional method was 0.809
  • the average F value of the proposed method reached 0.953.
  • some lung cancer, pancreatic cancer, gastric cancer, etc. had an F value / sensitivity / goodness of fit of less than 0.8, but the proposed method achieved 0.8 or more in all items.
  • the conventional method showed an almost perfect average F value of 0.993 for the training data, and the accuracy of the test data was greatly reduced (difference 0.185), so it was found that overfitting occurred.
  • the decrease in the average F value was only 0.008.
  • the ability to discriminate pancreatic cancer was relatively low (F value 0.883) within the proposed method, but was relatively low (0.901) during learning. This proposed method suggests that the discrimination accuracy and tendency in the test data can be predicted to some extent at the stage of learning completion.
  • the discrimination ability is not sufficient with 10 feature selections, and at least 25 Multi-item measurement of ⁇ 100 items or more is required (Therefore, in such a multi-class classification problem with a large number of classes, the number of features (selected features) selected in the selection process (selection process) is 25 or more. It is preferable that the number is 50 or more, more preferably 50 or more, and most preferably 100 or more).
  • the discrimination procedure, comparative study class, and the feature amount on which it was relied are clear. Therefore, it is possible to trace back the discrimination result and easily confirm and explain the difference from the feature amount and the threshold value that are the basis. It can be said that it is an "explainable AI" that is particularly advantageous for application to medical diagnosis that requires a basis for discrimination.
  • FIG. 16 is a table showing an illustrated example of the basis for discrimination (extracted from the actual judgment transition in the test data).
  • the upper class and result of the classification result and the score are shown in the part (a) of FIG.
  • the sample was classified into “cancer tissue 1” and its score was 79, and the next similar was “cancer tissue 3" with a score of 76.
  • each class score R i (s) can be confirmed in 7 lines from the line of "cancer tissue 1" to the line of "normal tissue 1". Furthermore, in the three lines from the line “ ⁇ cancer tissue 1
  • the basis for discrimination can be confirmed and visualized by tracking the processing steps in the reverse order after classification (selection) and showing each score and the like.
  • the reliability of the final discrimination result can be estimated from the similar class score, discrimination score, or the like of other candidates.
  • the feature amount that is the basis it is possible to connect to the consideration after classification by its interpretation.
  • the relationship between the minimum F value and the minimum F value is shown in the graph of FIG. From this, it can be read that when the minimum number of covers is 0, almost no performance can be obtained, the minimum F value becomes 0.8 at around 5, the minimum F value becomes 0.8 at around 10, and 0.9 at around 60. That is, first, it can be seen that almost no performance can be achieved unless a feature set having a minimum number of covers of at least 1 is selected.
  • the detailed criteria for the F value actually required vary depending on the problem, but 0.80, 0.85, and 0.90 are easy-to-understand criteria, so it is valuable for a feature set with a minimum number of covers of 5 to 10 to 60 or more.
  • the number of coatings can be realized by the present invention with "a relatively small number of selected features (5 times or less of the presented minimum number of coatings). "Achieving" is especially valuable.
  • methylation site and biological tissue classification is just one specific example.
  • the method of the present invention is sufficiently generalized and can be applied to any feature selection and multi-class classification other than the biotechnology field. For example, when classifying people in an image (eg Asia, Oceania, North America, South America, Eastern Europe, Western Europe, Middle East, Africa), face size and shape, skin color, hair color, and / Alternatively, a feature amount can be selected by the method of the present invention from a large number of feature amounts such as the position, size, and shape of the eyes, nose, and mouth, and multi-class classification can be performed using the selected feature amounts. Further, the method of the present invention may be applied to feature quantity selection and classification of agricultural, forestry and fishery products, industrial products, or various statistical data.
  • Multi-class classification device 100 Processing unit 102 Input processing unit 104 Selection processing unit 106 Quantification processing unit 108 Optimization processing unit 110 Judgment processing unit 112 Acquisition processing unit 114 Class judgment processing unit 115 Output processing unit 116 CPU 118 ROM 120 RAM 200 Storage unit 300 Display unit 310 Monitor 400 Operation unit 410 Keyboard 420 Mouse NW network S100 to S124 Each process of multi-class classification method

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、特徴量を選択し、選択した特徴量の値に基づいてサンプルを複数のクラスのいずれかに分類するマルチクラス分類方法、マルチクラス分類プログラム、マルチクラス分類装置、並びにそのようなマルチクラス分類に用いる特徴量選択方法、特徴量選択装置、及び特徴量セットを提供することを目的とする。本発明では、特徴量選択を伴うマルチクラス分類問題を扱う。特徴量選択とは、サンプルが備える多数の特徴量のうち、後段の各処理(本発明では特にマルチクラス分類)のために必要な特徴量を、予め文字通り取捨選択する方法である。マルチクラス分類とは、与えられた未知サンプルが複数クラスのいずれかに属するかを決定する判別問題である。

Description

特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット
 本発明は、特徴量を選択し、選択した特徴量の値に基づいてサンプルを複数のクラスのいずれかに分類するマルチクラス分類方法、マルチクラス分類プログラム、マルチクラス分類装置、並びにそのようなマルチクラス分類に用いる特徴量選択方法、特徴量選択装置、及び特徴量セットに関する。
 昨今、機械学習の産業分野への応用や展開が進展しているが、特徴選択およびマルチクラス分類は、依然として大きな課題である。様々な特徴選択の方法が存在するが、クラスのペアワイズ・カップリングに注目する事例が提案されている(下記「非特許文献1」を参照)。非特許文献1に記載の技術は、具体的には、基本的なクラス分類がクラス数2個の「バイナリクラス分類」であることに注目し、クラスのペアワイズ・カップリングを取って、特徴量の判別能に注目、選択する方法である。
 また、マルチクラス分類の手法としては、例えば2クラス判別を繰り返すOVO方式(One-Versus-One)が知られている。
 また、例えばバイオ分野においても、がん等を対象に、特徴選択及びマルチクラス分類の手法が盛んに研究されてきた。概ね、一般的な機械学習手法の応用であり、例えば、t検定や情報ゲイン等による特徴選択の手法、SVM(Support Vector Machine)、ランダムフォレスト、ナイーブベイズ等による分類手法が適用されている。このような技術は、例えば特許文献1に記載されている。
"Feature selection for multi-class classification using pairwise class discriminatory measure and covering concept", Hyeon Ji他, ELECTRONICS LETTERS, 16th March 2000, vol.36, No.6, p.524-525
特表2012-505453号公報
 非特許文献1に記載の研究は特徴選択のみに留まっていて、後段のマルチクラス分類では既存の方法をそのまま使っている。また、本発明について後述するような、集合被覆問題への拡張は明示されていない。そして、ロバストな特徴量を選択するための特徴量間の独立性の検証等はなされておらず、さらに、基本的なマルチクラス分類のみを想定しており、判別不要クラス等々も導入されていない。そのため、拡張的マルチクラス分類にそのまま適用するのは難しかった。同様に、特許文献1に記載の技術においても、判別に必要な遺伝子群を集合被覆問題として精査することは考慮されていない。
 また、2クラス判別を繰り返してマルチクラス分類を行う手法のうち、投票法では「上位の順位付けは信用できない」という問題が指摘されている。また、トーナメント階層法では「比較順序の決定が難しい」という問題が指摘されている。
 バイオ分野での特徴量選択及びマルチクラス分類の場合、報告の多いmRNA発現量ベースの事例では、「扱うクラス数が10程度に達すると精度が落ちる」という課題があった。例えば、変異情報に基づいてマルチクラスがん分類器を開発した報告の一つでは、F値0.70を超えて判別できたがんは5種という結果であった。DNAメチル化に基づく特徴選択及びマルチクラス分類も研究されてきた。しかし、適用クラスが少数の小規模なサンプルサイズのトライアルに留まっていた。
 昨今は、深層学習を応用した研究も見られるが、そもそも、オミクスデータの劣決定性によって学習が巧く進まず(パラメータ数に対してサンプルサイズが小さい;メチル化サイトが数十万箇所存在するのに対して、入手可能な腫瘍レコードはオープンデータでも1万個未満)、仮に成功しても、例えば診断用途等では、判別の理由を明確化できないために受け入れられにくいという課題がある。
 このように、従来の技術は、複数の特徴量を有するサンプルを、選択した一部の特徴量の値に基づいて、複数のクラスのいずれかにロバストかつ高精度に分類できるものではなかった。
 本発明はこのような事情に鑑みてなされたもので、複数の特徴量を有するサンプルを、選択した一部の特徴量の値に基づいて、複数のクラスのいずれかにロバストかつ高精度に分類することができるマルチクラス分類方法、マルチクラス分類プログラム、マルチクラス分類装置を提供することを目的とする。また、本発明は、そのようなマルチクラス分類に用いる特徴量選択方法、特徴量選択装置、及び特徴量セットを提供することを目的とする。
 本発明の第1の態様に係る特徴量選択方法は、サンプルが2個以上のN個のクラスのいずれに属するかを判定するために用いる特徴量群を選択する特徴量選択方法であって、対象となる与クラスに属する既知サンプル群と、既知サンプル群の特徴量群と、により構成される学習データセットを入力する入力工程と、学習データセットに基づいて、属するクラスが未知である未知サンプルについてのクラス判定に必要な特徴量群を前記特徴量群から選択する選択工程と、を有し、選択工程は、N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による2個のクラス間の判別可能性を、学習データセットによって定量化する定量化工程と、定量化した判別可能性をペアワイズ・カップリングの全てについて集計し、集計の結果を最適化する特徴量群の組み合わせを選択する最適化工程と、を有する。
 第2の態様に係る特徴量選択方法は第1の態様において、選択工程は、与クラスのうち一部を、互いに判別の必要がない第1の判別不要クラス群としてマークする第1のマーキング工程と、展開するペアワイズ・カップリングから、マークされた第1の判別不要クラス群どうしのペアワイズ・カップリングを除外する第1の除外工程と、をさらに有する。
 第3の態様に係る特徴量選択方法は第1または第2の態様において、選択工程は、各特徴量の各ペアワイズ・カップリングに対する判別可能性に基づき、特徴量間の類似性を評価する類似性評価工程と、類似性の評価結果に基づき、選択すべき特徴量の優先度を設定する優先度設定工程と、を有する。
 第4の態様に係る特徴量選択方法は第3の態様において、類似性は、各ペアワイズ・カップリングに対する判別可能性の重複関係及び/または包含関係である。
 第5の態様に係る特徴量選択方法は第3または第4の態様において、類似性は、各ペアワイズ・カップリングに対する判別可能性ベクトル間の距離または距離に準じるメトリック値である。
 第6の態様に係る特徴量選択方法は第1から第5の態様のいずれか1つにおいて、選択工程における特徴量の選択個数Mを入力する選択個数入力工程をさらに有し、最適化は、M個の選択特徴量による、全ペアワイズ・カップリング内の集計値の最小値の最大化である。
 第7の態様に係る特徴量選択方法は第1から第6の態様のいずれか1つにおいて、クラスまたはペアワイズ判別の重要性を入力する重要性入力工程と、集計の際に、重要性に基づいた重み付けを与える重み付け付与工程と、をさらに有する。
 第8の態様に係る特徴量選択方法は第1から第7の態様のいずれか1つにおいて、選択工程で選択される特徴量の個数が25個以上である。
 第9の態様に係る特徴量選択方法は第8の態様において、選択工程で選択される特徴量の個数が50個以上である。
 第10の態様に係る特徴量選択方法は第9の態様において、選択工程で選択される特徴量の個数が100個以上である。
 本発明の第11の態様に係る特徴量選択プログラムは、第1から第10の態様のいずれか1つに係る特徴量選択方法をコンピュータに実行させる。
 本発明の第12の態様に係るマルチクラス分類方法は、Nが2以上の整数である場合に、サンプルを、前記サンプルの特徴量から、N個のクラスのいずれに属するかを判定するマルチクラス分類方法であって、第1から第10の態様のいずれか1つに係る特徴量選択方法を用いて実行される入力工程及び選択工程と、選択した特徴量群に基づいて未知サンプルについてのクラス判定を行う判定工程であって、選択した特徴量群の特徴量値を取得する取得工程と、取得した特徴量値に基づいてクラス判定を行うクラス判定工程と、を有する判定工程と、を有し、判定工程では、ペアワイズ・カップリングに紐付けて選択した特徴量群を利用するマルチクラス判別器を構成することで、未知サンプルについての前記クラス判定を行う。
 図1は、本発明の第12の態様が扱う、特徴量選択を伴うマルチクラス分類問題の模式図である。特徴選択(STEP1)とは、サンプルが備える多数の特徴量のうち、後段の各処理(本発明では特にマルチクラス分類)のために必要な特徴量を、予め文字通り取捨選択する方法(第1から第10の態様のいずれか1つに係る特徴量選択方法)である。すなわち、予め一定のデータセット(いわゆる学習データセット)において、多数の特徴量を取得しておいて、その情報に基づき、後段の各処理に必要な特徴量(特徴量セット)を選別する。そして、実際に(未知の)サンプルが与えられたとき、予め選択しておいた少数の特徴量(特徴量セット)のみを参照し、マルチクラス分類する。なお、このとき、学習データセットのみで選択した特徴量によって未知サンプルを分類するので、当然、特徴量はロバストであることが望ましい。
 特徴選択は、特にサンプルの特徴量を参照(取得、保存等含む)するのにコスト(時間、費用等含む)を要する場合に有用である。したがって例えば、学習データの特徴量を参照する手段と、未知サンプルの特徴量を参照する手段は異なってもよく、少数の特徴量を選択した上で、それに適した特徴量取得手段を開発、準備しても構わない。
 一方、マルチクラス分類(STEP2)とは、与えられた未知サンプルが複数クラスのいずれかに属するかを決定する判別問題であり、機械学習では一般的な問題である。ただし、現実のマルチクラス分類の多くは、単純にN個のクラスの1つを選ぶ問題とは限らない。例えば、実際には複数クラスが存在していても、その判別自体が不要な場合がある。逆に例えば、ある1クラスとラベル付けされているサンプルセットの中に、様相の異なる複数のサンプル群が混在している場合もある。このような複雑な拡張的マルチクラス分類に耐える方法であることが望ましい。
 最も単純な特徴選択の方法として、候補となる多数の特徴量からの少数特徴量の全選び方を学習データセットで評価するというものも考えられるが、学習データセットに対して過学習になる危険性があること、候補数が膨大で評価し切れないことから、何らかの枠組みが必須となる。
 本発明の第1の態様(特徴選択を伴うマルチクラス分類)をバイオ分野に適用した例を示す。がんや体組織には、それぞれ固有のDNAメチル化パターンが存在する。また、ヒトの血液中には、体組織から遊離したDNA(Cell Free DNA: cfDNA)が混入しており、特に、がん由来のcfDNAも検出されている。そこで、cfDNAのメチル化パターンを解析すれば、がん有無の判定、さらに、がんが存在する場合は原発巣の特定が可能になる。すなわち、採血による早期がんスクリーニング検査、適切な精密検査への誘導が実現する。
 そのため、DNAメチル化パターンから、「がんであるか、非がんであるか」及び由来組織を判別する問題は極めて重要である。これは、がんを血液や正常組織から判別するマルチクラス分類問題として定義できる。しかし、ヒトの臓器が多種(例えば主要がん8種、正常組織20種以上)に及ぶこと、がんにはサブタイプが存在していて同じ臓器のがんでも相互に様相の異なるものがあることから、難しい分類問題といえる。
 その上、スクリーニング検査に供する想定から、計測コストを抑制したいので、メチル化サイトを網羅的に計測する高価なアレイをそのまま利用することはできない。したがって、数十万箇所以上のDNAメチル化サイトから、判別に必要な少数サイトを事前に絞り込まなければならない、すなわち、前段に特徴選択が必要である。
 そこで、膨大なDNAメチル化サイトから少数を絞り込み、その少数サイトに基づき、がんを正常組織から判別して由来組織まで特定できるような、特徴選択及びマルチクラス分類の手法を構築する技術(本発明で提案する方法)が有用である。なお、DNAメチル化サイト例えば30万箇所から、例えば300箇所を選択する場合の数は、10の1,000乗を超えるので、網羅的な探索方法は使えないことがわかる。
 そこで本願発明者は、ロバストな判別に資するスイッチのように機能するDNAメチル化サイトを列挙し、かつ、必要なクラスのペアワイズ判別を十分に被覆するような組み合わせ探索に基づく特徴選択手法を提案する。さらに、選択サイトのうちロバストな判別部位のみを用いて、シンプルなバイナリ分類器から、トーナメント階層法と併せてマルチクラス分類器を構成する手法を提案する。
 これにより、現実問題の様々な特性を織り込んだ特徴選択を伴うマルチクラス分類に対応できる。実際、例えば上述したがん診断についての例に見られるような、がんと正常とを合わせて10クラスを大きく超えるようなマルチクラス分類に適用可能である。本願発明者の提案する特徴量選択及びマルチクラス分類手法は産業上、極めて有用である。
 なお、本説明は具体的事例の1つであり、本発明の第12の態様はバイオ分野のみに適用可能であるわけではない。実際、一般的な機械学習技術の多くがバイオ分野にも適用可能であったように、バイオ分野で開発された技術が一般的な機械学習問題に適用されても差し障りはない。
 第13の態様に係るマルチクラス分類方法は第12の態様において、定量化工程では、ペアワイズ・カップリングされたクラス間の学習データセットにおける特徴量の統計的な有意差を利用する。
 第14の態様に係るマルチクラス分類方法は第12または第13の態様において、定量化工程では、学習データセットを参照して設定した閾値のもと、ペアワイズ・カップリングされたクラスのいずれかに属する未知サンプルの特徴量が与えられたとき、与えられた特徴量によって未知サンプルが所属するクラスを正しく判別できる確率を利用する。
 第15の態様に係るマルチクラス分類方法は第12から第14の態様のいずれか1つにおいて、定量化工程において、判別可能性の定量化値が、統計的確率値を、特徴量個数によって多重検定補正した値である。
 第16の態様に係るマルチクラス分類方法は第12から第15の態様のいずれか1つにおいて、学習データセットから、クラスに属する1つ以上のサンプルを与特徴量に基づいてクラスタリングすることでクラスターを形成し、形成した各クラスターを各クラス内のサブクラスに設定するサブクラス設定工程と、各クラス内の各サブクラスを、各クラス内において互いに判別の必要がない第2の判別不要クラス群とマークする第2のマーキング工程と、展開するペアワイズ・カップリングから、マークされた第2の判別不要クラス群どうしのペアワイズ・カップリングの展開を除外する第2の除外工程と、をさらに有する。
 第17の態様に係るマルチクラス分類方法は第12から第16の態様のいずれか1つにおいて、集計は、判別可能性の定量値の合計値または平均値の計算である。
 第18の態様に係るマルチクラス分類方法は第12から第17の態様のいずれか1つにおいて、集計の結果を示す集計値の目標閾値Tを入力する目標閾値入力工程をさらに有し、最適化は、選択特徴量による、全ペアワイズ・カップリング内の集計値の最小値を目標閾値T以上にすることである。
 第19の態様に係るマルチクラス分類方法は第12から第18の態様のいずれか1つにおいて、判定工程では、各ペアワイズ・カップリングに紐付けて選択特徴量群を利用するバイナリクラス判別器を各々構成し、バイナリクラス判別器を組み合わせて、マルチクラス判別器を構成する。
 第20の態様に係るマルチクラス分類方法は第12から第19の態様のいずれか1つにおいて、バイナリクラス判別器によってサンプルと各クラスとの類似度を評価する工程と、類似度に基づいて、マルチクラス判別器を構成する工程と、をさらに有する。
 第21の態様に係るマルチクラス分類方法は第12から第20の態様のいずれか1つにおいて、バイナリクラス判別器によってサンプルと各クラスとの類似度を評価する工程と、類似度が上位のクラス間に、クラス間において類似度の評価に用いたバイナリクラス判別器を改めて適用することでマルチクラス判別器を構成する工程と、をさらに有する。
 第22の態様に係るマルチクラス分類方法は第12から第21の態様のいずれか1つにおいて、判定工程では、各ペアワイズ・カップリングに紐付けて選択特徴量群を利用する決定木を構成し、決定木を1つ以上組み合わせて、マルチクラス判別器を構成する。
 第23の態様に係るマルチクラス分類方法は第22の態様において、判定工程では、決定木および決定木の組み合わせによってランダムフォレストとしてマルチクラス判別器を構成する。
 第24の態様に係るマルチクラス分類方法は第12から第23の態様のいずれか1つにおいて、生体組織片のオミクス情報を計測することで、生体組織片が属するクラスをN個のクラスから判定する。
 第25の態様に係るマルチクラス分類方法は第12から第24の態様のいずれか1つにおいて、生体組織片のオミクスのスイッチ様情報を計測することで、生体組織片が属するクラスをN個のクラスから判定する。
 第26の態様に係るマルチクラス分類方法は第12から第25の態様のいずれか1つにおいて、判別すべきクラスの個数が10個以上である。
 第27の態様に係るマルチクラス分類方法は第26の態様において、判別すべきクラスの個数が25個以上である。
 本発明の第28の態様に係るマルチクラス分類プログラムは、第12から第27の態様のいずれか1つに係るマルチクラス分類方法をコンピュータに実行させる。なお、第28の態様に係るプログラムのコンピュータ読み取り可能なコードを記録した非一時的記録媒体も、本発明の態様として挙げることができる。
 本発明の第29の態様に係る特徴量選択装置は、サンプルが2個以上のN個のクラスのいずれに属するかを判定するために用いる特徴量群を選択する特徴量選択装置であって、第1のプロセッサを備え、第1のプロセッサは、対象となる与クラスに属する既知サンプル群と、既知サンプル群の特徴量群と、により構成される学習データセットを入力する入力処理と、学習データセットに基づいて、属するクラスが未知である未知サンプルについてのクラス判定に必要な特徴量群を特徴量群から選択する選択処理と、を行い、選択処理は、N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による2個のクラス間の判別可能性を、学習データセットによって定量化する定量化処理と、定量化した判別可能性をペアワイズ・カップリングの全てについて集計し、集計の結果を最適化する特徴量群の組み合わせを選択する最適化処理と、を有する。
 本発明の第30の態様に係るマルチクラス分類装置は、Nが2以上の整数である場合に、サンプルを、前記サンプルの特徴量から、N個のクラスのいずれに属するかを判定するマルチクラス分類装置であって、第29の態様に係る特徴量選択装置と、第2のプロセッサと、を備え、第2のプロセッサは、特徴量選択装置を用いた入力処理及び選択処理と、選択した特徴量群に基づいて未知サンプルについてのクラス判定を行う判定処理であって、選択した特徴量群の特徴量値を取得する取得処理と、取得した特徴量値に基づいてクラス判定を行うクラス判定処理と、を有する判定処理と、を行い、判定処理では、ペアワイズ・カップリングに紐付けて選択した特徴量群を利用するマルチクラス判別器を構成することで、未知サンプルについての前記クラス判定を行う。
 本発明の第31の態様に係る特徴量セットは、マルチクラス分類装置が、サンプルが2個以上のN個のクラスのいずれに属するかを判定するために用いる特徴量セットであって、対象となる各クラスに属するサンプルの特徴量データセットを備え、N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による2個のクラス間の判別可能性を特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも1つの特徴量で判別可能とマークされている。
 第32の態様に係る特徴量セットは第31の態様において、N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による2個のクラス間の判別可能性を特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも5以上の特徴量で判別可能とマークされている。
 第33の態様に係る特徴量セットは第31の態様において、N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による2個のクラス間の判別可能性を特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも10以上の特徴量で判別可能とマークされている。
 第34の態様に係る特徴量セットは第31の態様において、N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による2個のクラス間の判別可能性を特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも60以上の特徴量で判別可能とマークされている。
 第35の態様に係る特徴量セットは第31から第34の態様のいずれか1つにおいて、選択されている特徴量の個数が、提示されている最小被覆数の5倍以下である。
 第36の態様に係る特徴量セットは第31から第35の態様のいずれか1つにおいて、判別すべきクラスの個数が10個以上である。
 第37の態様に係る特徴量セットは第36の態様において、判別すべきクラスの個数が25個以上である。
 第38の態様に係る特徴量セットは第31から第37の態様のいずれか1つにおいて、選択される特徴量の個数が25個以上である。
 第39の態様に係る特徴量セットは第38の態様において、選択される特徴量の個数が50個以上である。
 第40の態様に係る特徴量セットは第39の態様において、選択される特徴量の個数が100個以上である。
図1は、特徴量選択を伴うマルチクラス分類問題を示す模式図である。 図2は、マルチクラス分類装置の構成を示す図である。 図3は、処理部の構成を示す図である。 図4は、マルチクラス分類方法の処理を示すフローチャートである。 図5は、スイッチ的な特徴量による分類の様子を示す図である。 図6は、判別スイッチ値のマトリクスを示す図である。 図7は、判別スイッチ値/状態値の決定の様子を示す図である。 図8は、判別不要クラス間でのペアワイズ展開の除外を示す図である。 図9は、サブクラス導入の様子を示す図である。 図10は、総当たりランキング作成の様子を示す図である。 図11は、決勝トーナメントマッチの様子を示す図である。 図12は、データセットの詳細な内訳を示す図である。 図13は、本発明と従来法の判別精度の比較結果を示す図である。 図14は、本発明と従来法のロバスト性の比較結果を示す図である。 図15は、選択特徴量の個数と判別精度(F値)の関係を示す図である。 図16は、判別根拠の図示例を示す表である。 図17は、選択特徴量の個数と最小被覆数との関係を示す図である。 図18は、最小被覆数と最小F値との関係を示す表である。
 以下、添付図面を参照しつつ、本発明に係る特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セットの実施形態について詳細に説明する。
 <第1の実施形態>
 <マルチクラス分類装置の概略構成>
 図2は第1の実施形態に係るマルチクラス分類装置の概略構成を示す図である。図2に示すように、第1の実施形態に係るマルチクラス分類装置10(特徴量選択装置、マルチクラス分類装置)は、処理部100(第1のプロセッサ、第2のプロセッサ)と、記憶部200と、表示部300と、操作部400と、を備え、互いに接続されて必要な情報が送受信される。これらの構成要素については各種の設置形態を採用することができ、各構成要素が1箇所(1筐体内、1室内等)に設置されていてもよいし、離れた場所に設置されネットワークを介して接続されていてもよい。また、マルチクラス分類装置10(入力処理部102;図3を参照)は、インターネット等のネットワークNWを介して外部サーバ500及び外部データベース510に接続し、必要に応じてマルチクラス分類用のサンプル、学習データセット、特徴量セット等の情報を取得することができる。
 <処理部の構成>
 図3に示すように、処理部100は、入力処理部102、選択処理部104、判定処理部110、CPU116(CPU:Central Processing Unit)、ROM118(ROM:Read Only Memory)、RAM120(RAM:Random Access Memory)を備える。入力処理部102は、記憶部200から、またはネットワーク上の記憶装置から、属するクラスが既知である既知サンプル群と、既知サンプル群の特徴量群と、により構成される学習データセットを入力する入力処理を行うものである。選択処理部104は、入力した学習データセットに基づいて、属するクラスが未知である未知サンプルについてのクラス判定に必要な特徴量群を特徴量群から選択する選択処理を行うものであり、定量化処理部106と最適化処理部108とを備える。判定処理部110は、選択した特徴量群に基づいて未知サンプルについてのクラス判定を行う(判定処理)ものであり、取得処理部112とクラス判定処理部114とを備える。出力処理部115は、処理条件や処理結果を表示、記憶、印刷等により出力する。なお、これら各部による処理はCPU116(第1のプロセッサ、第2のプロセッサ)の制御下で行われる。
 上述した処理部100の各部の機能は、各種のプロセッサ(processor)及び記録媒体を用いて実現することができる。各種のプロセッサには、例えばソフトウェア(プログラム)を実行して各種の機能を実現する汎用的なプロセッサであるCPU(Central Processing Unit)が含まれる。また、上述した各種のプロセッサには、画像処理に特化したプロセッサであるGPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)も含まれる。画像の学習や認識を行う場合は、GPUを用いた構成が効果的である。さらに、ASIC(Application Specific Integrated Circuit)などの、特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路も、上述した各種のプロセッサに含まれる。
 各部の機能は1つのプロセッサにより実現されてもよいし、同種または異種の複数のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ、またはCPUとGPUの組み合わせ)で実現されてもよい。また、複数の機能を1つのプロセッサで実現してもよい。複数の機能を1つのプロセッサで構成する例としては、第1に、コンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の機能として実現する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、システム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の機能は、ハードウェア的な構造として、上述した各種のプロセッサを1つ以上用いて構成される。さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。これらの電気回路は、論理和、論理積、論理否定、排他的論理和、及びこれらを組み合わせた論理演算を用いて上述した機能を実現する電気回路であってもよい。
 上述したプロセッサあるいは電気回路がソフトウェア(プログラム)を実行する際は、実行するソフトウェアのコンピュータ(例えば、処理部100を構成する各種のプロセッサや電気回路、及び/またはそれらの組み合わせ)で読み取り可能なコードをROM118等の非一時的記録媒体に記憶しておき、コンピュータがそのソフトウェアを参照する。非一時的記録媒体に記憶しておくソフトウェアは、本発明に係る特徴量選択方法及び/またはマルチクラス分類方法を実行するためのプログラム(特徴量選択プログラム、マルチクラス分類プログラム)及び実行に際して用いられるデータ(学習データの取得に関するデータ、特徴量選択及びクラス判定に用いられるデータ等)を含む。ROM118ではなく各種の光磁気記録装置、半導体メモリ等の非一時的記録媒体にコードを記録してもよい。ソフトウェアを用いた処理の際には例えばRAM120が一時的記憶領域として用いられ、また例えば不図示のEEPROM(Electronically Erasable and Programmable Read Only Memory)に記憶されたデータを参照することもできる。「非一時的記録媒体」として記憶部200を用いてもよい。
 上述した構成の処理部100による処理の詳細は後述する。
 <記憶部の構成>
 記憶部200はハードディスク、半導体メモリ等の各種記憶デバイス及びその制御部により構成され、上述した学習セット、選択処理やクラス判定処理の実行条件及びその結果、特徴量セット等を記憶することができる。特徴量セットとは、マルチクラス分類装置10が、サンプルが2個以上のN個(Nは2以上の整数)のクラスのいずれに属するかを判定するために用いる特徴量セットであって、対象となる各クラスに属するサンプルの特徴量データセットを備え、N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による2個のクラス間の判別可能性を特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも1つの特徴量で判別可能とマークされている特徴量セットである。この特徴量セットは、本発明の特徴量選択方法(特徴量選択装置)における入力工程(入力処理)及び選択工程(選択処理)により生成することができる。また、この特徴量セットは、少なくとも5以上の特徴量で判別可能とマークされていることが好ましく、少なくとも10以上の特徴量で判別可能とマークされていることがさらに好ましく、少なくとも60以上の特徴量で判別可能とマークされていることがいっそう好ましい。また、この特徴量セットは、判別すべきクラスの個数が10個以上である場合に効果的であり、25個以上である場合にさらに効果的である。また、選択される特徴量の個数が50個以上である場合に効果的であり、100個以上である場合にさらに効果的である。
 <表示部の構成>
 表示部300は液晶ディスプレイ等のディスプレイにより構成されるモニタ310(表示装置)を備え、取得した学習データや、選択処理及び/またはクラス判定処理の結果を表示することができる。モニタ310をタッチパネル型のディスプレイにより構成し、ユーザの指示入力を受け付けてもよい。
 <操作部の構成>
 操作部400はキーボード410及びマウス420を備え、ユーザは、操作部400を介して本発明に係るマルチクラス分類方法の実行、結果表示等に関する操作を行うことができる。
 <1.特徴量選択方法及びマルチクラス分類方法の処理>
 図4は、本発明の特徴量選択方法及びマルチクラス分類方法の基本的な処理を示すフローチャートである。本発明の特徴量選択方法は、サンプルが2個以上のN個のクラスのいずれに属するかを判定するために用いる特徴量群を選択する特徴量選択方法である。また、本発明のマルチクラス分類方法は、Nが2以上の整数である場合に、サンプルを、サンプルの特徴量から、N個のクラスのいずれに属するかを判定するマルチクラス分類方法であり、対象となる与クラスに属する既知サンプル群と、既知サンプル群の特徴量群と、により構成される学習データセットを入力する入力工程(ステップS100)と、学習データセットに基づいて、属するクラスが未知である未知サンプルについてのクラス判定に必要な特徴量群を特徴量群から選択する選択工程(ステップS110)と、選択した特徴量群に基づいて未知サンプルについてのクラス判定を行う判定工程(ステップS120)であって、選択した特徴量群の特徴量値を取得する取得工程(ステップS122)と、取得した特徴量値に基づいてクラス判定を行うクラス判定工程(ステップS124)と、を有する判定工程と、を有する。
 選択工程は、N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による2個のクラス間の判別可能性を、学習データセットによって定量化する定量化工程(ステップS112)と、定量化した判別可能性をペアワイズ・カップリングの全てについて集計し、集計の結果を最適化する特徴量群の組み合わせを選択する最適化工程(ステップS114)と、を有する。また、判定工程では、ペアワイズ・カップリングに紐付けて選択した特徴量群を利用するマルチクラス判別器を構成することで、未知サンプルについてのクラス判定を行う。
 <2.本発明の基本方針>
 本発明が特に好適なのは、バイナリ値に近い特性をもつ特徴量を取捨選択する場合であり、そういった特徴量が「スイッチ」のように組み合わせられることにより、クラスを決定付けている場合である。つまり特徴量に線形または非線形に量的に結合するのではない場合だが、これは必ずしもシンプルというわけではなく、スイッチが多数ある場合は十分に複雑な問題となる。したがって、本発明は、「スイッチ的機能を持つ多数の特徴量の組み合わせを探索及び選択し、シンプルな分類器によってマルチクラス分類器を構成する」という方針に基づく。
 図5は、上述した「スイッチ的機能を持つ特徴量」について説明する図である。図5の(a)部分は特徴量X'及び特徴量Y'に基づいてクラス分類する様子を示しており、複雑かつ非線形な分類となっている。これに対し図5の(b)部分は特徴量X及び特徴量Yに基づいてクラス分類する様子を示しており、単純かつ線形な分類となっている。高精度かつ高ロバストなクラス分類の観点からは、同図の(b)部分のようなスイッチ的機能を持つ特徴量を選択することが好ましい。
 なお、学習データセットが与えられていて、どのサンプルにも、共通する複数の特徴量(例:メチル化サイト)の値(なお、値として一部に「欠損値」が含まれていてもよい:以降NAと表記)と、1つの正解クラスラベル(例:がんまたは非がん、及び組織分類)とが付与されている(入力処理部102による学習データセット入力(入力工程、入力処理:ステップS100)がなされている)ものとする。
 また、ここでは説明を簡単にするため、上記の前提を置いたが、サンプルの一部に正解クラスラベルが与えられていない場合、いわゆる半教師あり学習を取り込むようにしてもよい。公知の方法との組合せとなるため簡単に代表的な処理例を2つ示す。(1)前処理として、正解クラスラベルを与えられたサンプルとのデータ比較に基づき、正解クラスラベルを与えられていないサンプルに、何らかのクラスラベルを与えるという方法、(2)いったんクラスラベルが与えられたデータで学習した上で、他の未知サンプルの所属クラスを推定し、その確度が高いものを「正解ラベル」とみなし、改めて学習データを増やして学習していくといったサイクルを回す方法、等を併用することができる。
 <2.1 特徴量の選択方法>
 本節では、選択処理部104(定量化処理部106、最適化処理部108)による特徴量の選択(ステップS110:選択工程)を説明する。最初に、本発明における特徴量徴選択(選択工程、選択処理)の原理を、単純化した場合で説明する。以降、順次拡張する方法を説明していく。最後に、拡張をすべて取り込んだ特徴量選択の手順をまとめる。なお、本節で言及する特徴量は、当然ながら、すべて学習データのものを指す。
 <2.2 特徴量選択の原理:集合被覆問題への帰着>
 はじめに、マルチクラス分類のための特徴量選択(選択工程)の原理を説明する。本項では簡単のため、同じクラスに属するサンプルは全特徴量の値が完全一致し、その特徴量はバイナリ(0or1)の確定値を取るものとする。
 クラスsの特徴量iの値をXi (s)とすると、「選択特徴集合fによってクラスsとtとを判別できる」とは、いずれかの特徴量が異なること、つまり、以下の式(1)を満たすことである。
Figure JPOXMLDOC01-appb-M000001
 よって、与クラスC={1,2,…,N}すべてを互いに判別できる必要十分条件は、以下の式(2)を満たすことである。
Figure JPOXMLDOC01-appb-M000002
 ここで、クラス二項関係をペアワイズ展開し、二項組合せにおけるペアk={s,t}∈P2(C)に対してクラスsとtのバイナリ特徴量iの排他的論理和Yi (k)(以下の式(3)を参照)を導入し、「判別スイッチ」と呼ぶ(図5)。
Figure JPOXMLDOC01-appb-M000003
 図6は、判別スイッチ算出の様子を示す図である。図6の(a)部分は、クラスA,B,Cについてのバイナリ特徴量#1~#5の値(値は0か1;バイナリ特徴量値)を示す表であり、同図の(b)部分はクラスA,B,Cをペアワイズ展開してペア{A,B},{A,C},{B,C}ができた様子を示している。図6の(c)部分は、各ペアについてのバイナリ特徴量の排他的論理和(値は0か1;判別スイッチ値)を示している。例えば、ペア{A,B}に関し特徴量#1の判別スイッチ値は0であり、これは「特徴量#1では、ペア{A,B}を判別できない(サンプルがクラスA、Bのいずれに属するかを判別できない)」ということを意味している。これに対し、例えばペア{A,B}に関し特徴量#2の判別スイッチ値は1であるから、「特徴量#2の値により、ペア{A,B}を判別できる」ことが分かる。
 以上より、与クラスCすべてを互いに判別できる必要十分条件は、以下の式(4)のように書き換えられる。
Figure JPOXMLDOC01-appb-M000004
すなわち、全特徴集合をFとすれば、マルチクラス分類のための特徴量選択は、上記式を満たす部分集合f⊆Fを選択する集合被覆問題に帰着できる。
 なお、「集合被覆問題」とは、例えば「集合Uと、Uの冪集合の部分集合Sが与えられたとき、Uの全要素を少なくとも1回含む(=被覆する)ように、S の部分集合を選ぶ問題」と定義することができる(他の定義も可能である)。
 ここで、特徴量iに対するスイッチ集合I={k|Yi (k)=1}は、クラスの二項組合せP2(C)の部分集合である。よって、全特徴集合Fに対応するI={Ii|i∈F}は、その集合族、P2(C)の冪集合の部分集合である。つまり、本問は「P2(C)の冪集合の部分集合I(Fに対応)が与えられたとき、P2(C)のすべての要素を少なくとも1回含むように、Iの部分集合(fに対応)を選ぶ問題」であり、すなわち集合被覆問題とみなせる。具体的には、ペアワイズ展開した全てのペアについて、判別スイッチ値が少なくとも1つ“1”となるような特徴量(及び/またはその組合せ)を選択する必要がある。図6のケースでは「特徴量#2,#4」、「特徴量#3,#4」、または「特徴量#2,#3,#4」を選択すればよい。なお、特徴量の値がNAの場合、ペアワイズとなる判別スイッチ値は自動的にゼロとする。
 <2.3 排他的論理和を判別可能性の定量値で代替>
 ここで、特徴量が元よりバイナリ値であれば、特徴量やその代表値(中央値等)をそのまま判別可能性とみなしても構わない。ただし一般には、特徴量はバイナリ値とは限らず、同じクラスに属するサンプルであっても様々な値に揺らぎ得る。そこで、定量化処理部106(選択処理部104)は、学習データセットの特徴量に基づき、判別スイッチ値(排他的論理和)を判別可能性の定量値(定量化値)で代替するのが望ましい。
 まず、定量化処理部106は、クラスsに属するサンプルの、特徴量iの計測値群から、クラスsかつ特徴量iの分布母数θi (s)及び分布D(θi (s))を推定する(ステップS112:定量化工程)。分布や分布母数から判別可能性を定量化するのが特に望ましい。なお、特徴量の値がNAのサンプルについては、前記定量処理から除外する等すればよい。もちろん、すべてのサンプルがNAであれば、その特徴量は当然使えないことになる。
 例えば、定量化処理部106は、ペアワイズの母数θi (s)とθi (t)との有意差の有無を統計検定に掛け、p値を求めることができ、具体的には、ウェルチのt検定を用いることができる。ウェルチのt検定は正規分布を仮定するもので汎用的に適用可能な方法である(イメージとして、sとtの特徴量分布が図7の(a)部分と(b)部分とのいずれかに近いかによって有意差を判定する)。もちろん、特徴量の持つ統計的性質、または観測結果や解析結果に基づき、適時、適切な分布及び対応する統計検定法を採用して構わない。
 図7は判別スイッチ値及び状態値の決定イメージを示す図である。図7の(a)部分は特徴量をペアワイズ{A,B}の判別に利用する場合であり、定量化処理部106は、学習データから閾値(図中の2本の縦線の位置の値)を予め設定し、対象サンプルの計測値から判別スイッチ状態値を決定する(ステップS112:定量化工程)。計測値が分布A側に属すれば状態値+1、B側なら同-1、保留域なら同0となる。一方、図7の(b)部分は、特徴量をペアワイズ{A,B}の判別に、そもそも利用しない場合である(Yi ({A,B})=0)。
 ただし、特徴量候補は特に多数存在する場合、全特徴集合Fで判定を繰り返すと多重比較検定に陥ってしまう。そこで、定量化処理部106は、同じペアワイズk={s,t}について得られたp値群を、いわゆるq値群に補正することが望ましい(ステップS112:定量化工程)。多重検定補正の方法は、例えばBonferroni法やBH法[Benjamini, Y., and Y. Hochberg, 1995]等があり、より望ましいのは後者のいわゆるFDR(False Discovery Rate)に補正する方法だが、それに限らない。
 定量化処理部106は、以下の式(5)のように、得られたq値と予め定めた基準値αとを比べ、判別スイッチに0または1を割り振る(特に、判別スイッチが1の場合を“マークされている”と呼ぶ)。
Figure JPOXMLDOC01-appb-M000005
 なお、上記は集合被覆問題の拡張という立場から判別スイッチを離散化かつバイナリ化したが、例えば1-qに設定する等、連続変数を扱うようにしても構わない。
 さらに、p値やq値は統計的差であって、サンプルを判別できる確率ではないので、定量化処理部106はさらに、学習データセットを参照して設定した適当な閾値のもと、ペアワイズ・カップリングされたクラスのいずれかに属する未知サンプルの特徴量が与えられたとき、その特徴量によって所属クラスを正しく判別できる確率によって定量化してもよい。また、定量化処理部106は、そのような統計的確率値を特徴量個数によって多重検定補正してもよい。
 また、統計検定に関わる基準だけではなく、例えば平均値が一定の差をもつこと等の基準値等を追加あるいは代替としてもよい。もちろん、基準には、平均値や標準偏差以外の各種統計量を用いても構わない。
 <2.4 集合被覆問題を最小ペアワイズ被覆数最大化等の最適化問題に拡張>
 特徴量は確率変数の場合、判別スイッチがマークされていても、確実に対応ペアワイズを判別できるとは限らない。したがって、集合被覆問題を拡張することが望ましい。
 そこで、定量化処理部106(選択処理部104)は、以下の式(6)のように、判別冗長性をペアワイズ被覆数Zf (k)として、個々の判別可能性の定量値を集計する(集計値として合計値を計算;ステップS112、定量化工程)。
Figure JPOXMLDOC01-appb-M000006
 Zf (k)の定義は式(6)に示すものに限らない。例えば、連続変数版の-Yi (k)に対して、全ての判別に失敗する確率として(1-Yi (k))の積として定義してもよいし、ある適当な閾値Uを用いて、少なくともU個の判別に成功する確率をYi (k)から算出してもよい。また、個々の判別可能性の平均値を計算してもよい。このように、集計の方法は種々考えられる。
 次に、最適化処理部108(選択処理部104)は、「判別のボトルネックを可能な限り低減するのが望ましい」という立場から、選択すべき特徴量の個数をmとして、例えば以下の式(7)により、特徴量選択問題を最小ペアワイズ被覆数の最大化問題に改めて帰着できる(ステップS114:最適化工程、最適化処理)。
Figure JPOXMLDOC01-appb-M000007
 上記は、特徴量の選択個数が決まった場合(特徴量の選択個数Mが入力された場合、すなわち選択個数入力工程/処理が行われた場合)の帰着例である。逆に、最適化処理部108(選択処理部104)は、最小ペアワイズ被覆数(判別可能性の集計値の最小値)に閾値(目標閾値T)を設定して(目標閾値入力工程/処理)、その閾値を充足するように特徴量を選択してもよい(ステップS114:最適化工程/処理、選択工程/処理)。この場合、もちろん、選択する特徴量の個数はより少ない方が望ましく、最小であることが特に好ましい。
 あるいはこの両者を組み合わせるなど、最適化の方法についても種々考えらえる。
 集合被覆問題は盛んに研究されている分野なので、様々な解法が存在している。これを拡張した最小被覆数の最大化問題も、ほぼ同様の手順で対応できよう。ただし、一般にはNP完全問題(NP-complete problem)なので、厳密解を求めるのは容易ではない。
 したがって、もちろん厳密解を求めて文字通り、最小ペアワイズ被覆数の最大化問題や、設定被覆数を最少特徴量で達成する問題を解くのが望ましいが、最適化処理部108(選択処理部104)は、ヒューリスティックな手法で、被覆数をなるべく大きくしたり、選択特徴量の個数をなるべく小さくしたり、ローカルミニマムを求める方法を用いても構わない。
 具体的には例えば、最適化処理部108(選択処理部104)は、単純なグリーディ探索手順を採用してもよい。現に選ばれている特徴集合の最小ペアワイズ被覆数の他に、「順次i番目に小さい第i位ペアワイズ被覆数を定義し、より小さなiの第i位ペアワイズ被覆数を最大化するような特徴量を順次選択していく方法」などが考えられる。
 さらに、クラスまたはペアワイズ判別の重要性を入力し(ステップS112:定量化工程、重要性入力工程/処理)、最適化の際に、その重要性に基づいた重み付けを与えてもよい(重み付け付与工程/処理)。例えば、上述した式(7)を以下の式(8)に修正することができる。
Figure JPOXMLDOC01-appb-M000008
 ここでwkは、ペアワイズ判別の重要性を示す。あるいはクラスの重要性を指定し、wk=wswt等とし、クラスの重要性に基づいてペアワイズの重要性を決めるようにしてもよい。なお、もちろん、クラスの重要性を積に基づいてペアワイズに反映させる計算式は一例に過ぎないし、重み付けの具体的な計算式は、同趣旨の別方法にしても構わない。
 具体的には例えば、病態組織の判別において、疾患Aと疾患Bとの判別が特に重要で、一方、疾患Bと疾患Cとの判別が重要でない場合、wk={A,B}に大きい値を設定し、wk={B,C}に小さい値を設定することが望ましい。これによって、例えば疾患Aの早期発見が特に重要な一方で疾患Bと症状が似ているような事例、疾患B及び疾患Cの早期発見が重要でなく互いに大きな症状の違いがあるような事例に、適切な特徴量選択やクラス分類(診断)の方法を提供することができるようになる。
 <2.5 類似特徴量の排除>
 一般に、判別対象クラス全体で近しい値を取るような、類似性(類似度)の高い特徴量は、相関が高いため、判別のロバスト性を考えると重複選択を避けることが望ましい。また、前項で述べた最適化の探索は、|F|が低減できた方が効率化できるので、最適化処理部108(選択処理部104)は、類似性の評価結果に基づいて考慮すべき特徴量を予め絞り込む(ステップS110:選択工程/処理、類似性評価工程/処理、優先度設定工程/処理)ことが望ましい。実際、例えばメチル化サイトは数十万個以上となる。
 ここで、特徴量iに対してYi (k)=1となるkの集合Ii={k|Yi (k)=1}を「スイッチ集合」と呼ぶ。このスイッチ集合から、特徴量の類似性(あるいは類似度)、すなわち特徴量の同値関係(重複関係)及び包含関係を考えることができる。
 特徴量iに対して、Ii=Ilなるすべてのlを集め、以下の式(9)のように同値特徴集合Uiを作る。また、Ii⊃Ilなるすべてのlを集め、式(10)のように包含特徴集合Hiを作る。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 同値特徴集合は重複的な、包含特徴集合は従属的な特徴量を各々グループ化したもので、代表特徴量1つに絞れば、類似性の高い特徴量を排除できる。そこで、例えば全特徴集合Fを類似排除特徴集合 で以下の式(11)のように置き換えてもよい。
Figure JPOXMLDOC01-appb-M000011
 選択処理部104は、もちろん、類似性として同値特徴集合または包含特徴集合の片方のみを考慮してもよいし、他の指標を作ってもよい。例えば、特徴量間のベクトル距離(判別可能性ベクトル間の距離)を求め、ある閾値以下のものを類似特徴量とみなす方法なども考えられる。単純な距離以外にも、複数の特徴量の判別可能性を正規化してから距離を計算する等、任意の距離またはそれに準じるメトリック値を導入しても構わない。
 さらに、上記では絞り込みを実施したが、選択処理部104は、最適化探索する際に、既に類似特徴量が選択されている特徴量の選択優先順位(優先度)を下げる(優先度設定工程)ことで、選択されやすさを決定する方法を用いても構わない。もちろん、既に選択されている特徴量との類似度が低い特徴量の選択優先順位(優先度)を上げる(優先度設定工程)方法でもよい。
 <2.6 相互に判別不要なペアワイズ(クラス集合)の導入>
 クラス二項関係は、与クラス数Nに対して|P2(C)|=NC2通りに及ぶ。これは単純にクラスの全二項関係を取ったものだが、実用上は判別不要なペアワイズが存在していることがある。
 例えば、がん診断問題を想定する場合(後述する実施例を参照)、がん組織間の判別、及びがん組織と正常組織との判別は必須だが、正常組織間の判別は不要である。
 そこで、選択処理部104は、クラス二項関係のペアワイズ展開を一部抑止してもよい。すなわち、判別必須のクラス集合CTと、判別不要のクラス集合CN(第1の判別不要クラス群)とによって、与クラスC={c|c∈CT,CN} を分割し、CTとCTとの間、及びCTとCNとの間は考慮する(ペアワイズ展開する)一方、クラス二項関係からCN同士のペアを除外する(ステップS110:選択工程、第1のマーキング工程/処理、第1の除外工程/処理)。つまり、選択処理部104は、以下の式(12)によりP2(C)'を算出し、これまでのP2(C)をP2(C)'で置き換える。
Figure JPOXMLDOC01-appb-M000012
 なお、このような分割やマークは、2つ以上存在しても構わない。
 図8はペアワイズ展開を一部抑止する様子を示す図である。図8の例では、クラスT1,T2,…,Tmはクラス間での判別が必要なクラス群(例:がん組織)であり、クラスN1,N2,…,Nnは「Tでない(がん組織でない)」との判別は必要であるが互いの判別は不要なクラス群(例:正常組織)である。
 この場合、選択処理部104は、クラスT間(例:クラスT1とT2、クラスT1とT3等)及びクラスTとクラスNの間(例:クラスT1とN1、クラスT1とN2等)ではペアワイズ展開を行うが、クラスN間ではペアワイズ展開を行わない。
 <2.7 サンプルのクラスタリングからサブクラスを導入>
 サンプルに正解クラスラベルが付与されていても、名目上は同一クラスのサンプルに、実際には様相の異なる複数グループが混在していることがある。名目クラスを判別できれば十分であっても、特徴量が同一の分布母数に従うとは限らなくなるので、判別スイッチを正しく付与できなくなってしまう。
 例えば、がんにもサブタイプが存在していて、同じ臓器のがんであっても、相互に様相の異なるものがある [Holm, Karolina, et al., 2010]。ただし、スクリーニング検査への適用(精密検査と併用)を想定する場合は、サブタイプの判別は不要である。
 そこで、サブタイプに対応させるため、サブクラスと呼ぶ、互いに判別不要な特殊なクラス単位を導入してもよい(ステップS110:選択工程、サブクラス設定工程/処理、第2のマーキング工程/処理)。
 サブクラスは、サンプルから自動構成できる。ただし、単一特徴量からは同定しにくいので、選択処理部104がクラスごとにサンプルを全特徴量(与特徴量)によってクラスタリング(クラスターを形成)し、適当なクラスター数L(または最小クラスターサイズnC)で区切って、クラスターにサブクラスを対応させる方法が考えられる。例えば、図9の(a)部分に示すように、あるクラス(ここでは、クラスB)に所属するサンプルを全特徴量を用いてクラスタリングし、その結果に基づいて同図の(b)部分に示すようにサブクラスX,Yに分割する。この例では、クラスBをサブクラスX,Yに分割すれば、特徴量iを用いて、クラスAとクラスBのサブクラスYとを判別できる。ただし、あるクラスが複数のサブクラスに偶然に分かれている場合もあって、その場合無理に「サブクラス」とみなすのはナンセンスである。
 なお、クラスタリング方法は種々存在するので、別の方法によってクラスタリングしても構わないし、クラスターの基準も様々に定めてよい。
 例えば、クラスJが分割されて{J1,J2,…,JL}(第2の判別不要クラス群)となれば、与クラスC={1,2,…,J,…,N}は以下の式(13)のように拡張できる。
Figure JPOXMLDOC01-appb-M000013
 クラス二項関係は、前項と同様に、判別不要なサブクラス同士のペアを除外して、以下の式(14)のように置き換えられる(第2の除外工程)。
Figure JPOXMLDOC01-appb-M000014
 なお、前項CNを含めて順次適用した、最終的なクラス二項関係をP2(C+C)'-Cとする。
 <2.8 特徴選択法の手順まとめ>
 本願発明者が提案する特徴選択法(選択処理部104による選択工程、選択処理)の手順をまとめる。
(i)与クラス集合Cのうち、判別不要のクラス集合CNを設定する。
(ii)サンプルをクラス毎に全特徴量でクラスタリングし、得られた各クラスターをサブクラスに対応させる(サブクラスは互いに判別不要な特殊なクラスである)。
(iii)判別不要なものを除いた、判別対象となる全クラス二項関係のペアワイズ展開P2(C+C)'-Cを定める。
(iv)各クラスの所属サンプルから分布母数を推定、特徴量 の、クラスペアk={s,t}間における有意差を統計検定により判定し、判別スイッチYi (k={s,t})に0/1を割り振る。
(v)判別スイッチから、同値特徴量集合及び包含特徴量集合を構成して、類似排除特徴集合F'を作る。
(vi)判別対象クラスのペアワイズ展開P2(C+C)'-C全体に対して、判別スイッチ和から求めたペアワイズ被覆数Zf (k)の最小値を最大化するような、特徴集合f(特徴量セット)をF'から選択する。
 ただし、上記i~viはすべてを網羅した一例であり、必ずしも上記の全てを実施する必要はなく、部分的に非採用とする手順があっても構わない。また勿論、各項で明記または示唆した代替方法で構成してもよい。なお、マルチクラス分類装置10は、特徴量選択方法の工程(特徴量選択方法、特徴量選択処理)のみを実行して、マルチクラス分類に用いる特徴量セットを得てもよい。
 <3.マルチクラス分類の方法>
 本節では、クラス判定処理部114(判定処理部110)が行う処理(ステップS120:判定工程、判定処理)について説明する。最初に、選択した特徴量(選択特徴量群、特徴量セット)によるバイナリクラス分類器(バイナリクラス判別器)の構成例(クラス判定工程、判定工程)を説明する。次いで、そのバイナリクラス分類器から、(1)総当たりマッチランキング、(2)決勝トーナメントマッチの二段階の手順により、マルチクラス分類器(マルチクラス判別器)を構成する(ペアワイズ・カップリングに紐付けて選択した特徴量群を利用するマルチクラス判別器を構成する)方法の一例(クラス判定工程、判定工程)を説明する。
 <3.1 バイナリクラス分類器の構成>
 ペアワイズ判別に資する特徴量が選択されていることを活用したい。そのため、判別スイッチがマークされたペアワイズと特徴量の組み合わせのみから、バイナリクラス分類器を構成する(各ペアワイズ・カップリングに紐付けて選択特徴量群を利用するバイナリクラス判別器を各々構成する)ことができる。なお、クラス分類に際し、取得処理部112は、選択した特徴量群の特徴量値を取得する(ステップS122:取得工程、取得処理)。
 例えば、クラス判定処理部114(判定処理部110)は、与サンプルj(所属クラス未知)、選択特徴量iの、クラスペアワイズ{s,t}に対する判別スイッチ状態yi (k=(s,t),j)を、学習分布と比して決定できる(ステップS124:クラス判定工程、図7を参照)。最初に学習データから分布を推定して有意差(図7の(a)部分に示す状態か、(b)部分に示す状態か)を判断し、「有意差あり」の場合は予め閾値を設定する。そしてクラス判定処理部114は、「有意差あり」が選択された場合に限り、与サンプルを分類するときに、特徴量の値から所属分布(あるいは所属がないか)を推定して、以下の式(15)のように判別スイッチ状態値を決定する(ステップS124:クラス判定工程)。
Figure JPOXMLDOC01-appb-M000015
 なお、上式における「?」は、サンプルxの所属クラスが未知であることを示す。また、サンプルの特徴量の値がNAの場合は、yを0とする。
 クラス判定処理部114(判定処理部110)は、これを集計して判別スコアrj(s,t)を計算し、さらに、以下の式(16)、(17)のようにバイナリクラス分類器Bj(s,t)を構成する(ステップS124:クラス判定工程)。
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
 <3.2 マルチクラス分類の手順(1):総当たりマッチランキング>
 クラス判定処理部114(判定処理部110)は、上述した判別スコア(ただし、判別スイッチの個数を正規化するため、その符号値を取ることが望ましい)をさらに総計して、以下の式(18)のようにクラススコア(ペアスコア)を計算できる(ステップS124:クラス判定工程)。
Figure JPOXMLDOC01-appb-M000018
 このクラススコアは、「未知サンプルjがクラスsにどのくらい類似しているか」を示す。さらに、クラス判定処理部114(判定処理部110)は、このクラススコアの大きな順に判別候補クラスをリスト化して、総当たりマッチランキングGを作成する(ステップS124:クラス判定工程)。作成の際に、置換処理(クラススコアが正なら+1に置き換え、ゼロなら±0のままとし、負なら-1に置き換える)を行ってもよい。
 図10は総当たりマッチランキング作成の様子を示す図である。まず、クラス判定処理部114は、図10の(a)部分に示すように、各クラスペア({A,B},{A,C},…)について判別スコアの符号値(式(17)のsgn(r(s,t)))を集計する。例えば、クラスペア{A,B}については、「サンプルは、特徴量#1の値から考えるとクラスAに類似しており(符号値=+1)、特徴量#2の値から考えるとクラスA,Bのどちらともいえず(符号値=0)…」となり、小計は24である。したがって、「サンプルは、クラスA,BのうちではAに類似している」といえる(小計値が正で絶対値が大きいほど類似度が高い)。また、クラスペア{A,C}については、「サンプルは、特徴量#3の値から考えるとクラスCに類似しており(符号値=-1)、特徴量#4の値から考えるとクラスAに類似しており(符号値=+1)…」となり、小計は-2である。したがって、「サンプルは、クラスA,Cのいずれにも類似していない(あるいは、ややクラスCに類似している)」といえる。
 このようにして全クラスペアについて小計を算出すると、図10の(b)部分に示すような結果が得られる。例えば{A,*}は「クラスAと他の全クラスとの比較結果」であり、上述した置き換え後のスコアの合計は7である。同様に、クラスDについての合計は10である。そして、クラス判定処理部114は、この合計から、図10の(c)部分に示すように判別候補クラスをリスト化(順位付け)する。この例ではクラスD,N,Aについての合計がそれぞれ10,8,7であり、クラスDが1位、クラスNが2位、クラスAが3位である。
 <3.3 マルチクラス分類の手順(2):決勝トーナメントマッチ>
 本問を含むマルチクラス分類では、類似クラス間の判別が性能のボトルネックになることが多い。そこで本発明では、類似クラス間を含め、全ペアワイズが判別可能な特徴量群(特徴量セット)を選択している。
 これに対して、上述した総当たりマッチランキングGは、最上位近くに類似性の高いクラスが集まることが期待されるものの、クラススコアの大部分はランキング下位クラスとの比較で決まったものである。つまり、最上位近くの順位付け(図10の例では、クラスD,N,A間の順位付け)は必ずしも信頼できない。
 そこで、クラス判定処理部114(判定処理部110)は、以下の式(19)のように、最終的な判別クラスを、総当たりマッチランキングの上位クラスg個の変則トーナメントマッチTに基づき決定することができる(ステップS124:クラス判定工程)。
Figure JPOXMLDOC01-appb-M000019
 すなわち、クラス判定処理部114は、リスト上位のg個のクラスから、下位2クラスのペアワイズに対して改めてバイナリクラス分類器を適用して勝ち残りを決め、リスト個数を1個ずつ減らして順次同様の手順を取る(最終的に、G最上位クラスと勝ち残りクラスとを比較する)。
 例えば、図11に示すように、リスト上位の3個のクラス(クラスD,N,A)から、下位2クラスであるクラスN,Aに対してクラススコアを計算して勝ち残り(クラスNまたはA)を決め、総当たりランキングの最上位クラスであるクラスDと勝ち残りクラスとで同様にクラススコアを計算する。なお、「総当たりランキングの何位までを決勝トーナメントマッチの対象とするか(図11の例では3位まで)」は特に限定されない。
 <3.4 その他のマルチクラス分類器の構成>
 なお、上記は分類器構成の一例であって、これ以外に、様々な機械学習方法を流用しても構わない。例えば、基本的にはランダムフォレストの構成で、途中の決定木において、選択特徴量の判別スイッチが有効なもののみを用いる(判定工程)、といった構成でもよい。具体的には、クラス判定処理部114(判定処理部110)は、各ペアワイズ・カップリングに紐付けて選択特徴量群を利用する決定木を構成し、決定木を1つ以上組み合わせてマルチクラス判別器を構成してもよい(ステップS124:クラス判定工程)。クラス判定処理部114は、この際、決定木および決定木の組み合わせによってランダムフォレストとしてマルチクラス判別器を構成してもよい(ステップS124:クラス判定工程)。
 <4.出力>
 出力処理部115は、操作部400を介したユーザの操作に応じて、またはユーザの操作によらずに、入力したデータや上述した処理の条件、結果等を出力することができる。例えば、入力した学習データセット、選択された特徴量セット、総当たりマッチランキングや決勝トーナメントマッチの結果等を、モニタ310等の表示装置に表示させる、記憶部200等の記憶装置に記憶させる、プリンタ(不図示)で印刷する、等により出力することができる(出力工程、出力処理;図16について後述)。
 <5.テストデータと実施例>
 本願発明者は、診断対象のがんとして8種(大腸がん、胃がん、肺がん、乳がん、前立腺がん、膵がん、肝がん、子宮頸がん)を選んだ。これらのがんは、日本人がん罹患の約70 %を占める [Hori M, Matsuda T, et al., 2015]ため、早期スクリーニング検査の対象に適切と考えた。
 また、正常組織は血液に流出し得るもの全てを網羅する必要があるので、上記8種のがんに対応する臓器の他、血液、腎臓、甲状腺等、考えられる計24種を列挙した。
 フィージビリティ・スタディとしての位置付けで、抽出細胞塊(生体組織片)の判別を想定してメチル化サイトの計測値を載せるオープンデータ計5,110サンプルを収集した(図12)。
 がん腫瘍および正常臓器(血液除く)は、“The Cancer Genome Atlas”(TCGA) [Tomczak, Katarzyna, et al., 2015]の登録データから4,378サンプルを収集した。また、血液は、732サンプルを収集した [Johansson, Asa, Stefan Enroth, and Ulf Gyllensten, 2013]。
 サンプルの所属クラス(がんと非がんの区別を含む由来組織)は、すべて登録アノテーション情報にしたがって付与した。
 また、メチル化計測値は、合計485,512サイトあったが、全サンプル値が計測不能(NA)だったものを除くと、全部で291,847サイトになった。なお、上記登録データのうち、正規化等の後処理済のものをそのまま採用している。
 さらに、全データセットを機械的に等分し、1つを学習データセット、もう1つをテストデータセットとして利用した。
 本実施例で設定したトライアル課題は次のようになる。
i.データセット約5,000サンプルを準備
 割当クラス(計32):がん(8種)or 正常組織(24種)
 特徴量(メチル化サイト):約30万項目
ii.上記の半分の学習データセットから、判別に利用可能なメチル化サイト(オミクス情報、オミクスのスイッチ様情報)を最大10~300項目、事前に選択(併せてサブクラス分割や分布母数等のパラメータを学習)
iii.(特に残り半分のテストデータセットから)与サンプルの判別問題に(1サンプルずつ独立に)回答
 入力:サンプルの選択メチル化サイト計測値(iiの選択に対応する最大300項目)
 出力:推定クラス=「がん+由来組織(8種から選択)」または「非がん(1種のみ)」の9つから選択
 なお、実施例では、提案法(本発明の方法)と比較する従来法として、以下の方法を採用した。
 ・特徴選択法:メチル化サイト研究事例のあるシャノンエントロピー基準 [Kadota, Koji, et al., 2006; Zhang, Yan, et al., 2011]
 ・マルチクラス分類法:ナイーブベイズ分類器(単純だが高性能と知られている [Zhang, Harry, 2004])
 <5.1 提案法と従来法の比較結果>
 <5.1.1 テストデータの判別精度>
 学習データで学習し、277個のサイト(オミクス情報、オミクスのスイッチ様情報)を選択して、テストデータの判別精度を確認し、提案法(本発明のマルチクラス分類方法)を従来法と比較した(図13)。その結果、提案法が全項目で判別精度が高いことを示した。
 従来法の平均F値は0.809だったのに対して、提案法の平均F値は0.953に達した。また、従来法では、肺がん、膵がん、胃がん等で、F値/感度/適合度が0.8未満に留まるものがあったが、提案法では全項目で0.8以上を達成した。
 <5.1.2 判別のロバスト性>
 判別のロバスト性を、前項での学習とテストの間の平均F値差によって確認し、提案法を従来法と比較した(図14)。結果、提案法のロバスト性が優れていること(F値低下0.008)を示した。
 従来法では学習データに対してほぼ完璧な平均F値0.993を示し、テストデータで精度が大きく低下(差分0.185)したため、過学習に陥っていることがわかった。
 一方、提案法では、平均F値の低下が0.008に留まった。また、膵がんの判別能は、提案法内では相対的に低い値(F値0.883)だが、学習時においても相対的に低い値(同0.901)であった。本提案法では、学習完了の段階で、テストデータにおける判別精度及び傾向を、ある程度予見できることを示唆している。
 <5.1.3 選択特徴個数と判別精度との関係>
 選択される特徴量の個数と判別精度(F値)との関係を確認した(図15)。結果、50~100個の選択で判別精度が顕著に向上し、150~300個では飽和する傾向にあることがわかった。
 したがって、特にcfDNAのメチル化パターンから、「がんであるか、非がんであるか」及び由来組織を判別するがん診断問題では、10個の特徴量選択では判別能が十分でなく、少なくとも25~100項目以上の多項目計測が必要(したがって、このようなクラス数の大きいマルチクラス分類問題においては、選択工程(選択処理)で選択する特徴量(選択特徴量群)の個数は25個以上であることが好ましく、50個以上であることがさらに好ましく、100個以上であることが最も好ましい)なことを示している。
 <5.1.4 類似特徴量の排除、判別不要ペアワイズの導入>
 提案法では、類似特徴量を選択しないようにしている(類似性評価工程、類似性評価処理)。また、判別不要ペアワイズを導入している。
 有効なメチル化サイト(本問の特徴量)は全部で291,847個あるが、そのうち、59,052個の類似特徴(同値関係、包含関係)を特定し、対象外として削減できた(20.2 %減)。また、元々 の32クラスをサンプル・クラスタリングにより89クラスに分割したので、単純なペアワイズ総数は4,005通りに上った。このうち、551通りの正常組織間とがんサブクラスとの間の対象外ペアワイズを削減できた(13.8 %減)。
 併せて、探索空間を31.2 %削減できたことになる。類似特徴量を排除し、判別不要ペアワイズを導入することで、判別スイッチ組合せ探索を効率化していることを確認できた。
 <5.1.5 サブクラス分割>
 提案法では、サンプル・クラスタリングを導入して、与クラスを内部的にサブクラスに分割している。判別不要ペアワイズとの組合せも重要なため、両者併せた効果を確認した。
 比較のため、サブクラス分割なし、特徴選択の判別不要ペアワイズ導入なし、他は同様手順のトライアルを実施した。結果、がん組織に限定しても、判別の正解率が元々の95.9 %から85.6 %に低下した(正常組織は分割なしで24種に上るので、特にサブクラス分割の効果確認のため、がん組織に限定して比較した)。
 サブクラス分割及び判別不要ペアワイズの導入によって、高精度な判別を実現できていることを確認できた。
 <5.1.6 決勝トーナメントマッチの併用>
 提案法では、マルチクラス分類において、総当たりマッチランキング(本項では1位のクラスを「予選トップクラス」と呼ぶ)と、決勝トーナメントマッチとを併用している。
 テストデータ2,555件のうち、予選トップクラスが正解クラスと一致しなかった事例は278件あった。そのうち、決勝トーナメントマッチによって正しい判別へと訂正できた事例は162件だった。一方、逆の事例は19件であった(予選トップクラスは正解クラスと一致していたが、決勝トーナメントマッチにより誤った判別へと変更された)。
 すなわち、決勝トーナメントマッチの併用によって、予選トップクラスの判別誤りを差し引き51.4 %訂正でき、全体正解率を5.6 %改善できた。ペアワイズ判別によるバイナリクラス分類器の性能を巧く引き出す構成になっていることを確認できた。
 提案法では、判別の手順、比較検討クラス、依拠した特徴量が明確である。そのため、判別結果を遡り、根拠となった特徴量や閾値との差等を容易に確認、説明できる。特に判別根拠を求められる医療診断への適用に有利な、「説明できるAI」といえる。
 図16は、判別根拠の図示例(テストデータでの実際の判定推移を抜粋したもの)を示す表である。図16の(a)部分に、分類結果の上位クラス及び結果、並びにスコアを示す。同図の例では、サンプルは「がん組織1」に分類され、そのスコアが79だったこと、次に類似していたのが「がん組織3」でスコア76だったことが分かる。
 同様に、「がん組織1」の行から「正常組織1」の行までの7行で、各クラススコアRi(s)を確認できる。さらに、「<がん組織1|がん組織3>」の行から「<がん組織1|がん組織5>」の行までの3行で、各クラスペアワイズの判別スコアrj(s,t)を確認できる。
 また、図16の(b)部分に示す表では、「選択特徴量(表中ではマーカーと記載)一覧が各判別スコアにどのように寄与しているのか」の一覧を確認できる。もちろん、さらに、図7の(a)部分のような学習データの分布図に加え、各サンプルの値を図上にプロットする等の可視化を付け加えても構わない。
 このように、提案法(本発明)によれば、分類(選択)後に、処理ステップを逆順に追跡し、各スコア等を図示することで、判別根拠を確認及び可視化できる。これによって、最終判別結果の信頼度を他候補の類似クラススコアや判別スコア等によって推し量ることができる。また、根拠となった特徴量を特定することで、その解釈によって分類後の考察に繋げることもできる。
 <選択特徴量の個数と最小被覆数との関係>
 上記実施例における、選択特徴量の個数と最小被覆数
Figure JPOXMLDOC01-appb-M000020
の関係を図17のグラフに示す。ここでは、傾きが概ね1/5の直線的関係が得られており、がん8クラス/正常24クラスで、しかも内部的なサブクラス分割を伴うような、高度なマルチクラス分類問題に対して、概ね選択5個ごとに、それら全てのクラス判別を被覆するような特徴量セットを選択できていることを意味している。すなわち、本発明で開示された方法の、特徴選択を集合被覆問題への帰着し、拡張することによる効果が大きいこと、マルチクラス分類問題において、効率的に最小被覆数を向上可能であることが示されている。また、図17より、得られた特徴量セットを微調整することで、全体の特徴量のごく一部、具体的には必要な最小被覆数の5倍以下で高い判別能を示す特徴量セットを創り出すことができ、そのような少ない個数で最小被覆数を充足している特徴量セットに大きな価値があることがわかる。
 <最小被覆数と最小F値との関係>
 選択特徴量セットにおける最小被覆数
Figure JPOXMLDOC01-appb-M000021
と最小F値(判別対象クラスのうち、テストデータにおける判別能F値の最小値)との関係を図18のグラフに示す。これから、最小被覆数が0の場合はほとんど性能が出せないこと、同5前後で最小F値が0.8になり、同10前後で0.85になり、同60前後で0.9になること、が読み取れる。すなわち、まず、最小被覆数が少なくとも1以上の特徴量セットを選択しないとほとんど性能を出せないことがわかる。また、実際に求められるF値の詳細基準はもちろん問題によって様々であるが、0.80、0.85、0.90はわかりやすい基準のため、最小被覆数が5ないし10ないし60以上となるような特徴量セットに価値があることがわかる。前項(選択特徴量の個数と最小被覆数との関係)と併せて、本発明により実現できる「比較的少ない選択特徴量の個数(提示されている最小被覆数の5倍以下)で、被覆数を達成すること」は特に価値がある。
 なお、上述した「メチル化サイトと生体組織分類」についての実施例は、あくまでも具体的事例の1つである。本発明の手法は十分に一般化されており、バイオ分野以外の任意の特徴量選択及びマルチクラス分類に適用することができる。例えば、画像に写った人物をクラス分類(例えば、アジア、オセアニア、北米、南米、東欧、西欧、中近東、アフリカ)する際に、顔の大きさや形、肌の色、髪の色、及び/または目、鼻、口、の位置、大きさ、形等の多数の特徴量から本発明の手法により特徴量を選択し、選択した特徴量を用いてマルチクラス分類を行うことができる。また、本発明の手法を農林漁業生産物や工業製品、あるいは各種の統計データについての特徴量選択及びクラス分類に適用してもよい。
 以上で本発明の実施形態及び他の例に関して説明してきたが、本発明は上述した態様に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能である。
10  マルチクラス分類装置
100 処理部
102 入力処理部
104 選択処理部
106 定量化処理部
108 最適化処理部
110 判定処理部
112 取得処理部
114 クラス判定処理部
115 出力処理部
116 CPU
118 ROM
120 RAM
200 記憶部
300 表示部
310 モニタ
400 操作部
410 キーボード
420 マウス
NW  ネットワーク
S100~S124 マルチクラス分類方法の各処理

Claims (42)

  1.  サンプルが2個以上のN個のクラスのいずれに属するかを判定するために用いる特徴量群を選択する特徴量選択方法であって、
     対象となる与クラスに属する既知サンプル群と、前記既知サンプル群の特徴量群と、により構成される学習データセットを入力する入力工程と、
     前記学習データセットに基づいて、属するクラスが未知である未知サンプルについてのクラス判定に必要な特徴量群を前記特徴量群から選択する選択工程と、
     を有し、
     前記選択工程は、
     前記N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、前記選択した特徴量群の各特徴量による前記2個のクラス間の判別可能性を、前記学習データセットによって定量化する定量化工程と、
     前記定量化した前記判別可能性を前記ペアワイズ・カップリングの全てについて集計し、前記集計の結果を最適化する特徴量群の組み合わせを選択する最適化工程と、
     を有する特徴量選択方法。
  2.  前記選択工程は、
     前記与クラスのうち一部を、互いに判別の必要がない第1の判別不要クラス群としてマークする第1のマーキング工程と、
     展開するペアワイズ・カップリングから、前記マークされた前記第1の判別不要クラス群どうしの前記ペアワイズ・カップリングを除外する第1の除外工程と、
     をさらに有する請求項1に記載の特徴量選択方法。
  3.  前記選択工程は、
     各特徴量の各ペアワイズ・カップリングに対する判別可能性に基づき、特徴量間の類似性を評価する類似性評価工程と、
     前記類似性の評価結果に基づき、選択すべき特徴量の優先度を設定する優先度設定工程と、
     を有する請求項1または2に記載の特徴量選択方法。
  4.  前記類似性が、各ペアワイズ・カップリングに対する判別可能性の重複関係及び/または包含関係である請求項3に記載の特徴量選択方法。
  5.  前記類似性が、各ペアワイズ・カップリングに対する判別可能性ベクトル間の距離または前記距離に準じるメトリック値である請求項3または4に記載の特徴量選択方法。
  6.  前記選択工程における特徴量の選択個数Mを入力する選択個数入力工程をさらに有し、
     前記最適化は、M個の選択特徴量による、全ペアワイズ・カップリング内の集計値の最小値の最大化である請求項1から5のいずれか1項に記載の特徴量選択方法。
  7.  前記最適化工程は、
     クラスまたはペアワイズ判別の重要性を入力する重要性入力工程と、
     前記集計の際に、前記重要性に基づいた重み付けを与える重み付け付与工程と、
     をさらに有する請求項1から6のいずれか1項に記載の特徴量選択方法。
  8.  前記選択工程で選択される特徴量の個数が25個以上である請求項1から7のいずれか1項に記載の特徴量選択方法。
  9.  前記選択工程で選択される特徴量の個数が50個以上である請求項8に記載の特徴量選択方法。
  10.  前記選択工程で選択される特徴量の個数が100個以上である請求項9に記載の特徴量選択方法。
  11.  請求項1から10のいずれか1項に記載の特徴量選択方法をコンピュータに実行させる特徴量選択プログラム。
  12.  非一時的かつコンピュータ読取可能な記録媒体であって、請求項11に記載の特徴量選択プログラムが記録された記録媒体。
  13.  Nが2以上の整数である場合に、サンプルを、前記サンプルの特徴量から、N個のクラスのいずれに属するかを判定するマルチクラス分類方法であって、
     請求項1から10のいずれか1項に記載の特徴量選択方法を用いて実行される前記入力工程及び前記選択工程と、
     前記選択した特徴量群に基づいて前記未知サンプルについての前記クラス判定を行う判定工程であって、前記選択した特徴量群の特徴量値を取得する取得工程と、前記取得した特徴量値に基づいて前記クラス判定を行うクラス判定工程と、を有する判定工程と、
     を有し、
     前記判定工程では、前記ペアワイズ・カップリングに紐付けて前記選択した特徴量群を利用するマルチクラス判別器を構成することで、前記未知サンプルについての前記クラス判定を行う、マルチクラス分類方法。
  14.  前記定量化工程では、前記ペアワイズ・カップリングされたクラス間の前記学習データセットにおける特徴量の統計的な有意差を利用する請求項13に記載のマルチクラス分類方法。
  15.  前記定量化工程では、前記学習データセットを参照して設定した閾値のもと、前記ペアワイズ・カップリングされたクラスのいずれかに属する未知サンプルの特徴量が与えられたとき、前記与えられた特徴量によって前記未知サンプルが所属するクラスを正しく判別できる確率を利用する請求項13または14に記載のマルチクラス分類方法。
  16.  前記定量化工程において、前記判別可能性の定量化値が、統計的確率値を、特徴量個数によって多重検定補正した値である請求項13から15のいずれか1項に記載のマルチクラス分類方法。
  17.  前記学習データセットから、クラスに属する1つ以上のサンプルを与特徴量に基づいてクラスタリングすることでクラスターを形成し、前記形成した各クラスターを各クラス内のサブクラスに設定するサブクラス設定工程と、
     各クラス内の前記各サブクラスを、前記各クラス内において互いに判別の必要がない第2の判別不要クラス群とマークする第2のマーキング工程と、
     展開するペアワイズ・カップリングから、前記マークされた前記第2の判別不要クラス群どうしの前記ペアワイズ・カップリングの展開を除外する第2の除外工程と、
     をさらに有する請求項13から16のいずれか1項に記載のマルチクラス分類方法。
  18.  前記集計は、前記判別可能性の定量値の合計値または平均値の計算である請求項13から17のいずれか1項に記載のマルチクラス分類方法。
  19.  前記集計の結果を示す集計値の目標閾値Tを入力する目標閾値入力工程をさらに有し、
     前記最適化は、選択特徴量による、全ペアワイズ・カップリング内の前記集計値の最小値を前記目標閾値T以上にすることである請求項13から18のいずれか1項に記載のマルチクラス分類方法。
  20.  前記判定工程では、
     各ペアワイズ・カップリングに紐付けて選択特徴量群を利用するバイナリクラス判別器を各々構成し、
     前記バイナリクラス判別器を組み合わせて、前記マルチクラス判別器を構成する請求項13から19のいずれか1項に記載のマルチクラス分類方法。
  21.  バイナリクラス判別器によってサンプルと各クラスとの類似度を評価する工程と、
     前記類似度に基づいて、前記マルチクラス判別器を構成する工程と、
     をさらに有する請求項13から20のいずれか1項に記載のマルチクラス分類方法。
  22.  バイナリクラス判別器によってサンプルと各クラスとの類似度を評価する工程と、
     前記類似度が上位のクラス間に、前記クラス間において前記類似度の評価に用いた前記バイナリクラス判別器を改めて適用することで前記マルチクラス判別器を構成する工程と、
     をさらに有する請求項13から21のいずれか1項に記載のマルチクラス分類方法。
  23.  前記判定工程では、
     各ペアワイズ・カップリングに紐付けて選択特徴量群を利用する決定木を構成し、
     前記決定木を1つ以上組み合わせて、マルチクラス判別器を構成する請求項13から22のいずれか1項に記載のマルチクラス分類方法。
  24.  前記判定工程では、前記決定木および前記決定木の組み合わせによってランダムフォレストとして前記マルチクラス判別器を構成する請求項23に記載のマルチクラス分類方法。
  25.  生体組織片のオミクス情報を計測することで、前記生体組織片が属するクラスを前記N個のクラスから判定する請求項13から24のいずれか1項に記載のマルチクラス分類方法。
  26.  生体組織片のオミクスのスイッチ様情報を計測することで、前記生体組織片が属するクラスを前記N個のクラスから判定する請求項13から25のいずれか1項に記載のマルチクラス分類方法。
  27.  判別すべきクラスの個数が10個以上である請求項13から26のいずれか1項に記載のマルチクラス分類方法。
  28.  判別すべきクラスの個数が25個以上である請求項27に記載のマルチクラス分類方法。
  29.  請求項13から28のいずれか1項に記載のマルチクラス分類方法をコンピュータに実行させるマルチクラス分類プログラム。
  30.  非一時的かつコンピュータ読取可能な記録媒体であって、請求項29に記載のマルチクラス分類プログラムが記録された記録媒体。
  31.  サンプルが2個以上のN個のクラスのいずれに属するかを判定するために用いる特徴量群を選択する特徴量選択装置であって、
     第1のプロセッサを備え、
     前記第1のプロセッサは、
     対象となる与クラスに属する既知サンプル群と、前記既知サンプル群の特徴量群と、により構成される学習データセットを入力する入力処理と、
     前記学習データセットに基づいて、属するクラスが未知である未知サンプルについてのクラス判定に必要な特徴量群を前記特徴量群から選択する選択処理と、
     を行い、
     前記選択処理は、
     前記N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、前記選択した特徴量群の各特徴量による前記2個のクラス間の判別可能性を、前記学習データセットによって定量化する定量化処理と、
     前記定量化した前記判別可能性を前記ペアワイズ・カップリングの全てについて集計し、前記集計の結果を最適化する特徴量群の組み合わせを選択する最適化処理と、
     を有する特徴量選択装置。
  32.  Nが2以上の整数である場合に、サンプルを、前記サンプルの特徴量から、N個のクラスのいずれに属するかを判定するマルチクラス分類装置であって、
     請求項31に記載の特徴量選択装置と、
     第2のプロセッサと、を備え、
     前記第2のプロセッサは、
     前記特徴量選択装置を用いた前記入力処理及び前記選択処理と、
     前記選択した特徴量群に基づいて前記未知サンプルについての前記クラス判定を行う判定処理であって、前記選択した特徴量群の特徴量値を取得する取得処理と、前記取得した特徴量値に基づいて前記クラス判定を行うクラス判定処理と、を有する判定処理と、
     を行い、
     前記判定処理では、前記ペアワイズ・カップリングに紐付けて前記選択した特徴量群を利用するマルチクラス判別器を構成することで、前記未知サンプルについての前記クラス判定を行う、マルチクラス分類装置。
  33.  マルチクラス分類装置が、サンプルが2個以上のN個のクラスのいずれに属するかを判定するために用いる特徴量セットであって、
     対象となる各クラスに属するサンプルの特徴量データセットを備え、
     前記N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による前記2個のクラス間の判別可能性を前記特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも1つの特徴量で判別可能とマークされている特徴量セット。
  34.  前記N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による前記2個のクラス間の判別可能性を前記特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも5以上の特徴量で判別可能とマークされている請求項33に記載の特徴量セット。
  35.  前記N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による前記2個のクラス間の判別可能性を前記特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも10以上の特徴量で判別可能とマークされている請求項34に記載の特徴量セット。
  36.  前記N個のクラスのうち2個を組み合わせるペアワイズ・カップリングにより、選択した特徴量群の各特徴量による前記2個のクラス間の判別可能性を前記特徴量データセットを参照して定量化した際に、全ペアワイズ・カップリングにおいて、少なくとも60以上の特徴量で判別可能とマークされている請求項35に記載の特徴量セット。
  37.  選択されている特徴量の個数が、提示されている最小被覆数の5倍以下である請求項33から36のいずれか1項に記載の特徴量セット。
  38.  判別すべきクラスの個数が10個以上である請求項33から37のいずれか1項に記載の特徴量セット。
  39.  判別すべきクラスの個数が25個以上である請求項38に記載の特徴量セット。
  40.  選択される特徴量の個数が25個以上である請求項33から39のいずれか1項に記載の特徴量セット。
  41.  選択される特徴量の個数が50個以上である請求項40に記載の特徴量セット。
  42.  選択される特徴量の個数が100個以上である請求項41に記載の特徴量セット。
PCT/JP2021/004193 2020-02-13 2021-02-05 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット WO2021161901A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP21754469.1A EP4105881A4 (en) 2020-02-13 2021-02-05 METHOD FOR SELECTING FEATURE VALUES, PROGRAM FOR SELECTING FEATURE VALUES, METHOD FOR MULTI-CLASS CLASSIFICATION, METHOD FOR MULTI-CLASS CLASSIFICATION PROGRAM, DEVICE FOR SELECTING FEATURE VALUES, DEVICE FOR CLASSIFICATION WITH MULTI-CLASS AND FEATURE VALUE SET
JP2022500363A JP7507845B2 (ja) 2020-02-13 2021-02-05 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、及びマルチクラス分類装置
CN202180014238.8A CN115104028A (zh) 2020-02-13 2021-02-05 特征量选择方法、特征量选择程序、多类分类方法、多类分类程序、特征量选择装置、多类分类装置及特征量集
US17/876,324 US20220391718A1 (en) 2020-02-13 2022-07-28 Feature amount selection method, feature amount selection program, multi-class classification method, multi-class classification program, feature amount selection device, multi-class classification device, and feature amount set

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020022822 2020-02-13
JP2020-022822 2020-02-13

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/876,324 Continuation US20220391718A1 (en) 2020-02-13 2022-07-28 Feature amount selection method, feature amount selection program, multi-class classification method, multi-class classification program, feature amount selection device, multi-class classification device, and feature amount set

Publications (1)

Publication Number Publication Date
WO2021161901A1 true WO2021161901A1 (ja) 2021-08-19

Family

ID=77291427

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/004193 WO2021161901A1 (ja) 2020-02-13 2021-02-05 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット

Country Status (5)

Country Link
US (1) US20220391718A1 (ja)
EP (1) EP4105881A4 (ja)
JP (1) JP7507845B2 (ja)
CN (1) CN115104028A (ja)
WO (1) WO2021161901A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113598759A (zh) * 2021-09-13 2021-11-05 曲阜师范大学 一种基于肌电特征优化的下肢动作识别方法及系统
WO2023053703A1 (ja) 2021-09-29 2023-04-06 富士フイルム株式会社 測定可能好適特徴量の選択方法、測定可能好適特徴量の選択プログラム、及び測定可能好適特徴量の選択装置
WO2023171482A1 (ja) * 2022-03-09 2023-09-14 富士フイルム株式会社 方法、装置及びプログラム
WO2024079820A1 (ja) * 2022-10-12 2024-04-18 日本電気株式会社 学習装置、学習方法、プログラム、および分類装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008139825A1 (ja) * 2007-05-08 2008-11-20 Olympus Corporation 画像処理装置および画像処理プログラム
JP2011181016A (ja) * 2010-03-04 2011-09-15 Fujifilm Corp 判別器生成装置および方法並びにプログラム
JP2012505453A (ja) 2008-10-13 2012-03-01 エフ.ホフマン−ラ ロシュ アーゲー 遺伝子発現プロファイリングによるサブ病型および予後のアルゴリズム
JP2012123782A (ja) * 2010-12-07 2012-06-28 Mitsubishi Electric Research Laboratories Inc 連続値回帰分析において用いられる特徴を選択する方法
WO2012111235A1 (ja) * 2011-02-17 2012-08-23 日本電気株式会社 情報処理装置、情報処理方法及び記憶媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140450B2 (en) 2009-03-27 2012-03-20 Mitsubishi Electric Research Laboratories, Inc. Active learning method for multi-class classifiers
US9947322B2 (en) 2015-02-26 2018-04-17 Arizona Board Of Regents Acting For And On Behalf Of Northern Arizona University Systems and methods for automated evaluation of human speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008139825A1 (ja) * 2007-05-08 2008-11-20 Olympus Corporation 画像処理装置および画像処理プログラム
JP2012505453A (ja) 2008-10-13 2012-03-01 エフ.ホフマン−ラ ロシュ アーゲー 遺伝子発現プロファイリングによるサブ病型および予後のアルゴリズム
JP2011181016A (ja) * 2010-03-04 2011-09-15 Fujifilm Corp 判別器生成装置および方法並びにプログラム
JP2012123782A (ja) * 2010-12-07 2012-06-28 Mitsubishi Electric Research Laboratories Inc 連続値回帰分析において用いられる特徴を選択する方法
WO2012111235A1 (ja) * 2011-02-17 2012-08-23 日本電気株式会社 情報処理装置、情報処理方法及び記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HYEON JI ET AL.: "Feature selection for multi-class classification using pairwise class discriminatory measure and covering concept", ELECTRONICS LETTERS, vol. 36, no. 6, 16 March 2000 (2000-03-16), pages 524 - 525, XP006015012, DOI: 10.1049/el:20000458
See also references of EP4105881A4

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113598759A (zh) * 2021-09-13 2021-11-05 曲阜师范大学 一种基于肌电特征优化的下肢动作识别方法及系统
CN113598759B (zh) * 2021-09-13 2023-09-22 曲阜师范大学 一种基于肌电特征优化的下肢动作识别方法及系统
WO2023053703A1 (ja) 2021-09-29 2023-04-06 富士フイルム株式会社 測定可能好適特徴量の選択方法、測定可能好適特徴量の選択プログラム、及び測定可能好適特徴量の選択装置
WO2023171482A1 (ja) * 2022-03-09 2023-09-14 富士フイルム株式会社 方法、装置及びプログラム
WO2024079820A1 (ja) * 2022-10-12 2024-04-18 日本電気株式会社 学習装置、学習方法、プログラム、および分類装置

Also Published As

Publication number Publication date
JP7507845B2 (ja) 2024-06-28
CN115104028A (zh) 2022-09-23
EP4105881A4 (en) 2023-08-09
EP4105881A1 (en) 2022-12-21
JPWO2021161901A1 (ja) 2021-08-19
US20220391718A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
WO2021161901A1 (ja) 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット
Seetharam et al. Artificial intelligence in cardiovascular medicine
Naseem et al. An automatic detection of breast cancer diagnosis and prognosis based on machine learning using ensemble of classifiers
US9378407B2 (en) Automated fish reader using learning machines
Ananey-Obiri et al. Predicting the presence of heart diseases using comparative data mining and machine learning algorithms
de Carvalho Filho et al. Computer-aided diagnosis of lung nodules in computed tomography by using phylogenetic diversity, genetic algorithm, and SVM
SG194588A1 (en) Analyzing the expression of biomarkers in cells with clusters
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
US11450436B2 (en) Method and apparatus for machine learning
Wu et al. Malignant-benign classification of pulmonary nodules based on random forest aided by clustering analysis
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
Fernández et al. Foundations on imbalanced classification
Joshi et al. Ensemble based machine learning approach for prediction of glioma and multi-grade classification
Di Cataldo et al. ANAlyte: A modular image analysis tool for ANA testing with indirect immunofluorescence
Akila1 et al. Big data in healthcare: management, analysis, and future prospects
Lim et al. Machine learning models prognosticate functional outcomes better than clinical scores in spontaneous intracerebral haemorrhage
Batool et al. Towards Improving Breast Cancer Classification using an Adaptive Voting Ensemble Learning Algorithm
Ryan et al. Image classification with genetic programming: Building a stage 1 computer aided detector for breast cancer
Azizi et al. Kernel based classifiers fusion with features diversity for breast masses classification
WO2022065216A1 (ja) 特徴量選択方法、特徴量選択プログラム、及び特徴量選択装置、マルチクラス分類方法、マルチクラス分類プログラム、及びマルチクラス分類装置、並びに特徴量セット
Akram et al. Recognizing Breast Cancer Using Edge-Weighted Texture Features of Histopathology Images.
Ghashghaei et al. Grayscale Image Statistical Attributes Effectively Distinguish the Severity of Lung Abnormalities in CT Scan Slices of COVID-19 Patients
US20200357484A1 (en) Method for simultaneous multivariate feature selection, feature generation, and sample clustering
Hu et al. Classification of malignant-benign pulmonary nodules in lung CT images using an improved random forest (Use style: Paper title)
Gan et al. A survey of pattern classification-based methods for predicting survival time of lung cancer patients

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21754469

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022500363

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021754469

Country of ref document: EP

Effective date: 20220913