WO2017145517A1 - 情報処理装置と情報処理プログラム並びに情報処理方法 - Google Patents

情報処理装置と情報処理プログラム並びに情報処理方法 Download PDF

Info

Publication number
WO2017145517A1
WO2017145517A1 PCT/JP2016/088734 JP2016088734W WO2017145517A1 WO 2017145517 A1 WO2017145517 A1 WO 2017145517A1 JP 2016088734 W JP2016088734 W JP 2016088734W WO 2017145517 A1 WO2017145517 A1 WO 2017145517A1
Authority
WO
WIPO (PCT)
Prior art keywords
classification
index
information
data
sample
Prior art date
Application number
PCT/JP2016/088734
Other languages
English (en)
French (fr)
Inventor
浜本義彦
荻原宏是
飯塚徳男
爲佐卓夫
岡正朗
Original Assignee
国立大学法人山口大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人山口大学 filed Critical 国立大学法人山口大学
Priority to US16/079,835 priority Critical patent/US11461598B2/en
Publication of WO2017145517A1 publication Critical patent/WO2017145517A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/42Evaluating a particular growth phase or type of persons or animals for laboratory research
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Definitions

  • the present invention relates to an information processing apparatus, an information processing program, and an information processing method that support prediction of whether or not a specific event occurs from a plurality of events.
  • Pattern recognition is information processing in which observation data from a recognition target is regarded as a recognition target pattern and associated with a class to which the pattern should belong.
  • attention is focused on the statistical structure of the distribution formed by patterns, not individual patterns to be recognized.
  • An example of a field where pattern recognition is utilized is a clinical site. That is, taking the patient's test data as a pattern, the class of the diagnostic result to which the pattern belongs (whether the patient is in a specific disease state, or whether a specific disease recurs in the treated patient , Etc.).
  • Patent Document 1 It has been proposed to determine whether or not a patient is in a specific disease state using statistical pattern recognition using Bayes discrimination rules (see, for example, Patent Document 1).
  • patient examination data used in the technique disclosed in Patent Document 1 is only quantitative numerical data. That is, the method of Patent Document 1 cannot handle qualitative non-numeric data.
  • the state of the liver is expressed as a score formula based on patient examination data including qualitative non-numeric data (for example, non-patent literature). 1, 2, 3, 4).
  • TNM classification three markers T factor, N factor, and M factor are used for a target cancer.
  • N factor the score value is determined from "number”, "size”, and "vascular invasion” of the carcinoma.
  • N factor the score value is determined by "with lymph node metastasis” and “without lymph node metastasis”. Score value is determined by “Yes” and “No distant metastasis”. Then, the score value of each factor is added to obtain a total, and compared with a predetermined cutoff value for diagnosis.
  • the score values for the N factor and the M factor are obtained by simply substituting non-numeric data (for example, “with lymph node metastasis” and “no lymph node metastasis”) with predetermined numerical data by threshold processing. It is. That is, the score value is a so-called dummy variable, and the numerical value itself has no meaning and is not determined based on past statistical information. For this reason, the sum obtained by adding the score values of the factors is not based on the past statistical information.
  • the intractability of liver cancer lies in the high possibility of recurrence. That is, even if all cancers are completely removed by surgery, the cancer will recur with a probability of about 30% one year after the surgery. After surgery after the cancer has been completely removed, the cancer cannot be visually recognized by CT (Computed Tomography), ultrasonic examination, or other examinations. Therefore, administration of anticancer agents and various tests are performed on patients after surgery to prevent the recurrence of cancer while the possibility of recurrence is unknown. Therefore, the physical, mental, and economic burdens on patients are great. In other words, if the cancer recurrence can be accurately predicted, the burden on the patient can be reduced. However, none of the scoring formulas can meet the clinical requirements.
  • the cause is that not only the individual markers used in the score formula are the decisive factor in predicting recurrence, but also the set of markers used in the score formula was obtained after trial and error by the doctor, and its optimality There is no logical guarantee. Moreover, the marker used by a score type
  • molecular target markers such as genetic mutations related to cancer discovered by the most advanced molecular life science.
  • many of these molecular target markers are not subject to so-called insurance coverage.
  • Applicable insurance requires approval of the Pharmaceutical Affairs Law through clinical trials. Therefore, enormous research costs and considerable time are required before the molecular target marker is applied to a patient.
  • the present invention has been made to solve the above-described problems of the prior art, and predicts the occurrence of a specific event logically based on past statistical information including qualitative non-numeric data. It is an object of the present invention to provide an information processing apparatus, an information processing program, and an information processing method that can be supported.
  • the present invention is an information processing apparatus for determining whether a determination target corresponding to input data belongs to a specific classification among a plurality of classifications based on a plurality of indices, Based on the storage unit for storing the input data corresponding to the determination target and the plurality of sample data corresponding to each of the plurality of sample objects, and for each index corresponding to the input data
  • a classification determination unit that determines whether the determination target belongs to a specific classification, and the input data includes index information indicating a classification for each of a plurality of indexes to which the input data corresponds, and sample data Includes index information indicating a classification for each of the plurality of indexes corresponding to the sample data, and classification information indicating whether the sample object belongs to the specific classification
  • the classification determination unit includes the index information of the sample data and the sample Data classification information Based on the number of sample data belonging to each category for each index aggregated for each category using the first conditional probability for each category of the index when a specific category occurs, and among the multiple categories Calculating a second
  • FIG. 2 is a schematic diagram illustrating an example of a screen on which a selection index determined by the information processing apparatus of FIG. 1 is displayed. It is a schematic diagram which shows the example of another screen on which the selection parameter
  • liver cancer patient examination data of a liver cancer patient (hereinafter referred to as “target patient”) to be predicted and another patient different from the target patient, and liver cancer extraction surgery (hereinafter referred to as “surgery”). )
  • target patient liver cancer patient
  • surgery liver cancer extraction surgery
  • sample patient test data of the patient
  • example patient test data of the patient
  • the present invention can be applied to the determination of whether or not the determination target belongs to a specific classification among a plurality of classifications, and the applicable range of the present invention is limited to this embodiment. Absent.
  • the information processing apparatus uses the sample data of the sample patient and the input data of the target patient to express the uncertainty of recurrence of the liver cancer of the target patient as a posterior probability by a numerical value.
  • the information processing apparatus according to the present invention improves the reliability of prediction by the Bayes discrimination rule of statistical pattern recognition using this posterior probability.
  • the information processing apparatus uses sample data to determine the posterior probability of selection of test items effective for predicting recurrence of liver cancer from a plurality of test items (markers). As a numerical value.
  • the inspection item is an example of an index in the present invention.
  • the information processing apparatus improves the reliability of inspection item selection by the Bayes identification rule of statistical pattern recognition using this posterior probability.
  • FIG. 1 is a block diagram showing an embodiment of an information processing apparatus (hereinafter referred to as “this apparatus”) according to the present invention.
  • the apparatus 1 includes a storage unit 2, an index selection unit 3, and a classification determination unit 4.
  • the index selection unit 3 includes a sample data extraction unit 31, a prior probability calculation unit 32, a conditional probability calculation unit 33, a posterior probability calculation unit 34, a classification estimation unit 35, and an index determination unit 36.
  • the device 1 is realized by a personal computer or the like.
  • an information processing program according to the present invention (hereinafter referred to as “this program”) operates, and this program cooperates with hardware resources of the apparatus 1 to process information processing according to the present invention described later.
  • a method (hereinafter referred to as “the present method”) is realized.
  • the computer can be caused to function in the same manner as the apparatus 1 and cause the computer to execute the method.
  • the storage unit 2 is a means for storing information necessary for the apparatus 1 to execute the method described later, such as sample data and input data.
  • Sample data includes sample patient examination information and classification information.
  • Inspection information is information indicating the inspection result for each inspection item.
  • the inspection items include qualitative inspection items and quantitative inspection items.
  • the qualitative test items are test items whose test results are expressed by non-numerical data that is not ordered, such as sex, presence / absence of lymphatic vessel invasion, presence / absence of ulcer, presence / absence of venous invasion, and the like.
  • Quantitative test items include, for example, the number of tumors, tumor size, bilirubin value, albumin value, tumor depth, tumor differentiation, tumor grossness, etc. It is.
  • the present invention unifies all pieces of inspection information with discrete data using a classification for each inspection item described later. That is, the Bayes discrimination rule in the present invention can handle qualitative non-numeric data, unlike a normal Bayes discrimination rule.
  • the classification information is information indicating whether or not a specific event has occurred.
  • the specific event means that “the liver cancer has recurred within one year after the operation”. That is, the classification information is “information indicating whether or not liver cancer has recurred within one year after the operation”.
  • the input data includes the examination information of the target patient.
  • FIG. 2 is a schematic diagram illustrating an example of sample data stored in the storage unit 2.
  • the storage unit 2 stores a plurality of sample data. Each sample data is stored in association with a sample identifier (sample ID). That is, the apparatus 1 can read sample data corresponding to the sample ID from the storage unit 2 using the sample ID.
  • the inspection information included in the sample data is stored in the storage unit 2 in association with an index identifier (index ID) that identifies the inspection item. For example, in the sample data of the sample ID “D 1 ”, the inspection data indicating the inspection result of the inspection item of the index ID “X 1 ” is “V 11 ”, and the inspection of the inspection item of the index ID “X 2 ” The inspection data indicating the result is “V 21 ”.
  • FIG. 3 is a schematic diagram illustrating an example of classification information.
  • the classification information “ ⁇ 1 ” is “information indicating that the liver cancer has recurred within one year after the operation”.
  • the classification information “ ⁇ 2 ” is “information indicating that the liver cancer has not recurred within one year after the operation”.
  • the figure shows, for example, that the classification information of the sample patient with the sample ID “D 1 ” is “ ⁇ 2 ”, that is, the patient has not recurred liver cancer within one year after the operation.
  • Each sample patient was classified into the category “liver cancer recurred within 1 year after surgery” (hereinafter referred to as “specific classification”) and the category “liver cancer did not recur within 1 year after surgery” (hereinafter referred to as “non-specific classification”). ").”
  • the index selection unit 3 is a means for selecting a test item suitable for prediction of liver cancer from a plurality of test items. An inspection item selection method will be described later.
  • the classification determination unit 4 is a means for predicting recurrence of liver cancer in the target patient. A method for predicting recurrence of liver cancer will be described later.
  • the sample data extraction unit 31 is a means for extracting a part of the sample data as the training data and extracting the other part of the sample data as the evaluation data.
  • the prior probability calculation unit 32 calculates a probability that the specific classification will occur (hereinafter referred to as “first prior probability”) and a probability that the non-specific classification will occur (hereinafter referred to as “second prior probability”). It is.
  • the conditional probability calculation unit 33 is a means for calculating the first conditional probability and the second conditional probability.
  • the first conditional probability is calculated for each category of the index included in the index group using the index information and the classification information of the training data, and the conditional information that the index information corresponds to the category when the specific classification occurs It is a probability.
  • the index information and the index group will be described later.
  • the second conditional probability is calculated for each category of the index included in the index group using the index information and the classification information of the training data.
  • the condition that the index information corresponds to the category when a non-specific classification occurs It is an attached probability.
  • the index information is information for each sample data (training data, evaluation data), and is information indicating “a classification for each inspection item” corresponding to the inspection information included in the sample data.
  • the classification for each inspection item is information for identifying each of the values that can be taken by the inspection item when divided into a plurality of values.
  • the inspection item is divided so that the possible values of the inspection item are mutually opposite events. That is, patient examination data belongs to one of the categories for each examination item. If the inspection item is gender, it is divided into two categories “male” and “female”. If the examination item is the number of tumors, for example, it is divided into three categories “less than two”, “two or more and less than seven”, and “7 or more”.
  • the index group is a combination of one or a plurality of inspection items selected from a plurality of inspection items.
  • FIG. 4 is a schematic diagram illustrating an example of index information of training data stored in the storage unit 2.
  • the inspection item with the index ID “X 1 ” is divided into two sections, and the section identifiers (section IDs) for specifying each section are “X 1 (1) ” and “X 1 (2) ”. Indicates that there is.
  • the inspection item with the index ID “X 2 ” is divided into three sections, and the section IDs specifying each section are “X 2 (1) ”, “X 2 (2) ”, “X 2 (3). ) ”.
  • the training data of the sample ID “D t1 ” belongs to the category of the category ID “X 1 (2) ” in the inspection item of the index ID “X 1 ”, and is classified in the inspection item of the index ID “X 2 ”. Indicates that it belongs to the category of ID “X 2 (2) ”
  • Information specifying the category for each test item for example, information specifying the test item “male” or “female” in the gender, or the test item in the number of tumors “less than 3” “3 or more and less than 7” Information specifying “seven or more” is stored in the storage unit 2 in advance.
  • the present apparatus 1 refers to the information specifying the classification for each inspection item stored in the storage unit 2, generates index information of training data from the inspection information of each training data, and stores it in the storage unit 2.
  • FIG. 5 is a schematic diagram illustrating an example of the number of training data (number of sample patients corresponding to the training data (hereinafter referred to as “training patients”)) belonging to the classification for each examination item stored in the storage unit 2. .
  • the figure shows that the number of training patients belonging to each category for each index is stored for each category.
  • the figure shows that among the training patients belonging to the classification of the classification ID “ ⁇ 1 ”, the number of training patients belonging to the classification of the classification ID “X 1 (1) ” of the examination item of the index ID “X 1 ” is “n 1 1 (1) ”indicates that the number of training patients belonging to the category of category ID“ X 1 (2) ”is“ n 1 1 (2) ”.
  • the figure shows that among the training patients belonging to the classification of the classification ID “ ⁇ 1 ”, the number of training patients belonging to the classification of the examination item classification ID “X 2 (1) ” of the index ID “X 2 ” is “n 1 ”.
  • the number of training patients belonging to the category “ 2 (1) ” and the category ID “X 2 (2) ” is the training patient belonging to the category “n 1 2 (2) ” and the category ID “X 2 (3) ” Indicates that the number of people is “n 1 2 (3) ”.
  • n 1 1 (1) + n 1 1 (2) n 1 2 (1) + n 1 2 (2) + n 1 2 (3)
  • the apparatus 1 uses the index information and the classification information of the training data, and totals the number of training patients belonging to each category for each examination item for each category and stores it in the storage unit 2.
  • This apparatus 1 uses the number of training patients belonging to each of the categories for each index, aggregated for each category, to provide conditional probabilities (first conditional probability and second conditional probability for each test item). ) Is calculated.
  • Equation 3 the posterior probability P ( ⁇ i
  • Equation 4 the posterior probability P ( ⁇ i
  • Equation 5 the posterior probability P ( ⁇ i
  • Equation 5 the posterior probabilities of the classifications ⁇ 1 and ⁇ 2 are calculated according to Equation 5. The calculated posterior probabilities for each category are compared, and the patient is identified in a category with a large posterior probability.
  • FIG. 6 is a flowchart showing an embodiment of this method.
  • the apparatus 1 uses the index selection unit 3 to select a test item suitable for predicting recurrence of liver cancer as a selection index from among a plurality of test items (S1).
  • the apparatus 1 uses the classification determination unit 4 to determine the classification of the input data using the selection index, that is, predicts the presence or absence of liver cancer recurrence within one year after the operation of the target patient corresponding to the input data. (S2).
  • FIG. 7 is a flowchart showing an example of index selection processing (S1) executed by the apparatus 1 using the index selection unit 3.
  • the apparatus 1 acquires sample data stored in the storage unit 2 using the sample data extraction unit 31 (S11), and extracts some sample data as training data from the acquired sample data. Then, another part of sample data is extracted as evaluation data (S12). For example, the apparatus 1 extracts 80 sample data from 100 acquired sample data as training data, and extracts the remaining 20 sample data as evaluation data. The apparatus 1 randomly extracts training data and evaluation data from the sample data without referring to the contents (test results) of the sample data. The number of training data and evaluation data extracted by the apparatus 1 and the ratio of the number of training data and evaluation data are stored in the storage unit 2 in advance, and the apparatus 1 is stored in the storage unit 2. Sample data is extracted based on these numbers and ratios.
  • the number of evaluation data extracted from the sample data may not be all the remaining sample data obtained by extracting the training data from the sample data. That is, for example, out of 100 sample data, 80 sample data may be extracted as training data, and 15 sample data may be extracted as evaluation data from the remaining 20 sample data.
  • the present apparatus 1 specifies an index group composed of any combination of a plurality of inspection items (S13). For example, when there are three inspection items X 1 , X 2 , and X 3 , the index group specified by the apparatus 1 is (X 1 ), (X 2 ), (X 3 ), (X 1 , X 2 ), (X 1 , X 3 ), (X 2 , X 3 ), and (X 1 , X 2 , X 3 ).
  • the number of indices included in the index group specified by the apparatus 1 is determined in advance, and the number of indices is stored in the storage unit 2 so that the apparatus 1 can refer to it when specifying the index group. It may be. That is, for example, when the number of indices included in the index group is “2” and the indices included in the sample data are three of X 1 , X 2 , and X 3 , the present apparatus 1 uses (X 1 , X 2 ) and (X 1 , X 3 ).
  • the apparatus 1 uses the conditional probability calculation unit 33 to specify, for each specified index group, a conditional probability (first conditional probability and second conditional probability) for each inspection item category included in the index group. (Probability) is calculated by Equation 1 based on the training data (S14).
  • the present apparatus 1 calculates the posterior probability for each classification using Equation 5 using the posterior probability calculation unit 34 for each evaluation data.
  • the apparatus 1 since the probability of occurrence of the specific classification and the non-specific classification is an equal probability (0.5), the apparatus 1 uses the prior probabilities (first prior probability and second prior probability). Without calculation, the posterior probability is calculated by Equation 5.
  • the apparatus 1 estimates the classification of the evaluation data using the classification estimation unit 35 based on the calculated posterior probability for each classification (S15), and determines whether the estimation is appropriate (S16).
  • the apparatus 1 compares, for example, the magnitudes of the calculated posterior probabilities for each category, and estimates a category with a large posterior probability as a category of the evaluation data.
  • the apparatus 1 compares the estimated information indicating the estimated classification with the classification information of the evaluation data stored as sample data in the storage unit 2 and determines whether the evaluation data is the same or not. Judge whether the classification is correct or not. That is, if the two match, it is determined that the estimation of the classification of the evaluation data is valid, and if the two do not match, the estimation of the classification of the evaluation data is determined to be inappropriate.
  • the inspection items included in the specified index group are “X 1 , X 2 ,...”, And the inspection items to which the evaluation data of the sample IDs “D e1 , D e2 ,.
  • the figure shows that the classification information of the evaluation data of the sample ID “D e1 ” is the classification of the classification ID “ ⁇ 1 ”, the estimation information is the classification of the classification ID “ ⁇ 1 ”, and the determination information is valid. T ”.
  • the present device 1 claims that the patient corresponding to the evaluation data of the sample ID “D e1 ” had a recurrence of liver cancer within one year after the operation.
  • the figure shows that the classification information of the evaluation data of the sample ID “D e2 ” is the classification of the classification ID “ ⁇ 2 ”, the estimation information is the classification of the classification ID “ ⁇ 1 ”, and the determination information is invalid. "F” to indicate. That is, the device 1 does not claim that the patient corresponding to the evaluation data of the sample ID “D e2 ” did not have a recurrence of liver cancer within one year after the operation.
  • the present apparatus 1 executes processes S14 to S16 for all index groups (S17).
  • the apparatus 1 uses the index determination unit 36 to compare the determination result of the estimation for each index group (S18) and determine the selection index (S19).
  • the apparatus aggregates evaluation data determination information for each index group, and determines an inspection item included in the index group having the maximum number of evaluation data determined to be valid as a selection index.
  • FIG. 9 is a flowchart illustrating an example of input data classification determination processing (S2) executed by the apparatus 1 using the classification determination unit 4.
  • the present apparatus 1 acquires index information of input data (S21).
  • the index information of the input data is information indicating “classification for each inspection item” to which the inspection information included in the input data corresponds, similarly to the index information of the sample data described above.
  • the apparatus 1 reads the input data and information for specifying the classification for each inspection item corresponding to the selection index from the storage unit 2. For each inspection item corresponding to the selection index, the device 1 specifies a category to which the inspection information of the input data corresponds, and acquires the index information of the input data.
  • the apparatus 1 uses the conditional probability (calculated in the same manner as in step S14) for each category of the index included in the selection index determined using the sample data, and calculates the posterior probability for each classification of the input data. Calculation is performed using Equation 5 (S22).
  • the present apparatus 1 compares the calculated posterior probabilities for each category (S23).
  • the apparatus 1 identifies the classification of the input data, that is, identifies the classification of the input data as either the specific classification or the non-specific classification (S24).
  • the apparatus 1 compares, for example, the magnitudes of the posterior probabilities for each classification, and identifies the classification corresponding to the maximum posterior probability as the classification of the input data.
  • the classification of the specified input data is stored in the storage unit 2 in association with the input data.
  • the classification of the specified input data is displayed on the display (not shown) of the apparatus 1 by displaying, for example, “Patient XX is unlikely to recur liver cancer within one year after surgery”. Is output.
  • FIG. 10 is a schematic diagram illustrating an example of a screen on which the selection index determined by the apparatus 1 is displayed. The figure shows that the inspection items selected as the selection index from the inspection items X 1 , X 2 ,..., X n are X 1 and X 2 .
  • FIG. 11 is a schematic diagram illustrating an example of another screen on which the selection index determined by the apparatus 1 is displayed.
  • combinations of inspection items selected from inspection items Y 1 , Y 2 , Y 3 ,..., Y n and posterior probabilities of the combinations are displayed in descending order of posterior probabilities. It shows that.
  • the present apparatus 1 allows the user of the present apparatus 1 to browse this screen, thereby confirming the difference in the combination of the inspection items with the magnitude of the posterior probability.
  • FIG. 12 is a schematic diagram illustrating an example of still another screen on which the selection index determined by the apparatus 1 is displayed.
  • the figure some patients undergoing inspection inspection items Z 1 and Z 2 are, by receiving the inspection of the inspection item Z 3, indicating that the prediction accuracy of the recurrence of a disease increases.
  • the apparatus 1 specifies, for example, the correspondence between the combination of examination items and the posterior probability as shown in FIG. 11 and the combination of examination items having a larger posterior probability than the combination of examination items already examined by a patient.
  • inspection items other than the inspection items that have been inspected by the patient can be extracted from the inspection items included in the combination of the specified inspection items.
  • the suitability of the test item used for predicting recurrence of liver cancer can be compared with a numerical value called posterior probability.
  • prediction of recurrence of liver cancer can be logically supported based on the numerical value.
  • the input data is m pieces. Belonging to any one of the categories.
  • the apparatus uses the conditional probability P (X t1 (rt1) , X for each classification.
  • Equation 8 X td (rtd)
  • ⁇ i) (i 1,2, ⁇ , m) in terms of calculating the posterior probability P ( ⁇ i
  • Input data X [X t1 (rt1) , X t2 (rt2), ⁇ , X td (rtd)] posterior probability P ( ⁇ i of
  • An information processing apparatus that determines whether a determination target corresponding to input data belongs to a specific classification among a plurality of classifications based on a plurality of indices, Each of the plurality of indicators includes a plurality of sections, A storage unit for storing input data corresponding to the determination target and a plurality of sample data corresponding to each of the plurality of sample targets; A classification determination unit that determines whether or not the determination target belongs to the specific classification based on a classification for each index to which the input data corresponds; Having The input data includes index information indicating a classification for each of the plurality of indexes to which the input data corresponds, The sample data includes index information indicating a classification for each of the plurality of indexes to which the sample data corresponds, and classification information indicating whether the sample target belongs to the specific classification, The classification determination unit The specific classification occurred based on the number of sample data belonging to each category for each of the indexes aggregated for each of the plurality of categories using the index information of the sample data and the classification information of
  • (Feature 2) The classification determination unit Based on the index information of the input data, a first prior probability that the specific classification among the plurality of classifications occurs, and the first conditional probability, the determination target belongs to the first specific classification. Calculate the posterior probability, Based on the index information of the input data, a second prior probability that the non-specific classification occurs among the plurality of classifications, and the second conditional probability, the determination target belongs to the non-specific classification Calculate the second posterior probability, Comparing the first posterior probability and the second posterior probability to determine whether the determination target belongs to the specific classification; An information processing apparatus according to Feature 1.
  • the plurality of indicators include qualitative indicators, An information processing apparatus according to Feature 1.
  • the plurality of indicators include quantitative indicators, The information processing apparatus according to Feature 3.
  • Feature 5 An index selection unit for selecting a selection index from the plurality of indices; With The classification determination unit determines whether the determination target belongs to the specific classification based on a classification for each of the selection indexes to which the input data corresponds.
  • An information processing apparatus according to Feature 1.
  • the index selection unit selects the selection index using the first conditional probability and the second conditional probability.
  • the information processing apparatus according to Feature 5.
  • the index selection unit (A) a sample data extraction unit that extracts some sample data as training data from the plurality of sample data, and extracts other sample data as evaluation data; (B) For each index group composed of any combination of the plurality of indices, Whether the sample object corresponding to the evaluation data belongs to the specific classification using the index information of the training data, the classification information of the training data, and the index information of the evaluation data. Estimate Using the classification information of the evaluation data, whether or not the estimation is correct is determined.
  • a classification estimation unit (C) an index determination unit that determines the selection index based on a determination result of whether or not the estimation is appropriate for each index group; With The classification estimation unit estimates whether the sample object corresponding to the evaluation data belongs to the specific classification using the first conditional probability and the second conditional probability;
  • the information processing apparatus according to Feature 6.
  • the sample data extraction unit extracts a plurality of the evaluation data from the plurality of sample data
  • the classification estimation unit outputs, for each of the plurality of evaluation data, determination information indicating a determination result of whether or not the estimation is successful, using the first conditional probability and the second conditional probability.
  • the index determination unit determines the selection index based on the determination information for each of the plurality of evaluation data.
  • the information processing apparatus includes: A storage unit that stores input data corresponding to the determination target and sample data corresponding to each of the plurality of sample targets; A classification determination unit that determines whether or not the determination target belongs to the specific classification based on a classification for each index to which the input data corresponds; With The input data includes index information indicating a classification for each of the plurality of indexes to which the input data corresponds, The sample data includes index information indicating a classification for each of the plurality of indexes to which the sample data corresponds, and classification information indicating whether the sample target belongs to the specific classification, The information processing apparatus is The specific classification occurred based on the number of sample data belonging to each category for each of the indexes aggregated for each of the plurality of categories using the index information of the sample data and the classification
  • An information processing apparatus that determines whether a determination target corresponding to input data belongs to a specific classification of a plurality of classifications based on a selection index selected from a plurality of indices, Each of the plurality of indicators includes a plurality of sections, An index selection unit that selects the selection index from the plurality of indices; A classification determination unit that determines whether the determination target corresponding to the input data belongs to the specific classification based on a classification for each index included in the selection index corresponding to the input data; Having For each of a plurality of sample data corresponding to each of a plurality of sample objects used for selection of the selected index, index information indicating a classification for each of the plurality of indexes to which the sample data corresponds, and the sample data corresponding to the sample data A storage unit for storing classification information indicating whether the sample object belongs to the specific classification; With The index selection unit (A) a sample data extraction unit that extracts some sample data as training data from the plurality of sample data, and extracts other sample data as
  • a classification estimation unit (C) an index determination unit that determines the selection index based on a determination result of whether or not the estimation is appropriate for each index group;
  • the classification estimation unit includes: (B-1) Based on the number of sample data belonging to each category for each of the indicators aggregated for each of the plurality of categories using the index information of the training data and the classification information of the training data, A first conditional probability for each indicator category included in the indicator group when a specific classification occurs, and a second conditional probability for each indicator category included in the indicator group when the non-specific category occurs And (B-2) corresponding to the evaluation data based on the index information of the evaluation data, a first prior probability that the specific classification among the plurality of classifications occurs, and the first conditional probability Calculating a first posterior probability that the sample object belongs to the specific classification; (B-3) Based on the index information of the evaluation data, a second prior probability that a non-specific classification that is not the specific classification among the
  • the classification estimation unit calculates the first prior probability and the second prior probability.
  • the information processing apparatus according to Feature 11.
  • the sample data extraction unit extracts a plurality of the evaluation data from the plurality of sample data,
  • the classification estimation unit outputs the determination information for each of the plurality of evaluation data,
  • the index determination unit determines the selection index based on the determination information for each of the plurality of evaluation data.
  • the information processing apparatus according to Feature 11 or 12.
  • the classification estimation unit includes: For each of the plurality of evaluation data, calculate the first conditional probability, the second conditional probability, the first posterior probability, and the second posterior probability, and output the estimation information, Based on the estimation information for each of the plurality of evaluation data, the determination information for each of the plurality of evaluation data is output. 14. An information processing apparatus according to feature 13.
  • the first prior probability is equal to the second prior probability;
  • the information processing apparatus according to Feature 11.
  • the information processing apparatus includes: An index selection unit that selects the selection index from the plurality of indices; A classification determination unit that determines whether the determination target corresponding to the input data belongs to the specific classification based on a classification for each index included in the selection index corresponding to the input data; For each of a plurality of sample data corresponding to each of a plurality of sample objects used for selection of the selected index, index information indicating a classification for each of the plurality of indexes to which the sample data corresponds, and the sample data corresponding to the sample data A storage unit for storing classification information indicating whether or not the sample object belongs to the specific classification; With The information processing apparatus is (A) a sample data extraction step of extracting a part of the sample data among the

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Fuzzy Systems (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

定性的な非数値データを含む過去の統計情報に基づいて、論理的に予測を支援することができる情報処理装置を得る。 入力データに対応する判定対象が特定分類に属するか否かを判定する情報処理装置であって、複数の指標のそれぞれは複数の区分を含み、判定対象に対応する入力データと複数の見本対象のそれぞれに対応する複数の見本データとが記憶される記憶部と、判定対象が特定分類に属するか否かを決定する分類判定部と、を有してなり、分類判定部は、見本データの指標情報と分類情報とを用いて複数の分類ごとに集計された指標ごとの各区分に属する見本データの数に基づいて、特定分類が生起したときの指標の区分ごとの第1条件付確率と非特定分類が生起したときの指標の区分ごとの第2条件付確率とを算出し、入力データの指標情報と第1条件付確率と第2条件付確率とに基づいて判定対象が特定分類に属するか否かを決定することを特徴とする。

Description

情報処理装置と情報処理プログラム並びに情報処理方法
 本発明は、複数の事象の中から特定の事象が生じるか否かの予測を支援する情報処理装置と情報処理プログラム並びに情報処理方法に関するものである。
 認識対象が、複数の事象の中のいずれの事象に該当するかを予測する手法の一つとして、Bayes識別則を用いた統計的パターン認識が知られている。パターン認識とは、認識対象からの観測データを認識対象のパターンとして捉えて、そのパターンが属すべきクラスに対応づける情報処理である。統計的パターン認識においては、認識対象の個々のパターンではなく、パターンのなす分布の統計的構造に着目される。
 パターン認識が活用される分野には、例えば、臨床現場がある。すなわち、患者の検査データをパターンとして捉えて、そのパターンが属する診断結果のクラス(患者が特定の疾患状態にあるか否か、あるいは、治療を受けた患者に特定の疾患が再発するか否か、など)を対応づける。
 これまでにも、Bayes識別則を用いた統計的パターン認識を用いて患者が特定の疾患状態にあるか否かを判定することが提案されている(例えば、特許文献1参照)。しかし、特許文献1に開示されている手法で用いられる患者の検査データは、定量的な数値データのみである。すなわち、特許文献1の手法は、定性的な非数値データを取り扱うことができない。
 これに対して、統計的パターン認識とは別に、定性的な非数値データを含む患者の検査データをもとに、肝臓の状態をスコア式として表すことが提案されている(例えば、非特許文献1,2,3,4参照)。例えば、TNM分類では、対象となる癌に対して、3つのマーカーT因子、N因子、M因子が用いられる。T因子では癌腫の「個数」「大きさ」「脈管侵襲」からスコア値が定まり、N因子では「リンパ節転移あり」「リンパ節転移なし」でスコア値が決まり、M因子では「遠隔転移あり」「遠隔転移なし」でスコア値が決まる。そして、各因子のスコア値を加算して総和をとり、所定のカットオフ値と比較して診断をする。ここで、N因子やM因子におけるスコア値は、非数値データ(例えば、「リンパ節転移あり」「リンパ節転移なし」)を単純にしきい値処理して予め決められた数値データに置き換えたものである。つまり、スコア値は、いわゆるダミー変数であって、その数値自体に意味はなく、過去の統計情報に基づいて定まるものではない。そのため、各因子のスコア値を加算して得られる総和そのものも、過去の統計情報に基づくものではない。
 なお、臨床現場において、例えば、肝癌の難治性はその再発の可能性の高さにある。すなわち、たとえ全ての癌が手術により完全に摘出されたとしても、手術から1年後には約30%の確率で癌が再発する。癌が完全に摘出された手術後は、癌をCT(Computed Tomography)や超音波検査その他の検査で視認することができない。したがって、手術後の患者に対して、再発の可能性が不明のまま、癌の再発を防止するために、抗がん剤の投与や各種検査が実施される。そのため、患者の肉体的・精神的・経済的な負担は大きい。換言すれば、癌の再発を精度よく予測することができれば、患者の負担を軽減することができる。
 しかし、いずれのスコア式も臨床現場の要求に応えることができていない。その原因は、スコア式で用いられる個々のマーカーが再発予測の決め手ではないだけでなく、スコア式で用いられるマーカーの組も医師による試行錯誤の末に得られたものであって、その最適性の論理的な保証はない。また、スコア式で用いられるマーカーは、スコア式ごとに予め決まっている。そのため、スコア式で用いられるマーカーのデータに欠損があれば、そのスコア式を用いることができない。
 不完全なスコア式の予測の性能を向上させる方法として、最先端の分子生命科学によって発見された癌と関連のある遺伝子変異などの分子標的マーカーを用いることが考えられる。しかし、これらの分子標的マーカーの多くは、いわゆる保険適用の対象ではない。保険適用には、治験による薬事法の承認が必要である。そのため、分子標的マーカーが患者に適用されるまでには、膨大な研究費と相当の時間とを要する。
 このように、臨床現場においては、ある疾患の手術(治療)を受けた患者に同疾患が再発するか否かを予測する場合に、予測に必要なマーカーを論理的に特定することや、すでに検査済の患者の検査データから論理的に予測することが望まれている。
特表2013-532295号公報 TATEISHI R, Yoshida H, SHIINA S, et al: Proposal of a New Prognostic Model for Hepatocellular Carcinoma-an Analysis of 403 Patients. Gut 54: 419-425, 2005. IKAI H, TAKAYASU K, OMATA M, et al: A modified Japan Integrated Stage Score for Prognostic Assessment in Patients with Hepatocellular Carcinoma. J Gastroenterology, 41, 884-892, 2006. M. MINAGAWA, I. IKAI, Y. Matsuyama, Y. Yamaoka, M. MAKUUCHI, Staging of Hepatocellular Carcinoma Assessment of the Japanese TNM and AJCC/UICC TNM Systems in a Cohort of 13,772 Patients in Japan, Annals of Surgery, Vol. 245, No.6, pp. 909-922, June 2007. JM HENDERSON, M. SHERMAN, A. TAVILL, M. ABECASSIS, G. CHEJFEC, and T. GRAMLICH, AHPBA/AJCC Consensus Conference on Staging of Hepatocellular Carcinoma: Consensus Statement, HPB, Vol. 5, No.4, pp. 243-250, 2003.
 本発明は、以上のような従来技術の問題点を解消するためになされたもので、定性的な非数値データを含む過去の統計情報に基づいて、論理的に特定の事象の発生の予測を支援することができる情報処理装置と情報処理プログラム並びに情報処理方法を提供することを目的とする。
 本発明は、入力データに対応する判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標に基づいて判定する情報処理装置であって、複数の指標のそれぞれは、複数の区分を含み、判定対象に対応する入力データと、複数の見本対象のそれぞれに対応する複数の見本データと、が記憶される記憶部と、入力データが該当する指標ごとの区分に基づいて、判定対象が特定分類に属するか否かを決定する分類判定部と、を有してなり、入力データは、入力データが該当する複数の指標ごとの区分を示す指標情報、を含み、見本データは、見本データが該当する複数の指標ごとの区分を示す指標情報と、見本対象が特定分類に属するか否かを示す分類情報と、を含み、分類判定部は、見本データの指標情報と見本データの分類情報とを用いて複数の分類ごとに集計された指標ごとの各区分に属する見本データの数に基づいて、特定分類が生起したときの指標の区分ごとの第1条件付確率と、複数の分類のうち特定分類ではない非特定分類が生起したときの指標の区分ごとの第2条件付確率と、を算出し、入力データの指標情報と、第1条件付確率と、第2条件付確率と、に基づいて、判定対象が特定分類に属するか否かを決定する、ことを特徴とする。
 本発明によれば、定性的な非数値データを含む過去の統計情報に基づいて、論理的に特定の事象の発生の予測を支援することができる。
本発明にかかる情報処理装置の実施の形態を示すブロック図である。 図1の情報処理装置に記憶される見本データの例を示す模式図である。 図1の情報処理装置に記憶される見本データの分類情報の例を示す模式図である。 図1の情報処理装置に記憶される見本データの指標情報の例を示す模式図である。 図1の情報処理装置に記憶される見本データから抽出された訓練データの指標ごとの区分に属するデータ数の例を示す模式図である。 本発明にかかる情報処理方法の例を示すフローチャートである。 図6の情報処理方法における指標の選択処理の例を示すフローチャートである。 図1の情報処理装置に記憶される見本データから抽出された評価データの指標ごとに該当する区分と分類情報と推定情報と判定情報との関係を示す模式図である。 図6の情報処理方法における入力データの分類判定処理の例を示すフローチャートである。 図1の情報処理装置が決定した選択指標が表示された画面の例を示す模式図である。 図1の情報処理装置が決定した選択指標が表示された別の画面の例を示す模式図である。 図1の情報処理装置が決定した選択指標が表示された別の画面の例を示す模式図である。
 以下、図面を参照しながら、本発明にかかる情報処理装置と情報処理プログラム並びに情報処理方法の実施の形態について説明する。
 本発明は、過去の実績を示す見本データから定まる評価値を用いて、数学的基盤の明確な統計的パターン認識理論に基づき、入力データで示される予測の対象において特定の事象が生じるか否かの予測を支援するものである。
 以下に説明する実施の形態は、予測の対象となる肝癌の患者(以下「対象患者」という。)の検査データと、対象患者とは異なる別の患者であって肝癌の摘出手術(以下「手術」という。)を受けた患者(以下「見本患者」という。)の検査データおよび手術後の経過と、を用いて、手術を受けた対象患者の肝癌の再発の有無の予測を支援する場合を例にして、本発明の内容を説明する。
 なお、本発明は、判定の対象が、複数の分類の中の特定分類に属するか否かを判定するものに適用可能であって、本発明の適用可能な範囲は本実施の形態に限られない。
 本発明にかかる情報処理装置は、後述のとおり、見本患者の見本データと、対象患者の入力データと、を用いて、対象患者の肝癌の再発の不確実性を事後確率として数値で表す。本発明にかかる情報処理装置は、この事後確率を用いる統計的パターン認識のBayes識別則により、予測の信頼性を向上させている。
 また、本発明にかかる情報処理装置は、後述のとおり、見本データを用いて、複数の検査項目(マーカー)の中から肝癌の再発の予測に有効な検査項目の選択の不確実性を事後確率として数値で表す。検査項目は、本発明における指標の例である。本発明にかかる情報処理装置は、この事後確率を用いる統計的パターン認識のBayes識別則により、検査項目の選択の信頼性を向上させている。
●情報処理装置●
 図1は、本発明にかかる情報処理装置(以下「本装置」という。)の実施の形態を示すブロック図である。本装置1は、記憶部2と、指標選択部3と、分類判定部4と、を有してなる。指標選択部3は、見本データ抽出部31と、事前確率算出部32と、条件付確率算出部33と、事後確率算出部34と、分類推定部35と、指標決定部36と、を含む。
 本装置1は、パーソナルコンピュータなどで実現される。本装置1では、本発明にかかる情報処理プログラム(以下「本プログラム」という。)が動作して、本プログラムが本装置1のハードウェア資源と協働して、後述する本発明にかかる情報処理方法(以下「本方法」という。)を実現する。
 なお、図示しないコンピュータに本プログラムを実行させることで、同コンピュータを本装置1と同様に機能させて、同コンピュータに本方法を実行させることができる。
 記憶部2は、見本データや入力データなど、本装置1が後述する本方法を実行するために必要な情報が記憶される手段である。
 見本データは、見本患者の検査情報と分類情報とを含む。
 検査情報は、検査項目ごとの検査結果を示す情報である。検査項目は、定性的な検査項目と定量的な検査項目とがある。定性的な検査項目は、例えば、性別、リンパ管侵襲の有無、潰瘍の有無、静脈侵襲の有無、など、いわば順序のつかない非数値データで検査結果が表される検査項目である。定量的な検査項目は、例えば、腫瘍数、腫瘍サイズ、ビリルビン値、アルブミン値、腫瘍の深達度、腫瘍の分化度、腫瘍の肉眼度、など、数値データで検査結果が表される検査項目である。本発明は、後述する検査項目ごとの区分を用いて、検査情報のすべてを離散データで統一する。すなわち、本発明におけるBayes識別則は、通常のBayes識別則とは異なり、定性的な非数値データを取り扱うことができる。
 分類情報は、特定の事象が生起したか否かを示す情報である。
 ここで、特定の事象は、「手術後1年以内に肝癌が再発した」ことをいう。すなわち、分類情報は、「手術後1年以内に肝癌が再発したか否かを示す情報」である。
 入力データは、対象患者の検査情報を含む。
 図2は、記憶部2に記憶される見本データの例を示す模式図である。
 記憶部2には、複数の見本データが記憶される。各見本データは、見本識別子(見本ID)と関連付けて記憶される。すなわち、本装置1は、見本IDを用いて、見本IDに対応する見本データを、記憶部2から読み出すことができる。見本データに含まれる検査情報は、検査項目を特定する指標識別子(指標ID)と関連付けられて、記憶部2に記憶される。同図は、例えば、見本ID「D」の見本データにおいて、指標ID「X」の検査項目における検査結果を示す検査データは「V11」、指標ID「X」の検査項目における検査結果を示す検査データは「V21」であることを示す。
 図3は、分類情報の例を示す模式図である。
 分類情報「ω」は、「手術後1年以内に肝癌が再発したことを示す情報」である。分類情報「ω」は、「手術後1年以内に肝癌が再発しなかったことを示す情報」である。同図は、例えば、見本ID「D」の見本患者の分類情報が「ω」、すなわち、同患者は手術後1年以内に肝癌を再発しなかった、ことを示す。各見本患者は、「手術後1年以内に肝癌が再発した」分類(以下「特定分類」という。)と、「手術後1年以内に肝癌が再発しなかった」分類(以下「非特定分類」という。)のいずれかの分類に属する。
 指標選択部3は、複数の検査項目の中から肝癌の予測に適した検査項目を選択する手段である。検査項目の選択方法については、後述する。
 分類判定部4は、対象患者の肝癌の再発を予測する手段である。肝癌の再発の予測方法については、後述する。
 見本データ抽出部31は、見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する手段である。
 事前確率算出部32は、特定分類が生起する確率(以下「第1事前確率」という。)と、非特定分類が生起する確率(以下「第2事前確率」という。)と、を算出する手段である。
 条件付確率算出部33は、第1条件付確率と第2条件付確率とを算出する手段である。
 第1条件付確率は、訓練データの指標情報と分類情報とを用いて、指標群に含まれる指標の区分ごとに算出される、特定分類が生起したときに指標情報が区分に該当する条件付確率である。指標情報と指標群とについては、後述する。
 第2条件付確率は、訓練データの指標情報と分類情報とを用いて、指標群に含まれる指標の区分ごとに算出される、非特定分類が生起したときに指標情報が区分に該当する条件付確率である。
 指標情報は、見本データ(訓練データ、評価データ)ごとの情報であって、見本データに含まれる検査情報が該当する「検査項目ごとの区分」を示す情報である。
 検査項目ごとの区分は、検査項目で取り得る値を複数に分割したときのそれぞれを特定する情報である。検査項目の区分は、その検査項目で取り得る値が互いに排反事象となるように分割する。すなわち、患者の検査データは、検査項目ごとにいずれかの区分に属する。検査項目が性別であれば、2つの区分「男性」「女性」に分割される。検査項目が腫瘍数であれば、例えば、3つの区分「2個未満」「2個以上7個未満」「7個以上」に分割される。
 指標群は、複数の検査項目の中から選択された1または複数の検査項目の組合せである。
 図4は、記憶部2に記憶される訓練データの指標情報の例を示す模式図である。
 同図は、指標ID「X」の検査項目が2つの区分に分割されていて、各区分を特定する区分識別子(区分ID)が「X1(1)」「X1(2)」であることを示す。同図は、指標ID「X」の検査項目が3つの区分に分割されていて、各区分を特定する区分IDが「X2(1)」「X2(2)」「X2(3)」であることを示す。同図は、見本ID「Dt1」の訓練データは、指標ID「X」の検査項目において区分ID「X1(2)」の区分に属し、指標ID「X」の検査項目において区分ID「X2(2)」の区分に属することを示す。
 検査項目ごとの区分を特定する情報、例えば、検査項目が性別における区分「男性」「女性」を特定する情報や、検査項目が腫瘍数における区分「3個未満」「3個以上7個未満」「7個以上」を特定する情報は、記憶部2に予め記憶されている。
 本装置1は、記憶部2に記憶されている検査項目ごとの区分を特定する情報を参照して、各訓練データの検査情報から訓練データの指標情報を生成して記憶部2に記憶する。
 図5は、記憶部2に記憶される検査項目ごとの区分に属する訓練データの数(訓練データに対応する見本患者(以下「訓練患者」という。)の人数)の例を示す模式図である。同図は、指標ごとの区分のそれぞれに属する訓練患者の人数が、分類ごとに記憶されていることを示す。
 同図は、分類ID「ω」の分類に属する訓練患者のうち、指標ID「X」の検査項目の区分ID「X1(1)」の区分に属する訓練患者の人数は「n 1(1)」人、区分ID「X1(2)」の区分に属する訓練患者の人数は「n 1(2)」人であることを示す。同図は、分類ID「ω」の分類に属する訓練患者のうち、指標ID「X」の検査項目の区分ID「X2(1)」の区分に属する訓練患者の人数は「n 2(1)」人、区分ID「X2(2)」の区分に属する訓練患者の人数は「n 2(2)」人、区分ID「X2(3)」の区分に属する訓練患者の人数は「n 2(3)」人、であることを示す。
 ここで、分類ID「ω」の分類に属する検査項目ごとの訓練患者の人数は、検査項目に関わらず一定である。すなわち、以下の関係が成り立つ。
 n 1(1)+n 1(2) = n 2(1)+n 2(2)+n 2(3)
 本装置1は、訓練データの指標情報と分類情報とを用いて、検査項目ごとの各区分に属する訓練患者の人数を、分類ごとに集計して記憶部2に記憶する。
 本装置1は、分類ごとに集計された、指標ごとの区分のそれぞれに属する訓練患者の人数を用いて、各検査項目の区分ごとの条件付確率(第1条件付確率と第2条件付確率)を算出する。
Figure JPOXMLDOC01-appb-I000001
(式1)
Figure JPOXMLDOC01-appb-I000002
Figure JPOXMLDOC01-appb-I000003
 一般に、検査項目に対する検査結果が複数の区分のいずれかに属するという事象が互いに独立であるとき、以下の式2が成り立つ。
(式2)
Figure JPOXMLDOC01-appb-I000004
 事象が2つの分類ωとωのいずれかに属するという2クラス問題において、事後確率P(ω|X)は、Bayesの定理により、式3となる。
(式3)
Figure JPOXMLDOC01-appb-I000005
 事前確率P(ω)が等確率の0.5とすると、式3に示した事後確率P(ω|X)は、式4となる。
(式4)
Figure JPOXMLDOC01-appb-I000006
 式4に式2を代入すると、事後確率P(ω|X)は式5で算出される。
(式5)
Figure JPOXMLDOC01-appb-I000007
 ここで、検査項目がXとXのとき、つまり、d=2のときに、訓練患者の検査データがX1(1)とX2(3)に属したとする。このとき、式6が成り立つ。
(式6)
Figure JPOXMLDOC01-appb-I000008
 よって、式5中のP(X1(1),X2(3)|ω)は、式7で算出される。
(式7)
Figure JPOXMLDOC01-appb-I000009
 同様にして、P(X1(1),X2(3)|ω)を算出した上で、式5により、分類ωとωの事後確率を算出する。算出された分類ごとの事後確率を比較して、事後確率が大きい分類に同患者を識別する。
●情報処理方法●
 次に、本装置1が実行する本方法の実施の形態について説明する。
 図6は、本方法の実施の形態を示すフローチャートである。
 先ず、本装置1は、指標選択部3を用いて、複数の検査項目の中から、肝癌の再発の予測に適した検査項目を、選択指標として選択する(S1)。
 次いで、本装置1は、分類判定部4を用いて、選択指標を用いて入力データの分類を判定、つまり、入力データに対応する対象患者の手術後1年以内の肝癌の再発の有無を予測する(S2)。
●指標の選択
 図7は、本装置1が指標選択部3を用いて実行する指標の選択処理(S1)の例を示すフローチャートである。
 先ず、本装置1は、見本データ抽出部31を用いて、記憶部2に記憶されている見本データを取得し(S11)、取得した見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する(S12)。本装置1は、例えば、取得した100件の見本データのうち、80件の見本データを訓練データとして抽出し、残り20件の見本データを評価データとして抽出する。本装置1は、見本データの内容(検査結果)を参照することなく、ランダムに見本データから訓練データと評価データとを抽出する。本装置1により抽出される訓練データと評価データの数や、訓練データと評価データの数の比率は、予め、記憶部2に記憶されていて、本装置1は、記憶部2に記憶されているこれらの数や比率に基づいて、見本データを抽出する。
 なお、本発明において、見本データから抽出される評価データの数は、見本データから訓練データを抽出した残りの全見本データでなくてもよい。すなわち、例えば、100件の見本データのうち、80件の見本データを訓練データとして抽出し、残り20件の見本データのうち15件の見本データを評価データとして抽出してもよい。
 次いで、本装置1は、複数の検査項目のいずれかの組合せで構成される指標群を特定する(S13)。複数の検査項目が、例えば、X,X,Xの3つのとき、本装置1により特定される指標群は、(X),(X),(X),(X,X),(X,X),(X,X),(X,X,X)の7つである。
 なお、本装置1により特定される指標群に含まれる指標の数が予め決められていて、この指標の数は本装置1が指標群を特定する際に参照できるように記憶部2に記憶されていてもよい。すなわち、例えば、指標群に含まれる指標の数が「2」であり、見本データに含まれる指標がX,X,Xの3つのとき、本装置1は、指標群として(X,X)と(X,X)の2つを特定する。
 次いで、本装置1は、条件付確率算出部33を用いて、特定された指標群ごとに、指標群に含まれる検査項目の区分ごとの条件付確率(第1条件付確率と第2条件付確率)を、訓練データに基づいて式1により算出する(S14)。
 次いで、本装置1は、評価データごとに、事後確率算出部34を用いて、分類ごとの事後確率を、式5により算出する。
 なお、本実施の形態は、特定分類と非特定分類とが生起する確率は等確率(0.5)としているため、本装置1は、事前確率(第1事前確率と第2事前確率)を算出することなく、事後確率を式5で算出する。
 次いで、本装置1は、分類推定部35を用いて、評価データの分類を、算出された分類ごとの事後確率に基づいて推定して(S15)、推定の当否を判定する(S16)。
 本装置1は、例えば、算出された分類ごとの事後確率の大小を比較して、事後確率の大きい分類を評価データの分類として推定する。
 本装置1は、推定された分類を示す推定情報と、記憶部2に見本データとして記憶されている評価データの分類情報と、を比較して、両者が一致するか否かで、評価データの分類の推定の当否を判定する。すなわち、両者が一致すれば評価データの分類の推定は妥当と判定され、両者が不一致であれば評価データの分類の推定は不当と判定される。
 図8は、特定された指標群に含まれる検査項目が「X,X,・・・」であり、見本ID「De1,De2,・・・」の各評価データが属する検査項目ごとの区分と、各評価データの分類情報と、本装置1が推定した各評価データの分類を示す推定情報と、本装置1が判定した推定の当否を示す判定情報と、の関係を示す模式図である。
 同図は、見本ID「De1」の評価データの分類情報が分類ID「ω」の分類で、推定情報が分類ID「ω」の分類で、判定情報が妥当であることを示す「T」であることを示す。すなわち、本装置1は、見本ID「De1」の評価データに対応する患者が手術後1年以内に肝癌の再発があったことを言い当てている。
 一方、同図は、見本ID「De2」の評価データの分類情報が分類ID「ω」の分類で、推定情報が分類ID「ω」の分類で、判定情報が不当であることを示す「F」であることを示す。すなわち、本装置1は、見本ID「De2」の評価データに対応する患者が手術後1年以内に肝癌の再発が無かったことを言い当てていない。
 本装置1は、すべての指標群に対して、処理S14からS16を実行する(S17)。
 次いで、本装置1は、指標決定部36を用いて、指標群ごとの推定の当否の判定結果を比較して(S18)、選択指標を決定する(S19)。
 本装置1は、例えば、指標群ごとに評価データの判定情報を集計して、推定が妥当と判定された評価データの数が最大の指標群に含まれる検査項目を、選択指標として決定する。
●入力データの分類判定
 図9は、本装置1が分類判定部4を用いて実行する入力データの分類判定処理(S2)の例を示すフローチャートである。
 先ず、本装置1は、入力データの指標情報を取得する(S21)。入力データの指標情報は、前述の見本データの指標情報と同様に、入力データに含まれる検査情報が該当する「検査項目ごとの区分」を示す情報である。本装置1は、入力データと、選択指標に対応する検査項目ごとの区分を特定する情報と、を記憶部2から読み出す。本装置1は、選択指標に対応する検査項目ごとに、入力データの検査情報が該当する区分を特定して、入力データの指標情報を取得する。
 次いで、本装置1は、見本データを用いて決定された選択指標に含まれる指標の区分ごとの条件付確率(処理S14と同様に算出)を用いて、入力データの分類ごとの事後確率を、式5により算出する(S22)。
 次いで、本装置1は、算出された分類ごとの事後確率を比較する(S23)。
 次いで、本装置1は、入力データの分類を特定、すなわち、入力データの分類を特定分類または非特定分類のいずれかに識別する(S24)。
 本装置1は、例えば、分類ごとの事後確率の大小を比較して、最大の事後確率に対応する分類を、入力データの分類として識別する。
 特定された入力データの分類は、入力データと関連付けて記憶部2に記憶される。特定された入力データの分類は、本装置1のディスプレイ(不図示)などに、例えば、「患者○○さんは、手術後1年以内に肝癌を再発する可能性は低い」などと表示して出力される。
 図10は、本装置1が決定した選択指標が表示された画面の例を示す模式図である。同図は、検査項目X、X、・・・、Xの中から選択指標として選択された検査項目がXとXであることを示す。
 図11は、本装置1が決定した選択指標が表示された別の画面の例を示す模式図である。同図は、検査項目Y、Y、Y、・・・、Yの中から選択された検査項目の組合せと、同組合せの事後確率とが、事後確率の降順に表示されていることを示す。本装置1は、例えば、本装置1の使用者にこの画面を閲覧させることで、検査項目の組合せの違いを事後確率の大小で確認させることができる。
 図12は、本装置1が決定した選択指標が表示されたさらに別の画面の例を示す模式図である。同図は、検査項目ZとZの検査を受けているある患者が、検査項目Zの検査を受けることで、ある疾患の再発の予測精度が高まることを示す。本装置1は、例えば、図11に示したような検査項目の組合せと事後確率との対応関係と、ある患者の検査済の検査項目の組合せよりも事後確率が大きい検査項目の組合せを特定して、特定された検査項目の組合せに含まれる検査項目のうち患者の検査済の検査項目以外の検査項目を抽出することができる。
●まとめ●
 以上説明した実施の形態によれば、肝癌の再発の予測に用いる検査項目の適否を、事後確率という数値で比較することができる。その結果、本発明によれば、数値に基づいて論理的に肝癌の再発の予測を支援することができる。
 なお、以上説明した実施の形態は、特定分類と非特定分類の2つの分類を対象とするものであったが、本発明は3つ以上の分類へも適用可能である。
 分類ω,ω,・・・,ω(m≧3)のそれぞれが生起する事象が互いに排反事象で、かつ、それらの和集合が全集合であるとき、入力データは、m個の分類のうちのいずれか一の分類に属する。このとき、検査項目Xt1(rt1),Xt2(rt2),・・・,Xtd(rtd)が用いられると、本装置は、分類ごとの条件付確率P(Xt1(rt1),Xt2(rt2),・・・,Xtd(rtd)|ω)(i=1,2,・・・,m)を算出した上で、事後確率P(ω|Xt1(rt1),Xt2(rt2),・・・,Xtd(rtd))を式8により算出する。
(式8)
Figure JPOXMLDOC01-appb-I000010
 入力データX=[Xt1(rt1),Xt2(rt2),・・・,Xtd(rtd)]の事後確率P(ω|Xt1(rt1),Xt2(rt2),・・・,Xtd(rtd))において、式9が成立するとき、本装置は、入力データXの分類を、分類ωと判定する。
(式9)
Figure JPOXMLDOC01-appb-I000011
 以下、これまで説明した本装置と本プログラムと本方法の特徴を、まとめて記載しておく。
(特徴1)
 入力データに対応する判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標に基づいて判定する情報処理装置であって、
 前記複数の指標のそれぞれは、複数の区分を含み、
 前記判定対象に対応する入力データと、複数の見本対象のそれぞれに対応する複数の見本データと、が記憶される記憶部と、
 前記入力データが該当する前記指標ごとの区分に基づいて、前記判定対象が前記特定分類に属するか否かを決定する分類判定部と、
を有してなり、
 前記入力データは、前記入力データが該当する前記複数の指標ごとの区分を示す指標情報、を含み、
 前記見本データは、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本対象が前記特定分類に属するか否かを示す分類情報と、を含み、
 前記分類判定部は、
 前記見本データの前記指標情報と前記見本データの前記分類情報とを用いて前記複数の分類ごとに集計された前記指標ごとの各区分に属する見本データの数に基づいて、前記特定分類が生起したときの前記指標の区分ごとの第1条件付確率と、前記複数の分類のうち前記特定分類ではない非特定分類が生起したときの前記指標の区分ごとの第2条件付確率と、を算出し、
 前記入力データの前記指標情報と、前記第1条件付確率と、前記第2条件付確率と、に基づいて、前記判定対象が前記特定分類に属するか否かを決定する、
ことを特徴とする情報処理装置。
(特徴2)
 前記分類判定部は、
 前記入力データの前記指標情報と、前記複数の分類のうち前記特定分類が生起する第1事前確率と、前記第1条件付確率と、に基づいて、前記判定対象が前記特定分類に属する第1事後確率を算出し、
 前記入力データの前記指標情報と、前記複数の分類のうち前記非特定分類が生起する第2事前確率と、前記第2条件付確率と、に基づいて、前記判定対象が前記非特定分類に属する第2事後確率を算出し、
 前記第1事後確率と前記第2事後確率とを比較して、前記判定対象が前記特定分類に属するか否かを決定する、
特徴1記載の情報処理装置。
(特徴3)
 前記複数の指標には、定性的な指標が含まれる、
特徴1記載の情報処理装置。
(特徴4)
 前記複数の指標には、定量的な指標が含まれる、
特徴3記載の情報処理装置。
(特徴5)
 前記複数の指標の中から選択指標を選択する指標選択部、
を備え、
 前記分類判定部は、前記入力データが該当する前記選択指標ごとの区分に基づいて、前記判定対象が前記特定分類に属するか否かを決定する、
特徴1記載の情報処理装置。
(特徴6)
 前記指標選択部は、前記第1条件付確率と前記第2条件付確率とを用いて、前記選択指標を選択する、
特徴5記載の情報処理装置。
(特徴7)
 前記指標選択部は、
 (a)前記複数の見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する、見本データ抽出部と、
 (b)前記複数の指標のいずれかの組合せで構成される指標群ごとに、
 前記訓練データの前記指標情報と、前記訓練データの前記分類情報と、前記評価データの前記指標情報と、を用いて、前記評価データに対応する前記見本対象が前記特定分類に属するか否かを推定し、
 前記評価データの前記分類情報を用いて、前記推定の当否を判定する、
分類推定部と、
 (c)前記指標群ごとの前記推定の当否の判定結果に基づいて、前記選択指標を決定する、指標決定部と、
を備え、
 前記分類推定部は、前記第1条件付確率と前記第2条件付確率とを用いて、前記評価データに対応する前記見本対象が前記特定分類に属するか否かを推定する、
特徴6記載の情報処理装置。
(特徴8)
 前記見本データ抽出部は、前記複数の見本データの中から複数の前記評価データを抽出し、
 前記分類推定部は、前記複数の評価データごとに、前記第1条件付確率と前記第2条件付確率とを用いて、前記推定の当否の判定結果を示す判定情報を出力し、
 前記指標決定部は、前記複数の評価データごとの前記判定情報に基づいて、前記選択指標を決定する、
特徴7記載の情報処理装置。
(特徴9)
 コンピュータを、特徴1記載の情報処理装置として機能させる、
ことを特徴とする情報処理プログラム。
(特徴10)
 判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標に基づいて判定する情報処理装置により実行される情報処理方法であって、
 前記複数の指標のそれぞれは、複数の区分を含み、
 前記情報処理装置は、
 前記判定対象に対応する入力データと、複数の見本対象のそれぞれに対応する見本データと、が記憶される記憶部と、
 前記入力データが該当する前記指標ごとの区分に基づいて、前記判定対象が前記特定分類に属するか否かを決定する分類判定部と、
を備え、
 前記入力データは、前記入力データが該当する前記複数の指標ごとの区分を示す指標情報、を含み、
 前記見本データは、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本対象が前記特定分類に属するか否かを示す分類情報と、を含み、
 前記情報処理装置が、
 前記見本データの前記指標情報と前記見本データの前記分類情報とを用いて前記複数の分類ごとに集計された前記指標ごとの各区分に属する見本データの数に基づいて、前記特定分類が生起したときの前記指標の区分ごとの第1条件付確率と、前記複数の分類のうち前記特定分類ではない非特定分類が生起したときの前記指標の区分ごとの第2条件付確率と、を算出するステップと、
 前記入力データの前記指標情報と、前記第1条件付確率と、前記第2条件付確率と、に基づいて、前記判定対象が前記特定分類に属するか否かを決定するステップと、
を有してなることを特徴とする情報処理方法。
(特徴11)
 入力データに対応する判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標の中から選択された選択指標に基づいて判定する情報処理装置であって、
 前記複数の指標のそれぞれは、複数の区分を含み、
 前記複数の指標の中から前記選択指標を選択する指標選択部と、
 前記入力データが該当する前記選択指標に含まれる指標ごとの区分に基づいて、前記入力データに対応する前記判定対象が前記特定分類に属するか否かを決定する分類判定部と、
を有してなり、
 前記選択指標の選択に用いられる複数の見本対象のそれぞれに対応する複数の見本データごとの、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本データに対応する前記見本対象が前記特定分類に属するか否かを示す分類情報と、が記憶される記憶部、
を備え、
 前記指標選択部は、
 (a)前記複数の見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する、見本データ抽出部と、
 (b)前記複数の指標のいずれかの組合せで構成される指標群ごとに、
 前記訓練データの前記指標情報と、前記訓練データの前記分類情報と、前記評価データの前記指標情報と、を用いて、前記評価データに対応する前記見本対象が前記特定分類に属するか否かを推定し、
 前記評価データの前記分類情報を用いて、前記推定の当否を判定する、
分類推定部と、
 (c)前記指標群ごとの前記推定の当否の判定結果に基づいて、前記選択指標を決定する、指標決定部と、
を備え、
 前記分類推定部は、
 (b-1)前記訓練データの前記指標情報と前記訓練データの前記分類情報とを用いて前記複数の分類ごとに集計された前記指標ごとの各区分に属する見本データの数に基づいて、前記特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第1条件付確率と、前記非特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第2条件付確率と、を算出し、
 (b-2)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類が生起する第1事前確率と、前記第1条件付確率と、に基づいて、前記評価データに対応する前記見本対象が前記特定分類に属する第1事後確率を算出し、
 (b-3)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類ではない非特定分類が生起する第2事前確率と、前記第2条件付確率と、に基づいて、前記評価データに対応する前記見本対象が前記非特定分類に属する第2事後確率を算出し、
 (b-4)前記第1事後確率と前記第2事後確率とを比較して、前記評価データに対応する前記見本対象が前記特定分類に属するか否かの推定の結果を示す推定情報を出力し、
 (b-5)前記評価データの前記推定情報と前記評価データの前記分類情報とを比較して、前記推定の当否の判定結果を示す判定情報を出力し、
 前記指標決定部は、
 (c-1)前記指標群ごとの前記判定情報のうち、所定の条件を満たす判定情報に対応する指標群を特定し、
 (c-2)前記特定された指標群に含まれる指標を前記選択指標として決定する、
ことを特徴とする情報処理装置。
(特徴12)
 前記分類推定部は、前記第1事前確率と、前記第2事前確率と、を算出する、
特徴11記載の情報処理装置。
(特徴13)
 前記見本データ抽出部は、前記複数の見本データの中から複数の前記評価データを抽出し、
 前記分類推定部は、前記複数の評価データごとに、前記判定情報を出力し、
 前記指標決定部は、前記複数の評価データごとの前記判定情報に基づいて、前記選択指標を決定する、
特徴11または12記載の情報処理装置。
(特徴14)
 前記分類推定部は、
 前記複数の評価データごとに、前記第1条件付確率と前記第2条件付確率と前記第1事後確率と前記第2事後確率とを算出して、前記推定情報を出力し、
 前記複数の評価データごとの前記推定情報に基づいて、前記複数の評価データごとの前記判定情報を出力する、
特徴13記載の情報処理装置。
(特徴15)
 前記第1事前確率は、前記第2事前確率と等しい、
特徴11記載の情報処理装置。
(特徴16)
 コンピュータを、特徴11記載の情報処理装置として機能させる、
ことを特徴とする情報処理プログラム。
(特徴17)
  入力データに対応する判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標の中から選択された選択指標に基づいて判定する情報処理装置により実行される情報処理方法であって、
 前記複数の指標のそれぞれは、複数の区分を含み、
 前記情報処理装置は、
 前記複数の指標の中から前記選択指標を選択する指標選択部と、
 前記入力データが該当する前記選択指標に含まれる指標ごとの区分に基づいて、前記入力データに対応する前記判定対象が前記特定分類に属するか否かを決定する分類判定部と、
 前記選択指標の選択に用いられる複数の見本対象のそれぞれに対応する複数の見本データごとの、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本データに対応する前記見本対象が前記特定分類に属するか否かを示す分類情報と、が記憶される記憶部と、
を備え、
 前記情報処理装置が、
 (a)前記複数の見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する、見本データ抽出ステップと、
 (b)前記複数の指標のいずれかの組合せで構成される指標群ごとに、
 前記訓練データの前記指標情報と、前記訓練データの前記分類情報と、前記評価データの前記指標情報と、を用いて、前記評価データに対応する前記見本対象が前記特定分類に属するか否かを推定し、
 前記評価データの前記分類情報を用いて、前記推定の当否を判定する、
分類推定ステップと、
 (c)前記指標群ごとの前記推定の当否の判定結果に基づいて、前記選択指標を決定する、指標決定ステップと、
を有してなり、
 前記分類推定ステップは、
 (b-1)前記訓練データの前記指標情報と前記訓練データの前記分類情報とを用いて前記複数の分類ごとに集計された前記指標ごとの各区分に属する見本データの数に基づいて、前記特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第1条件付確率と、前記非特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第2条件付確率と、を算出するステップと、
 (b-2)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類が生起する第1事前確率と、前記第1条件付確率と、に基づいて、前記評価データに対応する前記見本対象が前記特定分類に属する第1事後確率を算出するステップと、
 (b-3)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類ではない非特定分類が生起する第2事前確率と、前記第2条件付確率と、に基づいて、前記評価データに対応する前記見本対象が前記非特定分類に属する第2事後確率を算出するステップと、
 (b-4)前記第1事後確率と前記第2事後確率とを比較して、前記評価データに対応する前記見本対象が前記特定分類に属するか否かの推定の結果を示す推定情報を出力するステップと、
 (b-5)前記評価データの前記推定情報と前記評価データの前記分類情報とを比較して、前記推定の当否の判定結果を示す判定情報を出力するステップと、
を備え、
 前記指標決定ステップは、
 (c-1)前記指標群ごとの前記判定情報のうち、所定の条件を満たす判定情報に対応する指標群を特定するステップと、
 (c-2)前記特定された指標群に含まれる指標を前記選択指標として決定するステップと、
を備える、
ことを特徴とする情報処理方法。
 1  情報処理装置
 2  記憶部
 3  指標選択部
 31 見本データ抽出部
 32 事前確率算出部
 33 条件付確率算出部
 34 事後確率算出部
 35 分類推定部
 36 指標決定部
 4  分類判定部
 

 

Claims (17)

  1.  入力データに対応する判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標に基づいて判定する情報処理装置であって、
     前記複数の指標のそれぞれは、複数の区分を含み、
     前記判定対象に対応する入力データと、複数の見本対象のそれぞれに対応する複数の見本データと、が記憶される記憶部と、
     前記入力データが該当する前記指標ごとの区分に基づいて、前記判定対象が前記特定分類に属するか否かを決定する分類判定部と、
    を有してなり、
     前記入力データは、前記入力データが該当する前記複数の指標ごとの区分を示す指標情報、を含み、
     前記見本データは、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本対象が前記特定分類に属するか否かを示す分類情報と、を含み、
     前記分類判定部は、
     前記見本データの前記指標情報と前記見本データの前記分類情報とを用いて前記複数の分類ごとに集計された前記指標ごとの各区分に属する見本データの数に基づいて、前記特定分類が生起したときの前記指標の区分ごとの第1条件付確率と、前記複数の分類のうち前記特定分類ではない非特定分類が生起したときの前記指標の区分ごとの第2条件付確率と、を算出し、
     前記入力データの前記指標情報と、前記第1条件付確率と、前記第2条件付確率と、に基づいて、前記判定対象が前記特定分類に属するか否かを決定する、
    ことを特徴とする情報処理装置。
  2.  前記分類判定部は、
     前記入力データの前記指標情報と、前記複数の分類のうち前記特定分類が生起する第1事前確率と、前記第1条件付確率と、に基づいて、前記判定対象が前記特定分類に属する第1事後確率を算出し、
     前記入力データの前記指標情報と、前記複数の分類のうち前記非特定分類が生起する第2事前確率と、前記第2条件付確率と、に基づいて、前記判定対象が前記非特定分類に属する第2事後確率を算出し、
     前記第1事後確率と前記第2事後確率とを比較して、前記判定対象が前記特定分類に属するか否かを決定する、
    請求項1記載の情報処理装置。
  3.  前記複数の指標には、定性的な指標が含まれる、
    請求項1記載の情報処理装置。
  4.  前記複数の指標には、定量的な指標が含まれる、
    請求項3記載の情報処理装置。
  5.  前記複数の指標の中から選択指標を選択する指標選択部、
    を備え、
     前記分類判定部は、前記入力データが該当する前記選択指標ごとの区分に基づいて、前記判定対象が前記特定分類に属するか否かを決定する、
    請求項1記載の情報処理装置。
  6.  前記指標選択部は、前記第1条件付確率と前記第2条件付確率とを用いて、前記選択指標を選択する、
    請求項5記載の情報処理装置。
  7.  前記指標選択部は、
     (a)前記複数の見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する、見本データ抽出部と、
     (b)前記複数の指標のいずれかの組合せで構成される指標群ごとに、
     前記訓練データの前記指標情報と、前記訓練データの前記分類情報と、前記評価データの前記指標情報と、を用いて、前記評価データに対応する前記見本対象が前記特定分類に属するか否かを推定し、
     前記評価データの前記分類情報を用いて、前記推定の当否を判定する、
    分類推定部と、
     (c)前記指標群ごとの前記推定の当否の判定結果に基づいて、前記選択指標を決定する、指標決定部と、
    を備え、
     前記分類推定部は、前記第1条件付確率と前記第2条件付確率とを用いて、前記評価データに対応する前記見本対象が前記特定分類に属するか否かを推定する、
    請求項6記載の情報処理装置。
  8.  前記見本データ抽出部は、前記複数の見本データの中から複数の前記評価データを抽出し、
     前記分類推定部は、前記複数の評価データごとに、前記第1条件付確率と前記第2条件付確率とを用いて、前記推定の当否の判定結果を示す判定情報を出力し、
     前記指標決定部は、前記複数の評価データごとの前記判定情報に基づいて、前記選択指標を決定する、
    請求項7記載の情報処理装置。
  9.  コンピュータを、請求項1記載の情報処理装置として機能させる、
    ことを特徴とする情報処理プログラム。
  10.  判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標に基づいて判定する情報処理装置により実行される情報処理方法であって、
     前記複数の指標のそれぞれは、複数の区分を含み、
     前記情報処理装置は、
     前記判定対象に対応する入力データと、複数の見本対象のそれぞれに対応する見本データと、が記憶される記憶部と、
     前記入力データが該当する前記指標ごとの区分に基づいて、前記判定対象が前記特定分類に属するか否かを決定する分類判定部と、
    を備え、
     前記入力データは、前記入力データが該当する前記複数の指標ごとの区分を示す指標情報、を含み、
     前記見本データは、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本対象が前記特定分類に属するか否かを示す分類情報と、を含み、
     前記情報処理装置が、
     前記見本データの前記指標情報と前記見本データの前記分類情報とを用いて前記複数の分類ごとに集計された前記指標ごとの各区分に属する見本データの数に基づいて、前記特定分類が生起したときの前記指標の区分ごとの第1条件付確率と、前記複数の分類のうち前記特定分類ではない非特定分類が生起したときの前記指標の区分ごとの第2条件付確率と、を算出するステップと、
     前記入力データの前記指標情報と、前記第1条件付確率と、前記第2条件付確率と、に基づいて、前記判定対象が前記特定分類に属するか否かを決定するステップと、
    を有してなることを特徴とする情報処理方法。
  11.  入力データに対応する判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標の中から選択された選択指標に基づいて判定する情報処理装置であって、
     前記複数の指標のそれぞれは、複数の区分を含み、
     前記複数の指標の中から前記選択指標を選択する指標選択部と、
     前記入力データが該当する前記選択指標に含まれる指標ごとの区分に基づいて、前記入力データに対応する前記判定対象が前記特定分類に属するか否かを決定する分類判定部と、
    を有してなり、
     前記選択指標の選択に用いられる複数の見本対象のそれぞれに対応する複数の見本データごとの、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本データに対応する前記見本対象が前記特定分類に属するか否かを示す分類情報と、が記憶される記憶部、
    を備え、
     前記指標選択部は、
     (a)前記複数の見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する、見本データ抽出部と、
     (b)前記複数の指標のいずれかの組合せで構成される指標群ごとに、
     前記訓練データの前記指標情報と、前記訓練データの前記分類情報と、前記評価データの前記指標情報と、を用いて、前記評価データに対応する前記見本対象が前記特定分類に属するか否かを推定し、
     前記評価データの前記分類情報を用いて、前記推定の当否を判定する、
    分類推定部と、
     (c)前記指標群ごとの前記推定の当否の判定結果に基づいて、前記選択指標を決定する、指標決定部と、
    を備え、
     前記分類推定部は、
     (b-1)前記訓練データの前記指標情報と前記訓練データの前記分類情報とを用いて前記複数の分類ごとに集計された前記指標ごとの各区分に属する見本データの数に基づいて、前記特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第1条件付確率と、前記非特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第2条件付確率と、を算出し、
     (b-2)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類が生起する第1事前確率と、前記第1条件付確率と、に基づいて、前記評価データに対応する前記見本対象が前記特定分類に属する第1事後確率を算出し、
     (b-3)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類ではない非特定分類が生起する第2事前確率と、前記第2条件付確率と、に基づいて、前記評価データに対応する前記見本対象が前記非特定分類に属する第2事後確率を算出し、
     (b-4)前記第1事後確率と前記第2事後確率とを比較して、前記評価データに対応する前記見本対象が前記特定分類に属するか否かの推定の結果を示す推定情報を出力し、
     (b-5)前記評価データの前記推定情報と前記評価データの前記分類情報とを比較して、前記推定の当否の判定結果を示す判定情報を出力し、
     前記指標決定部は、
     (c-1)前記指標群ごとの前記判定情報のうち、所定の条件を満たす判定情報に対応する指標群を特定し、
     (c-2)前記特定された指標群に含まれる指標を前記選択指標として決定する、
    ことを特徴とする情報処理装置。
  12.  前記分類推定部は、前記第1事前確率と、前記第2事前確率と、を算出する、
    請求項11記載の情報処理装置。
  13.  前記見本データ抽出部は、前記複数の見本データの中から複数の前記評価データを抽出し、
     前記分類推定部は、前記複数の評価データごとに、前記判定情報を出力し、
     前記指標決定部は、前記複数の評価データごとの前記判定情報に基づいて、前記選択指標を決定する、
    請求項11または12記載の情報処理装置。
  14.  前記分類推定部は、
     前記複数の評価データごとに、前記第1条件付確率と前記第2条件付確率と前記第1事後確率と前記第2事後確率とを算出して、前記推定情報を出力し、
     前記複数の評価データごとの前記推定情報に基づいて、前記複数の評価データごとの前記判定情報を出力する、
    請求項13記載の情報処理装置。
  15.  前記第1事前確率は、前記第2事前確率と等しい、
    請求項11記載の情報処理装置。
  16.  コンピュータを、請求項11記載の情報処理装置として機能させる、
    ことを特徴とする情報処理プログラム。
  17.   入力データに対応する判定対象が、複数の分類の中の特定分類に属するか否かを、複数の指標の中から選択された選択指標に基づいて判定する情報処理装置により実行される情報処理方法であって、
     前記複数の指標のそれぞれは、複数の区分を含み、
     前記情報処理装置は、
     前記複数の指標の中から前記選択指標を選択する指標選択部と、
     前記入力データが該当する前記選択指標に含まれる指標ごとの区分に基づいて、前記入力データに対応する前記判定対象が前記特定分類に属するか否かを決定する分類判定部と、
     前記選択指標の選択に用いられる複数の見本対象のそれぞれに対応する複数の見本データごとの、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本データに対応する前記見本対象が前記特定分類に属するか否かを示す分類情報と、が記憶される記憶部と、
    を備え、
     前記情報処理装置が、
     (a)前記複数の見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する、見本データ抽出ステップと、
     (b)前記複数の指標のいずれかの組合せで構成される指標群ごとに、
     前記訓練データの前記指標情報と、前記訓練データの前記分類情報と、前記評価データの前記指標情報と、を用いて、前記評価データに対応する前記見本対象が前記特定分類に属するか否かを推定し、
     前記評価データの前記分類情報を用いて、前記推定の当否を判定する、
    分類推定ステップと、
     (c)前記指標群ごとの前記推定の当否の判定結果に基づいて、前記選択指標を決定する、指標決定ステップと、
    を有してなり、
     前記分類推定ステップは、
     (b-1)前記訓練データの前記指標情報と前記訓練データの前記分類情報とを用いて前記複数の分類ごとに集計された前記指標ごとの各区分に属する見本データの数に基づいて、前記特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第1条件付確率と、前記非特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第2条件付確率と、を算出するステップと、
     (b-2)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類が生起する第1事前確率と、前記第1条件付確率と、に基づいて、前記評価データに対応する前記見本対象が前記特定分類に属する第1事後確率を算出するステップと、
     (b-3)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類ではない非特定分類が生起する第2事前確率と、前記第2条件付確率と、に基づいて、前記評価データに対応する前記見本対象が前記非特定分類に属する第2事後確率を算出するステップと、
     (b-4)前記第1事後確率と前記第2事後確率とを比較して、前記評価データに対応する前記見本対象が前記特定分類に属するか否かの推定の結果を示す推定情報を出力するステップと、
     (b-5)前記評価データの前記推定情報と前記評価データの前記分類情報とを比較して、前記推定の当否の判定結果を示す判定情報を出力するステップと、
    を備え、
     前記指標決定ステップは、
     (c-1)前記指標群ごとの前記判定情報のうち、所定の条件を満たす判定情報に対応する指標群を特定するステップと、
     (c-2)前記特定された指標群に含まれる指標を前記選択指標として決定するステップと、
    を備える、
    ことを特徴とする情報処理方法。
     

     
PCT/JP2016/088734 2016-02-26 2016-12-26 情報処理装置と情報処理プログラム並びに情報処理方法 WO2017145517A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/079,835 US11461598B2 (en) 2016-02-26 2016-12-26 Information processing device, information processing program, and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-035605 2016-02-26
JP2016035605A JP6041331B1 (ja) 2016-02-26 2016-02-26 情報処理装置と情報処理プログラム並びに情報処理方法

Publications (1)

Publication Number Publication Date
WO2017145517A1 true WO2017145517A1 (ja) 2017-08-31

Family

ID=57483260

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/088734 WO2017145517A1 (ja) 2016-02-26 2016-12-26 情報処理装置と情報処理プログラム並びに情報処理方法

Country Status (3)

Country Link
US (1) US11461598B2 (ja)
JP (1) JP6041331B1 (ja)
WO (1) WO2017145517A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742195B (zh) * 2021-09-18 2022-03-29 北京航空航天大学 一种基于贝叶斯神经网络的系统健康状态预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013532295A (ja) * 2010-07-09 2013-08-15 ソマロジック・インコーポレーテッド 肺癌バイオマーカーとその使用
US20140274772A1 (en) * 2013-03-15 2014-09-18 Rush University Medical Center Biomarker panel for detecting lung cancer

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5063603A (en) * 1989-11-06 1991-11-05 David Sarnoff Research Center, Inc. Dynamic method for recognizing objects and image processing system therefor
WO2005001750A2 (en) * 2003-06-30 2005-01-06 Honda Motor Co., Ltd. System and method for face recognition
US20120301887A1 (en) * 2009-01-06 2012-11-29 Bankaitis-Davis Danute M Gene Expression Profiling for the Identification, Monitoring, and Treatment of Prostate Cancer
US8458154B2 (en) * 2009-08-14 2013-06-04 Buzzmetrics, Ltd. Methods and apparatus to classify text communications
EP2534597B1 (en) 2010-03-15 2018-10-17 Singapore Health Services Pte Ltd Method of predicting the survivability of a patient
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9589245B2 (en) * 2014-04-07 2017-03-07 International Business Machines Corporation Insider threat prediction
JP6457329B2 (ja) 2015-04-30 2019-01-23 株式会社Soken 車載センサネットワークシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013532295A (ja) * 2010-07-09 2013-08-15 ソマロジック・インコーポレーテッド 肺癌バイオマーカーとその使用
US20140274772A1 (en) * 2013-03-15 2014-09-18 Rush University Medical Center Biomarker panel for detecting lung cancer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIROYUKI OGIHARA ET AL.: "Classification based on Boolean Algebra and its Application to Diagnosis of Liver Cancer", DAI 75 KAI (HEISEI 25 NEN) ZENKOKU TAIKAI KOEN RONBUNSHU (4) INTERFACE COMPUTER TO NINGEN SHAKAI, 2013, pages 4-903 - 4-904 *

Also Published As

Publication number Publication date
US11461598B2 (en) 2022-10-04
JP2017151868A (ja) 2017-08-31
US20210182630A1 (en) 2021-06-17
JP6041331B1 (ja) 2016-12-07

Similar Documents

Publication Publication Date Title
Lu et al. Machine learning–based radiomics for molecular subtyping of gliomas
Shur et al. Radiomics in oncology: a practical guide
Ko et al. Lung adenocarcinoma: correlation of quantitative CT findings with pathologic findings
Fraum et al. Differentiation of hepatocellular carcinoma from other hepatic malignancies in patients at risk: diagnostic performance of the liver imaging reporting and data system version 2014
Park et al. Extraprostatic tumor extension: comparison of preoperative multiparametric MRI criteria and histopathologic correlation after radical prostatectomy
Guo et al. Prediction of clinical phenotypes in invasive breast carcinomas from the integration of radiomics and genomics data
Dyer et al. Implications of the updated Lung CT Screening Reporting and Data System (Lung-RADS version 1.1) for lung cancer screening
Qiu et al. Early prediction of clinical benefit of treating ovarian cancer using quantitative CT image feature analysis
CA3100250A1 (en) Inferring selection in white blood cell matched cell-free dna variants and/or in rna variants
Yang et al. Diagnostic accuracy of quantitative diffusion parameters in the pathological grading of hepatocellular carcinoma: a meta‐analysis
Daye et al. Quantitative tumor heterogeneity MRI profiling improves machine learning–based prognostication in patients with metastatic colon cancer
Buda et al. Deep radiogenomics of lower-grade gliomas: convolutional neural networks predict tumor genomic subtypes using MR images
Lee et al. Role of radiologists in the diagnosis of unsuspected Birt-Hogg-Dubé syndrome in a tertiary clinical practice
Gao et al. Radiomics analysis based on ultrasound images to distinguish the tumor stage and pathological grade of bladder cancer
Su et al. Noninvasive model for predicting future ischemic strokes in patients with silent lacunar infarction using radiomics
WO2017145517A1 (ja) 情報処理装置と情報処理プログラム並びに情報処理方法
Li et al. Deep learning nomogram for predicting lymph node metastasis using computed tomography image in cervical cancer
Reeve et al. Common errors in the implementation and interpretation of microarray studies
Piraud et al. Towards quantitative imaging biomarkers of tumor dissemination: a multi-scale parametric modeling of multiple myeloma
Lee et al. Does computer-aided diagnosis permit differentiation of angiomyolipoma without visible fat from renal cell carcinoma on MDCT?
Casale et al. Predicting risk of metastases and recurrence in soft-tissue sarcomas via Radiomics and Formal Methods
Ye et al. Radiomics of contrast-enhanced computed tomography: a potential biomarker for pretreatment prediction of the response to Bacillus Calmette-Guerin immunotherapy in non-muscle-invasive bladder cancer
JP6889428B2 (ja) 情報処理装置と情報処理プログラム並びに情報処理方法
Bhattacharjee et al. A combined iterative sure independence screening and Cox proportional hazard model for extracting and analyzing prognostic biomarkers of adenocarcinoma lung cancer
Mazumder et al. Using Artificial Intelligence to Predict Cirrhosis From Computed Tomography Scans

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16891672

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16891672

Country of ref document: EP

Kind code of ref document: A1