WO2018020652A1 - 質量分析データ解析装置及び解析方法 - Google Patents

質量分析データ解析装置及び解析方法 Download PDF

Info

Publication number
WO2018020652A1
WO2018020652A1 PCT/JP2016/072278 JP2016072278W WO2018020652A1 WO 2018020652 A1 WO2018020652 A1 WO 2018020652A1 JP 2016072278 W JP2016072278 W JP 2016072278W WO 2018020652 A1 WO2018020652 A1 WO 2018020652A1
Authority
WO
WIPO (PCT)
Prior art keywords
mass
learning
data
charge ratio
mass spectrum
Prior art date
Application number
PCT/JP2016/072278
Other languages
English (en)
French (fr)
Inventor
秀明 出水
梶原 茂樹
Original Assignee
株式会社島津製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社島津製作所 filed Critical 株式会社島津製作所
Priority to JP2018530294A priority Critical patent/JP6743892B2/ja
Priority to US16/321,130 priority patent/US11521842B2/en
Priority to EP16910555.8A priority patent/EP3508842A4/en
Priority to PCT/JP2016/072278 priority patent/WO2018020652A1/ja
Priority to CN201680089696.7A priority patent/CN109791124B/zh
Publication of WO2018020652A1 publication Critical patent/WO2018020652A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • G01N27/622Ion mobility spectrometry
    • G01N27/623Ion mobility spectrometry combined with mass spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement

Definitions

  • the present invention relates to a data analysis apparatus and analysis method for analyzing data obtained by a mass spectrometer, and more specifically, diagnosis and inspection for specific diseases, determination of authenticity of production areas such as agricultural and fishery products, placebo and false bills, etc.
  • the present invention relates to a mass spectrometry data analysis apparatus and an analysis method useful for inspection and determination of samples in various fields such as determination of.
  • dPLRM dual Penalized Logistic Regression Machine
  • Such statistical machine learning is used or used in various fields such as diagnosis of diseases as described above, image recognition such as speech recognition, character recognition, and face recognition, and authenticity determination of various products. It's getting on.
  • Such statistical machine learning algorithms are roughly classified into supervised learning and unsupervised learning, but supervised learning is common.
  • supervised machine learning in general, a large number of data classified into a plurality of classes given in advance is used as learning data to learn the boundaries between the classes, and new data is classified into any class. Is determined based on the learning result.
  • the plurality of classes are a cancer patient class and a healthy person (or non-cancer patient) class.
  • supervised machine learning is simply referred to as machine learning.
  • the learning data includes a sufficient number and width of fluctuation information.
  • the number of learning data, the range of variation of subjects from which learning data is acquired, and the like are considered so as not to be affected by such fluctuations in data.
  • the data acquisition conditions for acquiring learning data are the same as the data acquisition conditions for acquiring the data to be determined. Measurement is performed under the same conditions.
  • the present invention has been made in order to solve the above-mentioned problems, and the first object thereof is that even when the learning data includes information used for other determination methods other than machine learning.
  • a mass spectrometry data analysis apparatus capable of performing determination by machine learning and determination by a determination method other than the above machine learning with high independence from each other, thereby ensuring accuracy and reliability of determination, and It is to provide an analysis method.
  • the second object of the present invention is different from the case in which the data acquisition conditions differ between the acquisition of the learning data and the acquisition of the determination target data, or the difference of interest that contributes to the classification into a plurality of classes. Even if there is a change that can interfere with learning data from the time of acquisition of learning data to the time of acquisition of data to be judged, it is not affected by differences or changes in such data acquisition conditions, and An object of the present invention is to provide a mass spectrometry data analysis apparatus and analysis method that can perform accurate determination by machine learning without performing acquisition again.
  • the mass spectrometry data analysis method which has been achieved to achieve the above first and second objects, is obtained by performing mass spectrometry on each of a plurality of samples classified into a plurality of classes.
  • the target sample is classified based on the mass spectrum data obtained by performing mass analysis on the target sample using the learning result information obtained by executing predetermined machine learning using the obtained mass spectrum data as learning data.
  • a method for analyzing mass spectrometry data a) Learning for performing processing of deleting signal intensity information in one or more preset mass-to-charge ratios or mass-to-charge ratio ranges or correcting their weights for each of a plurality of mass spectrum data given as the learning data A data filtering step; b) a learning execution step of executing the machine learning using the learning data processed in the learning data filtering step to create and store learning result information; c) a target data filtering step for performing a process equivalent to the learning data filtering step on the mass spectrum data obtained for the target sample; d) Determination for determining whether the target sample belongs to one of a plurality of classes using the learning result information stored in the learning execution step based on the mass spectrum data processed in the target data filtering step Execution steps; It is characterized by having.
  • the mass spectrometry data analysis apparatus which is made to achieve the first and second objects, is one apparatus that embodies the mass spectrometry data analysis method according to the present invention.
  • the learning result information obtained by executing predetermined machine learning using the mass spectrum data obtained by performing mass analysis on each of a plurality of samples classified into a plurality of classes as learning data.
  • mass spectrum data includes mass spectrum data obtained by a general single type mass spectrometer, triple quadrupole mass spectrometer, and Q-TOF mass.
  • MS n spectrum data in which n is 2 or more obtained by an analyzer, a TOF-TOF mass spectrometer, an ion trap mass spectrometer, an ion trap time-of-flight mass spectrometer, or the like is also included.
  • the algorithm is not particularly limited as long as the machine learning is supervised machine learning.
  • Bayesian estimation such as dPLRM described in Patent Document 1 is used.
  • a method using a support vector machine (SVM), a method using a neural network, or the like can be used.
  • mass spectrum data obtained by performing mass analysis on each sample that is known to belong to a plurality of classes is given as learning data.
  • learning data For example, when it is the purpose of analysis to determine whether or not a subject is likely to have cancer, there are only two classes, “cancer” and “non-cancer”.
  • the number of classes is not limited here, but available machine learning algorithms differ depending on the number of classes.
  • learning result information is created by executing machine learning using the learning data.
  • the mass spectrometry data analysis method In the mass spectrometry data analysis method according to the present invention, first, In the learning data filtering step, for each of a plurality of mass spectrum data given as learning data, signal intensity information in one or more preset mass-to-charge ratios or mass-to-charge ratio ranges is deleted, that is, made zero. Or modify its weighting, ie reduce or increase the signal strength by a predetermined rate.
  • a plurality of peaks appearing in a mass spectrum obtained by normal mass spectrometry other than MS n analysis are generally peaks derived from different compounds contained in a sample. Therefore, deleting the signal intensity information at a specific mass-to-charge ratio in the mass spectrum or reducing the signal intensity prevents the inclusion result regarding the specific compound from being reflected in the learning result information or reflected in the learning result information. It means to make it difficult. Therefore, for example, as described above, when other diagnostic methods such as a tumor marker test are used at the time of cancer diagnosis and it is desired to maintain the independence of each determination, the ion derived from the compound that is the tumor marker
  • the mass-to-charge ratio may be the mass-to-charge ratio that is the target of signal intensity information deletion or signal intensity reduction.
  • the mass-to-charge ratio of ions derived from a drug such as an anticancer drug that may be used for treatment is determined by deleting signal intensity information or signal intensity.
  • the mass-to-charge ratio to be reduced may be set.
  • you want to eliminate the influence of various compounds (contaminants) that may be mixed in the sample during sample collection or measurement you can signal the mass-to-charge ratio of the ions derived from those contaminants. What is necessary is just to make it mass-to-charge ratio of the object of deletion of intensity information or signal intensity reduction.
  • Examples of such contaminants include raw materials for containers that temporarily store samples, plasticizers included in the containers, and additives such as mold release agents that are used when the containers are manufactured.
  • a sample is pretreated using a standard sample, a column, or the like used when calibrating the mass spectrometer, a column filler, a mobile phase, an additive thereof, and the like are assumed as impurities.
  • the mass-to-charge ratio range in which a large difference in detection sensitivity due to instrumental differences in the devices is deleted or signal intensity information is deleted.
  • the mass-to-charge ratio range of the signal intensity reduction target may be used.
  • the signal intensity information when deleting signal intensity information in the mass-to-charge ratio or mass-to-charge ratio range of ions derived from various compounds as described above or reducing the signal intensity, not only the molecular ion of the compound itself, but also the compound Various types of ions derived from or affected by the compound may also be subject to deletion of signal intensity information or signal intensity reduction. Specifically, in addition to monovalent ions and polyvalent ions of the compound of interest, the signal intensity information can be deleted together with ions to which alkali metals, halogens, water, various chemical modification groups have been added or desorbed, etc. It is preferable to reduce the signal strength.
  • a mass-to-charge ratio that is an object of signal intensity information deletion or signal intensity reduction including the effect of isotopes.
  • ions derived from the compound of interest such as tumor markers
  • other compounds derived from the compound for example, ions derived from metabolites and other compounds affected in the body during metabolism
  • the signal strength information can be deleted or the signal strength can be reduced.
  • mass spectrum data after processing such as deletion of part of spectrum information in the learning data filtering step is used as learning data, and predetermined machine learning is executed to obtain a learning result.
  • Create information This learning result information is information for determining which of the plurality of classes the unknown sample belongs to. Then, the obtained learning result information is made into a database so as to be associated with, for example, mass-to-charge ratio information removed by the filtering process, and stored in a storage device or the like. Therefore, the learning result information does not reflect the inclusion result of the specific compound from which the spectrum information is removed as described above, for example.
  • the target data filtering step is performed on the mass spectrum data.
  • a process equivalent to that performed in the learning data filtering step is executed.
  • the signal intensity information in the mass-to-charge ratio and mass-to-charge ratio range of ions derived from the specific compound as described above is deleted or the signal intensity is reduced.
  • the determination execution step whether the target sample is classified into one of a plurality of classes using the learning result information stored as described above based on the processed mass spectrum data of the target sample. Determined. That is, if a target sample collected from a subject is classified into the “cancer” class, it is determined that the subject may have cancer.
  • the classification can be determined without the influence of presence / absence. Therefore, for example, as described above, when the mass-to-charge ratio of ions derived from a compound that is a tumor marker is the mass-to-charge ratio that is the target of signal intensity information deletion or signal intensity reduction, the compound that is a tumor marker is the target sample. Regardless of whether or not it is included in the target sample, the target sample is classified based on the mass spectrum data for the target sample. Therefore, the determination of the classification, that is, the determination of the possibility of being cancer, and the determination in the tumor marker test are increased, and a combination of the plurality of determinations enables more reliable diagnosis.
  • various compounds such as sample collection conditions, pretreatment conditions, and measurement conditions may be mixed with the sample, but the spectrum information for all of them may be deleted from the mass spectrum data.
  • the spectral information of one or a plurality of compounds that are originally desired to be deleted is also deleted. Therefore, depending on the actual sample collection conditions, pretreatment conditions, measurement conditions, etc., only the compounds that you want to delete or the compounds that are likely to be mixed undesirably are selected, and the spectrum information of ions derived from those compounds Is desirably deleted from the mass spectrum data.
  • the mass-to-charge ratio in which the signal intensity information is removed from the mass spectrum data or the signal intensity is reduced at the time of learning and determination is determined by this analysis method. Ion derived from a compound whose mass-to-charge ratio is derived from a compound that may adversely affect the judgment itself, and that it does not affect the judgment itself by this analysis method but is not reflected in the judgment result
  • the mass-to-charge ratio may be.
  • one aspect of the mass spectrometry data analysis method according to the present invention is: A mass spectrometry data analysis method that concludes in which of the plurality of classes the target sample is classified by combined use with a determination result by another method different from the analysis method,
  • the mass-to-charge ratio or mass-to-charge ratio range of ions derived from one or more compounds to be measured or inspected in the other technique is set to the one or more preset mass-to-charge ratio or mass-to-charge ratio range.
  • the other method is a method of measuring or examining a specific compound as a marker, for example, a tumor marker examination method or a lipid marker examination method as described above, and the compound that is the marker, and / or Or a mass-to-charge ratio or a mass-to-charge ratio range of ions derived from a metabolite thereof and / or an in vivo molecule affected during the metabolism, and the one or more preset mass-to-charge ratio or mass-to-charge ratio range. That's fine.
  • the charge ratio range may be the one or more preset mass / charge ratios or mass / charge ratio ranges.
  • the sample is a sample derived from a living body, and a drug to be administered to the living body or its potential, its metabolite, an in vivo molecule affected during the metabolism, and the possibility of remaining in the sample.
  • Mass-to-charge ratio of ions derived from one or more compounds out of one or more compounds that may be introduced in the course of sampling, pre-treatment, or measurement
  • the range may be the one or more preset mass-to-charge ratios or mass-to-charge ratio ranges.
  • the mass spectrometry data analysis apparatus includes a filtering unit that deletes spectrum information or changes the weight of given learning data according to a predetermined condition, and a post-processing A learning execution unit that executes machine learning based on learning data.
  • a filtering unit that deletes spectrum information or changes the weight of given learning data according to a predetermined condition
  • a post-processing A learning execution unit that executes machine learning based on learning data.
  • a mass spectrometry data analysis apparatus is one apparatus that embodies the mass spectrometry data analysis method according to the present invention, and is used for a plurality of samples classified into a plurality of classes. Obtained by performing mass analysis on the target sample based on learning result information obtained by executing predetermined machine learning using the mass spectrum data obtained by performing mass analysis as learning data.
  • a mass spectrometry data analysis apparatus for classifying the target sample from mass spectrum data a) For each of the plurality of mass spectrum data given as the learning data, a filtering process for deleting signal intensity information in one or more preset mass-to-charge ratios or mass-to-charge ratio ranges or correcting the weighting is performed.
  • a learning result information storage unit that stores learning result information created by executing the machine learning using the data after learning as learning data; b) a target data filtering unit that executes the filtering process performed on the learning data when creating the learning result information for the mass spectrum data obtained for the target sample; c) Based on the mass spectrum data filtered by the target data filtering unit, the target sample belongs to one of a plurality of classes using the learning result information stored in the learning result information storage unit A determination execution unit for determining whether or not It is characterized by having.
  • the learning result information storage unit may be a part of hardware constituting the analysis device, but it is only necessary to access the learning result information and use the information, and can be accessed through the Internet, for example.
  • a learning result information storage unit may exist on the computer network.
  • mass-to-charge ratios and mass-to-charge ratio range candidates to be excluded or weighted are listed in advance, machine learning corresponding to each of the candidates is performed, and learning result information is obtained and stored.
  • mass-to-charge ratios and mass-to-charge ratio range candidates to be excluded or weighted are listed in advance, machine learning corresponding to each of the candidates is performed, and learning result information is obtained and stored.
  • FIG. 1 is a schematic configuration diagram of a cancer diagnosis support apparatus according to an embodiment of the present invention. Operation
  • FIG. 1 is a schematic configuration diagram of the cancer diagnosis support apparatus of the present embodiment
  • FIG. 2 is an explanatory diagram of an operation at the time of learning in the cancer diagnosis support apparatus of the present embodiment
  • FIG. It is operation
  • the cancer diagnosis support apparatus performs mass analysis on a sample to acquire mass spectrum data, and performs an analysis process using the mass spectrum data obtained by the mass spectrometer 1.
  • DB database
  • the data analysis unit 2 includes, as functional blocks, a spectrum data collection unit 20, a focused m / z information reception unit 21, a spectrum information filtering unit 22, a learning processing unit 23, a determination processing unit 24, and a determination result output unit 25. And including.
  • the storage unit 3 stores a mass spectrum database 30, a target m / z value database 31, and a learning result database 32.
  • the substance of the data analysis unit 2 is a personal computer or a computer with higher performance than that, and each function is realized by operating dedicated data analysis software preinstalled in the computer on the computer. be able to. Further, the function of the data analysis unit 2 can be shared by a plurality of computers. Specifically, a learning function and a target sample determination function to be described later can be assigned to different computers. Usually, the amount of calculation in learning in machine learning is considerably larger than that in determination. Therefore, a high-performance computer is used as a computer for performing learning, and a general personal computer is used as a computer for performing determination. Efficient processing is possible. Further, the storage unit 3 does not have to be based on hardware built in or connected to the computer. For example, the storage unit 3 exists on a computer system that can be accessed via the Internet, for example, a storage device in cloud computing. May be used.
  • the mass spectrometer 1 can use any ionization method or mass separation method as long as it can acquire mass spectrum data (including MS n spectrum) for a sample derived from a living body such as a minute biological tissue section, blood, urine, saliva or the like.
  • mass spectrum data including MS n spectrum
  • a characteristic operation in the cancer diagnosis support apparatus of the present embodiment will be described with reference to FIGS.
  • this cancer diagnosis support apparatus in order to determine whether or not the subject is likely to have cancer, it is necessary to construct the learning result database 32 in advance and store it in the storage unit 3.
  • learning data labeled for each class is required.
  • two classes are considered: a class that is cancer and a class that is not cancer (non-cancer).
  • the class of cancer may be divided into a plurality of classes according to the type of cancer. For example, it is known that renal cell carcinoma can be classified into types such as clear cell type and granule cell type, and these types can be classified into different classes.
  • Mass spectrum data is collected by mass-analyzing a large number of biological samples collected from a large number of healthy subjects whose mass spectrometry is known one by one with the mass spectrometer 1.
  • a large number of mass spectrum data labeled with the class of “cancer” and a large number of mass spectrum data labeled with the class of “non-cancer” are obtained (see FIG. 2A). ).
  • the spectrum data collection unit 20 receives mass spectrum data from the mass spectrometer 1, and vector data obtained by vectorizing peak information (mass-to-charge ratio and signal intensity) obtained by performing peak detection on the mass spectrum. (Or matrix data) is obtained, divided into classes, that is, labeled, and stored in the mass spectrum database 30 of the storage unit 3.
  • the vector data based on the mass spectrum stored in the mass spectrum database 30 does not have to be based on the mass spectrum data obtained by a single mass analyzer 1, and a plurality of mass spectrometers (preferably of the same type). May be based on mass spectral data obtained by a mass spectrometer.
  • peaks corresponding to a plurality of compounds contained in a sample are observed in the mass spectrum obtained for the sample.
  • drugs such as anticancer drugs for cancer treatment, but the types and combinations of drugs used are diverse, and such drugs, their metabolites, and even at the time of their metabolism Spectral information of ions derived from in-vivo materials that can change can adversely affect the correct classification of the target sample.
  • Spectral information of ions originating from the object may also adversely affect the correct classification of the target sample. For this reason, it is desirable that spectral information regarding ions derived from the drug or ions derived from the impurities is not included in the learning result.
  • the mass-to-charge ratio or the mass that is focused at the time of learning that is, wants to be excluded from the mass spectrum data (the signal intensity value is zero) or the signal intensity weight is to be reduced.
  • the charge ratio range is registered in the target m / z value database 31 in advance.
  • the mass-to-charge ratio values or mass-to-charge ratio ranges derived from a plurality of compounds of interest are set and registered in the m / z value database 31 of interest.
  • the user designates one or a plurality of the groups from the input unit 4 and further removes the spectrum information (that is, the signal intensity information) in the mass-to-charge ratio included in the group, or changes the weighting. If it is changed, it is possible to specify how much weighting is to be made.
  • the spectrum information that is, the signal intensity information
  • a set A that excludes tumor markers a set B that excludes lipid markers, a set C that excludes anticancer agents, and a set that excludes polymers D is prepared.
  • “Set A” includes mass-to-charge ratio values of ions derived from ⁇ -FP widely used as a tumor marker for liver cancer, CA15-3 widely used as a tumor marker for breast cancer screening, and the like.
  • “Set B” includes mass-to-charge ratio values of ions derived from riboproteins and the like.
  • “Set C” includes mass-to-charge ratio values of ions derived from typical anticancer agents such as folinic acid, fluorouracil, and oxaliplatin. “Set D” shows the mass-to-charge ratio value of ions derived from polymer compounds such as vinyl chloride, vinylidene chloride, diphenyl carbonate, etc. contained in measurement instruments that may come into contact with the sample, and their thermal decomposition products. Including.
  • the noted m / z value database 31 may be constructed in advance by a manufacturer that provides the hardware and software of the apparatus, or may be created by the user himself / herself. Alternatively, a basic m / z value database 31 to be basic may be created in advance, and the user may modify the database 31 and add or delete information as appropriate. Specific examples of compounds that can be recorded in the target m / z value database 31 will be described in detail later.
  • the focused m / z information receiving unit 21 when the user designates a group (or one specific compound or the like) in the focused m / z value database 31 from the input unit 4, the focused m / z information receiving unit 21 focuses on information corresponding to the designation. Read from the m / z value database 31 and set in the spectrum information filtering unit 22. For example, when the user designates two groups of “set A” and “set D” as spectrum information to be excluded, the target m / z information receiving unit 21 sets “set A” in the target m / z value database 31. ”And“ set D ”are all read out and set in the spectrum information filtering unit 22.
  • the spectrum information filtering unit 22 sequentially reads data (for example, the vector data) indicating peak information corresponding to the mass spectrum data from the mass spectrum database 30 and sets the mass-to-charge ratio or the mass set by the target m / z information receiving unit 21.
  • a predetermined coefficient that is, for example, less than 1 so as to delete the signal intensity information corresponding to the charge ratio range (set the intensity value to zero), or to reduce the weight of the signal intensity information corresponding to the mass to charge ratio or the mass to charge ratio range Multiply to reduce strength. That is, here, filtering processing for deleting spectral information in a specific mass-to-charge ratio or mass-to-charge ratio range or reducing its intensity value is executed for all mass spectrum data with class labels (FIG. 2).
  • the learning processing unit 23 reads the data after the filtering process (for example, the data group a), and performs machine learning using the data as learning data to obtain a learning result ⁇ (FIGS. 2D and 2E). reference). Then, the obtained learning result ⁇ is stored in the learning result database 32 (see FIG. 2F).
  • the optimized dPLRM parameter that gives the prediction probability is the learning result information. Since the algorithm is a well-known technique described in Patent Document 1 and the like, details are omitted here. Of course, even when a method other than dPLRM is used as the machine learning algorithm, learning result information corresponding to the method can be obtained.
  • the learning result information stored in the learning result database 32 includes the filtering process. Spectral information substantially removed at is not reflected. That is, in the case of the above example, the signal intensity information in the mass-to-charge ratio of ions derived from the tumor marker included in “Set A” and the signal intensity information in the mass-to-charge ratio of ions derived from the anticancer agent included in “Set C” are , Both are not reflected in the learning result information.
  • the cancer diagnosis support apparatus of the present embodiment by specifying the group to be excluded recorded in the target m / z value database 31 and appropriately changing the mass-to-charge ratio or the mass-to-charge ratio range included in the group, Different learning result information can be created and stored in the learning result database 32 using the same vector data stored in the mass spectrum database 30.
  • the learning result ⁇ is obtained by designating “Set A” and ⁇ Set C ”as exclusion targets, and the vector data stored in the mass spectrum database 30 without any filtering process is used as it is.
  • the learning result ⁇ created by using the learning data ⁇ , the learning result ⁇ created using the learning data obtained by removing the ions derived from the compounds included in the group of “set D”, and the like are stored in the learning result database 32. I can leave. That is, based on exactly the same mass spectrum data, various patterns of learning result information that can be used for cancer diagnosis can be prepared in advance in the learning result database 32 according to the needs of the user. By changing the combination of mass-to-charge ratios to be included in the group to be excluded, it is possible to prepare very many types of learning result information.
  • mass spectrum data is acquired by mass-analyzing the target sample with the mass spectrometer 1.
  • the spectrum data collection unit 20 reads the actually measured mass spectrum data, collects the peak information, vectorizes it, and obtains vector data (see FIG. 3A).
  • the user designates, for example, a mass-to-charge ratio group to be excluded from the mass spectrum data from the input unit 4.
  • the target m / z information receiving unit 21 sets the mass-to-charge ratio or the mass-to-charge ratio value to be excluded in the spectrum information filtering unit 22 in response to this designation. This is the same as during learning.
  • the spectrum information filtering unit 22 deletes the spectrum information corresponding to the mass-to-charge ratio or the mass-to-charge ratio range set by the target m / z information receiving unit 21 from the vector data obtained from the mass spectrum data for the target sample, or
  • the intensity is reduced by multiplying a predetermined coefficient which is less than 1, for example, so as to reduce the weight of the intensity value. Thereby, the filtered data is obtained. (See FIGS. 3B and 3C).
  • the determination processing unit 24 reads from the learning result database 32 learning result information based on the learning data from which the specified group or the like has been removed. That is, learning result information is acquired in which the filtering processing conditions during learning are the same as those during determination. Then, using the learning result information, the probability that the data after the filtering process belongs to the class of “cancerous” or “non-cancerous” is calculated to determine which class it belongs to (see FIG. 3D). ).
  • the determination result output unit 25 displays the determination result on the screen of the display unit 5 in a predetermined format. For example, the probability of having cancer or not having cancer can be displayed graphically (see FIG. 3E).
  • the cancer diagnosis support apparatus for example, when creating learning result information using learning data, spectrum information of ions derived from tumor markers is excluded from the learning data, and data obtained for the target sample is obtained.
  • the cancer determination is executed after excluding the spectrum information of ions derived from the same tumor marker. Therefore, the content of the tumor marker does not affect the cancer determination result.
  • the determination by the cancer diagnosis support apparatus of the present embodiment and the determination by the tumor marker test performed separately from this will ensure sufficiently high independence, based on the plurality of determination results A highly reliable diagnosis of cancer can be performed.
  • Tumor markers that are most commonly used for cancer diagnosis and testing include ⁇ -FP, CA15-3, CA27-29, CA19-9, CA-125, CEA, SCC, CYFRA, ProGRP, and the like. It is desirable to exclude spectrum information of ions derived from these tumor marker molecules and ions derived from metabolites thereof from mass spectrum data.
  • substances that are used or are said to be usable as tumor markers include calcitonin, calretinin, carcinoembryonic antigen (CEA), CD34, CD99, CD117, chromogranin, chromosome 3 , 7,17,9p21, cytokeratin, desmin, EMA, GFAP, GCFP-15, HMB-45, hCG, immunoglobulin, inhibin, keratin, lymphocyte marker, MART-1, Myo D1, MSA, neurofilament, NSE, PLAP, prostate specific antigen, PTPRC (CD45), S100 protein, SMA, synaptophysin, thyroglobulin, thyroid, transcription factor-1, tumor M2-PK, vimentin, etc. These may be excluded from the mass spectrum data as necessary, similarly to the tumor marker.
  • trimers, etc. and typical polymer compounds (polymers) include vinyl chloride, vinylidene chloride, carbonyl chloride, diphenyl carbonate, bisphenol A / PTBT (pt-butylphenol), phenol, styrene, and any of these Dimers, trimers, etc. are known. It is desirable to exclude the spectrum information of ions derived from these substances from the mass spectrum data as necessary.
  • plasticizers include phthalates, dioctyl phthalate, diisononyl phthalate, diisodecyl phthalate, dibutyl phthalate, adipic esters, dioctyl adipate, diisononyl adipate, trimetates, trioctyl trimetate , Polyesters, phosphate esters, tricresyl phosphate, citrate esters, ATBC (Acetyl tributyl citrate), acetyltributyl citrate, epoxidized vegetable oil, ESBO (Epoxidized soybean-oil), epoxidized soybean oil, ELSO (Epoxidized linseed-oil) ), Epoxidized linseed oil, sebacic acid ester, azelaic acid ester, maleic acid ester, benzoic acid ester
  • a mass-to-charge ratio range in which the performance of the apparatus is likely to fluctuate or deteriorate in the mass spectrum for example, data near the upper limit and lower limit of the measurable range is judged as being learned, although it is not a contaminant. Differences in measurement conditions tend to occur over time. Therefore, for example, it is desirable to exclude spectral information of ions included in a predetermined mass-to-charge ratio region near the upper limit and the lower limit of the measurable range from the mass spectrum data as necessary.
  • the user predicts the spectrum information whose influence should be reduced by one of the following methods, for example, Based on this, spectral information (such as a mass-to-charge ratio value) to be substantially removed may be designated.
  • spectral information such as a mass-to-charge ratio value
  • [A] Obtain a mass spectrum that includes spectral information whose effect should be reduced by measuring actual samples, measuring standard samples, or measuring blank samples (solvent-only samples), and analyze the mass spectrum. Thus, spectral information whose influence should be reduced is obtained. In this case, spectrum information that can be confirmed to be actually mixed in the mass spectrum or that can be confirmed to be highly mixed is substantially removed.
  • a known multivariate analysis method such as principal component analysis (PCA) or partial least squares (PLS) can be used.
  • PCA principal component analysis
  • PLS partial least squares
  • a peak highly correlated with a known mass-to-charge ratio can be extracted by a multivariate analysis method and designated as a peak to be removed.
  • Such correlations are not limited to substances consumed and produced by metabolism, but can also extract changes in spectral patterns due to ionization effects such as suppression due to the presence of a certain peak.
  • a similar analysis can be used for the effects of.
  • peaks that are highly correlated with instrument differences and differences in the engine that performed the measurement are extracted by multivariate analysis, and such peaks are considered to be susceptible to systematic errors and should be removed. It can also be specified.
  • the methods [A] to [F] may be appropriately combined. If the spectrum information that does not need to be removed is removed, that is, if the spectrum information that does not affect the judgment result is removed, the important spectrum information that overlaps the mass-to-charge ratio by chance is also removed, and the judgment accuracy is improved. Although it may be reduced, it is easy to ensure the accuracy of determination by limiting the spectrum information to be removed to those that should be removed.
  • one or more specific mass-to-charge ratios or mass-to-charge ratio ranges are weighted, i.e. relative to signal intensity values.
  • the specific size By making it possible to change the specific size, it is possible to make a determination that attaches importance to a specific marker-related mass-to-charge ratio by increasing the weight instead of decreasing the weight.
  • the weight in the spectral information of ions derived from such substance is intentionally increased to increase the weight in the existing database. Impact assessment is possible.
  • the mass spectrometry data analysis apparatus is used as a cancer diagnosis support apparatus.
  • the mass spectrometry data analysis apparatus is capable of diagnosing a specific disease or disease such as cancer. Not only the determination but also various apparatuses and fields for determining whether an unknown sample is classified into any of a plurality of classes.
  • it can be used to test whether agricultural products, marine products, livestock products, etc. are derived from a specific production area, or whether expensive products are not cheap similar products (fake). . It can also be used for authenticity determination of industrial products such as pharmaceuticals and banknotes, determination of non-defective / defective products of industrial products, and separation of garbage and waste.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Cell Biology (AREA)
  • Electrochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Mathematical Physics (AREA)
  • Microbiology (AREA)

Abstract

被検者から採取した試料に対するマススペクトルデータを用いた機械学習により癌判定を行う際に、並行して実施される腫瘍マーカ検査による判定との独立性を確保して、相互的な診断の信頼性を高めることを目的とする。腫瘍マーカ等、他の検査で利用される物質由来のイオンのm/z値を着目m/z値DB(31)に記憶させておき、スペクトル情報フィルタリング部(22)は癌の有無でクラス分けされた多数のマススペクトルから着目m/z値DB(31)に格納されているm/z値の信号強度を削除する。学習処理部(23)はその削除後のデータを学習データとして学習結果情報を求め、学習結果DB(32)に保存する。判定対象の目的試料に対するマススペクトルデータについても同様に所定のm/z値の信号強度を削除したうえで、判定処理部(24)は学習結果DB(32)に保存された学習結果情報に基づいて癌の有無のいずれかのクラスへの分類を判定する。

Description

質量分析データ解析装置及び解析方法
 本発明は、質量分析装置で得られたデータを解析するデータ解析装置及び解析方法に関し、さらに詳しくは、特定の疾病についての診断や検査、農水産物等の産地の真偽判定、偽薬や偽札等の判定など、様々な分野における試料の検査及び判定に有用な質量分析データ解析装置及び解析方法に関する。
 近年の質量分析技術の急速な進展に伴い、被検者から採取した生体試料(血液、尿、唾液、或いは生体組織の一部など)を質量分析することで得られたデータに対してデータ解析を行うことで癌などの特定の疾病の診断を行う試みがなされている。例えば本出願人らによる特許文献1には、生体試料に対して質量分析を行うことで収集されたマススペクトルデータに統計的機械学習の一手法であるdPLRM(dual Penalized Logistic Regression Machine)を適用して癌の判定を行うことが記載されている。このように一般的な多変量解析を用いるのではなく統計的機械学習の手法を用いることで、膨大な量の複雑なデータの中からごく微細な差異を抽出することが可能となり、そうした差異に基づいて癌/非癌の判定の精度を高めることができる。
 こうした統計的機械学習は、上述したような疾病の診断のほか、音声認識、文字認識、顔認識などの画像認識、様々な製品の真贋判定など、様々な分野で利用されている、又は利用されつつある。こうした統計的機械学習のアルゴリズムには大別して教師あり学習と教師なし学習とがあるが、教師あり学習が一般的である。教師ありの機械学習では一般に、予め与えられた、複数のクラスに分類されている多数のデータを学習データとして上記複数のクラスの境界を学習しておき、新規のデータについていずれのクラスに分類されるのかを学習結果に基づいて判定するようにしている。例えば特許文献1に記載の装置では、複数のクラスとは癌患者のクラスと健常者(又は非癌患者)のクラスである。以下の説明では、教師ありの機械学習を単に機械学習という。
 上記のような機械学習では、判定対象である新規のデータが多数の学習データのいずれかと全く同じであれば、パターンのマッチングは簡単であって且つ正確である。しかしながら、殆どの場合、データ取得の際には統計的なエラーやノイズなどが存在するし、試料が生体由来の試料である場合には試料自体の個体差が比較的大きいため、一つのクラスの中でもデータにかなりの揺らぎがある場合がある。そのため、複数のクラスを隔てる境界がデータの揺らぎの影響を受けないようにするためには、十分な数及び幅の揺らぎの情報が学習データに含まれるようにする必要がある。一般に機械学習では、こうしたデータの揺らぎの影響を受けないように、学習データの数や学習データを取得する被検体のばらつきの範囲などが考慮される。また、機械学習では、通常、学習データを取得する際のデータ取得条件と判定対象であるデータを取得する際のデータ取得条件とを同じにすることが前提となっているため、データ取得時にできるだけ同じ条件で測定を行うようにしている。
 ところで、癌などの重篤な疾病や疾患のスクリーニングや臨床診断では、当然のことながら、高い正確性や信頼性が求められる。そのため、上述したような質量分析と機械学習とを組み合わせた手法のほか、腫瘍マーカなどのマーカ検査、X線画像診断、MRIなどの画像診断等、複数の診断手法による判定結果を医師等が総合的に判断して結論を下すのが一般的である。このように複数の判定結果に基づいて最終的な判断がなされる場合、その複数の判定結果がそれぞれ異なる要素によるものであること、つまりは判定結果の独立性が高いことが望ましい。何故なら、例えば或る二つの異なる手法で検査や判定を行う場合でも、その検査や判定の対象の要素が同じであれば、一つの手法で以て癌である可能性が高いと判断されたときに、必然的に他の一つの手法でも同じように癌である可能性が高いと判断される筈であり、実質的に二つの異なる手法で判定をしたことにならないためである。
 例えば、質量分析装置で得られたマススペクトルを利用した機械学習により癌と非癌との差異を抽出して癌/非癌の判定を行う場合、癌を特徴付けるマーカ分子由来のイオンの量の変化も学習結果に含まれる可能性が高い。そのため、こうした学習結果に基づく癌の判定とそれらマーカ分子をターゲットとする腫瘍マーカ検査とは互いに独立であるとはいえず、これらを組み合わせた診断の正確性や信頼性の確保が難しいという問題がある。
 また、以下のような様々な要因によって、被検体の個体差によるデータの揺らぎの範囲を大幅に超える変動が学習時と判定時とで生じてしまう場合や、或いは、学習データと判定対象のデータとのデータ取得条件を揃えることが難しい場合があり、それが判定の正確性を低下させる一因となっている。
 (1)通常、癌の治療の過程で癌患者には様々な種類の抗癌剤等の薬剤が投与されるが、学習データに現れるこうした治療に由来する生体組織の変化が、癌由来の組織変化であると誤って学習してしまう可能性がある。
 (2)(1)とは逆に、学習データに含まれない新規の抗癌剤が投与された患者から得られたデータを学習結果に基づいて判定する場合、マススペクトル上で、癌、非癌による差異が生じている質量電荷比の付近に偶然、新規の抗癌剤由来のピークが存在していると、これを癌・非癌由来の組織変化であると誤って判定してしまう可能性がある。同様に、癌・非癌の判定のためのデータに、学習データに含まれない混入物や夾雑物由来のピークが存在していると、これを癌・非癌由来の組織変化であると誤って判定してしまう可能性がある。また、判定対象である試料には内部標準物質を添加する場合があるが、内部標準物質由来のピークも癌・非癌由来の組織変化であると誤って判定してしまう可能性がある。
 (3)癌患者由来及び健常者由来の生体試料は病院などの医療機関で採取され測定されるのが一般的であるが、そうした機関毎に同様の手順や品質で試料の採取・測定を行うことは困難である。そのため、そうした機関毎のばらつきが特定の質量電荷比における信号強度の差異となって現れ、これを癌・非癌の差異であると誤って判定してしまう可能性がある。
 上述したように、判定対象データの取得時に学習データの取得時とはデータ取得条件が異なる場合や、学習データの取得時から判定対象データの取得時までの間に被検体の個体差による揺らぎの範囲を大幅に超えるような変動が被検体に生じた場合には、本来、学習データを採り直し、新たに得られた学習データを用いて機械学習をやり直すことが望ましい。しかしながら、目的に適合する多数の生体試料を再度採取して測定することは非常に手間と時間が掛かる作業であり、多くの場合、それは実質的に不可能である。
 また上記のような問題は特に試料が生体由来の試料であることに起因する要素が大きいものの、同様の又は類似した問題は疾病の診断等以外の分野でも起こり得る。
特開2014-44110号公報
 本発明は上記課題を解決するためになされたものであり、その第1の目的は、機械学習以外の他の判定手法にも利用される情報が学習データに含まれている場合であっても、機械学習による判定と上記機械学習以外の他の判定手法による判定とを互いに高い独立性を以て行うことができ、それによって判定の正確性や信頼性を確保することができる質量分析データ解析装置及び解析方法を提供することである。
 また、本発明の第2の目的は、学習データの取得時と判定対象データの取得時とでデータ取得条件が異なる場合や、複数のクラスへの分類に寄与する着目している差異とは別の妨害となり得る変化が学習データの取得時から判定対象データの取得時までの間に生じた場合であっても、そうしたデータ取得条件の相違や変化の影響を受けることなく、且つ、学習データの再度の取得を行うことなく、機械学習により正確な判定を行うことができる質量分析データ解析装置及び解析方法を提供することである。
 上記第1及び第2の目的を達成するために成された本発明に係る質量分析データ解析方法は、複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとし所定の機械学習を実行することで求められた学習結果情報を用いて、目的試料に対し質量分析を行うことで得られたマススペクトルデータに基づき該目的試料をクラス分けする質量分析データ解析方法であって、
 a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正する処理を行う学習データフィルタリングステップと、
 b)前記学習データフィルタリングステップで処理されたあとの学習データを用いて前記機械学習を実行し学習結果情報を作成して記憶する学習実行ステップと、
 c)目的試料に対して得られたマススペクトルデータについて前記学習データフィルタリングステップと同等の処理を実行する目的データフィルタリングステップと、
 d)前記目的データフィルタリングステップで処理されたあとのマススペクトルデータに基づき、前記学習実行ステップにおいて記憶された学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行ステップと、
 を有することを特徴としている。
 また上記第1及び第2の目的を達成するために成された本発明に係る第1の態様の質量分析データ解析装置は、上記本発明に係る質量分析データ解析方法を具現化する一つの装置であり、複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとし所定の機械学習を実行することで求められた学習結果情報に基づいて、目的試料に対し質量分析を行うことで得られたマススペクトルデータから該目的試料をクラス分けする質量分析データ解析装置であって、
 a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正する処理を行う学習データフィルタリング部と、
 b)前記学習データフィルタリング部で処理されたあとの学習データを用いて前記機械学習を実行し学習結果情報を作成して記憶する学習実行部と、
 c)目的試料に対して得られたマススペクトルデータについて前記学習データフィルタリング部と同等の処理を実行する目的データフィルタリング部と、
 d)前記目的データフィルタリング部で処理されたあとのマススペクトルデータに基づき前記学習実行部において記憶された学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行部と、
 を備えることを特徴としている。
 本発明に係る質量分析データ解析方法及び解析装置において、マススペクトルデータは一般的なシングルタイプの質量分析装置で得られるマススペクトルデータのほか、トリプル四重極型質量分析装置、Q-TOF型質量分析装置、TOF-TOF型質量分析装置、イオントラップ質量分析装置、イオントラップ飛行時間型質量分析装置などで得られるnが2以上のMSnスペクトルデータも含む。
 また、本発明に係る質量分析データ解析方法及び解析装置において、機械学習は教師あり機械学習であればそのアルゴリズムを特に問わないが、例えば、特許文献1に記載された、dPLRMなどベイズ推定を利用した手法、サポートベクターマシーン(SVM)を利用した手法、ニューラルネットワークを利用した手法、などを用いることができる。
 本発明に係る質量分析データ解析方法及び解析装置では、複数のクラスのいずれに属するのかが既知である試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータが学習データとして与えられる。例えば或る被検者が癌である可能性があるか否かを判定することが解析の目的である場合、クラスは「癌」と「非癌」の二つのみである。クラスの数はここでは限定されないが、クラスの数によって利用可能な機械学習のアルゴリズムは相違する。通常、クラスのラベル付けがなされた学習データが与えられると、該学習データを用いた機械学習を実行することで学習結果情報が作成されるが、本発明に係る質量分析データ解析方法では、まず、学習データフィルタリングステップにおいて、学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する、つまりはゼロにするか、又は、その重み付けを修正する、つまりは信号強度を所定割合で減少又は増加させる。
 例えばMSn分析でない通常の質量分析により得られたマススペクトルに現れる複数のピークは一般に、それぞれ試料に含まれる異なる化合物由来のピークである。したがって、マススペクトルにおいて特定の質量電荷比における信号強度情報を削除する又はその信号強度を減じるということは、その特定の化合物に関する含有結果が学習結果情報に反映されないようにする又は学習結果情報に反映されにくくすることを意味する。そこで、例えば、上述したように癌診断に際して腫瘍マーカ検査などの他の診断法を併用する場合であってそれぞれの判定の独立性を保ちたい場合には、その腫瘍マーカである化合物由来のイオンの質量電荷比を信号強度情報の削除や信号強度低減の対象の質量電荷比とすればよい。
 また例えば、患者に投与される抗癌剤などの薬剤の影響を除きたい場合には、治療に使用される可能性のある抗癌剤等の薬剤由来のイオンの質量電荷比を信号強度情報の削除や信号強度低減の対象の質量電荷比とすればよい。また、試料の採取や測定の実行の過程で試料に混じる可能性のある様々な化合物(夾雑物)の影響を除きたい場合には、想定されるそれら夾雑物由来のイオンの質量電荷比を信号強度情報の削除や信号強度低減の対象の質量電荷比とすればよい。こうした夾雑物としては例えば、試料を一時的に保存する容器の原材料やそれに含まれる可塑剤、該容器の製造時に使用される離型剤などの添加物などが想定される。また、質量分析装置の較正時に使用される標準試料、カラムなどを用いて試料を前処理する場合にはカラムの充填剤や移動相、その添加剤なども夾雑物として想定される。さらにまた、学習データとされる多数のマススペクトルデータが異なる装置で得られたものである場合には、装置の器差によって検出感度に大きな差異が生じる質量電荷比範囲を信号強度情報の削除や信号強度低減の対象の質量電荷比範囲としてもよい。
 また、上述したような種々の化合物由来のイオンの質量電荷比や質量電荷比範囲における信号強度情報を削除したり信号強度を減じたりする際に、その化合物そのものの分子イオンのみならず、その化合物に由来する又はその化合物の影響を受ける様々な種類のイオンについても信号強度情報の削除や信号強度の低減の対象とするとよい。
 具体的には、着目する化合物の1価イオン及び多価イオンのほか、アルカリ金属やハロゲン、水、各種化学修飾基などが付加したり脱離したりしたイオンなども併せて信号強度情報の削除や信号強度の低減の対象とするとよい。また、同位体の影響も含めて、信号強度情報の削除や信号強度の低減の対象とする質量電荷比を算出することが好ましい。さらに、また、腫瘍マーカ等の着目する化合物そのものに由来するイオンのみならず、その化合物から派生する他の化合物、例えば代謝物や代謝時に影響を受ける生体内の別の化合物などに由来するイオンも信号強度情報の削除や信号強度の低減の対象とすることができる。
 学習実行ステップでは、上述したように学習データフィルタリングステップで一部のスペクトル情報が削除される等の処理が行われた後のマススペクトルデータを学習データとし、所定の機械学習を実行して学習結果情報を作成する。この学習結果情報は未知試料が複数のクラスのいずれに属するのかを判定するための情報である。そして、得られた学習結果情報を例えばフィルタリング処理で除去した質量電荷比情報等と対応付けるようにデータベース化して、記憶装置等に記憶しておく。したがって、この学習結果情報には、例えば上述したようにスペクトル情報が除去された特定の化合物の含有結果は反映されない。
 目的試料がいずれのクラスに分類されるのかを判定する際に、該目的試料に対して質量分析を実行することでマススペクトルデータが得られると、目的データフィルタリングステップにおいて、そのマススペクトルデータに対し上記学習データフィルタリングステップで実行されたのと同等の処理が実行される。それによって、判定対象データにおいても、上述したような特定の化合物由来のイオンの質量電荷比や質量電荷比範囲における信号強度情報が削除されたりその信号強度が低減されたりする。そして、判定実行ステップでは、目的試料についてのその処理後のマススペクトルデータに基づき、上述したように記憶されている学習結果情報を用いて目的試料が複数のクラスのいずれかに分類されるかが判定される。即ち、或る被検者から採取された目的試料が「癌」のクラスに分類されれば、該被検者は癌である可能性があると判定されることになる。
 上述したように、学習データに基づく学習時つまりは学習結果情報の作成時、及び、判定対象データの判定時のいずれにおいても、特定の化合物の有無の影響が除かれるため、その特定の化合物の有無の影響を除いたクラス分けの判定が行える。そのため、例えば上述したように腫瘍マーカである化合物由来のイオンの質量電荷比を信号強度情報の削除や信号強度の低減の対象の質量電荷比とした場合には、腫瘍マーカである化合物が目的試料中に含まれるか否かとは無関係に、その目的試料に対するマススペクトルデータに基づいて該目的試料のクラス分けが行われる。したがって、そのクラス分けの判定、即ち癌である可能性の判定と、腫瘍マーカ検査における判定との独立性が高くなり、それら複数の判定の組み合わせによって、より信頼性の高い診断が可能となる。
 上述したように、試料の採取条件、前処理の条件、測定条件など、様々な要因によって様々な化合物が試料に混じる可能性があるものの、それら全てについてのスペクトル情報をマススペクトルデータから削除してしまうと、本来観測したい一又は複数の化合物のスペクトル情報も同時に削除されてしまう可能性が高くなる。そのため、実際の試料の採取条件、前処理の条件、測定条件などに応じて、削除したい化合物のみ、或いは不所望に混合する可能性の高い化合物のみに絞って、その化合物由来のイオンのスペクトル情報をマススペクトルデータから削除することが望ましい。
 また上述したように、本発明に係る質量分析データ解析方法において、学習時及び判定時にマススペクトルデータから信号強度情報が除去される又はその信号強度が低減される質量電荷比は、この解析方法による判定自体に悪影響を及ぼす可能性がある化合物由来のイオンの質量電荷比である場合と、この解析方法による判定自体には影響を及ぼさないものの判定結果に反映されるのを避けたい化合物由来のイオンの質量電荷比である場合とがある。
 即ち、本発明に係る質量分析データ解析方法の一態様は、
 当該解析方法とは異なる他の手法による判定結果との併用によって前記目的試料が前記複数のクラスのいずれに分類されるのかを結論付ける質量分析データ解析方法であり、
 前記他の手法における測定又は検査の対象である一又は複数の化合物由来のイオンの質量電荷比又は質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とするものとすることができる。
 具体的には例えば、前記他の手法は特定の化合物をマーカとして測定又は検査を行う手法、例えば上述したような腫瘍マーカ検査法や脂質マーカ検査法などであり、該マーカである化合物、及び/又はその代謝物、及び/又はその代謝時に影響を受ける生体内分子に由来するイオンの質量電荷比又は質量電荷比範囲、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすればよい。
 また本発明に係る質量分析データ解析方法の他の態様は、
 学習データに基づく学習時と目的試料の判定時とでマススペクトル上の信号強度に大きな差異が生じることが想定される一又は複数の化合物由来のイオンの質量電荷比又はそれを含む所定幅の質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とするものとすることができる。
 具体的には例えば、前記試料は生体由来の試料であり、該生体に投与される又はその可能性のある薬剤、その代謝物、その代謝時に影響を受ける生体内分子、試料に残留する可能性のある標準物質、試料の採取、前処理、若しくは測定の過程で混入する可能性のある化合物のうちの一又は複数の化合物に由来するイオンの質量電荷比又はそれを含む所定幅の質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすればよい。
 なお、学習時と判定時とでマススペクトル上の信号強度に大きな差異が生じることが想定される前記一又は複数の化合物由来のイオンの質量電荷比は、統計解析処理により抽出されたものであってもよい。
 また上記本発明に係る第1の態様の質量分析データ解析装置は、与えられた学習データに対して所定の条件に従ってスペクトル情報を削除したりその重み付けを変更したりするフィルタリング部と、処理後の学習データに基づく機械学習を実行する学習実行部と、を備えていたが、目的試料の判定を行うためには、フィルタリング処理後の学習データに基づく学習結果情報が利用可能でありさえすればよい。
 そこで本発明に係る第2の態様の質量分析データ解析装置は、上記本発明に係る質量分析データ解析方法を具現化する一つの装置であり、複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとして所定の機械学習を実行することで求められた学習結果情報に基づいて、目的試料に対し質量分析を行うことで得られたマススペクトルデータから該目的試料をクラス分けする質量分析データ解析装置であって、
 a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正するフィルタリング処理がなされたあとのデータを学習データとして、前記機械学習を実行することで作成された学習結果情報を記憶しておく学習結果情報記憶部と、
 b)目的試料に対して得られたマススペクトルデータについて前記学習結果情報を作成する際に学習データに対して行われた前記フィルタリング処理を実行する目的データフィルタリング部と、
 c)前記目的データフィルタリング部でフィルタリング処理されたあとのマススペクトルデータに基づき、前記学習結果情報記憶部に記憶されている前記学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行部と、
 を備えることを特徴としている。
 上記学習結果情報記憶部は当該解析装置を構成するハードウェアの一部であってもよいが、学習結果情報にアクセスし該情報を利用できさえすればよいから、例えばインターネット等を通してアクセス可能であるコンピュータネットワーク上に学習結果情報記憶部が存在していてもよい。
 本発明に係る質量分析データ解析方法及び解析装置によれば、学習データとして予め収集した膨大な量のマススペクトルデータから、不所望のスペクトル情報やピーク情報を削除して、つまりはそうしたスペクトル情報やピーク情報の影響を排除して、目的試料のクラス分けを行うことができる。それにより、例えば、腫瘍マーカ検査で利用される腫瘍マーカについての情報を学習時及び判定時に除去することで、腫瘍マーカ検査に対して独立性の高い判定結果を得ることができる。その結果、より的確な情報を医師等に与えることができ、より信頼性の高い診断が可能となる。
 また、治療薬などの影響がある場合、内部標準試料を目的試料に添加したい場合、試料の採取や測定に利用される各種化合物が試料に混入する可能性がある場合など、学習データの収集時と判定対象のデータの採取時とでその取得条件等が異なる場合であっても、それにより影響を受ける質量電荷比や質量電荷比範囲におけるスペクトル情報を除外することによって、すでに収集した大量の学習データを利用しながら目的試料を適切にクラス分けすることが可能となる。もちろん、学習データ取得上の又は判定対象データの取得上の各種問題があとから発覚した場合であっても、その影響を解析して影響を受ける質量電荷比又は質量電荷比範囲のスペクトル情報を除外することで良好な判定を行うことができるので、貴重なデータを無駄にすることなく活用することができる。
 また、学習データのために膨大な量のマススペクトルデータを収集するには多大な時間と手間を要するが、例えば様々な種類のマーカの影響を除いた判定をそれぞれ行いたい場合に、そのマーカに応じて学習条件及び判定条件を変えればよく、膨大な量のマススペクトルデータを再度収集する必要はない。そのため、学習データのためのマススペクトルデータを収集する時間や手間を節約することができる。
 また、学習データの量が膨大である場合、学習データに基づく機械学習のために数時間から数十時間もの計算時間を要することが多い。これに対し、除外すべき又は重み付けを変えるべき質量電荷比や質量電荷比範囲の候補を予めリストアップしておき、その候補のそれぞれに対応した機械学習を実施して学習結果情報を求めて記憶しておくことで、目的試料の判定時には適宜の学習結果情報を選択して該情報を用いた判定を実施しさえすればよい。これによって、目的試料の判定を迅速に行うことができる。
本発明の一実施例による癌診断支援装置の概略構成図。 本実施例の癌診断支援装置における学習データに基づく学習時の動作説明図。 本実施例の癌診断支援装置における目的試料の判定時の動作説明図。
 本発明に係る質量分析データ解析方法を実行する質量分析データ解析装置を用いた癌診断支援装置の一実施例について、添付図面を参照して説明する。
 図1は本実施例の癌診断支援装置の概略構成図、図2は本実施例の癌診断支援装置における学習時の動作説明図、図3は本実施例の癌診断支援装置における目的試料の判定時の動作説明図である。
 本実施例の癌診断支援装置は、試料に対して質量分析を実行してマススペクトルデータを取得する質量分析装置1と、該質量分析装置1で得られたマススペクトルデータを用いた解析処理を実行するデータ解析部2と、解析処理の際に使用する各種データを収録したデータベース(DB)が格納される記憶部3と、解析処理の際に必要な情報等をユーザが入力するための入力部4と、解析結果等が表示される表示部5と、を備える。
 データ解析部2は機能ブロックとして、スペクトルデータ収集部20と、着目m/z情報受付部21と、スペクトル情報フィルタリング部22と、学習処理部23と、判定処理部24と、判定結果出力部25と、を含む。また、記憶部3には、マススペクトルデータベース30と、着目m/z値データベース31と、学習結果データベース32と、が格納される。
 データ解析部2の実体はパーソナルコンピュータ又はそれよりも高性能なコンピュータであり、該コンピュータに予めインストールされた専用のデータ解析ソフトウェアをコンピュータ上で動作させることで、それぞれの機能を実現させるようにすることができる。また、データ解析部2の機能は複数のコンピュータに分担させるようにすることもできる。具体的には、後述する学習機能と目的試料の判定機能とを別のコンピュータに割り当てることもできる。通常、機械学習における学習の際の計算量は判定の際に比べてかなり多くなるため、学習を実行するコンピュータとして高性能のコンピュータを用い、判定を実行するコンピュータは一般的なパーソナルコンピュータを用いると、効率的な処理が可能である。また、記憶部3はコンピュータに内蔵された又は接続されたハードウェアによるものでなくてよく、例えばインターネット等を介してアクセス可能であるコンピュータシステム上に存在する、つまりはクラウドコンピューティングにおける記憶装置などを利用してもよい。
 質量分析装置1は例えば微小な生体組織切片、血液、尿、唾液等の生体由来の試料に対するマススペクトル(MSnスペクトルを含む)データを取得可能であれば、そのイオン化法や質量分離法を問わないが、例えば、特許文献1に記載されているようなPESIイオン源を搭載した四重極型質量分析装置又は飛行時間型質量分析装置を用いることができる。
 本実施例の癌診断支援装置における特徴的な動作を図2及び図3を参照して説明する。
 この癌診断支援装置において、被検者が癌である可能性が高いか否かを判定するためには、学習結果データベース32を予め構築して記憶部3に格納しておく必要がある。学習結果データベース32を構築するためには、クラス毎にラベル付けされた学習用データが必要である。ここでは、クラスとして「癌である」クラスと「癌でない(非癌)」クラスの二つを考える。ただし、例えば同じ生体組織の癌でも異なる型が存在する場合には、癌であるクラスを癌の型に応じた複数のクラスに分けてもよい。例えば、腎細胞癌は、淡明細胞型、顆粒細胞型などの型に分類できることが知られており、それら型をそれぞれ別のクラスとすることができる。
 クラス毎にラベル付けされた学習用データを与えるために、例えば病理診断等によって癌に罹患していることが判明している多数の癌患者からそれぞれ採取された多数の生体試料と、癌でないことが判明している多数の健常者から採取された多数の生体試料とを、質量分析装置1で一つずつ質量分析することでマススペクトルデータを収集する。これにより、例えば「癌である」クラスのラベル付けがされた多数のマススペクトルデータと、「癌でない」クラスのラベル付けがされた多数のマススペクトルデータとが得られる(図2(a)参照)。
 データ解析部2においてスペクトルデータ収集部20は質量分析装置1からマススペクトルデータを受け取り、マススペクトルに対しピーク検出を行うことで得られるピーク情報(質量電荷比及び信号強度)をベクトル化したベクトルデータ(又は行列データ)を求め、それをクラス毎に分けて、つまりはラベル付けして、記憶部3のマススペクトルデータベース30に格納する。
 なお、マススペクトルデータベース30に格納されるマススペクトルに基づくベクトルデータは、1台の質量分析装置1で得られたマススペクトルデータに基づくものである必要はなく、複数の質量分析装置(好ましくは同種の質量分析装置)で得られたマススペクトルデータに基づくものであってもよい。
 一般に、試料に対して得られるマススペクトルには試料に含まれる複数の化合物にそれぞれ対応するピークが観測される。しかしながら、その全てが機械学習により目的試料のクラス分けを行う際に有用であるとは限らない。
 例えば、多くの場合、癌患者には癌治療のために抗癌剤等の薬剤が投与されるが、使用される薬剤の種類や組み合わせは多様であり、そうした薬剤、その代謝物、さらにはその代謝時に変化が生じる可能性がある生体内物質に由来するイオンのスペクトル情報が、目的試料の正確なクラス分けに悪影響を及ぼす可能性がある。また、試料の採取、前処理、或いは測定などの際に用いられる容器や器具自体の素材、それらに用いられる添加剤等の化合物は試料に混じるおそれがあるが、そうした化合物(広い意味での夾雑物)に由来するイオンのスペクトル情報も目的試料の正確なクラス分けに悪影響を及ぼす可能性がある。そのため、上記薬剤に由来するイオンや上記夾雑物に由来するイオンに関するスペクトル情報が学習結果に含まれないようにすることが望ましい。
 また、例えば腫瘍マーカ検査法に利用される化合物(マーカ分子)やその代謝物等の含有量に関する情報が学習結果に含まれると、その学習結果に基づく判定と腫瘍マーカ検査における判定との相関性がかなり高くなり、それら判定が互いに十分に独立であるとはいえなくなる。そのため、併用される複数の判定の独立性を確保するためには、他の診断法・検査法でターゲットとなる化合物に関する情報が学習結果に含まれないようにする必要がある。
 そこで本実施例の癌診断支援装置では、学習時に着目している、つまりはマススペクトルデータから除外したい(信号強度値をゼロにしたい)又はその信号強度の重み付けを低下させたい質量電荷比又は質量電荷比範囲を予め着目m/z値データベース31に登録しておく。後述するように着目する化合物の種類は非常に多いため、ここでは、着目する複数の化合物由来の質量電荷比値又は質量電荷比範囲をセットにして着目m/z値データベース31に登録しておき、ユーザがそのグループを一又は複数、入力部4から指定し、さらにそのグループに含まれる質量電荷比におけるスペクトル情報(つまりは信号強度情報)を除去するのか、その重み付けを変更するのか、重み付けを変更するのであれば重み付けをどの程度にするのか等を指定することができるようにしている。
 図2に示す例では、着目m/z値データベース31に登録しておくグループとして、腫瘍マーカを除外するセットA、脂質マーカを除外するセットB、抗癌剤を除外するセットC、ポリマーを除外するセットDが用意されている。「セットA」には、肝臓癌用の腫瘍マーカとして広く利用されているα-FP、乳癌スクリーニング用の腫瘍マーカとして広く利用されているCA15-3などに由来するイオンの質量電荷比値を含む。「セットB」には、リボ蛋白などに由来するイオンの質量電荷比値を含む。「セットC」には、フォリン酸、フルオロウラシル、オキサリプラチンなどの代表的な抗癌剤に由来するイオンの質量電荷比値を含む。「セットD」には、試料に接触する可能性がある測定用器具などに含まれる塩化ビニル、塩化ビニリデン、ジフェニルカーボネートなどの高分子化合物やその熱分解物に由来するイオンの質量電荷比値を含む。
 上記着目m/z値データベース31は本装置のハードウェアやソフトウェアを提供するメーカが予め構築しておくようにしてもよいし、ユーザ自身が作成するようにしてもよい。また、予め基本となる着目m/z値データベース31をメーカが作成しておき、ユーザが適宜、このデータベース31を修正したり情報を追加又は削除したりすることができるようにしてもよい。なお、着目m/z値データベース31に収録することが考えられる化合物の具体例についてはあとで詳述する。
 上述したようにユーザが入力部4から着目m/z値データベース31中のグループ(又は特定の一つの化合物等)を指定すると、着目m/z情報受付部21はその指定に対応する情報を着目m/z値データベース31から読み出してスペクトル情報フィルタリング部22に設定する。例えばユーザが「セットA」及び「セットD」の二つのグループを除外すべきスペクトル情報として指定したものとすると、着目m/z情報受付部21は着目m/z値データベース31中の「セットA」及び「セットD」の二つのグループに含まれる質量電荷比値情報を全て読み出して来てスペクトル情報フィルタリング部22に設定する。
 スペクトル情報フィルタリング部22は、マススペクトルデータベース30からマススペクトルデータに対応するピーク情報を示すデータ(例えば上記ベクトルデータ)を順に読み出し、着目m/z情報受付部21により設定された質量電荷比又は質量電荷比範囲に対応する信号強度情報を削除する(強度値をゼロにする)又はその質量電荷比又は質量電荷比範囲に対応する信号強度情報の重みを下げるように例えば1未満である所定の係数を乗じて強度を減じる。即ち、ここでは、クラスラベルが付された全てのマススペクトルデータについて、特定の質量電荷比又は質量電荷比範囲におけるスペクトル情報を削除したりその強度値を下げたりするフィルタリング処理を実行する(図2(b)参照)。これによって、得られたマススペクトル上に例えば「セットA」に含まれる腫瘍マーカ由来のピークが存在していた場合でも、該ピークは実質的に除去されることになる。例えば「セットA」及び「セットD」に含まれる質量電荷比又は質量電荷比のスペクトル情報が各マススペクトルデータに基づくベクトルデータから除外されることで、フィルタリング処理済みのデータ群aが得られる(図2(c)参照)。
 そのあと学習処理部23は、上記フィルタリング処理後のデータ(例えば上記データ群a)を読み込み、これを学習データとして機械学習を実施して学習結果αを求める(図2(d)、(e)参照)。そして、得られた学習結果αを学習結果データベース32に格納する(図2(f)参照)。機械学習のアルゴリズムとしてdPLRMを用いる場合には、予測確率を与える最適化されたdPLRMパラメータが学習結果情報である。そのアルゴリズムについては特許文献1等に記載された周知の技術であるので、ここでは詳細は省略する。もちろん、機械学習のアルゴリズムとしてdPLRM以外の手法を用いる場合でも、その手法に応じた学習結果情報を得ることができる。
 上述したように、学習処理部23で扱う学習データには、上記フィルタリング処理によって実質的に除去されたスペクトル情報が含まれないから、学習結果データベース32に格納される学習結果情報には上記フィルタリング処理で実質的に除去されたスペクトル情報は反映されない。即ち、上記例の場合、「セットA」に含まれる腫瘍マーカ由来のイオンの質量電荷比における信号強度情報、及び、「セットC」に含まれる抗癌剤由来のイオンの質量電荷比における信号強度情報は、いずれも学習結果情報に反映されなくなる。
 本実施例の癌診断支援装置では、着目m/z値データベース31に収録されている除外対象のグループの指定や、そのグループに含まれる質量電荷比又は質量電荷比範囲を適宜変更することによって、マススペクトルデータベース30に格納されている、全く同じベクトルデータを利用しながら、それぞれ異なる学習結果情報を作成して学習結果データベース32に格納しておくことができる。
 例えば除外対象として「セットA」及び{セットC」を指定することで学習結果αが得られたが、これと共に、全くフィルタリング処理を行わずにマススペクトルデータベース30に格納されているベクトルデータをそのまま学習データとして利用することで作成した学習結果β、「セットD」のグループに含まれる化合物由来のイオンを除去した学習データを用いて作成した学習結果γなどを、学習結果データベース32に格納しておくことができる。即ち、全く同じマススペクトルデータに基づき、ユーザの必要性に応じて、癌診断に利用可能な様々なパターンの学習結果情報を予め学習結果データベース32に用意しておくことができる。除外対象のグループに含める質量電荷比の組み合わせを変えることによって、非常に多くの種類の学習結果情報を用意しておくことができる。
 被検者から採取された生体試料について癌判定を実施する際には、その目的試料を質量分析装置1で質量分析することによりマススペクトルデータを取得する。スペクトルデータ収集部20はその実測のマススペクトルデータを読み込み、ピーク情報を収集してそれをベクトル化してベクトルデータを求める(図3(a)参照)。
 またユーザは、例えばマススペクトルデータから除外したい質量電荷比のグループ等を入力部4から指定する。着目m/z情報受付部21はこの指定を受けて除外すべき質量電荷比又は質量電荷比値をスペクトル情報フィルタリング部22に設定する。これは学習時と同じである。スペクトル情報フィルタリング部22は、目的試料に対するマススペクトルデータから求まった上記ベクトルデータから、着目m/z情報受付部21により設定された質量電荷比又は質量電荷比範囲に対応するスペクトル情報を削除する又はその強度値の重みを下げるように例えば1未満である所定の係数を乗じて強度を減じる。これにより、フィルタリング処理済みのデータが得られる。(図3(b)、(c)参照)。
 判定処理部24は指定されたグループ等が除去された学習データに基づく学習結果情報を学習結果データベース32から読み出す。即ち、学習時のフィルタリング処理の条件が判定時と同じである学習結果情報を取得する。そして、その学習結果情報を用いて上記フィルタリング処理後のデータが「癌である」又は「癌でない」クラスに属する確率を算出し、いずれのクラスに属するのかを判定する(図3(d)参照)。判定結果出力部25はその判定結果を所定の形式で表示部5の画面上に表示する。例えば、癌である又は癌でない確率をグラフィカルに表示することができる(図3(e)参照)。
 上述したように本実施例の癌診断支援装置では、例えば学習データを利用した学習結果情報の作成時に腫瘍マーカ由来のイオンのスペクトル情報を学習データから除外し、目的試料に対して得られたデータについても同じ腫瘍マーカ由来のイオンのスペクトル情報を除外したうえで癌判定を実行する。そのため、腫瘍マーカの含有量はその癌判定の結果に影響を及ぼさない。それにより、本実施例の癌診断支援装置による判定と、これとは別に行われる腫瘍マーカ検査による判定とは、十分に高い独立性が確保されることになり、それら複数の判定結果に基づいて信頼性の高い癌の診断を行うことができる。
 本実施例の癌診断支援装置において、癌判定のためにマススペクトルデータから除外することが望ましい物質(化合物)の例を以下に列挙する。
 [1]他の癌の診断法や検査法に使用される又はそのターゲットであるため、それぞれの判定の独立性を確保するために、本装置での学習時及び判定時に除外することが望ましい物質:
 癌の診断や検査にごく一般的に使用される腫瘍マーカとして、α-FP、CA15-3、CA27-29、CA19-9、CA-125、CEA、SCC、CYFRA、ProGRP、などがある。これら腫瘍マーカの分子由来のイオンやその代謝物由来のイオンのスペクトル情報はマススペクトルデータから除外することが望ましい。また、上記以外に、腫瘍マーカとして使用されている、又は使用可能であると言われている物質としては、カルシトニン、カルレチニン、癌胎児性抗原(CEA)、CD34、CD99、CD117、クロモグラニン、クロモソーム 3,7,17,9p21、シトケラチン、デスミン、EMA、GFAP、GCFP-15、HMB-45、hCG、イムノグロブリン、インヒビン、ケラチン、リンパ球マーカ、MART-1、Myo D1、MSA、ニューロフィラメント、NSE、PLAP、前立腺特異抗原、PTPRC(CD45)、S100タンパク質、SMA、シナプトフィジン、チログロブリン、チロイド、転写因子-1、腫瘍 M2-PK、ビメンチン、などがある。これらについても上記腫瘍マーカと同様に、必要に応じてマススペクトルデータから除外するとよい。
 [2]学習時と判定時とで測定条件等の差異となり得るため、学習時及び判定時に除外することが望ましい物質
 [2-1]癌等の疾患診断を行う場合、疾患の治療というバイアスによって学習時と判定時とで測定条件の差異となり得る物質がある。例えば癌治療においては、以下のような物質(抗癌剤)が単体又は複数併用で以てしばしば用いられるため、これら物質自体及びその代謝物由来のイオンなどのスペクトル情報を必要に応じてマススペクトルデータから除外することが望ましい。
 ・フォリン酸(ロイコボリン) <化学式:C20H23N7O7、分子量:473.44>
 ・フルオロウラシル(5-FU) <化学式:C4H3FN2O2、分子量:130.077>
 ・テガフール <化学式:C8H9FN2O3、分子量:200.16>
 ・ウラシル <化学式:C4H4N2O2、分子量:112.09>
 ・ギメラシル <化学式:C5H4ClNO2、分子量:145.54>
 ・オテラシルカリウム <化学式:C4H2KN3O4、分子量:195.17>
 ・FdUMP <化学式:C9H12FN2O8P、分子量:326.172345>
 ・フルシトシン <化学式:C4H4FN3O、分子量:129.09>
 ・ドキシフルリジン(5-DFUR) <化学式:C9H11FN2O5、分子量:246.19>
 ・カペシタビン <化学式:C15H22FN3O6、分子量:359.35>
 ・レバミゾール <化学式:C11H12N2S、分子量:204.292>
 ・レボホリナート <化学式:C20H21N7O7.Ca、分子量:473.44+Ca>
 ・シスプラチン <化学式:Cl2H6N2Pt、分子量:300.05>
 ・ビンブラスチン <化学式:C46H58N4OO9、分子量:810.975(+SO4硫酸塩)>
 ・シアノコバラミン <化学式:C63H88CoN14O14P、分子量:1355.38>
 ・ドキソルビシン(アドリアシン) <化学式:C27H29NO11、分子量:543.52(579.98(塩酸塩))>
 ・ドキソルビシン <化学式:C27H29NO11、分子量:543.52>
 ・エピルビシン <化学式:C27H29NO11、分子量:543.519(579.98(塩酸塩))>
 ・ペメトレキセド <化学式:C20H21N5O6、分子量:427.41/化学式:C20H15N5Na206・7 H20、分子量:597.49>
 ・メトトレキサート <化学式:C20H22N8O5、分子量:454.44>
 ・アロプリノール <化学式:C5H4N4O、分子量:136.112>
 ・テモゾロミド <化学式:C6H6N6O2、分子量:194.151>
 ・ブレオマイシン <化学式:C55H84N17O21S3、分子量:1415.551>
 ・ミスラマイシン <化学式:C52H76O24、分子量:1085.15>
 ・マイトマイシンC <化学式:C15H18N4O5、分子量:334.327>
 ・エトポシド <化学式:C29H32O13、分子量:588.557>
 ・イリノテカン <化学式:C33H38N4O6、分子量:586.678(677.185(塩酸塩))>
 ・カンプトテシン <化学式:C20H16N2O4、分子量:348.352>
 ・シクロホスファミド <化学式:C7H15Cl2N2O2P・H2O、分子量:279.10>
 ・イホスファミド <化学式:C7H15Cl2N2O2P、分子量:261.1>
 ・チオテパ <化学式:C6H12N3PS、分子量:189.2>
 ・ブスルファン <化学式:C6H14O6S2、分子量:246.304>
 ・ニムスチン <化学式:C9H13ClN6O2、分子量:272.69>
 ・塩酸ニムスチン <化学式:C9H14Cl2N6O2、分子量:309.15>
 ・ラニムスチン <化学式:C10H18ClN3O7、分子量:327.71>
 ・カルムスチン <化学式:C5H9Cl2N3O2、分子量:214.05>
 ・ロムスチン <化学式:C9H16ClN3O2、分子量:233.695>
 ・ストレプトゾシン <化学式:C8H15N3O7、分子量:265.221>
 ・セムスチン <化学式:C10H18ClN3O2、分子量:247.72>
 ・ダカルバジン <化学式:C6H10N6O、分子量:182.18>
 ・メスナ <化学式:C2H5NaO3S2、分子量:164.181>
 ・ビンクリスチン <化学式:C46H56N4O10、分子量:824.958>
 ・クロラムブシル <化学式:C14H19Cl2NO2、分子量:304.212>
 ・メルファラン <化学式:C13H18Cl2N2O2、分子量:305.2>
 <ナイトロジェンマスタード系>
 ・N,N-ビス(2-クロロエチル)エチルアミン(HN-1) <化学式:CH3CH2N(CH2CH2Cl)2、分子量:170.08>
 ・N,N-ビス(2-クロロエチル)メチルアミン(HN-2、メクロレタミン) <化学式:CH3N(CH2CH2Cl)2、分子量:156.054>
 ・トリス(2-クロロエチル)アミン(HN-3) 化学式:(CH2CH2Cl)3N 分子量:204.52>
 ・ドセタキセル <化学式:C43H53NO14、分子量:807.879>
 ・パクリタキセル <化学式:C47H51NO14、分子量:853.906>
 ・ゲムシタビン <化学式:C9H11F2N3O4、分子量:263.198>
 ・シタラビン <化学式:C9H13N3O5、分子量:243.22>
 ・ダウノルビシン <化学式:C27H29NO10、分子量:527.52(563.99(塩酸塩))>
 ・ミトキサントロン <化学式:C22H28N4O6、分子量:444.481>
 ・ゾスキダル <化学式:C32H31F2N3O2、分子量:527.61>
 ・アクチノマイシン <化学式:C62H86N12O16、分子量:1255.42>
 ・プレドニゾロン <化学式:C21H28O5、分子量:360.45>
 ・アスパラギナーゼ <化学式:C1377H2208N382O442S17、分子量:31731.9>
 ・メルカプトプリン <化学式:C5H4N4S、分子量:152.177>
 ・オキサリプラチン(L-OHP) <化学式:C8H14N2O4Pt、分子量:397.2858>
 ・カルボプラチン(CBDCA) <化学式:C6H12N2O4Pt、分子量:371.249>
 ・レバミゾール <化学式:C11H12N2S 分子量:204.292>
 ・ベバシズマブ <化学式:C1034H1591N273O338S6(C2235H3413N585O678S16)、分子量:149 kDa>
 ・セツキシマブ <化学式:C6484H10042N173202023S36、分子量:145781.6>
 ・パニツムマブ <化学式:C6398H9878N1694O2016S48、分子量:147 kDa>
 [2-2]測定時等に夾雑物として試料に混入する可能性があり、そのために学習時と判定時とで測定条件の差異となり得る物質がある。これは例えば、試料を収容する容器やサンプルプレート等の測定用器具などの材料である高分子化合物の熱分解物、精製が不十分である等の理由で残存する原材料単量体又は二量体、三量体などであり、代表的な高分子化合物(ポリマー)として、塩化ビニル、塩化ビニリデン、塩化カルボニル、ジフェニルカーボネート、ビスフェノールA/PTBT(p-t-ブチルフェノール)、フェノール、スチレン、及びこれらいずれかの二量体、三量体、などが知られている。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。
 [2-3]上記測定用器具などの材料に含まれる可塑剤による汚染の影響も考えられる。代表的な可塑剤としては、フタル酸エステル類、フタル酸ジオクチル、フタル酸ジイソノニル、フタル酸ジイソデシル、フタル酸ジブチル、アジピン酸エステル類、アジピン酸ジオクチル・アジピン酸ジイソノニル、トリメット酸エステル類、トリメット酸トリオクチル、ポリエステル類、燐酸エステル類、燐酸トリクレシル、クエン酸エステル、ATBC(Acetyl tributyl citrate)、アセチルクエン酸トリブチル、エポキシ化植物油、ESBO(Epoxidized soybean-oil)、エポキシ化大豆油、ELSO(Epoxidized linseed-oil)、エポキシ化亜麻仁油、セバシン酸エステル、アアゼライン酸エステル、マレイン酸エステル、安息香酸エステル、などが知られている。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。
 [2-4]上記測定用器具などの製造過程で用いられる離型剤やその変性物による汚染の影響も考えられる。代表的な離型剤としては、植物油、シリコーン系、フッ素樹脂系などが知られている。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。
 [2-5]質量分析装置の較正などに用いられる標準物質や試薬又はそれに添加されている物質による汚染の影響も考えられる。こうした物質としては例えば、ポリエチレングリコール、NaTFA、NaI CsI、パパベリン、p-ニトロフェノール、レセルピン、アンジオテンシン、ブラジキニンなどがある。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。
 [2-6]試料の前処理に用いられる物質や試料成分分離に用いられるカラム溶出物などの残存物による汚染の影響も考えられる。これら物質としては、クロロホルム、アセトニトリル、シロキサンなどがある。これら物質由来のイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。
 [2-7]夾雑物ではないが、マススペクトルの中で装置の性能が変動したり低下したりし易い質量電荷比範囲、例えば測定可能範囲の上限付近及び下限付近のデータは学習時と判定時とで測定条件に差異が生じ易い。そこで、例えば測定可能範囲の上限付近及び下限付近の所定の質量電荷比領域に含まれるイオンのスペクトル情報も必要に応じてマススペクトルデータから除外することが望ましい。
 上記のような様々な要因によるスペクトル情報をマススペクトルデータから実質的に除外する際には、ユーザは例えば以下のような手法のいずれかによって影響を低減すべきスペクトル情報を予測し、その予測に基づいて実質的に除去するスペクトル情報(質量電荷比値など)を指定するとよい。
 [A]実試料に対する実測、標準試料等に対する実測、或いは、ブランク試料(溶媒のみの試料)に対する実測などにより、影響を低減すべきスペクトル情報が含まれるマススペクトルを取得し、そのマススペクトルを解析することによって、影響を低減すべきスペクトル情報を求める。この場合には、実際にマススペクトルに混入していることが確認できる又は混入の可能性が高いことが確認できるスペクトル情報を実質的に除去することになる。
 上記解析には例えば主成分分析(PCA)、部分最小二乗(PLS)などの周知の多変量解析の手法を利用することができる。例えば、詳細な代謝物が判明していない場合であっても、既知の質量電荷比と相関性の高いピークを多変量解析手法により抽出し、それを除去すべきものとして指定することができる。このような相関は代謝により消費・生成される物質に限らず、或るピークの存在に伴うサプレッションなどのイオン化への影響によるスペクトルパターンの変化についても抽出できるので、内部標準試料の添加や汚染物質の影響についても同様の解析を用いることができる。同様に、装置の器差や測定を実施した機関の差などと相関の高いピークを多変量解析により抽出し、そうしたピークは系統誤差の影響を受け易いピークと考えて、それを除去すべきものとして指定することもできる。
 [B]本装置による判定と併せて実施される腫瘍マーカ検査に利用される腫瘍マーカが既知である場合、或いは、癌患者等に投与された抗癌剤等が既知である場合など、影響を除去する必要がある一又は複数の物質が特定されている場合には、その物質又はその代謝物が一価若しくは多価にイオン化する際に、一つ又は複数の、電子の付加又は脱離、水素の付加又は脱離、Na、K、Rb、Cs、Fr等のアルカリ金属の付加又は脱離、その他の金属の付加又は脱離、F、Cl、Br、I、At等のハロゲン元素の付加又は脱離、水和、脱水、硫酸基、酢酸基、硝酸基などの各種化学修飾基の付加又は脱離などが生じたイオンの質量電荷比を同位体の影響を含めて計算する。そして、その計算により求まった質量電荷比に対応するスペクトル情報を除外すべきものとする。
 [C]試料に含まれる又は混入している物質自体又はその代謝物の一部である化学修飾基や金属の付加などによって元々試料に含まれる他の物質が一価又は多価にイオン化する際に変異することを想定し、その他の物質に、一つ又は複数の、Na、K、Rb、Cs、Fr等のアルカリ金属の付加、その他の金属の付加、F、Cl、Br、I、At等のハロゲン元素の付加、水和、硫酸基、酢酸基、硝酸基などの各種化学修飾基の付加などが生じたイオンの質量電荷比を同位体の影響を含めて計算する。そして、その計算により求まった質量電荷比に対応するスペクトル情報を除外すべきものとする。
 [D]試料に含まれる又は混入している物質自体又はその代謝物の影響で、元々試料に含まれる他の物質が一価又は多価にイオン化する際に、その一部が脱離することにより変異することを想定し、その他の物質から、一つ又は複数の、Na、K、Rb、Cs、Fr等のアルカリ金属の脱離、その他の金属の脱離、F、Cl、Br、I、At等のハロゲン元素の脱離、脱水、硫酸基、酢酸基、硝酸基などの各種化学修飾基の脱離などが生じたイオンの質量電荷比を同位体の影響を含めて計算する。そして、その計算により求まった質量電荷比に対応するスペクトル情報を除外すべきものとする。
 [E]実質的に除去したい物質由来のイオンが決まっている場合に、そのイオンについて同位体の影響及び装置による質量ズレの影響を考慮し、除外したいイオンの質量電荷比を中心とするその前後の所定幅の質量電荷比範囲全体のスペクトル情報を除外すべきものとする。
 [F]スペクトル情報の除外の必要性を検討する際に、その除外あり及びなしでの判定結果への影響を予め評価し、除外による評価についての所望の改善が確認できるスペクトル情報のみ除外すべきものとする。
 なお、除去すべきスペクトル情報を決定する際には、上記[A]~[F]の手法を適宜組み合わせてもよい。本来は除去しなくてもよい、つまりは判定結果に影響を与えないスペクトル情報を除去してしまうと、偶然、それに質量電荷比が重なっている重要なスペクトル情報も除去されてしまい判定の精度が低下することがあり得るが、除去するスペクトル情報を本当に除去すべきものに限定することで、判定の精度を確保し易くなる。
 また、単に特定の質量電荷比や質量電荷比範囲に対応するスペクトル情報を除外するだけでなく、特定の一つ若しくは複数の質量電荷比又は質量電荷比範囲について重み付け、つまりは信号強度値の相対的な大きさを変更することを可能としておくことで、重みを下げるのではなく逆に重みを上げて特定のマーカ関連の質量電荷比を重視する判定を行うこともできる。これによって、例えば、新たなマーカ分子が見いだされた場合やあとで混入が疑われる物質が見つかった場合に、そうした物質由来のイオンのスペクトル情報に対する重みを意図的に上げることによって既存のデータベース内の影響の評価が可能となる。
 なお、上記実施例は本発明に係る質量分析データ解析装置を癌診断支援装置に利用したものであるが、本発明に係る質量分析データ解析装置は、癌などの特定の疾病や疾患の診断や判定に限らず、未知の試料が複数のクラスのいずれかに分類されるのかを判定するための様々な装置や分野に利用することができる。
 例えば、農産物、海産物、畜産物などの産品が特定の産地由来のものであるか否かの検査、高価な産品が安価な類似品(偽物)でないかどうかの検査を行う際に利用可能である。また、医薬品や紙幣などの工業製品についての真贋判定、工業製品の良品・不良品の判定、さらには、ゴミや廃棄物の分別などにも利用可能である。
 また、上記実施例は本発明の一例にすぎず、上記記載以外の点について本発明の趣旨の範囲で適宜変形、修正、追加を行っても本願特許請求の範囲に包含されることは明らかである。
1…質量分析装置
2…データ解析部
20…スペクトルデータ収集部
21…着目m/z情報受付部
22…スペクトル情報フィルタリング部
23…学習処理部
24…判定処理部
25…判定結果出力部
3…記憶部
30…マススペクトルデータベース
31…着目m/z値データベース
32…学習結果データベース
4…入力部
5…表示部

Claims (8)

  1.  複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとし所定の機械学習を実行することで求められた学習結果情報を用いて、目的試料に対し質量分析を行うことで得られたマススペクトルデータに基づき該目的試料をクラス分けする質量分析データ解析方法であって、
     a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正する処理を行う学習データフィルタリングステップと、
     b)前記学習データフィルタリングステップで処理されたあとの学習データを用いて前記機械学習を実行し学習結果情報を作成して記憶する学習実行ステップと、
     c)目的試料に対して得られたマススペクトルデータについて前記学習データフィルタリングステップと同等の処理を実行する目的データフィルタリングステップと、
     d)前記目的データフィルタリングステップで処理されたあとのマススペクトルデータに基づき、前記学習実行ステップにおいて記憶された学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行ステップと、
     を有することを特徴とする質量分析データ解析方法。
  2.  請求項1に記載の質量分析データ解析方法であって、
     当該解析方法とは異なる他の手法による判定結果との併用によって前記目的試料が前記複数のクラスのいずれに分類されるのかを結論付ける質量分析データ解析方法であり、
     前記他の手法における測定又は検査の対象である一又は複数の化合物由来のイオンの質量電荷比又は質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすることを特徴とする質量分析データ解析方法。
  3.  請求項2に記載の質量分析データ解析方法であって、
     前記他の手法は特定の化合物をマーカとして測定又は検査を行う手法であり、該マーカである化合物、及び/又はその代謝物、及び/又はその代謝時に影響を受ける生体内分子に由来するイオンの質量電荷比又は質量電荷比範囲、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすることを特徴とする質量分析データ解析方法。
  4.  請求項1に記載の質量分析データ解析方法であって、
     学習データに基づく学習時と目的試料の判定時とでマススペクトル上の信号強度に大きな差異が生じることが想定される一又は複数の化合物由来のイオンの質量電荷比又はそれを含む所定幅の質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすることを特徴とする質量分析データ解析方法。
  5.  請求項4に記載の質量分析データ解析方法であって、
     前記試料は生体由来の試料であり、該生体に投与される又はその可能性のある薬剤、その代謝物、その代謝時に影響を受ける生体内分子、試料に残留する可能性のある標準物質、試料の採取、前処理、若しくは測定の過程で混入する可能性のある化合物のうちの一又は複数の化合物に由来するイオンの質量電荷比又はそれを含む所定幅の質量電荷比範囲を、前記予め設定された一又は複数の質量電荷比又は質量電荷比範囲とすることを特徴とする質量分析データ解析方法。
  6.  請求項4に記載の質量分析データ解析方法であって、
     学習時と判定時とでマススペクトル上の信号強度に大きな差異が生じることが想定される前記一又は複数の化合物由来のイオンの質量電荷比は、統計解析処理により抽出されたものであることを特徴とする質量分析データ解析方法。
  7.  複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとし所定の機械学習を実行することで求められた学習結果情報に基づいて、目的試料に対し質量分析を行うことで得られたマススペクトルデータから該目的試料をクラス分けする質量分析データ解析装置であって、
     a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正する処理を行う学習データフィルタリング部と、
     b)前記学習データフィルタリング部で処理されたあとの学習データを用いて前記機械学習を実行し学習結果情報を作成して記憶する学習実行部と、
     c)目的試料に対して得られたマススペクトルデータについて前記学習データフィルタリング部と同等の処理を実行する目的データフィルタリング部と、
     d)前記目的データフィルタリング部で処理されたあとのマススペクトルデータに基づき前記学習実行部において記憶された学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行部と、
     を備えることを特徴とする質量分析データ解析装置。
  8.  複数のクラスに分類されてなる複数の試料に対してそれぞれ質量分析を行うことで得られたマススペクトルデータを学習データとして所定の機械学習を実行することで求められた学習結果情報に基づいて、目的試料に対し質量分析を行うことで得られたマススペクトルデータから該目的試料をクラス分けする質量分析データ解析装置であって、
     a)前記学習データとして与えられた複数のマススペクトルデータそれぞれについて、予め設定された一又は複数の質量電荷比又は質量電荷比範囲における信号強度情報を削除する又はその重み付けを修正するフィルタリング処理がなされたあとのデータを学習データとして、前記機械学習を実行することで作成された学習結果情報を記憶しておく学習結果情報記憶部と、
     b)目的試料に対して得られたマススペクトルデータについて前記学習結果情報を作成する際に学習データに対して行われた前記フィルタリング処理を実行する目的データフィルタリング部と、
     c)前記目的データフィルタリング部でフィルタリング処理されたあとのマススペクトルデータに基づき、前記学習結果情報記憶部に記憶されている前記学習結果情報を用いて前記目的試料が複数のクラスのいずれかに属するかを判定する判定実行部と、
     を備えることを特徴とする質量分析データ解析装置。
PCT/JP2016/072278 2016-07-29 2016-07-29 質量分析データ解析装置及び解析方法 WO2018020652A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2018530294A JP6743892B2 (ja) 2016-07-29 2016-07-29 質量分析データ解析装置及び解析方法
US16/321,130 US11521842B2 (en) 2016-07-29 2016-07-29 Mass spectrometric data analysis device and analysis method
EP16910555.8A EP3508842A4 (en) 2016-07-29 2016-07-29 DEVICE FOR ANALYZING MASS SPECTROMETRIC DATA AND ANALYSIS METHOD
PCT/JP2016/072278 WO2018020652A1 (ja) 2016-07-29 2016-07-29 質量分析データ解析装置及び解析方法
CN201680089696.7A CN109791124B (zh) 2016-07-29 2016-07-29 质谱分析数据解析装置及解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/072278 WO2018020652A1 (ja) 2016-07-29 2016-07-29 質量分析データ解析装置及び解析方法

Publications (1)

Publication Number Publication Date
WO2018020652A1 true WO2018020652A1 (ja) 2018-02-01

Family

ID=61016429

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/072278 WO2018020652A1 (ja) 2016-07-29 2016-07-29 質量分析データ解析装置及び解析方法

Country Status (5)

Country Link
US (1) US11521842B2 (ja)
EP (1) EP3508842A4 (ja)
JP (1) JP6743892B2 (ja)
CN (1) CN109791124B (ja)
WO (1) WO2018020652A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021032808A (ja) * 2019-08-28 2021-03-01 日本電子株式会社 マススペクトル処理装置及びモデル生成方法
CN112823281A (zh) * 2018-08-31 2021-05-18 株式会社岛津制作所 分析方法、分析装置及程序
CN113056672A (zh) * 2018-11-19 2021-06-29 佳能株式会社 信息处理装置、信息处理装置的控制方法、程序、计算装置和计算方法
KR20220001972A (ko) * 2020-06-30 2022-01-06 울산과학기술원 딥러닝 기반 모델링을 통한 미량오염물질 정밀검출 장치 및 방법
JP2022549294A (ja) * 2019-09-23 2022-11-24 ゼテオ テック、 インク. エアロゾル粒子を迅速かつ自律的に検出するシステムおよび方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12074018B2 (en) 2019-09-23 2024-08-27 Zeteo Tech, Inc. Systems and methods of rapid and autonomous detection of aerosol particles
CN112051363B (zh) * 2020-09-02 2023-07-14 西南民族大学 一种基于根土比判定高寒草甸退化程度的方法
CN113484400B (zh) * 2021-07-01 2022-11-22 上海交通大学 基于机器学习的质谱图分子式计算方法
CN117677833A (zh) * 2021-07-28 2024-03-08 约翰威利父子公司 自适应搜索质谱仪光谱分析
US11754536B2 (en) * 2021-11-01 2023-09-12 Matterworks Inc Methods and compositions for analyte quantification
WO2023077166A1 (en) * 2021-11-01 2023-05-04 Matterworks Inc Methods and compositions for analyte quantification
CN118067827B (zh) * 2024-04-22 2024-08-06 清谱科技(苏州)有限公司 一种用于idh基因突变标志物检测的质谱系统及提高检测准确性的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008508538A (ja) * 2004-08-02 2008-03-21 チルドレンズ・メディカル・センター・コーポレイション 癌についての血小板生物マーカー
JP2012523000A (ja) * 2009-04-07 2012-09-27 バイオクレイツ ライフ サイエンス エージー インビトロで多因子疾患を診断する方法
JP2013178232A (ja) * 2012-01-30 2013-09-09 Canon Inc 生体組織画像の再構成方法、取得方法及び装置
JP2014044110A (ja) 2012-08-27 2014-03-13 Shimadzu Corp 質量分析装置、及び該装置を用いた癌診断装置
JP2014044100A (ja) * 2012-08-27 2014-03-13 Citizen Holdings Co Ltd ソーラーセル付電子時計
JP2015049055A (ja) * 2013-08-30 2015-03-16 株式会社島津製作所 質量分析データ処理方法及び該方法を用いた質量分析装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6882990B1 (en) * 1999-05-01 2005-04-19 Biowulf Technologies, Llc Methods of identifying biological patterns using multiple data sets
CA2307399C (en) * 2000-05-02 2006-10-03 Mds Inc., Doing Business As Mds Sciex Method for reducing chemical background in mass spectra
US7899625B2 (en) 2006-07-27 2011-03-01 International Business Machines Corporation Method and system for robust classification strategy for cancer detection from mass spectrometry data
US8304719B2 (en) 2009-02-22 2012-11-06 Xin Wang Precise and thorough background subtraction
WO2016187671A1 (en) * 2015-05-27 2016-12-01 Crc Care Pty Ltd A method and apparatus for automatically determining volatile organic compounds (vocs) in a sample

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008508538A (ja) * 2004-08-02 2008-03-21 チルドレンズ・メディカル・センター・コーポレイション 癌についての血小板生物マーカー
JP2012523000A (ja) * 2009-04-07 2012-09-27 バイオクレイツ ライフ サイエンス エージー インビトロで多因子疾患を診断する方法
JP2013178232A (ja) * 2012-01-30 2013-09-09 Canon Inc 生体組織画像の再構成方法、取得方法及び装置
JP2014044110A (ja) 2012-08-27 2014-03-13 Shimadzu Corp 質量分析装置、及び該装置を用いた癌診断装置
JP2014044100A (ja) * 2012-08-27 2014-03-13 Citizen Holdings Co Ltd ソーラーセル付電子時計
JP2015049055A (ja) * 2013-08-30 2015-03-16 株式会社島津製作所 質量分析データ処理方法及び該方法を用いた質量分析装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3508842A4

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112823281A (zh) * 2018-08-31 2021-05-18 株式会社岛津制作所 分析方法、分析装置及程序
US20220130652A1 (en) * 2018-08-31 2022-04-28 Shimadzu Corporation Analysis method, analysis device, and program
EP3845896A4 (en) * 2018-08-31 2022-06-22 Shimadzu Corporation ANALYSIS METHOD, ANALYSIS DEVICE AND PROGRAM
CN113056672A (zh) * 2018-11-19 2021-06-29 佳能株式会社 信息处理装置、信息处理装置的控制方法、程序、计算装置和计算方法
JP2021032808A (ja) * 2019-08-28 2021-03-01 日本電子株式会社 マススペクトル処理装置及びモデル生成方法
JP2022549294A (ja) * 2019-09-23 2022-11-24 ゼテオ テック、 インク. エアロゾル粒子を迅速かつ自律的に検出するシステムおよび方法
JP7403881B2 (ja) 2019-09-23 2023-12-25 ゼテオ テック、 インク. エアロゾル粒子を迅速かつ自律的に検出するシステムおよび方法
KR20220001972A (ko) * 2020-06-30 2022-01-06 울산과학기술원 딥러닝 기반 모델링을 통한 미량오염물질 정밀검출 장치 및 방법
KR102407112B1 (ko) * 2020-06-30 2022-06-10 울산과학기술원 딥러닝 기반 모델링을 통한 미량오염물질 정밀검출 장치 및 방법

Also Published As

Publication number Publication date
US20190267222A1 (en) 2019-08-29
CN109791124B (zh) 2022-08-19
JPWO2018020652A1 (ja) 2019-05-09
JP6743892B2 (ja) 2020-08-19
CN109791124A (zh) 2019-05-21
US11521842B2 (en) 2022-12-06
EP3508842A1 (en) 2019-07-10
EP3508842A4 (en) 2020-07-08

Similar Documents

Publication Publication Date Title
JP6743892B2 (ja) 質量分析データ解析装置及び解析方法
Buchberger et al. Mass spectrometry imaging: a review of emerging advancements and future insights
JP7057913B2 (ja) ビッグデータ解析方法及び該解析方法を利用した質量分析システム
Bhargava Towards a practical Fourier transform infrared chemical imaging protocol for cancer histopathology
Zhang et al. Mass spectrometry imaging enables discrimination of renal oncocytoma from renal cell cancer subtypes and normal kidney tissues
EP2700042B1 (en) Analyzing the expression of biomarkers in cells with moments
JP6207036B2 (ja) 質量分析データ処理方法及び装置
Banerjee Ambient ionization mass spectrometry imaging for disease diagnosis: Excitements and challenges
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
Tian et al. Towards enhanced metabolomic data analysis of mass spectrometry image: Multivariate Curve Resolution and Machine Learning
JP2006528339A (ja) クロマトグラフィー/質量分析における生体分子パターンのアノテーション法及びシステム
Cordero Hernandez et al. Targeted feature extraction in MALDI mass spectrometry imaging to discriminate proteomic profiles of breast and ovarian cancer
Galli et al. A Support Vector Machine Classification of Thyroid Bioptic Specimens Using MALDI‐MSI Data
Chung et al. Next‐generation pathology practices with mass spectrometry imaging
Moore et al. Prospective on imaging mass spectrometry in clinical diagnostics
Goodacre et al. Biofluids and other techniques: general discussion
JPWO2015052842A1 (ja) 質量分析データ解析装置
Nwabufo et al. Potential application of mass spectrometry imaging in pharmacokinetic studies
Norris et al. Imaging mass spectrometry in clinical pathology
JP6565801B2 (ja) 質量分析データ処理装置、質量分析装置、質量分析データ処理方法、及び質量分析データ処理用プログラム
CN113960130A (zh) 一种采用开放式离子源诊断甲状腺癌的机器学习方法
Gerhard et al. Statistical classification and visualization of MALDI-imaging data
Akbari Lakeh et al. Discriminating normal regions within cancerous hen ovarian tissue using multivariate hyperspectral image analysis
Sugiura et al. DESI-based imaging mass spectrometry in forensic science and clinical diagnosis
Gu et al. Principal component directed partial least squares analysis for combining NMR and MS data in metabolomics: application to the detection of breast cancer

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16910555

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018530294

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2016910555

Country of ref document: EP

Effective date: 20190228