WO2018131274A1 - データ解析装置及びデータ解析用プログラム - Google Patents

データ解析装置及びデータ解析用プログラム Download PDF

Info

Publication number
WO2018131274A1
WO2018131274A1 PCT/JP2017/040441 JP2017040441W WO2018131274A1 WO 2018131274 A1 WO2018131274 A1 WO 2018131274A1 JP 2017040441 W JP2017040441 W JP 2017040441W WO 2018131274 A1 WO2018131274 A1 WO 2018131274A1
Authority
WO
WIPO (PCT)
Prior art keywords
groups
grouping
group
unit
data
Prior art date
Application number
PCT/JP2017/040441
Other languages
English (en)
French (fr)
Inventor
賢志 山田
是嗣 緒方
廣人 田村
晃代 加藤
Original Assignee
株式会社島津製作所
学校法人 名城大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社島津製作所, 学校法人 名城大学 filed Critical 株式会社島津製作所
Priority to EP17891371.1A priority Critical patent/EP3570020B1/en
Priority to CN201780083721.5A priority patent/CN110192106B/zh
Priority to US16/477,958 priority patent/US11435370B2/en
Priority to JP2018561824A priority patent/JP6741278B2/ja
Publication of WO2018131274A1 publication Critical patent/WO2018131274A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N35/00Automatic analysis not limited to methods or materials provided for in any single one of groups G01N1/00 - G01N33/00; Handling materials therefor
    • G01N35/00584Control arrangements for automatic analysers
    • G01N35/00722Communications; Identification
    • G01N35/00732Identification of carriers, materials or components in automatic analysers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • G01N27/622Ion mobility spectrometry
    • G01N27/623Ion mobility spectrometry combined with mass spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N35/00Automatic analysis not limited to methods or materials provided for in any single one of groups G01N1/00 - G01N33/00; Handling materials therefor
    • G01N35/00584Control arrangements for automatic analysers
    • G01N35/00722Communications; Identification
    • G01N35/00732Identification of carriers, materials or components in automatic analysers
    • G01N2035/00821Identification of carriers, materials or components in automatic analysers nature of coded information
    • G01N2035/00831Identification of carriers, materials or components in automatic analysers nature of coded information identification of the sample, e.g. patient identity, place of sampling
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions

Definitions

  • the present invention relates to a data analysis apparatus that analyzes data obtained by instrumental analysis on a sample and a computer program therefor, and more specifically, a data analysis apparatus that performs difference analysis between a plurality of sample groups and a data analysis apparatus Regarding the program.
  • biomarker analysis using mass spectrometry has been promoted for early diagnosis of specific diseases and diseases and confirmation of therapeutic effects, and some have been put into practical use.
  • biological samples such as blood and urine collected from a plurality of healthy subjects are not present at all or almost, and are clearly present in biological samples such as blood and urine collected from a plurality of patients suffering from a specific disease such as cancer. If a substance present in is found, it can be said to be a potential biomarker candidate for the disease.
  • the search for such biomarkers involves measuring a large number of samples from two or more groups (for example, a healthy group and a patient group) with a mass spectrometer, and obtaining data between the groups. This is done by performing a difference analysis.
  • the procedure for differential analysis of conventional general mass spectrometry data for the purpose of searching for biomarkers (or more general markers) is as follows.
  • the total number of groups N G the total number of samples to be N S.
  • Mass spectra for a large number (N S ) of samples are acquired, and peak detection is performed in each mass spectrum according to a predetermined algorithm.
  • peak list in which the mass-to-charge ratio (m / z) value of the detected peak and the signal intensity value are collected is created.
  • the total number of peak list that is created is the same as N S to the total number of samples.
  • Step A2 A number of given samples can be classified into NG groups based on a priori information (prior information). Therefore, after dividing the peak list obtained in step A1 into NG groups, each peak list is considered as a column vector, and the signal intensity is set so that the signal intensity values for the same mass-to-charge ratio are in the same row. matrix arranged values to create a (peak matrix) M P. If the mass-to-charge ratio of a peak detected in one mass spectrum does not have a peak in another mass spectrum (there is no corresponding peak in the peak list), the signal intensity of that peak in the other mass spectrum The value should be zero.
  • the a priori information is, for example, information indicating the origin of the sample, such as information indicating whether the sample is collected from a healthy person or a cancer patient.
  • FIG. 3A is a conceptual diagram of a peak matrix.
  • sample information for example, sample number
  • mass-to-charge ratio values are taken in the vertical direction (column direction)
  • each element of the matrix is a signal intensity value.
  • the number of columns of the peak matrix M P is equal to the number of samples N S
  • the number of rows of the peak matrix M P is the total number of peaks detected throughout the sample (excluding duplicates having the same mass-to-charge ratio value) N. Equal to P.
  • a p-value indicating the statistical confidence of the observed difference is calculated for each row.
  • Patent Document 1 For example, in recent years, techniques for identifying and identifying microbial species and strains using mass spectrometry have attracted attention (see Patent Document 1 and Non-Patent Document 1).
  • microbial identification using mass spectrometry multiple samples of the same bacterial species and strain are assigned to one group and mass spectral peaks that differ between different groups, that is, between different bacterial species and strains, are analyzed for differences. The process of searching using is generally performed.
  • the bacterial species and strain are different, they may have similar properties and characteristics. For example, specific drugs (antibiotics) are particularly effective against different bacterial species / strains, or conversely, different bacterial species / strains have resistance to specific drugs. There is often.
  • Hotta (Y. Hotta) and 4 others, “Classification of the Genus Bacillus Based on Mardi-Tofu Mas Analysis of Ribosome Proteins Coded in S10 ⁇ Classification of the Gen Bacillus Based on MALDI-TOF MS Analysis of Ribosomal Proteins Coded in S10 and spc Operons, Journal of Agricultural and Food Chemistry ), 2011, Vol.59, No.10, pp.5222-5230
  • the present invention has been made to solve the above-mentioned problems, and the object of the present invention is to perform a difference analysis based on data obtained for each sample in order to find a marker for identifying a plurality of sample groups. In this case, it is possible to easily and efficiently perform a difference analysis between new groups based on the changed criteria while appropriately changing the grouping criteria based on the characteristics or characteristics of the operator's attention. It is to provide a data analysis apparatus and a data analysis program that can be used.
  • a data analysis apparatus which has been made to solve the above problems, a) a data acquisition unit for acquiring data representing a chromatogram or a mass spectrum for each of a plurality of samples; b) For each of the plurality of samples, a priori information setting unit that acquires or sets one or more types of prior information indicating the properties of each sample; c) a priori information selection unit that allows an operator to select a grouping condition based on the one or more types of prior information; d) a grouping unit that groups the plurality of samples into a plurality of groups based on the selected grouping condition; e) A difference analysis for analyzing a difference in peak of the chromatogram or mass spectrum between groups using data acquired by the data acquisition unit included in each of a plurality of groups grouped by the grouping unit. And And performing grouping in the grouping unit and difference analysis in the difference analysis unit in accordance with a selection operation by an operator using the condition selection unit.
  • the data analysis program according to the present invention groups a plurality of samples based on data representing chromatograms or mass spectra acquired for each of the plurality of samples.
  • a data analysis program that operates on a computer to process data for a plurality of samples in order to perform a difference analysis between a plurality of groups, a) A priori information setting step for acquiring or setting one or more types of a priori information indicating the properties of each sample for each of the plurality of samples; b) a condition selection step that allows the operator to select a grouping condition based on the one or more types of a priori information; c) a grouping step of grouping the plurality of samples into a plurality of groups based on the selected grouping condition; d) a difference analysis step of analyzing a difference in peak of the chromatogram or mass spectrum between groups using the data included in each of a plurality of groups grouped in the grouping step; And having the computer execute grouping in the grouping step
  • the data to be analyzed in the data analysis apparatus and data analysis program according to the present invention is mass spectrum data collected by mass spectrometry (including MS n spectrum data in which n is 2 or more), gas chromatographic analysis or liquid It is chromatogram data collected by chromatographic analysis.
  • the data acquisition unit acquires the chromatogram data or the mass spectrum data for each of the plurality of samples by reading from an external storage device, for example.
  • the a priori information setting unit obtains one or a plurality of types of a priori information indicating the properties of each sample automatically from the outside for each of a plurality of samples, or for manual input by an operator or the like. Set accordingly.
  • the a priori information can include information indicating the identity and origin of each sample.
  • the condition selection unit causes the operator to select a grouping condition based on one piece of prior information focused on by the operator among one or more types of prior information set in advance as described above. Specifically, for example, a difference grouping condition option based on a piece of a priori information or information corresponding thereto is presented on the screen of the display unit, and one of them can be selected and instructed by the operator using the input unit. What should I do?
  • the grouping unit groups a plurality of samples to be analyzed into a plurality of groups based on the selected grouping condition according to the selection operation. To do. And a difference analysis part performs the difference analysis of the peak of the chromatogram or mass spectrum between groups using the data corresponding to the sample each contained in the several group grouped as mentioned above. Then, the difference analysis result is displayed on the screen of the display unit.
  • a statistical hypothesis test such as analysis of variance (ANOVA) may be used.
  • a peak that causes a difference between groups can be extracted from the data by difference analysis, and a mass-to-charge ratio, a retention time, or a component corresponding to the peak can be used as a marker for identifying the group.
  • the grouping unit groups the plurality of samples into N groups of three or more based on first a priori information about each sample. And f) Group reorganization conditions for the operator to instruct the group reorganization conditions using the second a priori information for each of the N groups grouped by the grouping unit or for the samples included in each group An indicator, g) by selecting one or more groups from the N groups grouped by the grouping unit based on the group reorganization conditions instructed through the group reorganization condition instructing unit and integrating them as necessary, A group restructuring unit for creating M groups where N>M; The difference analysis unit performs difference analysis between groups using data corresponding to samples included in each of the N groups grouped by the grouping unit, and is created by the group reorganization unit It is preferable to perform a difference analysis between groups using data corresponding to samples included in each of the M groups.
  • the grouping unit groups a plurality of samples to be analyzed into N groups of three or more based on the first a priori information given to each sample.
  • the first a priori information is information for classifying a large number of samples into a group having a minimum size.
  • the first a priori information is information indicating the identity and origin of each sample, which can be included in the sample name or sample identification number assigned to each sample. .
  • the operator can grasp the first a priori information from the sample name, sample identification number, etc. of each sample, and manually instruct which group each sample is assigned to.
  • the grouping unit may group a plurality of samples into N groups according to such an instruction.
  • the first a priori information is included in the sample name, sample identification number, and the like of each sample, it is possible to automatically distribute samples based on the sample name, sample identification number, and the like.
  • the grouping unit may determine a sample name, a sample identification number, and the like, and automatically group a plurality of samples into N groups based on the determination result.
  • the grouping result that is, the information on the sample assigned to each group, may be displayed on the screen of the display unit so that the operator can confirm it.
  • the reorganization condition instructing unit instructs the group reorganization condition so as to select a group to which the second a priori information indicating the specific property is attached. Then, based on the instructed group reorganization condition, the group reorganization unit selects, for example, a plurality of groups having the specific property using the second a priori information assigned to the N groups. The group is reorganized by combining them into one, and other groups into one.
  • the group reorganization unit changes the combination of groups to be selected or integrated accordingly. Similar to the grouping result, the group reorganization result, that is, the information on the sample assigned to each group after the reorganization may be displayed on the screen of the display unit.
  • the difference analysis unit performs the difference analysis between the groups using the data corresponding to the samples included in each group for the M groups reorganized as described above.
  • This is a difference analysis based on M groups grouped on a basis different from the above-described difference analysis based on N groups, and a new peak that causes a difference between groups under the new criterion, that is, Can extract markers from the data.
  • the difference analysis unit performs a difference analysis based on the newly reorganized group, thereby relating to different properties. It becomes possible to search for markers one after another.
  • a peak detector that detects peaks from mass spectrum data and creates a peak list that summarizes signal intensity values for each mass to charge ratio; i) Based on the peak list for the plurality of samples and the grouping result by the grouping unit or the group reorganization result by the group reorganization unit, the mass mass-to-charge ratio values in the row direction are identified for each group.
  • the difference analysis unit may be configured to perform a difference analysis on the peak matrix.
  • the peak matrix creation unit detects a peak from each mass spectrum according to a predetermined standard.
  • the predetermined standard is not particularly limited, and a generally used peak detection method can be used.
  • a peak-shaped signal observed on a mass spectrum may be detected as a peak when the signal intensity is equal to or higher than a predetermined value, and a signal with a signal intensity lower than the predetermined value may be regarded as noise.
  • the signal intensity value and mass-to-charge ratio value of the peak detected for each mass spectrum are acquired, the mass-to-charge ratio value is assigned in the row direction, the information for identifying the sample is assigned in the column direction, and the signal intensity value is used as an element.
  • Create a peak matrix At this time, the arrangement of samples in the column direction is grouped by group using the grouping result or group reorganization result. One row in the peak matrix is the signal intensity value for all samples at a certain mass to charge ratio.
  • the difference analysis unit performs a difference analysis on the above peak matrix by an analysis of variance.
  • the difference analysis unit can extract a peak or mass-to-charge ratio corresponding to a row or column having a significant difference in the difference analysis.
  • a substance corresponding to this peak or mass-to-charge ratio serves as a marker for identifying the group.
  • the sample to be analyzed is not limited.
  • the sample to be analyzed is a microorganism
  • the first a priori information indicates the species and / or strain of the microorganism. It should be information.
  • the second a priori information indicates, for example, the presence or absence of resistance to various drugs (antibiotics and antibacterial drugs), the minimum inhibitory concentration (MIC) of the drug, or a clinically defined threshold value. It can be information.
  • a substance that serves as a marker for identifying the species or strain of a microorganism and has resistance to one specific drug, or resistance to a plurality of specific drugs (so-called multiple drugs) It is possible to find a substance that can be used as a marker for identifying microorganisms having the property of resistance) and a substance that is presumed to be useful as a marker.
  • a new group under the changed standard while appropriately changing the grouping standard based on the property and characteristics of interest of the operator Difference analysis can be performed easily and efficiently. As a result, it becomes possible to efficiently find a substance that becomes a marker closely related to such properties and characteristics.
  • the flowchart which shows the process sequence of the difference analysis in the mass spectrometry system of a present Example.
  • FIG. 1 is a schematic configuration diagram of the mass spectrometry system of the present embodiment.
  • the mass spectrometric system of the present embodiment executes mass analysis on a sample to acquire signal intensity data over a predetermined mass-to-charge ratio m / z range, that is, mass spectrum data, and the mass spectroscope.
  • a data analysis unit 2 that analyzes the mass spectrum data collected by the main body 1 to perform a difference analysis, an input unit 3 for an operator (user) to perform some input or instruction, and an input or instruction by the operator And a display unit 4 on which an analysis result is displayed.
  • the mass spectrometer main body 1 may be of any method or configuration.
  • a Matrisk assisted laser desorption / ionization time-of-flight mass spectrometer (MALDI-TOFMS) that can collect mass spectrum data with high mass resolution and high detection sensitivity can be used.
  • MALDI-TOFMS Matrisk assisted laser desorption / ionization time-of-flight mass spectrometer
  • the data analysis unit 2 includes a data storage unit 20, a grouping instruction reception unit 21, a group reorganization instruction reception unit 22, a peak detection unit 23, a sample grouping unit 24, and the like in order to perform characteristic data analysis processing described later.
  • a sample group reorganization / reorganization release unit 25, a peak matrix creation unit 26, a difference analysis unit 27, and a display processing unit 28 are provided as functional blocks.
  • the substance of the data analysis unit 2 is a personal computer or a higher performance computer.
  • the above-described functional blocks can be realized by executing dedicated data processing software installed in such a computer on the computer.
  • the input unit 3 is a pointing device such as a computer keyboard or a mouse
  • the display unit 4 is a monitor.
  • all or part of the data processing software installed in the computer corresponds to the data analysis program according to the present invention.
  • mass spectrum data in a predetermined mass-to-charge ratio range obtained by performing mass analysis on a predetermined sample in the mass spectrometer main body 1 is sequentially sent to the data analysis unit 2. It is done.
  • sample identification information such as a sample name is given to the mass spectrum data and stored in the data storage unit 20 as a different data file for each sample.
  • mass spectrum data for a large number of samples to be analyzed in the data analysis unit 2 may be data obtained by one mass spectrometer or may be data obtained by a plurality of different mass spectrometers.
  • sample names are defined as “Sample 01-1”, “Sample 01-2”,..., And the two-digit number below “Sample” indicates the distinction between the bacterial species or strains.
  • sample 01-1” and sample 01-2 are different samples of the same bacterial species (or strain)
  • the type of this bacterial species or strain is the first prior information
  • the sample name itself is also the first prior information.
  • This sample name is stored in a data file corresponding to each sample, or is stored together in another file associated with the data file.
  • the mass spectrum data obtained for a large number of samples, each of which is a microorganism, is stored in the data storage unit 20 as a data file together with the sample name.
  • the peak detection unit 23 receives the data and sequentially reads out and acquires the designated data file from the data storage unit 20. (Step S1). Thereby, both the mass spectrum data for each sample and the a priori information of the sample are obtained.
  • the peak detector 23 detects a peak on the mass spectrum according to a predetermined standard for each mass spectrum data, and obtains a position (mass-to-charge ratio m / z value) and a signal intensity value of each detected peak.
  • a conventionally known general method can be used as the peak detection algorithm. For example, a peak-shaped waveform whose signal intensity exceeds a predetermined threshold may be detected as a peak.
  • a peak list in which a set of detected mass (usually plural) mass-to-charge ratio values and signal intensity values is collected is created (step S2).
  • the operator operates the input unit 3 while viewing a predetermined screen displayed on the display unit 4 by the grouping instruction accepting unit 21, and selects a large number of samples according to the sample name which is one of the a priori information.
  • An instruction is given to classify into groups for each species and strain (step S3).
  • the sample grouping unit 24 groups a large number of samples in accordance with the instruction, and determines the samples assigned to each group.
  • the display processing unit 28 displays the grouping result on the screen of the display unit 4 (step S4).
  • a grouping instruction and grouping based on the grouping instruction are specifically executed in the following procedure. That is, when the operator performs a predetermined operation with the input unit 3, the grouping instruction receiving unit 21 displays a grouping instruction setting screen 100 as shown in FIG. 4 on the screen of the display unit 4.
  • the grouping instruction setting screen 100 includes a group list 101 indicating a list of groups and a sample list indicating a list of sample names and data file names assigned to one group selected in the group list 101. 104 are arranged.
  • the group names for identifying each group are “Group01”, “Group02”,.
  • the groups in the group list 101 can be increased by clicking the “Add Group” button 102 and can be decreased (deleted) by clicking the “Remove Groups” button 103. Samples assigned to one selected group can also be added by clicking the “Add Peak List” button 105, and deleted by clicking the “Remove Peak Lists” button 106. Can do.
  • the two-digit number in the sample name is the first a priori information indicating the bacterial species / strain. Therefore, the operator uses the numbers in the sample names, that is, using the first a priori information, so that the samples of the same species / strain are assigned to one group and each group. Set the sample to which it belongs.
  • the same bacterial species whose sample names are “Sample 01-2”, “Sample 01-2”,..., “Sample 01-8” • Eight samples containing strain microorganisms are allocated.
  • samples assigned to all groups are input and set.
  • the sample grouping unit 24 groups the plurality of samples by associating the determined group name with the sample names of the plurality of samples in accordance with the grouping instruction.
  • the display processing unit 28 displays the information (sample name here) of the samples included in each group on the screen of the display unit 4 as shown in FIG. indicate. As a result, the operator can visually confirm whether or not the sample assignment to each group is appropriate. If there is an error or change in the sample assignment, the process returns to step S3 to correct the sample assignment.
  • the operator also adds and deletes groups.
  • grouping may be executed.
  • the two-digit number below “Sample” in the sample name means that the microorganism is of the same bacterial species or the same strain. Processing such as distribution to groups may be executed.
  • the operator may delete unnecessary groups or delete unnecessary samples included in the groups.
  • the peak matrix creation unit 26 organizes all or part of the peak list created in step S2 according to the grouping result obtained in step S4, and creates a peak matrix (step S5).
  • the mass-to-charge ratio values of peaks listed in the peak list corresponding to each sample are arranged in the vertical direction (column direction), while the sample is aligned in the horizontal direction ( In a row direction), and a peak matrix is created using signal intensity values as elements.
  • the arrangement of samples in the row direction is grouped for each group. Therefore, when the grouping is changed as will be described later, the arrangement of the samples in the row direction in the peak matrix is changed.
  • the signal intensity value that is the element is zero. That's fine.
  • the display processing unit 28 displays the peak mat risk thus created on the screen of the display unit 4 and presents it to the operator (step S6).
  • FIG. 3B is an example of the peak matrix created in this way.
  • the difference analysis unit 27 receives the created peak matrix and executes a difference analysis according to a predetermined algorithm using the peak matrix (step S7).
  • the method of difference analysis is not particularly limited, but when the number of groups is three or more, ANOVA suitable for multigroup testing may be used as a statistical hypothesis test. With ANOVA, the p-value can be obtained in the same manner as in the t-test or the like. By such a difference analysis, it is possible to obtain a determination result as to whether or not the row shows a significant difference between groups based on the p value calculated for each row.
  • the display processing unit 28 displays the difference analysis result on the screen of the display unit 4 (step S8).
  • the difference analysis result by specifying and displaying a matrix row having a significant difference between groups, that is, a peak, the mass-to-charge ratio of the peak can be presented to the operator as a marker candidate.
  • each group contains samples from the same bacterial species or strains, so that a marker useful for identifying different bacterial species or strains is obtained as a result of the difference analysis. become.
  • a marker is used to distinguish between a group of microorganisms that are resistant to one or more drugs across bacterial species and strains and a group of microorganisms that are not (not resistant). It is important to find. If you want to search for these markers, continue with the following analysis.
  • Second a priori information is used.
  • information indicating whether or not each drug having the drug names “Drug01”, “Drug02”,... Is resistant is input to the data analysis unit 2 in advance as second prior information. And stored in the data storage unit 20.
  • Such information may be manually input from the input unit 3 by the operator, or may be automatically stored in the data storage unit 20 by reading a data file in which such information is described. Also good.
  • the group reorganization instruction receiving unit 22 displays a group reorganization instruction as shown in FIG.
  • the setting screen 200 is displayed on the screen of the display unit 4.
  • the group reorganization instruction setting screen 200 includes a post-reorganization group list 201 that shows a list of groups after reorganization, and a drug resistance evaluation list 202 that lists each group before reorganization and the presence or absence of resistance to each drug. Has been.
  • the drug resistance evaluation list 202 is blank, and the operator designates a predetermined data file in which the second a priori information is stored, and then “Load Resist. ”Button 204 is clicked, the contents of the data file are read and a drug resistance evaluation list 202 as shown in FIG. 6 is displayed.
  • “+” indicates resistance to each drug such as “Drug01”, “Drug02”,..., And “ ⁇ ” indicates no resistance.
  • the group “Group01” is resistant to four drugs whose drug names are “Drug01”, “Drug02”, “Drug03”, and “Drug04”, and the drug name is “Drug05”. It is not resistant to certain drugs.
  • the operator While viewing the drug resistance evaluation list 202 on the group reorganization instruction setting screen 200, the operator appropriately adds or deletes the group after the reorganization, and determines whether each group after the reorganization has resistance to each drug as a group reorganization condition.
  • Set (step S9).
  • the post-reorganization group in the post-reorganization group list 201 can be added by clicking the “Add Group” button 205, and can be deleted by clicking the “Remove Groups” button 206.
  • two reorganized groups having names “RearrangeearGroup (1)” and “Rearrange Group (2)” are set.
  • the reorganized group “Rearrange Group (1)” has resistance to the drug “Drug01” (“+” sign), and the reorganized group “RearrangeRGroup (2)” has no resistance to the drug “Drug01” ( "-" Symbol) is set as the group reorganization condition.
  • the group reorganization condition can be set by clicking on each column in the post-reorganization group list 201.
  • the group reorganization conditions including the group after reorganization as described above, when the operator clicks the “OK” button 207, the group reorganization conditions are determined. If it is desired to cancel all the group reorganization conditions once confirmed, the “Reset Rearrangement” check box 203 may be checked and the “OK” button 207 may be clicked. As a result, all the group reorganization conditions set in the post-reorganization group list 201 are reset. Therefore, the group reorganization conditions may be reset.
  • the sample group reorganization / reorganization release unit 25 selects a group according to the established group reorganization condition, and a plurality of groups are added to one post-reorganization group. If the group before reorganization corresponds, the plurality of groups before reorganization are integrated to determine the group after reorganization and the samples included therein (step S10). For example, it is assumed that the drug resistances corresponding to the four groups before reorganization are as shown in FIG. Here, the drugs are abbreviated as “D01”, “D02”,.
  • the display processing unit 28 displays the information on the sample (here, the sample name) included in the group after reorganization as shown in FIG. Display above. Thereby, the operator can visually confirm whether or not the assignment of the sample to each post-reorganization group is appropriate.
  • step S10 returns from step S10 to S5, and the peak matrix creation unit 26 organizes all or part of the peak list according to the grouping result after the reorganization, and recreates the peak matrix.
  • steps S6 to S8 are executed again. That is, the difference analysis unit 27 performs a difference analysis using the newly created peak mat risk, and the difference analysis result is displayed on the screen of the display unit 4.
  • the difference analysis unit 27 performs a difference analysis using the newly created peak mat risk, and the difference analysis result is displayed on the screen of the display unit 4.
  • the difference analysis result corresponding to each group reorganization condition that is, the group grouped under each group reorganization condition is identified.
  • Information about the marker to be obtained is obtained. Therefore, by setting a combination of the presence or absence of resistance for one or a plurality of drugs that the operator focuses on as a group reorganization condition, it is possible to acquire detailed information about such drug resistance.
  • the resistance to each drug was expressed as a binary value, but it was expressed by a numerical value (that is, a multivalue) such as a minimum inhibitory concentration (MIC) of the drug or a clinically defined threshold value.
  • a numerical value that is, a multivalue
  • MIC minimum inhibitory concentration
  • a finer condition such as a group having a MIC of T or more for a certain drug may be set.
  • the group reorganization conditions are not limited to those based on drug resistance, but can be group reorganization conditions using various properties and characteristics for each microbial species and strain.
  • group reorganization conditions are not limited to those based on drug resistance, but can be group reorganization conditions using various properties and characteristics for each microbial species and strain.
  • the a priori information required differs depending on the group reorganization conditions.
  • the sample is not limited to microorganisms in the data analysis apparatus according to the present invention, and the present invention can be applied to various types of samples for which difference analysis is useful.
  • the data to be processed is mass spectrum data, but it is also clear that the present invention can be applied to chromatogram data obtained by GC or LC on a sample.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Hematology (AREA)
  • Electrochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Urology & Nephrology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

サンプルグループ化部24は微生物由来のサンプルを各サンプルの菌種・菌株を示す先験情報に従ってグループ分けし、差異解析部27がグループ分け結果に基づいて作成されたピークマトリクスを用いて差異解析を行う。一方、操作者が微生物の薬剤耐性に関連したグループ再編条件を入力すると、サンプルグループ再編/再編解除部25は予め登録されたグループ毎の薬剤耐性を示す別の先験情報を利用して、すでにグルーピングされているグループの選択や統合を行いグループを再編する。差異解析部27はグループ再編結果に基づいて新たに作成されたピークマトリクスを用いて差異解析を行う。これにより、グループ再編条件を変更するのに伴い、異なる薬剤耐性に関連する差異解析結果を順次取得することができる。

Description

データ解析装置及びデータ解析用プログラム
 本発明は、サンプルに対する機器分析により得られたデータを解析処理するデータ解析装置及びそのためのコンピュータプログラムに関し、さらに詳しくは、複数のサンプルグループの間での差異解析を行うデータ解析装置及びデータ解析用プログラムに関する。
 近年、特定の疾病や疾患の早期診断や治療効果の確認などのために、質量分析法を利用したバイオマーカーの解析の研究が進められ、一部は実用に供されている。例えば複数の健常者から採取した血液、尿等の生体試料には全く又は殆ど存在せず、ガンなどの特定の疾患を罹患している複数の患者から採取した血液、尿等の生体試料に明確に存在している物質が見つかれば、その物質はその疾患における有力なバイオマーカー候補であるといえる。一般にこうしたバイオマーカーの探索は、二又はそれ以上の複数のグループ(例えば健常者グループと患者グループ)にそれぞれ由来する多数のサンプルを質量分析装置により測定し、それにより得られたデータについてグループ間での差異解析を行うことで行われる。
 バイオマーカー(又はより一般的なマーカー)を探索することを目的とした従来の一般的な質量分析データの差異解析の手順は以下のとおりである。ここでは、グループの総数をNG、サンプルの総数をNSであるとする。
 [ステップA1]多数(NS個)のサンプルに対するマススペクトルをそれぞれ取得し、各マススペクトルにおいて所定のアルゴリズムに従ってピーク検出を行う。そして、マススペクトル毎に、検出されたピークの質量電荷比(m/z)値と信号強度値とをまとめたピークリストを作成する。作成されるピークリストの総数はサンプルの総数と同じNSである。
 [ステップA2]与えられた多数のサンプルは先験情報(事前情報)により、NG個のグループに分類可能である。そこで、上記ステップA1で得られたピークリストをNG個のグループに分けたうえで、各ピークリストを列ベクトルと考え、同じ質量電荷比に対する信号強度値が同一行となるように、信号強度値を配置した行列(ピークマトリクス)MPを作成する。或る一つのマススペクトルにおいて検出されたピークの質量電荷比に他のマススペクトルではピークが存在しない(ピークリスト中に対応するピークがない)場合には、他のマススペクトルにおけるそのピークの信号強度値をゼロとすればよい。なお、上記先験情報は例えばサンプルの由来を示す情報であり、サンプルが健常者とガン患者のいずれから採取されたものであるかを示す情報などである。
 図3(a)はピークマトリクスの概念図である。ここでは、ピークマトリクスの横方向(行方向)にサンプル情報(例えばサンプル番号)、縦方向(列方向)に質量電荷比値をとり、行列の各要素が信号強度値である。このとき、ピークマトリクスMPの列数はサンプル数NSに等しく、ピークマトリクスMPの行数は、サンプル全体を通して検出されたピークの総数(質量電荷比値が同一である重複を省く)NPに等しい。
 [ステップA3]ステップA2で作成されたピークマトリクスMPの各行に対し、グループ間の差異の有無を調べるために単変量解析(一般にはt検定、U検定、分散分析(ANOVA=ANalysis Of VAriance)等の統計的仮説検定)を実施し、観察された差異の統計的信頼性を示すp値(p-value)を行毎に計算する。
 [ステップA4]各行のp値を予め定めた有意水準α(例えばt検定ではα=0.05がしばしば用いられる)と比較することにより、グループ間で有意差のある行つまりはピーク(又は質量電荷比)を抽出する。この抽出されたピークに対応する成分がマーカー候補である。
 上記例で挙げた健常者グループと患者グループというサンプルのグループ分けは明確であるが、実際の差異解析の対象であるサンプルでは、グループの分け方が一つに固定されていないものも多い。また、同じ多数のサンプルに対し、異なる種類の先験情報に基づく様々なグループ分けそれぞれについて差異解析によるマーカーを探索したいという要望も強い。
 例えば、近年、質量分析を利用して微生物の菌種や菌株を識別したり同定したりする技術が注目を集めている(特許文献1、非特許文献1参照)。質量分析を利用した微生物同定においては、同一の菌種や菌株である複数のサンプルを一つのグループに割り当て、異なるグループ間、つまりは異なる菌種や菌株間で差異があるマススペクトルピークを差異解析を用いて探索する処理が一般に行われる。一方で、菌種や菌株が相違しても類似した性質や特性を有することがある。例えば、異なる菌種・菌株に対し特定の薬剤(抗生剤)が特に効果的である、或いは逆に、異なる菌種・菌株が特定の薬剤に対して耐性を有する、といった共通の特性を有することがよくある。そうした場合、上述したように異なる菌種や菌株の差異をもたらすマーカーを調べるのみならず、特定の一つの又は複数の薬剤に対して耐性を有するサンプルのグループと耐性を有さないサンプルのグループとの差異をもたらすマーカーを、薬剤毎に調べたいといった要望がある。
 このような差異解析を行う場合、従来のデータ解析装置では、グループ分けの基準(つまりはグループ分けに利用される先験情報の種類)が変更される度に、各サンプルが新たな基準の下でどのグループに属するのかを操作者(ユーザー)が一々入力する必要があった。サンプル数が多い場合、そうした作業は非常に煩雑で解析効率を下げるのみならず、入力ミスによる不適切な解析の一因にもなっていた。
特開2013-85517号公報
堀田(Y. Hotta)、ほか4名、「クラシフィケイション・オブ・ザ・ジーナス・バシラス・ベースド・オン・マルディ-トフ・マス・アナリシス・オブ・リボゾーマ・プロテインズ・コーデッド・イン・エス10・アンド・エスピーシー・オペロンズ(Classification of the Genus Bacillus Based on MALDI-TOF MS Analysis of Ribosomal Proteins Coded in S10 and spc Operons)」、ジャーナル・オブ・アグリカルチュラル・アンド・フード・ケミストリー(Journal of Agricultural and Food Chemistry)、2011年、Vol.59、No.10、pp.5222-5230
 本発明は上記課題を解決するためになされたものであり、その目的とするところは、複数のサンプルグループを識別するマーカーを見つけるために各サンプルに対して得られたデータに基づく差異解析を行う際に、操作者が着目する性質や特性等に基づきグループ分けの基準を適宜変更しながら、その変更後の基準の下での新たなグループ間での差異解析を簡便に且つ効率良く行うことができるデータ解析装置及びデータ解析用プログラムを提供することである。
 上記課題を解決するために成された本発明に係るデータ解析装置は、
 a)複数のサンプルのそれぞれについて、クロマトグラム又はマススペクトルを表すデータを取得するデータ取得部と、
 b)前記複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を取得する又は設定する先験情報設定部と、
 c)前記一又は複数種の先験情報に基づくグループ分けの条件を操作者に選択させる先験情報選択部と、
 d)前記選択されたグループ分けの条件に基づいて、前記複数のサンプルを複数のグループにグルーピングするグループ化部と、
 e)前記グループ化部によりグルーピングされた複数のグループのそれぞれに含まれる、前記データ取得部により取得されたデータを用いて、グループ間における前記クロマトグラム又はマススペクトルのピークの差異を解析する差異解析部と、
 を備え、前記条件選択部を用いた操作者による選択操作に応じて、前記グループ化部におけるグルーピング及び前記差異解析部における差異解析を実行することを特徴としている。
 また上記課題を解決するために成された本発明に係るデータ解析用プログラムは、複数のサンプルのそれぞれについて取得されたクロマトグラム又はマススペクトルを表すデータに基づいて、該複数のサンプルがグルーピングされる複数のグループ間の差異解析を行うために、該複数のサンプルに対するデータを処理するべくコンピュータ上で動作するデータ解析用プログラムであって、
 a)前記複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を取得する又は設定する先験情報設定ステップと、
 b)前記一又は複数種の先験情報に基づくグループ分けの条件を操作者に選択させる条件選択ステップと、
 c)前記選択されたグループ分けの条件に基づいて、前記複数のサンプルを複数のグループにグルーピングするグループ化ステップと、
 d)前記グループ化ステップにおいてグルーピングされた複数のグループのそれぞれに含まれる前記データを用いて、グループ間における前記クロマトグラム又はマススペクトルのピークの差異を解析する差異解析ステップと、
 を有し、前記条件選択ステップにおける操作者による選択操作に応じて、前記グループ化ステップにおけるグルーピング及び前記差異解析ステップにおける差異解析をコンピュータに実行させることを特徴としている。
 本発明に係るデータ解析装置及びデータ解析用プログラムにおいて解析対象であるデータは、質量分析により収集されるマススペクトルデータ(nが2以上のMSnスペクトルデータを含む)、又は、ガスクロマトグラフ分析や液体クロマトグラフ分析により収集されるクロマトグラムデータである。
 本発明に係るデータ解析装置において、データ取得部は、複数のサンプルのそれぞれについてのクロマトグラムデータ又はマススペクトルデータを例えば外部の記憶装置から読み込むことで取得する。また先験情報設定部は、複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を自動的に外部から読み込むことで取得する又は操作者等の手動での入力に応じて設定する。先験情報には各サンプルの素性や由来等を示す情報を含むようにすることができる。条件選択部は、上述したように予め設定された一又は複数種の先験情報の中で、操作者が着目する一つの先験情報に基づくグループ分けの条件を該操作者に選択させる。具体的には、例えば或る一つの先験情報に基づく差グループ分け条件の選択肢又はそれに相当する情報を表示部の画面上に提示し、そのうちの一つを操作者が入力部により選択指示できるようにすればよい。
 条件選択部を通して操作者がグループ分け条件の選択を行うと、その選択操作に応じてグループ化部は、選択されたグループ分け条件に基づいて、解析対象である複数のサンプルを複数のグループにグルーピングする。そして、差異解析部は、上述したようにグルーピングされた複数のグループにそれぞれ含まれるサンプルに対応するデータを用いて、グループ間におけるクロマトグラム又はマススペクトルのピークの差異解析を実行する。そして差異解析結果を表示部の画面上に表示する。差異解析の手法は特に限定されないが、例えば分散分析(ANOVA)などの統計的仮説検定を用いるとよい。差異解析によってグループ間の差異をもたらすピークをデータの中から抽出することができ、そのピークに対応する質量電荷比、保持時間、或いは成分をグループを識別するためのマーカーとすることができる。
 本発明に係るデータ解析装置の好ましい一実施形態として、前記グループ化部は、各サンプルについての第1の先験情報に基づいて前記複数のサンプルを三以上であるN個のグループにグルーピングするものであり、
 f)前記グループ化部によりグルーピングされたN個の各グループについての又は各グループに含まれるサンプルについての第2の先験情報を利用したグループの再編条件を操作者が指示するためのグループ再編条件指示部と、
 g)前記グループ再編条件指示部を通して指示されたグループ再編条件に基づき、前記グループ化部によりグルーピングされたN個のグループの中から一以上のグループを選択するとともに必要に応じて統合することで、N>MであるM個のグループを作成するグループ再編部と、
 をさらに備え、前記差異解析部は、前記グループ化部によりグルーピングされたN個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行するとともに、前記グループ再編部により作成されたM個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行するとよい。
 この実施態様の構成では、グループ化部は、解析対象である複数のサンプルを各サンプルに与えられている第1の先験情報に基づいて三以上であるN個のグループにグルーピングする。通常、第1の先験情報は多数のサンプルを最小限の大きさのグループに分類するための情報である。
 典型的には、第1の先験情報は各サンプルの素性や由来等を示す情報であり、それは各サンプルに付与されるサンプル名やサンプル識別番号などの中に含ませるようにすることができる。それにより、操作者が各サンプルのサンプル名やサンプル識別番号等から第1の先験情報を把握し、各サンプルがどのグループに割り当てられるのかを手動で指示することができる。この場合、グループ化部は、そうした指示に従って複数のサンプルをN個のグループにグルーピングすればよい。また、各サンプルのサンプル名やサンプル識別番号等に第1の先験情報が含まれていれば、サンプル名やサンプル識別番号等に基づくサンプルの自動振り分けも可能である。この場合、グループ化部は、サンプル名やサンプル識別番号等を判別して、その判別結果に基づき複数のサンプルをN個のグループに自動的にグルーピングすればよい。なお、グルーピング結果、つまりは各グループに割り当てられているサンプルの情報は、操作者が確認できるように、表示部の画面上に表示されるようにするとよい。
 操作者がグループ化部でグルーピングされた各グループの中で或る特定の性質が類似しているグループを一つに集約したうえで新たなグループ間の差異解析を行いたい場合、操作者はグループ再編条件指示部により、上記特定の性質を有することを示す第2の先験情報が付されているグループを選択するようにグループ再編条件を指示する。すると、グループ再編部は、指示されたグループ再編条件に基づき、例えば上記N個のグループに付与されている第2の先験情報を利用して上記特定の性質を有する複数のグループを選択してそれらを一つにまとめるとともに、それ以外のグループを一つにまとめることで、グループを再編する。操作者がグループ再編条件指示部を通して指示するグループ再編条件を変更すると、グループ再編部はそれに応じて選択したり統合したりするグループの組合せを変更する。なお、グルーピング結果と同様に、グループ再編結果、つまりは再編後の各グループに割り当てられているサンプルの情報も、表示部の画面上に表示されるようにするとよい。
 この構成では差異解析部は、上述したように再編されたM個のグループについても、各グループにそれぞれ含まれるサンプルに対応するデータを用いて、グループ間の差異解析を実行する。これは、上述したN個のグループに基づく差異解析とは異なる基準でグルーピングされたM個のグループに基づく差異解析であり、その新たな基準の下でのグループ間の差異をもたらす新たなピークつまりはマーカーを、データの中から抽出することができる。上述したように操作者がグループ再編条件指示部を通して指示するグループ再編条件を変更する毎に、差異解析部が新たに再編されたグループに基づく差異解析を実行することで、異なる性質にそれぞれ関連するマーカーを次々に探索することが可能となる。
 なお、本発明に係るデータ解析装置では、グループ再編条件指示部においてグループ再編条件の取り消しを指示することを可能としておき、その取り消しを指示することで、当初のグループ分けに戻して、新たな別のグループ再編条件を指示できるようにするとよい。
 本発明に係るデータ解析装置において、データがマススペクトルデータである場合、
 h)マススペクトルデータからピークを検出し、各ピークの質量電荷比毎の信号強度値をまとめたピークリストを作成するピーク検出部と、
 i)前記複数のサンプルに対する前記ピークリストと前記グループ化部によるグルーピング結果又は前記グループ再編部によるグループ再編結果とに基づき、ピークの質量電荷比値を行方向に、グループ毎に分けたサンプルを識別する情報を列方向に割り当て、信号強度値を要素としたピークマトリクスを作成するピークマトリクス作成部と、
 をさらに備え、前記差異解析部は前記ピークマトリクスに対し差異解析を行う構成とすることができる。
 上記ピークマトリクスにおいて行と列とは便宜的に定められたものであり、行と列とを入れ替えることができることは明らかである。即ち、上記構成において「行」を「列」に置き換えても実質的に同じであることは明らかである。
 上記構成において、ピークマトリクス作成部は、各サンプルに対応するマススペクトルデータが与えられると、各マススペクトルからそれぞれ所定の基準に従ってピークを検出する。所定の基準は特に限定されず、一般に用いられているピーク検出方法を用いることができる。例えば、マススペクトル上で観測されるピーク状の信号のうち、信号強度が所定値以上であるものをピークとして検出し、信号強度が所定値未満であるものはノイズであるとみなせばよい。そうしてマススペクトル毎に検出したピークの信号強度値と質量電荷比値を取得し、質量電荷比値を行方向に、サンプルを識別する情報を列方向に割り当て、信号強度値を要素としたピークマトリクスを作成する。このとき、列方向のサンプルの並びは、グループ分け結果又はグループ再編結果を利用してグループ毎にまとめるようにする。ピークマトリクスにおける一つの行は、或る一つの質量電荷比における全てのサンプルに対する信号強度値である。
 差異解析部は上記ピークマトリクスに対して分散分析等による差異解析を行う。この場合、差異解析部では、差異解析において有意差がある行又は列に対応するピーク又は質量電荷比を抽出することができる。このピーク又は質量電荷比に対応する物質がグループを識別するためのマーカーとなる。
 本発明に係るデータ解析装置では解析対象のサンプルに制約はないが、好ましい一態様として、解析対象のサンプルは微生物であり、前記第1の先験情報は微生物の菌種及び/又は菌株を示す情報であるものとするとよい。
 また、この場合、前記第2の先験情報は例えば、各種の薬剤(抗生剤や抗菌剤)に対する耐性の有無、又は薬剤の最小発育阻止濃度(MIC)若しくは臨床的に定められた閾値を示す情報とすることができる。
 この態様によれば、微生物の菌種や菌株を識別するマーカーとなる物質を見いだすことができるとともに、特定の一つの薬剤に対し耐性を有する、或いは特定の複数の薬剤に対し耐性(いわゆる多剤耐性)を有する性質を有する微生物を識別するマーカーとなる物質やマーカーとして有用であると推測される物質を見いだすことが可能となる。
 本発明に係るデータ解析装置及びデータ解析用プログラムによれば、操作者が着目する性質や特性に基づいて適宜にグループ分けの基準を変更しながら、その変更後の基準の下での新たなグループ間での差異解析を簡便に且つ効率良く行うことできる。それにより、そうした性質や特性と関連が深いマーカーとなる物質を効率良く見つけ出すことが可能となる。
本発明に係るデータ解析装置を用いた質量分析システムの一実施例の概略構成図。 本実施例の質量分析システムにおける差異解析の処理手順を示すフローチャート。 ピークマトリクスの概念図(a)及びピークマトリクスの一例を示す図(b)。 本実施例の質量分析システムにおけるグループ分け指示設定画面を示す図。 本実施例の質量分析システムにおけるグループ分け結果表示画面を示す図。 本実施例の質量分析システムにおけるグループ再編指示設定画面を示す図。 本実施例の質量分析システムにおけるグループの再編例を示す図。
 以下、本発明に係るデータ解析装置を用いた質量分析システムの一実施例について、添付図面を参照して説明する。
 図1は本実施例の質量分析システムの概略構成図である。
 本実施例の質量分析システムは、サンプルに対する質量分析を実行して所定の質量電荷比m/z範囲に亘る信号強度データつまりはマススペクトルデータを取得する質量分析装置本体1と、該質量分析装置本体1で収集されたマススペクトルデータを解析処理して差異解析を実施するデータ解析部2と、操作者(ユーザー)が何らかの入力や指示を行うための入力部3と、操作者による入力や指示のために利用される画面や解析結果が表示される表示部4と、を備える。
 質量分析装置本体1はその方式や構成を問わない。例えば、高い質量分解能、高い検出感度で以てマススペクトルデータを収集可能であるマトリスク支援レーザ脱離イオン化飛行時間型質量分析装置(MALDI-TOFMS)などを用いることができる。
 データ解析部2は、後述する特徴的なデータ解析処理を遂行するために、データ格納部20、グループ分け指示受付部21、グループ再編指示受付部22、ピーク検出部23、サンプルグループ化部24と、サンプルグループ再編/再編解除部25と、ピークマトリクス作成部26、差異解析部27、及び、表示処理部28、を機能ブロックとして備える。
 なお、一般に、データ解析部2の実体はパーソナルコンピュータ又はより高性能なコンピュータである。また、そうしたコンピュータにインストールされた専用のデータ処理ソフトウェアを該コンピュータ上で実行することにより、上記各機能ブロックが具現化されるようにすることができる。その場合、上記入力部3はコンピュータのキーボードやマウス等のポインティングデバイスであり、表示部4はモニタである。また、こうした構成では、コンピュータにインストールされたデータ処理ソフトウェアの全て又は一部が本発明に係るデータ解析用プログラムに相当する。
 本実施例の質量分析システムにおいて、微生物(細菌、ウイルス等)の薬剤(抗生剤、抗菌剤等)耐性を識別するためのマーカーを差異解析を利用して探索する場合を例に挙げて、操作者による作業とデータ解析部2で実行される処理について図2を参照しつつ説明する。
 本実施例の質量分析システムでは、質量分析装置本体1において所定のサンプルに対し質量分析が実行されることで得られた所定の質量電荷比範囲のマススペクトルデータが逐次、データ解析部2に送られる。データ解析部2では、サンプル名等のサンプル識別情報がマススペクトルデータに付与され、サンプル毎に異なるデータファイルとしてデータ格納部20に格納される。但し、図1に示している或る特定の質量分析装置本体1により得られたマススペクトルのみならず、他の任意の質量分析装置において同様に得られたマススペクトルデータもデータ格納部20に格納することが可能である。即ち、データ解析部2において解析対象である多数のサンプルに対するマススペクトルデータは、1台の質量分析装置で得られたデータでもよいし、異なる複数の質量分析装置で得られたデータでもよい。
 全てのサンプルには、予め(通常、質量分析に先立って)サンプル名が付与されており、そのサンプル名には微生物の菌種又は菌株の種類を示す情報が含まれる。即ち、サンプル名は「Sample 01-1」、「Sample 01-2」、…と定められ、その「Sample」以下の2桁の数字が菌種又は菌株の区別を示している。したがって、例えば「Sample 01-1」と「Sample 01-2」とは同じ菌種(又は菌株)の異なるサンプルであり、「Sample 02-1」と「Sample 02-1」とは異なる菌種(又は菌株)の異なるサンプルである。ここでは、この菌種又は菌株の種類が第1の先験情報であり、サンプル名自体が第1の先験情報ともいえる。このサンプル名は各サンプルに対応するデータファイル中にそれぞれ格納されるか、或いはデータファイルと対応付けられた別のファイルにまとめて格納される。
 ここでは、それぞれが微生物である多数のサンプルに対して得られたマススペクトルデータが、サンプル名とともにそれぞれ一つのデータファイルとしてデータ格納部20に格納されているものとする。
 操作者が入力部3から処理対象のデータを一括指定したうえで処理の実行を指示すると、これを受けてピーク検出部23は、指定されたデータファイルをデータ格納部20から順次読み出して取得する(ステップS1)。これにより、サンプル毎のマススペクトルデータと該サンプルの先験情報とが共に得られる。ピーク検出部23は、個々のマススペクトルデータに対し所定の基準に従ってマススペクトル上のピークを検出し、検出された各ピークの位置(質量電荷比m/z値)と信号強度値とを求める。ピーク検出アルゴリズムは従来から知られている一般的な手法を用いることができ、例えばピーク状波形の信号強度が予め定めておいた閾値を超えるものをピークとして検出すればよい。そして、マススペクトル毎つまりはサンプル毎に、検出されたピーク(通常は複数)の質量電荷比値と信号強度値との組を集めたピークリストを作成する(ステップS2)。
 次に、操作者は、グループ分け指示受付部21により表示部4に表示される所定の画面を見ながら入力部3を操作し、多数のサンプルを先験情報の一つであるサンプル名に従って菌種や菌株毎のグループに分類するよう指示する(ステップS3)。サンプルグループ化部24は指示に従って多数のサンプルをグルーピングし、各グループに割り当てられるサンプルを決定する。そして、表示処理部28はそのグループ分け結果を表示部4の画面上に表示する(ステップS4)。
 ここでは具体的に次の手順でグループ分けの指示とそれに基づくグルーピングを実行する。
 即ち、操作者が入力部3で所定の操作を行うと、グループ分け指示受付部21は図4に示すようなグループ分け指示設定画面100を表示部4の画面上に表示する。このグループ分け指示設定画面100には、グループの一覧を示すグループリスト101と、該グループリスト101中で選択されている一つのグループに割り当てられるサンプルのサンプル名及びデータファイル名の一覧を示すサンプルリスト104と、が配置されている。ここでは、各グループを識別するグループ名を「Group01」、「Group02」、…としている。グループリスト101中のグループは、「Add Group」ボタン102をクリック操作することで増やすことができ、「Remove Groups」ボタン103をクリック操作することで減らす(削除する)ことができる。また、選択されている一つのグループに割り当てられるサンプルも、「Add Peak List」ボタン105をクリック操作することで追加することができ、「Remove Peak Lists」ボタン106をクリック操作することで削除することができる。
 本例では、上述したように、サンプル名中の2桁の数字が菌種・菌株を示す第1の先験情報である。そこで、操作者はこのサンプル名中の数字を用いて、つまりは第1の先験情報を用いて、一つのグループに同じ菌種・菌株であるサンプルが割り当てられるように、グループと各グループに属するサンプルを設定する。図4に示す例では、グループ名が「Group01」である一つのグループに、サンプル名が「Sample 01-1」、「Sample 01-2」、…、「Sample 01-8」である同じ菌種・菌株の微生物を含む8個のサンプルが割り当てられている。図4に例示したのと同様にして、全てのグループについてそれぞれ割り当てられるサンプルを入力設定する。そうした入力作業が終了したならば、操作者が「OK」ボタン107をクリックすると、グループとサンプルの割り当ての指示が確定する。サンプルグループ化部24はそのグループ分けの指示に従って、確定したグループ名と複数のサンプルのサンプル名との対応付けを行うことで、複数のサンプルをグルーピングする。
 操作者が入力部3で所定の操作を行うと、表示処理部28は図5(a)に示すように各グループに含まれるサンプルの情報(ここではサンプル名)を表示部4の画面上に表示する。これにより、操作者は各グループへのサンプルの割当てが適切かどうかを視覚的に確認することができる。もし、サンプルの割当てに誤りや変更がある場合には、ステップS3に戻ってサンプルの割当てを修正すればよい。
 なお、当然のことながら、ピークリストが作成された全てのサンプルがいずれかのグループに入るように設定する必要はなく、解析対象から除きたいサンプルについてはグループに割り当てなくてよい。したがって、例えばサンプル名が「Sample 06-1」、「Sample 06-2」、…であるサンプルに対応するデータファイルがデータ格納部20に存在したとしても、これらサンプルの菌種・菌株のみを含むグループ「Group06」が必ずしも作成されるとは限らない。また、例えばサンプル名が「Sample 06-1」であるサンプルに対応するデータファイルがデータ格納部20に存在しており、サンプル名が「Sample 06-2」、…であるサンプルが割り当てられているグループ「Group06」が存在したとしても、該グループ「Group06」にサンプル「Sample 06-1」が含まれるとは限らない。
 なお、上記説明ではグループの追加、削除も操作者が行うようにしているが、例えば各サンプルに付されているサンプル名やそれ以外の識別番号などを利用し、予め決められた条件に従って自動的にグルーピングを実行してもよい。例えば上記例では、サンプル名の「Sample」以下の2桁の数字が同じ菌種又は同じ菌株の微生物であることを意味しているから、この数字を自動的に識別して各サンプルを複数のグループに振り分けるような処理を実行してもよい。もちろん、そうして自動的にグルーピングが実施されたあとに、操作者が不要なグループを削除したりグループに含まれる不要なサンプルを削除したりできるようにしてもよい。
 次いでピークマトリクス作成部26は、ステップS4において得られたグループ分け結果に従ってステップS2において作成された全ての又は一部のピークリストを整理し、ピークマトリクスを作成する(ステップS5)。
 具体的には、図3(a)に示したように、各サンプルに対応するピークリストに挙げられているピークの質量電荷比値を縦方向(列方向)に並べる一方、サンプルを横方向(行方向)に並べ、信号強度値を要素としてピークマトリクスを作成する。このとき、行方向のサンプルの並びはグループ毎にまとめるようにする。したがって、後述するようにグルーピングが変更されると、ピークマトリクスにおける行方向のサンプルの並びが変更されることになる。或るサンプルにおいてピークが存在し他のサンプルではピークが存在しない質量電荷比値の行において、その「他のピーク」に該当する要素は存在しないから、その要素である信号強度値はゼロとすればよい。
 表示処理部28はこうして作成されたピークマトリスクを表示部4の画面上に表示し、操作者に提示する(ステップS6)。図3(b)はこうして作成されるピークマトリクスの一例である。
 差異解析部27は作成された上記ピークマトリクスを受け取り、該ピークマトリクスを用いて所定のアルゴリズムに従った差異解析を実行する(ステップS7)。差異解析の手法は特に限定されないが、グループの数が三以上である場合には、統計的仮説検定として多群検定に適したANOVAを用いればよい。ANOVAでもt検定等と同様にp値を求めることができる。こうした差異解析によって、行毎に算出されるp値に基づいてその行がグループ間で有意な差を示す行であるか否かの判定結果を得ることができる。
 表示処理部28は上記差異解析結果を表示部4の画面上に表示する(ステップS8)。差異解析結果では、グループ間で有意差があるマトリクス行つまりピークを特定して表示することで、そのピークの質量電荷比をマーカー候補として操作者に提示することができる。第1の先験情報に基づく当初のグループ分けでは、各グループはそれぞれ同じ菌種又は菌株由来のサンプルを含むから、異なる菌種又は菌株を識別するために有用なマーカーが差異解析結果として求まることになる。
 微生物の菌種や菌株が異なっていても、つまり上記グループ分けされた異なるグループに属するサンプルであっても、同じ一又は複数の薬剤に対し耐性を有していることがある。そのため、多剤耐性の研究等においては、菌種や菌株を跨って一又は複数の薬剤に対し耐性を有する微生物のグループとそうでない(耐性を有さない)微生物のグループとを識別するマーカーを見つけることが重要である。こうしたマーカーを探索したい場合には、引き続き次のような解析を実施する。
 上記のような薬剤耐性に関連した新たなグループ分けを行うためには、菌種・菌株毎にどのような薬剤に対して耐性を有しているかという、上記第1の先験情報とは異なる第2の先験情報が利用される。ここでは、グループ毎に、薬剤名が「Drug01」、「Drug02」、…である各薬剤に対し耐性を有しているか否かの情報が第2の先験情報として予めデータ解析部2に入力され、データ格納部20に格納されるものとする。なお、こうした情報は、操作者が入力部3から手動で入力するようにしてもよいし、そうした情報が記載されたデータファイルを読み込むことで自動的にデータ格納部20に格納されるようにしてもよい。
 操作者が、第2の先験情報である薬剤への耐性に基づくグループ分けを行うべく入力部3で所定の操作を行うと、グループ再編指示受付部22は図6に示すようなグループ再編指示設定画面200を表示部4の画面上に表示する。このグループ再編指示設定画面200には、再編後のグループの一覧を示す再編後グループリスト201と、再編前の各グループと各薬剤に対する耐性の有無を一覧で示す薬剤耐性評価リスト202と、が配置されている。このグループ再編指示設定画面200を新規に開いたときには薬剤耐性評価リスト202は空欄であり、操作者が第2の先験情報が格納されている所定のデータファイルを指定したうえで「Load Resist.」ボタン204をクリック操作することで、そのデータファイルの内容が読み込まれ図6に示すような薬剤耐性評価リスト202が表示される。ここでは、「Drug01」、「Drug02」、…等の各薬剤に対し耐性がある場合に「+」、耐性がない場合に「-」で示されている。図6の例では、例えばグループ「Group01」は、薬剤名が「Drug01」、「Drug02」、「Drug03」及び「Drug04」である4種の薬剤に対し耐性があり、薬剤名が「Drug05」である薬剤に対しては耐性がない。
 操作者はグループ再編指示設定画面200において薬剤耐性評価リスト202を見ながら、再編後のグループを適宜に追加又は削除し、その再編後の各グループにおける各薬剤への耐性の有無をグループ再編条件として設定する(ステップS9)。再編後グループリスト201中の再編後グループは、「Add Group」ボタン205をクリック操作することで追加することができ、「Remove Groups」ボタン206をクリック操作することで削除することができる。図6では、「Rearrange Group(1)」、「Rearrange Group(2)」との名称の二つの再編後グループが設定されている。また、再編後グループ「Rearrange Group(1)」については薬剤「Drug01」への耐性有り(「+」記号)、再編後グループ「Rearrange Group(2)」については薬剤「Drug01」への耐性無し(「-」記号)がグループ再編条件として設定されている。グループ再編条件は、再編後グループリスト201中の各欄中をクリック操作することで設定することができる。
 上述のようにして再編後グループを含むグループ再編条件を設定し終えたならば、操作者が「OK」ボタン207をクリックするとグループ再編条件が確定する。なお、一旦、確定させたグループ再編条件を全て解除したい場合には、「Reset Rearrangement」チェックボックス203にチェックを入れて「OK」ボタン207をクリックすればよい。それにより、再編後グループリスト201中に設定されている全てのグループ再編条件がリセットされるから、グループ再編条件を設定し直せばよい。
 グループ再編条件が設定された状態で「OK」ボタン207がクリックされると、サンプルグループ再編/再編解除部25は確定しているグループ再編条件に従ってグループを選択するとともに、一つの再編後グループに複数の再編前グループが対応する場合にはその複数の再編前グループを統合することで、再編後グループとそれに含まれるサンプルを確定する(ステップS10)。例えば、四つの再編前グループにそれぞれ対応する薬剤耐性が図7(a)で示すようになっているものとする。ここでは薬剤は「D01」、「D02」、…と略している。いま、再編後グループ「RG(1)」、「RG(2)」、「RG(3)」の各薬剤耐性が図7(b)に示すように設定されているとすると、再編後グループ「RG(1)」に対しては薬剤「D01」に耐性を有するグループ「G1」、「G2」の二つが選択されて統合される。また、再編後グループ「RG(2)」に対しては薬剤「D01」に耐性を有さないグループ「G3」、「G4」の二つが選択されて統合される。さらに、再編後グループ「RG(3)」に対しては、薬剤「D03」、「D04」のいずれかに耐性を有するグループ「G1」、「G2」、「G3」の三つが選択されて統合される。
 操作者が入力部3で所定の操作を行うと、表示処理部28は図5(b)に示すように再編後のグループに含まれるサンプルの情報(ここではサンプル名)を表示部4の画面上に表示する。これにより、操作者は各再編後グループへのサンプルの割当てが適切かどうかを視覚的に確認することができる。
 次いでステップS10からS5へと戻り、ピークマトリクス作成部26は、再編後のグループ分け結果に従って全ての又は一部のピークリストを整理し、ピークマトリクスを作成し直す。そして、ステップS6~S8の処理が再び実行される。即ち、差異解析部27は新たに作成されたピークマトリスクを用いて差異解析を実行し、その差異解析結果が表示部4の画面上に表示される。上述したように、グルーピングが変更されるとピークマトリスクが変更され、ピークマトリクスが変わると当然、差異解析結果は異なるものとなる。
 上述したように操作者がグループ再編条件を次々と変更しつつ差異解析を実施すると、それぞれのグループ再編条件に対応した差異解析結果、つまりはそれぞれのグループ再編条件の下でグルーピングされたグループを識別するマーカーについての情報が得られる。したがって、操作者が着目する一又は複数の薬剤についての耐性の有無の組合せをグループ再編条件として設定することで、そうした薬剤耐性についての詳細な情報を取得することができる。
 なお、上記例では、各薬剤に対する耐性を有り無しの二値で表現していたが、薬剤の最小発育阻止濃度(MIC)又は臨床的に定められた閾値などの数値(つまりは多値)で表現し、グループ再編条件では、例えば或る薬剤についてMICがT以上であるグループなど、より細かい条件を設定できるようにしてもよい。
 また、グループ再編条件は薬剤耐性に基づくものに限らず、微生物の菌種・菌株毎の様々な性質や特性を利用したグループ再編条件とすることができる。もちろん、そのグループ再編条件に応じて、必要とされる先験情報が異なることは言うまでもない。
 また、本発明に係るデータ解析装置ではサンプルが微生物に限らないことも明らかであり、差異解析が有用である様々な種類のサンプルに本発明を適用することが可能である。さらにまた、上記実施例では、処理対象のデータがマススペクトルデータであるが、サンプルに対しGCやLCで得られたクロマトグラムデータに本発明を適用可能であることも明らかである。
 また、上記記載以外に、本発明の趣旨の範囲で適宜変形、修正、追加等を行っても本願特許請求の範囲に包含されることは当然である。
1…質量分析装置本体
2…データ解析部
20…データ格納部
21…指示受付部
22…グループ再編指示受付部
23…ピーク検出部
24…サンプルグループ化部
25…サンプルグループ再編/再編解除部
26…ピークマトリクス作成部
27…差異解析部
28…表示処理部
3…入力部
4…表示部
100…グループ分け指示設定画面
101…グループリスト
102、205…「Add Group」ボタン
103、206…「Remove Groups」ボタン
104…サンプルリスト
105…「Add Peak List」ボタン
106…「Remove Peak Lists」ボタン
107、207…「OK」ボタン
200…グループ再編指示設定画面
201…再編後グループリスト
202…薬剤耐性評価リスト
203…「Reset Rearrangement」チェックボックス
204…「Load Resist.」ボタン

Claims (8)

  1.  a)複数のサンプルのそれぞれについて、クロマトグラム又はマススペクトルを表すデータを取得するデータ取得部と、
     b)前記複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を取得する又は設定する先験情報設定部と、
     c)前記一又は複数種の先験情報に基づくグループ分けの条件を操作者に選択させる条件選択部と、
     d)前記選択されたグループ分けの条件に基づいて、前記複数のサンプルを複数のグループにグルーピングするグループ化部と、
     e)前記グループ化部によりグルーピングされた複数のグループのそれぞれに含まれる、前記データ取得部により取得されたデータを用いて、グループ間における前記クロマトグラム又はマススペクトルのピークの差異を解析する差異解析部と、
     を備え、前記条件選択部を用いた操作者による選択操作に応じて、前記グループ化部におけるグルーピング及び前記差異解析部における差異解析を実行することを特徴とするデータ解析装置。
  2.  請求項1に記載のデータ解析装置であって、
     前記グループ化部は、各サンプルについての第1の先験情報に基づいて前記複数のサンプルを三以上であるN個のグループにグルーピングするものであり、
     f)前記グループ化部によりグルーピングされたN個の各グループについての又は各グループに含まれるサンプルについての第2の先験情報を利用したグループの再編条件を操作者が指示するためのグループ再編条件指示部と、
     g)前記グループ再編条件指示部を通して指示されたグループ再編条件に基づき、前記グループ化部によりグルーピングされたN個のグループの中から一以上のグループを選択するとともに必要に応じて統合することで、N>MであるM個のグループを作成するグループ再編部と、
     をさらに備え、前記差異解析部は、前記グループ化部によりグルーピングされたN個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行するとともに、前記グループ再編部により作成されたM個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行することを特徴とするデータ解析装置。
  3.  請求項2に記載のデータ解析装置であって、
     前記データはマススペクトルを表すデータであり、
     h)マススペクトルデータからピークを検出し、各ピークの質量電荷比毎の信号強度値をまとめたピークリストを作成するピーク検出部と、
     i)前記複数のサンプルに対する前記ピークリストと前記グループ化部によるグルーピング結果又は前記グループ再編部によるグループ再編結果とに基づき、ピークの質量電荷比値を行方向に、グループ毎に分けたサンプルを識別する情報を列方向に割り当て、信号強度値を要素としたピークマトリクスを作成するピークマトリクス作成部と、
     をさらに備え、前記差異解析部は前記ピークマトリクスに対し差異解析を行うことを特徴とするデータ解析装置。
  4.  請求項3に記載のデータ解析装置であって、
     前記差異解析部は、差異解析において有意差がある行又は列に対応するピーク又は質量電荷比を抽出することを特徴とするデータ解析装置。
  5.  請求項2に記載のデータ解析装置であって、
     解析対象のサンプルは微生物であり、前記第1の先験情報は微生物の菌種及び/又は菌株を示す情報であることを特徴とするデータ解析装置。
  6.  請求項5に記載のデータ解析装置であって、
     前記第2の先験情報は、薬剤に対する耐性の有無、又は薬剤の最小発育阻止濃度若しくは臨床的に定められた閾値を示す情報であることを特徴とするデータ解析装置。
  7.  複数のサンプルのそれぞれについて取得されたクロマトグラム又はマススペクトルを表すデータに基づいて、該複数のサンプルがグルーピングされる複数のグループ間の差異解析を行うために、該複数のサンプルに対するデータを処理するべくコンピュータ上で動作するデータ解析用プログラムであって、
     a)前記複数のサンプルのそれぞれについて、各サンプルの性質を示す一又は複数種の先験情報を取得する又は設定する先験情報設定ステップと、
     b)前記一又は複数種の先験情報に基づくグループ分けの条件を操作者に選択させる条件選択ステップと、
     c)前記選択されたグループ分けの条件に基づいて、前記複数のサンプルを複数のグループにグルーピングするグループ化ステップと、
     d)前記グループ化ステップにおいてグルーピングされた複数のグループのそれぞれに含まれる前記データを用いて、グループ間における前記クロマトグラム又はマススペクトルのピークの差異を解析する差異解析ステップと、
     を有し、前記条件選択ステップにおける操作者による選択操作に応じて、前記グループ化ステップにおけるグルーピング及び前記差異解析ステップにおける差異解析をコンピュータに実行させることを特徴とするデータ解析用プログラム。
  8.  請求項7に記載のデータ解析用プログラムであって、
     前記グループ化ステップは、各サンプルについての第1の先験情報に基づいて前記複数のサンプルを三以上であるN個のグループにグルーピングするものであり、
     f)前記グループ化ステップにおいてグルーピングされたN個の各グループについての又は各グループに含まれるサンプルについての第2の先験情報を利用したグループの再編条件を操作者が指示するためのグループ再編条件指示ステップと、
     g)前記グループ再編条件指示ステップを通して指示されたグループ再編条件に基づき、前記グループ化ステップにおいてグルーピングされたN個のグループの中から一以上のグループを選択するとともに必要に応じて統合することで、N>MであるM個のグループを作成するグループ再編ステップと、
     をさらに有し、前記差異解析ステップでは、前記グループ化ステップにおいてグルーピングされたN個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行するとともに、前記グループ再編ステップにおいて作成されたM個のグループにそれぞれ含まれるサンプルに対応するデータを用いてグループ間の差異解析を実行することを特徴とするデータ解析用プログラム。
PCT/JP2017/040441 2017-01-16 2017-11-09 データ解析装置及びデータ解析用プログラム WO2018131274A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP17891371.1A EP3570020B1 (en) 2017-01-16 2017-11-09 Data analysing device and program for data analysis
CN201780083721.5A CN110192106B (zh) 2017-01-16 2017-11-09 数据解析装置以及数据解析用程序
US16/477,958 US11435370B2 (en) 2017-01-16 2017-11-09 Data analying device and program for data analysis
JP2018561824A JP6741278B2 (ja) 2017-01-16 2017-11-09 データ解析装置及びデータ解析用プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017004843 2017-01-16
JP2017-004843 2017-01-16

Publications (1)

Publication Number Publication Date
WO2018131274A1 true WO2018131274A1 (ja) 2018-07-19

Family

ID=62839331

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/040441 WO2018131274A1 (ja) 2017-01-16 2017-11-09 データ解析装置及びデータ解析用プログラム

Country Status (5)

Country Link
US (1) US11435370B2 (ja)
EP (1) EP3570020B1 (ja)
JP (1) JP6741278B2 (ja)
CN (1) CN110192106B (ja)
WO (1) WO2018131274A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026353A1 (ja) * 2018-07-31 2020-02-06 株式会社島津製作所 質量分析装置、質量分析方法および質量分析プログラム
WO2020105102A1 (ja) * 2018-11-20 2020-05-28 株式会社島津製作所 イメージングデータ解析装置
KR102589887B1 (ko) * 2022-08-11 2023-10-17 인포보스 주식회사 미지 물질 내 함유물질의 예측방법, 장치 및 프로그램

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7347378B2 (ja) * 2020-09-03 2023-09-20 株式会社島津製作所 質量分析データ表示処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013085517A (ja) 2011-10-18 2013-05-13 Shimadzu Corp 細胞識別装置及びプログラム
JP2013528387A (ja) * 2010-06-02 2013-07-11 ジョンズ ホプキンズ ユニバーシティ 微生物の薬物耐性を判定するシステムおよび方法
JP2016200435A (ja) * 2015-04-08 2016-12-01 国立大学法人山梨大学 マススペクトル解析システム,方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7033781B1 (en) * 1999-09-29 2006-04-25 Diversa Corporation Whole cell engineering by mutagenizing a substantial portion of a starting genome, combining mutations, and optionally repeating
CA2629015A1 (en) * 2005-11-18 2008-05-08 Rick L. Orsini Secure data parser method and system
WO2008110719A1 (fr) * 2007-02-01 2008-09-18 France Telecom Procede de codage de donnees representatives d'une texture multidimensionnelle, dispositif de codage, procede et dispositif de decodage, signal et programme correspondants
CN102590407B (zh) * 2012-01-16 2013-12-18 湖南中烟工业有限责任公司 基于气相色谱-质谱分析的共流出峰解析及谱库检索方法
CN102662069B (zh) * 2012-04-27 2013-08-07 济南兰光机电技术有限公司 基于物联网和云技术的塑料包装材料检测系统及方法
EP3033882B1 (en) * 2013-08-13 2018-07-04 LG Electronics Inc. Apparatus for transmitting broadcast signals, apparatus for receiving broadcast signals, method for transmitting broadcast signals and method for receiving broadcast signals
CN103795980A (zh) * 2014-01-25 2014-05-14 武汉烽火众智数字技术有限责任公司 级联视频设备及其数据处理方法
US11047010B2 (en) * 2014-02-06 2021-06-29 Immunexpress Pty Ltd Biomarker signature method, and apparatus and kits thereof
EP3206391A4 (en) * 2014-10-12 2018-03-21 LG Electronics Inc. Broadcast signal transmission device, broadcast signal reception device, broadcast signal transmission method, and broadcast signal reception method
WO2017173390A1 (en) * 2016-03-31 2017-10-05 Applied Proteomics, Inc. Biomarker database generation and use
CN106096036B (zh) * 2016-06-27 2019-06-11 厦门中云创电子科技有限公司 一种can-bus总线的数据解析方法和系统
US20210278391A1 (en) * 2017-02-02 2021-09-09 The Regents Of The University Of California Compositions and methods for treating cardiovascular and metabolic conditions
US20200370122A1 (en) * 2017-02-24 2020-11-26 Tong Zhou Immune index methods for predicting breast cancer outcome
WO2018236995A2 (en) * 2017-06-20 2018-12-27 Dana-Farber Cancer Institute, Inc. METHODS FOR MODULATING REGULATORY T LYMPHOCYTES, REGULATORY B LYMPHOCYTES AND IMMUNE RESPONSES USING AVRIL-TACI INTERACTION MODULATORS

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013528387A (ja) * 2010-06-02 2013-07-11 ジョンズ ホプキンズ ユニバーシティ 微生物の薬物耐性を判定するシステムおよび方法
JP2013085517A (ja) 2011-10-18 2013-05-13 Shimadzu Corp 細胞識別装置及びプログラム
JP2016200435A (ja) * 2015-04-08 2016-12-01 国立大学法人山梨大学 マススペクトル解析システム,方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP3570020A4
Y. HOTTA: "Classification of the Genus Bacillus Based on MALDI-TOF MS Analysis of Ribosomal Proteins Coded in S10 and spc Operons", JOURNAL OF AGRICULTURAL AND FOOD CHEMISTRY, vol. 59, no. 10, 2011, pages 5222 - 5230, XP055427311, DOI: doi:10.1021/jf2004095

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026353A1 (ja) * 2018-07-31 2020-02-06 株式会社島津製作所 質量分析装置、質量分析方法および質量分析プログラム
JPWO2020026353A1 (ja) * 2018-07-31 2021-08-19 株式会社島津製作所 質量分析装置、質量分析方法および質量分析プログラム
JP7021754B2 (ja) 2018-07-31 2022-02-17 株式会社島津製作所 質量分析装置、質量分析方法および質量分析プログラム
WO2020105102A1 (ja) * 2018-11-20 2020-05-28 株式会社島津製作所 イメージングデータ解析装置
CN112805559A (zh) * 2018-11-20 2021-05-14 株式会社岛津制作所 成像数据解析装置
US11651603B2 (en) 2018-11-20 2023-05-16 Shimadzu Corporation Imaging data analyzer
CN112805559B (zh) * 2018-11-20 2024-03-22 株式会社岛津制作所 成像数据解析装置
KR102589887B1 (ko) * 2022-08-11 2023-10-17 인포보스 주식회사 미지 물질 내 함유물질의 예측방법, 장치 및 프로그램

Also Published As

Publication number Publication date
EP3570020B1 (en) 2023-07-26
JP6741278B2 (ja) 2020-08-19
JPWO2018131274A1 (ja) 2019-11-07
EP3570020A4 (en) 2020-05-27
CN110192106B (zh) 2021-09-28
EP3570020A1 (en) 2019-11-20
US20190369128A1 (en) 2019-12-05
CN110192106A (zh) 2019-08-30
US11435370B2 (en) 2022-09-06

Similar Documents

Publication Publication Date Title
WO2018131274A1 (ja) データ解析装置及びデータ解析用プログラム
JP5227026B2 (ja) 定性的なおよび定量的な質量スペクトル分析
US7742879B2 (en) Method and apparatus for chromatography mass spectrometry
EP2235523B2 (en) Systems, methods, and computer-readable medium for determining composition of chemical constituents in a complex mixture
JP4704034B2 (ja) クロマトグラフィ/分光測定データの解析でデータビンニングを用いる方法
US20030124610A1 (en) Method for the analysis of a selected multicomponent sample
JP4860575B2 (ja) クロマトグラフィー質量分析の分析結果表示方法及び表示装置
JP6569800B2 (ja) 質量分析データ解析装置及び質量分析データ解析用プログラム
Colby et al. Optimization and validation of high-resolution mass spectrometry data analysis parameters
JP2016180599A (ja) データ解析装置
WO2015198385A1 (ja) 包括的2次元クロマトグラフ用データ処理装置
US6944549B2 (en) Method and apparatus for automated detection of peaks in spectroscopic data
WO2018008149A1 (ja) クロマトグラフ質量分析用データ処理装置
JP2016061670A (ja) 時系列データ解析装置及び方法
CN111537659A (zh) 一种筛选生物标志的方法
JP6308107B2 (ja) クロマトグラフ質量分析データ処理装置
US20080140370A1 (en) Multiple Method Identification of Reaction Product Candidates
JP2018040655A (ja) 質量分析用データ処理装置
JP2017227542A (ja) 質量分析データ処理装置、質量分析装置、質量分析データ処理方法、及び質量分析データ処理用プログラム
JP5007326B2 (ja) クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
Taylor Accurate mass screening workflows for the analysis of novel psychoactive substances
JP2016176811A (ja) 分析データ解析装置
JP4839248B2 (ja) 質量分析システム
JP2024087261A (ja) 質量分析による化合物判定方法及び化合物判定システム
JP2021510829A (ja) 質量分析でのライブラリヒットを分類するための方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17891371

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018561824

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2017891371

Country of ref document: EP