WO2018025361A1 - 分析データ処理方法及び分析データ処理装置 - Google Patents

分析データ処理方法及び分析データ処理装置 Download PDF

Info

Publication number
WO2018025361A1
WO2018025361A1 PCT/JP2016/072873 JP2016072873W WO2018025361A1 WO 2018025361 A1 WO2018025361 A1 WO 2018025361A1 JP 2016072873 W JP2016072873 W JP 2016072873W WO 2018025361 A1 WO2018025361 A1 WO 2018025361A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
analysis
channel
analysis data
channels
Prior art date
Application number
PCT/JP2016/072873
Other languages
English (en)
French (fr)
Inventor
陽 野田
Original Assignee
株式会社島津製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社島津製作所 filed Critical 株式会社島津製作所
Priority to JP2018531042A priority Critical patent/JP6760380B2/ja
Priority to PCT/JP2016/072873 priority patent/WO2018025361A1/ja
Priority to EP16911620.9A priority patent/EP3495812A4/en
Priority to US16/322,338 priority patent/US11681778B2/en
Priority to CN201680088305.XA priority patent/CN109564199A/zh
Publication of WO2018025361A1 publication Critical patent/WO2018025361A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N23/00Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00
    • G01N23/22Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00 by measuring secondary emission from the material
    • G01N23/223Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00 by measuring secondary emission from the material by irradiating the sample with X-rays or gamma-rays and by measuring X-ray fluorescence
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/78Detectors specially adapted therefor using more than one detector
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/44Resins; Plastics; Rubber; Leather
    • G01N33/442Resins; Plastics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to an analysis data processing method for processing data collected by various analyzers such as a liquid chromatograph analyzer, a gas chromatograph analyzer, an infrared spectrophotometer, a spectrum analyzer such as a fluorescent X-ray analyzer, and the like.
  • analyzers such as a liquid chromatograph analyzer, a gas chromatograph analyzer, an infrared spectrophotometer, a spectrum analyzer such as a fluorescent X-ray analyzer, and the like.
  • the present invention relates to an analysis data processing apparatus.
  • a number of components contained in the sample are separated in time and then measured with the detector.
  • Analysis data consisting of a set of point data indicating the signal intensity at a certain time (holding time) is obtained.
  • a chromatograph mass spectrometer LC / MS, GC / MS, etc.
  • MS mass spectrometer
  • analysis data chromatogram data, mass spectrum data
  • a spectrum analyzer such as an infrared spectrophotometer or a fluorescent X-ray analyzer
  • light emitted from the substance is measured with a detector by irradiating the substance to be a sample with light in a predetermined wavelength range.
  • analysis data composed of a set of point data indicating the signal intensity at a certain wavelength (wave number) or energy is obtained.
  • the number of point data constituting the analysis data corresponds to the number of detector channels provided in the analysis apparatus.
  • a graph (chromatogram) with time, mass-to-charge ratio (m / z), wavelength or energy on the horizontal axis, and detector channel output (signal intensity value) on the vertical axis, from the analytical data.
  • mass spectrum spectrum
  • a peak appears at a position (retention time, wavelength / energy, mass-to-charge ratio m / z) corresponding to the type of component contained in the sample. Therefore, by analyzing the analysis data obtained for the sample, the type of the sample, the group to which the sample belongs, and the like can be identified.
  • Contents to be examined from the analysis data collected by the analyzer that is, the purpose of analyzing the analysis data is a variable (object variable) y
  • the output of each channel of the detector is a variable (explanatory variable) x1, x2, x3.
  • the variable y can be expressed using the variables x1, x2, x3. Since the variables x1, x2, x3,... Are independent from each other, the analysis data is treated as multidimensional data having dimensions corresponding to the number of variables x1, x2, x3,.
  • analysis methods for solving such problems include principal component analysis (Principal Component Analysis: PCA, Non-Patent Document 1), non-negative matrix factorization (NMF, Non-Patent Document 2), cluster analysis, etc.
  • PCA Principal Component Analysis
  • NMF non-negative matrix factorization
  • Multivariate analysis is used. In multivariate analysis, the positions and shapes of peaks appearing in graphs are compared between analysis data obtained for multiple groups of samples, and unnecessary point data is deleted from analysis data based on the results. The analysis data is mapped to a low dimension by integrating them. The analysis data mapped in a low dimension is then modeled by a regression analysis or discriminant analysis technique.
  • Linear regression analysis and linear discriminant analysis methods are applied to relatively simple data such as 2D data and 3D data with a small number of explanatory variables.
  • analysis methods such as linear regression and linear discriminant, and nonlinear regression using a learning machine such as a neural network or support vector machine (SVM) Analysis and nonlinear discriminant analysis methods are applied.
  • SVM support vector machine
  • a peak derived from a component other than a component serving as a pathological marker varies. This is because there are lifestyle habits (smoking, drinking, etc.) common to many cancer patients, and the peaks derived from components derived from the lifestyle habits are also different between the data of the healthy group and the cancer patient group. . Therefore, in this case, the analysis data is mapped in a low dimension so that a peak derived from a component that becomes a pathological marker of cancer disease and a peak derived from a component caused by lifestyle habits can be reproduced.
  • Arise The peak derived from the above-mentioned additive or the component derived from the lifestyle does not represent the type of plastic or the characteristics of cancer disease, but the size of the peak and the type of plastic or whether it is a cancer disease (disease There is no causal relationship between That is, there is originally no correlation between the two, and even if a correlation is seen, it is a false correlation (false correlation).
  • the learning data includes peaks derived from additives and plastic types, or Even if a correlation is found between a peak derived from a component due to lifestyle and a disease state, the same correlation is not always found in the analysis data to be analyzed. As a result, the same method as the learning data becomes a so-called over-fit state that does not match the analysis data to be analyzed.
  • the problem to be solved by the present invention is that when the analysis data is processed by an analysis method using statistical machine learning based on analysis data that is multidimensional data collected by an analyzer for a plurality of samples, The noise is eliminated while leaving the dimension representing the characteristics of the sample included in the analysis data.
  • Non-Patent Document 4 describes that a sigmoid function is used in nonlinear regression / discriminant analysis using a neural network, but a gradient method is generally used as a learning method using a neural network without being limited to a sigmoid function.
  • a partial differential value (or a partial partial differential value) at each data point of the regression function or the discriminant function.
  • a partial differential value can be calculated or As a corresponding value, it is possible to calculate a difference when the input is changed minutely. If the partial differential value at each data point of the analysis data or a value corresponding thereto can be calculated, the contribution can be calculated from the value.
  • the present invention performs statistical machine learning on multidimensional analysis data consisting of output values of a plurality of channels of a multichannel detector included in the analysis device collected by the analysis device for each of a plurality of samples.
  • a method of processing the analysis data by applying the analysis method used Calculate a non-linear regression function or discriminant function representing analytical data obtained for a known sample, From the calculated nonlinear regression function or differential value of the discriminant function, the contribution of each of the output values of the plurality of channels constituting the analysis data of the known sample to the nonlinear regression function or the nonlinear discriminant function is calculated.
  • a channel to be used for processing analysis data obtained for an unknown sample is determined from a plurality of channels of the detector.
  • the analytical device may be anything provided with a multichannel detector, and representative examples include mass spectrometers, liquid chromatograph analyzers, gas chromatograph analyzers, infrared spectrophotometers. And a spectrum analyzer such as a fluorescent X-ray analyzer.
  • the known sample refers to a sample whose component is known, a sample whose group belongs to, such as whether it is a plastic type or a cancer patient or a healthy person.
  • the unknown sample means a sample whose component is unknown and a sample whose group is unknown.
  • a learning machine such as a neural network or a support vector machine can be used.
  • the differential value of the nonlinear regression function or discriminant function representing the analysis data of the known sample can be calculated by partially differentiating the regression function or discriminant function with a variable (explanatory variable) representing the output value of each channel of the detector. You can, however, extract a part of the analysis data to reduce the time required for calculation, or cluster the analysis data and substitute the representative points of each cluster, or the empirically obtained standard data A differential value may be obtained for the pattern.
  • a criterion for determining a channel based on the contribution can be set empirically.
  • a typical criterion is, for example, a method of selecting the top n channels in descending order of contribution. In this case, the number n of channels to be selected may be determined so that excessive adaptation does not occur.
  • the over-fit state refers to a state in which the regression data or discriminant function is suitable for the analysis data itself used for obtaining the regression function or discriminant function, but not the other analysis data. For example, analysis data with known components is divided into learning data for obtaining a regression function or discriminant function and test data for verifying the regression function or discriminant function obtained for the learning data, and obtained for the learning data.
  • the relevance ratio when the regression function or discriminant function is applied to the learning data itself and the relevance ratio when the regression function or discriminant function is applied to the test data are obtained. It can be determined that As described above, in the analysis data processing method, analysis data obtained for a known sample is divided into learning data and test data, and a channel used for processing analysis data obtained for an unknown sample is provisionally determined using the learning data. When the learning data and the test data are processed using the tentatively determined channel and the difference between the matching rates of the learning data and the test data is within a predetermined range, the tentatively determined channel is It is preferable to formally determine the channel used for processing the analysis data obtained for the unknown sample.
  • weighting is performed for each of a plurality of channels constituting analysis data of a known sample according to the contribution of each channel of the detector, The degree of contribution is calculated again for the analysis data after weighting, and the updating of the weight is repeated. Based on the weight or the degree of contribution, a channel to be used for processing analysis data obtained for an unknown sample is determined.
  • the weighting is preferably a process that emphasizes the contribution, that is, a process that increases the larger contribution, such as a process that raises the contribution to the power or takes the logarithm of the contribution. Further, the magnitude of the weight may be obtained experimentally according to the type of sample, the type of analyzer, and the like. Whether weighting is performed in this way or channel is determined directly from the contribution, the number of channels is determined by repeating the same channel determination again on the machine learning result using the output value of the determined channel. You may make it reduce in steps.
  • the machine learning result is the initial coefficient for machine learning. If it depends on the value, the contribution is also affected by the initial value. Therefore, in such a case, the minimum value, maximum value, and average value of weights corresponding to a plurality of contributions or contributions obtained for the result of executing machine learning multiple times are obtained and used for channel determination. May be.
  • a channel to be formally used may be determined based on the number of times determined as a channel to be used.
  • an apparatus for processing the analysis data by applying an analysis method using dynamic machine learning a) a function calculation unit for calculating a nonlinear regression function or discriminant function representing analysis data obtained for a known sample; b) Each of output values of a plurality of channels constituting analysis data of the known sample with respect to the nonlinear regression function or the nonlinear discriminant function from the differential value of the nonlinear regression function or discriminant function calculated by the function calculator
  • a contribution calculation unit for calculating the contribution of c) a channel determination unit that determines a channel to be used for processing analysis data obtained for an unknown sample from a plurality of channels of the detector based on the contribution.
  • the output value of the channel that becomes the noise among the output values of the plurality of channels included in the analysis data is excluded, thereby contributing to the regression analysis / discriminant analysis.
  • the analysis data of the unknown sample can be analyzed using the output value of the channel, that is, the output value of the channel representing the characteristics of the sample.
  • FIG. 1 is a schematic configuration diagram of an analysis system according to an embodiment of the present invention.
  • the flowchart which shows the procedure of a data processing method.
  • Conceptual diagram of a full connect-neural network The figure which shows the contribution of each data point of analysis data.
  • the figure which investigated occurrence of overfitting The figure which shows the contribution after performing weighting.
  • FIG. 1 is a schematic configuration diagram of an analysis system according to an embodiment of the present invention.
  • the analysis system includes an analysis device 10 and a data processing device 20.
  • the analysis apparatus 10 includes a measurement unit 11, a multichannel detector 12 (hereinafter referred to as a detector 12), and an analog-digital conversion unit (ADC) 13 that converts a detection signal from the detector 12 into digital data.
  • ADC analog-digital conversion unit
  • the analysis apparatus 10 is a Fourier transform infrared spectrophotometer (FTIR)
  • the measurement unit 11 includes an interferometer that generates infrared interference light that irradiates the sample
  • the detector 12 includes a TGS detector or MCT detection. It consists of vessels.
  • the data processing device 20 performs a predetermined data process on the output data of the channel of the detector 12 that has been analog-to-digital converted in the ADC 13 to create analysis data that is multidimensional data, A graph creation unit 22 for creating a graph such as an infrared absorption spectrum and a chromatogram based on the analysis data; a data analysis unit 23 for analyzing the analysis data; an analysis database 24 used for analysis in the data analysis unit 23; And a display unit 25 for displaying a result analyzed by the data analysis unit 23.
  • the functions of the data processing device 20 can be realized using dedicated hardware. However, a general-purpose personal computer is used as a hardware resource, and dedicated processing software installed in the personal computer is executed. This is generally realized by
  • Step 1 Input data normalization> the reproducibility of the output value of the detector 12 is low, and the output value of each channel of the detector 12 may be different each time it is measured, even for the same sample. Further, depending on the analysis device 10, the sensitivity and the SN ratio may be different for each channel of the detector 12. For example, in a mass spectrometer, the reproducibility of the detector is low, and the reproducibility of peaks appearing in the mass spectrum is low. In addition, in an absorption spectrometer such as FTIR, the sensitivity and S / N ratio of the detector vary greatly depending on the wavelength.
  • normalization is performed so that the expected value of the fluctuation amount of the output value of each channel of the detector 12 becomes substantially constant, that is, the standard deviation of the output value of the channel of the detector 12 becomes constant.
  • Various known methods can be used for normalization. For example, it can be set as the process which remove
  • the learning data is subjected to nonlinear regression or nonlinear discrimination (learning) using a learning machine such as a neural network or SVM.
  • the learning data refers to analysis data obtained from the analysis apparatus 10 for a sample whose analysis result is known, such as a resin of a known type or a biological sample whose cancer patient or healthy person is known.
  • the nonlinear regression analysis or nonlinear discriminant analysis of the learning data is performed with the same regression target variable or discriminant label as the nonlinear regression analysis or nonlinear discriminant analysis applied to the analysis data of the analysis target sample.
  • a regression function or discriminant function representing learning data is obtained.
  • Step 3 Calculation of partial differential value of input data> Partial differentiation of regression and discriminant functions obtained for learning data.
  • Partial differentiation for example, a technique described in Non-Patent Document 4 can be used. In this method, the value input to the softmax function is regarded as an output value and differentiated.
  • Step 4 Calculation of contribution>
  • the contribution of each channel is calculated using the partial differential value calculated in step 3.
  • the partial differential value has a positive value.
  • the average of the partial differential values may be taken.
  • N channels are selected in descending order of contribution calculated in step 4.
  • one value may be set as the number n to be selected, but several channels are set and n channels selected for known test data (known analysis data different from learning data) are selected.
  • n channels selected for known test data (known analysis data different from learning data) are selected.
  • n channels may be determined. Thereby, it is possible to reduce the influence of the change of the order of contribution of the channels.
  • FIGS. 3 to 6 a result of data processing for determining the resin type of a sample based on analysis data collected using FTIR for a plastic sample.
  • 3 to 5 are obtained by FTIR for four types of resins including PP (polypropylene), PE (polyethylene), PUR (polyurethane resin) and ABS resin (acrylonitrile-butadiene-styrene copolymer synthetic resin) including additives.
  • PP polypropylene
  • PE polyethylene
  • PUR polyurethane resin
  • ABS resin acrylonitrile-butadiene-styrene copolymer synthetic resin
  • FIG. 3 shows an example of an extinction ratio spectrum obtained for a PP sample. This spectrum is obtained by normalizing the light absorption ratio spectrum obtained by FTIR (processing for dividing the signal intensity value at each measurement point by the standard deviation of the signal intensity value at all measurement points).
  • the function calculation unit 231 of the data analysis unit 23 receives the absorption ratio spectrum data after such normalization.
  • FIG. 5 shows the correct answer rate (%) when the resin type is identified using learning data and test data consisting of output values of the top n channels based on the obtained contribution.
  • the number of data is 10,000.
  • the test data validity rate is 94.1% when learning whether PP or non-PP is identified using the output values (1000 channels) of all channels included in the analysis data.
  • the correct answer rate was 99.2%. In other words, a high correct answer rate was obtained with the learning data, but the test data was in an overfit state in which the correct answer rate was reduced.
  • FIG. 6 shows the result of performing normalization processing (weighting) after adding emphasis processing for raising the contribution shown in FIG. 4 to the fourth power.
  • weighting normalization processing
  • FIG. 6 by performing weighting, a highly readable result can be obtained.
  • the correct answer rate was calculated using analysis data consisting of the output values of the top 40 channels.
  • the correct answer rate of test data was 95.5%
  • the correct answer rate of learning data was 96. %
  • overfitting was suppressed. From this, it was found that the weighting process is effective in preventing overfitting.
  • the emphasis process for adding the power of contribution to the fourth power is added, and the normalization is performed with the average being 1.
  • the emphasis process is a concept similar to selecting the top n contributions. It is possible to empirically adjust the degree (number to be raised).
  • a general non-linear monotone function such as a step function or a sigmoid function can be used.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Electrochemistry (AREA)

Abstract

本発明に係る分析データ処理方法は、複数の試料の各々について分析装置により収集された、該分析装置が備えるマルチチャンネル検出器の複数のチャンネルの出力値から成る多次元の分析データに対して統計的機械学習を用いた解析手法を適用することにより該分析データを処理する方法であって、既知の試料について得られた分析データを表す非線形な回帰関数又は判別関数を算出し、当該算出された非線形な回帰関数又は判別関数の微分値から、該非線形回帰関数又は前記非線形判別関数に対する、前記既知試料の分析データを構成する複数のチャンネルの出力値の各々の寄与度を算出し、該寄与度に基づき、前記検出器の複数のチャンネルの中から、未知試料について得られた分析データの処理に用いるチャンネルを決定することを特徴とする。

Description

分析データ処理方法及び分析データ処理装置
 本発明は、液体クロマトグラフ分析装置やガスクロマトグラフ分析装置、赤外分光光度計、蛍光X線分析装置等のスペクトル分析装置等、種々の分析装置により収集されたデータを処理する分析データ処理方法及び分析データ処理装置に関する。
 液体クロマトグラフやガスクロマトグラフ等の成分分離装置と検出器とを組み合わせたクロマトグラフ分析装置では、試料に含まれる多数の成分を時間的に分離した上で該成分を検出器で測定することにより、ある時間(保持時間)における信号強度を示す点データの集合から成る分析データ(クロマトグラムデータ)が得られる。また、検出器として質量分析装置(MS)を用いたクロマトグラフ質量分析装置(LC/MS、GC/MS等)では、試料に含まれる成分を時間的に分離した上で、各成分を質量分析装置で測定することにより、ある時間、ある質量電荷比m/zにおける信号強度を示す点データの集合から成る分析データ(クロマトグラムデータ、マススペクトルデータ)を取得することができる。
 さらに、赤外分光光度計や蛍光X線分析装置等のスペクトル分析装置では、試料となる物質に所定の波長範囲の光を照射することにより該物質から放射される光を検出器で測定することにより、ある波長(波数)又はエネルギーにおける信号強度を示す点データの集合から成る分析データ(スペクトルデータ)が得られる。これら分析データを構成する点データの数は、分析装置が備える検出器のチャンネルの数に相当する。
 いずれの分析装置においても、分析データから、時間、質量電荷比(m/z)、波長又はエネルギーを横軸とし、検出器のチャンネルの出力(信号強度値)を縦軸とするグラフ(クロマトグラム、マススペクトル、スペクトル)を作成することができる。これらのグラフでは、試料に含まれる成分の種類に応じた位置(保持時間、波長・エネルギー、質量電荷比m/z)にピークが現れる。従って、試料について得られた分析データを解析することにより、該試料の種類や該試料が属するグループなどを識別することができる。
 分析装置により収集された分析データから調べたい内容、つまり分析データを解析する目的を変数(目的変数)y、検出器の各チャンネルの出力を変数(説明変数)x1、x2、x3・・・とすると変数yは変数x1、x2、x3・・・を使って表すことができる。変数x1、x2、x3・・・は互いに独立した変数であることから、統計学上、上記分析データは変数x1、x2、x3・・・の数だけ次元を有する多次元データとして扱われる。
 多種多様な化合物の混合物から成る試料について得られる分析データの場合、グラフには多数のピークが発生するが、全てのピークについてその位置や大きさを解析する作業は効率が悪い。特定のピークに着目することにより、作業の効率化を図ることができるが、どのピークに着目すべきか判断することは困難である。そこで、このような問題を解決する解析手法として、主成分分析(Principal Component Analysis: PCA、非特許文献1)や非負行列因子分解(Nonnegative Matrix Factorization: NMF、非特許文献2)、クラスター分析等の多変量解析が利用されている。
 多変量解析では、複数グループの試料について得られた分析データの間で、グラフに現れるピークの位置やピーク形状の比較を行い、その結果に基づき分析データの中から不要な点データを削除したり統合したりすることにより分析データを低次元に写像する。低次元に写像された分析データは、その後、回帰分析や判別分析の手法によりモデル化される。
 説明変数の数が少ない二次元データや三次元データ等、比較的単純なデータの場合は線形回帰分析、線形判別分析の手法が適用される。一方、分析装置で得られる分析データのような多次元データの場合は、線形回帰や線形判別の分析手法を適用することが難しく、ニューラルネットやサポートベクターマシン(SVM)等の学習機械による非線形回帰分析、非線形判別分析の手法が適用される。
 PCAやNMFでは、分析データをモデル化したときに信号強度が変動する次元を全て反映できるように低次元に写像する。
 例えば、蛍光X線分析装置の検出結果に基づきプラスチックの種類を判別する場合、予め、プラスチックの種類が既知の複数グループについてスペクトルデータを取得し、これら複数グループのデータ間で多変量解析が行われる。スペクトルには、プラスチックのベースとなる材料由来のピーク以外に塗料や可塑剤・難燃剤等の添加物由来のピークが含まれる。一般に、プラスチックの種類が異なると添加物の種類も異なるため、ベース材料由来のピークだけでなく添加物由来のピークも複数のグループのデータ間で変動することになる。従って、この場合はベース材料由来のピークと添加物由来のピークの両方を再現できるように分析データが低次元に写像される。
 また例えば、癌疾患の病理マーカを探索するために、健常者グループの生体サンプルについて得られたマススペクトルデータと癌患者グループの生体サンプルについて得られたマススペクトルデータを用いて多変量解析を行う場合、病理マーカとなる成分以外の成分に由来するピークが変動することがある。これは、多くの癌患者に共通する生活習慣(喫煙、飲酒等)があり、該生活習慣に起因する成分に由来するピークも健常者グループと癌患者グループのデータ間で差異があるためである。従って、この場合は癌疾患の病理マーカとなる成分由来のピークと、生活習慣に起因する成分に由来するピークも再現できるように、分析データが低次元に写像される。
"多変量解析(主成分分析)を活用したクロマトデータ解析",株式会社島津製作所HP,[平成28年7月25日検索],インターネット<URL:http://www.an.shimadzu.co.jp/hplc/support/lib/lctalk/82/82tec.htm> NGOC-DIEP HO, "NONNEGATIVE MATRIX FACTORIZATIONALGORITHMS AND APPLICATIONS",インターネット<URL:https://www.researchgate.net/profile/Ngoc_Diep_Ho/publication/262258846_Nonnegative_matrix_factorization_algorithms_and_applications/links/02e7e537226cb7e59b000000.pdf> Tomoo AOYAMA and Hiroshi ICHIKAWA, "Obtaining the Correlation Indices between Drug Activity and Structural Parameters Using a Neural Networl", Chem. Pharm. Bull. 39(2) 372-378, (1991) Karen Simonyan et al., "Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps", インターネット<URL:http://arxiv.org/pdf/1312.6034v2.pdf>
 上述したようにして低次元に写像された後の分析データをニューラルネットやSVM等の学習機械に入力して非線形回帰分析や非線形判別分析の手法を用いてモデル化すると、次のような問題が生じる。
 上述した添加物由来のピークや生活習慣に起因する成分由来のピークは、プラスチックの種類や癌疾患の特徴を表すものではなく、ピークの大きさとプラスチックの種類又は癌疾患であるか否か(疾患の状態)の間に因果関係がない。つまり、本来は両者の間に相関はなく、たとえ相関が見られたとしても偽の相関(偽相関)である。そのため、プラスチックの種類や疾患の状態が既知の複数の試料について得られた分析データを、モデル化するための学習データとした場合に、該学習データでは添加物由来のピークとプラスチックの種類、又は生活習慣に起因する成分由来のピークと疾患の状態との間で相関がみられたとしても、解析対象の分析データに同じような相関がみられるとは限らない。その結果、学習データと同じ手法が解析対象の分析データには適合しない、いわゆる過剰適合状態となる。
 過剰適合を防ぐためには、偽相関を示す成分由来のピークがランダムノイズと変わらない存在として無視できるほどに多種多様なパターンの分析データを学習データとして非線形回帰分析、非線形判別分析を行う必要があるが、そのためには膨大な試料を用意する必要があり、現実的ではない。
 本発明が解決しようとする課題は、複数の試料について分析装置で収集された多次元データである分析データに基づく、統計的機械学習を用いた解析手法により前記分析データを処理する際に、前記分析データに含まれる、試料の特徴を表す次元を残しつつ、ノイズを排除することである。
 一般に、回帰分析又は判別分析に寄与する次元と回帰分析又は判別分析に用いる関数の出力値の相関は高いため、相関が高い次元のみを分析に利用し、中途半端な相関をもつ次元を削除することを考える。当然ながら、全く相関を持たない次元はノイズである可能性が高いため、削除する。
 線形回帰分析や線形判別分析では、相関係数を計算で求めることができるが、ニューラルネットやサポートベクターマシン等の機械学習による非線型関数を用いた回帰分析や判別分析では相関係数を求めることができない。ただし、ニューラルネットを用いた回帰・判別分析では、出力に対する入力の各次元の寄与度を偏微分を用いて算出することが可能である(非特許文献4)。なお、非特許文献4には、ニューラルネットによる非線形回帰/判別分析において、シグモイド関数を用いることが記載されているが、シグモイド関数に限ることなくニューラルネットを用いた学習法としては勾配法が一般的であるため、回帰関数又は判別関数の各データ点における偏微分値(又は劣偏微分値)を算出することが可能である。また、サポートベクターマシンを用いた機械学習による回帰/判別分析においても、入力及び出力がともに連続的な値をとる機械学習手法であれば、同様に、偏微分値を算出したり、偏微分に相当する値として、入力を微小に変化させた場合の差分を算出したりすることが可能である。分析データの各データ点における偏微分値又はそれに相当する値を算出することができれば、その値から寄与度を算出することができる。
 そこで、本発明は、複数の試料の各々について分析装置により収集された、該分析装置が備えるマルチチャンネル検出器の複数のチャンネルの出力値から成る多次元の分析データに対して統計的機械学習を用いた解析手法を適用することにより該分析データを処理する方法であって、
 既知の試料について得られた分析データを表す非線形な回帰関数又は判別関数を算出し、
 当該算出された非線形な回帰関数又は判別関数の微分値から、該非線形回帰関数又は前記非線形判別関数に対する、前記既知試料の分析データを構成する複数のチャンネルの出力値の各々の寄与度を算出し、
 該寄与度に基づき、前記検出器の複数のチャンネルの中から、未知試料について得られた分析データの処理に用いるチャンネルを決定することを特徴とする。
 上記分析データ処理方法において分析装置とは、マルチチャンネル検出器を備えたものであれば何でも良く、代表的なものとして、質量分析装置、液体クロマトグラフ分析装置、ガスクロマトグラフ分析装置、赤外分光光度計、蛍光X線分析装置等のスペクトル分析装置が挙げられる。
 また、既知の試料とは、含まれる成分が既知の試料、プラスチックの種類や癌患者であるか健常者であるか、というように属するグループが既知の試料等をいう。反対に、未知の試料とは、含まれる成分が未知の試料、属するグループが未知の試料をいう。
 統計的機械学習には、ニューラルネットやサポートベクターマシン等の学習機械を用いることができる。
 既知試料の分析データを表す非線形な回帰関数又は判別関数の微分値は、検出器の各チャンネルの出力値を表す変数(説明変数)で回帰関数又は判別関数を偏微分することにより算出することができるが、算出にかかる時間を低減するために分析データの一部のデータを抜粋したり、分析データをクラスタリングして各クラスターの代表点で代用したり、経験的に求められた標準的なデータパターンに対して微分値を求めたりしても良い。
 上記分析データ処理方法において、寄与度に基づきチャンネルを決定する基準は経験的に設定することが可能である。代表的な基準として、例えば寄与度の高い順から上位n個のチャンネルを選択する方法が挙げられる。
 この場合、過剰適合が発生しないように、選択するチャンネルの数nを決定すると良い。
 過剰適合状態とは、回帰関数又は判別関数を求めるために用いた分析データ自身には、当該回帰関数又は判別関数が適合するが、それ以外の分析データには適合しない状態をいう。例えば、成分が既知の分析データを、回帰関数又は判別関数を求めるための学習データと、学習データについて得られた回帰関数又は判別関数を検証するためのテストデータに分け、学習データについて得られた回帰関数又は判別関数を、学習データ自身に適用した場合の適合率と、前記回帰関数又は判別関数をテストデータに適用した場合の適合率を求め、これらの差が大きければ大きいほど、過剰適合状態にあると判断することができる。
 以上より、上記分析データ処理方法においては、既知試料について得られた分析データを学習データとテストデータに分け、学習データを用いて、未知試料について得られた分析データの処理に用いるチャンネルを仮決定し、前記仮決定したチャンネルを用いて前記学習データ及び前記テストデータを処理したときの、該学習データ及び該テストデータの適合率の差が所定範囲内にあるときは、前記仮決定したチャンネルを、未知試料について得られた分析データの処理に用いるチャンネルに正式に決定することが好ましい。
 また、上記分析データ処理方法において、好ましくは、検出器の各チャンネルの寄与度に応じて既知試料の分析データを構成する複数のチャンネル毎に重み付けを行い、
 重み付けを行った後の分析データに対して再び寄与度を算出し、重みを更新することを繰り返す。その重み又は寄与度に基づいて、未知試料について得られた分析データの処理に用いるチャンネルを決定する。
 重み付けは、寄与度を強調するような処理、つまり、大きい寄与度はより大きくなるような処理が好ましく、例えば寄与度を累乗する、寄与度の対数をとる、といった処理が挙げられる。また、重みの大きさは、試料の種類や分析装置の種類等に応じて実験的に求めておいても良い。このように重み付けを行う場合も、寄与度から直接チャンネルを決定する場合も、決定されたチャンネルの出力値を用いた機械学習結果に対して再び同様のチャンネル決定を繰り返し行うことにより、チャンネルの数を段階的に減らして行くようにしても良い。
 なお、重み付けを行う前の寄与度に基づきチャンネルを決定した場合、重み付けを行った後の寄与度に基づきチャンネルを決定した場合のいずれにおいても、機械学習の結果が機械学習対象となる係数の初期値に依存する場合は寄与度もその初期値による影響を受ける。従って、このような場合は、機械学習を複数回実行した結果に対して得られた複数の寄与度もしくは寄与度に対応した重みの最小値、最大値、平均値を求めてチャンネルの決定に用いてもよい。複数回実行した結果、用いるチャンネルとして決定された回数を基準として正式に用いるチャンネルを決定してもよい。
 また、本発明の別の態様は、複数の試料の各々について分析装置により収集された、該分析装置が備えるマルチチャンネル検出器の複数のチャンネルの出力値から成る多次元の分析データに対して統計的機械学習を用いた解析手法を適用することにより該分析データを処理する装置であって、
 a)既知の試料について得られた分析データを表す非線形な回帰関数又は判別関数を算出する関数算出部と、
 b)前記関数算出部で算出された非線形な回帰関数又は判別関数の微分値から、該非線形回帰関数又は前記非線形判別関数に対する、前記既知試料の分析データを構成する複数のチャンネルの出力値の各々の寄与度を算出する寄与度算出部と、
 c)前記寄与度に基づき、前記検出器の複数のチャンネルの中から、未知試料について得られた分析データの処理に用いるチャンネルを決定するチャンネル決定部と
 を備えることを特徴とする。
 本発明に係る分析データ処理方法及び分析データ処理装置によれば、分析データに含まれる複数のチャンネルの出力値のうち、ノイズとなるチャンネルの出力値を排除し、回帰分析・判別分析に寄与するチャンネルの出力値、すなわち試料の特徴を表すチャンネルの出力値を用いて、未知試料の分析データを解析することができる。
本発明の一実施形態である分析システムの概略構成図。 データ処理方法の手順を示すフローチャート。 PPの試料について得られた吸光比スペクトルの一例。 フルコネクト-ニューラルネットワークの概念図。 分析データの各データ点の寄与度を示す図。 過剰適合の発生を調べた図。 重み付けを行った後の寄与度を示す図。
 図1は、本発明の一実施形態である分析システムの概略構成図である。
 分析システムは、分析装置10とデータ処理装置20とから成る。分析装置10は、計測部11とマルチチャンネル検出器12(以下、検出器12という)と該検出器12による検出信号をデジタルデータに変換するアナログ-デジタル変換部(ADC)13とを備える。例えば分析装置10がフーリエ変換赤外分光光度計(FTIR)の場合、計測部11は、試料に照射する赤外干渉光を生成する干渉計から成り、検出器12は、TGS検出器やMCT検出器等から成る。
 データ処理装置20は、ADC13においてアナログ-デジタル変換された、検出器12のチャンネルの出力データに対して所定のデータ処理を行うことで多次元データである分析データを作成するデータ収集部21と、分析データに基づき赤外吸収スペクトルやクロマトグラム等のグラフを作成するグラフ作成部22と、前記分析データを解析するデータ解析部23と、データ解析部23における解析に用いられる解析用データベース24と、データ解析部23において解析された結果を表示する表示部25と、を備える。
 なお、データ処理装置20の機能は、専用のハードウェアを用いて実現することも可能であるが、汎用のパーソナルコンピュータをハードウェア資源とし、該パーソナルコンピュータにインストールされた専用の処理ソフトウェアを実行することにより実現するのが一般的である。
 続いて、上記データ処理装置20におけるデータ処理方法の手順を図2に示すフローチャートを参照しながら説明する。図2のフローチャートの各ステップの処理はデータ処理装置20のデータ解析部23が実行する。なお、以下の説明において「入力データ」とはデータ解析部23に入力されるデータを指し、「出力データ」とはデータ解析部23から出力されるデータを指す。
<ステップ1 入力データの正規化>
 分析装置10によっては、検出器12の出力値の再現性が低く、たとえ同一試料であっても、測定する毎に検出器12の各チャンネルの出力値が異なる場合がある。また、分析装置10によっては、検出器12のチャンネル毎に感度やSN比が異なる場合もある。例えば質量分析装置では検出器の再現性が低く、マススペクトルに現れるピークの再現性が低い。また、FTIR等の吸光分析装置では、波長によって検出器の感度やSN比が大きく異なる。
 そこで、検出器12の各チャンネルの出力値の変動量の期待値がほぼ一定になるよう、つまり、検出器12のチャンネルの出力値の標準偏差が一定になるように正規化する。正規化には種々の周知の方法を用いることができる。例えば、複数の分析データを構成する任意のチャンネルの出力値、つまり、スペクトルやマススペクトル、クロマトグラフ中の任意のピーク値を、その標準偏差で除する処理とすることができる。
<ステップ2 学習機械を用いた非線形回帰分析又は非線形判別分析>
 学習データについて、ニューラルネットやSVM等の学習機械を用いた非線形回帰又は非線形判別(学習)を行う。学習データとは、例えば種類が既知の樹脂、癌患者か健常者のいずれであるかが既知の生体サンプルなど、解析結果が既知の試料について分析装置10から得られた分析データを指す。この場合、解析対象試料の分析データに対して適用する非線形回帰分析又は非線形判別分析と同じ回帰対象変数又は判別ラベルで、学習データの非線形回帰分析又は非線形判別分析を行う。ステップ2の処理により、学習データを表す回帰関数又は判別関数が求められる。
<ステップ3 入力データの偏微分値の算出>
 学習データについて得られた回帰関数・判別関数を偏微分する。偏微分は、例えば非特許文献4に記載されているような手法を用いることができる。この手法では、softmax関数に入力される値を出力値とみなして微分する。
<ステップ4 寄与度の算出>
 ステップ3において算出された偏微分値を用いて各チャンネルの寄与度を算出する。例えば、樹脂種を識別するために得られたスペクトルデータのように、特定のチャンネルの信号強度値が大きくなればなるほど、ある物質を含む確度が上がるという場合は、偏微分値は正の値を示すため、偏微分値の平均を取れば良い。一方、例えばある疾病に罹患しているか否かを判断するための病理マーカを調べるためのマススペクトルデータでは、特定のチャンネルの信号値が適正値からどの程度外れているかが重要となる。このような場合は、正負両方の偏微分値が現れるため、偏微分値の二次ノルムから寄与度を算出する。
<ステップ5 チャンネルの決定>
 ステップ4で算出された寄与度の大きい順にn個のチャンネルを選ぶ。この場合、選択する数nとして一つの値を設定しても良いが、いくつかの値を設定し、既知のテストデータ(学習データとは別の既知の分析データ)について選択したn個のチャンネルの出力値を用いて、ステップ2の回帰・判別分析を行った結果、過剰適合が少なく、チャンネルを減らしたことによる精度低下が少なければ、それらn個のチャンネルを最終的にデータ処理に使用するチャンネルに決定すると良い。
 また、上位n個のチャンネルを選択した後、これらn個のチャンネルの出力から成る分析データについて、ステップ2~4の処理を行うと、各チャンネルの寄与度の大きさの順位が入れ替わる場合がある。そこで、まずは、最終的に選択する数nよりも多い数(n +α)のチャンネルを選択し、それら選択したチャンネルについてステップ2~5の処理を行ってチャンネルの数を段階的に減らし、最終的にn個のチャンネルを決定するようにしても良い。これにより、チャンネルの寄与度の順位の入れ替わりの影響を軽減することもできる。
 次に本発明を、プラスチック試料についてFTIRを用いて収集された分析データに基づき、試料の樹脂種の判定のためのデータ処理を行った結果について図3~図6を参照して説明する。
 図3~図5は、添加物など含むPP(ポリプロピレン)、PE(ポリエチレン)、PUR(ポリウレタン樹脂)、ABS樹脂(アクリルニトリル-ブタジエン-スチレン共重合合成樹脂)の4種類の樹脂についてFTIRで得られた分析データ(スペクトルデータ)に基づき、PPと非PPのいずれであるかを識別した結果を示す。
 図3は、PPの試料について得られた吸光比スペクトルの一例を示す。このスペクトルは、FTIRで得られた吸光比スペクトルを正規化処理(全ての測定点における信号強度値の標準偏差で各測定点の信号強度値を除する処理)したものである。データ解析部23の関数算出部231には、このように正規化した後の吸光比スペクトルデータが入力される。
 データ解析部23では、PPと非PPの樹脂の判別を、図4に示すフルコネクト-ニューラルネットワークを用いて行う。ここでは、中間層の活性化関数としてelu関数を用い、出力層の活性化関数としてsoftmax関数を用いている。その結果、得られた寄与度を図5に示す。図5の横軸及び図3の横軸は、いずれも検出器12のチャンネルに対応している。
 図5が、得られた寄与度に基づき上位n個のチャンネルの出力値から成る学習データとテストデータを用いて、樹脂種を識別したときの正答率(%)を示す。いずれもデータ数は10000である。
 ニューラルネットワークの初期値にも依存するが、分析データに含まれる全てのチャンネルの出力値(1000チャンネル)を用いてPPか非PPかを識別したときのテストデータの正当率は94.1%、学習データの正答率は99.2%であった。つまり、学習データでは高い正答率が得られたが、テストデータでは、正答率が低下するという過剰適合状態となった。これに対して、チャンネルの数を減らしていくと、テストデータの正答率は徐々に低下する一方、学習データの正答率が上昇する傾向がみられ、チャンネルの数が40程度で頭打ちになることが分かった。以上より、この実験例では、寄与度の上位40のチャンネルの出力値を用いることにより過剰適合を抑えて、正答率(識別率)が向上することが分かる。
 また、図6は、図4に示す寄与度を4乗する強調処理を加えた上で、正規化する処理(重み付け)を行った結果を示す。図6から分かるように、重み付けを行うことにより、非常に可読性の高い結果が得られる。重み付け処理を行った後の寄与度に基づき、上位40個のチャンネルの出力値から成る分析データを用いて正答率を求めたところ、テストデータの正答率は95.5%、学習データの正答率は96%であり、過剰適合が抑えられた。このことから、重み付け処理が、過剰適合の防止に有効であることが分かった。
 なお、本発明は上記した実施形態に限らず、適宜の変更が可能である。
 例えば、正規化する方法としては、ばらつきから求まる変動係数(=標準偏差/平均値)で除する周知の手法を用いることができる。
 上記実施形態では寄与度を4乗する強調処理を加えた上で、平均を1にする正規化をしたが、強調処理は、寄与度の上位n個を選ぶことと類似の概念であり、強調する度合い(累乗する数)は経験的に調整することが可能である。また、寄与度を累乗することによる強調処理の他、ステップ関数、シグモイド関数などの一般的な非線型な単調関数を用いることができる。
10…分析装置
11…計測部
12…検出器
13…ADC
20…データ処理装置
21…データ収集部
22…グラフ作成部
23…データ解析部
 231…関数算出部
 232…寄与度算出部
 233…チャンネル決定部
24…解析用データベース
25…表示部

Claims (7)

  1.  複数の試料の各々について分析装置により収集された、該分析装置が備えるマルチチャンネル検出器の複数のチャンネルの出力値から成る多次元の分析データに対して統計的機械学習を用いた解析手法を適用することにより該分析データを処理する方法であって、
     既知の試料について得られた分析データを表す非線形な回帰関数又は判別関数を算出し、
     当該算出された非線形な回帰関数又は判別関数の微分値から、該非線形回帰関数又は前記非線形判別関数に対する、前記既知試料の分析データを構成する複数のチャンネルの出力値の各々の寄与度を算出し、
     該寄与度に基づき、前記検出器の複数のチャンネルの中から、未知試料について得られた分析データの処理に用いるチャンネルを決定することを特徴とするデータ処理方法。
  2.  請求項1に記載のデータ処理方法において、
     前記寄与度に応じて前記既知試料の分析データを構成する複数のチャンネル毎に重み付けを行い、
     重み付けを行った後の複数のチャンネルに対して再び寄与度を算出し、該寄与度に基づいて、未知試料について得られた分析データの処理に用いるチャンネルを決定することを特徴とする、データ処理方法。
  3.  請求項1に記載のデータ処理方法において、
     決定されたチャンネルに関する情報を提示することを特徴とする、データ処理方法。
  4.  請求項2に記載のデータ処理方法において、
     決定されたチャンネルに関する情報を提示することを特徴とする、データ処理方法。
  5.  請求項1に記載のデータ処理方法において、
     既知試料について得られた分析データを学習データとテストデータに分け、学習データを用いて、未知試料について得られた分析データの処理に用いるチャンネルを仮決定し、前記仮決定したチャンネルを用いて前記学習データ及び前記テストデータを処理したときの、該学習データ及び該テストデータの適合率の差が所定範囲内にあるときは、前記仮決定したチャンネルを、未知試料について得られた分析データの処理に用いるチャンネルに正式に決定することを特徴とする、データ処理方法。
  6.  請求項2に記載のデータ処理方法において、
     既知試料について得られた分析データを学習データとテストデータに分け、学習データを用いて、未知試料について得られた分析データの処理に用いるチャンネルを仮決定し、前記仮決定したチャンネルを用いて前記学習データ及び前記テストデータを処理したときの、該学習データ及び該テストデータの適合率の差が所定範囲内にあるときは、前記仮決定したチャンネルを、未知試料について得られた分析データの処理に用いるチャンネルに正式に決定することを特徴とする、データ処理方法。
  7.  複数の試料の各々について分析装置により収集された、該分析装置が備えるマルチチャンネル検出器の複数のチャンネルの出力値から成る多次元の分析データに対して統計的機械学習を用いた解析手法を適用することにより該分析データを処理する装置であって、
     a)既知の試料について得られた分析データを表す非線形な回帰関数又は判別関数を算出する関数算出部と、
     b)前記関数算出部で算出された非線形な回帰関数又は判別関数の微分値から、該非線形回帰関数又は前記非線形判別関数に対する、前記既知試料の分析データを構成する複数のチャンネルの出力値の各々の寄与度を算出する寄与度算出部と、
     c)前記寄与度に基づき、前記検出器の複数のチャンネルの中から、未知試料について得られた分析データの処理に用いるチャンネルを決定するチャンネル決定部と
     を備えることを特徴とするデータ処理装置。
PCT/JP2016/072873 2016-08-03 2016-08-03 分析データ処理方法及び分析データ処理装置 WO2018025361A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2018531042A JP6760380B2 (ja) 2016-08-03 2016-08-03 分析データ処理方法及び分析データ処理装置
PCT/JP2016/072873 WO2018025361A1 (ja) 2016-08-03 2016-08-03 分析データ処理方法及び分析データ処理装置
EP16911620.9A EP3495812A4 (en) 2016-08-03 2016-08-03 METHOD FOR PROCESSING ANALYSIS DATA AND DEVICE FOR PROCESSING ANALYSIS DATA
US16/322,338 US11681778B2 (en) 2016-08-03 2016-08-03 Analysis data processing method and analysis data processing device
CN201680088305.XA CN109564199A (zh) 2016-08-03 2016-08-03 分析数据处理方法和分析数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/072873 WO2018025361A1 (ja) 2016-08-03 2016-08-03 分析データ処理方法及び分析データ処理装置

Publications (1)

Publication Number Publication Date
WO2018025361A1 true WO2018025361A1 (ja) 2018-02-08

Family

ID=61074064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/072873 WO2018025361A1 (ja) 2016-08-03 2016-08-03 分析データ処理方法及び分析データ処理装置

Country Status (5)

Country Link
US (1) US11681778B2 (ja)
EP (1) EP3495812A4 (ja)
JP (1) JP6760380B2 (ja)
CN (1) CN109564199A (ja)
WO (1) WO2018025361A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160138A1 (ja) * 2018-02-19 2019-08-22 日本電信電話株式会社 因果推定装置、因果推定方法、及びプログラム
JP2020008993A (ja) * 2018-07-04 2020-01-16 株式会社東芝 学習方法、学習装置および画像認識システム
KR20200086102A (ko) * 2019-01-08 2020-07-16 에스케이텔레콤 주식회사 회귀 분석 장치 및 회귀 분석 장치를 생성하는 방법
JP6725928B1 (ja) * 2020-02-13 2020-07-22 東洋インキScホールディングス株式会社 回帰モデル作成方法、回帰モデル作成装置、及び、回帰モデル作成プログラム
JPWO2021177240A1 (ja) * 2020-03-05 2021-09-10
EP3910564A1 (en) 2020-05-15 2021-11-17 Fujitsu Limited Impact calculation program, impact calculation device, and impact calculation method
JP2021532347A (ja) * 2018-07-20 2021-11-25 ケーエルエー コーポレイション 半導体検査における多モードの欠陥分類
WO2021240922A1 (ja) * 2020-05-28 2021-12-02 株式会社島津製作所 ピークトラッキング装置、ピークトラッキング方法およびピークトラッキングプログラム
US11341404B2 (en) 2017-03-15 2022-05-24 Shimadzu Corporation Analysis-data analyzing device and analysis-data analyzing method that calculates or updates a degree of usefulness of each dimension of an input in a machine-learning model

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7413616B1 (ja) * 2022-02-25 2024-01-15 株式会社アルバック 表示装置、表示方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150408A (ja) * 2010-01-19 2011-08-04 Hitachi Ltd 生体および脳機能計測に基づくヒューマンインターフェイス及びそれを用いたヒューマンエラーの検出・防止方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228113A (en) * 1991-06-17 1993-07-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Accelerated training apparatus for back propagation networks
JPH08292934A (ja) * 1995-04-21 1996-11-05 Power Reactor & Nuclear Fuel Dev Corp ニューラルネットワークを用いた情報処理の方法
US6909981B2 (en) * 2003-01-27 2005-06-21 Ciphergen Biosystems, Inc. Data management system and method for processing signals from sample spots
US7254593B2 (en) * 2004-01-16 2007-08-07 International Business Machines Corporation System and method for tracking annotations of data sources
US10219742B2 (en) * 2008-04-14 2019-03-05 Novadaq Technologies ULC Locating and analyzing perforator flaps for plastic and reconstructive surgery
US8738584B2 (en) * 2009-02-17 2014-05-27 Microsoft Corporation Context-aware management of shared composite data
CN101846617A (zh) * 2009-12-29 2010-09-29 中国科学院地球化学研究所 一种基于光谱分析的培养基中蔗糖含量的无菌检测方法
US8378296B1 (en) * 2010-04-05 2013-02-19 Stc.Unm Enhancement of concentration range of chromatographically detectable components with array detector mass spectrometry
US8428889B2 (en) * 2010-10-07 2013-04-23 Thermo Finnigan Llc Methods of automated spectral peak detection and quantification having learning mode
ES2396844B1 (es) 2010-12-01 2014-01-27 Universitat Politècnica De Catalunya Sistema y método para la estimación simultánea y no invasiva de la glucosa en la sangre, nivel de glucocorticoides y presión arterial
US10515312B1 (en) * 2015-12-30 2019-12-24 Amazon Technologies, Inc. Neural network model compaction using selective unit removal
GB2550591B (en) * 2016-05-24 2018-06-27 Microsaic Systems Plc A method for extracting mass information from low resolution mass-to-charge ratio spectra of multiply charged species

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150408A (ja) * 2010-01-19 2011-08-04 Hitachi Ltd 生体および脳機能計測に基づくヒューマンインターフェイス及びそれを用いたヒューマンエラーの検出・防止方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP3495812A4 *
SIMONYAN KAREN ET AL.: "Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps", ARXIV, 19 April 2014 (2014-04-19), pages l-8, XP055226059, Retrieved from the Internet <URL:http://arxiv.org/pdf/1312.6034v2.pdf> [retrieved on 20161024] *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11341404B2 (en) 2017-03-15 2022-05-24 Shimadzu Corporation Analysis-data analyzing device and analysis-data analyzing method that calculates or updates a degree of usefulness of each dimension of an input in a machine-learning model
JP2019144779A (ja) * 2018-02-19 2019-08-29 日本電信電話株式会社 因果推定装置、因果推定方法、及びプログラム
WO2019160138A1 (ja) * 2018-02-19 2019-08-22 日本電信電話株式会社 因果推定装置、因果推定方法、及びプログラム
JP2020008993A (ja) * 2018-07-04 2020-01-16 株式会社東芝 学習方法、学習装置および画像認識システム
JP7398432B2 (ja) 2018-07-20 2023-12-14 ケーエルエー コーポレイション 半導体検査における多モードの欠陥分類
US11668655B2 (en) 2018-07-20 2023-06-06 Kla Corporation Multimode defect classification in semiconductor inspection
JP2021532347A (ja) * 2018-07-20 2021-11-25 ケーエルエー コーポレイション 半導体検査における多モードの欠陥分類
KR20200086102A (ko) * 2019-01-08 2020-07-16 에스케이텔레콤 주식회사 회귀 분석 장치 및 회귀 분석 장치를 생성하는 방법
KR102242937B1 (ko) 2019-01-08 2021-04-21 에스케이텔레콤 주식회사 회귀 분석 장치 및 회귀 분석 장치를 생성하는 방법
JP6725928B1 (ja) * 2020-02-13 2020-07-22 東洋インキScホールディングス株式会社 回帰モデル作成方法、回帰モデル作成装置、及び、回帰モデル作成プログラム
WO2021162033A1 (ja) * 2020-02-13 2021-08-19 東洋インキScホールディングス株式会社 回帰モデル作成方法、回帰モデル作成装置、及び、回帰モデル作成プログラム
JP2021128042A (ja) * 2020-02-13 2021-09-02 東洋インキScホールディングス株式会社 回帰モデル作成方法、回帰モデル作成装置、及び、回帰モデル作成プログラム
JPWO2021177240A1 (ja) * 2020-03-05 2021-09-10
JP7297348B2 (ja) 2020-03-05 2023-06-26 国立研究開発法人物質・材料研究機構 スペクトル汎化システム及び方法、並びに物質同定システム及び方法
WO2021177240A1 (ja) * 2020-03-05 2021-09-10 国立研究開発法人物質・材料研究機構 スペクトル汎化システム及び方法、並びに物質同定システム及び方法
EP3910564A1 (en) 2020-05-15 2021-11-17 Fujitsu Limited Impact calculation program, impact calculation device, and impact calculation method
WO2021240922A1 (ja) * 2020-05-28 2021-12-02 株式会社島津製作所 ピークトラッキング装置、ピークトラッキング方法およびピークトラッキングプログラム

Also Published As

Publication number Publication date
EP3495812A1 (en) 2019-06-12
EP3495812A4 (en) 2019-07-24
JPWO2018025361A1 (ja) 2019-06-27
US20190179874A1 (en) 2019-06-13
JP6760380B2 (ja) 2020-09-23
US11681778B2 (en) 2023-06-20
CN109564199A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
WO2018025361A1 (ja) 分析データ処理方法及び分析データ処理装置
Pierce et al. Classification of gasoline data obtained by gas chromatography using a piecewise alignment algorithm combined with feature selection and principal component analysis
CN103534578B (zh) 确定样本中存在的成分的光谱装置以及方法
JP6729455B2 (ja) 分析データ解析装置及び分析データ解析方法
CA2501003C (en) Sample analysis to provide characterization data
JP6813033B2 (ja) 分析データ解析方法および分析データ解析装置
CN107860845B (zh) 自动解析gc-ms重叠峰准确识别化合物的方法
WO2016103312A1 (ja) 分析データ処理方法及び装置
Tian et al. Towards enhanced metabolomic data analysis of mass spectrometry image: Multivariate Curve Resolution and Machine Learning
US8831316B2 (en) Point source detection
Palmer et al. Using collective expert judgements to evaluate quality measures of mass spectrometry images
Cooper et al. Wavelet based Raman spectra comparison
TWI493168B (zh) 分析質譜的方法、電腦程式及系統
CN114062306B (zh) 一种近红外光谱数据分段预处理方法
JPWO2020044435A1 (ja) データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
US20220252516A1 (en) Spectroscopic apparatus and methods for determining components present in a sample
JP7334788B2 (ja) 波形解析方法及び波形解析装置
JP7268530B2 (ja) 質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラム
Burke IV A robust and automated deconvolution algorithm of peaks in spectroscopic data
Kehimkar et al. Targeted mass spectral ratio analysis: A new tool for gas chromatography—mass spectrometry
EP3276343A1 (en) Method and device for characterising an analyte
US11990327B2 (en) Method, system and program for processing mass spectrometry data
US20230280316A1 (en) Learning data producing method, waveform analysis device, waveform analysis method, and recording medium
Del Prete et al. Comparative analysis of MALDI-TOF mass spectrometric data in proteomics: a case study
CHINNATHAMBI et al. DEEP LEARNING FOR UNTANGLING THE CHEMISTRY OF SCENT: A NOVEL APPROACH TO ODOUR CLASSIFICATION USING GC-MS DATA

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16911620

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018531042

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2016911620

Country of ref document: EP

Effective date: 20190304