WO2020044435A1 - データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法 - Google Patents

データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法 Download PDF

Info

Publication number
WO2020044435A1
WO2020044435A1 PCT/JP2018/031742 JP2018031742W WO2020044435A1 WO 2020044435 A1 WO2020044435 A1 WO 2020044435A1 JP 2018031742 W JP2018031742 W JP 2018031742W WO 2020044435 A1 WO2020044435 A1 WO 2020044435A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
analysis
learning
parameter set
unanalyzed
Prior art date
Application number
PCT/JP2018/031742
Other languages
English (en)
French (fr)
Inventor
藤田 雄一郎
陽 野田
Original Assignee
株式会社島津製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社島津製作所 filed Critical 株式会社島津製作所
Priority to JP2020539899A priority Critical patent/JP7255597B2/ja
Priority to PCT/JP2018/031742 priority patent/WO2020044435A1/ja
Priority to US17/271,628 priority patent/US20210319364A1/en
Publication of WO2020044435A1 publication Critical patent/WO2020044435A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Definitions

  • the present invention relates to a technique used when analyzing various data including measurement data obtained by measuring a sample using an analyzer by an analysis program.
  • a chromatograph / mass spectrometer combining a chromatograph and a mass spectrometer is widely used.
  • a sample is introduced into a column of a chromatograph, a plurality of substances contained in the sample are separated according to a difference in retention time (Retention @ Time, @RT), and introduced into a mass spectrometer (Mass @ Spectrometry, @MS).
  • the time interval at which the chromatographically separated substances are introduced into the mass spectrometer is determined according to the speed of scan measurement (mass scanning speed) in the mass spectrometer.
  • the substance introduced into the mass spectrometer After the substance introduced into the mass spectrometer is ionized, it is separated and detected according to the mass-to-charge ratio (m / z).
  • the mass-to-charge ratio (m / z)
  • the detection intensity (signal intensity) of ions at each mass-to-charge ratio reflects the content of a substance that generates ions having that mass-to-charge ratio in the sample.
  • Total Ion Current (Total Ion Current, TIC) is obtained by integrating the signal intensity in the direction of the mass-to-charge ratio (m / z) axis at each point of the three-dimensional data retention time (RT) axis. Then, by plotting the total ion current along the retention time axis, a total ion current chromatogram (Total Ion Current chromatogram, TICC) is obtained.
  • ⁇ ⁇ If each substance contained in the sample is sufficiently separated from each other in the chromatographic column, a unimodal bell-shaped peak appears at the position of the retention time of the substance in the TICC waveform (TICC waveform).
  • TICC waveform TICC waveform
  • Identification of a substance is performed by comparing the mass spectrum of the identification target with an actually measured mass spectrum or a theoretical mass spectrum of a known substance stored in a database (Data @ Base, @DB).
  • the comparison items include a mass-to-charge ratio (m / z) value at which the mass peak exists, the intensity of the mass peak, and the like. Based on the degree of coincidence (score) of the mass spectrum, it is possible to quantitatively evaluate the degree of reliability of the substance identification result. Further, the amount of each sample separated by chromatography can be estimated from the area and height of the peak on the TICC waveform.
  • a sample contains a plurality of substances having the same or similar retention times
  • a plurality of substances will be mixed in the eluted substance from the chromatograph during the retention time of those substances or the time before and after the retention times.
  • mass peaks derived from a plurality of substances are mixed in the mass spectrum at the retention time and the time before and after the retention time, and the peak of the TICC waveform obtained by integrating the mass peaks is also superimposed on the peak derived from the plurality of substances. It will be.
  • peak separation Peak Deconvolution
  • signal processing statistical processing, or the like
  • purify the TICC peaks so that one mass spectrum includes only a group of mass peaks derived from a single substance.
  • AMDIS Automated Mass Spectral Deconvolution and Identification System
  • the initial values of the analysis parameters in AMDIS are set assuming that they are used for various GCMS data in general, and the state of the GCMS data (shape of superimposed peak, mass scanning speed, noise state, etc.) Some are not always appropriate. That is, there is a case where the peak cannot be sufficiently separated even if the initial value is used as it is for the peak separation of the GCMS data to be analyzed. In such cases, the user can change the value of each analysis parameter from the initial value to separate the peaks and, for example, identify the substance with sufficient reliability until the result that the analyst considers appropriate is obtained. That is, the parameter is adjusted until a sufficiently high score is obtained.
  • the analyst adjusts the parameters based on the intuition and experience that he or she has cultivated, so the analysis result depends on the user's ability and feeling, that is, the result obtained by the analyst's skill level There is a problem that variations occur. In addition, there is a problem that the analysis work takes time and labor because the parameter adjustment needs to be repeated.
  • the problem to be solved by the present invention is to easily obtain an appropriate analysis result when analyzing various data such as measurement data obtained by measuring a sample using an analyzer using analysis parameters. Is to provide the technology that can.
  • a first aspect of the present invention made to solve the above-described problem is a method of analyzing data to be analyzed by setting a value to each of one to a plurality of analysis parameters and using a predetermined analysis program, A learning parameter set creating step of creating a plurality of learning parameter sets in which at least one value of the one or more analysis parameters is different from each other, A learning parameter set determining step of executing analysis by the analysis program using each of the plurality of learning parameter sets for each of the plurality of reference data, and determining a learning parameter set suitable for the analysis based on a predetermined criterion;
  • a reference data group creating step of associating each of the plurality of learning parameter sets with a reference data group that is a group of reference data in which the learning parameter set is suitable for analysis in the learning parameter set determining step;
  • An unanalyzed data input step for inputting unanalyzed data; The commonality between the unanalyzed data and each reference data group is determined based on a predetermined criterion, and based on the commonality, a
  • a plurality of learning parameter sets in which at least one of one or more analysis parameters used for data analysis is different from each other are created.
  • an analysis program is executed for each of the plurality of reference data using each of the plurality of learning parameter sets, and a learning parameter set suitable for the analysis is determined based on a predetermined criterion. For example, for each of a plurality of reference data, an evaluation value representing validity with respect to an analysis result obtained by executing an analysis by an analysis program using each of a plurality of created learning parameter sets, This can be performed by setting the highest evaluation value as the optimal learning parameter set.
  • a parameter whose evaluation value is equal to or greater than a predetermined reference value may be set as a learning parameter set suitable for analysis.
  • one learning parameter set suitable for the analysis is determined for each of the reference data, and in the latter case, one or more learning parameter sets are determined.
  • a reference data group that is a group of reference data for which the learning parameter set is determined to be suitable for analysis is created in the learning parameter set determining step.
  • reference data having a common learning parameter set suitable for analysis is grouped, and information serving as a basis for determining a parameter set used for analyzing unanalyzed data is obtained.
  • the reference data may be included in a plurality of reference data groups.
  • a parameter suitable for the analysis of the unanalyzed data is determined for each of the one or more analysis parameters to determine an actual analysis parameter set.
  • the predetermined criterion differs depending on the type of data to be analyzed.For example, when the data to be analyzed is a TICC waveform of GCMS data, a reference data group including reference data having a shape close to the peak of the unanalyzed data is used. , A reference data group having high commonality.
  • a reference data group having the highest commonality with the unanalyzed data is determined, and the learning parameter set corresponding to the reference data group is used as it is as the actual analysis parameter set. It can be carried out. As described above, when one of the parameter set numbers assigned to the plurality of learning parameter sets is predicted, the parameter set number associated with the reference data group having the highest commonality is selected. This is a case in which the set of one or more parameters is treated as one “parameter set”, and which parameter set should be analyzed. This is an “identification” approach in machine learning terms.
  • each analysis parameter is directly associated with a reference data group (each reference data group may be composed of only one reference data).
  • An approach of estimating the value of each analysis parameter to be used in data analysis is also conceivable. This is a “regression” approach in machine learning terms. In the case of regression, for a given analysis parameter, even if the learning parameter set contains only two values (for example, 5 and 10), the unanalyzed data and each reference data group (or each reference data group) Regression analysis based on the commonality with the data (for example, the similarity of the TICC waveform), and determine an intermediate value (for example, 7) that is not one of the two values as the optimal analysis parameter value for analyzing the unanalyzed data.
  • regression analysis can be performed individually for one or more analysis parameters, or can be performed collectively for one or more analysis parameters (ie, in parameter set units).
  • analysis program analyzes the unanalyzed data using the actual analysis parameter set including one or more analysis parameter values obtained by the regression analysis.
  • the analysis using the plurality of reference data is performed to refer to one or more reference data having a common learning parameter set suitable for the analysis. Group them as data groups. Then, based on the commonality between the unanalyzed data and the reference data group, a value suitable for the analysis of the unanalyzed data is obtained for each of the one or more analysis parameters from the learning parameter set associated with the reference data group. And determine them as a parameter set for actual analysis. Therefore, the user does not need to set the value of the analysis parameter by himself, and a parameter set suitable for analyzing the unanalyzed data is uniquely determined, so that an appropriate analysis result can be easily obtained. Also, there is no variation in the results obtained depending on the skill of the user.
  • a second aspect of the present invention made to solve the above-mentioned problem is used for determining values of one or more analysis parameters used when analyzing data to be analyzed by a predetermined analysis program.
  • a method of creating a learning model A learning parameter set creating step of creating a plurality of learning parameter sets in which at least one value of the one or more analysis parameters is different from each other, A learning parameter set determining step of executing analysis by the analysis program using each of the plurality of learning parameter sets for each of the plurality of reference data, and determining a learning parameter set suitable for the analysis based on a predetermined criterion;
  • a learning parameter creating step, a learning parameter set determining step, and a reference data group creating step similar to the data analysis method of the first aspect are performed.
  • a learning model is created by machine learning, in which the learning data is obtained by associating the reference data group with each of a plurality of learning parameter sets created as a result.
  • various methods of machine learning have been proposed (for example, Patent Document 1).
  • For the machine learning for example, deep learning (Deep Learning), a convolutional neural network (Convolution Neural Network, CNN), a support vector machine (Support ⁇ Vector ⁇ Machine, ⁇ SVM), and AdaBoost can be used.
  • the learning model created in this manner can be suitably used in the actual analysis parameter set determining step of the data analysis method according to the first aspect of the present invention.
  • a third aspect of the present invention which has been made to solve the above-described problem, is an apparatus for analyzing data to be analyzed by setting a value to one or more analysis parameters and using a predetermined analysis program.
  • a learning parameter set creation unit that creates a plurality of learning parameter sets in which at least one value of the one or more analysis parameters is different from each other
  • a learning parameter set determining unit that executes analysis by the analysis program using each of the plurality of learning parameter sets for each of the plurality of reference data, and determines a learning parameter set suitable for analysis based on a predetermined criterion;
  • a reference data group creation unit that associates each of the plurality of learning parameter sets with a reference data group that is a group of reference data in which the learning parameter set is determined to be suitable for analysis by the learning parameter set determination unit;
  • An unanalyzed data input section for inputting unanalyzed data, The commonality between the unanalyzed data and each reference data group is determined based on a predetermined criterion, and based on the commonality
  • a data analysis method When analyzing various data such as measurement data obtained by measuring a sample using an analysis device using analysis parameters, a data analysis method, a data analysis device, or a learning model for data analysis according to the present invention is used. By using the creation method, an appropriate analysis result can be easily obtained.
  • FIG. 1 is a main configuration diagram of an analysis system in which a control / processing device, which is an embodiment of a data analysis device according to the present invention, is combined with a gas chromatograph mass spectrometer.
  • 5 is a flowchart relating to one embodiment of a data analysis method according to the present invention.
  • Part of a learning parameter set used in the present embodiment. 9 is a histogram showing an analysis result of divided reference data using a plurality of learning parameter sets in the embodiment.
  • FIG. 2 is a diagram illustrating a structure of a convolutional neutral network used in machine learning according to the embodiment.
  • the hyperparameters and network configuration of the convolutional neutral network having the highest correct answer rate in the present embodiment.
  • the correct answer rate when the analysis process of selecting the optimal parameter set by the learning model of this embodiment is evaluated by five-part cross validation.
  • 1 is a conceptual diagram of a data analysis method and an analysis device according to the present invention.
  • FIG. 9 is a block diagram of a modification of the data analysis device according to the present invention.
  • the data to be analyzed in this example is three-dimensional GCMS data obtained by measurement using a gas chromatograph mass spectrometer.
  • AMDIS was used as an analysis program, and a mass spectrum purified by separating peaks of a total ion current chromatogram waveform (TICC waveform) obtained from GCMS data was converted into a substance database (substance DB).
  • the evaluation value (score) representing the degree of coincidence is calculated. This score indicates that the higher the value, the higher the reliability of the substance identification.
  • FIG. 1 is a configuration diagram of a main part of an analysis system including the data analysis device of the present embodiment
  • FIG. 2 is a flowchart relating to a data analysis method of the present embodiment.
  • the analysis system of the present embodiment includes a gas chromatograph mass spectrometer 1 and a control / processing device 3.
  • the gas chromatograph mass spectrometer 1 includes a gas chromatograph 10 and a mass spectrometer 20.
  • liquid samples set in advance in the autosampler 14 are sequentially sent to the injector 13 and injected from the injector 13 into the sample vaporization chamber 12. Further, a carrier gas such as helium is supplied to the sample vaporization chamber 12.
  • the sample vaporization chamber 12 is heated, and the liquid sample injected from the injector 13 is vaporized, rides on the flow of the carrier gas, and is sent to the capillary column 15 housed in the column oven 11.
  • Various compounds contained in the sample gas are separated in the time direction while passing through the capillary column 15 and sequentially introduced into the mass spectrometer 20.
  • the mass spectrometer 20 includes a vacuum chamber 23 that is evacuated by a vacuum pump (not shown), and an ion source 21, a lens electrode 22, a quadrupole mass filter 24, and an ion detector 25 are provided therein. ing.
  • the substances in the sample gas introduced from the gas chromatograph 10 are sequentially introduced into the ion source 21.
  • the ion source 21 is, for example, an EI (electron ionization) source.
  • the sample gas introduced into the ionization chamber 211 is irradiated with thermions generated by the filament 212 to generate ions.
  • the ions generated by the ion source 21 are converged by the lens electrode 22, separated by the quadrupole mass filter 24 according to the mass-to-charge ratio, and detected by the ion detector 25.
  • the output signal from the ion detector 25 is stored in the storage unit 31 included in the control / processing device 3.
  • the control / processing device 3 has a function as an analysis control unit that controls each unit of the gas chromatograph mass spectrometer 1, and a function of processing data obtained by measurement using the gas chromatograph mass spectrometer 1 and the like. ing. The latter corresponds to the data analysis device according to the present invention.
  • the control / processing device 3 includes a storage unit 31 and a substance database (substance DB) 32, and a predetermined analysis program (AMDIS in this embodiment) 33 is installed in advance.
  • the substance database 32 is a database used for identifying a substance contained in a sample in the analysis of data by the analysis program 33, and includes a substance name, a chemical formula, a theoretical retention time, a mass spectrum, and the like for each of a large number of known substances. The information is stored in association with the information.
  • the control / processing device 3 further includes, as functional blocks, a reference data acquisition unit 41, a parameter set creation unit 42, a parameter set determination unit 43, a reference data division unit 44, a learning model creation unit 45, and an unanalyzed data input reception unit 46. , An unanalyzed data dividing unit 47, an actual analysis parameter determining unit 48, an actual analysis executing unit 49, an analysis result output unit 50, and a learning model updating unit 51.
  • the entity of the control / processing device 3 is a computer, and these functional blocks are embodied by executing a data analysis program 40 installed in the control / processing device 3 in advance by a processor. Further, an input unit 6 such as a mouse and a keyboard and a display unit 7 are connected to the control / processing device 3.
  • Steps S1 to S8 in the flowchart of FIG. 2 are the procedures of an embodiment of the learning model creating method according to the present invention.
  • the reference data acquisition unit 41 When the user instructs acquisition of reference data by operation through the input unit 6, the reference data acquisition unit 41 operates each unit of the gas chromatograph mass spectrometer 1, and sequentially analyzes the samples set in advance in the autosampler 14 by the user. The sample is introduced into the gas chromatograph mass spectrometer 1, and each sample is measured. GCMS data obtained by measurement of each sample is sequentially stored in the storage unit 31 of the control / processing device 3.
  • the reference data acquisition unit 41 may read the reference data acquired in advance from the storage unit 31 in accordance with an instruction from the user. Good. Thus, a plurality of reference data are obtained (step S1).
  • 32 kinds of biological samples containing some or all of the 504 kinds of known substances were prepared, and the measurement was performed using the gas chromatograph mass spectrometer 1 for each of the 32 samples to obtain 32 GCMS data.
  • information on the retention time and mass spectrum are stored in the substance database 32.
  • the measurement time was 4 to 24 minutes after the sample injection, and during this time, 24000 scans were measured in the mass-to-charge ratio range of 80 to 500.
  • FIG. 3A shows an example of GCMS data. This is obtained by converting the peak intensity of the graph with the retention time (RT) and the mass-to-charge ratio (m / z) on two axes into a log 10 scale, and expressing the value as the difference between the cool color and the warm color.
  • 3 (a) is a monochrome display).
  • FIG. 3B shows a part of the TICC waveform (data for 40 scans) created from the GCMS data.
  • a sample containing a large number of substances as in this example a plurality of substances having the same or close retention times are often contained, and the substances are eluted from the chromatograph at the retention times of the substances or at times before and after the retention times.
  • the eluate contains a plurality of substances.
  • mass peaks derived from a plurality of substances are mixed in the mass spectrum at the retention time of the substances and at times before and after the retention times, and the peak of the TICC waveform obtained by integrating the mass peaks is also shown in FIG.
  • peaks derived from a plurality of substances are superimposed (superimposed peaks).
  • the learning parameter set creating unit 42 executes the analysis program 40 installed in the control and processing device 3 in advance to set the parameters. Is displayed on the display unit 7.
  • the analysis program of this embodiment is AMDIS.
  • AMDIS uses six analysis parameters: Component width, Omit m / z, Adjacent peak subtraction, Resolution, Sensitivity, and Shape requirement.
  • FIG. 4 shows the contents of each parameter. In the present embodiment, 45 types of parameter sets were created by lowering Adjacent ⁇ peak ⁇ subtraction from Two to One and lowering Resolution from High to Medium based on the initial value (Parameter ⁇ Set ⁇ Number: $ 0).
  • FIG. 5 shows a part (initial values and 10 types of parameter sets).
  • the execution order of the two may be reversed, or both may be performed in parallel.
  • the learning parameter set creating unit 42 may read out the learning parameter set created in advance from the storage unit 31 in accordance with an instruction from the user. Thus, a plurality of learning parameter sets are created (step S2).
  • the learning parameter set determining unit 43 analyzes each of the 32 GCMS data by AMDIS using 45 types of learning parameter sets individually. Is executed (step S3). Specifically, for each set of the GCMS data and the learning parameter set, the peak of the TICC waveform included in the GCMS data is purified, and the mass spectrum corresponding to each peak is compared with the mass spectrum stored in the substance database 32. The substance corresponding to each peak is identified by collation. Further, an evaluation value (score) is obtained from the degree of coincidence of the mass spectra. AMDIS requires a score of 1 to 100 that represents the reliability of identification and substance identification.
  • the peak is determined to be completed, and the peak having a score of less than 60 is not identified.
  • the identified peak is associated with the identified substance name, retention time, parameter set number used for analysis, and score, and stored in the storage unit 31.
  • the learning parameter set determining unit 43 determines an optimal learning parameter set for identification for each of the 32 GCMS data peaks (step S4).
  • the learning parameter set having the highest analysis result among the plurality of learning parameter sets is determined as the A learning parameter set optimal for peak identification is set. If there are a plurality of highest scores, the smaller number of the learning parameter set is set as the optimal learning parameter.
  • Such processing is performed for all peaks (peaks for which a substance has been identified), and an optimal learning parameter set is determined.
  • a certain learning parameter set was set as a learning parameter set most suitable for identifying the peak.
  • the smaller learning parameter set number is determined as the optimal learning parameter set, but the higher learning parameter set number is determined as the optimal learning parameter set. Or both may be the optimal learning parameter set.
  • the reference data dividing unit 44 extracts (divides the reference data) data for 40 scans centered on the holding time (peak top) for each peak (step S5). ). In this embodiment, 1806 pieces of data (divided reference data) are obtained.
  • FIG. 6 shows the relationship between these 1806 data and the optimal learning parameter set (a histogram indicating the number of divided reference data associated with each learning parameter set).
  • the learning model creation unit 45 selects three learning parameter sets (0, 1, 12) in which the number of associated divided reference data is 200 or more from the 45 types of learning parameter sets. Is selected as a candidate for an actual analysis parameter set used for the actual analysis, and is extracted together with the divided reference data associated with each.
  • one or a plurality of groups of divided reference data associated with one learning parameter set constitute one reference data group. That is, the learning model creation unit 45 of the present embodiment has a function as a reference data group creation unit according to the present invention. The data thus created becomes learning data used in machine learning described later (step S6).
  • the number of data required for the machine learning analysis is not limited to the present embodiment, but the number of data required depends on the type of data to be analyzed and the content of the analysis. It is desirable that at least several tens to 100 (divided) reference data are associated with each other.
  • FIG. 7 shows, for each of the three learning parameter sets, a TICC waveform (40 scan data normalized with the highest intensity) of the divided reference data associated with the learning parameter set.
  • Things. 7A shows the parameter set 0 (initial value)
  • FIG. 7B shows the parameter set 1
  • FIG. 7C shows the parameter set 12. It is difficult to find the characteristic peak shape of each group (reference data group) only by visually comparing the peak shapes of the TICC waveforms included in FIGS. 7A to 7C. .
  • many peaks have a peak top at the center, but some of them do not seem to have a peak at first glance. It can be seen that by using an analysis program such as AMDIS, peaks that are difficult to extract visually are also extracted.
  • the learning model creation unit 45 determines a total of 1,092 pieces of divided reference data (parameter set 0: 667, parameter set 1: 212) associated with each of the three learning parameter sets 0, # 1, # 12. , A parameter set 12: 213) is used as learning data to create a learning model by machine learning (step S7).
  • a learning model is constructed using a convolutional neural network (Convolution Neural Network, CNN).
  • CNN convolution Neural Network
  • CV five-fold cross validation
  • the five-split CV method is to construct a learning model using the data of CV numbers 1 to 4, apply it to the data of CV number 0, calculate the correct answer rate for the data of CV number 0, and then calculate the CV number 0,
  • the average value of the five correct answer rates obtained by building a learning model using the data of 2 to 4 and applying it to the data of CV number 1 to calculate the correct answer rate for the data of CV number 1 Is the performance of the model.
  • this since "data used for model construction" and "data used for evaluation of the constructed model" are different, it can be said that this is a technique for evaluating the prediction performance for unknown data.
  • the divided reference data is divided into five data (CV numbers 0 to 4) as shown in FIG.
  • the learning model in the present embodiment can be considered as a kind of classifier that outputs a result according to the characteristics of input data.
  • the CNN is used.
  • a learning model other than the CNN such as a deep learning, a support vector machine (Support ⁇ Vector ⁇ Machine, ⁇ SVM), and AdaBoost, may be constructed.
  • FIG. 9 is a schematic configuration diagram of a CNN network used for creating a learning model in the present embodiment.
  • one-dimensional convolution is performed.
  • a hyperparameter and a network configuration for example, Non-Patent Document 3 that maximize the CV correct answer rate were determined (Step S8).
  • the result is shown in FIG.
  • the average value of the correct answer rate obtained by this hyperparameter and the network configuration was 88.1%.
  • a prediction model that can predict the optimal parameter set with a probability of about 90% for unknown data (split unanalyzed data where the peaks are extracted from the GCMS data of the sample whose content is unknown) was built.
  • 1,092 pieces of divided reference data are used as learning data.
  • the initial value (parameter set 0) of the analysis parameters of AMDIS was the optimal parameter set for 667, that is, 61.1% of the learning data.
  • a correct answer rate of 88.1% is obtained. From these comparisons, by using the learning model of the present embodiment, the possibility of selecting the optimal parameter set for data analysis and identifying the substance contained in the sample with the highest accuracy is higher than before. It can be said that.
  • the unanalyzed data input receiving unit 46 displays a screen for inputting the data to be analyzed on the display unit 7.
  • the user measures the sample set in the autosampler 14 with the gas chromatograph mass spectrometer 1 in the same manner as when acquiring the reference data, and inputs the acquired GCMS data as unanalyzed data.
  • unanalyzed data previously stored in the storage unit 31 is read and input.
  • the unanalyzed data of this example is GCMS data obtained by performing 24000 scans in a mass-to-charge ratio range of 80 to 500 during 4 to 24 minutes after the sample injection, similarly to the reference data.
  • the data to be analyzed is input as unanalyzed data (step S9).
  • the measurement conditions for the unanalyzed data need not necessarily be the same as the measurement conditions for the reference data.
  • the unanalyzed data dividing unit 47 shifts the extraction start position by, for example, 10 scans from the side where the retention time of the input unanalyzed data is short, for 40 scans. We take out the data of. Thereby, 2397 pieces of unanalyzed data are created from the unanalyzed data (step S10).
  • the actual analysis parameter determining unit 48 inputs the divided unanalyzed data one by one to the learning model as unknown data, and selects the divided unanalyzed data from the parameter sets 0, 1, and 12. Output the most suitable parameter set for data analysis.
  • the learning model determines a reference data group having the highest commonality with the characteristics of the peaks included in the divided unanalyzed data, and determines a parameter set for actual analysis corresponding to the reference data group (step S11).
  • the actual analysis execution unit 49 performs analysis by AMDIS using the parameter set selected by the learning model to purify the peaks, identifies a substance corresponding to each peak, and obtains a score (step S12).
  • the analysis result output unit 50 displays (outputs) the name, the retention time, and the score of the identified substance on the display unit 7 (Step S13). .
  • the number of the parameter set used for peak identification may be output together with these pieces of information.
  • step S12 if the retention time of the identified peak and the theoretical retention time of the identified substance are different from each other by a predetermined time (for example, 0.25 minutes) or more, the identification result is discarded (or a warning message is added). ) Can be added. As a result, the possibility of erroneous identification due to accidental coincidence of mass spectra can be eliminated, and identification accuracy can be increased.
  • a predetermined time for example 0.25 minutes
  • the main purpose of the data analysis method and device in the present embodiment is to analyze the above-described unanalyzed data.
  • the data analysis device in the present embodiment further includes a learning model updating unit 51.
  • the learning model updating unit 51 Set the data to the previously described reference data.
  • the reference data is set in this way, the same processing as steps S1 to S8 described above is performed in order. Then, the hyperparameters and the network configuration of the learning model are readjusted so that the correct answer rate in the 5-split CV method is the highest, and the learning model is updated.
  • the learning model can be updated so as to be able to correspond to more various data.
  • the learning model is updated by the learning model updating unit 51 every time a predetermined number of analyzed data is accumulated, but the learning model is updated (reconfigured) every time analyzed data is generated. You may.
  • a learning model is updated by online learning (sequential learning) in which machine learning is executed using only newly added analyzed data as reference data.
  • the learning model may be updated by batch learning using both the processed data.
  • FIG. 13 schematically illustrates the concept of the data analysis method and the analysis apparatus according to the present embodiment.
  • a learning model prediction model f (x)
  • a discriminator that outputs a result f (x) corresponding to the feature of input data x
  • machine learning Create it.
  • the optimal parameter set is determined.
  • peak purification peak separation or the like
  • identification of a substance corresponding to the peak are performed, and the results (identified substance name and identification score) are output.
  • one of the learning parameter sets is set as a parameter set (actual analysis parameter set) most suitable for data to be analyzed by a learning model created by machine learning.
  • the analysis is performed by AMDIS using the selected parameter set for actual analysis. Therefore, there is no need for the user to change the value of the analysis parameter by himself / herself, and an optimum analysis result can be easily obtained with a high probability. Further, there is no difference in the analysis result depending on the skill level of the user. Further, since the learning model is updated every time a predetermined number of analyzed data is accumulated, it is possible to always analyze various data with high accuracy.
  • FIG. 14 is a block diagram of a control / processing device 3a which is a modification of the data analysis device according to the present invention.
  • the same components as those of the control / processing device 3 of the above embodiment are denoted by the same reference numerals, and the description thereof will not be repeated.
  • the control / processing device 3a of the modified example is also a personal computer, and the functional blocks shown in FIG. 14 are realized by executing the analysis program 40a.
  • a learning model (CNN) 34 corresponding to an analysis program (AMDIS in the above embodiment) is installed in advance in the control / processing device 3a, and a learning parameter set used when constructing the learning model 34 is stored. It differs from the control / processing device 3 of the above embodiment in that it is stored in the storage unit 31a.
  • This learning model 34 is obtained by transplanting the learning model 34 created by executing steps S1 to S8 described in the above embodiment, and shipping a personal computer configured as the control / processing device 3a of the modified example. Installed at the previous stage.
  • the user of the control / processing device 3a of the modified example can analyze the data using the learning model by executing only steps S9 to S13 without executing S1 to S8 of the above-described embodiment. it can.
  • the control / processing device 3a also includes a learning model updating unit 51a as in the above-described embodiment, and similarly to the above-described embodiment, every time a predetermined number of analyzed data is accumulated, the learning model updating unit 50a performs the processing.
  • the parameters and network configuration of the learning model 34 are updated as appropriate.
  • the learning model is updated by either batch learning or online learning.
  • the control / processing device 3a of the modified example updates the learning model by online learning.
  • the learning parameter set determining unit 43 is configured to determine the optimal learning parameter set for each peak.
  • the learning parameter set in which a score (evaluation value) equal to or greater than a predetermined value is obtained. All of the sets may be a parameter set suitable for analysis. Alternatively, all of the learning parameter sets in which a score equal to or higher than a certain percentage (for example, 90%) with respect to the highest score obtained for the peak having the same retention time can be set as a parameter set suitable for analysis. In these cases, the same peak data (divided reference data) is associated with a plurality of analysis parameters.
  • the divided unanalyzed data is created from the entire unanalyzed data and input to the learning model.
  • a portion where a peak (analysis target) exists is extracted from the unanalyzed data in advance
  • the divided unanalyzed data may be created only from that part. For example, using the initial values of the analysis parameters as they are, analyzing the unanalyzed data with AMDIS to extract the peaks, or using another peak detection software to identify the parts where the peaks exist from the unanalyzed data You may make it. Further, the user may specify the range in which the peak is considered to exist by himself / herself.
  • a set of one or more analysis parameter values is defined as one learning parameter set, and among the plurality of learning parameters, the most suitable parameter set for actual analysis of unanalyzed data is set. And That is, an example has been described in which one of the categories of parameter set numbers corresponding to a plurality of learning parameter sets prepared in advance is predicted. This is an “identification” approach in machine learning terms.
  • the parameter set for actual analysis can be determined by the “regression” approach.
  • the value of each analysis parameter is directly associated with a reference data group (each reference data group may be composed of only one reference data), and the value of each analysis parameter to be used in the analysis of unanalyzed data Is an approach of directly estimating.
  • the learning parameter set contains only two values (for example, 5 and 10), the unanalyzed data and each reference data group (or each reference data group) )
  • regression analysis based on the similarity (e.g., similarity of the TICC waveform), and an intermediate value (e.g., 7) that is not one of the two values as an optimal analysis parameter value for analyzing unanalyzed data. You can ask.
  • Such regression analysis can be performed individually for each of one or more analysis parameters, or can be performed for one or more analysis parameters collectively (that is, for each parameter set).
  • the case where the substance contained in the sample is identified as the three-dimensional data obtained by measuring the sample using the gas chromatograph mass spectrometer has been described, but the data analysis method and data analysis according to the present invention are described.
  • the apparatus and the method of creating a learning model can be widely used for analyzing various data.
  • Mass ++ is one of software for analyzing mass spectrometry data of a sample (see Non-Patent Document 2).
  • Mass ++ reads LCMS data obtained by measuring samples containing peptides and proteins with a liquid chromatograph mass spectrometer (including MALDI), and performs smoothing of chromatograms and mass spectra, baseline removal, peak detection, etc. Performs the analysis described above, creates a peak list of mass spectra, sends it to the database search server (Mascot server), identifies the peptide, and identifies the predicted protein from the identified peptide. Software. Similar to AMDIS, Mass ++ also requires a score (reliability score) indicating the reliability of identification of the identified peptide or protein.
  • a predetermined analysis program is used to analyze the sample.
  • the present invention can also be applied to an analysis such as identifying a substance contained in a sample. Further, it can be used for analysis of data obtained by a nuclear magnetic resonance apparatus (NMR), a near-infrared optical brain imaging apparatus (NIRS), and the like. Furthermore, it can be used for analysis such as predicting future stock price fluctuation data from the latest stock price fluctuation data based on past stock price fluctuation data.
  • NMR nuclear magnetic resonance apparatus
  • NIRS near-infrared optical brain imaging apparatus
  • the evaluation value is increased by performing analysis using the optimal analysis parameters (for example, the correct answer rate for a given question is increased, the purity of the target substance is increased, the power consumption is reduced, and the profit is increased.
  • the present invention can be applied to various data analyses, as long as it can be defined.
  • an exhaustive analysis using a plurality of learning parameter sets is performed on all of the reference data (and analyzed data), and only the learning data for which the optimal parameter set is known in advance for all peaks
  • a learning model was created by performing so-called supervised learning using a semi-supervised learning method.
  • a learning model was added using learning data obtained by adding peak data for which the optimal parameter set was unknown. Can also be created.
  • a manufacturer of a personal computer which is a control / processing device 3a of a modified example, has installed a CNN 34 for judging the quality of cells of a clone cultured in the company, and a person who purchased this CNN 34
  • it may be used to determine the quality of the cells in the undifferentiated maintenance culture. That is, when used for analyzing data acquired in an environment different from the environment in which the CNN 34 was created, the learning model update unit 51a acquires the CNN 34 created for determining the quality of the cloned cell in another environment. The updated data will be updated. Even when such transfer learning is performed, it is possible to use the configurations described in the above-described embodiments and modified examples.
  • a learning model created to remove noise from image data obtained by imaging the sample with an optical microscope and detect the characteristic structure of the sample is analyzed by mass analysis of the sample using an imaging mass spectrometer. Transfer learning is also performed when applied to analysis such as detection of a characteristic structure of a sample by removing noise from the acquired data.
  • the action of changing the control parameters such as the voltage and the temperature of the mass spectrometer
  • the action of adjusting the control parameter so as to maximize the reward using the peak intensity obtained as a result of the measurement as a reward is learned.
  • the method and apparatus according to the present invention can be used.
  • Lens electrode 23 Quadrupole mass filter 23 Vacuum chamber 24 Ion detector 3, 3a Control / processing device 31, 31a Storage unit 32 Material database 33 Analysis program 34 CNN 40, 40a Data analysis program 41 Reference data acquisition unit 42 Learning parameter set creation unit 43 Learning parameter set determination unit 44 Reference data division unit 45 Learning model creation unit 46 Unanalyzed data input receiving unit 47 unanalyzed data division unit 48 actual analysis parameter set determination unit 49 actual analysis execution unit 50 analysis result output units 51 and 51a learning model update unit 6 input unit 7 display unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

解析対象のデータを解析パラメータを用いて解析プログラム33で解析する方法であって、複数の学習用パラメータセットを作成するステップS2と、複数の参照データについて前記複数の学習用パラメータセットを用いて解析プログラムによる解析を実行して解析に適した学習用パラメータセットを決定するステップS4と、前記複数の学習用パラメータセットのそれぞれに解析に適しているとされた参照データのグループである参照データ群を対応付けるステップS7と、未解析データを入力するステップS9と、該未解析データと各参照測定データ群の共通性と各参照データ群に対応付けられた学習用パラメータセットから1乃至複数の解析パラメータのそれぞれの値を求めることにより実解析用パラメータセットを決定するステップS11と、実解析用パラメータセットを用いて解析プログラムにより未解析データの解析を実行するステップS12とを含む。

Description

データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
 本発明は、分析装置を用いて試料を測定することにより得られた測定データをはじめとする各種のデータを解析プログラムにより解析する際に用いられる技術に関する。
 試料に含まれる目的化合物を同定したり定量したりするために、クロマトグラフと質量分析装置を組み合わせたクロマトグラフ質量分析装置が広く用いられている。クロマトグラフ質量分析装置ではクロマトグラフのカラムに試料を導入し、保持時間(Retention Time, RT)の違いにより試料に含まれる複数の物質を分離し質量分析装置(Mass Spectrometry, MS)に導入する。クロマトグラフで分離された物質が質量分析装置に導入される時間間隔は、質量分析装置におけるスキャン測定の速度(質量走査速度)に応じて決められる。質量分析装置に導入された物質はイオン化された後、質量電荷比(m/z)に応じて分離され検出される。これにより、保持時間(RT)と質量電荷比(m/z)の二軸に対してイオンの検出強度をプロットした三次元データが得られる。この三次元データにおいて、各質量電荷比におけるイオンの検出強度(信号強度)は、その質量電荷比を有するイオンを生成する物質の、試料中の含有量を反映している。
 この三次元データの保持時間(RT)軸の各点において質量電荷比(m/z)軸の方向の信号強度を積算することによりトータルイオンカレント(Total Ion Current, TIC)が得られる。そして、トータルイオンカレントを保持時間軸に沿ってプロットすることによりトータルイオンカレントクロマトグラム(Total Ion Current chromatogram, TICC)が得られる。
 試料に含まれる各物質がクロマトグラフのカラムで互いに十分に分離されていれば、TICCの波形(TICC波形)には、その物質の保持時間の位置に単峰性の釣鐘型のピークが現れる。その保持時間におけるマススペクトルから物質を同定することで、その保持時間に溶出した物質が何であるかを特定することができる。物質の同定は、同定対象のマススペクトルと、データベース(Data Base, DB)に保存されている既知物質の実測マススペクトルもしくは理論マススペクトルとを比較することにより行われる。その比較項目は、マスピークが存在する質量電荷比(m/z)値、そのマスピークの強度などである。マススペクトルの一致度(スコア)により、物質の同定結果がどの程度の信頼性を有するかを定量的に評価することができる。また、TICC波形上のピークの面積や高さから、クロマトグラフにより分離された各試料の量を推定することができる。
 しかし、保持時間が同じあるいは近い複数の物質が試料に含まれていると、それらの物質の保持時間やその前後の時間にクロマトグラフから溶出する溶出物に複数の物質が混在してしまう。すると、当該保持時間やその前後の時間におけるマススペクトルには複数の物質に由来するマスピークが混在し、それらのマスピークを積算することにより得られるTICC波形のピークも複数の物質に由来するピークが重畳したものになる。通常は、TICC波形に現れる単峰性のピークのピークトップの保持時間に何らかの物質が溶出したと考えるが、重畳ピークになっていると、ピークの形がいびつであったり、大きい単峰性ピークに小さい単峰性ピークが埋もれてしまっていたり、あるいはピークが多峰性になってしまったりする。こうした場合、クロマトグラフからの溶出物に単一の物質しか含まれていない場合に得られるはずの単峰性のピークのピークトップにあたる保持時間を正しく求めることができない。また、測定データにノイズが含まれていたり、信号強度にベースライン成分が含まれていたりすると、状況はより複雑になり、試料に少量しか含まれていない物質に由来する小さなTICCピークの保持時間を求めることがより困難になる。
 そこで、信号処理や統計処理等によって重畳ピークを分離し、一つのマススペクトルに単一の物質に由来するマスピーク群しか含まれないようにTICCピークを純化するピーク分離(Peak Deconvolution)を行う。こうしてTICCピークを純化すると、測定データのTICC波形にどのようなTICCピークが重畳していたのかを推定することができる。多くの場合、ピーク分離を実行するために専用の解析プログラムが用いられる。ガスクロマトグアフィー/質量分析(GC/MS)で得られた測定データ(GCMSデータ)のピークを純化するために用いられる代表的な解析プログラムとして、アメリカ国立標準技術研究所(National Institute of Standards and Technology, NIST)から提供されているAMDIS(Automated Mass Spectral Deconvolution and Identification System)が知られている(非特許文献1参照)。AMDISでは、ピークを純化するために6つの解析パラメータ(ピーク幅、除外質量電荷比、近傍ピークの数、ピーク間隔、ピーク検出感度、及びモデル適合度)が用いられる。これらの解析パラメータにはそれぞれ初期値が用意されており、多くの場合、解析にはその初期値がそのまま用いられる。
特開2007-41234号公報
"Automated Mass Spectral Deconvolution & Identification System",[online],The National Institute of Standards and Technology (NIST) ,[平成30年6月22日検索],インターネット<URL:https://chemdata.nist.gov/mass-spc/amdis/explanation.html> "Mass++",[online],株式会社島津製作所,[平成30年6月22日検索],インターネットURL:https://www.shimadzu.co.jp/aboutus/ms_r/masspp.html 岡谷貴之著「深層学習(機械学習プロフェッショナルシリーズ)」講談社、2015年4月
 AMDISにおける解析パラメータの初期値は様々なGCMSデータに対して汎用的に用いることを想定して設定された値であり、GCMSデータの状態(重畳ピークの形状、質量走査速度、ノイズの状態等)によっては、必ずしも適切なものであるとは限らない。すなわち、解析対象のGCMSデータのピーク分離に初期値をそのまま用いても十分にピークを分離することができない場合がある。こうした場合には、使用者が各解析パラメータの値を初期値から変更してピークを分離し、解析者が妥当であると考える結果が得られるまで、例えば十分な信頼性でもって物質が同定される、つまり十分に高いスコアが得られるまでパラメータ調整を行う。この際に、解析者は自らが培ってきた勘や経験でもってパラメータ調整を行うため、解析の結果が使用者の能力や感覚に依存したものとなる、つまり解析者の熟練度によって得られる結果にばらつきが生じる、という問題があった。また、パラメータ調整を繰り返す必要があることから解析作業に手間と時間がかかるという問題があった。
 ここでは従来技術の一例として、GCMSデータをAMDISにより解析する場合を説明したが、他の分析装置を用いた試料の測定により得られた測定データ等の様々なデータを、何らかの解析パラメータを用いて解析する際に上記同様の問題があった。
 本発明が解決しようとする課題は、分析装置を用いて試料を測定することにより得られた測定データなどの各種のデータを解析パラメータを用いて解析する際に、簡便に適切な解析結果を得ることができる技術を提供することである。
 上記課題を解決するために成された本発明の第1の態様は、解析対象のデータを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する方法であって、
 前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
 複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定ステップと、
 前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
 未解析データを入力する未解析データ入力ステップと、
 所定の基準により前記未解析データと各参照データ群の共通性を求め、該共通性に基づいて各参照データ群に対応付けられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する実解析用パラメータセット決定ステップと、
 前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析ステップと
 を含むことを特徴とする。
 本発明に係るデータの解析方法では、まず、データの解析に使用する1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する。そして、複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する。これは、例えば、複数の参照データのそれぞれについて、作成した複数の学習用パラメータセットのそれぞれを用いて解析プログラムによる解析を実行することにより得られた解析結果に対する妥当性を表す評価値を求め、その評価値が最も高いものを最適な学習用パラメータセットとすることにより行うことができる。あるいは、評価値が予め決められた基準値以上であるものを解析に適した学習用パラメータセットとしてもよい。前者の場合は参照データのそれぞれについて、その解析に適した1つの学習用パラメータセットが決定され、後者の場合は1乃至複数の学習用パラメータセットが決定される。
 続いて、複数の学習用パラメータセットのそれぞれについて、学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を作成する。これにより解析に適した学習用パラメータセットが共通する参照データがグループ化され、未解析データの解析に用いるパラメータセットを決める元となる情報が得られる。先の学習用パラメータセット決定ステップにおいて、1つの参照データについて解析に適したパラメータセットを複数決定した場合、その参照データが複数の参照データ群に含まれるようにしてもよい。
 次に、未解析データを入力する。そして、所定の基準により未解析データと参照データ群の共通性に基づいて、前記1乃至複数の解析パラメータのそれぞれについて未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する。この所定の基準は解析対象データの種類によって異なるが、例えば解析対象データがGCMSデータのTICC波形である場合、未解析データのピークに近い形状のピークを有する参照データから構成される参照データ群を、共通性が高い参照データ群とすることができる。
 実解析用パラメータセット決定ステップは、例えば、未解析データと最も高い共通性を持つ参照データ群を決定し、該参照データ群に対応する学習用パラメータセットをそのまま実解析用パラメータセットとすることにより行うことができる。このように、複数の学習用パラメータセットに付されたパラメータセット番号の中の1つを予測する場合は、最も共通性が高い参照データ群に対応付けられているパラメータセット番号を選択する。これは前記1乃至複数のパラメータの組を1つの「パラメータセット」として扱い、どのパラメータセットで解析すべきかを考える場合である。これは機械学習の用語でいえば「識別」のアプローチである。
 また、実解析用パラメータセット決定ステップを行う別の方法として、参照データ群(各参照データ群は1つの参照データのみで構成されてもよい)に各解析パラメータの値を直接対応付け、未解析データの解析で用いるべき各解析パラメータの値を推定するというアプローチも考えられる。これは機械学習の用語でいれば「回帰」のアプローチである。回帰の場合、ある1つの解析パラメータについて、学習用パラメータセットにその値が2つ(例えば5と10)しか含まれていない場合であっても、未解析データと各参照データ群(あるいは各参照データ)との共通性(例えばTICC波形の類似性)に基づく回帰分析を行い、前記2つの値のいずれでもない中間的な値(例えば7)を未解析データの解析に最適な解析パラメータの値として求めることができる。こうした回帰分析は、1乃至複数の解析パラメータについて個別に行うこともでき、あるいは1乃至複数の解析パラメータについて一括して(即ちパラメータセット単位で)行うこともできる。最後に、上記の回帰分析により求めた1乃至複数の解析パラメータの値で構成された実解析用パラメータセットを用いて解析プログラムにより未解析データの解析を実行する。
 このように、本発明に係るデータ解析方法では、未解析データの解析に先立ち、複数の参照データを用いた解析により、解析に適した学習用パラメータセットが共通する1乃至複数の参照データを参照データ群としてグループ化しておく。そして、未解析データと参照データ群の共通性に基づいて、該参照データ群に対応づけられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求め、それらを実解析用パラメータセットとして決定する。そのため、使用者が自ら解析パラメータの値を設定する必要がなく、また未解析データの解析に適したパラメータセットが一義的に決まるため、簡便に適切な解析結果を得ることができる。また、使用者の熟練度によって得られる結果にばらつきが生じることもない。
 上記課題を解決するために成された本発明の第2の態様は、解析対象のデータを所定の解析プログラムにより解析する際に使用する1乃至複数の解析パラメータの値を決定するために用いられる学習モデルを作成する方法であって、
 前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
 複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定ステップと、
 前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
 前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成ステップと
 を有することを特徴とする。
 本発明の第2の態様であるデータ解析用学習モデルの作成方法では、第1の態様のデータ解析方法と同様の学習用パラメータ作成ステップ、学習用パラメータセット決定ステップ、及び参照データ群作成ステップを行うことにより作成される、複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する。近年、機械学習の様々な手法が提案されており(例えば特許文献1)、前記機械学習には、例えばディープラーニング(Deep Learning)、そのディープラーニングの一形態である畳み込みニューラルネットワーク(Convolution Neural Network, CNN)、サポートベクターマシン(Support Vector Machine, SVM)、アダブースト(AdaBoost)を用いることができる。こうして作成した学習モデルは、本発明の第1の態様であるデータ解析方法の実解析用パラメータセット決定ステップにおいて好適に用いることができる。
 さらに、上記課題を解決するために成された本発明の第3の態様は、解析対象のデータを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する装置であって、
 前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成部と、
 複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定部と、
 前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定部により当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成部と、
 未解析データを入力する未解析データ入力部と、
 所定の基準により前記未解析データと各参照データ群の共通性を求め、該共通性に基づいて各参照データ群に対応付けられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する実解析用パラメータセット決定部と、
 前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析実行部と
 を備えることを特徴とする。
 分析装置を用いた試料を測定することにより得られた測定データなどの各種データを解析パラメータを用いて解析する際に、本発明に係るデータ解析方法、データ解析装置、あるいはデータ解析用の学習モデル作成方法を用いることにより、簡便に適切な解析結果を得ることができる。
本発明に係るデータ解析装置の一実施例である制御・処理装置をガスクロマトグラフ質量分析装置と組み合わせた分析システムの要部構成図。 本発明に係るデータ解析方法の一実施例に関するフローチャート。 ガスクロマトグラフ質量分析装置を用いた試料の測定により得られる三次元データのヒートマップの例(a)、及びトータルイオンカレントクロマトグラムの例(b)。 AMDISで用いられる解析パラメータの説明。 本実施例において用いられる学習用パラメータセットの一部。 本実施例において複数の学習用パラメータセットを用いた分割参照データの解析結果を表すヒストグラム。 本実施例において用いた3種類の学習用パラメータセットのそれぞれについて、その学習用パラメータセットが解析に最適であったピークを重ね描きしたもの。 機械学習により作成した学習モデルの評価に用いたデータの構成。 本実施例における機械学習において用いた畳み込みニュートラルネットワークの構造を説明する図。 本実施例において最も正答率が高くなった、畳み込みニュートラルネットワークのハイパーパラメータ及びネットワーク構成。 本実施例の学習モデルにより最適なパラメータセットを選択する解析処理を5分割交差検証により評価した際の正答率。 未解析データから分割未解析データを取り出す処理を説明する図。 本発明に係るデータ解析方法及び解析装置の概念図。 本発明に係るデータ解析装置の変形例のブロック図。
 本発明に係るデータ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法の実施例について、以下、図面を参照して説明する。
 本実施例における解析対象のデータは、ガスクロマトグラフ質量分析装置を用いた測定により取得された三次元のGCMSデータである。また、本実施例では、解析プログラムとしてAMDISを使用し、GCMSデータから得られるトータルイオンカレントクロマトグラムの波形(TICC波形)のピークを分離することにより純化したマススペクトルを、物質データベース(物質DB)に予め保存されている各種の既知の物質のマススペクトルと照合して、試料に含まれる物質を同定するとともに、その一致度を表す評価値(スコア)を算出する。このスコアは、その値が高いほど物質同定の信頼性が高いことを表す。
 図1は本実施例のデータ解析装置を含む分析システムの要部構成図、図2は本実施例のデータ解析方法に関するフローチャートである。本実施例の分析システムは、ガスクロマトグラフ質量分析装置1と制御・処理装置3を備えている。
 ガスクロマトグラフ質量分析装置1は、ガスクロマトグラフ10と質量分析計20から構成される。ガスクロマトグラフ10では、オートサンプラ14に予めセットされた液体試料が順次、インジェクタ13に送られ、インジェクタ13から試料気化室12に注入される。また、試料気化室12にはヘリウム等のキャリアガスが供給される。試料気化室12は加熱されており、インジェクタ13から注入された液体試料は気化してキャリアガスの流れに乗り、カラムオーブン11に収容されたキャピラリカラム15に送り込まれる。試料ガスに含まれる各種の化合物はキャピラリカラム15を通過する間に時間方向に分離され、質量分析計20に順次導入される。
 質量分析計20は図示しない真空ポンプにより真空排気される真空チャンバ23を備えており、その内部にはイオン源21、レンズ電極22、四重極マスフィルタ24、及びイオン検出器25が配設されている。ガスクロマトグラフ10から導入された試料ガス中の物質は順次、イオン源21に導入される。イオン源21は例えばEI(電子イオン化)源であり、イオン化室211に導入された試料ガスにフィラメント212で生成された熱電子が照射されることによってイオンが生成される。イオン源21で生成されたイオンは、レンズ電極22により収束され四重極マスフィルタ24で質量電荷比に応じて分離されたあと、イオン検出器25で検出される。イオン検出器25からの出力信号は制御・処理装置3が有する記憶部31に保存される。
 制御・処理装置3は、ガスクロマトグラフ質量分析装置1の各部を制御する分析制御部としての機能と、該ガスクロマトグラフ質量分析装置1等を用いた測定により得られたデータを処理する機能を有している。後者が本発明に係るデータ解析装置に対応する。制御・処理装置3は記憶部31と物質データベース(物質DB)32を備えており、また所定の解析プログラム(本実施例ではAMDIS)33が予めインストールされている。物質データベース32は、解析プログラム33によるデータの解析において試料に含まれる物質を同定するために用いられるデータベースであり、多数の既知の物質のそれぞれについて物質名、化学式、理論保持時間、マススペクトル等の情報が対応付けられて保存されている。
 制御・処理装置3は、さらに、機能ブロックとして、参照データ取得部41、パラメータセット作成部42、パラメータセット決定部43、参照データ分割部44、学習モデル作成部45、未解析データ入力受付部46、未解析データ分割部47、実解析用パラメータ決定部48、実解析実行部49、解析結果出力部50、学習モデル更新部51を備えている。制御・処理装置3の実体はコンピュータであり、これらの機能ブロックは、制御・処理装置3に予めインストールされたデータ解析用プログラム40をプロセッサで実行することにより具現化される。また、制御・処理装置3にはマウスやキーボード等の入力部6と表示部7が接続されている。
 次に、本実施例においてGCMSデータを解析する手順を、図2のフローチャートを参照して、実際の解析例とともに説明する。なお、図2のフローチャートにおけるステップS1~ステップS8は本発明に係る学習モデルの作成方法の一実施形態の手順である。
 使用者が入力部6を通じた操作により参照データの取得を指示すると、参照データ取得部41は、ガスクロマトグラフ質量分析装置1の各部を動作させ、使用者が予めオートサンプラ14にセットした試料を順にガスクロマトグラフ質量分析装置1に導入し、各試料を測定する。各試料の測定により得られたGCMSデータは順次、制御・処理装置3の記憶部31に保存される。ここでは実際に試料を測定することにより参照データを取得する場合を説明したが、使用者による指示に従って、参照データ取得部41が事前に取得された参照データを記憶部31から読み出すようにしてもよい。こうして複数の参照データが取得される(ステップS1)。
 本実施例では、504種類の既知の物質のうちの一部又は全部を含む生体試料を32種類作製し、それぞれについてガスクロマトグラフ質量分析装置1を用いて測定を実行することにより32個のGCMSデータを取得した。これら504種類の既知物質については、いずれも保持時間とマススペクトルの情報が物質データベース32に保存されている。また、測定時間は、試料注入後4~24分の間とし、この時間内に質量電荷比範囲80~500において24000scanの測定を行った。
 図3(a)に、GCMSデータの一例を示す。これは、保持時間(RT)と質量電荷比(m/z)を二軸とするグラフのピーク強度をlog10スケールに変換して、その値を寒色~暖色の差で表現したもの(ただし図3(a)ではモノクロ表示)である。また、このGCMSデータから作成したTICC波形の一部(40scan分のデータ)を図3(b)に示す。本実施例のように多数の物質を含む試料の場合、保持時間が同じあるいは近い複数の物質が含まれていることが多く、それらの物質の保持時間やその前後の時間にクロマトグラフから溶出する溶出物には複数の物質が混在する。その結果、それらの物質の保持時間やその前後の時間におけるマススペクトルに複数の物質に由来するマスピークが混在することになり、それらのマスピークを積算することにより得られるTICC波形のピークも、図3(b)に示すように複数の物質に由来するピークが重畳したもの(重畳ピーク)となる。
 使用者が入力部6を通じた操作により学習用パラメータセットの作成を指示すると、学習用パラメータセット作成部42は、予め制御・処理装置3にインストールされている解析プログラム40を実行し、パラメータを設定する画面を表示部7に表示する。本実施例の解析プログラムはAMDISである。AMDISでは、Component width, Omit m/z, Adjacent peak subtraction, Resolution, Sensitivity, Shape requirementという6つの解析パラメータが用いられる。図4に各パラメータの内容を示す。本実施例では、初期値(Parameter Set Number: 0)を基準としてAdjacent peak subtractionをTwoからOneに下げる、ResolutionをHighからMediumに下げるなどして45種類のパラメータセットを作成した。図5にその一部(初期値及び10種類のパラメータセット)を示す。ここでは、参照データの取得後に、学習用パラメータセットを作成する順で説明したが、両者の実行順は逆であってもよく、また両者を並行して行ってもよい。また、使用者による指示に従って、学習用パラメータセット作成部42が事前に作成された学習用パラメータセットを記憶部31から読み出すようにしてもよい。こうして複数の学習用パラメータセットが作成される(ステップS2)。
 参照データが取得され、また学習用パラメータセットが作成されると、学習用パラメータセット決定部43は、32個のGCMSデータのそれぞれについて、45種類の学習用パラメータセットを個別に用いてAMDISによる解析を実行する(ステップS3)。具体的には、GCMSデータと学習用パラメータセットの組ごとに、そのGCMSデータに含まれるTICC波形のピークを純化し、各ピークに対応するマススペクトルを物質データベース32に保存されているマススペクトルと照合することにより各ピークに対応する物質を同定する。さらに、マススペクトルの一致度から評価値(スコア)を求める。AMDISでは同定、物質の同定の信頼度を表す1~100のスコアが求められる。本実施例では、スコアが60以上であればピークを同定完了とし、スコアが60未満のピークは未同定とした。同定を完了したピークについては、同定された物質名、保持時間、解析に用いたパラメータセット番号、及びスコアが対応付けられ記憶部31に保存される。
 学習用パラメータセット決定部43は、次に、32個のGCMSデータのピークのそれぞれについて、同定に最適な学習用パラメータセットを決定する(ステップS4)。同じ保持時間のピークが複数の学習用パラメータセットを用いた解析により同定された場合には、それら複数の学習用パラメータセットのうち、最もスコアが高い解析結果が得られた学習用パラメータセットをそのピークの同定に最適な学習用パラメータセットとする。また、最高スコアが複数ある場合は、学習用パラメータセットの番号が小さい方を最適な学習用パラメータとする。こうした処理を全てのピーク(物質が同定されたピーク)について行い、最適な学習用パラメータセットを決定する。ただし、ピークの保持時間と、同定された物質の理論保持時間の差が0.25分よりも大きい場合には、スコアに関わらず誤同定とし、次にスコアが大きく保持時間の差が0.25分以下である学習用パラメータセットをそのピークの同定に最適な学習用パラメータセットとした。
 本実施例では、最高スコアが複数存在する場合に学習用パラメータセットの番号が小さい方を最適な学習用パラメータセットとしたが、学習用パラメータセットの番号が大きい方を最適な学習用パラメータセットとしてもよく、あるいは両方を最適な学習用パラメータセットとしてもよい。
 全てのピークについて最適な学習用パラメータセットが決まると、参照データ分割部44は、各ピークについて保持時間(ピークトップ)を中心とする40scan分のデータを抽出(参照データを分割)する(ステップS5)。本実施例では、これにより1806個のデータ(分割参照データ)を得た。図6にこれら1806個のデータと最適な学習用パラメータセットの関係(各学習用パラメータセットに対応付けられた分割参照データの数を示すヒストグラム)を示す。
 本実施例では、解析パラメータの初期値が最適な学習用パラメータセットであるとされた分割参照データが667個、それ以外の学習用パラメータセットが最適な解析パラメータセットであるとされた分割参照データが1,139個となった。このように、多くの場合、解析パラメータの初期値が最適ではないデータが一定の割合で存在している。
 次に、学習モデル作成部45が、45種類の学習用パラメータセットの中から、対応付けられている分割参照データの数が200個以上である3つの学習用パラメータセット(0, 1, 12)を、実解析に使用する実解析用パラメータセットの候補として選択し、それぞれに対応付けられた分割参照データとともに抽出する。ここで1つの学習用パラメータセットに対応付けられた1乃至複数の分割参照データのグループが1つの参照データ群を構成する。即ち、本実施例の学習モデル作成部45は、本発明に係る参照データ群作成部としての機能を有している。こうして作成されたデータが後述する機械学習で使用される学習データとなる(ステップS6)。200個よりも少ない数の分割参照データが対応付けられた学習用パラメータセットを抽出することも可能であるが、対応付けられている分割参照データの数が少なすぎると、それらに共通する特徴的な部分(例えばピークの形状)を機械学習で特定することが困難である。本実施例に限らず機械学習解析のためにはデータ数がいくつ必要であるかは、解析対象のデータの種類や解析の内容などによって異なるが、一般に、この段階で抽出する学習用パラメータセットには、少なくとも数10~100程度の(分割)参照データが対応付けられていることが望ましい。
 図7は、3つの学習用パラメータセットのそれぞれについて、その学習用パラメータセットに対応付けられた分割参照データのTICC波形(40scan分のデータを、その最高強度で規格化したもの)を重ね描きしたものである。図7(a)はパラメータセット0(初期値)、図7(b)はパラメータセット1、図7(c)はパラメータセット12のものである。図7(a)~(c)に含まれているTICC波形のピーク形状を相互に目視で比較するのみでは、各グループ(参照データ群)に特徴的なピークの形状を見出すことが困難である。また、多くのピークは中央にピークトップが現れているが、一見すると中央にピークが存在する事が分からないものも含まれている。AMDISのような解析プログラムを用いることで、視覚的には抽出する事が困難なピークも抽出されていることが分かる。
 次に、学習モデル作成部45は、3つの学習用パラメータセット0, 1, 12のそれぞれに対応付けられた、合計1,092個の分割参照データ(パラメータセット0:667個、パラメータセット1:212個、パラメータセット12:213個)を学習データとする機械学習によって学習モデルを作成する(ステップS7)。本実施例では畳み込みニューラルネットワーク(Convolution Neural Network, CNN)を用いて学習モデルを構築した。また、その学習モデルを評価する方法として5分割交差検証(Cross Validation, CV)法を用いた。5分割CV法とは、CV番号1~4のデータを用いて学習モデルを構築し、CV番号0のデータに適用してCV番号0のデータに対する正答率を算出する、次にCV番号0, 2~4のデータを用いて学習モデルを構築し、CV番号1のデータに適用してCV番号1のデータに対する正答率を算出する、という処理を順に行って求めた5つの正答率の平均値をモデルの性能とするものである。こうした交差検証法では、「モデル構築に用いたデータ」と「構築モデルの評価に用いるデータ」が異なるため、未知データに対する予測性能を評価する手法といえる。本実施例では、図8に示すように分割参照データを5つのデータ(CV番号0~4)に分割した。
 本実施例における上記学習モデルは、入力されたデータの特徴に応じた結果を出力する一種の識別器と捉えることができる。本実施例ではCNNを用いたが、その他、CNN以外のディープラーニング、サポートベクターマシン(Support Vector Machine, SVM)、アダブースト(AdaBoost)などを用いて学習モデルを構築することもできる。
 図9は、本実施例において学習モデルの作成に用いたCNNのネットワークの概略構成図である。本実施例では一次元の畳み込みを行った。そして、この学習モデルを元に、最もCV正答率が高くなるハイパーパラメータ及びネットワーク構成(例えば非特許文献3)を決定した(ステップS8)。その結果を図10に示す。図11に示すとおり、このハイパーパラメータとネットワーク構成により得られた正答率の平均値は88.1%であった。言い換えると、未知データ(含有物質が不明である試料のGCMSデータからピークが存在する部分を抽出した、分割未解析データ)に対して、最適なパラメータセットを約90%の確率で予測できる予測モデルが構築された。
 本実施例では、上記のとおり、学習データとして1,092個の分割参照データを用いている。このうち、AMDISの解析パラメータの初期値(パラメータセット0)が最適なパラメータセットであるものは667個、つまり学習データのうちの61.1%であった。これに対し、本実施例で作成した学習モデルでは88.1%の正答率が得られている。これらの比較から、本実施例の学習モデルを用いることにより、データの解析に最適なパラメータセットを選択して最も高い精度で試料に含まれる物質を同定することができる可能性が従来よりも高まったといえる。
 学習モデル作成部45により学習モデルが作成されると、未解析データ入力受付部46は、解析対象のデータを入力させる画面を表示部7に表示する。使用者は、参照データの取得時と同様に、オートサンプラ14にセットした試料をガスクロマトグラフ質量分析装置1により測定し、取得したGCMSデータを未解析データとして入力する。あるいは、既に測定済みのデータを解析する場合には、予め記憶部31に保存しておいた未解析データを読み出して入力する。本実施例の未解析データは、参照データと同様に、試料注入後4~24分の間に質量電荷比範囲80~500を24000scanして得たGCMSデータである。こうして解析対象のデータが未解析データとして入力される(ステップS9)。なお、未解析データの測定条件は、必ずしも参照データの測定条件と同じでなくてもよい。
 未解析データが入力されると、未解析データ分割部47は、図12に示すように、入力された未解析データの保持時間が短い側から例えば10scan分ずつ、取り出し開始位置をずらしながら40scan分のデータを取り出していく。これにより、未解析データから2397個の分割未解析データが作成される(ステップS10)。
 分割未解析データが得られると、実解析用パラメータ決定部48は、分割未解析データを1つずつ、未知データとして学習モデルに入力し、パラメータセット0, 1, 12の中からその分割未解析データの解析に最も適したパラメータセットを出力させる。学習モデルは、分割未解析データに含まれるピークの特徴と最も高い共通性を有する参照データ群を決定し、その参照データ群に対応する実解析用パラメータセットを決定する(ステップS11)。
 通常、1つの未解析データから生成された全ての分割未解析データにピークが含まれているわけではなく、その一部にのみピークが存在する。ピークを含まない分割未解析データについては、そのデータと共通する特徴を有する参照データ群が存在しないため、最適なパラメータセットも存在しない。従って、こうした分割未解析データに対しては解析対象(ピーク)なしと判定し、解析対象(ピーク)が存在する分割未解析データについてのみ最適なパラメータセットを選択する。
 実解析実行部49は、学習モデルにより選択されたパラメータセットを用いてAMDISによる解析を行ってピークを純化し、各ピークに対応する物質を同定してスコアを求める(ステップS12)。実解析実行部49によりピークに対応する物質の同定が完了すると、解析結果出力部50は、同定された物質の名称、保持時間、及びスコアを表示部7に表示(出力)する(ステップS13)。これらの情報と併せて、ピークの同定に用いたパラメータセットの番号を出力するようにしてもよい。また、ステップS12において、同定されたピークの保持時間と同定された物質の理論保持時間が所定の時間(例えば0.25分)以上異なる場合に、その同定結果を廃棄する(あるいは注意喚起する表示を加える)ような構成を付加することもできる。これにより、マススペクトルの偶然の一致によって誤同定される可能性を排除し、同定精度をより高くすることができる。
 本実施例におけるデータ解析方法及び装置の主たる目的は、上述した未解析データの解析であるが、本実施例のデータ解析装置は、さらに学習モデル更新部51を備えている。
 実解析実行部49により解析された未解析データ(以下、これを「解析済データ」と呼ぶ。)が所定数(例えば30個)蓄積されると、学習モデル更新部51は、それらの解析済データを先に説明した参照データに設定する。こうして参照データが設定されると、上述したステップS1~S8と同様の処理が順に行われる。そして、5分割CV法における正答率が最も高くなるように学習モデルのハイパーパラメータとネットワーク構成が再調整され、学習モデルが更新される。このように、解析済データを順次、参照データとして用いることにより、より多様なデータに対応可能となるように学習モデルを更新することができる。ここでは、所定数の解析済データが蓄積される毎に学習モデル更新部51により学習モデルを更新する構成としたが、解析済データが発生する毎に学習モデルを更新(再構成)するようにしてもよい。ここでは新たに追加された解析済データのみを参照データとして機械学習を実行するオンライン学習(逐次学習)により学習モデルを更新する場合を例に説明したが、既に機械学習に使用した参照データと解析済データの両方を用いたバッチ学習により学習モデルを更新してもよい。
 図13は、本実施例のデータ解析方法及び解析装置の概念を模式的に示したものである。図13に示すように、本実施例では、機械学習により、入力されたデータxの特徴に応じた結果f(x)を出力する識別器としての学習モデル(予測モデルf(x))を予め作成しておく。解析対象のGCMSデータを入力するとそのGCMSデータから分割未解析データが作成され、さらに該分割未解析データから作成されたトータルイオンカレントクロマトグラムの波形データが学習モデルに入力され、最適なパラメータセットが出力される。そして、これを解析パラメータとしてAMDISによるピーク純化(ピーク分離等)とそのピークに対応する物質の同定が行われ、それらの結果(同定物質名と同定スコア)が出力される。
 本実施例のデータ解析方法やデータ解析装置では、機械学習によって作成された学習モデルによって、学習用パラメータセットのうちの1つが解析対象のデータに最も適したパラメータセット(実解析用パラメータセット)として選択され、その実解析用パラメータセットを用いてAMDISによる解析が行われる。そのため、使用者が自ら解析パラメータの値を変更する必要がなく、簡便に高い確率で最適な解析結果を得ることができる。また、使用者の熟練度によって解析結果に差が生じることもない。さらに、解析済データが所定数蓄積される毎に学習モデルが更新されていくため、常に高い精度で多様なデータを解析する事ができる。
 次に、本発明に係るデータ解析装置の変形例を説明する。上記実施例のデータ解析装置(制御・処理装置3)では、学習モデルの作成とデータの解析の両方を行ったが、変形例のデータ解析装置では、予め作成された学習モデルを用いてデータを解析する。
 図14は、本発明に係るデータ解析装置の変形例である制御・処理装置3aのブロック図である。上記実施例の制御・処理装置3と共通する構成要素には同一の符号を付し、適宜説明を省略する。上記実施例と同様に、変形例の制御・処理装置3aの実体もパーソナルコンピュータであり、解析用プログラム40aを実行することにより図14に記載の各機能ブロックが具現化される。
 この制御・処理装置3aには、解析プログラム(上記実施例ではAMDIS)に対応する学習モデル(CNN)34が予めインストールされており、学習モデル34を構築する際に用いられた学習用パラメータセットが記憶部31aに保存されているという点で上記実施例の制御・処理装置3と異なる。この学習モデル34は、上記実施例で説明したステップS1~S8を実行することにより作成された学習モデル34を移植したものであり、変形例の制御・処理装置3aとして構成されたパーソナルコンピュータの出荷前の段階でインストールされる。
 従って、変形例の制御・処理装置3aの使用者は、上記実施例のS1~S8を自ら実行することなく、ステップS9~S13のみを実行することにより学習モデルを用いてデータを解析することができる。
 変形例の制御・処理装置3aも上記実施例と同様に学習モデル更新部51aを備えており、上記実施例と同様に、所定数の解析済データが蓄積される毎に学習モデル更新部50aにより学習モデル34のパラメータ及びネットワーク構成が適宜に更新される。なお、上記実施例ではバッチ学習とオンライン学習のいずれかにより学習モデルの更新を行ったが、変形例の制御・処理装置3aではオンライン学習によって学習モデルが更新される。
 上記実施例は一例であって、本発明の趣旨に沿って適宜に変更することができる。
 上記実施例では、学習用パラメータセット決定部43が、各ピークについて最適な学習用パラメータセットを決定する構成としたが、予め決められた値以上のスコア(評価値)が得られた学習用パラメータセットの全てを、解析に適したパラメータセットとしてもよい。あるいは、同じ保持時間のピークについて得られた最高スコアに対して一定の割合(例えば90%)以上のスコアが得られた学習用パラメータセット全てを解析に適したパラメータセットとすることもできる。これらの場合には、同一のピークデータ(分割参照データ)が複数の解析パラメータに対応付けられることになる。
 また、上記実施例では、未解析データ全体から分割未解析データを作成して学習モデルに入力する構成としたが、未解析データから予めピーク(解析対象)が存在する部分を抽出しておき、その部分のみから分割未解析データを作成するようにしてもよい。例えば、解析パラメータの初期値をそのまま用いてAMDISにより未解析データを解析してピークを抽出したり、あるいは別のピーク検出用のソフトウェアを用いて未解析データからピークが存在する部分を特定したりするようにしてもよい。さらには、ピークが存在すると考えられる範囲を使用者が自ら特定するようにしてもよい。
 さらに、上記実施例では、1乃至複数の解析パラメータの値の組を1つの学習用パラメータセットとし、複数の学習用パラメータの中から未解析データの解析に最も適したものを実解析用パラメータセットとした。つまり、予め用意された複数の学習用パラメータセットに対応するパラメータセット番号というカテゴリーの1つを予測する場合を例に説明した。これは機械学習の用語でいえば「識別」のアプローチである。
 これに対し「回帰」のアプローチにより実解析用パラメータセットを決定することもできる。具体的には、参照データ群(各参照データ群は1つの参照データのみで構成されてもよい)に各解析パラメータの値を直接対応付け、未解析データの解析で用いるべき各解析パラメータの値を直接推定するというアプローチである。このアプローチでは、ある1つの解析パラメータについて、学習用パラメータセットに値が2つ(例えば5と10)しか含まれていない場合であっても、未解析データと各参照データ群(あるいは各参照データ)との共通性(例えばTICC波形の類似性)に基づく回帰分析を行い、前記2つの値のいずれでもない中間的な値(例えば7)を未解析データの解析に最適な解析パラメータの値として求めることができる。こうした回帰分析は、1乃至複数の解析パラメータのそれぞれについて個別に行うこともでき、あるいは1乃至複数の解析パラメータについて一括で(即ちパラメータセット単位で)行うこともできる。
 上記実施例では、ガスクロマトグラフ質量分析装置を用いた試料の測定により得られた三次元データをデータとして試料に含まれる物質を同定する場合を説明したが、本発明に係るデータ解析方法、データ解析装置、及び学習モデルの作成方法は、様々なデータの解析に広く用いることができる。
 例えば、試料の質量分析データを解析するソフトウェアの1つにMass++がある(非特許文献2参照)。Mass++は、ペプチドやタンパク質を含む試料を液体クロマトグラフ質量分析装置(MALDIを含む)により測定することにより得られたLCMSデータを読み込んで、クロマトグラムやマススペクトルのスムージング、ベースライン除去、ピーク検出などの処理を行い、マススペクトルのピークリストを作成してデータベース検索サーバ(Mascotサーバ)に送信してペプチドを同定し、同定されたペプチドから予測されるタンパク質を同定するという解析を行うことが可能なソフトウェアである。AMDISと同様に、Mass++でも同定されたペプチドやタンパク質の同定の信頼度を表すスコア(信頼度スコア)が求められる。
 Mass++を用いてLCMSデータからマススペクトルのリストを作成する際には各種の解析パラメータが用いられる。また、作成したピークリストに対応する物質の同定にも各種の解析パラメータが用いられる。従来、これらの解析パラメータの初期値をそのまま使用して解析を行うか、使用者が自らの経験に基づいて解析パラメータを変更する必要があったが、本発明を適用することにより、簡便に最適な同定結果を得ることができる。
 また、クロマトグラフや質量分析装置以外の分析装置、例えばフーリエ変換赤外分光光度計等の分光測定装置を用いた試料の測定により得られた分光スペクトルデータを所定の解析プログラムにより解析することにより試料に含まれる物質を同定する等の解析にも本発明を適用することができる。さらに、核磁気共鳴装置(NMR)、近赤外光脳機能イメージング装置(NIRS)等により得られたデータの解析にも用いることができる。さらに、過去の株価の変動データを元に、直近の株価の変動データから未来の株価の変動データを予測する等の解析にも用いることが可能である。即ち、最適な解析パラメータを用いて解析を行うことにより評価値が高くなる(例えば、与えられた問題に対する正答率が高くなる、目的物質の純度が上がる、消費電力が少なくなる、収益が大きくなる)ことを定義可能である限りにおいて、種々のデータ解析に本発明を適用することができる。
 上記実施例では、参照データ(及び解析済データ)の全てについて複数の学習用パラメータセットを用いた網羅的な解析を実行し、全てのピークについて最適なパラメータセットが事前に分かっている学習データのみを用いる、いわゆる教師あり学習を行うことにより学習モデルを作成したが、こうした参照データに加えて、最適なパラメータセットが不明であるピークのデータを追加した学習データを用いる半教師あり学習により学習モデルを作成することもできる。
 上記実施例及び変形例では、機械学習の手法としてバッチ学習とオンライン学習を用いる場合を説明したが、その他、転移学習(学習モデルが作成されたドメインと異なるドメインに属する学習データを用いて学習モデルを追加で学習するもの)や強化学習(入力に対する出力を明示的に示す教師が存在しない代わりに、一連の行動に対する結果の良し悪しの評価としての報酬が与えられるものであり、行動と結果の情報を更新しながら試行錯誤により報酬が最大化する行動を学習するもの)など、様々な手法を用いることができる。
 例えば、変形例の制御・処理装置3aであるパーソナルコンピュータの製造者が、その会社で培養したクローンの細胞の良否の判定を行うためのCNN34をインストールしており、これを購入した者が、クローン細胞の良否の判定に加えて未分化維持培養の細胞の良否の判定にも用いるといった場合が考えられる。つまり、CNN34が作成された環境とは別の環境で取得されるデータの解析に用いられる場合、学習モデル更新部51aは、クローン細胞の良否の判定用に作成されたCNN34を別の環境で取得されたデータにより更新することになる。このような転移学習が行われる場合でも、上記実施例や変形例で説明した構成を用いることが可能である。また、光学顕微鏡により試料を撮像した画像データからノイズを除去して試料の特徴的な構造を検出する解析を行うために作成された学習モデルを、イメージング質量分析装置を用いた試料の質量分析により取得したデータからノイズを除去して試料の特徴的な構造を検出する等の解析に適用する場合にも転移学習が行われる。
 また、質量分析装置の電圧や温度などの制御パラメータを変化させるという行動について、測定の結果得られるピークの強度を報酬として、その報酬を最大化するように制御パラメータを調整する行動を学習するような場合にも、本発明に係る方法及び装置を用いることができる。
1…ガスクロマトグラフ質量分析装置
10…ガスクロマトグラフ部
11…カラムオーブン
12…試料気化室
13…インジェクタ
14…オートサンプラ
15…キャピラリカラム
20…質量分析部
21…イオン源
211…イオン化室
212…フィラメント
22…レンズ電極
23…四重極マスフィルタ
23…真空チャンバ
24…イオン検出器
3、3a…制御・処理装置
31、31a…記憶部
32…物質データベース
33…解析プログラム
34…CNN
40、40a…データ解析用プログラム
41…参照データ取得部
42…学習用パラメータセット作成部
43…学習用パラメータセット決定部
44…参照データ分割部
45…学習モデル作成部
46…未解析データ入力受付部
47…未解析データ分割部
48…実解析用パラメータセット決定部
49…実解析実行部
50…解析結果出力部
51、51a…学習モデル更新部
6…入力部
7…表示部

Claims (14)

  1.  解析対象のデータを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する方法であって、
     前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
     複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定ステップと、
     前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
     未解析のデータである未解析データを入力する未解析データ入力ステップと、
     所定の基準により前記未解析データと各参照データ群の共通性を求め、該共通性に基づいて各参照データ群に対応付けられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する実解析用パラメータセット決定ステップと、
     前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析ステップと
     を有することを特徴とするデータ解析方法。
  2.  さらに、
     前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成ステップ
    を有し、
     前記パラメータ選択ステップにおいて、前記学習モデルを用いてパラメータセットを決定する
     ことを特徴とする請求項1に記載のデータ解析方法。
  3.  前記機械学習が、ディープラーニング、サポートベクターマシン、アダブーストを用いたものであることを特徴とする請求項2に記載のデータ解析方法。
  4.  さらに、
     前記未解析データを前記参照データとして前記学習用パラメータセット決定ステップを実行することにより前記解析に適した学習用パラメータセットを決定し、該解析に適した学習用パラメータセットに前記未解析データを対応付けたものを学習データとして前記機械学習を行う学習モデル更新ステップ
     を有することを特徴とする請求項2に記載のデータ解析方法。
  5.  前記参照データ及び前記未解析データが、マスクロマトグラム、トータルイオンカレントクロマトグラム、マススペクトル、分光スペクトル、又は画像データであることを特徴とする請求項1に記載のデータ解析方法。
  6.  前記パラメータセット決定ステップにおいて、前記参照データを分割した分割参照データの一部又は全部について前記解析に適したパラメータセットを決定し、
     前記参照データ群作成ステップにおいて、前記分割参照データをグループ化することにより前記参照データ群を作成する
     ことを特徴とする請求項1に記載のデータ解析方法。
  7.  前記解析プログラムが、前記未解析データに含まれる1乃至複数のピークのデータを抽出し、既知の物質に関するデータベースと照合することによって該1乃至複数のピークに対応する物質を同定するものであることを特徴とする請求項6に記載のデータ解析方法。
  8.  前記未解析データに含まれる1乃至複数のピークのデータのそれぞれについて、同定された物質について前記データベースに保存されているデータとの一致度を求めることを特徴とする請求項7に記載のデータ解析方法。
  9.  前記最適パラメータ決定ステップにおける前記所定の基準が、前記一致度が最も高いものを最適な学習用パラメータセットとすることである請求項8に記載のデータ解析方法。
  10.  分析装置を用いて解析対象の試料を測定することにより得られたデータを所定の基準で分割することにより複数の分割未解析データを作成し、
     前記未解析データ入力ステップにおいて前記複数の分割未解析データの一部又は全部を前記未解析データとして入力する
     ことを特徴とする請求項6に記載のデータ解析方法。
  11.  前記分割未解析データが、1乃至複数のピークのデータである
     ことを特徴とする請求項10に記載の測定データ解析方法。
  12.  前記実解析用パラメータセット決定ステップにおいて、予め決められた基準以上の高い共通性を有する参照データ群が存在する場合にのみ、前記実解析用パラメータセットを決定することを特徴とする請求項1に記載の測定データ解析方法。
  13.  解析対象のデータを、1乃至複数の解析パラメータにそれぞれ値を設定して所定の解析プログラムにより解析する装置であって、
     前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成部と、
     複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定部と、
     前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定部により当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成部と、
     未解析測定データを入力する未解析データ入力部と、
     所定の基準により前記未解析データと各参照データ群の共通性を求め、該共通性に基づいて各参照データ群に対応付けられた学習用パラメータセットから前記1乃至複数の解析パラメータのそれぞれについて該未解析データの解析に適した値を求めることにより実解析用パラメータセットを決定する実解析用パラメータセット決定部と、
     前記実解析用パラメータセットを用いて前記解析プログラムにより前記未解析データの解析を実行する実解析実行部と
     を備えることを特徴とする測定データ解析装置。
  14.  解析対象のデータを所定の解析プログラムにより解析する際に使用する1乃至複数の解析パラメータの値を決定するために用いられる学習モデルを作成する方法であって、
     前記1乃至複数の解析パラメータのうちの少なくとも1つの値が互いに異なる複数の学習用パラメータセットを作成する学習用パラメータセット作成ステップと、
     複数の参照データのそれぞれについて、前記複数の学習用パラメータセットのそれぞれを用いて前記解析プログラムによる解析を実行し、所定の基準により解析に適した学習用パラメータセットを決定する学習用パラメータセット決定ステップと、
     前記複数の学習用パラメータセットのそれぞれに、前記学習用パラメータセット決定ステップにおいて当該学習用パラメータセットが解析に適しているとされた参照データのグループである参照データ群を対応付ける参照データ群作成ステップと、
     前記複数の学習用パラメータセットのそれぞれに前記参照データ群を対応付けたものを学習データとする機械学習により学習モデルを作成する学習モデル作成ステップと
     を備えることを特徴とするデータ解析用の学習モデル作成方法。
PCT/JP2018/031742 2018-08-28 2018-08-28 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法 WO2020044435A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020539899A JP7255597B2 (ja) 2018-08-28 2018-08-28 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
PCT/JP2018/031742 WO2020044435A1 (ja) 2018-08-28 2018-08-28 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
US17/271,628 US20210319364A1 (en) 2018-08-28 2018-08-28 Data Analyzing Method, Data Analyzing Device, and Learning Model Creating Method for Data Analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/031742 WO2020044435A1 (ja) 2018-08-28 2018-08-28 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法

Publications (1)

Publication Number Publication Date
WO2020044435A1 true WO2020044435A1 (ja) 2020-03-05

Family

ID=69644836

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/031742 WO2020044435A1 (ja) 2018-08-28 2018-08-28 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法

Country Status (3)

Country Link
US (1) US20210319364A1 (ja)
JP (1) JP7255597B2 (ja)
WO (1) WO2020044435A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021064924A1 (ja) * 2019-10-02 2021-04-08
EP4310494A4 (en) * 2021-03-19 2024-09-11 Shimadzu Corp METHOD FOR CREATING LEARNING DATA AND DEVICE FOR CREATING LEARNING DATA

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11841373B2 (en) * 2019-06-28 2023-12-12 Canon Kabushiki Kaisha Information processing apparatus, method for controlling information processing apparatus, and program
JP2023000828A (ja) * 2021-06-18 2023-01-04 富士フイルム株式会社 情報処理装置、情報処理方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003345A (ja) * 2004-05-18 2006-01-05 Omron Corp 知識作成支援装置および表示方法
JP2010191939A (ja) * 2009-01-21 2010-09-02 Omron Corp パラメータ決定支援装置およびパラメータ決定支援プログラム
JP2017189394A (ja) * 2016-04-13 2017-10-19 キヤノン株式会社 情報処理装置および情報処理システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2616164A1 (en) * 2005-07-25 2007-02-01 Metanomics Gmbh Means and methods for analyzing a sample by means of chromatography-mass spectrometry
US10153146B2 (en) * 2014-03-28 2018-12-11 Wisconsin Alumni Research Foundation High mass accuracy filtering for improved spectral matching of high-resolution gas chromatography-mass spectrometry data against unit-resolution reference databases
US10113910B2 (en) * 2014-08-26 2018-10-30 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
EP3557261B1 (en) * 2018-04-20 2021-12-08 F. Hoffmann-La Roche AG Just in time availability of analytical test results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003345A (ja) * 2004-05-18 2006-01-05 Omron Corp 知識作成支援装置および表示方法
JP2010191939A (ja) * 2009-01-21 2010-09-02 Omron Corp パラメータ決定支援装置およびパラメータ決定支援プログラム
JP2017189394A (ja) * 2016-04-13 2017-10-19 キヤノン株式会社 情報処理装置および情報処理システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021064924A1 (ja) * 2019-10-02 2021-04-08
JP7334788B2 (ja) 2019-10-02 2023-08-29 株式会社島津製作所 波形解析方法及び波形解析装置
EP4310494A4 (en) * 2021-03-19 2024-09-11 Shimadzu Corp METHOD FOR CREATING LEARNING DATA AND DEVICE FOR CREATING LEARNING DATA

Also Published As

Publication number Publication date
US20210319364A1 (en) 2021-10-14
JPWO2020044435A1 (ja) 2021-08-10
JP7255597B2 (ja) 2023-04-11

Similar Documents

Publication Publication Date Title
WO2020044435A1 (ja) データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
Li et al. Recent developments in data independent acquisition (DIA) mass spectrometry: application of quantitative analysis of the brain proteome
JP4594154B2 (ja) 少なくとも1つの成分および生成する生成物の観点でサンプルを特性付けし、特性付けデータを提供するための2つ以上の技術に基づいた少なくとも1つのサンプルの分析;方法、システムおよび指示プログラム
JP5327388B2 (ja) 分析データ処理方法及び装置
Kuich et al. Maui-VIA: a user-friendly software for visual identification, alignment, correction, and quantification of gas chromatography–mass spectrometry data
CN105518448A (zh) 色谱质谱分析用数据处理装置
WO2018134952A1 (ja) 分析データ解析方法および分析データ解析装置
Vest Nielsen et al. Full second-order chromatographic/spectrometric data matrices for automated sample identification and component analysis by non-data-reducing image analysis
EP3497709B1 (en) Automated spectral library retention time correction
JP2016061670A (ja) 時系列データ解析装置及び方法
US6944549B2 (en) Method and apparatus for automated detection of peaks in spectroscopic data
JP2016180599A (ja) データ解析装置
JP2018504600A (ja) 干渉検出および着目ピークのデコンボルーション
JP4984617B2 (ja) 質量分析データ解析方法
CN117461087A (zh) 用于鉴别质谱中的分子种类的方法和装置
US7691643B2 (en) Mass analysis method and mass analysis apparatus
Cooper et al. An assessment of AcquireX and Compound Discoverer software 3.3 for non-targeted metabolomics
CN117871761A (zh) 一种液相色谱-质谱联用分析模型及其构建方法
JPWO2008053531A1 (ja) クロマトグラフ質量分析装置
JP2023159214A (ja) 波形解析方法及び波形解析装置
JP6406456B2 (ja) 質量分析装置、質量分析方法、及び質量分析用プログラム
CN116642989A (zh) 一种靶向液-质代谢组学数据的自动定量分析方法
CN110763784B (zh) 基于数据挖掘的高纯多肽中肽段杂质分析方法
Erny et al. Algorithm for comprehensive analysis of datasets from hyphenated high resolution mass spectrometric techniques using single ion profiles and cluster analysis
JPH08129002A (ja) Sim法を用いたクロマトグラフ質量分析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18932072

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020539899

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18932072

Country of ref document: EP

Kind code of ref document: A1