WO2022027118A1 - Método automático de seleção molecular - Google Patents

Método automático de seleção molecular Download PDF

Info

Publication number
WO2022027118A1
WO2022027118A1 PCT/BR2021/050323 BR2021050323W WO2022027118A1 WO 2022027118 A1 WO2022027118 A1 WO 2022027118A1 BR 2021050323 W BR2021050323 W BR 2021050323W WO 2022027118 A1 WO2022027118 A1 WO 2022027118A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample
value
features
values
samples
Prior art date
Application number
PCT/BR2021/050323
Other languages
English (en)
French (fr)
Inventor
Rodrigo RAMOS CATHARINO
Anderson De Rezende Rocha
Luiz Claudio NAVARRO
Jeany DELAFIORI
Original Assignee
Universidade Estadual De Campinas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidade Estadual De Campinas filed Critical Universidade Estadual De Campinas
Publication of WO2022027118A1 publication Critical patent/WO2022027118A1/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Definitions

  • the present invention is an automatic method for molecular selection from data obtained from mass spectrometry to select a characteristic of interest.
  • the present invention can be applied in clinical, environmental and chemical analysis, in cosmetic and pharmaceutical industries.
  • mass spectrometry plays an important role due to its high sensitivity, ability to detect a range of molecules, molecular specificity, and flexibility to address many varied analytes on a single platform. Furthermore, this technology allows the analysis of a wide variety of molecular classes in biological and/or chemical samples.
  • Mass spectrometers are very precise devices with an absolute scale in determining the molecular mass (or rather, mass/charge) of ions measured by the device.
  • measurements are produced on an arbitrary scale, usually called abundance, which varies according to various configuration parameters such as sampling time, adjustments in the ionization device and sensitivity of the device, which can vary from sample to sample as a function of several intrinsic factors of the measurement process.
  • the present invention describes an automatic method for molecular selection from data obtained from mass spectrometry to select a characteristic of interest, the method being able to be configured for different conditions, changing the set of input data used for training the method. In this way, the method of the present invention can be adapted to deal with different identification problems with mass spectrometry analysis.
  • the proposed method allows the use of different mass spectrometers and it is not required that such spectrometers have high resolution as in some methods found in the literature.
  • the reason for this flexibility lies in the use of a paired normalization to create the models of diagnosis, allowing that the proposed method is not directly affected by the change of the mass spectrometer that is used.
  • the present invention uses a methodology for dynamic and recursive determination of more effective characteristics linked to the condition of interest.
  • This methodology enables the analysis of longer-range spectra on a charge mass scale (untargeted metabolomics) obtained by direct ionization of the sample (without chromatography and insertion of reference standards).
  • This analysis also allows the creation of paired characteristics that enable the spectral analysis model of the selection test to be used with data from different spectrometers, including those with lower cost and resolution.
  • the document titled MZmine 2 Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data (http://www.biomedcentral.com/1471-2105/11/395) describes a method for processing initial data based on signal detection and presentation of a mass spectrometry data visualization solution, where the selection and identification of biomarkers is in charge of a human specialist.
  • the proposed method analyzes one independent vector at a time while the present invention performs a clustered analysis (by cohort), automatically determining the ions related to the conditions of interest to be applied in a diagnostic system.
  • the method of Priority does not present a paired analysis capable of isolating device-specific biases and focusing on characteristics that are independent of the collection device, thus making its application in different mass spectrometers unfeasible.
  • the aforementioned precedence analyzes the samples individually and has limitations regarding the equipment that can be applied, because at no time does it analyze a group of vectors or even compare the candidates for markers for normalization/robustness in a paired way.
  • US 8515680 Analysis of transcriptomic data using similarity based modeling, describes a diagnostic method based on modeling the distribution of data from conditions of interest using auto-associative and multivariate modeling to identify ions of a condition of interest. Data are modeled via probability distributions/kernels, mainly using the Nadaraya-Watson regression method, in which the decision on the presence of a condition of interest is made via a similarity and threshold/threshold model.
  • the present invention does not need to assume any distribution analysis of the input data, thus, presenting greater robustness to possible input noise. Furthermore, given that the modeling performed in US 8515680 is done using probability distributions, it is more sensitive to different devices and, consequently, is not robust enough to operate with data from different sources, while the present invention does not present such a limitation.
  • the present invention also features a dynamic learning capable of updating the diagnosis as new data arrives, so that it does not depend on thresholds to make decisions and takes them based on the modeling of the data as a whole. , considering the conditions of interest .
  • This approach facilitates the application of the present invention to other conditions of interest, whereas the method of US 8515680 would need to recalculate the data distributions of the data and the threshold/threshold of each decision.
  • paired data analysis adds robustness to different operating scenarios and automatic determination of candidate biomarkers independent of data distribution and capture device.
  • US document 8296247 Combination machine learning algorithms for computer-aided detection, review and diagnosis, describes a method for reviewing medical data and images for diagnosis and treatment decision, using Machine Learning algorithms.
  • said prior art method uses classification and integration using "type 2 fuzzy logic” and "Bayesian probability” and is not specific for mass spectrometry data and requires specific pre-processing.
  • the document entitled BioSunMS a plug-in-based software for the management of patients Information and the analysis of peptide profiles from mass spectrometry (https://sourceforge.net/projects/biosunms/) presents the BioSunMS platform for the handling patient data and mass spectrometry data for statistical analysis and pattern recognition.
  • the aforementioned method uses algorithms of the Support Vector type.
  • SVMs for building models, has exclusive application for MALDI-TOF MS or SELDI-TOF MS and clinical proteomics, does not have a diagnostic production platform separate from development, does not use paired normalization or signal analysis and does not understand usage in the field as a classifier and diagnostics generation.
  • MetaboAnalyst a web server for metabolomic data analysis and interpretation (https://www.metaboanalyst.ca/faces/home.xfatml) describes the MetaboAnalyst platform for data pre-treatment, visualization, statistics, recognition and evaluation of patterns of metabolomic data.
  • the platform uses the Support Vector Machines (SVMs) and Random Forests (RFs) algorithm, does not have diagnostic production methods, does not use paired normalization or signal analysis, does not include independent field use as a classifier and diagnostics generation.
  • SVMs Support Vector Machines
  • RFs Random Forests
  • the document titled The Perseus computational platform for comprehensive analysis of (prote) omics data (http://www.perseus-framework.org) describes a platform for data pre-treatment, visualization, statistics, pattern recognition and evaluation.
  • SVMs Support Vector Machines
  • the present invention comprises a method that does not use statistical and multivariate analysis of the data, does not depend on decision thresholds, is robust to changes in input data and different acquisition devices, can be updated with new data and is dynamic in terms of allowing the same flow of actions to be used for different conditions of interest to from updates to method training data only. Therefore, none of the techniques described in said document together with the documents mentioned above allow to envision a method similar to the present invention, mainly with regard to robustness to different devices acquisition conditions due to the step of alignment and pairing of characteristics and in the system dynamic and adaptable to different conditions of interest.
  • the present invention is part of the field of technologies for molecular selection and identification, more precisely, in a method for processing information from mass spectrometry data to determine molecules and, thus, generate an automatic response.
  • the proposed method combines mass spectrometry data with computational analysis by artificial intelligence to generate a final answer on a condition of interest, and that final answer ranges from selection tests to quality control.
  • the proposed method comprises the following steps: a modeling, alignment and noise reduction step; a normalization step; learning stage by the artificial intelligence tool; recursive selection of discriminating features; probabilistic filtering; metabolomics analysis and data validation; domain normalization of paired features and recursive selection of paired features.
  • a modeling, alignment and noise reduction step a normalization step
  • learning stage by the artificial intelligence tool recursive selection of discriminating features
  • probabilistic filtering probabilistic filtering
  • metabolomics analysis and data validation domain normalization of paired features and recursive selection of paired features.
  • Figure 1 shows a flowchart of the proposed method in its preferred configuration.
  • Figure 2 shows an example of a graph for identifying the spectral signal.
  • Figure 3 shows the application of the method of the present invention in selection systems in their preferred configuration.
  • A represents the mass spectrometer.
  • Figure 4 shows the graph for the method of determining the most important characteristics in an application example.
  • Figure 5 shows an example of distribution analysis for two of the selected characteristics, in which (A) presents a characteristic with a positive distribution for the condition, and (B) presents a characteristic with a negative distribution for the condition in an example of application .
  • Figure 6 shows a heatmap of the relative values of the characteristics by the hit rate in the classification of positive and negative samples.
  • the characteristics with the highest probability of high values shown for the positive samples where the model was more correct in the upper left corner, there are the characteristics with the highest probability of high values shown for the positive samples where the model was more correct, in the lower right corner are the characteristics with the highest probability of high values in the negative samples, and the corresponding ones with the highest hit rate, in an application example.
  • Figure 7 shows the graph for the paired characteristics model optimization method in an application example.
  • Figure 8 shows the results of the validation of the molecular selection method generated with the 13 final paired traits, corresponding to 14 biomarker candidates in an application example.
  • Figure 9 shows the graph of all the ions identified in the method and their correlations, identifying in orange the endings used in the resulting selection model in an application example. This representation based on the characteristics chosen by the machine learning method and on their covariances aims to show an overview of the relationships helping in the process of metabolomics interpretation of the associated molecules.
  • the present invention is an automatic method for molecular selection from data obtained from mass spectrometry to select a characteristic of interest.
  • noise reduction if the median of the spectral intensities of the signals in the sample replicates is 0 (Zero), this characteristic is considered as noise;
  • the vectors must be brought to a domain of values for the intensities within the same scale so that it is possible to compare variables through the machine learning stages. For this, we use normalization by dividing all the elements of each vector by their maximum value, thus obtaining intensities in the interval [0,1] and relative to the maximum intensity of the vector. Other normalizations can be used in this step as long as maintain the relationships between the intensities of the same vector and bring the values of all variables to a common scale.
  • step (3.2) evaluation of the predictive performance of the model applied in step (3.1) with the statistical metrics resulting from the evaluation of results through metrics of Accuracy, Sensitivity, Specificity, Precision, Negative Predictive Value, FIScore and/or MCC (Matthews Correlation Coefficient) ;
  • each value corresponds to the values of the same in all samples in the set A, measured in an arbitrary scale different in each sample A i , but constant for all the variables of each sample A i ;
  • P(x j ) is the Cumulative Distribution Function (CDF) of the values x j and j in the set A p ;
  • Q(x j ) is the cumulative probability distribution function (CDF) of the values x j and j in the set A Q ;
  • characteristic B has intensity greater than A and, in particular, if the value is 0, then characteristic A has value 0;
  • characteristic A has greater intensity than B and, in particular, if the normalized value is 1, then characteristic B has intensity 0;
  • samples to be analyzed must have, at least, a significant sample number for the construction of the model.
  • types of samples should be chosen that best represent the disease/condition/comorbidity to be tested; these may or may not be pre-processed depending on the equipment used.
  • step (1) of the molecular selection method begins, which comprises the modeling, alignment and noise reduction of the data, comprising in substep (1. 1) the extraction of the spectral signals from each replicate and in substep (1.2), the identification of the spectral characteristics present in the replicates of each sample.
  • step (1. 1) the extraction of the spectral signals from each replicate and in substep (1.2), the identification of the spectral characteristics present in the replicates of each sample.
  • step (1. 1) the extraction of the spectral signals from each replicate and in substep (1.2), the identification of the spectral characteristics present in the replicates of each sample.
  • signal intensity values below 10 ppm in relation to the highest signal intensity, ie 10 -5 are automatically eliminated.
  • the threshold values are pre - defined as calculations are performed dynamically according to the signal .
  • the spectral signal passes through the substep ( 1 .
  • this signal is approximated by a signal analysis via Gaussian distribution, or other spectral signal identification techniques (for example, by random sampling by consensus, RANSAC), in order to record the metrics of intensity, signal width, resolution and m/z value (mass/charge) represented.
  • RANSAC random sampling by consensus
  • the substep (1.4) of alignment of the signals that are superimposed in the spectral range determined by the resolution of the ions (m/z) at each point of the spectrum is carried out.
  • Each signal alignment constitutes a spectral characteristic that is then verified according to the following rules that are related to substep ( 1 .
  • step (2) of sum normalization 1 is applied.
  • step 2 The feature vectors ( la ) defined in step 1 go to step (2 ) of the molecular selection method which refers to the data domain normalization that comprises the normalization of feature vectors ( la ), from so that they can be processed by machine learning algorithms in a future step.
  • Normalization (2) is done by dividing the signal intensities by the sum of all signals in the replicate. Thus, the sum of all normalized signal intensities in each replicate is equal to 1 .
  • This normalization makes each signal represent the probability of finding an ion m/z in each replicate of the spectrum. Since replicates from the same sample should be equal in terms of probabilities of ions present in the samples, except for acquisition noise. And then features that present root mean square error values (Root Mean Square Error, RMSE) above a threshold defined as an acceptable value for the noise of a feature are discarded.
  • Root Mean Square Error Root Mean Square Error
  • the vectors are normalized independently through a spectral reference.
  • the highest spectral intensity is preferably used as reference 1, dividing all the elements of each vector by the maximum intensity of the vector.
  • other normalizations can be used depending on the analyzed fluid (for example, normalization by z-norm, w-norm, t-norm, normalization by some previously known reference value, among others) of the known components present in the sample, as per example the use of an internal standard, which is not necessarily required.
  • Step (3) of the molecular selection method refers to learning with complete data, and comprises substep (3.1) of creating a predictive mathematical model based on a classification or regression algorithm, being the choice of the algorithm dependent on the context of the response to be obtained with the complete vectors, that is, with all the characteristics collected in the acquisition process.
  • the datasets are submitted to a shuffling of data in such a way that the procedures of training, validation and testing are carried out in accordance with the best practices in data science, that is, the correct separation of subsets, avoiding intersection and overlapping.
  • the training process is comprised of at least 10 rounds. This number of replications can be changed without prejudice to the method.
  • the sub-step (3 . 2 ) referring to the evaluation of the predictive performance of the model is carried out with the statistical metrics resulting from the evaluation of the results through metrics of Accuracy, Sensitivity, Specificity, Precision, Negative Predictive Value, FIScore and /or MCC (Matthews Correlation Coefficient) , being verified by the validation in several rounds not only the average of these metrics but also their respective standard deviations for the evaluation of robustness in the prediction. If the results are not satisfactory, proceed in terms of predictive robustness, replan the collection of more samples and representativeness conditions. In this way, a baseline is established in terms of results and a quality control internal to the method itself. It is worth mentioning that the present step can also be performed by several machine learning algorithms in its formulation such as Random Forests, extreme Random Forests, Gradient Tree Boosting, ADA Tree Boosting and/or PLS-DA.
  • Step (4) of the molecular selection method refers to the recursive selection of discriminating features, which comprises the substep (4.1) of identifying the most important features, or that is, more discriminants present in the sample data regarding the condition of interest to be diagnosed by the test in generation .
  • the substep process ( 4 . 1 ) of identifying the most important features is done from the recursive application of the machine learning algorithm and proceeds with the substep ( 4 . 2 ) of evaluating its ability to predict the features used in each iteration.
  • the characteristics are evaluated for each algorithm through probabilistic analyzes inherent to the algorithm, called importance determination functions, which allow the discarding of less important characteristics in each step.
  • This optimization process uses at least one of the chosen performance metrics as an associated cost function (such as, for example, Accuracy/Accuracy, Sensitivity, Specificity, Precision, Negative Predictive Value, FlScore and/or MCC).
  • the result obtained is an evaluation curve of the predictive capacity of the characteristics for the algorithm, where the most important variables for the construction of the final predictive model are then determined, normally, by the maximum point or by the inflection point of the curve.
  • Step ( 5 ) of the molecular selection method refers to the probabilistic filtering of discriminating characteristics and comprises the sub-step ( 5 . 1 ) of probabilistic evaluation of the determining characteristics, isolating those that have significant differences in terms of probabilities associated with the condition of interest. That is, the characteristics that have a greater probability of having increased values are particularly important - characteristics called positive, and which will determine biomarkers called upregulated for the condition of interest, and the characteristics that are more likely to have reduced values for the condition. of interest negative characteristics, which will determine so-called down-regulated biomarkers.
  • the characteristics selected according to the probabilistic criterion are called putative characteristics (5a), as they are candidates for biomarkers to compose the final selection model. It proceeds, then, sub-step (5.2) of evaluation of the predictive model with the putative characteristics, validating its selection capacity to then pass them on to the next step if approved according to the performance metrics achieved.
  • each value corresponds to the values the same in all samples in the set A, measured on an arbitrary scale different in each sample A i , but constant for all variables of each sample A i .
  • Step (6) of the molecular selection method refers to the metabolomic analysis and validation of the putative characteristics associated with the condition of interest and comprises the sub-step of (6.1) of biochemical validation of the characteristics associated with the condition of interest through the use databases with molecular information for metabolomics and/or lipidomics, in which said database can be updated with new information present in the literature, with molecular structural elucidation for the putative characteristics proposed by high resolution; and substep (6.2) of performing sequential mass spectrometry experiments (ms/ms) for structural confirmation, and/or validation by complementary analytical techniques, according to substep (6.3) , so that at the end of this step the metabolically validated putative characteristics (6a) are generated.
  • step (6) comprises, alternatively, the supervision of a specialist to the Artificial Intelligence method used in a synergy process in search of the most effective biomarkers to identify the condition of interest.
  • Step (7) of the molecular selection method refers to the domain normalization of the putative paired characteristics and comprises the paired normalization of the metabolically validated putative characteristics of the substep (6.1) .
  • Said step (7) is the one that gives the present method the independence of a certain spectrometer model.
  • the putative features of substep (6.1) are combined in pairs through substep (7.1) , creating an endogenous pattern to each spectrum and independent of the instrument scale, as the putative paired features (7a) measure the relationship between the intensities of features two by two.
  • Paired normalization is defined as follows:
  • the paired normalization formula one of the key points of the methodology, is made in such a way that it is possible to identify the relationship between the two paired characteristics (7a) and also to point out which of the two is the greater of them, comparing them to each other. as through the substep (7 . 2 ) .
  • paired normalization with a value in the range between 0 and 1 for two features A and B, if the value is 0 , 5, the features have equal intensity in the vector . If the normalized value is less than 0.5, then characteristic B has intensity greater than A, and in particular, if the value is 0, then characteristic A has value 0. If the normalized value is greater than 0.5, then characteristic A has greater intensity than B and, in particular, if the normalized value is 1, then characteristic B has intensity 0.
  • Step (8) of the molecular selection method refers to the recursive selection of putative paired traits (7a) and comprises the generation and evaluation of the final predictive model (8a) to be released for use in selection or to evaluate , processes in other areas of knowledge that have some condition of interest, for example, in quality control analyses.
  • the putative characteristics validated (7a) by metabolomics and normalized in pairs are used in the methodology for determining the most discriminating (paired) characteristics, in which said step (8) comprises the substeps (8.1) , (8.2) and (8.3) to submit the final candidate model through the evaluations contained in steps (3) , (4) and (5) respectively.
  • the resulting model being (8a) , of this step ( 8 ) , the model that should be used in the molecular selection ( Figure 3 ) , for example .
  • step 1 comprises the generation of feature vectors from the acquired spectra, going through a step of selection and identification of signals through Gaussian modeling, noise reduction with the elimination of disparate signals between the replicates and alignment of the signals in characteristics, according to the resolution of the equipment in each band; which results in a set of vectors organized into a data matrix which is referred to as the feature vector matrix.
  • the machine learning processes in generating and testing the models were performed in 10 rounds to determine the prediction performance metrics, with the total data being shuffled in each round and divided into 70% of the samples in the training of the algorithms and 30% of them in each class for the validation tests as indicated in the table . All replicates of each sample are always kept together in sharing these training and validation testing partitions.
  • step 2 the feature matrix of 540 vectors by 129 features was normalized by the technique maximum equal to 1 , in which all elements of each vector are divided by the maximum value of the vector elements.
  • step 3 the evaluation of the initial predictive capacity and the models to be created, the learning and validation process was performed using the ADA Tree boosting and Randon Forest algorithm in 10 rounds with the training and validation partitions as described in the detailed description.
  • Table 1 presents the results obtained for the complete initial model.
  • step 4 the ADA Tree algorithm was used
  • Table 2 - 22 most discriminating characteristics determined by the optimization process.
  • Figures 5 and 6 illustrate step 5 .
  • Figure 5 presents the analysis of two characteristics from the list of 22 selected, indicating the respective ⁇ J calculated as defined in the detailed description and the heat map of Figure 6 shows an evaluation of the model generated with the 22 most discriminating characteristics relating the probability of values higher in the positive and negative samples with the hit rate of the samples, which helps the evaluation of traits and their elucidation during metabolomics research.
  • step 6 the 22 ions were evaluated in the spectra, identifying the corresponding molecules through metabolomics methodology and their relationship with the increased and decreased metabolic pathways according to the highest probability of increase and decrease in the evaluated condition. After metabolomics validation, 19 of them were selected for the subsequent stage of construction of the selection model from the optimization of the paired characteristics.
  • step 7 the 540 vectors composed of 19 elements corresponding to the m/z ions selected in the first stage of the process are normalized according to the definition of paired normalization contained in the present invention.
  • step 8 the matrix of characteristics resulting from the previous step goes through the same procedures as in steps 3, 4 and 5, resulting in the final selection model.
  • Table 3 presents the results with the complete model of the 71 initial characteristics (baseline for the paired ones).
  • Figure 7 illustrates the optimization process on the paired characteristics resulting in 14 paired variables that after the distribution analysis resulted in the choice of 13 of them for the final optimized model .
  • Table 4 the 13 paired characteristics chosen with the corresponding 14 putative characteristics identified in the first phase are presented.
  • Table 4 - most discriminating paired characteristics determined by the optimization process and the corresponding paired m/z.
  • Table 5 and Figure 8 show the final results of the validation of the selection classifier generated using the Gradient Tree Boosting (GDB) algorithm, which performed a little better for the final characteristics and was then released to the use with diagnostics software.
  • GDB Gradient Tree Boosting
  • Table 6 shows the results of the final test (Step 8) before releasing the model to the selection system, indicating its performance with a set of samples kept separately and not used in the previous phases.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

A presente invenção trata-se de um método automático para seleção molecular. O método proposto combina os dados de espectrometria de massas com análise computacional por inteligência artificial para geração de uma resposta final sobre uma condição de interesse, sendo a referida resposta final aplicável em análises clínicas, ambientais e bromatológicas, em indústrias de cosméticos e farmacêuticas.

Description

MÉTODO AUTOMÁTICO PARA SELEÇÃO MOLECULAR Campo da invenção
[ 001] A presente invenção trata-se de um método automático para seleção molecular a partir de dados obtidos de espectrometria de massas para seleção de uma característica de interesse .
[ 002] A presente invenção pode ser aplicada em análises clinicas , ambientais e bromatológicas , em indústrias de cosméticos e farmacêuticas .
Fundamentos da invenção :
[ 003] Entre as muitas tecnologias avançadas usadas para pesquisa molecular, a espectrometria de massas tem um papel importante devido à alta sensibilidade , capacidade de detectar uma gama de moléculas , especificidade molecular e flexibilidade para abordar muitos analitos variados em uma plataforma única . Ademais , esta tecnologia permite a análise de uma ampla variedade de classes moleculares em amostras biológicas e/ou quimicas .
[ 004] Os espectrômetros de massas são aparelhos muito precisos e com uma escala absoluta na determinação da massa molecular (ou melhor, massa/carga) de ions medidos pelo aparelho . No entanto, na medição das intensidades do sinal , são produzidas medidas em uma escala arbitrária, normalmente, denominada abundância, que varia de acordo com vários parâmetros de configuração como tempo de amostragem, regulagens no dispositivo de ionização e sensibilidade do aparelho que pode variar de amostra para amostra em função de vários fatores intrínsecos do processo de medida . [ 005] Atualmente, modelos que utilizam algoritmos de aprendizado de máquina e inteligência artificial para a interpretação de dados de espectrometria de massas estão cada vez mais presentes na literatura, porém, em sua maioria, apresentam como limitações a especificidade para estudos proteômicos e/ou são específicos para alguns tipos de ionização e equipamentos de espectrometria de massas ; em outras soluções , a utilização é acoplada a métodos cromatográficos na identificação de potenciais biomarcadores , o que representa uma limitação grande de tais métodos , pois exigem, a priori, a definição do número de biomarcadores a serem determinados e uso de padrões marcadores que possam ser rastreados posteriormente .
[ 006] A alternativa presente na literatura para contornar essa limitação consiste em usar uma substância de referência denominada padrão interno, cuja concentração é conhecida nas amostras, permitindo um ajuste posterior da escala espectral . Porém, esta técnica encarece o processo e muitas vezes torna-o inviável , pois a substância a ser escolhida como referência não pode interferir no processo bioquímico em análise .
[ 007] A maioria dos modelos disponíveis encontra-se publicada como artigos científicos caracterizando-se como ferramentas de busca de biomarcadores , ou seja, necessitam de conhecimentos em computação para serem aplicados na prática médica . Além disso, os modelos disponíveis não encontram de forma automática os biomarcadores utilizando modelagem matemática de redução de ruídos e alinhamento dos espectros, e não compreendem a auto validação e decisão baseada em dados necessária para aplicação como o próprio diagnóstico . Sendo estes métodos direcionados apenas à busca de biomarcadores , tem-se a necessidade de equipamentos com a alta resolução, em outras palavras , exigem espectrômetros de grande resolução na fase de aquisição dos dados .
[ 008] Em vista das limitações apresentadas , a presente invenção descreve um método automático para seleção molecular a partir de dados obtidos de espectrometria de massas para seleção de uma característica de interesse , o método podendo ser configurado para diferentes condições , alterando-se o conjunto de dados de entrada usados para treinamento do método . Dessa forma, o método da presente invenção pode ser adaptado para lidar com diferentes problemas de identificação com análise por espectrometria de massas .
[ 009] A forma unificada de atuação do método permite que haja a Multiplexação de Diagnósticos , ou seja, uma amostra coletada e seus espectros (replicatas da amostra) podem ser adquiridas uma única vez , mas podem ser utilizadas em diferentes análises bastando, para isso, a anotação correta, de modo a configurar o equipamento, às condições de interesse a serem analisadas durante a etapa de treinamento do método .
[ 0010]dicionalmente, o método proposto permite a utilização de diferentes espectrômetros de massas e não se exige que tais espectrômetros sejam de alta resolução como em alguns métodos encontrados na literatura . A razão para essa flexibilidade está na utilização de uma normalização pareada para a criação dos modelos de diagnóstico, permitindo que o método proposto não seja diretamente afetado pela mudança do espectrômetro de massas que é utilizado .
[ 0011] Ademais , a presente invenção utiliza uma metodologia para determinação dinâmica e recursiva de características mais efetivas ligadas à condição de interesse . Essa metodologia viabiliza a análise de espectros de maior alcance em escala de massa carga ( untargeted metabolomics) obtidos por ionização direta da amostra (sem cromatografia e inserção de padrões de referência) . Essa análise também permite a criação de características pareadas que viabilizam o modelo de análise espectral do teste de seleção a ser utilizado com dados provenientes de diferentes espectrômetros , inclusive , aqueles de menor custo e resolução .
Estado da técnica
[ 0012] O documento intitulado MZmine 2 : Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data (http://www.biomedcentral.com/1471-2105/11/395) descreve um método para o processamento inicial dos dados baseado na detecção de sinais e apresentação de uma solução de visualização de dados de espectrometria de massas , onde a seleção e identificação dos biomarcadores fica a cargo de um especialista humano . O método proposto analisa um vetor independente por vez enquanto a presente invenção faz uma análise agrupada (por cohort) , determinando de forma automática os ions relacionados às condições de interesse para serem aplicados em um sistema de diagnóstico . Além disso, o método da referida anterioridade não apresenta análise pareada capaz de isolar vieses específicos de aparelho e focar nas características que são independentes de aparelho de coleta, com isso, inviabilizando a sua aplicação em diferentes espectrômetros de massas .
[ 0013] Portanto, a referida anterioridade analisa individualmente as amostras e possui limitações quanto aos equipamentos que podem ser aplicados , pois em momento algum analisa um grupo de vetores e nem compara de forma pareada os candidatos a marcadores para normalização/robustez .
[ 0014] 0 documento US 8515680 , Analysis of transcriptomic data using similarity based modeling, descreve um método para diagnóstico baseado na modelagem da distribuição dos dados de condições de interesse utilizando modelagem auto-associativa e multivariada para identificar íons de uma condição de interesse . Os dados são modelados via distribuições de probabilidade/kernels, principalmente , a partir do método de regressão de Nadaraya-Watson, em que a decisão da presença de uma condição de interesse é feita via modelo de similaridade e limiar/ threshold.
[ 0015] Em contrapartida, a presente invenção não precisa assumir qualquer análise de distribuição dos dados de entrada, dessa forma, apresentando maior robustez a possíveis ruídos de entrada . Além disso , dado que a modelagem realizada no documento US 8515680 é feita por distribuições de probabilidade, ela é mais sensível a diferentes aparelhos e, consequentemente, não é robusta o suficiente para operar com dados provenientes de diferentes fontes, ao passo que a presente invenção não apresenta essa limitação .
[0016] Adicionalmente, a presente invenção também apresenta um aprendizado dinâmico capaz de atualizar o diagnóstico à medida que novos dados chegam, de modo que não depende de limiares ( thresholds) para se tomar decisões e as toma baseado na modelagem dos dados como um todo, considerando as condições de interesse . Essa abordagem facilita a aplicação da presente invenção para outras condições de interesse , ao passo que o método do documento US 8515680 precisaria recalcular os dados das distribuições dos dados e o limiar/ threshold de cada decisão . Finalmente, a análise pareada dos dados adiciona robustez a diferentes cenários de operação e determinação automática dos biomarcadores candidatos independentes da distribuição dos dados e do aparelho de captura.
[ 0017] O documento intitulado A Machine Learning Application Based in Random Forest for Integrating Mass Spectrometry-Based Metabolomic Data : A Simple Screening Method for Patients With Zika Virus (https://doi.org/10.3389/fbioe.2018.00031) apresenta um estudo da combinação de espectrometria de massas com o modelo de predição Random Forests para diagnóstico do virus da Zika . Apesar da referida anterioridade utilizar um método similar ao da presente invenção, ela não apresenta a análise de sinais e alinhamento de espectros e nem a análise pareada de características . Além disso , não compreende uso independente em campo como classificador e geração de relatórios . Sendo assim, não é capaz de gerar diagnósticos automáticos e que não estejam atreladas especificamente a determinados aparelhos .
[ 0018] O documento US 20190214145, Method and systems for creating and screening patient metaboli te profile to diagnose current medical condi tion , diagnose current treatment state and recommend new treatment regimen, descreve um método e sistema para a construção de um banco de dados de perfis de metabolites correlacionados com estados de doença e regimentos de tratamento , definindo o perfil de metabólitos de um paciente individual e, em seguida, examinando o perfil do paciente no banco de dados para recomendar possiveis regimes de tratamento eficazes . Porém, o referido método é direcionado para o uso da maconha no tratamento da dor, necessita de técnicas cromatográficas antes da análise por espectrometria de massas , não utiliza normalização pareada e nem análise de sinais . Não compreendendo um método gerador de diagnóstico automático e que seja independente de um modelo de equipamento de espectrometria de massas .
[ 0019] O documento US 8296247 , Combination machine learning algorithms for computer-aided detection , review and diagnosis, descreve um método para revisão de dados médicos e imagens para diagnóstico e decisão de tratamento, utilizando algoritmos de Aprendizado de Máquina . Porém, ao contrário da presente invenção, o referido método da anterioridade utiliza uma classificação e integração utilizando " type 2 fuzzy logic" e "Bayesian probability" e não especifico para os dados de espectrometria de massas e requer pré- processamentos específicos . [0020] O documento intitulado BioSunMS: a plug-in- based software for the management of patients Information and the analysis of peptide profiles from mass spectrometry (https://sourceforge.net/projects/biosunms/) apresenta a plataforma BioSunMS para o manejo de dados de pacientes e dados de espectrometria de massas para análise estatística e reconhecimento de padrões.
Diferentemente da presente invenção, o método da referida anterioridade utiliza algoritmos do tipo Support Vector
Machines (SVMs) para construção dos modelos, possui aplicação exclusiva para MALDI-TOF MS ou SELDI-TOF MS e proteômica clínica, não possui plataforma de produção de diagnóstico separada do desenvolvimento, não utiliza normalização pareada e nem análise de sinais e não compreende uso independente em campo como classificador e geração de diagnósticos.
[0021] O documento intitulado MetaboAnalyst: a web server for metabolomic data analysis and interpretation (https://www.metaboanalyst.ca/faces/home.xfatml) descreve a plataforma MetaboAnalyst para pré-tratamento de dados, visualização, estatística, reconhecimento e avaliação de padrões de dados metabolômicos. A plataforma utiliza o algoritmo Support Vector Machines (SVMs) e Random Forests (RFs), não possui métodos de produção de diagnóstico, não utiliza a normalização pareada e nem análise de sinais, não compreende uso independente em campo como classificador e geração de diagnósticos.
[0022] O documento intitulado The Perseus computational platform for comprehensive analysis of (prote) omics data (http://www.perseus-framework.org) descreve uma plataforma para pré-tratamento de dados , visualização, estatística, reconhecimento e avaliação de padrões . Todavia, diferentemente da presente invenção, utiliza o algoritmo Support Vector Machines (SVMs ) , possui aplicação exclusiva para proteômica, com quantificação, não possui plataforma de produção de diagnóstico, não utiliza normalização pareada e nem análise de sinais , não compreende uso independente em campo como classificador e geração de diagnósticos .
[ 0023] O documento intitulado Metabolomics analysis for biomarker discovery : advances and challenges (https://www.researchgate.net/publication/233847779) apresenta uma gama de técnicas na área de identificação de biomarcadores . No entanto, esse documento trata de um estudo do estado da técnica e não um método em particular . Os métodos descritos no referido documento são baseados na modelagem da distribuição dos dados ou na análise estatística e multivariada dos mesmos para identificação de marcadores similarmente ao documento US 8515680 . Vale ressaltar que nenhuma das técnicas abordadas leva em consideração as mudanças nos dados de entrada e diferentes aparelhos de aquisição, conforme pode ser visto na Figura 3 do referido documento . A presente invenção, por outro lado, compreende um método que não utiliza análise estatística e multivariada dos dados , não depende de limiares de decisão, é robusta a mudanças nos dados de entrada e diferentes aparelhos de aquisição, pode ser atualizada com dados novos e é dinâmica em termos de permitir que o mesmo fluxo de ações possa ser usado para diferentes condições de interesse a partir de atualizações apenas nos dados de treinamento do método . Sendo assim, nenhuma das técnicas descritas no referido documento juntamente com os documentos citados anteriormente permitem vislumbrar um método similar ao da presente invenção, principalmente, no tocante à robustez a diferentes aparelhos condições de aquisição devido à etapa de alinhamento e pareamento de características e no sistema de diagnóstico dinâmico e adaptável a diferentes condições de interesse .
Breve descrição da invenção:
[ 0024] A presente invenção se insere no campo das tecnologias para seleção e identificação molecular, mais precisamente, em um método para processamento de informações de dados de espectrometria de massas para determinação de moléculas e, assim, gerar uma resposta automática .
[ 0025] O método proposto combina os dados de espectrometria de massas com análise computacional por inteligência artificial para geração de uma resposta final sobre uma condição de interesse, sendo que a referida resposta final compreende desde testes de seleção a controle de qualidade . Para isto, o método proposto compreende as seguintes etapas : uma etapa de modelagem, alinhamento e redução de ruido ; uma etapa de normalização ; etapa de aprendizado pela ferramenta de inteligência artificial ; seleção recursiva de características discriminantes ; filtragem probabilística; análise metabolômica e validação dos dados ; normalização em domínio das características pareadas e seleção recursiva das características pareadas . As características identificadas e validadas pelo método da presente invenção são utilizadas para avaliar uma condição de interesse .
Breve descrição das figuras :
[ 0026] A Figura 1 mostra um fluxograma do método proposto em sua configuração preferencial .
[ 0027] A Figura 2 mostra um exemplo de gráfico para identificação do sinal espectral .
[ 0028] A Figura 3 mostra a aplicação do método da presente invenção em sistemas de seleção em sua configuração preferencial . Onde A representa o espectrômetro de massa .
[ 0029] A Figura 4 mostra o gráfico para o método de determinação das características mais importantes em um exemplo de aplicação .
[ 0030] A Figura 5 mostra um exemplo de análise de distribuição para duas das características selecionadas , em que (A) apresenta uma característica com distribuição positiva para a condição, e (B) apresenta uma característica com distribuição negativa para a condição em um exemplo de aplicação .
[ 0031] A Figura 6 mostra um mapa de calor (heatmap) dos valores relativos das características pela taxa de acerto na classificação das amostras positivas e negativas . No canto superior esquerdo , têm-se as características com maior probabilidade de valores altos mostrados para as amostras positivas onde houve maior acerto do modelo, no canto inferior direito estão as características de maior probabilidade de valores altos nas amostras negativas , e as correspondentes com maior taxa de acerto , em um exemplo de aplicação .
[ 0032] A Figura 7 mostra o gráfico para o método de otimização do modelo de características pareadas em um exemplo de aplicação .
[ 0033] Figura 8 mostra os resultados da validação do método de seleção molecular gerado com as 13 características pareadas finais, correspondentes a 14 candidatos a biomarcadores em um exemplo de aplicação .
[ 0034] A Figura 9 mostra o gráfico de todos os ions identificados no método e suas correlações , identificando em laranja os finais utilizados no modelo de seleção resultante em um exemplo de aplicação . Essa representação baseada nas características escolhidas pelo método de aprendizagem de máquina e nas covariâncias dessas mesmas tem por objetivo mostrar um panorama das relações ajudando no processo de interpretação metabolômica das moléculas associadas .
Descrição detalhada da invenção :
[ 0035] A presente invenção trata-se de um método automático para seleção molecular a partir de dados obtidos de espectrometria de massas para seleção de uma característica de interesse .
[ 0036] 0 método automático de seleção molecular pode ser observado na Figura 1 . 0 método utiliza dados obtidos a partir de espectrômetros e compreende as seguintes etapas e subetapas :
(1) modelagem, alinhamento e redução de ruido dos dados :
( 1 . 1 ) extração dos sinais espectrais de cada replicata; (1.2) identificação das características espectrais presentes nas replicatas, sendo que valores de intensidade de sinal abaixo de 10 ppm em relação ao sinal de maior intensidade, ou seja 10-5, são eliminados de forma automática;
(1.3) análise de sinais via distribuição Gaussiana e anotar as métricas de intensidade, largura do sinal, resolução e valor do m/z (massa/carga) ;
(1.4) alinhamento dos sinais superpostos na faixa espectral determinada pela resolução dos ions (m/z) em cada ponto do espectro e cada alinhamento de sinais constitui-se em uma característica espectral;
(1.5) redução do ruido: se a mediana das intensidades espectrais dos sinais nas replicatas da amostra for 0 (Zero) , essa característica é considerada como ruído;
- Obtenção vetores de características (la) ;
(2) normalização de domínio dos dados:
- Nesse ponto do processo, os vetores devem ser levados a um domínio de valores para as intensidades dentro de uma mesma escala para que seja possível a comparação de variáveis pelas etapas de aprendizagem de máquina. Para isso, utilizamos a normalização dividindo-se todos os elementos de cada vetor pelo seu valor máximo, obtendo-se, assim, intensidades no intervalo [0,1] e relativas à máxima intensidade do vetor. Outras normalizações podem ser utilizadas nesta etapa desde que mantenham as relações entre as intensidades de um mesmo vetor e levem os valores de todas as variáveis a uma escala comum.
- Formalmente, a normalização de soma 1 é dada por :
Figure imgf000016_0001
onde é o valor da variável j da amostra i do
Figure imgf000016_0002
conjunto representa o valor de
Figure imgf000016_0003
todas as variáveis da amostra i;
(3) criação do modelo de aprendizado com dados completos :
(3.1) criação do modelo matemático preditivo baseado em um algoritmo de classificação ou de regressão, em que os conjuntos de dados (datasets) são separados em subconjuntos evitando-se interseção e sobreposição; o treinamento é compreendido, pelo menos, por 10 rodadas, permutando-se os subconjuntos;
(3.2) avaliação da performance preditiva do modelo aplicado na etapa (3.1) com as métricas estatísticas decorrentes da avaliação dos resultados através de métricas de Exatidão, Sensibilidade, Especificidade, Precisão, Valor Preditivo Negativo, FIScore e/ou MCC (Matthews Correlation Coefficient) ;
(4) seleção recursiva de características discriminantes:
(4.1) identificação das características a partir da aplicação recursiva do algoritmo de aprendizagem de máquina; (4.2) avaliação de capacidade de predição para as características;
(5) filtragem probabilística de características discriminantes :
(5.1) avaliação probabilística das características determinantes :
- as que possuem uma maior probabilidade de ter valores aumentados - características positivas;
- as que possuem maior probabilidade de terem valores reduzidos para a condição de interesse - características negativas;
- obtenção das características putativas (5a) ;
(5.2) avaliação do modelo preditivo com as características putativas (5a) :
- Seja A = {A1, A2, ...,An} um conjunto de amostras, rotuladas para a condição Y={y1, y2, ..., yn}, onde y1=[0,l] , sendo 1 para a condição satisfeita (amostra positiva) ou 0 para a não satisfeita (amostra negativa) ;
- Seja cada amostra
Figure imgf000017_0002
onde cada valor corresponde
Figure imgf000017_0003
aos valores da mesma em todas as amostras no conjunto A, medidas em uma escala arbitrária diferente em cada amostra Ai, mas constante para todas as variáveis de cada amostra Ai;
Figure imgf000017_0004
- define-se DeltaJ como:
Figure imgf000017_0001
caso contrário-. Δj(xj) = 0
Onde Xj é o valor da variável j da amostra i do conjunto A,
Figure imgf000018_0001
é o rótulo da amostra i do conjunto A, yi=[0,l] ; xj é o conjunto de valores da variável j para todas as amostras do conjunto A;
Ap é o conjunto de amostras positivas em A, ou seja, rotuladas com yp=l;
Figure imgf000018_0002
é a mediana dos valores j para todas as amostras do conjunto Ap;
P(xj) é a função de distribuição de probabilidade acumulada (Cumulative Distribution Function, CDF, em inglês) dos valores xj e xj no conjunto Ap ;
AQ é o conjunto de amostras negativas em A, ou seja, rotuladas com yQ=l; é a mediana dos valores de variável j para
Figure imgf000018_0003
todas as amostras do conjunto AQ;
Q(xj) é a função de distribuição de probabilidade acumulada (CDF em inglês) dos valores xj e xj no conjunto AQ;
(6) análise metabolômica e validação das características putativas (5a) associadas à condição de interesse:
(6.1) consulta a bancos de dados de metabolômica/lipidômica e antecedentes na literatura; e/ou
(6.2) confirmação experimental por espectrometria de massas sequencial; e/ou (6.3) validação por técnicas analíticas complementares (por exemplo, ensaios bioquímicos, ressonância magnética entre outros) ;
- Obtenção de características putativas metabolicamente validadas (6a) ;
(7) normalização em domínio das características putativas pareadas:
(7.1) pareamento das características validadas na sub-etapa (6.1) :
Figure imgf000019_0001
- Onde é o valor da variável j da amostra i do
Figure imgf000019_0002
conjunto
Figure imgf000019_0003
(7.2) normalização do pareamento para intervalo [0, 1] ;
- A etapa (7.1) produz um valor para as características no intervalo [-1, 1] , correspondendo à relação entre as variáveis A e B, -1 se B > A, 0 se A = B e que 1 caso A > B. O vetor de características com as mesmas nesse intervalo está já normalizado e pode ser usado nas etapas subsequentes pelos algoritmos de machine learning, porém para facilitar as análises e permitir a reutilização das funções utilizadas nas etapas anteriores que operam sobre características com valores no intervalo [0, 1] aplicamos uma segunda transformação de acordo com a fórmula abaixo:
Figure imgf000020_0001
- se o valor normalizado está no intervalo entre 0 e 1 para duas características A e B, se o valor for 0,5, as características têm igual intensidade no vetor;
- se o valor normalizado é menor que 0,5, então a característica B tem intensidade maior que A e, em particular, se o valor for 0, então a característica A tem valor 0;
- se o valor normalizado é maior que 0,5, a característica A tem maior intensidade que B e, em particular, se o valor normalizado é 1, então a característica B tem intensidade 0;
- Obtenção de características pareadas (7a) ;
(8) Seleção recursiva de características putativas pareadas :
(8.1) resubmissão das características pareadas (7a) à etapa (3) ;
(8.2) resubmissão das características pareadas (7a) à etapa (4) ; e
(8.3) resubmissão das características pareadas (7a) à etapa (5) ;
Obtenção de características putativas metabolomicamente validadas (8a) .
[0037] Antes do início do método, é importante ressaltar que as amostras a serem analisadas devem ter, pelo menos, um número amostrai significativo para a construção do modelo. Além disso, deve ser escolhidos tipos de amostras que mais representem a doença/condição/comorbidade a ser testada; essas podem, ou não, ser pré-processadas dependendo do equipamento utilizado .
[ 0038] Anterior à inserção no espectrômetro de massas (A) , é selecionado o método de preparo e ionização , realizado um planejamento experimental ( randomização das amostras , plano de distribuição da análise em lotes , definição do tempo de aquisição de dados , número de aquisições por amostra e limpeza) , e parametrização e otimização das condições do equipamento . Vale ressaltar que o equipamento em si não precisa ser pré-especifiçado , pois o método aqui proposto funciona independente de um aparelho em especifico .
[ 0039] Com os dados gerados pelo espectrômetro de massas (A) , inicia-se a etapa ( 1 ) do método de seleção molecular que compreende a modelagem, alinhamento e redução de ruido dos dados , compreendendo na subetapa (1 . 1 ) a extração dos sinais espectrais de cada replicata e na subetapa ( 1 . 2 ) , a identificação das características espectrais presentes nas replicatas de cada amostra . Nesta etapa, em cada replicata, valores de intensidade de sinal abaixo de 10 ppm em relação ao sinal de maior intensidade, ou seja 10-5, são eliminados de forma automática . Entretanto , os valores limites são pré- definidos conforme cálculos executados dinamicamente de acordo com o sinal . Após esse procedimento, o sinal espectral passa pela subetapa ( 1 . 3 ) em que esse sinal é aproximado por uma análise de sinais via distribuição Gaussiana, ou outras técnicas de identificação de sinais espectrais (por exemplo, por amostragem aleatória por consenso, RANSAC) , de forma a anotar as métricas de intensidade, largura do sinal , resolução e valor do m/ z (massa/carga) representado . Com os sinais coletados em todas as replicatas de uma amostra, procede-se com a subetapa ( 1 . 4 ) de alinhamento dos sinais que se encontram superpostos na faixa espectral determinada pela resolução dos ions (m/z ) em cada ponto do espectro . Cada alinhamento de sinais constitui-se em uma característica espectral que , então, é verificada de acordo com as seguintes regras que estão relacionadas à subetapa ( 1 . 5 ) : i- Se a mediana das intensidades espectrais dos sinais nas replicatas da amostra for 0 (Zero) , essa característica é considerada como ruído, pois a maioria de suas replicatas não contém sinais nesse ponto espectral ; deste modo, há a redução do ruído . ii- Após a eliminação de características conforme a regra i , aplica-se a etapa ( 2 ) de normalização de soma 1 .
[ 0040] Os vetores de características ( la ) definidos na etapa 1 seguem para a etapa (2 ) do método de seleção molecular a qual refere-se à normalização de domínio dos dados que compreende a normalização dos vetores de características ( la) , de forma que possam ser processados pelos algoritmos de aprendizagem de máquina em uma etapa futura . A normalização (2 ) é feita dividindo-se as intensidades dos sinais pela soma de todos os sinais da replicata . Dessa forma, a soma de todas as intensidades normalizadas dos sinais em cada replicata é igual a 1 . Essa normalização faz com que cada sinal represente a probabilidade de encontrar um íon m/ z em cada replicata do espectro . Dado que as replicatas da mesma amostra deveriam ser iguais em termos de probabilidades de ions presentes nas amostras, exceto pelos ruídos de aquisição. E então faz-se o descarte de características que apresentem valores de erro quadrático médio (Root Mean Square Error, RMSE) superiores a um limite definido como valor aceitável para o ruído de uma característica.
[0041]Nesta etapa (2) , os vetores são normalizados de forma independente através de uma referência espectral. Para o caso de larga banda espectral e fluídos complexos, é utilizado preferencialmente a maior intensidade espectral como referência 1, dividindo-se todos os elementos de cada vetor pela intensidade máxima do vetor. Porém, outras normalizações podem ser utilizadas dependendo do fluido analisado (por exemplo, normalização por z-norm, w-norm, t-norm, normalização por algum valor de referência previamente conhecido, entre outras) dos componentes conhecidos presentes na amostra, como por exemplo o uso de um padrão interno, que não é necessariamente exigido.
[0042] A etapa (3) do método de seleção molecular refere-se ao aprendizado com dados completos, e compreende a subetapa (3.1) de criação de um modelo matemático preditivo baseado em um algoritmo de classificação ou de regressão, sendo a escolha do algoritmo dependente do contexto da resposta a ser obtida com os vetores completos, ou seja, com todas as características coletadas no processo de aquisição. Para a criação dos modelos (3.1) , os conjuntos de dados (datasets) são submetidos a um embaralhamento (shuffling) de dados de tal forma que os procedimentos de treinamento, validação e testes sejam feitos de acordo com as melhores práticas em ciência de dados , qual seja, a correta separação dos subconjuntos evitando-se interseção e sobreposição . 0 processo de treinamento é compreendido, pelo menos , por 10 rodadas . Esse número de replicações pode ser alterado sem prejuízos ao método .
[ 0043]Neste processo, é conduzida a subetapa (3 . 2 ) referente à avaliação da performance preditiva do modelo com as métricas estatísticas decorrentes da avaliação dos resultados através de métricas de Exatidão, Sensibilidade, Especificidade , Precisão, Valor Preditivo Negativo, FIScore e/ou MCC (Matthews Correlation Coefficient) , sendo apuradas pela validação em várias rodadas não só a média dessas métricas mas também seus respectivos desvios padrão para a avaliação da robustez na predição . Caso os resultados não sejam satisfatórios , procede-se em termos de robustez preditiva, replaneja-se a coleta de mais amostras e condições de representatividade . Dessa maneira, estabelece-se uma linha base (baseline) em termos de resultados e um controle de qualidade interna ao próprio método . Vale ressaltar que a presente etapa também pode ser realizada por diversos algoritmos de aprendizado de máquina em sua formulação tais como Random Forests, extreme Random Forests, Gradient Tree Boosting, ADA Tree Boosting e/ou PLS-DA.
[ 0044] etapa ( 4 ) do método de seleção molecular refere-se à seleção recursiva de características discriminantes , que compreende a subetapa ( 4 . 1 ) de identificação das características mais importantes , ou seja, mais discriminantes presentes nos dados amostrais com relação à condição de interesse a ser diagnosticada pelo teste em geração . O processo da subetapa ( 4 . 1 ) de identificação das características mais importantes é feito a partir da aplicação recursiva do algoritmo de aprendizagem de máguina e procede-se com a subetapa (4 . 2 ) de avaliação de sua capacidade de predição para as características utilizadas em cada iteração .
[ 0045] Em cada iteração recursiva, as características são avaliadas para cada algoritmo através de análises probabilisticas inerentes do algoritmo, denominadas funções de determinação de importância, e que permitem o descarte das características menos importantes em cada etapa . Esse processo de otimização utiliza como função de custo associada, pelo menos , uma das métricas de desempenho escolhidas (como por exemplo, Exatidão/Acurácia, Sensibilidade, Especificidade, Precisão, Valor Preditivo Negativo, FlScore e/ou MCC) . O resultado obtido é uma curva de avaliação da capacidade de predição das características para o algoritmo onde então são determinadas , normalmente, pelo ponto de máximo ou pelo ponto de inflexão da curva, as variáveis de maior importância para a construção do modelo preditivo final . A essas características é atribuído o nome de características discriminantes e os algoritmos utilizados na etapa (4 ) são os mesmos listados na etapa ( 3 ) .
[ 0046] Vale ressaltar que , para a utilização do algoritmo PLS como seletor de características mais discriminantes , é feita uma modificação no cálculo do VIP ( Variable Influence on Projection ou Variable Importance on Projection) em que esta é calculada utilizando-se apenas os pesos da matriz de mapeamento do espaço de características para o espaço de componentes . Para a implementação do método com uso de algoritmo PLS, o VIP é calculado usando um fator de regularização que utiliza a ordem de importância das componentes no espaço rotacionado . A VIP passa a ser uma média ponderada dos coeficientes das características pelo fator de regularização calculado por r = k-u onde r é o fator de regularização, k é a ordem da componente PLS no ranking de componentes , e u é um expoente no intervalo de 0 a 1 .
[ 0047] A etapa ( 5 ) do método de seleção molecular refere-se à filtragem probabilistica de características discriminantes e compreende a subetapa ( 5 . 1 ) de avaliação probabilistica das características determinantes , isolando aquelas que possuem diferenças significativas em termos de probabilidades associadas à condição de interesse . Ou seja, são particularmente importantes as características que possuem uma maior probabilidade de ter valores aumentados - características denominadas positivas , e que vão determinar biomarcadores chamados up regulated para a condição de interesse, e as características que possuem maior probabilidade de terem valores reduzidos para a condição de interesse características negativas , que vão determinar biomarcadores chamados down -regulated .
[ 0048] As características selecionadas de acordo com o critério probabilistico são denominadas características putativas ( 5a) , pois são as candidatas a biomarcadores para compor o modelo final de seleção . Procede-se, então, à subetapa (5.2) de avaliação do modelo preditivo com as características putativas, validando sua capacidade de seleção para, então, passá-las à próxima etapa se aprovados em função das métricas de performance atingidas .
[0049] Para a avaliação probabilistica das características (5.2) são utilizadas métricas de comparação de distribuição de variáveis aleatórias (por exemplo, Kolmogorov-Smirnov) . Em particular, na implementação experimental da presente invenção é utilizado o teste de hipótese de Kolmogorov-Smirnov amostrai indicando que as distribuições não são iguais e, em seguida, é aplicada a métrica deltaJ descrita da seguinte forma:
- Seja A = {A1, A2, ...,An} um conjunto de amostras, rotuladas para a condição Y={y1, y2 , . . . , yn}, onde y1= [ 0 , 1 ] , sendo 1 para a condição satisfeita
(amostra positiva) ou 0 para a não satisfeita (amostra negativa) ;
- Seja cada amostra
Figure imgf000027_0003
onde cada valor corresponde aos valores
Figure imgf000027_0002
da mesma em todas as amostras no conjunto A, medidas em uma escala arbitrária diferente em cada amostra Ai, mas constante para todas as variáveis de cada
Figure imgf000027_0004
amostra Ai. Define-se ΔJ como:
Figure imgf000027_0001
- Onde
Figure imgf000028_0001
é o valor da variável j da amostra i do conjunto é o rótulo da amostra i do
Figure imgf000028_0002
conjunto A, y1= [ 0 , 1 ] ; xj é o conjunto de valores da variável j para todas as amostras do conjunto A; Ap é o conjunto de amostras positivas em A, ou seja, rotuladas com yp=l; é a mediana dos valores j
Figure imgf000028_0003
para todas as amostras do conjunto Ap; P(xj) é a função de distribuição de probabilidade acumulada (Cumulative Distribution Function, CDF, em inglês) dos valores xj e xj no conjunto Ap; AQ é o conjunto de amostras negativas em A, ou seja, rotuladas com é a mediana dos valores de variável j para
Figure imgf000028_0004
todas as amostras do conjunto AQ; Q(xj) é a função de distribuição de probabilidade acumulada (CDF em inglês) dos valores xj ∈ xj no conjunto AQ;
[0050] A etapa (6) do método de seleção molecular refere-se à análise metabolômica e validação das características putativas associadas à condição de interesse e compreende a subetapa de (6.1) de validação bioquímica das características associadas à condição de interesse através do uso de bancos de dados com informações moleculares para metabolômica e/ou lipidômica em que o referido banco de dados pode ser atualizado com novas informações presentes na literatura, com elucidação estrutural molecular para as características putativas propostas por alta resolução; e a subetapa (6.2) de realização de experimentos de espectrometria de massas sequencial (ms/ms) para confirmação estrutural, e/ou validação por técnicas analíticas complementares, conforme subetapa (6.3) , de modo que ao fim desta etapa seja gerado as características putativas metabolicamente validadas (6a) . Caso alguma característica putativa seja identificada como uma molécula sem significância para a condição de interesse, ela pode ser eliminada do rol de biomarcadores para a condição de interesse e, caso necessário, após essa eliminação, o método retorna para a etapa (2) para a substituição e verificação de novas características putativas. Além disso, esta etapa (6) compreende, alternativamente, a supervisão de um especialista ao método de Inteligência Artificial utilizado em um processo de sinergia em busca dos biomarcadores mais eficaz para se identificar a condição de interesse.
[0051] A etapa (7) do método de seleção molecular refere-se a normalização em domínio das características putativas pareadas e compreende a normalização pareada das características putativas metabolicamente validadas da subetapa (6.1) . A referida etapa (7) é a que confere ao presente método a independência de um determinado modelo de espectrômetro . Nesta etapa, as características putativas da subetapa (6.1) são combinadas em pares através da subetapa (7.1) , criando um padrão endógeno a cada espectro e independente da escala do aparelho, pois as características putativas pareadas (7a) medem a relação entre as intensidades das características duas a duas .
[0052] A normalização pareada é definida da seguinte maneira :
Figure imgf000029_0001
Figure imgf000030_0001
[ 0053] Onde é o valor da variável j da amostra i do
Figure imgf000030_0002
conjunto
Figure imgf000030_0003
[ 0054] A fórmula da normalização pareada, um dos pontos chaves da metodologia, é feita de tal forma que se possa identificar a relação entre as duas características pareadas ( 7a) e, também, apontar qual das duas é a maior delas , comparando-as por meio da subetapa (7 . 2 ) . Com a normalização pareada com valor no intervalo entre 0 e 1 para duas características A e B, se o valor for 0 , 5, as características têm igual intensidade no vetor . Se o valor normalizado é menor que 0 , 5, então a característica B tem intensidade maior que A e, em particular, se o valor for 0 , então a característica A tem valor 0 . Se o valor normalizado é maior que 0 , 5 , a característica A tem maior intensidade que B e, em particular, se o valor normalizado é 1 , então a característica B tem intensidade 0 .
[ 0055] O pareamento de características putativas positivas (aumentadas com a condição de interesse) com características putativas negativas (diminuídas com a condição de interesse ) amplifica essa relação de desigualdade probabilistica, criando características ainda mais discriminantes no modelo predito, favorecendo a seleção molecular de maior performance .
[ 0056] Matematicamente, utilizando-se o método DeltaJ, definido anteriormente, como avaliador das características putativas quanto à sua atuação na condição de interesse, tem-se a análise pareada como definida a seguir.
[0057] Sendo : Então pode-se dizer que o ΔJ
Figure imgf000031_0001
(DeltaJ) da variável normalizada cruzada Γt,u variável normalizada, ou seja, tem as seguintes propriedades:
- Se Xt tem probabilidade alta de ter valores mais altos para a condição em teste, ou seja, ΔJ(Xt)>0, e Xu tem probabilidade alta de ter valores mais baixos para a condição em teste, ou seja, ΔJ(Xu)<0, então: ΔJ(Γt,u) >o.
- Se Xt tem probabilidade alta de ter valores mais baixos para a condição em teste, ou seja, ΔJ(Xt)<0, e Xu tem probabilidade alta de ter valores mais altos para a condição em teste, ou seja, ΔJ(Xu)>0, então: ΔJ(Γt,u)<0.
[0058] A etapa (8) do método de seleção molecular refere-se à seleção recursiva de características putativas pareadas (7a) e compreende a geração e avaliação do modelo preditivo final (8a) a ser liberado para o uso em seleção ou para avaliar, processos em outras áreas de conhecimento que tenham alguma condição de interesse como, por exemplo, em análises de controle de qualidade. Na referida etapa, utilizam-se as características putativas validadas (7a) pela metabolômica e normalizadas em pares na metodologia de determinação das características (pareadas) mais discriminantes, em que a referida etapa (8) compreende as subetapas (8.1) , (8.2) e (8.3) em submeter o modelo candidato final pelas avaliações contidas nas etapas (3) , (4) e (5) respectivamente. Sendo o modelo resultante (8a) , dessa etapa ( 8 ) , o modelo que deverá ser utilizado na seleção molecular (Figura 3 ) , por exemplo .
Exemplo de aplicação
[ 0059] Esta seção descreve uma aplicação detalhada do método na análise e geração de um modelo de seleção para uma condição específica . Para este caso, considera-se amostras espectrais de dois grupos de amostras rotuladas como Controle - negativas para a condição - e condição de interesse - positivas para a mesma .
[ 0060] Para o teste , foram coletadas 54 amostras de material biológico sendo divididas em 27 da classe controle e 27 da classe condição de interesse . As amostras foram preparadas e injetadas em um espectrômetro de massas em 10 leituras consecutivas gerando-se , dessa forma, 540 espectros . Para cada classe (Controle e Condição) foram adquiridos 290 espectros . Os espectros foram capturados na faixa de sinal de 300 a 1300 (m/ z ) com resolução variando entre 5 a 10 ppm nessa faixa no modo de ionização positiva .
[ 0061] Extraídos os dados dos espectros obtidos a partir dos espectrômetros de massas , as análises e a geração do método da presente invenção descrito nas etapas a seguir foram todas realizadas utilizando-se a solução proposta e software desenvolvido especialmente para implementação dos conceitos dessa invenção e registrado no INPI com certificado número BR512020001172 - 1 com datas de publicação e criação 05/06/2020 , expedido em 30/ 06/2020 , com titular UNIVERSIDADE ESTADUAL DE CAMPINAS - UNICAMP e autores LUIZ CLAUDIO NAVARRO; JEANY DELAFIORI ; RODRIGO RAMOS CATHARINO; e ANDERSON DE REZENDE ROCHA, os mesmos da presente invenção .
[ 0062] etapa 1 compreende a geração dos vetores de características a partir dos espectros adquiridos , passando-se por uma etapa de seleção e identificação dos sinais através de modelagem gaussiana, redução de ruídos com a eliminação de sinais díspares entre as replicatas e alinhamento dos sinais em características , segundo a resolução do equipamento em cada faixa; o que resulta em um conjunto de vetores organizados em uma matriz de dados a qual é referida de matriz dos vetores de características .
[ 0063] Ao final do processo de extração de características e aplicadas às regras de filtragem, conforme descrito na presente invenção , tem-se 129 ions de massa/carga (m/ z ) características com potencial de representatividade a serem então filtradas pelas técnicas de aprendizagem de máquina .
[ 0064] No presente exemplo, os processos de aprendizagem de máquina na geração e testes dos modelos foram realizados em 10 rodadas para a apuração das métricas de performance de predição, sendo os dados totais embaralhados em cada rodada e divididos em 70% das amostras no treinamento dos algoritmos e 30% das mesmas em cada classe para os testes de validação conforme indica a tabela . Todas as replicatas de cada amostra são mantidas sempre juntas na partilha dessas partições de treinamento e testes de validação .
[ 0065] Na etapa 2 , a matriz de características de 540 vetores por 129 características foi normalizada pela técnica máximo igual a 1 , em que todos os elementos de cada vetor são divididos pelo valor máximos dos elementos do vetor .
[ 0066 ] Em seguida, na etapa 3 , a avaliação da capacidade preditiva inicial e dos modelos a serem criados , foi executado o processo de aprendizagem e validação utilizando o algoritmo ADA Tree boosting e Randon Forest em 10 rodadas com as partições de treinamento e validação conforme descritos na descrição detalhada . A Tabela 1 apresenta os resultados obtidos para o modelo inicial completo .
Tabela 1 - Resultados dos testes de validação do modelo preditivo completo
Figure imgf000034_0001
[ 0067 ] Na etapa 4 , utilizou-se o algoritmo ADA Tree
Boosting para as interações recursivas de otimização com as características ordenadas eliminando as de menor significância para o modelo preditivo (baseado na importância das variáveis provida pela análise das árvores do modelo) . Como função de custo para a avaliação do modelo, foi adotada a métrica Matthews Correlation Coefficient sendo cada iteração realizada com 10 rodadas e métrica avaliada por sua média e desvio padrão . O processo mostrado no gráfico da Figura 4 resultou na escolha de 22 características listadas na Tabela 2 , as quais produziram o melhor desempenho preditivo para a métrica MCC .
Tabela 2 - 22 características mais discriminantes determinadas pelo processo de otimização .
Figure imgf000035_0001
Figure imgf000036_0001
[ 0068 ] As Figuras 5 e 6 ilustram a etapa 5 . A Figura 5 apresenta a análise de duas características da lista de 22 selecionadas , indicando os respectivos ΔJ calculados conforme definido na descrição detalhada e o mapa de calor da Figura 6 mostra uma avaliação do modelo gerado com as 22 características mais discriminantes relacionando a probabilidade de valores mais altos nas amostras positivas e negativas com a taxa de acerto das amostras , o que ajuda a avaliação das características e sua elucidação durante a pesquisa metabolômica .
[ 0069 ] Na etapa 6, os 22 ions foram avaliados nos espectros , identificado as moléculas correspondentes através de metodologia metabolômica e sua relação com as vias metabólicas aumentadas e diminuídas conforme a maior probabilidade de aumento e diminuição na condição avaliada . Após a validação metabolômica, 19 delas foram selecionadas para a etapa posterior de construção do modelo de seleção a partir da otimização das características pareadas .
[ 0070 ] Na etapa 7 , os 540 vetores compostos de 19 elementos correspondentes aos ions de m/z selecionados na primeira fase do processo são normalizados de acordo com a definição de normalização pareada contida na presente invenção . Os 19 ions combinados 2 x 2 geram n = (19* 18 ) /2=171 características pareadas que passam a compor os vetores das amostras .
[ 0071 ] É feita então a filtragem de acordo com as regras de correlação e representatividade, ficando os vetores reduzidos a 71 características pareadas que passam então ao processo de geração do modelo de seleção otimizado .
[ 0072 ] Por fim, na etapa 8 , a matriz de características resultante da etapa anterior passa pelos mesmos procedimentos das etapas 3 , 4 e 5 resultando no modelo de seleção final .
[ 0073 ] A Tabela 3 apresenta os resultados com o modelo completo das 71 características iniciais (baseline para as pareadas) .
Tabela 3 - Resultados dos testes de validação do modelo preditivo completo das características pareadas .
Figure imgf000037_0001
Figure imgf000038_0001
[ 0074 ] A Figura 7 ilustra o processo de otimização sobre as características pareadas resultando em 14 variáveis pareadas que após a análise de distribuições resultou na escolha de 13 delas para o modelo final otimizado . Na Tabela 4 , são apresentadas as 13 características pareadas escolhidas com as correspondentes 14 características putativas identificadas na primeira fase . Tabela 4 - características pareadas mais discriminantes determinadas pelo processo de otimização e os m/z pareados correspondentes .
Figure imgf000039_0001
[ 0075 ] A Tabela 5 e a Figura 8 mostram os resultados finais da validação do classificador de seleção gerado utilizando-se o algoritmo Gradien t Tree Boosting (GDB) , o qual apresentou desempenho um pouco melhor para as características finais sendo então liberado para o uso com o software de diagnósticos .
Tabela 5 - Resultados dos testes de validação do modelo preditivo otimizado de características pareadas .
Figure imgf000040_0001
[ 0076 ] A Tabela 6 mostra os resultados do teste final (Etapa 8 ) antes da liberação do modelo para o sistema de seleção, indicando sua performance com um conj unto de amostras mantidas em separado e não utilizadas nas fases anteriores .
Tabela 6 - Resultados dos testes finais do modelo das características pareadas .
Figure imgf000041_0001

Claims

REIVINDICAÇÕES
1. Método automático para seleção molecular caracterizado por ser realizado a partir de dados obtidos de espect romet ria de massas e compreender as etapas de:
(1) modelagem, alinhamento e redução de ruido dos dados:
(1.1) extração dos sinais espectrais de cada replicata;
(1.2) identificação das características espectrais presentes nas replicatas e eliminação automática de valores de intensidade de sinal abaixo de 10 ppm em relação ao sinal de maior intensidade (10- 5) ;
(1.3) análise de sinais via distribuição Gaussiana por métricas de intensidade, largura do sinal, resolução e valor do m/ z (massa/carga) ;
(1.4) alinhamento dos sinais superpostos na faixa espectral determinada pela resolução dos ions (m/z) em cada ponto do espectro e cada alinhamento de sinais resultando em uma característica espectral;
(1.5) redução do ruído se a mediana das intensidades espectrais dos sinais nas replicatas da amostra for 0 (Zero) ;
- Obtenção vetores de características (la) ;
(2) normalização de domínio dos dados:
- a normalização de soma 1 é dada por:
Figure imgf000042_0001
onde é o valor da variável j da amostra i do
Figure imgf000042_0002
conjunto representa o valor de
Figure imgf000042_0003
todas as variáveis da amostra i; (3) criação do modelo de aprendizado com dados completos:
(3.1) criação do modelo matemático preditivo:
- separação dos conjuntos de dados (datasets) em subconjuntos baseada em um algoritmo de classificação ou de regressão, evitando-se interseção e sobreposição; o treinamento é compreendido, pelo menos, por 10 rodadas, permutando-se os subconjuntos;
(3.2) avaliação da performance preditiva do modelo aplicado na etapa (3.1) com as métricas de Exatidão, Sensibilidade, Especificidade, Precisão, Valor Preditivo Negativo, FIScore e/ou MCC (Matthews Correlation Coefficient) ;
(4) seleção recursiva de características discriminantes:
(4.1) identificação das características a partir da aplicação recursiva do algoritmo de aprendizagem de máquina ;
(4.2) avaliação de capacidade de predição para as características;
(5) filtragem probabilistica de características discriminantes :
(5.1) avaliação probabilistica das características determinantes :
- as que possuem uma maior probabilidade de ter valores aumentados - características positivas;
- as que possuem maior probabilidade de terem valores reduzidos para a condição de interesse - características negativas; obtenção das características putativas (5a) ; (5.2) avaliação do modelo preditivo com as características putativas (5a) :
- Seja A = {A1, A2, ... ,An} um conjunto de amostras, rotuladas para a condição Y={y1, y2, ... , yn}, onde yi=[0, l] , sendo 1 para a condição satisfeita (amostra positiva) ou 0 para a não satisfeita (amostra negativa) ;
- Seja cada amostra onde cada
Figure imgf000044_0001
valor corresponde aos
Figure imgf000044_0002
valores da mesma em todas as amostras no conjunto A, medidas em uma escala arbitrária diferente em cada amostra Ai, mas constante para todas as variáveis de cada amostra Aí;
Figure imgf000044_0003
- define-se DeltaJ como:
Figure imgf000044_0004
Onde é o valor da variável j da amostra i do
Figure imgf000044_0005
conjunto é o rótulo da amostra i do
Figure imgf000044_0006
conjunto ;
Figure imgf000044_0007
xj é o conjunto de valores da variável j para todas as amostras do conjunto A;
Ap é o conjunto de amostras positivas em A, ou seja, rotuladas com yp=l; é a mediana dos valores j para todas as
Figure imgf000044_0008
amostras do conjunto Ap; P (xj) é a função de distribuição de probabilidade acumulada (Cumulative Distribution Function, CDF, em inglês) dos valores xj e xj no conjunto Ap;
AQ é o conjunto de amostras negativas em A, ou seja, rotuladas com yQ=l;
Figure imgf000045_0001
é a mediana dos valores de variável j para todas as amostras do conjunto AQ; é a função de distribuição de probabilidade
Figure imgf000045_0002
acumulada (CDF em inglês) dos valores xj e xj no conjunto AQ;
(6) análise metabolômica e validação das características putativas (5a) associadas à condição de interesse:
(6.1) consulta a bancos de dados de metabolômica/lipidômica e antecedentes na literatura; e/ou
(6.2) confirmação experimental por espect romet ria de massas sequencial; e/ou
(6.3) validação por técnicas analíticas complementares ;
- Obtenção de características putativas metabolicamente validadas (6a) ;
(7) normalização em dominio das características putativas pareadas :
(7.1) pareamento das características validadas na sub-etapa (6.1) :
Figure imgf000045_0003
- Onde é o valor da variável j da amostra i do
Figure imgf000045_0004
conjunto
Figure imgf000045_0005
(7.2) normalização do pareamento para intervalo [0, 1] :
- aplicação uma segunda transformação de acordo com a fórmula abaixo:
Figure imgf000046_0001
se o valor normalizado está no intervalo entre 0 e 1 para duas características A e B, se o valor for 0, 5, as características têm igual intensidade no vetor;
- se o valor normalizado é menor que 0, 5, então a característica B tem intensidade maior que A e, em particular, se o valor for 0, então a característica A tem valor 0;
- se o valor normalizado é maior que 0, 5, a característica A tem maior intensidade que B e, em particular, se o valor normalizado é 1, então a característica B tem intensidade 0;
- Obtenção de características pareadas (7a) ;
(8) Seleção recursiva de características putativas pareadas :
(8.1) resubmissão das características pareadas (7a) à etapa (3) ;
(8.2) resubmissão das características pareadas (7a) à etapa (4) ;
(8.3) resubmissão das características pareadas (7a) à etapa (5) ; e
- Obtenção de características putativas met abolomicamente validadas (8a) .
PCT/BR2021/050323 2020-08-04 2021-08-03 Método automático de seleção molecular WO2022027118A1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
BRBR102020015916-0 2020-08-04
BR102020015916-0A BR102020015916A2 (pt) 2020-08-04 2020-08-04 Método automático para seleção molecular

Publications (1)

Publication Number Publication Date
WO2022027118A1 true WO2022027118A1 (pt) 2022-02-10

Family

ID=80118896

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/BR2021/050323 WO2022027118A1 (pt) 2020-08-04 2021-08-03 Método automático de seleção molecular

Country Status (2)

Country Link
BR (1) BR102020015916A2 (pt)
WO (1) WO2022027118A1 (pt)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11754536B2 (en) 2021-11-01 2023-09-12 Matterworks Inc Methods and compositions for analyte quantification

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8296247B2 (en) * 2007-03-23 2012-10-23 Three Palm Software Combination machine learning algorithms for computer-aided detection, review and diagnosis
US8515680B2 (en) * 2005-04-13 2013-08-20 Venture Gain L.L.C. Analysis of transcriptomic data using similarity based modeling
US9779204B2 (en) * 2014-10-02 2017-10-03 Biodesix, Inc. Predictive test for aggressiveness or indolence of prostate cancer from mass spectrometry of blood-based sample
CN109856307A (zh) * 2019-03-27 2019-06-07 大连理工大学 一种代谢组分子变量综合筛选技术
US20190214145A1 (en) * 2018-01-10 2019-07-11 Itzhak Kurek Method and systems for creating and screening patient metabolite profile to diagnose current medical condition, diagnose current treatment state and recommend new treatment regimen

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515680B2 (en) * 2005-04-13 2013-08-20 Venture Gain L.L.C. Analysis of transcriptomic data using similarity based modeling
US8296247B2 (en) * 2007-03-23 2012-10-23 Three Palm Software Combination machine learning algorithms for computer-aided detection, review and diagnosis
US9779204B2 (en) * 2014-10-02 2017-10-03 Biodesix, Inc. Predictive test for aggressiveness or indolence of prostate cancer from mass spectrometry of blood-based sample
US20190214145A1 (en) * 2018-01-10 2019-07-11 Itzhak Kurek Method and systems for creating and screening patient metabolite profile to diagnose current medical condition, diagnose current treatment state and recommend new treatment regimen
CN109856307A (zh) * 2019-03-27 2019-06-07 大连理工大学 一种代谢组分子变量综合筛选技术

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
ALONSO ARNALD, MARSAL SARA, JULIÃ ANTONIO: "Analytical methods in untargeted metabolomics: state of the art in 2015", FRONTIERS IN BIOENGINEERING AND BIOTECHNOLOGY, vol. 3, no. 23, 5 March 2015 (2015-03-05), pages 1 - 20, XP055904022, DOI: 10.3389/fbioe.2015.00023 *
CAO YUAN, WANG NA, YING XIAOMIN, LI AILING, WANG HENGSHA, ZHANG XUEMIN, LI WUJU: "BioSunMS: a plug-in-based software for the management of patients information and the analysis of peptide profiles from mass spectrometry", BMC MED INFORM DECIS, vol. 9, no. 1, 17 February 2009 (2009-02-17), pages 1 - 9, XP021049698, DOI: https://doi.org/10.1186/1472-6947-9-13 *
DELAFIORI, JEANY ET AL.: "Covid-19 automated diagnosis and risk assessment through Metabolomics and Machine-Learning", MEDRXIV, 24 July 2020 (2020-07-24), pages 1 - 25, XP055903892, Retrieved from the Internet <URL:https://doi.org/10.1101/2020.07.24.20161828> *
DIAS-AUDIBERT FLÁVIA LUÍSA, NAVARRO LUIZ CLAUDIO, DE OLIVEIRA DIOGO NOIN, DELAFIORI JEANY, MELO CARLOS FERNANDO ODIR RODRIGUES, GU: "Combining Machine Learning and Metabolomics to Identify Weight Gain Biomarkers", FRONTIERS IN BIOENGINEERING AND BIOTECHNOLOG Y, vol. 8, no. 6, 24 January 2020 (2020-01-24), pages 1 - 11, XP055903943, DOI: 10.3389/fbioe.2020.00006. *
LIEBAL, ULF W ET AL.: "Machine Learning Applications for Mass Spectrometry-Based Metabolomics", METABOLITES, vol. 10, no. 243, 13 June 2020 (2020-06-13), pages 1 - 25, XP055904019, DOI: 10.3390/metabo10060243 *
MELO CFOR ET AL.: "A Machine Learning Application Based in Random Forest for Integrating Mass Spectrometry-Based Metabolomic Data: A Simple Screening Method for Patients With Zika Virus", FRONT BIOENG BIOTECHNOL, vol. 6, no. 31, 11 April 2018 (2018-04-11), pages 1 - 11, XP055903925, DOI: 10.3389/fbioe.2018.00031 *
MONTEIRO MS ET AL.: "Metabolomics analysis for biomarker discovery: advances and challenges", CURR MED CHEM, vol. 20, no. 2, 31 December 2013 (2013-12-31), pages 257 - 271, XP055904016, DOI: 10.2174/092986713804806621 *
PLUSKAL TOMÁŠ, CASTILLO SANDRA, VILLAR-BRIONES ALEJANDRO, OREŠIČ MATEJ: "MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data", BMC BIOINFORMATICS 11, vol. 11, no. 1, 23 July 2010 (2010-07-23), pages 1 - 11, XP021071722, Retrieved from the Internet <URL:https://doi.org/10.1186/1471-2105-ll-395.> *
SMITH, COLIN A ET AL.: "XCMS: processing mass spectrometry data for metabolite profiling using nonlinear peak alignment, matching, and identification", ANALYTICAL CHEMISTRY, vol. 78, no. 3, 7 January 2006 (2006-01-07), pages 779 - 87, XP055169270, DOI: 10.1021/ac05143 7y *
TYANOVA STEFKA, TEMU TIKIRA, SINITCYN PAVEL, CARLSON ARTHUR, HEIN MARCO Y, GEIGER TAMAR, MANN MATTHIAS, COX JÜRGEN: "The Perseus computational platform for comprehensive analysis of (prote)omics data", NAT METHODS, vol. 13, no. 9, 27 June 2016 (2016-06-27), pages 731 - 740, XP055904010, DOI: https://doi.org/10.1038/nmeth.3901 *
XIA J., PSYCHOGIOS N., YOUNG N., WISHART D. S.: "MetaboAnalyst: a web server for metabolomic data analysis and interpretation", NUCLEIC ACIDS RES, vol. 37, 8 May 2009 (2009-05-08), pages W652 - W660, XP055436908, DOI: 10.1093/nar/gkp356 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11754536B2 (en) 2021-11-01 2023-09-12 Matterworks Inc Methods and compositions for analyte quantification

Also Published As

Publication number Publication date
BR102020015916A2 (pt) 2022-02-15

Similar Documents

Publication Publication Date Title
JP6729455B2 (ja) 分析データ解析装置及び分析データ解析方法
Fonville et al. The evolution of partial least squares models and related chemometric approaches in metabonomics and metabolic phenotyping
Guo et al. Common mistakes in cross-validating classification models
US11315774B2 (en) Big-data analyzing Method and mass spectrometric system using the same method
Xi et al. Statistical analysis and modeling of mass spectrometry-based metabolomics data
Zhang et al. Evaluation of a novel, integrated approach using functionalized magnetic beads, bench-top MALDI-TOF-MS with prestructured sample supports, and pattern recognition software for profiling potential biomarkers in human plasma
Rinaudo et al. Biosigner: a new method for the discovery of significant molecular signatures from omics data
Ni et al. Screening wavelengths with consistent and stable signals to realize calibration model transfer of near infrared spectra
Jimenez-Carvelo et al. Data mining/machine learning methods in foodomics
WO2020120349A1 (en) Method and system for determining concentration of an analyte in a sample of a bodily fluid, and method and system for generating a software-implemented module
Debik et al. Multivariate analysis of NMR‐based metabolomic data
Bowling et al. Analyzing the metabolome
Lopez et al. The importance of choosing a proper validation strategy in predictive models. A tutorial with real examples
Choudhury et al. Using predictive analytics for cancer identification
WO2022027118A1 (pt) Método automático de seleção molecular
Isberg et al. The effect of sample age on the metabolic information extracted from formalin-fixed and paraffin embedded tissue samples using desorption electrospray ionization mass spectrometry imaging
Judge et al. Problems, principles and progress in computational annotation of NMR metabolomics data
CN113270191A (zh) 一种数据校正及分类方法及存储介质
Vasighi et al. Diagnosis of coronary heart disease based on 1H NMR spectra of human blood plasma using genetic algorithm‐based feature selection
CN114184599B (zh) 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置
Chen et al. Robust variable selection based on bagging classification tree for support vector machine in metabonomic data analysis
Euceda et al. Prediction of clinical endpoints in breast cancer using NMR metabolic profiles
Shahbazy et al. Oblique rotation of factors: a novel pattern recognition strategy to classify fluorescence excitation–emission matrices of human blood plasma for early diagnosis of colorectal cancer
CN114973245A (zh) 基于机器学习的细胞外囊泡分类方法、装置、设备及介质
Akbari Lakeh et al. Discriminating normal regions within cancerous hen ovarian tissue using multivariate hyperspectral image analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21853341

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 06/07/2023)