RU2803128C2 - Method of processing chromato-mass-spectrometric data to increase the efficiency of search for diagnostic markers in clinical studies - Google Patents

Method of processing chromato-mass-spectrometric data to increase the efficiency of search for diagnostic markers in clinical studies Download PDF

Info

Publication number
RU2803128C2
RU2803128C2 RU2021126242A RU2021126242A RU2803128C2 RU 2803128 C2 RU2803128 C2 RU 2803128C2 RU 2021126242 A RU2021126242 A RU 2021126242A RU 2021126242 A RU2021126242 A RU 2021126242A RU 2803128 C2 RU2803128 C2 RU 2803128C2
Authority
RU
Russia
Prior art keywords
compounds
samples
data
zero
markers
Prior art date
Application number
RU2021126242A
Other languages
Russian (ru)
Other versions
RU2021126242A (en
Inventor
Алиса Олеговна Токарева
Алексей Сергеевич Кононихин
Евгений Николаевич Николаев
Original Assignee
Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий"
Filing date
Publication date
Application filed by Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" filed Critical Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий"
Publication of RU2021126242A publication Critical patent/RU2021126242A/en
Application granted granted Critical
Publication of RU2803128C2 publication Critical patent/RU2803128C2/en

Links

Abstract

FIELD: medicine, analytical chemistry and medical diagnostics.
SUBSTANCE: invention can be used to determine potential diagnostic marker compounds in clinical trials. The samples of biological material obtained or isolated from the patient are taken. A uniform distribution of samples of each clinical group between different analyzed batches are carried out. Chromato-mass spectrometric analysis of the received batches is performed. The received data is preprocessed and at least one compound is identified from the received data. A set of compounds, potential markers using a trained classification model are obtained. Based on the Akaike information criterion, compounds, potential markers are selected from the set selected at the previous stage. Compounds are stepwise removed from the generated set of compounds, potential markers, in which the value of the probability of the coefficient differing from zero is less than the value of the probability limit of the coefficient differing from zero.
EFFECT: method improves the accuracy of determining diagnostic markers in clinical trials by using the Akaike information criterion.
1 cl, 5 dwg, 3 ex

Description

ОБЛАСТЬ ТЕХНИКИTECHNICAL FIELD

Настоящее техническое решение относится к области аналитической химии, а именно к способам обработки данных, полученных в ходе масс-спектрометрического анализа большого количества образцов для поиска диагностических маркеров.This technical solution relates to the field of analytical chemistry, namely to methods for processing data obtained during mass spectrometric analysis of a large number of samples to search for diagnostic markers.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE ART

Из уровня техники известен источник информации RU 2 743 418 C1, опубликованный 18.02.2021г., раскрывающий способ анализа данных о содержании в образце интересующих классов липидов на основе масс-спектрометрического анализа с жидкостной хроматографией, включающий получение данных жидкостной хроматографии с масс-спектрометрией анализируемого образца, обработку спектров для получения таблиц с интенсивностями липидных признаков и их значениями масс-на-заряд и времени удерживания, определение модели решетки, поиск оптимальной решетки путем подбора оптимального набора параметров, формирование аннотации с использованием оптимальной решетки, где все признаки, попавшие в предсказанное время в пределах заранее заданной погрешности, считаются аннотированными, вывод результата аннотирования в виде таблицы, где липидным признакам сопоставлено название липида.The source of information RU 2 743 418 C1, published on February 18, 2021, is known from the prior art, revealing a method for analyzing data on the content of lipid classes of interest in a sample based on mass spectrometric analysis with liquid chromatography, including obtaining liquid chromatography data with mass spectrometry of the analyzed sample , processing the spectra to obtain tables with the intensities of lipid features and their mass-per-charge and retention time values, determining the lattice model, searching for the optimal lattice by selecting the optimal set of parameters, generating an annotation using the optimal lattice, where all the features that fall within the predicted time within a predetermined error, are considered annotated, output of the annotation result in the form of a table where the lipid characteristics are associated with the name of the lipid.

Из уровня техники известен источник информации RU 2 744 021 C1, опубликованный 02.03.2021г., раскрывающий способ диагностики стеатоза и неалкогольного стеатогепатита у женщин на основе венозной крови, причем анализ проводят хроматографическим методом. Полученные данные в ходе хроматорафического анализа обрабатывают с помощью MetAlign, AIoutput, в результате чего получают матрицу данных. Затем данные загружают в пакет программ BioClassificator.py, который позволяет проводить их обработку с помощью метода главных компонент (РСА), а также классификаторов- SVM (support vector machine), PLS-DA (Partial least squares Discriminant Analysis), Naive Bayes. В результате, строят ROC-кривую для каждого из методов, а также выводят среднюю точность и ее дисперсию. С помощью классификатора SVM (support vector machine) выбирают соединения, разделяющие группы здоровых и пациентов с неалкогольная жировая болезнь печени, которые являются диагностическими маркерами.The source of information RU 2 744 021 C1, published on March 02, 2021, is known from the prior art, revealing a method for diagnosing steatosis and non-alcoholic steatohepatitis in women based on venous blood, and the analysis is carried out by the chromatographic method. The data obtained during chromatographic analysis is processed using MetAlign, AIoutput, resulting in a data matrix. Then the data is loaded into the BioClassificator.py software package, which allows them to be processed using the principal component method (PCA), as well as classifiers - SVM (support vector machine), PLS-DA (Partial least squares Discriminant Analysis), Naive Bayes. As a result, an ROC curve is constructed for each method, and the average accuracy and its variance are also output. Using the SVM (support vector machine) classifier, compounds are selected that separate groups of healthy people and patients with non-alcoholic fatty liver disease, which are diagnostic markers.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Технической задачей, на решение которой направлено заявленное решение, является разработка способа для обработки данных, полученных с использованием жидкостной хромато-масс-спектрометрии для создания панели маркеров для модели, выполняющей классификацию данных «патология/отсутствие патологии» при проведении клинических исследований, на основе логистической регрессии, охарактеризованного в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения.The technical problem that the claimed solution is aimed at is the development of a method for processing data obtained using liquid chromatography-mass spectrometry to create a panel of markers for a model that classifies data “pathology/absence of pathology” during clinical trials, based on logistic regression described in the independent claim of the formula. Additional embodiments of the present invention are presented in the dependent claims.

Технический результат заключается в повышении точности определения диагностических маркеров при проведении клинических исследований. Дополнительно, технический результат заключатся в увеличении скорости обработки данных, полученных с использованием жидкостной хромато-масс-спектрометрии, и выявления заболевания у пациентов. Дополнительным техническим результатом является увеличение производительности вычислительной системы при решении поставленной задачи (т.е. позволяет производить обработку с получением результата (продукта) за меньшее количество времени), тем самым снижается нагрузка на центральный процессор вычислительного устройства, за счет уменьшения количества обрабатываемых запросовThe technical result is to increase the accuracy of determining diagnostic markers during clinical studies. Additionally, the technical result will be to increase the speed of processing data obtained using liquid chromatography-mass spectrometry and identifying diseases in patients. An additional technical result is an increase in the performance of the computing system when solving a given problem (i.e., it allows processing to obtain a result (product) in less time), thereby reducing the load on the central processor of the computing device by reducing the number of processed requests

Заявленный результат достигается за счет осуществления способа определения диагностических соединений-маркеров при проведении клинических исследований посредством обработки хромато-масс-спектрометрических данных выполняющийся на вычислительном устройстве, который содержит процессор и память, хранящую инструкции, исполняемые процессором и включающие следующие этапы: The claimed result is achieved by implementing a method for determining diagnostic marker compounds during clinical studies by processing chromatography-mass spectrometric data, performed on a computing device that contains a processor and memory storing instructions executed by the processor and including the following steps:

получают биологические образцы полученные или выделенные от пациента;receive biological samples obtained or isolated from the patient;

осуществляют распределение биологических образцов от разных клинических групп равномерно между различными анализируемыми партиями;carry out the distribution of biological samples from different clinical groups evenly between different analyzed batches;

осуществляют хромато-масс-спектрометрический анализ полученных партий;carry out gas chromatography-mass spectrometric analysis of the received batches;

результаты хромато-масс-спектрометрического анализа поступают на вычислительное устройство, где осуществляют предобработку полученных данных и идентификацию по меньшей мере одного соединения из полученных данных; the results of chromatography-mass spectrometric analysis are sent to a computing device, where the received data is preprocessed and at least one compound is identified from the obtained data;

осуществляют автошкалирование площадей пиков в по меньшей мере одном соединении, полученном на предыдущем этапе;autoscaling the peak areas in at least one compound obtained in the previous step;

полученные результаты автошкалирования поступают на вход обученной классификационной модели, на выходе получают набор соединений – потенциальных маркеров, при этом классификационная модель строится на основе ортогональных проекций на скрытых структурах; the obtained autoscaling results are fed to the input of the trained classification model, the output is a set of connections - potential markers, while the classification model is built on the basis of orthogonal projections on hidden structures;

осуществляют выбор соединений – потенциальных маркеров из набора, выбранного на предыдущем этапе, на основе информационного критерия Акаике;select compounds - potential markers from the set selected at the previous stage, based on the Akaike information criterion;

осуществляют пошаговое удаление соединений из сформированного набора соединений – потенциальных маркеров у которых значение нулевого коэффициента больше заранее заданного значения. carry out step-by-step removal of connections from the generated set of connections - potential markers whose zero coefficient value is greater than a predetermined value.

В частном варианте реализации предлагаемого решения, биологический образец представляет собой липидомный, метаболомный или пептидомный экстракт крови, плазмы, сыворотки крови, соскоба эпителия, биопсийный материал.In a particular embodiment of the proposed solution, the biological sample is a lipidomic, metabolomic or peptidomic extract of blood, plasma, blood serum, epithelial scraping, or biopsy material.

В другом частном варианте реализации предлагаемого решения, хроматографический анализ производится на обратно-фазовой колонке. In another particular embodiment of the proposed solution, chromatographic analysis is performed on a reverse phase column.

В другом частном варианте реализации предлагаемого решения, хроматографический анализ производится на нормально-фазовой колонке.In another particular embodiment of the proposed solution, chromatographic analysis is performed on a normal-phase column.

В другом частном варианте реализации предлагаемого решения, хроматографический анализ производится на гидрофильной колонке.In another particular embodiment of the proposed solution, chromatographic analysis is performed on a hydrophilic column.

В другом частном варианте реализации предлагаемого решения, масс-спектрометрический анализ производится с использованием зависимого сканирования.In another particular embodiment of the proposed solution, mass spectrometric analysis is performed using dependent scanning.

В другом частном варианте реализации предлагаемого решения, масс-спектрометрический анализ производится с использованием независимого сканирования.In another particular embodiment of the proposed solution, mass spectrometric analysis is performed using independent scanning.

В другом частном варианте реализации предлагаемого решения, масс-спектрометрический анализ производится без использования сканирования.In another particular embodiment of the proposed solution, mass spectrometric analysis is performed without the use of scanning.

В другом частном варианте реализации предлагаемого решения, граничная вероятность нулевого значения коэффициента больше или меньше 0,05. In another particular embodiment of the proposed solution, the marginal probability of a zero coefficient value is greater or less than 0.05.

В другом частном варианте реализации предлагаемого решения, граничная величина отличия вектора коэффициентов больше или меньше 0,0001.In another particular embodiment of the proposed solution, the boundary value of the difference between the vector of coefficients is greater or less than 0.0001.

ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF DRAWINGS

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:The implementation of the invention will be described further in accordance with the accompanying drawings, which are presented to explain the essence of the invention and in no way limit the scope of the invention. The following drawings are attached to the application:

Фиг.1 иллюстрирует распределение биологических образцов, не подвергавшихся нормализации в пространстве трёх главных компонент. Группа 1 – нормальная ткань молочной железы от пациентов без метастазирования, группа 2 – ткань нормальной ткани молочной железы от пациентов с метастазированием, группа 3 – опухолевая ткань молочной железы от пациентов без метастазирования, группа 4 – опухолевая ткань молочной железы от пациентов с метастазированием, группа qc – группа образцов контроля качества. Figure 1 illustrates the distribution of biological samples that were not normalized in the space of three principal components. Group 1 – normal breast tissue from patients without metastasis, group 2 – normal breast tissue from patients with metastasis, group 3 – tumor breast tissue from patients without metastasis, group 4 – tumor breast tissue from patients with metastasis, group qc – group of quality control samples.

Фиг.2 иллюстрирует распределение биологических образцов после автошкалирования в пространстве трёх главных компонент. Группа 1 – нормальная ткань молочной железы от пациентов без метастазирования, группа 2 – ткань нормальной ткани молочной железы от пациентов с метастазированием, группа 3 – опухолевая ткань молочной железы от пациентов без метастазирования, группа 4 – опухолевая ткань молочной железы от пациентов с метастазированием, группа qc – группа образцов контроля качества.Figure 2 illustrates the distribution of biological samples after autoscaling in the space of three principal components. Group 1 – normal breast tissue from patients without metastasis, group 2 – normal breast tissue from patients with metastasis, group 3 – tumor breast tissue from patients without metastasis, group 4 – tumor breast tissue from patients with metastasis, group qc – group of quality control samples.

Фиг.3 иллюстрирует липиды, выбранные как маркеры в опухолевой ткани посредством предлагаемого способа.Figure 3 illustrates lipids selected as markers in tumor tissue by the proposed method.

Фиг.4 иллюстрирует липиды, выбранные как маркеры в нормальной ткани посредством предлагаемого способа.Figure 4 illustrates lipids selected as markers in normal tissue by the proposed method.

Фиг.5, иллюстрирует пример схемы работы вычислительного устройства.Figure 5 illustrates an example of a circuit diagram for the operation of a computing device.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.The following detailed description of the invention sets forth numerous implementation details designed to provide a clear understanding of the present invention. However, it will be apparent to one skilled in the art how the present invention can be used with or without these implementation details. In other cases, well-known methods, procedures and components have not been described in detail so as not to unduly obscure the features of the present invention.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.In addition, from the above discussion it will be clear that the invention is not limited to the above implementation. Numerous possible modifications, alterations, variations and substitutions, while retaining the spirit and form of the present invention, will be apparent to those skilled in the art.

Нижеуказанные термины и определения применяются в данной заявке, если иное явно не указано. Ссылки на методики, используемые при описании данного изобретения, относятся к хорошо известным методам, включая изменения этих методов и замену их эквивалентными методами, известными специалистам в данной области техники.The following terms and definitions apply to this application unless otherwise expressly stated. References to techniques used in the description of this invention refer to well known techniques, including modifications of these techniques and replacement thereof with equivalent techniques known to those skilled in the art.

В описании данного изобретения термины «включает» и «включающий» интерпретируются как означающие «включает, помимо всего прочего». Указанные термины не предназначены для того, чтобы их истолковывали как «состоит только из».As used herein, the terms “includes” and “including” are interpreted to mean “including, but not limited to.” These terms are not intended to be construed as “consisting only of.”

Термин «биологический образец» или «образец» включает кровь, плазму, сыворотку крови, соскоб эпителия, ткани, полученные в результате взятия биопсии от пациента или иные твёрдые, или жидкие биологические материалы. The term “biological sample” or “specimen” includes blood, plasma, serum, epithelial scraping, tissue obtained by biopsy from a patient, or other solid or liquid biological material.

Термин «пациент» относится к человеку.The term "patient" refers to a person.

Термин «партия» относится к группе образцов, чей анализ производится непрерывно.The term “batch” refers to a group of samples that are analyzed continuously.

Термин «клиническая группа» относится к группе образцов, объединённых общим диагнозом пациентов, у которых был взят биологический образец.The term “clinical group” refers to a group of samples united by a common diagnosis of patients from whom the biological sample was collected.

Если не определено отдельно, технические и научные термины в данной заявке имеют стандартные значения, общепринятые в научной и технической литературе.Unless otherwise defined, technical and scientific terms in this application have their standard meanings commonly accepted in the scientific and technical literature.

Предлагаемый способ определения диагностических соединений-маркеров при проведении клинических исследований посредством обработки хромато-масс-спектрометрических данных включает следующие этапы: The proposed method for determining diagnostic marker compounds during clinical studies by processing chromatography-mass spectrometric data includes the following steps:

• получают биологические образцы от пациента;• obtain biological samples from the patient;

• создают партии для анализа, с таким распределением биологических образцов между ними, чтобы относительное количество биологических образцов, отдельно взятой клинической группы, было одинаковым в каждой партии. Например, если требуется анализ 20 образцов группы 1 (нормальная ткань молочной железы от пациентов без метастазирования) и 28 образцов группы 2 (ткань нормальной ткани молочной железы от пациентов с метастазированием), то предпочтительным является создание 2-х партий, содержащих по 10 образцов группы 1 (нормальная ткань молочной железы от пациентов без метастазирования) и 14 образцов группы 2 (ткань нормальной ткани молочной железы от пациентов с метастазированием), или 4-х партий, содержащих по 5 образцов группы 1 (нормальная ткань молочной железы от пациентов без метастазирования) и по 7 образцов группы 2 (ткань нормальной ткани молочной железы от пациентов с метастазированием);• create batches for analysis, with such a distribution of biological samples between them that the relative number of biological samples from a particular clinical group is the same in each batch. For example, if 20 Group 1 samples (normal breast tissue from patients without metastasis) and 28 Group 2 samples (normal breast tissue from patients with metastasis) are required, then it is preferable to create 2 batches containing 10 samples from each group 1 (normal breast tissue from patients without metastasis) and 14 samples of group 2 (normal breast tissue from patients with metastasis), or 4 lots containing 5 samples of group 1 (normal breast tissue from patients without metastasis) and 7 samples each from group 2 (normal breast tissue from patients with metastasis);

• выполнение хромато-масс-спектрометрического анализа созданных партий с использованием жидкостной хроматографии и масс-анализаторов высокого разрешения и мягких методов ионизации (например, химическая ионизация, электроспрей). Хроматографический анализ может производиться на обратно-фазовой колонке или нормально-фазовой колонке, или на гидрофильной колонке. Масс-спектрометрический анализ может производиться с использованием зависимого сканирования или с использованием независимого сканирования. Результаты анализа записываются в файл и с помощью средств сетевого взаимодействия передаются на вычислительное устройство. Данные хромато-масс-спектрометрического анализа могут быть получены со стороны;• performing chromatography-mass spectrometric analysis of created batches using liquid chromatography and high-resolution mass analyzers and soft ionization methods (for example, chemical ionization, electrospray). Chromatographic analysis can be performed on a reverse phase column, a normal phase column, or a hydrophilic column. Mass spectrometric analysis can be performed using dependent scanning or using independent scanning. The analysis results are written to a file and transferred to a computing device using network communication tools. Chromatography-mass spectrometric analysis data can be obtained from the outside;

осуществляют конфигурацию вычислительного устройства, где под обработку данных, полученных в результате хромато-масс-спектрометрического анализа, выделяется ядро операционной системы, а также по меньшей мере два потока, при этом осуществляют:carry out the configuration of a computing device, where the core of the operating system, as well as at least two threads, are allocated for processing the data obtained as a result of chromatography-mass spectrometric analysis, as well as at least two threads, while doing the following:

• предобработку данных, полученных в результате хромато-масс-спектрометрического анализа и идентификацию соединений;• preprocessing of data obtained as a result of chromatography-mass spectrometric analysis and identification of compounds;

• автошкалирование площадей пиков в предобработанных данных;• autoscaling of peak areas in preprocessed data;

• построение классификационной модели и выбор набора соединений в результате работы классификационной модели;• construction of a classification model and selection of a set of compounds as a result of the classification model;

• выбор соединений из набора, созданного в предыдущем пункте, на основе информационного критерия Акаике;• selection of compounds from the set created in the previous paragraph, based on the Akaike information criterion;

• пошаговое удаление соединений из сформированного набора соединений, у которых вероятность нулевого значения коэффициента больше пороговой величины.• step-by-step removal of connections from the generated set of connections for which the probability of a zero coefficient value is greater than a threshold value.

Предобработка данных может быть проведена с использованием бесплатно распространяемых пакетов программ MzMine или XCMS. Целью предобработки данных является получение таблицы, содержащей информацию об отношении массы к заряду зарегистрированных ионов, полученных в результате хромато-масс-спектрометрического анализа, их времён выхода и площадей пиков, к которому относится соответствующие ионы, для каждого образца. Data preprocessing can be carried out using freely distributed software packages MzMine or XCMS. The purpose of data preprocessing is to obtain a table containing information about the mass-to-charge ratio of registered ions obtained as a result of gas chromatography-mass spectrometric analysis, their release times and peak areas to which the corresponding ions belong, for each sample.

Идентификация соединений может осуществляться на основе точных ионных масс, и/или времён выхода, а также информации о спектрах фрагментации, полученной в ходе масс-спектрометрического анализа, если осуществлялась тандемная масс-спектрометрия в формате зависимого или независимого сканирования. Для идентификации могут использоваться библиотеки HMDB, Lipid MAPS, SMDB, Metlin, а также созданные в лаборатории базы данных на основе вышеперечисленных.Identification of compounds can be based on precise ion masses and/or release times, as well as information on fragmentation spectra obtained from mass spectrometric analysis if tandem mass spectrometry was performed in a dependent or independent scan format. For identification, the HMDB, Lipid MAPS, SMDB, Metlin libraries, as well as databases created in the laboratory based on the above, can be used.

Автошкалирование осуществляется для ликвидации различий между партиями.Autoscaling is carried out to eliminate differences between batches.

Автошкалирование площадей пиков в предобработанных данных осуществлялось с использованием формулы , где p – номер пика, s – номер образца, b – номер партии, <Ip,b> и sd(Ip,b) – среднее значение и стандартное отклонение площади пика p по партии b, <Ip> и sd(Ip) – среднее значение и стандартное отклонение площади пика p по всем образцам. Ip,s,b и I*p,s,b – значения площади пика p из образца s партии b до и после нормализации. В результате автошкалирования создается набор данных о принадлежности каждого образца к определённой клинической группе и значения площади пика каждого идентифицированного соединения.Autoscaling of peak areas in preprocessed data was carried out using the formula , where p is the peak number, s is the sample number, b is the batch number, <I p,b > and sd(I p,b ) is the average value and standard deviation of peak area p for batch b, <I p > and sd (I p ) – average value and standard deviation of peak area p for all samples. I p,s,b and I* p,s,b – values of peak area p from sample s of batch b before and after normalization. As a result of autoscaling, a data set is created about the belonging of each sample to a specific clinical group and the peak area values of each identified compound.

Набор данных, содержащий информацию о принадлежности каждого образца к определённой клинической группе и значения площади пика каждого идентифицированного соединения после автошкалирования, использовался для построения классификационной модели «патология/отсутствие патологии» на основе ортогональных проекций на скрытые структуры: A data set containing information about the membership of each sample in a specific clinical group and the peak area values of each identified compound after autoscaling was used to build a “pathology/no pathology” classification model based on orthogonal projections onto hidden structures:

1. Информация об относительной интенсивности пиков в образцах представляется в виде матрицы независимых переменных n*m X, где n – число образцов, m – число соединений. Информация о клиническом состоянии образца представляется в виде столбца переменных отклика y высотой p, где 0 обозначается состояние «контроль», 1 – состояние «болезнь»;1. Information about the relative intensity of peaks in samples is presented as a matrix of independent variables n*mX, where n is the number of samples, m is the number of compounds. Information about the clinical state of the sample is presented as a column of response variables y of height p, where 0 denotes the “control” state, 1 – the “disease” state;

2. Выполняется парето-масштабирование матрицы независимых переменных (1), где – i-ый столбец матрицы X, – среднее значение i-того столбца и – стандартное отклонение переменных в i-ом столбце;2. Pareto scaling of the matrix of independent variables is performed (1), where – i-th column of matrix X , is the average value of the i-th column and – standard deviation of variables in the i-th column;

3. Выполняется парето-масштабирование столбца зависимых переменных (2), где – среднее значение переменных отклика, – стандартное отклонение переменных отклика;3. Pareto scaling of the dependent variable column is performed (2), where – average value of response variables, – standard deviation of response variables;

4. Рассчитываются веса для независимых переменных (3);4. Weights for independent variables are calculated (3);

5. Выполняется нормализация рассчитанного вектора (4);5. The calculated vector is normalized (4);

6. Рассчитываются предсказательные счета (5);6. Predictive scores are calculated (5);

7. Рассчитывается предсказательная нагрузка независимых переменных (6);7. The predictive load of independent variables is calculated (6);

8. Вычисляется вектор ортогональных нагрузок (7);8. The vector of orthogonal loads is calculated (7);

9. Выполняется нормализация рассчитанного вектора ортогональных нагрузок (8);9. The calculated vector of orthogonal loads is normalized (8);

10. Рассчитываются ортогональные счета (9);10. Orthogonal accounts are calculated (9);

11. Рассчитывается ортогональная нагрузка независимых переменных (10);11. The orthogonal loading of the independent variables is calculated (10);

12. Вычисляются данные, не содержащие ортогональной составляющей (11)12. Data that does not contain an orthogonal component is calculated (eleven)

13. Вычисляются предсказательные счета от независимых переменных, не содержащих ортогональной составляющей (12);13. Predictive scores are calculated from independent variables that do not contain an orthogonal component (12);

14. Вычисляется предсказательная нагрузка от независимых переменных, не содержащих ортогональной составляющей (13);14. The predictive load from independent variables that do not contain an orthogonal component is calculated (13);

15. Вектор, содержащий предсказательную нагрузку от независимых переменных без ортогональной составляющей, нормируется (14);15. A vector containing a predictive load from independent variables without an orthogonal component is normalized (14);

16. Рассчитывается вектор, содержащий значения проекций переменной (15).16. A vector containing the values of the projections of the variable is calculated (15).

Полученные значения проекции переменной (ПП) использовались в качества критерия выбора соединений-потенциальных маркеров. Соединение -потенциальный маркер представляет собой соединение, чей уровень позволяет характеризовать клиническую принадлежность анализируемого биоматериала.The obtained variable projection (PP) values were used as a criterion for selecting potential marker compounds. A potential marker compound is a compound whose level makes it possible to characterize the clinical identity of the analyzed biomaterial.

В частном варианте осуществления изобретения нижней границей ПП для отнесения к потенциальным маркерам являлась 1. Могут быть определены другие значения минимального значения ПП для отнесения соединений к потенциальным маркерам.In a particular embodiment of the invention, the lower limit of the PP for classification as potential markers was 1. Other values of the minimum PP for classifying compounds as potential markers can be determined.

Из набора соединений, отобранных по значению ПП в предыдущем пункте, по одному выбирались соединения, приводящие к максимальному увеличению информационного критерия Акаике (ИКА) на каждой итерации отбора переменных по алгоритму, содержащему в себе этапы расчёта ИКА (Этап 1), выбора максимального ИКА (Этап 2) и сравнения старого и нового ИКА (Этап 3): From the set of compounds selected by the PP value in the previous paragraph, the compounds leading to the maximum increase in the Akaike information criterion (AIC) were selected one at a time at each iteration of variable selection according to an algorithm containing the stages of calculating the AKA (Stage 1), selecting the maximum AKA ( Stage 2) and comparison of the old and new ICA (Stage 3):

Произвольно выбирается переменная из набора переменных, сформированного на основе значений ПП. Далее следует этап расчёта ИКА (1) – 6))A variable is randomly selected from a set of variables formed on the basis of the PP values. Next comes the ICA calculation stage (1) – 6))

Строится лог-функция правдоподобия (16), где – переменная отклика, принимающая значения 0 или 1, – объединённый вектор единицы и независимых переменных, – объединённый вектор свободного члена и коэффициентов при переменных.The log-likelihood function is constructed (16), where – response variable taking values 0 or 1, is the combined vector of unity and independent variables, is the combined vector of the free term and coefficients of the variables.

Выполняется дифференцирование функции по , получая уравнения: The function is differentiated by , obtaining the equations:

(17). (17).

1) Рассчитывается вторая производная:1) The second derivative is calculated:

(18). (18).

2) На основе метода Ньютона-Рафсона рассчитывается вектор 2) Based on the Newton-Raphson method, the vector is calculated

где k – номер итерации, X – матрица единичного вектора и независимых переменных, W – диагональная матрица с элементами , y- вектор переменной отклика и p – вектор вероятности . Вычисление происходит, пока . В частном варианте осуществления изобретения относительная разница модулей векторов между итерациями от нуля = 0,0001. Могут быть определены другие значения границы значимости отличия коэффициентов от нуля.where k is the iteration number, X is the matrix of the unit vector and independent variables, W is the diagonal matrix with elements , y is the response variable vector and p is the probability vector . Calculation happens while . In a particular embodiment of the invention, the relative difference in vector modules between iterations from zero = 0.0001. Other values of the significance limit for the difference between coefficients and zero can be determined.

3) Подставить вычисленные значения в лог-функцию правдоподобия из п. 1).3) Substitute the calculated values into the log-likelihood function from step 1).

4) Рассчитать информационный критерий по формуле (19), где N – число независимых переменных, задействованных в регрессиях.4) Calculate the information criterion using the formula (19), where N is the number of independent variables involved in the regressions.

Повторить Этап 1 для всех m переменных.Repeat Stage 1 for all m variables.

Выбрать переменную, для которой рассчитанное значение AIC будет максимальным (Этап 2). Данное значение обозначено как AIC’.Select the variable for which the calculated AIC value will be maximum (Step 2). This value is designated as AIC'.

Выполнить Этап 1 и Этап 2 для комбинации «выбранная ранее переменная + каждая из оставшихся переменных».Perform Stage 1 and Stage 2 for the combination of “previously selected variable + each of the remaining variables.”

Сравнить AIC со значением AIC’ (Этап 3).Compare AIC with AIC’ value (Step 3).

Если AIC из п. 5 больше AIC’, повторить Этапы 1-3, имея в качестве постоянных переменных переменные, отобранные ранее и обозначив как AIC’ значение из п. 5. Если AIC из п. 5 меньше AIC’, п. 7.If AIC from step 5 is greater than AIC’, repeat Steps 1-3, having as constant variables the variables selected earlier and denoting as AIC’ the value from step 5. If AIC from step 5 is less than AIC’, step 7.

Переменные, при которых было получено AIC’ и рассчитанные для них коэффициенты используем дальше.We use the variables for which AIC’ was obtained and the coefficients calculated for them further.

Далее осуществляют проверку на статистически значимое неравенство коэффициентов при переменных равных нулю с удалением переменных, не удовлетворявших этому условию:Next, they check for statistically significant inequality of coefficients with variables equal to zero with the removal of variables that do not satisfy this condition:

1. С использованием выбранных ранее переменных строилась лог-функция правдоподобия (20), где – переменная отклика, принимающая значения 0 или 1, – объединённый вектор единицы и независимых переменных, – объединённый вектор свободного члена и коэффициентов при переменных.1. Using the previously selected variables, a log-likelihood function was constructed (20), where – response variable taking values 0 or 1, is the combined vector of unity and independent variables, is the combined vector of the free term and coefficients of the variables.

2. Выполняется дифференцирование функции по , получая уравнения 2. The function is differentiated by , obtaining the equations

(21) (21)

3. Рассчитывается вторая производная3. The second derivative is calculated

(22) (22)

4. На основе метода Ньютона-Рафсона рассчитывается вектор 4. Based on the Newton-Raphson method, the vector is calculated

где k – номер итерации, X – матрица единичного вектора и независимых переменных, W – диагональная матрица с элементами , y- вектор переменной отклика и p – вектор вероятности . Вычисление происходит, пока . В частном варианте осуществления изобретения относительная разница модулей векторов между итерациями от нуля = 0,0001. Могут быть определены другие значения границы значимости отличия коэффициентов от нуля.where k is the iteration number, X is the matrix of the unit vector and independent variables, W is the diagonal matrix with elements , y is the response variable vector and p is the probability vector . Calculation happens while . In a particular embodiment of the invention, the relative difference in vector modules between iterations from zero = 0.0001. Other values of the significance limit for the difference between coefficients and zero can be determined.

5. Подставив вычисленные значения в матрицу (23), вычисляют значения стандартной ошибки для коэффициента (24), где j – порядковый номер коэффициента в векторе .5. Substituting the calculated values into the matrix (23), calculate the standard error values for the coefficient (24), where j is the serial number of the coefficient in the vector .

6. Вычисляют вероятность отличия от нуля коэффициента (25), где – распределение квадрата независимой стандартной нормальной случайной величины θ.6. Calculate the probability of the coefficient differing from zero (25), where – distribution of the square of the independent standard normal random variable θ.

7. Если существует , где – некая критическая величина и i > 0, то переменная, соответствующая , исключается из задействованного набора переменных и действия 1-6 повторяются.7. If exists , Where is a certain critical value and i > 0, then the variable corresponding , is excluded from the involved set of variables and steps 1-6 are repeated.

В частном варианте осуществления изобретения границей значимости отличия от нуля = 0,05. Могут быть определены другие значения границы значимости отличия коэффициентов от нуля.In a particular embodiment of the invention, the significance limit of the difference from zero is = 0.05. Other values of the significance limit for the difference between coefficients and zero can be determined.

Нижеследующие примеры осуществления способа приведены в целях раскрытия характеристик настоящего изобретения.The following examples of implementation of the method are given in order to disclose the characteristics of the present invention.

Пример 1. Нормализация данных, полученных в ходе хромато-масс-спектрометрического анализа биопсийного материала молочной железы. Example 1. Normalization of data obtained during gas chromatography-mass spectrometric analysis of breast biopsy material.

У 40 пациентов с раком молочной железы без регионарного метастазирования и у 48 пациентов с раком молочной железы с регионарным метастазированием были взяты биологические образцы, а именно биопсийные материалы опухолевой ткани молочной железы и нормальной ткани молочной железы. Из тканей были выделены липиды методом Фолча [Folch J, Lees M, Sloane Stanley GH. A simple method for the isolation and purification of total lipides from animal tissues. J Biol Chem. 1957;226: 497–509].Biological samples, namely biopsies of tumor breast tissue and normal breast tissue, were taken from 40 patients with breast cancer without regional metastasis and 48 patients with breast cancer with regional metastasis. Lipids were isolated from tissues using the Folch method [Folch J, Lees M, Sloane Stanley GH. A simple method for the isolation and purification of total lipides from animal tissues. J Biol Chem. 1957;226:497–509].

Полученные биопсийные материалы ткани молочной железы были распределены на четыре группы:The obtained biopsy materials of breast tissue were divided into four groups:

Группа 1 – нормальная ткань молочной железы от пациентов без метастазирования;Group 1 – normal breast tissue from patients without metastasis;

Группа 2 – ткань нормальной ткани молочной железы от пациентов с метастазированием;Group 2 – normal breast tissue from patients with metastasis;

Группа 3 – опухолевая ткань молочной железы от пациентов без метастазирования;Group 3 – breast tumor tissue from patients without metastasis;

Группа 4 – опухолевая ткань молочной железы от пациентов с метастазированием.Group 4 – breast tumor tissue from patients with metastasis.

Липидные экстракты тканей были разбиты на три партии:Lipid tissue extracts were divided into three batches:

• 16 образцов из группы 1, 14 образцов из группы 2, 16 образцов из группы 3, 14 образцов из группы 4;• 16 samples from group 1, 14 samples from group 2, 16 samples from group 3, 14 samples from group 4;

• 10 образцов из группы 1, 20 образцов из группы 2, 10 образцов из группы 3, 20 образцов из группы 4;• 10 samples from group 1, 20 samples from group 2, 10 samples from group 3, 20 samples from group 4;

• 14 образцов из группы 1, 14 образцов из группы 2, 14 образцов из группы 3, 14 образцов из группы 4.• 14 samples from group 1, 14 samples from group 2, 14 samples from group 3, 14 samples from group 4.

На основе 10 мкл. от каждого экстракта был создан образец контроля качества. Based on 10 µl. A quality control sample was generated from each extract.

Разделение липидных экстрактов осуществлялось на хроматографе Dionex UltiMate 3000 (Thermo Scientific, Бремен, Германия) с использованием обратно-фазовой колонки Zorbax C18 (длина 150 мм, внутренний диаметр 2.1 мм, размер частиц 5 мкм, Agilent, США) и следующих элюентов в качестве подвижной фазы: элюент А - ацетонитрил/вода (60/40, о/о) с добавлением 0,1% муравьиной кислоты и 10 мМ формиата аммония; элюент В - ацетонитрил/изопропанол/вода, (90/8/2, о/о/о), с добавлением 0,1% муравьиной кислоты и 10 мМ формиата аммония. Скорость потока 35 мкл/мин, температура колонки 50 оС. Доля градиента В изменялась по заданному алгоритму: 0-0.5 мин – 30% В, до 20-ой минуты росла до 99% и сохраняла значение до 30-ой минуты и за полминуты возвращалось к значению 30%. Масс-спектрометрический анализ производился с использованием прибора Maxis Impact со следующими настройками: диапазон 100-1800 m/z, с напряжением на капилляре 4.1 кВ в режиме положительных ионов, давлением распыляющего газа 0.7 бар, скорости потока осушающего газа 6 л/мин и температурой 200 оС. The separation of lipid extracts was carried out on a Dionex UltiMate 3000 chromatograph (Thermo Scientific, Bremen, Germany) using a Zorbax C18 reverse phase column (length 150 mm, internal diameter 2.1 mm, particle size 5 μm, Agilent, USA) and the following eluents as a mobile phases: eluent A - acetonitrile/water (60/40, v/v) with the addition of 0.1% formic acid and 10 mM ammonium formate; eluent B - acetonitrile/isopropanol/water, (90/8/2, o/o/o), with the addition of 0.1% formic acid and 10 mM ammonium formate. Flow rate 35 µl/min, column temperature 50 o C. The proportion of gradient B was changed according to a given algorithm: 0-0.5 min - 30% B, increased to 99% until the 20th minute and maintained the value until the 30th minute and for half a minute returned to 30%. Mass spectrometric analysis was performed using a Maxis Impact instrument with the following settings: range 100-1800 m/z, capillary voltage 4.1 kV in positive ion mode, nebulizer gas pressure 0.7 bar, drying gas flow rate 6 l/min and temperature 200 about S.

Выполнение тандемного масс-спектрометрического анализа осуществлялось с использованием зависимого сканирования, в котором после снятия спектра снимались спектры фрагментации при энергии столкновения в 35 эВ соединений, давших пять самых интенсивных пиков в спектре, с окном изоляции 5 Да и временем исключения 2 минуты.Tandem mass spectrometry analysis was performed using dependent scanning, in which, after spectrum acquisition, fragmentation spectra were collected at a collision energy of 35 eV of the compounds producing the five most intense peaks in the spectrum, with an isolation window of 5 Da and an exclusion time of 2 minutes.

Анализ образцов контроля качества производился через каждые 10 исследуемых образцов.Quality control samples were analyzed every 10 samples tested.

Данные, полученные в ходе анализа в виде .d файлов преобразовывались в формат MzXml посредством программного обеспечения msConvert (Proteowizard, 3.0.9987) и предобрабатывались с использованием алгоритма, предоставленного Koelmel, программного обеспечения MzMine [ Pluskal T, Castillo S, Villar-Briones A, Orešič M. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data. BMC Bioinformatics. 2010;11. doi:10.1186/1471-2105-11-395]. Идентификация липидов осуществлялась программой Lipid Match за авторством Koelmel [ Koelmel JP, Kroeger NM, Ulmer CZ, Bowden JA, Patterson RE, Cochran JA, et al. LipidMatch: An automated workflow for rule-based lipid identification using untargeted high-resolution tandem mass spectrometry data. BMC Bioinformatics. 2017;18: 1–11. doi:10.1186/s12859-017-1744-3]. Номенклатура ионов использовалась согласно Lipid Maps терминологии в сокращённой форме записи [ Sud M, Fahy E, Cotter D, Brown A, Dennis EA, Glass CK, et al. LMSD: LIPID MAPS structure database. Nucleic Acids Res. 2007;35: 527–532. doi:10.1093/nar/gkl838].Data obtained during the analysis in the form of .d files were converted into MzXml format using msConvert software (Proteowizard, 3.0.9987) and preprocessed using the algorithm provided by Koelmel, MzMine software [Pluskal T, Castillo S, Villar-Briones A, Orešič M. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data. BMC Bioinformatics. 2010;11. doi:10.1186/1471-2105-11-395]. Lipid identification was performed using Lipid Match by Koelmel [Koelmel JP, Kroeger NM, Ulmer CZ, Bowden JA, Patterson RE, Cochran JA, et al. LipidMatch: An automated workflow for rule-based lipid identification using untargeted high-resolution tandem mass spectrometry data. BMC Bioinformatics. 2017;18:1–11. doi:10.1186/s12859-017-1744-3]. Ion nomenclature was used according to Lipid Maps terminology in abbreviated form [Sud M, Fahy E, Cotter D, Brown A, Dennis EA, Glass CK, et al. LMSD: LIPID MAPS structure database. Nucleic Acids Res. 2007;35:527–532. doi:10.1093/nar/gkl838].

Обработка данных осуществлялась посредством расчета для каждой партии: значения средней величины интенсивности пика каждого соединения и стандартного отклонения интенсивности пика каждого соединения, где – число образцов в партии b, - интенсивность пика p в образце i партии b; для всего набора данных рассчитывались значения средней величины интенсивности пика каждого соединения и стандартного отклонения интенсивности пика каждого соединения , где – общее число образцов - интенсивность пика p в образце i;Data processing was carried out by calculating for each batch: the average peak intensity value of each compound and standard deviation of the peak intensity of each compound , Where – number of samples in batch b, - intensity of peak p in sample i of batch b; for the entire data set, the average peak intensity values for each compound were calculated and standard deviation of the peak intensity of each compound , Where – total number of samples - intensity of peak p in sample i ;

На основе этих значений рассчитывались новые значения каждого пика в каждом образце по формуле , т.е. осуществляли автошкалирование полученных данных. Based on these values, new values for each peak in each sample were calculated using the formula , i.e. carried out autoscaling of the obtained data.

Изменение распределения координат образцов в первых трёх координатах главных компонент представлены на рисунках 1 и 2. После нормализации относительное отклонение значения полного ионного тока для образцов контроля качества снизилось с 7% до 4%.Changes in the distribution of sample coordinates in the first three coordinates of the principal components are presented in Figures 1 and 2. After normalization, the relative deviation of the total ion current value for quality control samples decreased from 7% to 4%.

Пример 2. Выбор маркеров регионарного метастазирования по биопсийному материалу опухолевой ткани молочной железыExample 2. Selection of markers of regional metastasis from biopsy material of breast tumor tissue

На основе данных, полученных в примере 1, был определён вклад соединений в разделение образцов опухолевой ткани с и без метастазирования в пространстве главных компонент, ориентированных по дисперсии зависимой переменной и ортогонально ей на основе работы классификатора, который был обучен по формулам (1)-(15). Из 317 идентифицированных соединений, для 54 значение ПП составило больше 1. Эти соединения преимущественно относятся к классам триацилглицеридов (31), фосфотидилхолинов (14), сфингомиелинов (6) и диагцилглицеридов (3).Based on the data obtained in example 1, the contribution of compounds to the separation of tumor tissue samples with and without metastasis in the space of principal components oriented along the variance of the dependent variable and orthogonal to it was determined based on the work of the classifier, which was trained using formulas (1)-( 15). Of the 317 identified compounds, 54 had an DI value greater than 1. These compounds predominantly belong to the classes of triacylglycerides (31), phosphatidylcholines (14), sphingomyelins (6) and diagcylglycerides (3).

Пошаговый выбор переменный согласно информационному критерию Акаике по формулам (16) – (19) привел к выбору (соединения приведены в порядке добавления в модель) SM 18:2/16:0 (ИКА для модели с SM 18:2/16:0 -112,11), SM 18:1/16:0 (ИКА для модели с {SM 18:2/16:0, SM 18:1/16:0} -90,26), SM 18:0/24:1 (ИКА для модели с {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1} -83,22), PC 16:0_18:2 (ИКА для модели с {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2 } -77,69), TG 12:0_14:1_18:2 (ИКА для модели с {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2} -73.70), TG 12:0_16:1_18:2 (ИКА для модели с {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 12:0_16:1_18:2} -65.19), TG 10:0_12:0_18:2 (ИКА для модели с {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 12:0_16:1_18:2, TG 10:0_12:0_18:2} -45.04), PC 16:0_18:1 (ИКА для модели с {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 12:0_16:1_18:2, TG 10:0_12:0_18:2, PC 16:0_18:1} -18,00).Step-by-step selection of variables according to the Akaike information criterion using formulas (16) – (19) led to the selection (connections are given in the order of addition to the model) SM 18:2/16:0 (ICA for the model with SM 18:2/16:0 - 112.11), SM 18:1/16:0 (ICA for model with {SM 18:2/16:0, SM 18:1/16:0} -90.26), SM 18:0/24: 1 (IKA for model with {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1} -83.22), PC 16:0_18:2 (IKA for model with {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2 } -77.69), TG 12:0_14:1_18:2 (IKA for model with {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2} - 73.70), TG 12:0_16:1_18:2 (ICA for model with {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2 , TG 12:0_14:1_18:2, TG 12:0_16:1_18:2} -65.19), TG 10:0_12:0_18:2 (ICA for model with {SM 18:2/16:0, SM 18:1 /16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 12:0_16:1_18:2, TG 10:0_12:0_18:2} -45.04 ), PC 16:0_18:1 (ICA for model with {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12 :0_14:1_18:2, TG 12:0_16:1_18:2, TG 10:0_12:0_18:2, PC 16:0_18:1} -18.00).

Для модели, построенной на основе соединений {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 12:0_16:1_18:2, TG 10:0_12:0_18:2, PC 16:0_18:1}, вероятность равенства нулю коэффициентов при переменных, вычисленных по формулам (20)-(25) составила {0,98534, 0,98534, 0,98537, 0,98535, 0.98537, 0,98538, 0.98537, 0.98537} соответственно. Наибольшая вероятность равенства нулю коэффициента при переменной была у TG 12:0_16:1_18:2 (p = 0,98538). Исключая эту переменную из набора переменных, задействованных в модели, выполняем пересчёт вероятности равенства нулю коэффициентов для нового набора переменных {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 10:0_12:0_18:2, PC 16:0_18:1} и получаем {0,00001, 0,00005, 0,02287, 0,00790, 0,03214, 0,14315, 0,15197} соответственно. Наибольшая вероятность равенства нулю у коэффициента при переменной PC 16:0_18:1 (p = 0,15197). Исключая эту переменную из набора переменных, задействованных в модели, выполняем пересчёт вероятности равенства нулю коэффициентов для нового набора переменных {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 10:0_12:0_18:2} и получаем {0,000005, 0,000017, 0,032705, 0,009234, 0,041054, 0,1672568} соответственно. Наибольшая вероятность равенства нулю у коэффициента при переменной TG 10:0_12:0_18:2 (p = 0,1672568). Исключая эту переменную из набора переменных, задействованных в модели, выполняем пересчёт вероятности равенства нулю коэффициентов для нового набора переменных {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2}. Вероятность равенства нулю коэффициентов для этого набора переменных {0,00001, 0,00002, 0,03959, 0,00373, 0,02490}. Получаем модель со статистически значимо отличными от нуля коэффициентами при переменных (рисунок 3).For a model based on connections {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2 , TG 12:0_16:1_18:2, TG 10:0_12:0_18:2, PC 16:0_18:1}, the probability of zero coefficients for variables calculated using formulas (20)-(25) was {0.98534, 0.98534, 0.98537, 0.98535, 0.98537, 0.98538, 0.98537, 0.98537} respectively. The highest probability of the coefficient being equal to zero for the variable was for TG 12:0_16:1_18:2 (p = 0.98538). By excluding this variable from the set of variables involved in the model, we recalculate the probability of zero coefficients for a new set of variables {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 10:0_12:0_18:2, PC 16:0_18:1} and we get {0.00001, 0.00005, 0.02287, 0.00790, 0.03214, 0.14315, 0.15197} respectively. The coefficient with the variable PC has the highest probability of being equal to zero 16:0_18:1 (p = 0.15197). By excluding this variable from the set of variables involved in the model, we recalculate the probability of zero coefficients for a new set of variables {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2, TG 10:0_12:0_18:2} and we get {0.000005, 0.000017, 0.032705, 0.009234, 0.041054, 0.1672568 } respectively. The coefficient with the TG variable has the highest probability of being equal to zero 10:0_12:0_18:2 (p = 0.1672568). By excluding this variable from the set of variables involved in the model, we recalculate the probability of zero coefficients for a new set of variables {SM 18:2/16:0, SM 18:1/16:0, SM 18:0/24:1, PC 16:0_18:2, TG 12:0_14:1_18:2}. The probability of coefficients being zero for this set of variables is {0.00001, 0.00002, 0.03959, 0.00373, 0.02490}. We obtain a model with statistically significantly different coefficients from zero for the variables (Figure 3).

Тестирование модели методом внутренней кросс-валидации по отдельному объекту (метод, в котором выполняется M раз тестирование модели, построенной на основе М-1 образцов, на оставшемся образце, где M-количество образцов) дало значение площади под операционной кривой 0,81, чувствительность и специфичность 94% и 65% при пороге 0,39.Testing the model using the method of internal cross-validation for a separate object (a method in which the model built on the basis of M-1 samples is tested M times on the remaining sample, where M is the number of samples) gave an area under the operating curve of 0.81, sensitivity and specificities of 94% and 65% at a threshold of 0.39.

Пример 3. Выбор маркеров регионарного метастазирования по биопсийному материалу нормальной ткани молочной железыExample 3. Selection of markers of regional metastasis from biopsy material of normal breast tissue

На основе данных, полученных в примере 1, был определён вклад соединений в разделение образцов нормальной ткани с и без метастазирования в пространстве главных компонент, ориентированных по дисперсии зависимой переменной и ортогонально ей по формулам (1)-(15). Из 317 идентифицированных соединений для 60 значение ПП больше оказалось больше 1. Данные соединения относятся к классам лизо- и фосфотидилхолинов (20), триацилглицеридов (18), диагцилглицеридов (12), сфингомиелинов (6), фосфотидилэтаноламинов (4).Based on the data obtained in example 1, the contribution of compounds to the separation of normal tissue samples with and without metastasis was determined in the space of principal components oriented along the variance of the dependent variable and orthogonal to it using formulas (1)-(15). Of the 317 identified compounds, 60 the PP value turned out to be greater than 1. These compounds belong to the classes of lyso- and phosphotidylcholines (20), triacylglycerides (18), diagcylglycerides (12), sphingomyelins (6), and phosphotidylethanolamines (4).

Пошаговый выбор переменный согласно информационному критерию Акаике по формулам (16) – (19) привел к выбору (соединения приведены в порядке добавления в модель) TG 10:0_18:1_18:3 (ИКА для модели с TG 10:0_18:1_18:3 -103,5), PC O-16:1/18:1 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1} -96,48), DG 18:0_18:1 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1} -92,43), SM d18:1/18:0 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0} -90,2), LPC 16:0 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0} -87,62), TG 12:0_18:1_8:0 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0} -85,65), TG 10:0_18:2_18:2 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, 10:0_18:2_18:2} -75,60), OxTG 18:1_18:2_18:3(OH) (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH)} -62,17), PC P-16:0/20:4 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4} -55,63), PC 12:0_14:1 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4, PC 12:0_14:1} -48,87), DG 18:2_18:2 (ИКА для модели с {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, TG 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4, PC 12:0_14:1, DG 18:2_18:2} -24).Step-by-step selection of variables according to the Akaike information criterion using formulas (16) – (19) led to the selection (compounds are given in the order of addition to the model) TG 10:0_18:1_18:3 (ICA for the model with TG 10:0_18:1_18:3 - 103.5), PC O-16:1/18:1 (ICA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1} -96.48), DG 18: 0_18:1 (ICA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1} -92.43), SM d18:1/18:0 (ICA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0} -90.2), LPC 16 :0 (ICA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0} - 87.62), TG 12:0_18:1_8:0 (ICA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1 /18:0, LPC 16:0, TG 12:0_18:1_8:0} -85.65), TG 10:0_18:2_18:2 (ICA for model with {TG 10:0_18:1_18:3, PC O -16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, 10:0_18:2_18:2} -75, 60), OxTG 18:1_18:2_18:3(OH) (IKA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18: 1/18:0, LPC 16:0, TG 12:0_18:1_8:0, 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH)} -62.17), PC P-16 :0/20:4 (IKA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16 :0, TG 12:0_18:1_8:0, 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4} -55.63), PC 12:0_14:1 (IKA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16: 0, TG 12:0_18:1_8:0, 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4, PC 12:0_14:1} - 48.87), DG 18:2_18:2 (IKA for model with {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18 :0, LPC 16:0, TG 12:0_18:1_8:0, TG 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4, PC 12:0_14:1, DG 18:2_18:2} -24).

Для модели, построенной на основе соединений {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, TG 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4, PC 12:0_14:1, DG 18:2_18:2}, вероятность равенства нулю коэффициентов при переменных, вычисленных по формулам (20) - (25) составила {0,9956, 0,9973, 0,9964, 0,9970, 0,9968, 0,9972, 0,9959, 0,9970, 0,9967, 0.9967, 0.9966} соответственно. Наибольшая вероятность равенства нулю была у коэффициента при PC O-16:1/18:1 (p = 0,9973). Исключая эту переменную, строим модель на основе соединений {TG 10:0_18:1_18:3, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, TG 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4, PC 12:0_14:1, DG 18:2_18:2}, получим следующие вероятности равенства нулю коэффициентов при переменных: {0,003, 0,010, 0,039, 0,003, 0,007, 0,012, 0,004, 0,012, 0,021}. Получаем модель со статистически значимо отличными от нуля коэффициентами при переменных (рисунок 4). Тестирование модели в ходе внутренней кросс-валидации по отдельному объекту дало значение площади под операционной кривой 0,79, чувствительность и специфичность 88% и 58% при пороге 0,15.For a model based on connections {TG 10:0_18:1_18:3, PC O-16:1/18:1, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, TG 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4, PC 12:0_14:1, DG 18: 2_18:2}, the probability of zero coefficients for variables calculated using formulas (20) - (25) was {0.9956, 0.9973, 0.9964, 0.9970, 0.9968, 0.9972, 0, 9959, 0.9970, 0.9967, 0.9967, 0.9966} respectively. The coefficient with PC O-16:1/18:1 had the highest probability of being equal to zero (p = 0.9973). Excluding this variable, we build a model based on connections {TG 10:0_18:1_18:3, DG 18:0_18:1, SM d18:1/18:0, LPC 16:0, TG 12:0_18:1_8:0, TG 10:0_18:2_18:2, OxTG 18:1_18:2_18:3(OH), PC P-16:0/20:4, PC 12:0_14:1, DG 18:2_18:2}, we obtain the following probabilities of equality zero coefficients for variables: {0.003, 0.010, 0.039, 0.003, 0.007, 0.012, 0.004, 0.012, 0.021}. We obtain a model with statistically significantly different coefficients from zero for the variables (Figure 4). Testing of the model through internal cross-validation on a single subject yielded an area under the operational curve of 0.79, sensitivity and specificity of 88% and 58% at a threshold of 0.15.

На Фиг. 5 далее будет представлена общая схема вычислительного устройства (500), обеспечивающего обработку данных, необходимую для реализации заявленного решения. In FIG. 5 will further present a general diagram of a computing device (500) that provides data processing necessary to implement the claimed solution.

В общем случае устройство (500) содержит такие компоненты, как: один или более процессоров (501), по меньшей мере одну память (502), средство хранения данных (503), интерфейсы ввода/вывода (504), средство В/В (505), средства сетевого взаимодействия (506).In general, the device (500) includes components such as: one or more processors (501), at least one memory (502), data storage means (503), input/output interfaces (504), I/O means ( 505), networking tools (506).

Процессор (501) устройства сконфигурирован для выполнения вычислительных операций, необходимых для осуществления предлагаемого способа. Процессор (501) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (502). Процессор (501) содержит по меньшей мере два ядра и по меньшей мере один поток. Кроме того, для осуществления обработки данных по данному решению, выделают одно ядро и по меньшей мере два потока. The processor (501) of the device is configured to perform the computational operations necessary to implement the proposed method. The processor (501) executes the necessary machine-readable instructions contained in the main memory (502). The processor (501) includes at least two cores and at least one thread. In addition, to carry out data processing according to this solution, one core and at least two threads are allocated.

Память (502), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Memory (502), as a rule, is made in the form of RAM and contains the necessary program logic that provides the required functionality.

Средство хранения данных (503) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (503) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.The data storage medium (503) can be in the form of HDD, SSD drives, raid array, network storage, flash memory, optical storage devices (CD, DVD, MD, Blue-Ray disks), etc. The means (503) allows long-term storage of various types of information, for example, the aforementioned files with user data sets, a database containing records of time intervals measured for each user, user IDs, etc.

Интерфейсы (504) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.Interfaces (504) are standard means for connecting and working with the server part, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire, etc.

Выбор интерфейсов (504) зависит от конкретного исполнения устройства (500), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.The choice of interfaces (504) depends on the specific design of the device (500), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.

В качестве средств В/В данных (505) в любом воплощении системы, реализующей описываемый способ, может использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.The data I/O means (505) in any embodiment of a system implementing the described method may use a keyboard. The hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server or other computer device. The connection can be either wired, in which the keyboard connecting cable is connected to the PS/2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. In addition to the keyboard, I/O data tools can also include: joystick, display (touch display), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.

Средства сетевого взаимодействия (506) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (505) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.Network communication means (506) are selected from a device that provides network reception and transmission of data, for example, an Ethernet card, WLAN/Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. Using the means (505), the organization of data exchange is ensured via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.

Компоненты устройства (500) сопряжены посредством общей шины передачи данных (510).The device components (500) are interfaced via a common data bus (510).

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.In these application materials, a preferred disclosure of the implementation of the claimed technical solution was presented, which should not be used as limiting other, private embodiments of its implementation, which do not go beyond the scope of the requested scope of legal protection and are obvious to specialists in the relevant field of technology.

Claims (9)

Способ определения потенциальных диагностических соединений-маркеров при проведении клинических исследований посредством обработки хромато-масс-спектрометрических данных, выполняющийся на вычислительном устройстве, которое содержит процессор и память, хранящую инструкции, исполняемые процессором и включающие следующие этапы:A method for identifying potential diagnostic marker compounds during clinical trials by processing chromatography-mass spectrometric data, performed on a computing device that contains a processor and memory storing instructions executed by the processor and including the following steps: получают образцы биологического материала, полученные или выделенные от пациента;obtain samples of biological material obtained or isolated from the patient; осуществляют равномерное распределение образцов каждой клинической группы между различными анализируемыми партиями;carry out uniform distribution of samples from each clinical group between different analyzed batches; осуществляют хромато-масс-спектрометрический анализ полученных партий;carry out gas chromatography-mass spectrometric analysis of the received batches; результаты хромато-масс-спектрометрического анализа поступают на вычислительное устройство, где осуществляют предобработку полученных данных и идентификацию по меньшей мере одного соединения из полученных данных;the results of chromatography-mass spectrometric analysis are sent to a computing device, where the received data is preprocessed and at least one compound is identified from the obtained data; осуществляют выравнивание значений площадей пиков между партиями посредством автошкалирования по меньшей мере в одном соединении, полученном на предыдущем этапе;aligning peak area values between batches by autoscaling in at least one compound obtained in the previous step; полученные значения площадей пиков поступают на вход обученной классификационной модели, использующей ортогональные проекции на скрытые структуры, на выходе получают набор соединений – потенциальных маркеров;the obtained peak area values are fed to the input of a trained classification model that uses orthogonal projections onto hidden structures, and the output is a set of compounds - potential markers; осуществляют выбор соединений – потенциальных маркеров из набора, выбранного на предыдущем этапе, на основе информационного критерия Акаике;select compounds - potential markers from the set selected at the previous stage, based on the Akaike information criterion; осуществляют пошаговое удаление соединений из сформированного набора соединений – потенциальных маркеров, у которых значение вероятности отличия коэффициента от нуля меньше значения границы вероятности отличия коэффициента от нуля.carry out step-by-step removal of compounds from the generated set of compounds - potential markers, for which the probability value of the coefficient differing from zero is less than the value of the probability limit of the coefficient differing from zero.
RU2021126242A 2021-09-07 Method of processing chromato-mass-spectrometric data to increase the efficiency of search for diagnostic markers in clinical studies RU2803128C2 (en)

Publications (2)

Publication Number Publication Date
RU2021126242A RU2021126242A (en) 2023-03-07
RU2803128C2 true RU2803128C2 (en) 2023-09-06

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020193950A1 (en) * 2002-02-25 2002-12-19 Gavin Edward J. Method for analyzing mass spectra
US20160282355A1 (en) * 2013-03-20 2016-09-29 The University Of Bath Materials and methods for analysing glycation
US20170051358A1 (en) * 2014-05-06 2017-02-23 Dana-Farber Cancer Institute, Inc. Compositions and methods for identification, assessment, prevention, and treatment of cancer using nfs1 biomarkers and modulators
RU2743418C1 (en) * 2020-05-18 2021-02-18 ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "СберМедИИ" Method for improving quality of annotation of lipid features relating to individual lipid classes using information on delay time in mass spectrometer
RU2744021C1 (en) * 2020-09-23 2021-03-02 федеральное государственное бюджетное образовательное учреждение высшего образования "Северо-Западный государственный медицинский университет им. И.И. Мечникова" Министерства здравоохранения Российской Федерации Method for differential diagnosis of steatosis and non-alcoholic steatohepatitis in females

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020193950A1 (en) * 2002-02-25 2002-12-19 Gavin Edward J. Method for analyzing mass spectra
US20160282355A1 (en) * 2013-03-20 2016-09-29 The University Of Bath Materials and methods for analysing glycation
US20170051358A1 (en) * 2014-05-06 2017-02-23 Dana-Farber Cancer Institute, Inc. Compositions and methods for identification, assessment, prevention, and treatment of cancer using nfs1 biomarkers and modulators
RU2743418C1 (en) * 2020-05-18 2021-02-18 ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "СберМедИИ" Method for improving quality of annotation of lipid features relating to individual lipid classes using information on delay time in mass spectrometer
RU2744021C1 (en) * 2020-09-23 2021-03-02 федеральное государственное бюджетное образовательное учреждение высшего образования "Северо-Западный государственный медицинский университет им. И.И. Мечникова" Министерства здравоохранения Российской Федерации Method for differential diagnosis of steatosis and non-alcoholic steatohepatitis in females

Similar Documents

Publication Publication Date Title
Murillo et al. exRNA atlas analysis reveals distinct extracellular RNA cargo types and their carriers present across human biofluids
Riekeberg et al. New frontiers in metabolomics: from measurement to insight
Baker et al. Mass spectrometry for translational proteomics: progress and clinical implications
CN107679052B (en) Big data analysis method and mass spectrometry system using the same
Xi et al. Statistical analysis and modeling of mass spectrometry-based metabolomics data
Sugimoto et al. Bioinformatics tools for mass spectroscopy-based metabolomic data processing and analysis
DK2834835T3 (en) METHOD AND DEVICE FOR IMPROVED QUANTIFICATION BY MASS SPECTROMETRY
Tiedt et al. Circulating metabolites differentiate acute ischemic stroke from stroke mimics
Morse et al. Reliable identification of prostate cancer using mass spectrometry metabolomic imaging in needle core biopsies
US20170023575A1 (en) Identification of blood based metabolite biomarkers of pancreatic cancer
JP2023156388A (en) Method and system for improving disease diagnosis using measured analytes
Fornai et al. Three-dimensional molecular reconstruction of rat heart with mass spectrometry imaging
Bowling et al. Analyzing the metabolome
Chung et al. Next‐generation pathology practices with mass spectrometry imaging
Zhang et al. Elastic net‐based framework for imaging mass spectrometry data biomarker selection and classification
Qiu et al. Innovation in identifying metabolites from complex metabolome—Highlights of recent analytical platforms and protocols
RU2803128C2 (en) Method of processing chromato-mass-spectrometric data to increase the efficiency of search for diagnostic markers in clinical studies
JP6731957B2 (en) Method of diagnosing endometrial cancer
Zhang et al. Altered phosphatidylcholines expression in sputum for diagnosis of non-small cell lung cancer
CN109946467B (en) Biomarker for ossification diagnosis of thoracic vertebra ligamentum flavum
Chen et al. Robust variable selection based on bagging classification tree for support vector machine in metabonomic data analysis
Wang et al. Feature selection approaches identify potential plasma metabolites in postmenopausal osteoporosis patients
WO2023039479A1 (en) Direct classification of raw biomolecule measurement data
Zhao et al. Discovery of distinct protein profiles for polycystic ovary syndrome with and without insulin resistance by surface-enhanced laser adsorption/ionization time of flight mass spectrometry
WO2021156638A9 (en) Detection of lipid markers