RU2718272C1 - Method for screening probability of breast cancer presence - Google Patents

Method for screening probability of breast cancer presence Download PDF

Info

Publication number
RU2718272C1
RU2718272C1 RU2019111094A RU2019111094A RU2718272C1 RU 2718272 C1 RU2718272 C1 RU 2718272C1 RU 2019111094 A RU2019111094 A RU 2019111094A RU 2019111094 A RU2019111094 A RU 2019111094A RU 2718272 C1 RU2718272 C1 RU 2718272C1
Authority
RU
Russia
Prior art keywords
breast cancer
biomarkers
classification model
patients
training
Prior art date
Application number
RU2019111094A
Other languages
Russian (ru)
Inventor
Петр Витальевич Глыбочко
Андрей Алексеевич Свистунов
Виктор Викторович Фомин
Филипп Юрьевич Копылов
Марина Игоревна Секачева
Иван Алексеевич Васильев
Евгений Павлович Гитель
Алигейдар Алекперович Рагимов
Елена Владимировна Поддубская
Original Assignee
федеральное государственное автономное образовательное учреждение высшего образования Первый Московский государственный медицинский университет имени И.М. Сеченова Министерства здравоохранения Российской Федерации (Сеченовский университет) (ФГАОУ ВО Первый МГМУ им. И.М. Сеченова Минздрава России (Се
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by федеральное государственное автономное образовательное учреждение высшего образования Первый Московский государственный медицинский университет имени И.М. Сеченова Министерства здравоохранения Российской Федерации (Сеченовский университет) (ФГАОУ ВО Первый МГМУ им. И.М. Сеченова Минздрава России (Се filed Critical федеральное государственное автономное образовательное учреждение высшего образования Первый Московский государственный медицинский университет имени И.М. Сеченова Министерства здравоохранения Российской Федерации (Сеченовский университет) (ФГАОУ ВО Первый МГМУ им. И.М. Сеченова Минздрава России (Се
Priority to RU2019111094A priority Critical patent/RU2718272C1/en
Application granted granted Critical
Publication of RU2718272C1 publication Critical patent/RU2718272C1/en
Priority to EA202090713A priority patent/EA202090713A3/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Immunology (AREA)
  • Hematology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

FIELD: medicine.
SUBSTANCE: invention refers to medicine, namely oncology, and can be used for screening of probability of presence of breast cancer (BC) in patients of Caucasian race. Level of biomarkers in a biological fluid sample obtained in a subject is measured: CYFRA.21.1, ApoA2, Ddimer, HE4, B2M, ApoA1, sVCAM.1, CA125, CA15.3, TTR, hsCRP, CEA. Set of obtained values of biomarkers is processed using at least one classification model trained to determine a high or low probability of the presence of breast cancer.
EFFECT: method provides higher accuracy of screening detection of cancer in the patients of the Caucasian race by using a classification model trained to determine the high or low probability of the presence of breast cancer.
4 cl, 9 dwg, 4 tbl

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

Изобретение относится к области медицины, а именно онкологии, и может быть использовано для скринингового определения вероятности наличия рака молочной железы (РМЖ) или выявления данного онкологического заболевания на ранней стадии.The invention relates to medicine, namely to Oncology, and can be used for screening to determine the likelihood of breast cancer (breast cancer) or to identify this cancer at an early stage.

Уровень техникиState of the art

Злокачественные опухоли представляют собой одну из самых значимых проблем здравоохранения не только в России, но и во всем мире.Malignant tumors are one of the most significant public health problems not only in Russia, but throughout the world.

Онкологические заболевания являются второй по частоте причиной смерти в России. Средний показатель заболеваемости злокачественными новообразованиями по России в 2016 г. составил 408,6 чел. на 100000 населения. Средний показатель смертности - 201,6 чел. на 100000 населения. Онкологическая заболеваемость растет во всем мире. За последние 10 лет она увеличилась более чем на 20%.Oncological diseases are the second most common cause of death in Russia. The average incidence rate of malignant neoplasms in Russia in 2016 was 408.6 people. per 100,000 population. The average mortality rate is 201.6 people. per 100,000 population. Cancer incidence is increasing worldwide. Over the past 10 years, it has increased by more than 20%.

В случае развития злокачественного заболевания, стадия, на которой онкологический процесс будет выявлен, является одним из определяющих факторов, обуславливающих продолжительность жизни пациента.In the case of the development of a malignant disease, the stage at which the oncological process will be detected is one of the determining factors determining the patient's lifespan.

Рак молочной железы (РМЖ) является лидирующим онкологическим заболеванием во всех странах мира. Ежегодно регистрируется более миллиона случаев данного заболевания. При этом в случае обнаружения заболевания на ранней стадии в подавляющем большинстве случаев возможно полное излечение.Breast Cancer (BC) is the leading oncological disease in all countries of the world. Annually, more than a million cases of this disease are recorded. Moreover, in the case of detection of the disease at an early stage in the vast majority of cases, a complete cure is possible.

Для обнаружения рака молочной железы известно применение следующих инструментальных методов диагностики - маммографии, дуктографии, ультразвукового исследования (УЗИ), магнитно-резонансной томографии, позитронно-эмиссионной томографии и др.To detect breast cancer, the following instrumental diagnostic methods are known - mammography, ductography, ultrasound (ultrasound), magnetic resonance imaging, positron emission tomography, etc.

Метод УЗИ, наиболее распространенный у женщин возраста до 35 лет, позволяет отличить более плотную ткань опухоли от окружающей нормальной ткани. Однако в процессе диагностики участки жировой инволюции могут быть ошибочно приняты за патологические структуры. Кроме того, УЗИ не визуализирует микрокальцинаты, часто встречающиеся при злокачественных новообразованиях.The ultrasound method, the most common in women under the age of 35 years, makes it possible to distinguish more dense tumor tissue from surrounding normal tissue. However, in the process of diagnosis, areas of fatty involution may be mistaken for pathological structures. In addition, ultrasound does not visualize microcalcifications often found in malignant neoplasms.

Основным на сегодняшний день методом диагностики злокачественных новообразований молочной железы является маммография, которая позволяет с достоверностью до 95% выявить новообразования молочной железы размером более 10 мм в диаметре.The main method for diagnosing malignant neoplasms of the mammary gland today is mammography, which allows detecting breast neoplasms larger than 10 mm in diameter with a reliability of up to 95%.

Однако несмотря на эффективность рентгенологического метода, в ряде случаев разрешающая способность маммографии резко снижается, например, при выраженных воспалительных изменениях, диффузных формах мастопатии, отеке железы и фоновых заболеваниях типа фиброаденоматоза.However, despite the effectiveness of the X-ray method, in some cases, the resolution of mammography decreases sharply, for example, with severe inflammatory changes, diffuse forms of mastopathy, edema of the gland and background diseases such as fibroadenomatosis.

Общим ограничением инструментальных методов диагностики является неоднозначность интерпретации результатов, связанная с многообразием индивидуальных особенностей строения и морфологией молочной железы.A common limitation of instrumental diagnostic methods is the ambiguity in interpreting the results, associated with a variety of individual structural features and breast morphology.

В качестве альтернативы инструментальным диагностическим методам могут выступать методы диагностики, основанные на определении биохимических маркеров в биологических тканях и жидкостях пациента, например, цельной крови, сыворотке или плазме. В качестве таких маркеров могут быть использованы различные антигены, протеины и метаболиты, секретируемые злокачественными клетками или образующиеся в процессе их гибели. На текущий момент не существует рекомендаций по использованию биомаркеров для диагностики РМЖ. Одними из наиболее перспективных кандидатов являются СБА (раковый эмбриональный антиген), CYFRA 21-1 (фрагмент цитокератина 19) и СА15-3 (раковый антиген 15-3), однако их использование для диагностики РМЖ ограниченно ввиду недостаточной чувствительности и специфичности (Kazarian et al., Testing breast cancer serum biomarkers for early detection and prognosis in pre-diagnosis samples. Br J Cancer. 2017 Feb 14; 116(4):501-508). Использование мультиплексных диагностических методов, подразумевающих оценку риска наличия заболевания на основе измерений нескольких биомаркеров, позволяет преодолеть данную проблему и достичь более достоверных результатов.As an alternative to instrumental diagnostic methods, diagnostic methods based on the determination of biochemical markers in biological tissues and patient fluids, for example, whole blood, serum, or plasma, can be used. As such markers, various antigens, proteins and metabolites secreted by malignant cells or formed during their death can be used. Currently, there are no recommendations on the use of biomarkers for the diagnosis of breast cancer. Some of the most promising candidates are SBA (cancer embryonic antigen), CYFRA 21-1 (cytokeratin fragment 19) and CA15-3 (cancer antigen 15-3), but their use for the diagnosis of breast cancer is limited due to insufficient sensitivity and specificity (Kazarian et al ., Testing breast cancer serum biomarkers for early detection and prognosis in pre-diagnosis samples. Br J Cancer. 2017 Feb 14; 116 (4): 501-508). The use of multiplex diagnostic methods, implying an assessment of the risk of the presence of a disease based on measurements of several biomarkers, allows us to overcome this problem and achieve more reliable results.

Из международной заявки WO 2013062931 известно определение метастазов рака молочной железы по обнаружению матричных РНК специфических биомаркеров, циркулирующих в периферической сыворотке крови, костного мозга или лимфатических узлов - СБА, СА15-3, PIP, hMAM и HER2.From the international application WO 2013062931, the definition of breast cancer metastases is known by detecting messenger RNAs of specific biomarkers circulating in the peripheral blood serum, bone marrow or lymph nodes - SBA, CA15-3, PIP, hMAM and HER2.

В патенте US 6670141 представлена панель биомаркеров для диагностики и лечения рака молочной железы. При этом проводились исследования слюны здоровых женщин, женщин с доброкачественными поражениями молочной железы и женщин с диагнозом рака молочной железы. Было выявлено, что уровни маркеров c-ErbB-2 (ERB) и СА 15-3 у больных раком значительно выше, чем у здоровых женщин и женщин с доброкачественными опухолями, а уровень белка р53, напротив, выше в контрольной группе здоровых женщин.US 6670141 provides a panel of biomarkers for the diagnosis and treatment of breast cancer. At the same time, studies were conducted on the saliva of healthy women, women with benign breast lesions, and women diagnosed with breast cancer. It was found that the levels of c-ErbB-2 (ERB) and CA 15-3 markers in cancer patients are significantly higher than in healthy women and women with benign tumors, and p53 protein levels, in contrast, are higher in the control group of healthy women.

Наборы биомаркеров для диагностики РМЖ предложены также в заявках US 20160282351, US 20150024960, WO 2010017515.Sets of biomarkers for the diagnosis of breast cancer are also proposed in the applications US 20160282351, US 20150024960, WO 2010017515.

В заявке WO 2005113835 были определены потенциальные биомаркеры рака молочной железы, идентифицированные в образцах протокового лаважа от отдельных женщин с высоким риском развития РМЖ, среди которых выявлены в т.ч. Apoliprotein A-I (ApoA-I), Apoliprotein А-II (АроА-II). Было обнаружено, что более низкий, чем обычно, уровень экспрессии данных маркеров или комбинации маркеров коррелирует с раком молочной железы у пациента.WO 2005113835 identified potential breast cancer biomarkers identified in ductal lavage samples from individual women at high risk of developing breast cancer, among which were identified. Apoliprotein A-I (ApoA-I), Apoliprotein A-II (ApoA-II). It was found that a lower than usual expression level of these markers or combination of markers correlates with breast cancer in a patient.

Патентная заявка WO 2005083440 описывает способ диагностирования рака яичников, рака молочной железы и рака прямой кишки на основе одновременной идентификации множества биомаркеров, продукция которых в организме резко возрастает при онкологических заболеваниях. Среди данных биомаркеров предложены в т.ч. лептин, пролактин, ферменты химотрипсиного ряда, калликреины, онкомаркеры СА125, СА15-3, СА19-9, MUC1, OVX1, РЭА, M-CSF, OPN и IGF-II, простатин, СА54-61, СА72, HMFG2, интерлейкины IL-6, IL-10, LSA, M-CSF, NB70K, PLAP, TAG72, факторы TNF, ТРА, UGTF, VEGF, CLDN3, NOTCH3, E2F и др. При этом для диагностики РМЖ выделены биомаркеры лептина, пролактина, OPN и IGF-I.Patent application WO2005083440 describes a method for diagnosing ovarian cancer, breast cancer and colorectal cancer based on the simultaneous identification of many biomarkers, the production of which in the body increases dramatically in cancer. Among these biomarkers proposed including leptin, prolactin, chymotrypsin enzymes, kallikreins, tumor markers CA125, CA15-3, CA19-9, MUC1, OVX1, CEA, M-CSF, OPN and IGF-II, prostatin, CA54-61, CA72, HMFG2, IL-interleukins 6, IL-10, LSA, M-CSF, NB70K, PLAP, TAG72, factors TNF, TPA, UGTF, VEGF, CLDN3, NOTCH3, E2F, and others. For the diagnosis of breast cancer, biomarkers of leptin, prolactin, OPN and IGF- were isolated I.

Из патента RU 2599890 известен способ обнаружения и мониторинга терапии рака молочной железы и рака яичников на основе определения концентраций опухолеассоциированных антигенов: AFP, hCG, СЕА, СА125, СА15-3 и СА19-9 в образце сыворотки человека.From patent RU 2599890 a method is known for detecting and monitoring the treatment of breast cancer and ovarian cancer based on determining the concentrations of tumor-associated antigens: AFP, hCG, CEA, CA125, CA15-3 and CA19-9 in a human serum sample.

Из публикации (Kim et al., The multiplex bead array approach to identifying serum biomarkers associated with breast cancer. Breast Cancer Research 2009, 11:R22, doi:10.1186/bcr2247) (прототип) известен способ оценки риска возникновения различных видов рака, в т.ч. РМЖ, по измеренным в сыворотке белковым биомаркерам - AFP, СЕА, СА19-9, СА125, PSA, ApoA1, АроА2, TTR, В2М, IL-6, CRP, PAI-1.From the publication (Kim et al., The multiplex bead array approach to identifying serum biomarkers associated with breast cancer. Breast Cancer Research 2009, 11: R22, doi: 10.1186 / bcr2247) (prototype), a method for assessing the risk of various types of cancer is known, in including Breast cancer, as measured by serum protein biomarkers - AFP, CEA, CA19-9, CA125, PSA, ApoA1, ApoA2, TTR, B2M, IL-6, CRP, PAI-1.

Несмотря на высокую дискриминационную способность предложенной в прототипе модели, необходима ее валидация и адаптация для различных популяций обследуемых, что связано с межпопуляционными различиями в молекулярных механизмах канцерогенеза. Так, были выявлены различия в экспрессии генов, характере соматических мутаций и паттернах метилирования ДНК из образцов опухолей, взятых у пациенток европеоидной и черной расы (Huo et al., Comparison of Breast Cancer Molecular Features and Survival by African and European Ancestry in The Cancer Genome Atlas. JAMA Oncol. 2017 Dec 1; 3(12): 1654-1662). В работе отмечено, что подобные различия могут влиять на встречаемость отдельных подтипов рака молочной железы и прогноз заболевания.Despite the high discriminatory ability of the model proposed in the prototype, its validation and adaptation is necessary for different populations of the subjects, which is associated with interpopulation differences in the molecular mechanisms of carcinogenesis. Thus, differences were revealed in gene expression, the nature of somatic mutations, and DNA methylation patterns from tumor samples taken from patients of the Caucasian and Black races (Huo et al., Comparison of Breast Cancer Molecular Features and Survival by African and European Ancestry in The Cancer Genome Atlas. JAMA Oncol. 2017 Dec 1; 3 (12): 1654-1662). It was noted in the work that such differences can affect the occurrence of individual subtypes of breast cancer and the prognosis of the disease.

Заявляемое изобретение основано на исследовании нового комплекса маркеров, позволяющего повысить точность и достоверность определения наличия заболевания при скрининге РМЖ у конкретной пациентки европеоидной популяции, формирование на этой основе той или иной группы риска и выявление тех пациенток, которые нуждаются в углубленном дорогостоящем обследовании для обнаружения ранней стадии РМЖ.The claimed invention is based on the study of a new complex of markers, which allows to increase the accuracy and reliability of determining the presence of a disease during breast cancer screening in a particular patient of the Caucasian population, the formation on this basis of a particular risk group and the identification of those patients who need an in-depth expensive examination to detect an early stage Breast cancer.

Раскрытие изобретенияDisclosure of Invention

Технической проблемой, решаемой настоящим изобретением, является создание более точного способа определения вероятности наличия РМЖ в европеоидной популяции.The technical problem solved by the present invention is the creation of a more accurate method for determining the likelihood of breast cancer in the Caucasoid population.

Достигаемым техническим результатом является повышение точности скринингового выявления наличия рака у пациенток европеоидной популяции, причем уже на ранних стадиях его развития, посредством биостатистической обработки результатов анализа фракции сыворотки и плазмы крови с определением концентрации комплексной группы биомаркеров.Achievable technical result is to increase the accuracy of screening for the presence of cancer in patients of the Caucasian population, and already in the early stages of its development, by biostatistical processing of the results of the analysis of the serum and blood plasma fractions with determination of the concentration of the complex group of biomarkers.

Технический результат достигается посредством реализации способа скринингового определения вероятности наличия РМЖ у пациенток европеоидной популяции, включающего измерение уровня биомаркеров в образце биологической жидкости (например, плазмы или цельной крови, мочи, мокроты), полученном у субъекта: НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, В2М, СА125, hsCRP, CEA, sVCAM.1, CA15.3, с последующей обработкой совокупности полученных значений биомаркеров с использованием, по меньшей мере, одной классификационной модели, обученной для определения высокой или низкой вероятности наличия РМЖ.The technical result is achieved by implementing a screening method for determining the likelihood of breast cancer in patients of the Caucasian population, including measuring the level of biomarkers in a sample of biological fluid (for example, plasma or whole blood, urine, sputum) obtained from a subject: HE4, ApoA2, CYFRA.21.1, Ddimer , ApoA1, TTR, B2M, CA125, hsCRP, CEA, sVCAM.1, CA15.3, followed by processing the set of obtained biomarker values using at least one classification model trained to determine high or low weight the presence of breast cancer.

В качестве классификационных моделей используют метод «случайного леса» (random forest), и/или линейный дискриминантный анализ, и/или метод опорных векторов.As classification models, the random forest method and / or linear discriminant analysis and / or the support vector method are used.

Обученную классификационную модель получают посредством реализации следующих шагов:A trained classification model is obtained by implementing the following steps:

- формируют обучающую и тестовую выборку записей субъектов с измеренными значениями биомаркеров (НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, В2М, СА125, hsCRP, CEA, sVCAM.1, CA15.3), включающие записи о пациентках разного возраста;- form a training and test sample of records of subjects with measured biomarkers (HE4, ApoA2, CYFRA.21.1, Ddimer, ApoA1, TTR, B2M, CA125, hsCRP, CEA, sVCAM.1, CA15.3), including records of patients of different ages ;

- обучают классификационную модель выявлению заданной патологии, используя записи обучающей и тестовой выборки;- teach the classification model to identify a given pathology using the records of the training and test samples;

- сохраняют связи и веса обученной классификационной модели, для последующего определения вероятности наличия РМЖ по итогам обработки измеренных данных биомаркеров субъекта.- retain the relationships and weights of the trained classification model, for the subsequent determination of the likelihood of breast cancer according to the results of processing the measured biomarker data of the subject.

При формировании обучающей и тестовой выборки, включают записи субъектов с выявленной патологией - наличие и отсутствие РМЖ.When forming a training and test sample, they include records of subjects with a revealed pathology - the presence and absence of breast cancer.

Технический результат достигается посредством реализации системы скринингового определения вероятности наличия РМЖ, включающейThe technical result is achieved through the implementation of a screening system for determining the likelihood of breast cancer, including

- модуль ввода измеренных значений биомаркеров субъекта НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, B2M, CA125, hsCRP, СЕА, sVCAM.1, CA15.3;- module for entering the measured biomarker values of the subject HE4, ApoA2, CYFRA.21.1, Ddimer, ApoA1, TTR, B2M, CA125, hsCRP, CEA, sVCAM.1, CA15.3;

- модуль хранения данных, выполненный с возможностью хранения обучающей и тестовой выборки классификационной модели, связей и весов обученной классификационной модели, записей субъектов с измеренными значениями биомаркеров НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, B2M, CA125, hsCRP, СЕА, sVCAM.1, CA15.3, включающие записи о пациентках разного возраста;- a data storage module configured to store the training and test samples of the classification model, the relationships and weights of the trained classification model, records of subjects with measured values of the HE4, ApoA2, CYFRA.21.1, Ddimer, ApoA1, TTR, B2M, CA125, hsCRP, CEA biomarkers , sVCAM.1, CA15.3, including records of patients of different ages;

- модуль обученной классификационной модели, выполненный с возможностью построения и обучения, по меньшей мере, одной классификационной модели для определения наличия заданной патологии по упомянутым маркерам, взятым из модуля хранения данных;- module trained classification model, made with the possibility of building and training at least one classification model to determine the presence of a given pathology for the said markers taken from the data storage module;

- модуль диагностики, выполненный с возможностью обработки введенных значений биомаркеров субъекта с использованием, по меньшей мере, одной обученной классификационной модели;- a diagnostic module configured to process the entered biomarker values of the subject using at least one trained classification model;

- модуль вывода данных, выполненный с возможностью получения данных о высокой или низкой вероятности наличия РМЖ.- a data output module, configured to obtain data on a high or low probability of breast cancer.

Точность заявляемого мультиплексного метода диагностики РМЖ обеспечивается за счет использования комплекса из 12 биомаркеров, а также за счет использования нескольких классификационных моделей с последующим усреднением модельных результатов.The accuracy of the proposed multiplex method for the diagnosis of breast cancer is ensured through the use of a complex of 12 biomarkers, as well as through the use of several classification models with the subsequent averaging of model results.

Краткое описание чертежейBrief Description of the Drawings

Изобретение поясняется чертежами, где:The invention is illustrated by drawings, where:

На фиг. 1 представлена диаграмма рассеяния «возраст пациентки - концентрация биомаркеров». Точки - индивидуальные измерения, линии - предсказания линейной регрессионной модели. На графиках приведены значения корреляционных коэффициентов, рассчитанных по методу Пирсона и Р-значения, рассчитанные по тесту Стьюдента;In FIG. Figure 1 shows a scatter plot of the patient's age — concentration of biomarkers. Points are individual measurements, lines are predictions of a linear regression model. The graphs show the values of correlation coefficients calculated by the Pearson method and P-values calculated by the Student test;

На фиг. 2 - ROC-кривые для оценки предсказательной способности отдельных биомаркеров (тип линий соответствует биомаркеру);In FIG. 2 - ROC-curves for assessing the predictive ability of individual biomarkers (line type corresponds to the biomarker);

На фиг. 3. - Примеры деревьев решений, полученных в результате обучения многофакторного классификационного алгоритма random forest на экспериментальных данных по 12 биомаркерам;In FIG. 3. - Examples of decision trees obtained as a result of training the multivariate classification algorithm random forest on experimental data for 12 biomarkers;

На фиг. 4 - Визуализация результатов разделения пациентов на 2 класса (здоровые доноры и пациентки с РМЖ) при помощи линейного дискриминантного анализа по 12 биомаркерам;In FIG. 4 - Visualization of the results of the separation of patients into 2 classes (healthy donors and patients with breast cancer) using a linear discriminant analysis of 12 biomarkers;

На фиг. 5 - Примеры 3-мерных проекций разделения объединенной популяции пациенток на 2 класса (здоровые доноры и пациентки с РМЖ) при помощи метода опорных векторов по 12 биомаркерам;In FIG. 5 - Examples of 3-dimensional projections of the division of the combined patient population into 2 classes (healthy donors and patients with breast cancer) using the support vector method for 12 biomarkers;

На фиг. 6 - Доля классификаторов стратифицированная по AUROC в зависимости от количества включенных в них биомаркеров. Обучение проводилось при помощи А. Метода опорных векторов Б. Линейного дискриминантного анализа.In FIG. 6 - The proportion of classifiers stratified by AUROC depending on the number of biomarkers included in them. The training was conducted using A. Method of support vectors B. Linear discriminant analysis.

На фиг. 7 - ROC-кривые для оценки предсказательной способности различных классификационных алгоритмов. А. Весь набор данных был использован как для обучения модели, так и для ее валидации; Б. 80% данных было использовано для обучения модели, 20% - для валидации.In FIG. 7 - ROC curves for evaluating the predictive ability of various classification algorithms. A. The entire data set was used both for model training and for its validation; B. 80% of the data was used to train the model, 20% - for validation.

На фиг. 8 - Блок-схема системы, предназначенной для оценки вероятности наличия РМЖ на основе данных пациентки.In FIG. 8 is a block diagram of a system designed to assess the likelihood of breast cancer based on patient data.

На фиг. 9 - Алгоритм оценки вероятности наличия РМЖ на основе данных пациентки.In FIG. 9 - Algorithm for assessing the likelihood of breast cancer based on patient data.

Осуществление изобретенияThe implementation of the invention

Исходная группа биомаркеров, используемая в диагностическом тесте на определение вероятности наличия РМЖ была получена с использованием многофакторной классификационной модели. Подобные методы позволяют находить комбинации биомаркеров, обладающих наибольшим диагностическим потенциалом. Математическая модель проходит обучение на экспериментальных измерениях заданного набора биомаркеров, полученных на смешанной выборке из здоровых добровольцев и пациенток с РМЖ. Обученная модель может быть использована для оценки риска наличия заболевания у пациентки на основе показателей ее биомаркеров.The initial group of biomarkers used in the diagnostic test to determine the likelihood of breast cancer was obtained using a multivariate classification model. Such methods make it possible to find combinations of biomarkers with the greatest diagnostic potential. The mathematical model is trained on experimental measurements of a given set of biomarkers obtained on a mixed sample of healthy volunteers and patients with breast cancer. The trained model can be used to assess the risk of a patient having a disease based on indicators of her biomarkers.

В рамках проведенной работы на этапе разработки диагностически значимого комплекса показателей были использованы данные измерений 16 биомаркеров (AFP, СЕА, СА 19-9, СА 125, НЕ4, tPSA, СА 15-3, В2М, hsCRP, Ddimer, CYFRA 21-1, ApoA1, ApoA2, Apo B, TTR, sVCAM-1), полученные на выборке здоровых добровольцев европеоидной популяции (104 женщины, средний возраст 50 лет) и пациенток с РМЖ (86 женщин, средний возраст 63 года).As part of the work carried out at the stage of developing a diagnostically significant set of indicators, we used the measurement data of 16 biomarkers (AFP, CEA, CA 19-9, CA 125, HE4, tPSA, CA 15-3, B2M, hsCRP, Ddimer, CYFRA 21-1, ApoA1, ApoA2, Apo B, TTR, sVCAM-1) obtained from a sample of healthy volunteers of the Caucasian population (104 women, average age 50 years) and patients with breast cancer (86 women, average age 63 years).

Статистическая обработка экспериментальных данных и разработка классификационных моделей проводилась в среде R {RDevelopmentCoreTeam (2007). R: А language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0}.Statistical processing of experimental data and the development of classification models was carried out in R {RDevelopmentCoreTeam (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0}.

Первым этапом являлся статистический анализ и визуализация данных. Для здоровых добровольцев было оценено влияние возраста на показатели биомаркеров (Фиг. 1). По итогам проведения исследования на данном этапе был сделан вывод об отсутствии значимой корреляции между возрастом пациенток и показателями большинства биомаркеров (за исключением CYFRA.21.1 и НЕ4).The first step was statistical analysis and data visualization. For healthy volunteers, the effect of age on biomarker indices was evaluated (Fig. 1). Based on the results of the study at this stage, it was concluded that there was no significant correlation between the age of patients and the performance of most biomarkers (with the exception of CYFRA.21.1 and HE4).

На следующем этапе проводилась оценка значимости различий в уровнях отдельных биомаркеров между здоровыми добровольцами и пациентками с РМЖ при помощи критерия Стьюдента после нормализации экспериментальных данных путем log-трансформации (Таблица 1).At the next stage, the significance of differences in the levels of individual biomarkers between healthy volunteers and patients with breast cancer was assessed using the Student criterion after normalization of experimental data by log transformation (Table 1).

Figure 00000001
Figure 00000001

Figure 00000002
Figure 00000002

1 - сравнение по тесту Стьюдента после нормализации экспериментальных данных; * - Р-значения < 0.05, ** - Р-значения < 0.01, *** - Р-значения < 0.001. 1 - comparison by student's test after normalization of experimental data; * - P-values <0.05, ** - P-values <0.01, *** - P-values <0.001.

На основании проведенного анализа был сделан вывод об отсутствии значимых различий в концентрациях AFP, СА19.9 и АроВ между здоровыми добровольцами и пациентками с РМЖ. Также в рамках данного исследования отмечено значимое различие в концентрациях СА15.3 и Ddimer, не включенных в прототип.Based on the analysis, it was concluded that there were no significant differences in the concentrations of AFP, CA19.9 and ApoB between healthy volunteers and patients with breast cancer. Also in the framework of this study, there was a significant difference in the concentrations of CA15.3 and Ddimer, not included in the prototype.

Для оценки диагностической ценности отдельных биомаркеров использовался метод логистических регрессий. В данных статистических моделях рассматривалась взаимосвязь между концентрацией биомаркера и вероятностью наличия заболевания (уравнение 1):To assess the diagnostic value of individual biomarkers, the logistic regression method was used. In these statistical models, the relationship between the concentration of the biomarker and the probability of the presence of the disease was considered (equation 1):

Figure 00000003
Figure 00000003

где P(Y) - вероятность наличия заболевания, b0 и b1 - коэффициенты, определяемые по экспериментальным данным, X - предиктор (концентрация биомаркера).where P (Y) is the probability of the presence of the disease, b 0 and b 1 are the coefficients determined by the experimental data, X is the predictor (biomarker concentration).

Предсказательная способность логистических моделей оценивалась при помощи ROC-анализа, предполагающего определение чувствительности, специфичности и точности метода относительно тестового или общего набора данных. Для этого значение пороговой вероятности, определяющей наличие заболевания, варьировалось в пределах от 0 до 1 с заданным шагом, для каждого шага рассчитывалась доля верно диагностированных случаев заболевания (чувствительность) (Se), правильно определенных случаев отсутствия заболевания (специфичность) (Sp), а также общая доля правильно диагностированных случаев, как наличия, так и отсутствия заболевания (точность) (Acc), (уравнения 2-4):The predictive ability of logistic models was evaluated using ROC analysis, which involves the determination of the sensitivity, specificity and accuracy of a method relative to a test or general data set. For this, the value of the threshold probability determining the presence of the disease varied from 0 to 1 with a given step; for each step, the share of correctly diagnosed cases of the disease (sensitivity) (S e ), correctly identified cases of absence of the disease (specificity) (S p ) , as well as the total proportion of correctly diagnosed cases, both the presence and absence of the disease (accuracy) (Acc), (equations 2-4):

Figure 00000004
Figure 00000004

Figure 00000005
Figure 00000005

Figure 00000006
Figure 00000006

где TP - верно классифицированный положительный результат (верно диагностированное заболевание), FP - ложноположительный результат (ошибочно диагностированное заболевание), TN - верно классифицированный отрицательный результат (верно диагностированное отсутствие заболевания), FN - ложноотрицательный результат (ошибочно диагностированное отсутствие заболевания).where TP is a correctly classified positive result (a correctly diagnosed disease), FP is a false positive result (a misdiagnosed disease), TN is a correctly classified negative result (a correctly diagnosed absence of disease), FN is a false negative result (a misdiagnosed absence of disease).

Полученный набор значений чувствительности и специфичности использовался для построения ROC-кривой. В качестве интегрального показателя качества моделей использовалась площадь под ROC-кривой (AUROC): предикторы с максимальной предиктивной способностью показывают наибольшие значения AUROC. Результаты ROC-анализа приведены на фиг. 2 и в таблице 2.The resulting set of sensitivity and specificity values was used to construct the ROC curve. The area under the ROC curve (AUROC) was used as an integral indicator of the quality of models: predictors with the maximum predictive ability show the highest AUROC values. The results of the ROC analysis are shown in FIG. 2 and in table 2.

Figure 00000007
Figure 00000007

На основе результатов статистического анализа данных и оценки предсказательной способности однофакторных логистических моделей были отобраны биомаркеры, которые впоследствии были включены в многофакторные классификационные модели. Критерием включения биомаркеров являлись pval <0.005 (Таблица 1) и AUROC≥0.6 (Таблица 2). Таким образом, для построения классификационных моделей были отобраны экспериментальные измерения 12 биомаркеров (CYFRA.21.1, АроА2, Ddimer, НЕ4, В2М, ApoA1, sVCAM.1, СА125, СА15.3, TTR, hsCRP, СЕА).Based on the results of statistical analysis of the data and assessment of the predictive ability of one-factor logistic models, biomarkers were selected, which were subsequently included in multifactor classification models. The inclusion criteria for biomarkers were pval <0.005 (Table 1) and AUROC≥0.6 (Table 2). Thus, to construct classification models, experimental measurements of 12 biomarkers were selected (CYFRA.21.1, ApoA2, Ddimer, HE4, B2M, ApoA1, sVCAM.1, CA125, CA15.3, TTR, hsCRP, CEA).

Разработка многофакторных классификационных моделей являлась завершающим этапом исследования. Различные способы машинного обучения (random forest, линейный дискриминантный анализ, метод опорных векторов) были использованы в рамках текущей задачи. Оценка параметров моделей (обучение), производилась на объединенных данных, полученных на здоровых добровольцах и пациентках с РМЖ, и была направлена на минимизацию предсказательных ошибок алгоритма. Детальное описание использованных методов изложено в книге (Bishop CM, Pattern recognition and machine learning. Springer. 2006).The development of multifactor classification models was the final stage of the study. Various machine learning methods (random forest, linear discriminant analysis, support vector method) were used as part of the current task. The estimation of model parameters (training) was carried out on the combined data obtained from healthy volunteers and patients with breast cancer, and was aimed at minimizing the predictive errors of the algorithm. A detailed description of the methods used is given in the book (Bishop CM, Pattern recognition and machine learning. Springer. 2006).

Метод «random forest» (RF) подразумевает создание совокупности кросс-валидированных решающих деревьев. Каждое из таких деревьев проходит обучение на подвыборке данных, включающей информацию лишь по части биомаркеров и наблюдений, и валидируется на подвыборке, не использованной для его построения (бэггинг). На основании предсказаний каждого из построенных деревьев решений пациентка причисляется к одной из групп (здоровые доноры или пациентки с РМЖ), финальное предсказание классификатора определяется большинством голосов построенных деревьев (см. фиг. 3А, Б).The random forest (RF) method involves the creation of a set of cross-validated decision trees. Each of these trees is trained on a subsample of data, which includes information only on the part of biomarkers and observations, and is validated on a subsample not used to construct it (bagging). Based on the predictions of each of the constructed decision trees, the patient is assigned to one of the groups (healthy donors or patients with breast cancer), the final prediction of the classifier is determined by the majority of votes of the constructed trees (see Fig. 3A, B).

Использование линейного дискриминантного анализа (LDA) предполагает поиск линейной комбинации биомаркеров - дискриминанты, обеспечивающей наилучшее разделение всей популяции обследуемых на здоровых добровольцев и пациенток с РМЖ. Линейная дискриминанта может быть рассчитана: z(x)=β1x1+…+βnxn, где xi - это концентрации i-го биомаркера, β1 - коэффициенты модели. Данная задача решается за счет нахождения оси, проекция на которую обеспечивает максимальное отношение общей дисперсии линейной комбинации биомаркеров выборки к сумме дисперсий линейной комбинации биомаркеров внутри классов (см. фиг. 4).The use of linear discriminant analysis (LDA) involves the search for a linear combination of biomarkers - discriminants, which ensures the best separation of the entire population of subjects into healthy volunteers and patients with breast cancer. The linear discriminant can be calculated: z (x) = β 1 x 1 + ... + β n x n , where x i are the concentrations of the ith biomarker, β 1 are the model coefficients. This problem is solved by finding the axis, the projection onto which provides the maximum ratio of the total variance of the linear combination of biomarkers of the sample to the sum of the variances of the linear combination of biomarkers within the classes (see Fig. 4).

Таблица 3. Значения линейных коэффициентов при дискриминанте (LDAcomponent 1)Table 3. The values of linear coefficients in discriminant (LDAcomponent 1)

Figure 00000008
Figure 00000008

Figure 00000009
Figure 00000009

Использование метода опорных векторов (SVM) предполагает нахождение (n-1)-мерной гиперплоскости, разделяющей n-мерное пространство значений биомаркеров на два класса. Пусть имеется обучающая выборка (x1,y1), … (xn,yn), xi ∈ Rn,yi ∈ {-1,1}, где xi - это вектор значений биомаркеров, a yi определяет принадлежность пациента к классу. Классифицирующая функция может быть определена как F(x)=sign(〈w,х〉+b), где w - нормальный вектор к разделяющей гиперплоскости, b - вспомогательный параметр, а функция может принимать значения 1 или -1 в зависимости от класса объекта. Обучение алгоритма подразумевает поиск такой гиперплоскости, которая обеспечивает наименьшую эмпирическую ошибку классификации и максимизирует расстояние между значениями биомаркеров пациенток, относящихся к разным классам (см. фиг. 5):Using the support vector method (SVM) involves finding an (n-1) -dimensional hyperplane dividing the n-dimensional space of biomarker values into two classes. Let there be a training sample (x 1 , y 1 ), ... (x n , y n ), x i ∈ R n , y i ∈ {-1,1}, where x i is the vector of biomarker values, ay i determines the membership patient to class. The classifying function can be defined as F (x) = sign (〈w, x〉 + b), where w is the normal vector to the dividing hyperplane, b is an auxiliary parameter, and the function can take the values 1 or -1 depending on the class of the object . Learning an algorithm involves finding a hyperplane that provides the smallest empirical classification error and maximizes the distance between the biomarkers of patients belonging to different classes (see Fig. 5):

На первом этапе построения многофакторных моделей проводилось изучение диагностической ценности различных комбинаций биомаркеров из приведенной выше группы. Для этого все возможные комбинации, включающие от 2 до 12 биомаркеров, были использованы для построения классификационных моделей (4803 варианта). Для обучения использовались объединенные данные, полученные на здоровых добровольцах и пациентках с РМЖ, и методы линейного дискриминантного анализа и опорных векторов. Разработанные модели были ранжированы в соответствии с их предсказательным потенциалом, оцененным по показателю AUROC (фиг. 7, таблица 4).At the first stage of building multivariate models, the diagnostic value of various combinations of biomarkers from the above group was studied. For this, all possible combinations, including from 2 to 12 biomarkers, were used to build classification models (4,803 options). For training, we used the combined data obtained from healthy volunteers and patients with breast cancer, and the methods of linear discriminant analysis and reference vectors. The developed models were ranked in accordance with their predictive potential, estimated by the AUROC indicator (Fig. 7, table 4).

Как видно из фиг. 6, наибольшей предсказательной способностью обладают комплексные тесты, включающие 11-12 биомаркеров, в то время как для относительно небольшой доли классификаторов, включающих комбинации из 2-3 биомаркеров, показатель AUROC составляет более 80%.As can be seen from FIG. 6, complex tests, including 11-12 biomarkers, have the highest predictive ability, while for a relatively small proportion of classifiers, including combinations of 2-3 biomarkers, the AUROC indicator is more than 80%.

Финальной фазой построения классификаторов являлась их валидация.The final phase of constructing classifiers was their validation.

Объединенные данные, полученные на здоровых добровольцах и пациентках с РМЖ, были случайным образом разделены на обучающую и тестовую выборки. Оценка параметров моделей (обучение) производилась на обучающей выборке и была направлена на минимизацию предсказательных ошибок алгоритма. Валидация обученных моделей заключалась в оценке их предсказательной способности на тестовой выборке. Предсказательная способность многофакторных классификационных моделей оценивалась при помощи ROC-анализа как это было сделано ранее для отдельных биомаркеров (фиг. 7, Таблица 4).The pooled data obtained from healthy volunteers and patients with breast cancer were randomly divided into training and test samples. The estimation of model parameters (training) was carried out on a training set and was aimed at minimizing the predictive errors of the algorithm. The validation of trained models was to evaluate their predictive ability on a test sample. The predictive ability of multifactor classification models was evaluated using ROC analysis as was done previously for individual biomarkers (Fig. 7, Table 4).

Figure 00000010
Figure 00000010

Финальные классификационные модели представляют собой обученные алгоритмы, позволяющие предсказать вероятность наличия РМЖ на основании экспериментальных измерений биомаркеров пациенток.Final classification models are trained algorithms that predict the likelihood of breast cancer based on experimental measurements of patient biomarkers.

Финальное решение - определение вероятности наличия РМЖ, рассчитывается как медиана значений вероятностей наличия РМЖ, рассчитанных в 3 классификационных моделях (RF, LDA SVM), обученных на всей выборке пациенток (см., например, Kittler J, Hatef М, Duin RPW et al, On Combining Classifiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, VOL. 20, NO. 3, MARCH 1998 226-39.)The final solution is determining the probability of breast cancer, calculated as the median of the probability of breast cancer, calculated in 3 classification models (RF, LDA SVM), trained on the entire sample of patients (see, for example, Kittler J, Hatef M, Duin RPW et al. On Combining Classifiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, VOL. 20, NO. 3, MARCH 1998 226-39.)

Для реализации заявляемого способа было разработано программное обеспечение (ПО), позволяющее на основе данных конкретной пациентки (результаты измерения биомаркеров) рассчитывать вероятность наличия у нее РМЖ. Блок-схема реализации изобретения представлена на фиг. 8.To implement the proposed method, software was developed (PO), which allows calculating the probability of having breast cancer based on the data of a particular patient (biomarker measurement results). A block diagram of an embodiment of the invention is shown in FIG. eight.

Компьютерно-реализуемая система состоит из (1) интерфейса, включающего устройство ввода данных пациентки (результаты Измерений биомаркеров) и вывода результатов расчета (вероятность наличия РМЖ); (2) блока памяти, содержащего обученные классификаторные модели и программные продукты, необходимые для работы с ними (R portable, Google Chrome Portable) и (3) программного модуля, с помощью которого реализуется программный код, необходимый для обмена данных между интерфейсом и блоком памяти. Для создания графического интерфейса был использован пакет shiny (Winston Chang, Joe Cheng, JJ Allaire, Yihui Xie and Jonathan McPherson (2017). shiny: Web Application Framework for R.R package version 1.0.5. https://CRAN.R-project.org/package=shiny) созданный на базе среды R {RDevelopmentCoreTeam (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0}. Для работы с данным пакетом необходимо наличие программных продуктов R portable и Google Chrome portable, хранящихся в блоке памяти. Для работы с предложенными моделями необходимы следующие пакеты: (1) RandomForest (A. Liaw and М. Wiener (2002). Classification and Regression by randomForest. R News 2(3), 18-22); (2) MASS (Venables, W.N. & Ripley, B.D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0); (3) e1071 (David Meyer, Evgenia Dimitriadou, Kurt Hornik, Andreas Weingessel and Friedrich Leisch (2017). e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R package version 1.6-8. https://CRAN.R-project.org/package=e1071).A computer-implemented system consists of (1) an interface including a patient data input device (results of biomarker measurements) and output of calculation results (probability of breast cancer); (2) a memory block containing trained classifier models and software products needed to work with them (R portable, Google Chrome Portable); and (3) a software module that implements the program code needed to exchange data between the interface and the memory block . The shiny package was used to create the GUI (Winston Chang, Joe Cheng, JJ Allaire, Yihui Xie and Jonathan McPherson (2017). Shiny: Web Application Framework for RR package version 1.0.5. Https: //CRAN.R-project. org / package = shiny) created on the basis of the R {RDevelopmentCoreTeam (2007) environment. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0}. To work with this package, you must have the R portable and Google Chrome portable software products stored in the memory block. To work with the proposed models, the following packages are required: (1) RandomForest (A. Liaw and M. Wiener (2002). Classification and Regression by randomForest. R News 2 (3), 18-22); (2) MASS (Venables, W.N. & Ripley, B.D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0); (3) e1071 (David Meyer, Evgenia Dimitriadou, Kurt Hornik, Andreas Weingessel and Friedrich Leisch (2017). E1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R package version 1.6- 8. https://CRAN.R-project.org/package=e1071).

Алгоритм оценки вероятности наличия РМЖ на основе данных пациентки представлен на фиг. 9.An algorithm for assessing the likelihood of breast cancer based on patient data is presented in FIG. 9.

Данные пациентки вводятся через интерфейс и подаются в качестве входных переменных в разработанные модели, в каждой из которых производится расчет вероятности наличия РМЖ. Далее по результатам модельных предсказаний рассчитывается среднее значение, которое выводится в окно вывода.Patient data is entered via the interface and served as input variables in the developed models, in each of which the probability of breast cancer is calculated. Further, according to the results of model predictions, the average value is calculated, which is displayed in the output window.

Диагностическая мультиплексная панель для оценки риска РМЖ включает биомаркеры, показавшие максимальный предсказательный потенциал в рамках проводимого исследования (рис. 2, таблица 2): CYFRA.21.1, АроА2, Ddimer, НЕ4, В2М, ApoA1. Кроме того, в заявляемый комплекс включены дополнительные биомаркеры, обладающие меньшим предсказательным потенциалом, однако значимо различные между здоровыми добровольцами и пациентками с РМЖ (Таблица. 1): sVCAM.1, СА125, СА15.3, TTR, hsCRP, СЕА в исследуемой популяции.The diagnostic multiplex panel for breast cancer risk assessment includes biomarkers that showed the maximum predictive potential in the framework of the study (Fig. 2, table 2): CYFRA.21.1, ApoA2, Ddimer, HE4, B2M, ApoA1. In addition, the claimed complex includes additional biomarkers with less predictive potential, but significantly different between healthy volunteers and patients with breast cancer (Table 1): sVCAM.1, CA125, CA15.3, TTR, hsCRP, CEA in the studied population.

Ниже представлены клинические примеры применения способа.The following are clinical examples of the application of the method.

Пример 1. Больная И., 63 года.Example 1. Patient I., 63 years old.

Пациентке было предложено принять участие в программе Онкопоиска.The patient was invited to participate in the Oncopoisk program.

Пациентка (724) обследована в рамках программы. Получены следующие результаты:The patient (724) was examined as part of the program. The following results were obtained:

AFP 2,7 МЕ/мл, СЕА 50,4 нг/мл, СА 19-9 77,8 МЕ/мл, СА15.3 824,4 МЕ/мл, СА125 820,9 МЕ/мл, В2М 3261 нг/мл, hsCRP 2 нг/мл, НЕ4 138,8 пмоль/л, Ddimer 473,0 нг/мл, CYFRA.21.1 19,92 нг/мл, Аро А1 1,01 г/л, Аро А2 0,16 г/л, Аро В 0,9 г/л, TTR (prealb) 15,0 мг/дл, sVCAM.1 998 нг/мл, Rantes 33263 пг/мл, VEGFR1 151 пг/мл, LRG-1 136201 нг/мл, Аро А4 37,8 мкг/мл.AFP 2.7 IU / ml, CEA 50.4 ng / ml, CA 19-9 77.8 IU / ml, CA15.3 824.4 IU / ml, CA125 820.9 IU / ml, B2M 3261 ng / ml , hsCRP 2 ng / ml, HE4 138.8 pmol / L, Ddimer 473.0 ng / ml, CYFRA.21.1 19.92 ng / ml, Apo A1 1.01 g / L, Aro A2 0.16 g / L , Apo B 0.9 g / l, TTR (prealb) 15.0 mg / dl, sVCAM. 998 ng / ml, Rantes 33263 pg / ml, VEGFR1 151 pg / ml, LRG-1 136201 ng / ml, Apo A4 37.8 μg / ml.

При обработке полученных результатов заявляемым способом выявлена вероятность РМЖ, значительно превышающая пороговое значение, составляющее 50% (Таблица 4): модель RF - 99.8%, модель LDA - 99.1%, модель SVM - 94.5%, усредненное итоговое значение вероятности наличия РМЖ по трем моделям составило 97.8%.When processing the results by the claimed method, the probability of breast cancer was found that significantly exceeded the threshold value of 50% (Table 4): model RF - 99.8%, model LDA - 99.1%, model SVM - 94.5%, average total probability of the presence of breast cancer over three models amounted to 97.8%.

Пациентка приглашена на обследование.The patient is invited for examination.

При осмотре:On examination:

Периферические лимфатические узлы не увеличены. Молочные железы симметричны. Соски и ареолы не изменены. В обеих молочных железах узловые образования не определяются, ткань молочных желез повышенной плотности. Кожных симптомов нет.Peripheral lymph nodes are not enlarged. The mammary glands are symmetrical. Nipples and areoles are not changed. In both mammary glands, nodular formations are not determined, the tissue of the mammary glands of increased density. There are no skin symptoms.

Пациентка направлена на маммографию с томосинтезом.The patient is directed to mammography with tomosynthesis.

На маммографии молочные железы повышенной маммографической плотности (4). В ткани обеих молочных желез остаточные явления фиброзно-кистозной мастопатии с выраженным фиброзным компонентом. В верхне-наружном квадранте правой молочной железы определяется участок со скоплением микрокальцинатов, площадью до 2 см.On mammography, mammary glands of increased mammographic density (4). In the tissue of both mammary glands, residual effects of fibrocystic mastopathy with a pronounced fibrous component. In the upper-outer quadrant of the right mammary gland, a site with an accumulation of microcalcifications, an area of up to 2 cm, is determined.

Под контролем УЗИ выполнена пункция подозрительного в отношении рака участка правой молочной железы.Under the supervision of an ultrasound, a puncture of a cancerous area of the right breast was performed.

Цитологическое заключение: клетки рака.Cytological conclusion: cancer cells.

Пациентке проведено хирургическое лечение в объеме радикальной резекции правой молочной железы. Гистологическое заключение: В ткани сектора молочной железы опухолевый узел размером 0,8 см в диаметре. Имеет строение инфильтративного протокового рака II степени злокачественности, с наличием структур протокового рака in situ.The patient underwent surgical treatment in the amount of radical resection of the right breast. Histological conclusion: In the tissue of the mammary gland sector, the tumor node is 0.8 cm in diameter. Has the structure of infiltrative ductal cancer of the II degree of malignancy, with the presence of ductal cancer structures in situ.

В 18 исследованных лимфоузлах - метастазы рака не выявлены.In 18 examined lymph nodes, cancer metastases were not detected.

Иммуногистохимическое исследование: ER (Рецепторы эстрогенов) 105 Н-баллов, PR (рецепторы прогестерона) - 50 Н-баллов. Her2neu 1+.Immunohistochemical study: ER (estrogen receptors) 105 N-points, PR (progesterone receptors) - 50 N-points. Her2neu 1+.

При обследовании данных за отдаленные метастазы не выявлено.When examining data for distant metastases was not detected.

Диагноз: Рак правой молочной железы T1N0M0.Diagnosis: Cancer of the right breast T1N0M0.

Пример 2. Больная К., 72 года.Example 2. Patient K., 72 years old.

Пациентке было предложено принять участие в программе Онкопоиска.The patient was invited to participate in the Oncopoisk program.

Пациентка (659) обследована в рамках программы. Получены следующие результаты:The patient (659) was examined as part of the program. The following results were obtained:

AFP 4,14 МЕ/мл, СЕА 1,68 нг/мл, СА 19-9 14.92 МЕ/мл, СА15.3 57,29 МЕ/мл, СА125 15,11 МЕ/мл, В2М 3527 нг/мл, hsCRP 32 нг/мл, НЕ4 143,3 пмоль/л, Ddimer 466,0 нг/мл, CYFRA.21.1 4,79 нг/мл, Аро А1 1,65 г/л, Аро А2 0,344 г/л, Аро В 2,04 г/л, TTR (prealb) 26,0 мг/дл, sVCAM.1 1278 нг/мл, Rantes 59201 пг/мл, VEGFR1 91 пг/мл, LRG-1 98732 нг/мл, Аро А4 32,5 мкг/мл.AFP 4.14 IU / ml, CEA 1.68 ng / ml, CA 19-9 14.92 IU / ml, CA15.3 57.29 IU / ml, CA125 15.11 IU / ml, B2M 3527 ng / ml, hsCRP 32 ng / ml, HE4 143.3 pmol / l, Ddimer 466.0 ng / ml, CYFRA.21.1 4.79 ng / ml, Apo A1 1.65 g / l, Apo A2 0.344 g / l, Apo B 2 , 04 g / l, TTR (prealb) 26.0 mg / dl, sVCAM.1 1278 ng / ml, Rantes 59201 pg / ml, VEGFR1 91 pg / ml, LRG-1 98732 ng / ml, Aro A4 32.5 mcg / ml.

При обработке полученных результатов заявляемым способом выявлена высокая вероятность рака молочной железы.When processing the results obtained by the claimed method revealed a high probability of breast cancer.

При обработке полученных результатов заявляемым способом выявлена вероятность РМЖ значительно превышающая пороговое значение, составляющее 50% (Таблица 4): модель RF - 96.6%, модель LDA - 81.1%, модель SVM - 94.8%, усредненное итоговое значение вероятности наличия РМЖ по трем моделям составило 90.8%.When processing the results by the claimed method, the probability of breast cancer was significantly higher than the threshold value of 50% (Table 4): model RF - 96.6%, model LDA - 81.1%, model SVM - 94.8%, the average total value of the likelihood of breast cancer in three models was 90.8%.

Пациентка приглашена на обследование.The patient is invited for examination.

При осмотре периферические л/узлы не увеличены. В ткани обеих молочных желез опухолевые образования не определяются.On examination, the peripheral l / nodes are not enlarged. No tumor is detected in the tissue of both mammary glands.

Ранее в прошлом году пациентка была обследована, выполнена маммография. По данным заключения: инволютивные изменения в ткани молочных желез.Earlier last year, the patient was examined, a mammogram was performed. According to the conclusion: involutive changes in the tissue of the mammary glands.

Выполнена маммография с томосинтезом. В верхненаружном квадранте правой молочной железы определяется скопление микрокальцинатов на площади 2 см. Выполнена Cor-биопсия этого участка ткани молочной железы под контролем прицельной маммографии.A mammogram with tomosynthesis was performed. In the upper outer quadrant of the right mammary gland, an accumulation of microcalcinates is determined on an area of 2 cm. A Cor biopsy of this area of breast tissue was performed under the control of targeted mammography.

Гистологическое заключение: картина инвазивного без признаков специфичности рака молочной железы G2, трабекулярно-солидного строения. Иммуногистохимическое исследование: рецепторы эстрогенов 8 баллов, рецепторы прогестерона 8 баллов, Ki 67 4%, Her2neu - 0.Histological conclusion: a picture of an invasive, without signs of specificity, breast cancer G2, a trabecular solid structure. Immunohistochemical study: estrogen receptors 8 points, progesterone receptors 8 points, Ki 67 4%, Her2neu - 0.

Установлен диагноз рака молочной железы T1N0M0, люминальный А.The diagnosis of breast cancer T1N0M0, luminal A.

Оперативное лечение в объеме радикальной резекции правой молочной железы.Surgical treatment in the amount of radical resection of the right breast.

Диагноз подтвержден гистологически. Опухоль размерами 15 мм, без признаков сосудистой и периневральной инвазии. В 17 исследованных лимфатических узлах без признаков метастазирования.The diagnosis is histologically confirmed. A tumor measuring 15 mm, without signs of vascular and perineural invasion. In 17 examined lymph nodes with no signs of metastasis.

Claims (7)

1. Способ скринингового определения вероятности наличия рака молочной железы (РМЖ) у пациенток европеоидной популяции, включающий измерение уровня биомаркеров в образце биологической жидкости, полученном у субъекта: CYFRA.21.1, АроА2, Ddimer, НЕ4, В2М, ApoA1, sVCAM.1, СА125, СА15.3, TTR, hsCRP, CEA, с последующей обработкой совокупности полученных значений биомаркеров с использованием по меньшей мере одной классификационной модели, обученной для определения высокой или низкой вероятности наличия рака молочной железы.1. A method for screening the probability of breast cancer (breast cancer) in a Caucasian patient, including measuring the level of biomarkers in a sample of body fluid obtained from a subject: CYFRA.21.1, ApoA2, Ddimer, HE4, B2M, ApoA1, sVCAM.1, CA125 , CA15.3, TTR, hsCRP, CEA, followed by processing the totality of the obtained biomarker values using at least one classification model trained to determine whether breast cancer is high or low. 2. Способ по п. 1, характеризующийся тем, что в качестве классификационных моделей используют метод «случайного леса» (random forest), и/или линейный дискриминантный анализ, и/или метод опорных векторов.2. The method according to p. 1, characterized in that as the classification models use the method of "random forest" (random forest), and / or linear discriminant analysis, and / or the method of support vectors. 3. Способ по п. 1, характеризующийся тем, что обученную классификационную модель получают посредством реализации следующих шагов:3. The method according to p. 1, characterized in that the trained classification model is obtained by implementing the following steps: - формируют обучающую и тестовую выборки записей субъектов с измеренными значениями биомаркеров CYFRA.21.1, АроА2, Ddimer, НЕ4, В2М, ApoA1, sVCAM.1, СА125, СА15.3, TTR, hsCRP, CEA, включающие записи о пациентках разного возраста;- form training and test samples of records of subjects with measured biomarkers CYFRA.21.1, ApoA2, Ddimer, HE4, B2M, ApoA1, sVCAM.1, CA125, CA15.3, TTR, hsCRP, CEA, including records of patients of different ages; - обучают классификационную модель выявлению заданной патологии, используя записи обучающей и тестовой выборок;- teach the classification model to identify a given pathology using the records of the training and test samples; - сохраняют связи и веса обученной классификационной модели для последующего определения вероятности наличия РМЖ по итогам обработки измеренных данных биомаркеров субъекта.- retain the relationships and weights of the trained classification model for the subsequent determination of the likelihood of breast cancer following the processing of the measured data of the subject's biomarkers. 4. Способ по п. 3, характеризующийся тем, что при формировании обучающей и тестовой выборки включают записи субъектов с выявленной патологией - наличие и отсутствие рака молочной железы.4. The method according to p. 3, characterized in that during the formation of the training and test samples include records of subjects with identified pathology - the presence and absence of breast cancer.
RU2019111094A 2019-04-12 2019-04-12 Method for screening probability of breast cancer presence RU2718272C1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2019111094A RU2718272C1 (en) 2019-04-12 2019-04-12 Method for screening probability of breast cancer presence
EA202090713A EA202090713A3 (en) 2019-04-12 2020-04-10 METHOD FOR SCREENING DETERMINATION OF PROBABILITY OF BREAST CANCER

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019111094A RU2718272C1 (en) 2019-04-12 2019-04-12 Method for screening probability of breast cancer presence

Publications (1)

Publication Number Publication Date
RU2718272C1 true RU2718272C1 (en) 2020-04-01

Family

ID=70156486

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019111094A RU2718272C1 (en) 2019-04-12 2019-04-12 Method for screening probability of breast cancer presence

Country Status (2)

Country Link
EA (1) EA202090713A3 (en)
RU (1) RU2718272C1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2395090C2 (en) * 2005-10-21 2010-07-20 БАЙЕР ХелсКер ЛЛСи Methods of forecasting and prediction of cancer and control on therapy of cancer
WO2015040380A1 (en) * 2013-09-20 2015-03-26 Jeffrey Lordan Cancer biomarker and diagnostic
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2395090C2 (en) * 2005-10-21 2010-07-20 БАЙЕР ХелсКер ЛЛСи Methods of forecasting and prediction of cancer and control on therapy of cancer
WO2015040380A1 (en) * 2013-09-20 2015-03-26 Jeffrey Lordan Cancer biomarker and diagnostic
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KABEL A. M. Tumor markers of breast cancer: New prospectives. Journal of Oncological Sciences. 2017, Volume 3, Issue 1, pp. 5-11. *
KABEL A. M. Tumor markers of breast cancer: New prospectives. Journal of Oncological Sciences. 2017, Volume 3, Issue 1, pp. 5-11. NAGY Z. et al. D-Dimer as a Potential Prognostic Marker. Pathology & Oncology Research. 2012, Volume 18, Issue 3, pp. 669-674. *
NAGY Z. et al. D-Dimer as a Potential Prognostic Marker. Pathology & Oncology Research. 2012, Volume 18, Issue 3, pp. 669-674. *

Also Published As

Publication number Publication date
EA202090713A3 (en) 2021-01-29
EA202090713A2 (en) 2020-10-30

Similar Documents

Publication Publication Date Title
Yang et al. A new approach to predict lymph node metastasis in solid lung adenocarcinoma: a radiomics nomogram
Maldonado et al. Noninvasive characterization of the histopathologic features of pulmonary nodules of the lung adenocarcinoma spectrum using computer-aided nodule assessment and risk yield (CANARY)—a pilot study
JP5184087B2 (en) Methods and computer program products for analyzing and optimizing marker candidates for cancer prognosis
Wang et al. Cancers screening in an asymptomatic population by using multiple tumour markers
Li et al. Machine learning–based computational models derived from large-scale radiographic-radiomic images can help predict adverse histopathological status of gastric cancer
Fan et al. Machine learning analysis for the noninvasive prediction of lymphovascular invasion in gastric cancer using PET/CT and enhanced CT-based radiomics and clinical variables
CN110916666B (en) Imaging omics feature processing method for predicting recurrence of hepatocellular carcinoma after surgical resection
CN113450910A (en) Isolated lung nodule malignancy risk prediction system based on logistic regression model
Suh et al. Stepwise flowchart for decision making on sublobar resection through the estimation of spread through air space in early stage lung cancer1
Peng et al. Computed tomography-based radiomics analysis to predict lymphovascular invasion in esophageal squamous cell carcinoma
CN115937130A (en) Image processing method for predicting ovarian cancer Ki-67 expression based on dual-energy CT
Honda et al. Biomarkers predictive of distant disease-free survival derived from diffusion-weighted imaging of breast cancer
RU2697971C1 (en) Method for early diagnosis of lung cancer
Bian et al. Machine learning for computed tomography radiomics: prediction of tumor-infiltrating lymphocytes in patients with pancreatic ductal adenocarcinoma
CN114529541A (en) Methods, electronic devices, media, and systems for predicting cell expression in pancreatic cancer microenvironment
Cheng et al. Differentiation of clear cell and non-clear-cell renal cell carcinoma through CT-based Radiomics models and nomogram
Defeudis et al. Comparison of radiomics approaches to predict resistance to 1st line chemotherapy in liver metastatic colorectal cancer
RU2718272C1 (en) Method for screening probability of breast cancer presence
RU2718284C1 (en) Method for screening probability of bladder cancer
Huang et al. Distinguishing multiple primary lung cancers from intrapulmonary metastasis using CT-based radiomics
US20230252633A1 (en) Method for biomarker estimation
CN115500851A (en) Early lung cancer risk layered prediction system based on deep learning
Huang et al. Imaging for Early Detection of Pancreatic Ductal Adenocarcinoma: Updates and Challenges in the Implementation of Screening and Surveillance Programs
Yao et al. Applying a nomogram based on preoperative CT to predict early recurrence of laryngeal squamous cell carcinoma after surgery
EA041250B1 (en) METHOD FOR SCREENING DETERMINATION OF PROBABILITY OF PRESENCE OF BREAST CANCER