RU2697971C1 - Способ ранней диагностики рака легкого - Google Patents
Способ ранней диагностики рака легкого Download PDFInfo
- Publication number
- RU2697971C1 RU2697971C1 RU2018140406A RU2018140406A RU2697971C1 RU 2697971 C1 RU2697971 C1 RU 2697971C1 RU 2018140406 A RU2018140406 A RU 2018140406A RU 2018140406 A RU2018140406 A RU 2018140406A RU 2697971 C1 RU2697971 C1 RU 2697971C1
- Authority
- RU
- Russia
- Prior art keywords
- lung cancer
- biomarkers
- cancer
- classification model
- patient
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57423—Specifically defined cancers of lung
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Immunology (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- Cell Biology (AREA)
- Physics & Mathematics (AREA)
- Oncology (AREA)
- Food Science & Technology (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Epidemiology (AREA)
- Hospice & Palliative Care (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
Abstract
Изобретение относится к области медицины, а именно онкологии, и может быть использовано для скринингового определения вероятности наличия рака легкого или выявления данного онкологического заболевания на ранней стадии. Предложен способ, включающий измерение уровня биомаркеров в образце биологической жидкости, полученном у субъекта: НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, В2М, СА125, hsCRP, CEA, sVCAM.1, CA15.3, а также определение пола пациента с последующей обработкой совокупности полученных значений биомаркеров с использованием, по меньшей мере, одной классификационной модели, обученной для определения высокой или низкой вероятности наличия рака легкого. Изобретение обеспечивает повышение точности скринингового выявления наличия рака у конкретного пациента европеоидной популяции, причем уже на ранних стадиях его развития посредством выявления и учета оригинальной совокупности биомаркеров по итогам анализа фракции сыворотки или плазмы крови при ускорении диагностируемых состояний. 3 з.п. ф-лы, 10 ил., 4 табл., 1 пр.
Description
Область техники, к которой относится изобретение
Изобретение относится к области медицины, а именно онкологии, и может быть использовано для скринингового определения вероятности наличия рака легкого, в т.ч. немелкоклеточного, или выявления данного онкологического заболевания на ранней стадии.
Уровень техники
Злокачественные опухоли представляют собой одну из самых значимых проблем здравоохранения не только в России, но и во всем мире.
Онкологические заболевания являются второй по частоте причиной смерти в России. Средний показатель заболеваемости злокачественными новообразованиями в 2016 г. составил 408,6 чел на 100000 населения. Средний показатель смертности - 201,6 чел на 100000 населения. Абсолютное число умерших - 295 729 чел. Онкологическая заболеваемость растет во всем мире. За последние 10 лет она увеличилась более, чем на 20%.
Немелкоклеточный рак легкого стоит на первом месте по распространенности среди мужского населения индустриальных стран (Claudia Allemani, Hannah К Weir, Helena Carreira et al. Global surveillance of cancer survival 1995- 2009: analysis of individual data for 25 676 887 patients from 279 population-based registries in 67 countries (CONCORD-2). Lancet 2014; (November 26). doi:http://dx.doi.org/10.1016/S0140- 6736(14)62038-9). Статистика развитых стран мира свидетельствует о неуклонном росте впервые выявленных случаев рака легкого по сравнению со злокачественными опухолями любой другой локализации.
Рак легкого в России также занимает лидирующие позиции в структуре онкологической заболеваемости и смертности. Ежегодно в России заболевают раком легкого свыше 63000 человек, в том числе свыше 53000 мужчин. Более 20000 пациентов, или 34,2%, на момент постановки диагноза имеют распространенные стадии опухолевого процесса, при которых результаты лечения остаются неудовлетворительными. Анализ неудач хирургического лечения показал, что наиболее частой причиной смерти оперированных больных являются гематогенные метастазы (60-70%) и локо-регионарные рецидивы (30-40%).
Таким образом, разработка новых доступных скрининговых способов ранней диагностики рака легкого является очень актуальной задачей.
Обычной стратегией скрининга является ежегодная рентгенография грудной клетки, особенно у курильщиков. Однако, в крупном клиническом исследовании PLCO (Prostate, Lung, Colorectal and Ovarian Cancer screening) показано, что проведение такого скрининга не влияет на смертность от рака легких в популяции обследуемых (Oken et al., Screening by chest radiograph and lung cancer mortality: the Prostate, Lung, Colorectal, and Ovarian (PLCO) randomized trial. JAMA. 2011 Nov 2; 306(17): 1865-73). Это утверждение безусловно относится и к используемому в России методу рентгеновской диагностики - флюорографии. Исследование выполняется в одной проекции и, несомненно, еще менее информативно по сравнению с рентгенографией грудной клетки.
В настоящее время наиболее эффективным методом скрининговой диагностики в мире является низкодозная спиральная компьютерная томография (НДСКТ). При проведении крупного клинического исследования NLST (National Lung Screening Trial) было установлено, что ежегодная НДСКТ приводит к снижению на 20% смертности от рака легкого по сравнению с ежегодной рентгенографией грудной клетки (National Lung Screening Trial Research Team et al., Reduced lung-cancer mortality with low-dose computed tomographic screening. N Engl J Med. 2011 Aug 4; 365(5):395-409). Методика рекомендована для скрининга рака легких в США. Американская ассоциация торакальной хирургии рекомендует ежегодный скрининг в возрастной группе от 50 до 79 лет, у пациентов со стажем курения 20 лет и дополнительными сопутствующими заболеваниями, которые повышают общий риск развития рака на 5% в течение ближайших 5 лет.
Однако качественный скрининг методом КТ возможен только при наличии высококвалифицированных специалистов и современных аппаратов, которые есть только в крупных медицинских учреждениях. Негативным фактом является и то, что проведение повторных исследований связано с риском дополнительного облучения.
В качестве альтернативы вышеизложенным инструментальным методам визуализации могут выступать методы диагностики, основанные на определении биохимических маркеров в биологических тканях и жидкостях пациента, например, цельной крови, сыворотке или плазме. В качестве таких маркеров, например, могут быть использованы различные антигены, протеины и метаболиты, секретируемые злокачественными клетками или образующиеся в процессе их гибели. Так, в настоящее время для диагностики рака легкого наиболее широко используется определение CYFRA 21-1 (фрагмент цитокератина 19) и CEA (раковый эмбриональный антиген) в плазме крови, известны и другие биомаркеры (Zamay et al., Current and Prospective Protein Biomarkers of Lung Cancer. Cancers 2017, 9, 155). Стоит отметить, что диагностика онкологических заболеваний на основе измерений единичных биомаркеров не является достаточно достоверной ввиду их невысокой чувствительности. Так, например, чувствительность и специфичность CYFRA 21-1 в диагностике рака легкого составляет 43% и 89%, СЕА - 69% и 68% соответственно (Zamay et al., Current and Prospective Protein Biomarkers of Lung Cancer. Cancers 2017, 9, 155). Использование мультиплексных диагностических методов, подразумевающих оценку риска наличия заболевания на основе измерений нескольких биомаркеров, позволяет преодолеть данную проблему и достичь более достоверных результатов.
Так, например, из KR-10-2016-0113444 (прототип) известно определение наличия рака легкого по измеренным в сыворотке крови маркерам следующих белков: НЕ4, RANTES, sVCAM-1, LRG1, СЕА, CYFRA 21-1, АроА2, ApoA1, TTR, В2М, СА125, СА19-9, hsCRP. При этом риск наличия заболевания оценивается по методу логит-регресии на основании совокупности измерений вышеизложенных биомаркеров.
Несмотря на возможность использования в методике комплекса маркеров, повышающих ее диагностическую ценность при оценке риска развития рака легкого, существует необходимость в адаптации методики для различных групп обследуемых. В литературе отмечены межрассовые различия в молекулярных механизмах рака легкого, что ставит под сомнение целесообразность использования единого набора биомаркеров для разных рас.Так, было показано, что частота встречаемости мутаций рецептора эпидермального фактора роста выше в азиатской популяции по сравнению с европеоидной, в то время как частота встречаемости KRAS мутаций - ниже (М.В. Schabath, D. Chress, Т. Munoz-Antonia. Racial and Ethnic Differences in the Epidemiology and Genomics of Lung Cancer. Cancer Control. 2016 Oct; 23(4):338-346). Подобные межрасовые различия могут быть вызваны как факторами окружающей среды (уровень загрязнения воздуха), поведенческими особенностями (специфика питания, распространенность курения), так и генетической предрасположенностью (W. Zhou and D.С. Christiani. East meets West: ethnic differences in epidemiology and clinical behaviors of lung cancer between East Asians and Caucasians. Chin J Cancer. 2011 May; 30(5): 287-292).
Заявляемое изобретение основано на исследовании нового комплекса маркеров, позволяющего повысить точность и достоверность определения наличия заболевания при скрининге рака легкого у конкретного пациента европеоидной популяции, формирование на этой основе той или иной группы риска и выявление тех пациентов, которые нуждаются в углубленном дорогостоящем обследовании для обнаружения ранней стадии рака легкого.
Раскрытие изобретения
Технической проблемой, решаемой настоящим изобретением, является создание более точного способа определения вероятности наличия рака легкого в европеоидной популяции.
Достигаемым техническим результатом является повышение точности скринингового выявления наличия рака у конкретного пациента европеоидной популяции, причем уже на ранних стадиях его развития посредством выявления и учета оригинальной совокупности биомаркеров по итогам анализа фракции сыворотки или плазмы крови при ускорении диагностируемых состояний.
Технический результат достигается посредством реализации способа скринингового определения вероятности наличия рака легкого, включающего измерение уровня биомаркеров в образце биологической жидкости, полученном у субъекта: НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, В2М, СА125, hsCRP, СЕА, sVCAM.1, CA15.3, а также определение пола пациента, с последующей обработкой совокупности полученных значений биомаркеров с использованием, по меньшей мере, одной классификационной модели, обученной для определения высокой или низкой вероятности наличия рака легкого.
В качестве классификационных моделей используют метод «случайного леса» (random forest), и/или линейный дискриминантный анализ, и/или метод опорных векторов.
Обученную классификационную модель получают посредством реализации следующих шагов:
- формируют обучающую и тестовую выборку записей субъектов с измеренными значениями биомаркеров НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, В2М, СА125, hsCRP, СЕА, sVCAM.1, CA15.3), включающие записи о пациентах разного пола и возраста;
- обучают классификационную модель выявлению заданной патологии, используя записи обучающей и тестовой выборки;
- сохраняют связи и веса обученной классификационной модели, для последующего определения вероятности наличия рака легкого по итогам обработки измеренных данных биомаркеров субъекта.
При формировании обучающей и тестовой выборки, включают записи субъектов с выявленной патологией - наличие рака и отсутствие рака легкого.
Технический результат достигается посредством реализации системы скринингового определения вероятности наличия рака легкого, включающей
- модуль ввода измеренных значений биомаркеров субъекта;
- модуль хранения данных, выполненный с возможностью хранения обучающей и тестовой выборки классификационной модели, связей и весов обученной классификационной модели, записей субъектов с измеренными значениями биомаркеров НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, B2M, CA125, hsCRP, СЕА, sVCAM.1, CA15.3, включающие записи о пациентах разного пола и возраста;
- модуль обученной классификационной модели, выполненный с возможностью построения и обучения, по меньшей мере, одной классификационной модели для определения наличия заданной патологии по упомянутым маркерам, взятым из модуля хранения данных;
- модуль диагностики, выполненный с возможностью обработки введенных значений биомаркеров субъекта с использованием, по меньшей мере, одной обученной классификационной модели;
- модуль вывода данных, выполненный с возможностью получения данных о высокой или низкой вероятности наличия рака легкого.
Точность заявляемого мультиплексного метода диагностики рака легкого обеспечивается за счет использования комплекса из 12 биомаркеров и информации о поле пациента, а также за счет использования нескольких классификационных моделей с последующим усреднением модельных результатов.
Краткое описание чертежей
Изобретение поясняется чертежами, где:
На фиг. 1А. представлена диаграмма рассеяния «возраст пациента - концентрация биомаркеров». Точки - индивидуальные измерения, линии - предсказания линейной регрессионной модели. На графиках приведены значения корреляционных коэффициентов, рассчитанных по методу Пирсона и Р-значения, рассчитанные по тесту Стьюдента; на фиг. 1Б. представлена диаграмма размаха для оценки значимости тендерных различий в концентрациях биомаркеров. На графиках приведены Р-значения, полученные при помощи критерия Стьюдента. Серым цветом показаны данные для женщин, черным - для мужчин;
На фиг. 2 - ROC-кривые для оценки предсказательной способности отдельных биомаркеров (тип линий соответствует биомаркеру);
На фиг. 3. - Примеры деревьев решений, полученных в результате обучения многофакторного классификационного алгоритма random forest на экспериментальных данных по 12 биомаркерам;
На фиг. 4 - Визуализация результатов разделения пациентов на 2 класса (здоровые доноры и пациенты с раком легкого) при помощи линейного дискриминантного анализа по 12 биомаркерам;
На фиг. 5 - Примеры 3-мерных проекций разделения объединенной популяции пациентов на 2 класса (здоровые доноры и пациенты с раком легкого) при помощи метода опорных векторов по 12 биомаркерам;
На фиг. 6 - Доля классификаторов стратифицированная по AUROC в зависимости от количества включенных в них биомаркеров. Обучение проводилось при помощи А. Метода опорных векторов Б. Линейного дискриминантного анализа.
На фиг. 7 - ROC-кривые для оценки предсказательной способности различных классификационных алгоритмов. А. Весь набор данных был использован как для обучения модели, так и для ее валидации; Б. 80% данных было использовано для обучения модели, 20% - для валидации.
На фиг. 8 - Блок-схема системы, предназначенной для оценки вероятности наличия рака легкого на основе данных пациента.
На фиг. 9 - Алгоритм оценки вероятности наличия рака легкого на основе данных пациента.
Осуществление изобретения
Исходная группа биомаркеров, используемая в диагностическом тесте на определение вероятности наличия рака легкого (РЛ) была получена с использованием многофакторной классификационной модели. Подобные методы позволяют находить комбинации биомаркеров, обладающих наибольшим диагностическим потенциалом. Математическая модель проходит обучение на экспериментальных измерениях заданного набора биомаркеров, полученных на смешанной выборке из здоровых добровольцев и пациентов с РЛ. Обученная модель может быть использована для оценки риска наличия заболевания у пациента на основе показателей его биомаркеров.
В рамках проведенной работы на этапе разработки диагностически значимого комплекса показателей были использованы данные измерений 16 биомаркеров (AFP, СЕА, СА 19-9, СА 125, НЕ4, tPSA, СА 15-3, В2М, hsCRP, Ddimer, CYFRA 21-1, ApoA1, ApoA2, Apo B, TTR, sVCAM-1), полученные на выборке здоровых добровольцев европеоидной популяции (n=203, 104 женщины и 99 мужчин 36-80 лет, средний возраст 53 года) и пациентов с раком легкого (n=77, 25 женщин и 52 мужчин 36-80 лет, средний возраст 62 лет).
Статистическая обработка экспериментальных данных и разработка классификационных моделей проводилась в среде R {RDevelopmentCoreTeam (2007). R: А language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0}.
Первым этапом являлся статистический анализ и визуализация данных. Для здоровых добровольцев было оценено влияние пола и возраста на показатели биомаркеров (Фиг. 1).
По итогам проведения исследования на данном этапе был сделан вывод об отсутствии значимой корреляции между возрастом пациентов и показателями большинства биомаркеров, в то же время наблюдались значимые тендерные различия в показателях СЕА, СА 19-9, СА 125, НЕ4, Ddimer, ApoA1 и TTR.
На следующем этапе проводилась оценка значимости различий в уровнях отдельных биомаркеров между здоровыми добровольцами и пациентами с раком легкого при помощи критерия Стьюдента после нормализации экспериментальных данных путем log-трансофрмации (Таблица 1).
На основании проведенного анализа был сделан вывод об отсутствии значимых различий в концентрациях AFP, СА19.9, t.PSA между здоровыми добровольцами и пациентами с раком легкого. Так же в рамках данного исследования отмечено значимое различие в концентрациях Ddimer, АроВ и СА15.3, не включенных в прототип, а также отмечено более значимое различие в sVCAM.1 по сравнению с исследованием-прототипом.
Для оценки диагностической ценности отдельных биомаркеров использовался метод логистических регрессий. В данных статистических моделях рассматривалась взаимосвязь между концентрацией биомаркера и вероятностью наличия заболевания (уравнение 1):
где P(Y) - вероятность наличия заболевания, b0 и b1 - коэффициенты, определяемые по экспериментальным данным, X - предиктор (концентрация биомаркера).
Предсказательная способность логистических моделей оценивалась при помощи ROC-анализа, предполагающего определение чувствительности, специфичности и точности метода относительно тестового или общего набора данных. Для этого значение пороговой вероятности, определяющей наличие заболевания, варьировалось в пределах от 0 до 1 с заданным шагом, для каждого шага рассчитывалась доля верно диагностированных случаев заболевания (чувствительность) (Se), правильно определенных случаев отсутствия заболевания (специфичность) (Sp), а также общая доля правильно диагностированных случаев, как наличия, так и отсутствия заболевания (точность) (Acc), (уравнения 2-4):
где TP - верно классифицированный положительный результат (верно диагностированное заболевание), FP - ложноположительный результат (ошибочно диагностированное заболевание), TN - верно классифицированный отрицательный результат (верно диагностированное отсутствие заболевания), FN - ложноотрицательный результат (ошибочно диагностированное отсутствие заболевания).
Полученный набор значений чувствительности и специфичности использовался для построения ROC-кривой. В качестве интегрального показателя качества моделей использовалась площадь под ROC-кривой (AUROC): предикторы с максимальной предиктивной способностью показывают наибольшие значения AUROC. Результаты ROC-анализа приведены на фиг. 2 и в таблице 2.
На основе результатов статистического анализа данных и оценки предсказательной способности однофакторных логистических моделей были отобраны биомаркеры, которые впоследствии были включены в многофакторные классификационные модели. Критерием включения биомаркеров являлись pval<0.005 (Таблица 1) и AUROC≥0.6 (Таблица 2). Таким образом, для построения классификационных моделей были отобраны экспериментальные измерения 12 биомаркеров (НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, B2M, CA125, hsCRP, СЕА, sVCAM.1, CA15.3), так же использовалась информация о поле пациента.
Разработка многофакторных классификационных моделей являлась завершающим этапом исследования. Различные способы машинного обучения (random forest, линейный дискриминантный анализ, метод опорных векторов) были использованы в рамках текущей задачи. Оценка параметров моделей (обучение), производилась на объединенных данных, полученных на здоровых добровольцах и пациентах с раком легкого, и была направлена на минимизацию предсказательных ошибок алгоритма. Детальное описание использованных методов изложено в книге (Bishop CM, Pattern recognition and machine learning. Springer. 2006).
Метод «random forest» (RF) подразумевает создание совокупности кросс-валидированных решающих деревьев. Каждое из таких деревьев проходит обучение на подвыборке данных, включающей информацию лишь по части биомаркеров и наблюдений, и валидируется на подвыборке, не использованной для его построения (бэггинг). На основании предсказаний каждого из построенных деревьев решений пациент причисляется к одной из групп (здоровые доноры или пациенты с раком легкого), финальное предсказание классификатора определяется большинством голосов построенных деревьев (см. фиг. 3А, Б).
Использование линейного дискриминантного анализа (LDA) предполагает поиск линейной комбинации биомаркеров - дискриминанты, обеспечивающей наилучшее разделение всей популяции обследуемых на здоровых добровольцев и пациентов с раком легкого. Линейная дискриминанта может быть рассчитана: z(x)=β1х1+…+βnxn, где x1 - это концентрации i-го биомаркера, βi - коэффициенты модели. Данная задача решается за счет нахождения оси, проекция на которую обеспечивает максимальное отношение общей дисперсии линейной комбинации биомаркеров выборки к сумме дисперсий линейной комбинации биомаркеров внутри классов (см. фиг. 4).
Использование метода опорных векторов (SVM) предполагает нахождение (n-1)-мерной гиперплоскости, разделяющей n-мерное пространство значений биомаркеров на два класса. Пусть имеется обучающая выборка (x1,y1),…(xn,yn),xi ∈ Rn,yi ∈ {-1,1}, где xi - это вектор значений биомаркеров, а yi определяет принадлежность пациента к классу. Классифицирующая функция может быть определена как F(x)=sign(〈w,х〉+b), где w - нормальный вектор к разделяющей гиперплоскости, b - вспомогательный параметр, а фунуция может принимать значения 1 или -1 в зависимости от класса объекта. Обучение алгоритма подразумевает поиск такой гиперплоскости, которая обеспечивает наименьшую эмпирическую ошибку классификации и максимизирует расстояние между значениями биомаркеров пациентов, относящихся к разным классам (см. фиг. 5):
На первом этапе построения многофакторных моделей проводилось изучение диагностической ценности различных комбинаций биомаркеров из приведенной выше группы. Для этого все возможные комбинации, включающие от 2 до 12 биомаркеров были использованы для построения классификационных моделей (4803 варианта). Для обучения использовались объединенные данные, полученные на здоровых добровольцах и пациентах с раком легкого, и методы линейного дискриминантного анализа и опорных векторов. Разработанные модели были ранжированы в соответствии с их предсказательным потенциалом, оцененным по показателю AUROC (фиг. 7, таблица 4).
Как видно из фиг. 6, набольшей предсказательной способностью обладают комплексные тесты, включающие 11-12 биомаркеров, в то время как для относительно небольшой доли классификаторов, включающих комбинации из 2-3 биомаркеров, показатель AUROC составляет более 80%.
Финальной фазой построения классификаторов являлась их валидация.
Объединенные данные, полученные на здоровых добровольцах и пациентах с раком легкого были случайным образом разделены на обучающую и тестовую выборки. Оценка параметров моделей (обучение), производилась на обучающей выборке и была направлена на минимизацию предсказательных ошибок алгоритма. Валидация обученных моделей заключалась в оценке их предсказательной способности на тестовой выборке. Предсказательная способность многофакторных классификационных моделей оценивалась при помощи ROC-анализа как это было сделано ранее для отдельных биомаркеров (фиг. 7, Таблица 4).
Финальные классификационные модели представляют собой обученные алгоритмы, позволяющие предсказать вероятность наличия рака легкого на основании экспериментальных измерений биомаркеров пациентов с учетом тендерных различий.
Финальное решение - определение вероятности наличия рака легкого, рассчитывается как медиана значений вероятностей рака легкого, рассчитанных в 3 классификационных моделях (RF, LDA SVM), обученных на всей выборке пациентов (см., например, Kittler J, Hatef М, Duin RPW et al, On Combining Classifiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, VOL. 20, NO. 3, MARCH 1998 226-39.)
Для реализации заявляемого способа было разработано программное обеспечение (ПО), позволяющее на основе данных конкретного пациента (пол и результаты измерения биомаркеров) рассчитывать вероятность наличия у него рака легкого. Блок-схема реализации изобретения представлена на фиг. 8.
Компьютерно-реализуемая система состоит из (1) интерфейса, включающего устройство ввода данных пациента (пол и результаты измерений биомаркеров) и вывода результатов расчета (вероятность наличия рака легкого); (2) блока памяти, содержащего обученные классификаторные модели и программные продукты, необходимые для работы с ними (R portable, Google Chrome Portable) и (3) программного модуля, с помощью которого реализуется программный код, необходимый для обмена данных между интерфейсом и блоком памяти. Для создания графического интерфейса был использован пакет shiny (Winston Chang, Joe Cheng, JJ Allaire, Yihui Xie and Jonathan McPherson (2017). shiny: Web Application Framework for R. R package version 1.0.5. https://CRAN.R-project.org/package=shiny) созданный на базе среды R {RDevelopmentCoreTeam (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0}. Для работы с данным пакетом необходимо наличие программных продуктов R portable и Google Chrome portable, хранящихся в блоке памяти. Для работы с предложенными моделями необходимы следующие пакеты: (1) RandomForest (A. Liaw and М. Wiener (2002). Classification and Regression by randomForest. R News 2(3), 18-22); (2) MASS (Venables, W.N. & Ripley, B.D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0); (3) e1071 (David Meyer, Evgenia Dimitriadou, Kurt Hornik, Andreas Weingessel and Friedrich Leisch (2017). e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R package version 1.6-8. https://CRAN.R-project.org/package=e1071).
Алгоритм оценки вероятности наличия рака легкого на основе данных пациента представлен на фиг. 9.
Данные пациента вводятся через интерфейс и подаются в качестве входных переменных в разработанные модели, в каждой из которых производится расчет вероятности наличия рака легкого. Далее по результатам модельных предсказанной рассчитывается среднее значение, которое выводится в окно вывода.
Диагностическая мультиплексная панель для оценки риска рака легкого включает биомаркеры, показавшие максимальный предсказательный потенциал в рамках проводимого исследования (рис. 2, таблица 2): НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR. Кроме того, в заявляемый комплекс включены дополнительные биомаркеры, обладающие меньшим предсказательный потенциалом, однако значимо различные между здоровыми добровольцами и пациентами с рака легкого (Таблица. 1): В2М, СА125, hsCRP, СЕА, sVCAM.1 и СА15.3 в исследуемой популяции.
Ниже представлено описание одного из клинических примеров применения способа, подтверждающего возможность реализации изобретения с достижением технического результата.
Пример 1 Больной К., 54 лет.
Курит 35 лет.
В январе 2018 года в связи с жалобами на слабость и быструю утомляемость обратился в поликлинику по месту жительства.
Был осмотрен терапевтом. Рекомендован прием витаминов, общий анализ крови, в котором клинически значимых отклонений не было выявлено.
Пациенту было предложено принять участие в программе Онкопоиска.
Пациент обследован в рамках программы. Получены следующие результаты исследования сыворотки крови: AFP 2,4 МЕ/мл, СЕА 2,1 нг/мл, СА 19-9 3,6 МЕ/мл, СА 125 9,7 МЕ/мл, НЕ4 110,2 пмоль/л, tPSA 0,65 нг/мл, СА 15-3 19,2 МЕ/мл, В2М 2154нг/мл, hsCRP<0,08 нг/мл, D-dimer 51,0,CYFRA 21-1 1,28 нг/мл, Аро A-1 1,38 г/л, Аро А2 0,289 г/л, Аро В 1,15 г/л, TTR (prealb) 25,0 мг/дл, sVCAM-1 812 нг/мл, Rantes 40784 пг/мл, VEGFR1 135 пг/мл.
При обработке полученных результатов заявляемым способом выявлена высокая вероятность рака легкого.
Выполнена РКТ с контрастированием. Выявлено образование нижней доли правого легкого 13×12 мм, с неровными тяжистыми контурами, неоднородно накапливающее контрастный препарат. Лимфоузлы средостении не увеличены. Пациент госпитализирован для хирургического лечения. Выполнена видеоассистированная торакоскопия, резекция нижней доли правого лекгого, медиастинальная лимфодиссекция. Гистол. № высокодифференцированная аденокарцинома легкого. В 5 удаленных л/узлах - без признаков метастатического роста.
Claims (7)
1. Способ скринингового определения вероятности наличия рака легкого, включающий измерение уровня биомаркеров в образце биологической жидкости, полученном у субъекта: НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, В2М, СА125, hsCRP, CEA, sVCAM.1, CA15.3, а также определение пола пациента с последующей обработкой совокупности полученных значений биомаркеров с использованием, по меньшей мере, одной классификационной модели, обученной для определения высокой или низкой вероятности наличия рака легкого.
2. Способ по п. 1, характеризующийся тем, что в качестве классификационных моделей используют метод «случайного леса» (random forest), и/или линейный дискриминантный анализ, и/или метод опорных векторов.
3. Способ по п. 1, характеризующийся тем, что обученную классификационную модель получают посредством реализации следующих шагов:
- формируют обучающую и тестовую выборку записей субъектов с измеренными значениями биомаркеров НЕ4, АроА2, CYFRA.21.1, Ddimer, ApoA1, TTR, В2М, СА125, hsCRP, CEA, sVCAM.1, CA15.3, включающие записи о пациентах разного пола и возраста;
- обучают классификационную модель выявлению заданной патологии, используя записи обучающей и тестовой выборки;
- сохраняют связи и веса обученной классификационной модели для последующего определения вероятности наличия рака легкого по итогам обработки измеренных данных биомаркеров субъекта.
4. Способ по п. 3, характеризующийся тем, что при формировании обучающей и тестовой выборок включают записи субъектов с выявленной патологией - наличие рака и отсутствие рака легкого.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018140406A RU2697971C1 (ru) | 2018-11-15 | 2018-11-15 | Способ ранней диагностики рака легкого |
EA201900375A EA037137B1 (ru) | 2018-11-15 | 2019-08-16 | Способ и система для скринингового определения вероятности наличия рака легкого |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018140406A RU2697971C1 (ru) | 2018-11-15 | 2018-11-15 | Способ ранней диагностики рака легкого |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2697971C1 true RU2697971C1 (ru) | 2019-08-21 |
Family
ID=67733719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018140406A RU2697971C1 (ru) | 2018-11-15 | 2018-11-15 | Способ ранней диагностики рака легкого |
Country Status (2)
Country | Link |
---|---|
EA (1) | EA037137B1 (ru) |
RU (1) | RU2697971C1 (ru) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115575636A (zh) * | 2022-11-22 | 2023-01-06 | 杭州广科安德生物科技有限公司 | 一种用于肺癌检测的生物标志物及其系统 |
CN117051111A (zh) * | 2023-10-12 | 2023-11-14 | 上海爱谱蒂康生物科技有限公司 | 生物标志物组合在制备预测肺癌的试剂盒中的应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2351936C1 (ru) * | 2007-11-19 | 2009-04-10 | Институт Молекулярной Генетики Российской Академии Наук (Имг Ран) | Способ диагностики немелкоклеточного рака легких и набор для его осуществления |
RU2397704C2 (ru) * | 2008-09-01 | 2010-08-27 | Государственное учреждение научно-исследовательский институт онкологии Томского Научного центра Сибирского отделения Российской академии медицинских наук (ГУ НИИ онкологии ТНЦ СО РАМН) | Способ радионуклидной диагностики рака легкого |
WO2013048292A2 (ru) * | 2011-08-26 | 2013-04-04 | Kutushov Mihail Vladimirovich | Способ диагностики онкологических и соматических заболеваний |
-
2018
- 2018-11-15 RU RU2018140406A patent/RU2697971C1/ru active
-
2019
- 2019-08-16 EA EA201900375A patent/EA037137B1/ru not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2351936C1 (ru) * | 2007-11-19 | 2009-04-10 | Институт Молекулярной Генетики Российской Академии Наук (Имг Ран) | Способ диагностики немелкоклеточного рака легких и набор для его осуществления |
RU2397704C2 (ru) * | 2008-09-01 | 2010-08-27 | Государственное учреждение научно-исследовательский институт онкологии Томского Научного центра Сибирского отделения Российской академии медицинских наук (ГУ НИИ онкологии ТНЦ СО РАМН) | Способ радионуклидной диагностики рака легкого |
WO2013048292A2 (ru) * | 2011-08-26 | 2013-04-04 | Kutushov Mihail Vladimirovich | Способ диагностики онкологических и соматических заболеваний |
Non-Patent Citations (1)
Title |
---|
C. Brambilla et al. Early detection of lung cancer: role of biomarkers, European Respiratory Journa, Eur Respir J 2003; 21: Suppl. 39, 36s-44s. * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115575636A (zh) * | 2022-11-22 | 2023-01-06 | 杭州广科安德生物科技有限公司 | 一种用于肺癌检测的生物标志物及其系统 |
CN115575636B (zh) * | 2022-11-22 | 2023-04-04 | 杭州广科安德生物科技有限公司 | 一种用于肺癌检测的生物标志物及其系统 |
CN117051111A (zh) * | 2023-10-12 | 2023-11-14 | 上海爱谱蒂康生物科技有限公司 | 生物标志物组合在制备预测肺癌的试剂盒中的应用 |
CN117051111B (zh) * | 2023-10-12 | 2024-01-26 | 上海爱谱蒂康生物科技有限公司 | 生物标志物组合在制备预测肺癌的试剂盒中的应用 |
Also Published As
Publication number | Publication date |
---|---|
EA037137B1 (ru) | 2021-02-10 |
EA201900375A1 (ru) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cui et al. | Radiomics analysis of multiparametric MRI for prediction of pathological complete response to neoadjuvant chemoradiotherapy in locally advanced rectal cancer | |
Brims et al. | A novel clinical prediction model for prognosis in malignant pleural mesothelioma using decision tree analysis | |
Cooperberg et al. | Combined value of validated clinical and genomic risk stratification tools for predicting prostate cancer mortality in a high-risk prostatectomy cohort | |
Ley et al. | Idiopathic pulmonary fibrosis: CT and risk of death | |
KR102289277B1 (ko) | 복수의 의료 영상 판독 알고리듬들에 대한 평가 스코어를 생성하는 의료 영상 판독 지원 장치 및 방법 | |
Sartor et al. | Mammographic density in relation to tumor biomarkers, molecular subtypes, and mode of detection in breast cancer | |
Li et al. | Machine learning–based computational models derived from large-scale radiographic-radiomic images can help predict adverse histopathological status of gastric cancer | |
US9585627B2 (en) | Histological differentiation grade prediction of hepatocellular carcinoma in computed tomography images | |
Wang et al. | Automated measurements of muscle mass using deep learning can predict clinical outcomes in patients with liver disease | |
Wetstein et al. | Deep learning assessment of breast terminal duct lobular unit involution: towards automated prediction of breast cancer risk | |
RU2697971C1 (ru) | Способ ранней диагностики рака легкого | |
Massaad et al. | Evaluating frailty, mortality, and complications associated with metastatic spine tumor surgery using machine learning–derived body composition analysis | |
Gilligan et al. | Differentiating pediatric autoimmune liver diseases by quantitative magnetic resonance cholangiopancreatography | |
Röhrich et al. | Radiomics score predicts acute respiratory distress syndrome based on the initial CT scan after trauma | |
CN116709971A (zh) | 通用泛癌分类器模型、机器学习系统和使用方法 | |
Iwasawa et al. | Low-normal lung volume correlates with pulmonary hypertension in fibrotic idiopathic interstitial pneumonia: computer-aided 3D quantitative analysis of chest CT | |
CN117253625A (zh) | 肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质 | |
Heckman-Stoddard | Oncology biomarkers: discovery, validation, and clinical use | |
Pigneur et al. | Psoas muscle index is not representative of skeletal muscle index for evaluating cancer sarcopenia | |
Alrahawy et al. | Textural analysis as a predictive biomarker in rectal cancer | |
US20230252633A1 (en) | Method for biomarker estimation | |
RU2718284C1 (ru) | Способ скринингового определения вероятности наличия рака мочевого пузыря | |
Kerber et al. | Deep learning-based age estimation from clinical Computed Tomography image data of the thorax and abdomen in the adult population | |
RU2718272C1 (ru) | Способ скринингового определения вероятности наличия рака молочной железы | |
Chen et al. | Chexbreak: Misclassification identification for deep learning models interpreting chest x-rays |