RU2782359C2 - Systems and methods for improvement of diagnostics of diseases, using measured analytes - Google Patents

Systems and methods for improvement of diagnostics of diseases, using measured analytes Download PDF

Info

Publication number
RU2782359C2
RU2782359C2 RU2020109551A RU2020109551A RU2782359C2 RU 2782359 C2 RU2782359 C2 RU 2782359C2 RU 2020109551 A RU2020109551 A RU 2020109551A RU 2020109551 A RU2020109551 A RU 2020109551A RU 2782359 C2 RU2782359 C2 RU 2782359C2
Authority
RU
Russia
Prior art keywords
disease
cancer
biomarker
status
samples
Prior art date
Application number
RU2020109551A
Other languages
Russian (ru)
Other versions
RU2020109551A3 (en
RU2020109551A (en
Inventor
Глаина КРАСИК
Кейт ЛИНГЕНФЕЛЬТЕР
Original Assignee
Отрэйсис, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Отрэйсис, Инк. filed Critical Отрэйсис, Инк.
Priority claimed from PCT/US2018/046056 external-priority patent/WO2019032858A1/en
Publication of RU2020109551A publication Critical patent/RU2020109551A/en
Publication of RU2020109551A3 publication Critical patent/RU2020109551A3/ru
Application granted granted Critical
Publication of RU2782359C2 publication Critical patent/RU2782359C2/en

Links

Images

Abstract

FIELD: biotechnology.
SUBSTANCE: invention relates to biotechnology, in particular, systems and methods for diagnostics of diseases, such as prostate cancer, breast cancer, lung cancer, ovarian cancer, and their stages, are disclosed. In accordance with defined embodiments, disclosed systems and methods provide for collection of patient’s samples, calculation of concentrations and proximity indicators of biomarkers, and use of the results of such calculations for creation of a training sample model, which is used for establishment of a correlation of biomarker concentrations and proximity indicators with disease diagnoses and disease statuses (for example, cancer stages). In accordance with defined embodiments, simple regression, area maximization under ROC curve, topology stabilization, and correlation analysis by special proximity relate to used correlation methods.
EFFECT: obtaining systems and methods for diagnostics of diseases.
20 cl, 26 dwg, 5 tbl, 4 ex

Description

Ссылка на родственные заявкиLink to related applications

[0001] Согласно настоящей заявке испрашивается преимущество в соответствии с предварительной заявкой на выдачу патента США № 62/542865, поданной 9 августа 2017 года, которая во всей своей полноте включена в настоящий документ посредством ссылки.[0001] This application claims benefit under U.S. Provisional Application No. 62/542,865, filed Aug. 9, 2017, which is incorporated herein by reference in its entirety.

[0002] В родственной патентной заявке, международной заявке № PCT/US2014/000041, поданной 13 марта 2014 года (включенной в настоящий документ посредством ссылки во всей своей полноте), описаны способы улучшения прогнозирования заболевания с применением независимой переменной для корреляционного анализа, которая не является непосредственно концентрацией измеряемых аналитов, а является рассчитанным значением, называемым «показателем близости», который вычисляют из концентрации, но также нормализуют по определенному возрасту (или другим физиологическим параметрам) для устранения смещения по возрасту и нелинейности того, как значения концентрации смещаются или сдвигаются с физиологическим параметром (например, возрастом, менопаузальным статусом и т. д.) при сдвиге статуса заболевания от отсутствия заболевания к наличию заболевания. [0002] A related patent application, International Application No. PCT/US2014/000041, filed March 13, 2014 (incorporated herein by reference in its entirety), describes methods for improving disease prediction using an independent variable for correlation analysis that is not is directly the concentration of the analytes being measured, but is a calculated value called a "proximity score" that is calculated from the concentration but also normalized to a specific age (or other physiological parameters) to eliminate age bias and non-linearities in how concentration values shift or shift from physiological parameter (eg, age, menopausal status, etc.) when the disease status shifts from the absence of the disease to the presence of the disease.

Область техники, к которой относится настоящее изобретениеThe field of technology to which the present invention relates

[0003] Настоящее изобретение относится к способам повышения точности диагностики заболеваний и к связанным диагностическим тестам, которые предусматривают использование корреляции измеряемых аналитов с двоичными выходными результатами (например, отсутствием заболевания или наличием заболевания), а также с результатами более высокого порядка (например, одной из нескольких фаз заболевания).[0003] The present invention relates to methods for improving the accuracy of diagnosing diseases and to related diagnostic tests that involve the use of correlation of measured analytes with binary output results (for example, the absence of disease or the presence of disease), as well as higher order results (for example, one of several phases of the disease).

Уровень техники настоящего изобретенияState of the art of the present invention

[0004] Способы определения корреляций, где используют три или более независимых переменных для установления корреляции двоичных выходных результатов (таких как наличие или отсутствие данного заболевания), обычно предусматривают применение способа определения корреляции по пространственной близости (также называемого способом поиска кластера или окрестности), регрессионного способа и вейвлет-способов. В случае прогнозирования заболевания измеряют общий состав крови или сыворотки и пробуют установить корреляцию с применением этих значений концентрации в качестве независимых переменных для прогнозирования статусов различных заболеваний. В случае статуса заданного заболевания, где результатом является либо «наличие заболевания», либо «отсутствие заболевания», обычно применяют способ логистической регрессии. Другие методики предусматривают использование, например, генетических алгоритмов. Прогностическая сила этих способов сильно зависит от составляющих аналитов, выбранных для данного способа. Специалисты в настоящей области техники признают, что многие аналиты и параметры, которые, судя по всему, будут обладать прогностической силой, не улучшают диагностическую и аналитическую силу на практике.[0004] Methods for determining correlations, where three or more independent variables are used to establish a correlation of binary output results (such as the presence or absence of a given disease), usually involve the use of a method for determining correlation by spatial proximity (also called a cluster or neighborhood search method), regression method and wavelet methods. In the case of predicting a disease, total blood or serum composition is measured and a correlation is attempted using these concentration values as independent variables to predict the status of various diseases. In the case of the status of a given disease, where the result is either "presence of the disease" or "absence of the disease", the method of logistic regression is usually used. Other techniques involve the use of, for example, genetic algorithms. The predictive power of these methods is highly dependent on the constituent analytes chosen for the method. Those skilled in the art will recognize that many analytes and parameters that are likely to have predictive power do not improve diagnostic and analytical power in practice.

[0005] Регрессионные способы предусматривают использование тенденций в независимых переменных для обнаружения корреляции с выходными результатами. Линейный способ основан на линейных тенденциях, в то время как логистическая регрессия основана на логарифмических тенденциях. При прогнозировании биологических заболеваний чаще всего для определения выходных результатов используют логистическую регрессию.[0005] Regression methods involve using trends in the explanatory variables to find a correlation with the output results. The linear method is based on linear trends, while the logistic regression is based on logarithmic trends. When predicting biological diseases, logistic regression is most often used to determine the output results.

[0006] Групповой способ пространственной близости позволяет исследовать переменную топологию корреляции для группы схожих результатов. Способ пространственной близости обладает преимуществом, которое заключается в том, что с его помощью можно находить корреляции, где тенденции не являются родственными, но имеют локальные обратные изменения топологий в тенденциях. Тем не менее, данный способ является в высокой степени нелинейным и чувствительным к очень локально вариабельным результатам с небольшими ошибками измерения, что может давать более точный прогноз при биологическом применении. Кроме того, оба рассматриваемых здесь способа можно объединить со способом пространственной близости, применяемым в небольшом масштабе, для создания консолидированного общего регрессионного способа.[0006] The spatial proximity group method allows you to explore a variable correlation topology for a group of similar results. The spatial proximity method has the advantage that it can find correlations where the trends are not related, but have local inverse changes in the topologies in the trends. However, this method is highly non-linear and sensitive to very locally variable results with small measurement errors, which can provide more accurate prediction in biological applications. In addition, both methods discussed here can be combined with the spatial proximity method applied on a small scale to create a consolidated general regression method.

[0007] Тем не менее, у некоторых независимых переменных, которые, с точки зрения логики, должны иметь корреляцию, на практике не наблюдается прогностическая тенденция. Поэтому необходима разработка подхода, который повышает диагностическую точность за счет использования специфичных для пациента и специфичных для совокупности переменных, для которых до настоящего момента не было обнаружено, что они несут полезную информацию для диагностики статусов различных заболеваний. [0007] However, some independent variables, which, from the point of view of logic, should have a correlation, in practice, there is no predictive trend. Therefore, there is a need to develop an approach that improves diagnostic accuracy by using patient-specific and population-specific variables that have not been found to date to provide useful information for diagnosing various disease statuses.

[0008] Было проведено множество исследований с целью поиска биомаркеров, которые по отдельности или в комбинации могут позволить прогнозировать статусы различных заболеваний с достаточной воспроизводимостью и прогностической силой для использования в клинических условиях. Данное исследование имело ограниченный успех или вовсе не имело успеха. Были тщательно исследованы белки с высокой частотой встречаемости (HAP) в поиске одного белка, который может позволить делать такой прогноз. Было найдено множество примеров, но ни один из них не имеет достаточно низких уровней ложноотрицательных результатов, чтобы сделать возможным скрининг пациентов на наличие заболевания с помощью такого маркера.[0008] Many studies have been conducted to find biomarkers that, alone or in combination, can predict the status of various diseases with sufficient reproducibility and predictive power for use in a clinical setting. This study had limited or no success. High frequency proteins (HAPs) have been extensively investigated in search of a single protein that may allow such a prediction. Many examples have been found, but none have low enough false negative rates to allow patients to be screened for disease with such a marker.

[0009] Как результат, такие отдельные биомаркеры применяют лишь для терапевтического отслеживания, за исключением PSA в случае рака предстательной железы. Для этого теста необходимо, чтобы концентрация, которая свидетельствует, что была бы уместна биопсия, имела высокое значение отклонения от нормы для снижения количества ложноотрицательных результатов, что приводит к появлению очень высоких уровней ложноположительных результатов. До 80% мужчин, которым показана необходимость биопсии, на самом деле имеют отрицательный результат по раку предстательной железы. Также было обнаружено, что в некоторых случаях ДНК-маркеры очень хороши для выявления подтипа рака, но, опять же, не подходят для скрининга по тем же причинам, что и HAP, как отмечалось выше.[0009] As a result, such individual biomarkers are used only for therapeutic tracking, with the exception of PSA in the case of prostate cancer. This test requires that the concentration that indicates that a biopsy would be appropriate has a high deviation from normal to reduce false negatives, resulting in very high levels of false positives. Up to 80% of men who are shown to need a biopsy are actually negative for prostate cancer. It has also been found that in some cases, DNA markers are very good at detecting a cancer subtype, but again not suitable for screening for the same reasons as HAP as noted above.

[0010] Также были исследованы протеомные подходы с использованием множества белков. Эта работа снова была сосредоточена на HAP или эффекторных белках с высоким уровнем содержания. В этой работе преобладали мультиплексные способы измерения белка, такие как иммуноанализы, чипы и масс-спектрофотометрия. В очень ранней работе был достигнут некоторый успех в случае с раком яичников. Однако проблема всех этих способов заключается в том, что многие из выбранных белков не имеют сильной корреляции с прогрессированием от здорового статуса к статусу наличия заболевания (и многие не имеют известной биологической связи со статусом заболевания, например, как это обычно бывает в случае с масс-спектрометрией). Более того, для масс-спектрометрии характерен серьезный недостаток, который заключается в том, что спектрофотометром на предмет уровней белка исследуется образец цельной сыворотки, и поэтому обучение алгоритма поиска корреляции является затруднительным. В случае масс-спектрометрии образец цельной сыворотки может содержать более 200 разновидностей белков и иметь 10000 масс-спектрометрических пиков.[0010] Proteomic approaches using a variety of proteins have also been explored. This work was again focused on HAP or high level effector proteins. This work has been dominated by multiplex protein measurement methods such as immunoassays, arrays, and mass spectrophotometry. There was some success in very early work in the case of ovarian cancer. However, a problem with all of these methods is that many of the selected proteins do not have a strong correlation with progression from healthy to diseased status (and many have no known biological association with disease status, for example, as is usually the case with mass spectrometry). Moreover, mass spectrometry suffers from a serious disadvantage in that the spectrophotometer examines the whole serum sample for protein levels, and therefore training the correlation search algorithm is difficult. In the case of mass spectrometry, a whole whey sample can contain more than 200 protein varieties and have 10,000 mass spectrometric peaks.

[0011] В области диагностики также необходимы методики, которые предусматривают использование белков с более низкой частотой встречаемости, которые более пригодны для диагностических целей, чем HAPS, а также аналитические методики, которые предусматривают анализ биомаркеров с низкой частотой встречаемости.[0011] In the field of diagnostics, there is also a need for techniques that involve the use of lower frequency proteins that are more suitable for diagnostic purposes than HAPS, as well as analytical techniques that involve the analysis of low frequency biomarkers.

[0012] В области диагностической медицины уже долго ищут простой и точный сывороточный анализ крови для обнаружения рака и для обнаружения, имеет ли рак тяжелую форму или же является латентным. Например, текущий тест на простатоспецифический антиген (PSA) для выявления рака предстательной железы страдает от очень высокого уровня ложноположительных результатов с истинным показателем ложноотрицательных результатов, достигающим 1 из десяти мужчин. Этот тест имеет прогностическую силу приблизительно 57%. Более того, мужчинам, у которых диагностирован рак предстательной железы низкой степени тяжести, может не требоваться лечение в течение многих лет или до конца жизни. Сегодня этот диагноз можно точно получить только с помощью биопсии на PCa. Текущий тест на PSA отправляет всех без исключения (90%, пропускается каждый десятый) с уровнем PSA выше 4,0 нг/мл на биопсию, и лишь приблизительно 20% из них имеют какую-либо форму PCa, независимо от оценки по шкале Глисона. Кроме того, мужчины с PCa с низкой степенью тяжести находятся в группе риска перехода в более высокую степень тяжести в более поздние годы жизни, и единственный надежный способ точной диагностики этого заключается в большем количестве биопсий. Дополнительные биопсии для отслеживания не приемлемы для медицинского сообщества из-за стоимости и неприемлемы для пациента из-за боли и побочных эффектов. Таким образом, постоянное отслеживание мужчин с PCa с низкой степенью тяжести проводят с помощью периодического теста PSA, сопровождаемого цифровыми исследованиями прямой кишки (DRE) и иногда КТ-исследованиями. Во многих случаях проводят профилактическое лечение, удаление предстательной железы, даже когда в этом нет необходимости с медицинской точки зрения. В этом патенте раскрыт новый сывороточный тест, который позволяет отличить мужчин без PCa от мужчин с PCa с высокой степенью тяжести и позволяет обнаружить мужчин с PCa с низкой степенью тяжести, у которых позднее может иметь место ухудшение. Кроме того, в нем раскрыт анализ крови, который позволяет распознать раковые заболевания с солидной опухолью на ранней стадии, такие как рак легких или рак молочной железы, или стадию рака.[0012] The field of diagnostic medicine has long sought a simple and accurate serum blood test to detect cancer and to detect whether the cancer is severe or latent. For example, the current prostate-specific antigen (PSA) test for prostate cancer suffers from a very high false positive rate, with a true false negative rate as high as 1 in 10 men. This test has a predictive power of approximately 57%. What's more, men who are diagnosed with low-grade prostate cancer may not need treatment for many years or until the end of their lives. Today, this diagnosis can only be accurately obtained with a PCa biopsy. The current PSA test sends everyone without exception (90%, one in 10 missed) with a PSA level above 4.0 ng/ml to a biopsy, and only approximately 20% of them have some form of PCa, regardless of the Gleason score. In addition, men with low-severity PCa are at risk of progressing to higher severity later in life, and the only reliable way to accurately diagnose this is with more biopsies. Additional tracking biopsies are not acceptable to the medical community due to cost and are not acceptable to the patient due to pain and side effects. Thus, ongoing monitoring of men with low-grade PCa is done with an intermittent PSA test, followed by digital rectal examinations (DRE) and sometimes CT examinations. In many cases, prophylactic treatment is carried out, removal of the prostate gland, even when this is not medically necessary. This patent discloses a new serum test that distinguishes men without PCa from men with high PCa and detects men with low PCa who may worsen later. In addition, it discloses a blood test that can recognize cancers with a solid tumor at an early stage, such as lung cancer or breast cancer, or the stage of cancer.

[0013] Текущий скрининговый тест на PSA был утвержден в середине 1980-х годов и в настоящее не защищен патентом. Новый, так называемый тест в 4K оценке, предлагаемый OPKO под названием «Lab developed Test», не имеет одобрения регуляторным органом. Он предназначен для обнаружения мужчин с PCa с высокой степенью тяжести, при этом отделяя данное патологическое состояние от PCa с низкой степенью тяжести. Обычно PCa с высокой степенью тяжести считают соответствующим оценке по шкале Глисона (полученной при биопсии), равной 7(4+3) или выше (8, 9 или 10), в то время как оценку для низкой степени тяжести считают равной 7(3+4) или ниже. Тест на PSA для обнаружения мужчин с PCa любой степени тяжести имеет приблизительно 57% прогностическую силу, или для чувствительности в 90% уровень ложноположительных результатов составляет приблизительно 80% (1 из 4 положительных результатов фактически является отрицательным). Данный тест 4K оценки имеет прогностическую силу приблизительно 64%. Таким образом, на 1 из 10 ложноотрицательных результатов ложноположительных результатов приходится приблизительно 50%, или приблизительно 5 из 10 являются фактически отрицательными. Это текущее состояние тестирования с целью диагностики PCa в медицине на сегодня.[0013] The current screening test for PSA was approved in the mid-1980s and is not currently patented. A new so-called 4K test offered by OPKO under the name "Lab developed Test" does not have regulatory approval. It is designed to detect men with high-severity PCa while separating the condition from low-severity PCa. Generally, PCa with high severity is considered to correspond to a Gleason score (obtained from biopsy) of 7(4+3) or higher (8, 9, or 10), while a score for low severity is considered to be 7(3+ 4) or below. The PSA test for detecting men with PCa of any severity has approximately 57% predictive power, or for a sensitivity of 90%, the false positive rate is approximately 80% (1 in 4 positives is actually negative). This 4K evaluation test has a predictive power of approximately 64%. Thus, for 1 in 10 false negatives, there are approximately 50% of false positives, or approximately 5 out of 10 are actually negative. This is the current state of testing for the diagnosis of PCa in medicine today.

[0014] В настоящее время не существует утвержденных регуляторными органами способов обнаружения заболеваний, таких как рак легких и рак молочной железы, с помощью простого теста крови. Более того, эти заболевания можно оценить по степени тяжести только с помощью биопсии. Авторами настоящего изобретения также предложены дополнительные тесты для оценки стадии развития опухоли с применением, опять же, активных цитокинов в микроокружении опухоли с использованием сыворотки крови в качестве заместителя для этих белков.[0014] Currently, there are no regulatory approved methods for detecting diseases such as lung cancer and breast cancer using a simple blood test. Moreover, these diseases can only be assessed in terms of severity by biopsy. The authors of the present invention also proposed additional tests to assess the stage of tumor development using, again, active cytokines in the tumor microenvironment using blood serum as a substitute for these proteins.

[0015] Для уменьшения этих и других недостатков уровня техники в настоящем документе иллюстративно описан новый тест с применением активных цитокинов в микроокружении опухоли, причем сыворотка крови играет роль заместителя для этих белков.[0015] To alleviate these and other shortcomings of the prior art, this document illustratively describes a new test using active cytokines in the tumor microenvironment, with blood serum acting as a substitute for these proteins.

Краткое описание чертежейBrief description of the drawings

[0016] В более полной мере настоящее изобретение и многие сопутствующие его преимущества можно будет легко уяснить по мере его более полного понимания с привязкой к последующему подробному описанию при рассмотрении в связи с сопровождающими фигурами, где[0016] To a greater extent, the present invention and many of its attendant advantages will be readily understood as it is more fully understood in connection with the following detailed description when considered in connection with the accompanying figures, where

[0017] на фиг. 1 представлена диаграмма, на которой отображены колебания концентраций биомаркеров согласно оценке по шкале Глисона для рака предстательной железы;[0017] in FIG. 1 is a graph showing fluctuations in biomarker concentrations as assessed by the Gleason score for prostate cancer;

[0018] на фиг. 2 представлена диаграмма, на которой отображены колебания концентраций биомаркеров согласно оценке по шкале Глисона для рака легкого;[0018] in FIG. 2 is a graph showing fluctuations in biomarker concentrations as assessed by the Gleason scale for lung cancer;

[0019] на фиг. 3 представлена диаграмма, на которой отображено среднее повышение концентраций биомаркеров, соответствующих стадиям развития рака молочной железы;[0019] in FIG. 3 is a graph showing the average increase in the concentrations of biomarkers corresponding to the stages of development of breast cancer;

[0020] на фиг. 4 представлена диаграмма, на которой отображена кривая зависимости чувствительности от частоты ложноположительных заключений («ROC») VEGF для агрессивного рака предстательной железы по сравнению с отсутствием рака;[0020] in FIG. 4 is a graph plotting sensitivity versus false positive rate ("ROC") of VEGF for aggressive prostate cancer versus no cancer;

[0021] на фиг. 5 представлена диаграмма, на которой отображена кривая ROC TNFα для агрессивного рака предстательной железы по сравнению с отсутствием рака;[0021] in FIG. 5 is a graph showing the TNFα ROC curve for aggressive prostate cancer versus no cancer;

[0022] на фиг. 6 представлена диаграмма, на которой отображена кривая ROC PSA для агрессивного рака предстательной железы по сравнению с отсутствием рака;[0022] in FIG. 6 is a graph showing the ROC PSA curve for aggressive prostate cancer versus no cancer;

[0023] на фиг. 7 представлена диаграмма, на которой отображена кривая ROC IL 6 для агрессивного рака предстательной железы по сравнению с отсутствием рака;[0023] in FIG. 7 is a graph showing the ROC IL 6 curve for aggressive prostate cancer versus no cancer;

[0024] на фиг. 8 представлена диаграмма, на которой отображена кривая ROC IL 10 для рака легких на поздних стадиях по сравнению с раком легких на ранних стадиях;[0024] in FIG. 8 is a graph showing the ROC IL 10 curve for advanced lung cancer versus early lung cancer;

[0025] на фиг. 9 представлена диаграмма, на которой отображена кривая ROC IL 6 для рака легких на поздних стадиях по сравнению с раком легких на ранних стадиях;[0025] in FIG. 9 is a graph showing the ROC curve of IL 6 for advanced lung cancer versus early lung cancer;

[0026] на фиг. 10 представлена диаграмма, на которой отображена кривая ROC VEGF для рака легких на поздних стадиях по сравнению с раком легких на ранних стадиях;[0026] in FIG. 10 is a graph showing the VEGF ROC curve for advanced lung cancer versus early stage lung cancer;

[0027] на фиг. 11 представлена диаграмма, на которой показаны результаты слепых тестов с двумя образцами, которые не прошли тест на нестабильность топологии и были скорректированы с помощью неконгруэнтного алгоритма в соответствии с вариантом осуществления раскрываемого способа диагностики;[0027] in FIG. 11 is a graph showing blind test results with two samples that failed the topology instability test and were corrected with a non-congruent algorithm in accordance with an embodiment of the disclosed diagnostic method;

[0028] на фиг. 12 представлена диаграмма, на которой показаны результаты клинического исследования рака молочной железы, в данном случае значения оценки рака обучающей выборки показаны для модели I обучающей группы с использованием 10 двухмаркерных плоскостей в соответствии с вариантом осуществления раскрываемого способа диагностики;[0028] in FIG. 12 is a graph showing the results of a breast cancer clinical study, in this case, the training set cancer score values are shown for the training group model I using 10 two-marker planes in accordance with an embodiment of the disclosed diagnostic method;

[0029] на фиг. 13 представлена диаграмма, на которой показаны результаты клинического исследования рака молочной железы, в данном случае значения оценки рака обучающей выборки показаны для модели II обучающей группы с использованием 105 двухмаркерных плоскостей в соответствии с вариантом осуществления раскрываемого способа диагностики;[0029] in FIG. 13 is a graph showing the results of a breast cancer clinical study, in this case, the training set cancer score values are shown for the training group model II using 105 two-marker planes in accordance with an embodiment of the disclosed diagnostic method;

[0030] на фиг. 14 представлена диаграмма, на которой показаны результаты с фактическим диагнозом для слепых образцов, задействованных в клиническом исследовании в соответствии с вариантом осуществления раскрываемого способа диагностики;[0030] in FIG. 14 is a chart showing results with actual diagnosis for blind specimens involved in a clinical study according to an embodiment of the disclosed diagnostic method;

[0031] на фиг. 15 представлена диаграмма, на которой показана двухмаркерная плоскость для одной из десяти таких плоскостей, на которой видны значения показателя близости двух биомаркеров, используемых в соответствии с вариантом осуществления раскрываемого способа диагностики;[0031] in FIG. 15 is a diagram showing a two-marker plane for one of ten such planes, showing proximity score values of two biomarkers used in accordance with an embodiment of the disclosed diagnostic method;

[0032] на фиг. 16 представлена диаграмма, на которой показана двухмаркерная плоскость с точками данных обучающей выборки в соответствии с вариантом осуществления раскрываемого способа диагностики;[0032] in FIG. 16 is a diagram showing a two-marker plane with training sample data points according to an embodiment of the disclosed diagnostic method;

[0033] на фиг. 17 представлена диаграмма, на которой показана двухмаркерная плоскость без точек данных обучающей выборки в соответствии с вариантом осуществления раскрываемого способа диагностики;[0033] in FIG. 17 is a diagram showing a two-marker plane without training sample data points according to an embodiment of the disclosed diagnostic method;

[0034] на фиг. 18 представлена диаграмма, на которой показана двухмаркерная плоскость с заштрихованной областью, где снижено влияние ответа иммунной системы в соответствии с вариантом осуществления раскрываемого способа диагностики;[0034] in FIG. 18 is a diagram showing a two-marker plane with a shaded area where the effect of immune system response is reduced according to an embodiment of the disclosed diagnostic method;

[0035] на фиг. 19 представлена диаграмма, на которой показана двухмаркерная плоскость с заштрихованной областью, где снижено влияние проблем стабильности топологии в соответствии с вариантом осуществления раскрываемого способа диагностики;[0035] in FIG. 19 is a diagram showing a two-marker plane with a shaded area where the impact of topology stability issues is reduced in accordance with an embodiment of the disclosed diagnostic method;

[0036] на фиг. 20 представлена диаграмма, на которой показана двухмаркерная плоскость с заштрихованной областью, где снижено влияние недостоверности результатов измерения с помощью известного анализа в соответствии с вариантом осуществления раскрываемого способа диагностики;[0036] in FIG. 20 is a diagram showing a two-marker plane with a shaded area, where the impact of unreliable measurement results by known analysis is reduced in accordance with an embodiment of the disclosed diagnostic method;

[0037] на фиг. 21 представлена диаграмма, на которой показаны результаты слепых тестов с двумя образцами, которые не прошли тест на нестабильность топологии и были скорректированы с помощью неконгруэнтного алгоритма в соответствии с вариантом осуществления раскрываемого способа диагностики;[0037] in FIG. 21 is a graph showing the results of blind tests with two samples that failed the topology instability test and were corrected with a non-congruent algorithm in accordance with an embodiment of the disclosed diagnostic method;

[0038] на фиг. 22 представлена блок-схема, с помощью которой показан общий логический путь, по которому следует программное обеспечение по настоящему изобретению, в соответствии с иллюстративным вариантом осуществления;[0038] in FIG. 22 is a flowchart showing the general logical path followed by the software of the present invention, in accordance with an exemplary embodiment;

[0039] на фиг. 23 представлена блок-схема, с помощью которой показан процесс построения модели обучающей выборки (или диагностической модели), а затем обработки значений диагностической оценки для слепых образцов, в результате которой оценивают риск наличия заболевания или статус отсутствия заболевания;[0039] in FIG. 23 is a flowchart showing the process of building a training sample (or diagnostic model) and then processing blinded diagnostic score values to evaluate disease risk or disease free status;

[0040] на фиг. 24 показано типичное распределение генеральной совокупности, в данном случае для цитокина, интерлейкина 6 (IL 6);[0040] in FIG. 24 shows a typical population distribution, in this case for the cytokine, interleukin 6 (IL 6);

[0041] на фиг. 25 представлена диаграмма, на которой показано преобразование концентрации биомаркера в показатель близости (один тип псевдоконцентрации); и[0041] in FIG. 25 is a chart showing the conversion of biomarker concentration to proximity score (one type of pseudo-concentration); and

[0042] на фиг. 26 показана типичная схема аппаратного обеспечения, используемого при реализации программного обеспечения по настоящему изобретению, в соответствии с иллюстративным вариантом осуществления.[0042] in FIG. 26 shows a typical hardware diagram used in implementing the software of the present invention, in accordance with an illustrative embodiment.

Краткое раскрытие настоящего изобретенияBrief summary of the present invention

[0043] Не ограничивая вышесказанное, в соответствии с предпочтительным вариантом осуществления, настоящее изобретение относится к повышению прогностической силы и диагностической точности способов прогнозирования статусов заболевания с помощью многопараметрических (многовариантных) способов определения корреляции. К таким способам относятся протеомные, метаболические и другие методики, которые предусматривают определение уровней различных биомаркеров, встречающихся в жидкостях организма и образцах тканей.[0043] Without limiting the foregoing, in accordance with a preferred embodiment, the present invention relates to improving the predictive power and diagnostic accuracy of methods for predicting disease status using multivariate (multivariate) correlation methods. Such methods include proteomic, metabolic and other methods that involve the determination of the levels of various biomarkers found in body fluids and tissue samples.

[0044] Различные варианты осуществления, предусмотренные авторами изобретения и рассматриваемые в настоящей заявке, включают применение метапеременных, в частности с помощью способов, которые корректируют влияние аналитов измеряемых биомаркеров на показатель корреляции. Такие метапеременные можно определить, исходя из специальных знаний об ответе иммунной системы и знаний о возможных ошибках измерения. Такие способы можно применять либо к конструкции модели обучающей выборки, либо к подвергаемым диагностике слепым образцам.[0044] Various embodiments provided by the inventors and discussed in this application include the use of metavariables, in particular by using methods that correct for the influence of analytes of measured biomarkers on the correlation index. Such metavariables can be determined based on special knowledge about the response of the immune system and knowledge about possible measurement errors. Such methods can be applied either to the design of the training sample model or to the blind samples being diagnosed.

[0045] Согласно одному аспекту, настоящее изобретение относится к способу диагностики заболевания, предусматривающему стадии a) определения концентраций по меньшей мере трех предварительно определенных аналитов в слепом образце от субъекта; b) выбор одной или нескольких метапеременных, связанных с субъектом, которые варьируют в связанной с субъектом совокупности у представителей такой совокупности, для которых известно, что у них либо есть заболевание, либо его нет; c) преобразование концентраций аналитов в виде функции одной или нескольких характеристик распределения генеральной совокупности и одной или нескольких метапеременных для расчета показателя близости, которым представляют каждый аналит; d) сравнение показателей близости с моделью обучающей выборки для показателей близости, определенных у представителей совокупности, для которых известно, что у них либо есть заболевание, либо его нет; и e) определение, указывают ли результаты сравнения, что у субъекта есть заболевание. Предусмотрено, что стадия (а) определения концентраций (или уровней) предварительно определенных аналитов может быть реализована в другой момент времени и в другом месте от остальных стадий способа. Аналогично, одну или несколько других стадий способа можно полностью или частично реализовать на практике в другие моменты времени и в других местах. Следовательно, авторы настоящего изобретения рассматривают в качестве своего изобретения способ, который предусматривает только стадии (b) - (f).[0045] According to one aspect, the present invention relates to a method for diagnosing a disease, comprising the steps of a) determining concentrations of at least three predetermined analytes in a blind sample from a subject; b) selecting one or more subject-related metavariables that vary in the subject-related population among members of that population who are known to either have the disease or not; c) converting analyte concentrations as a function of one or more characteristics of the distribution of the population and one or more metavariables to calculate the closeness index to which each analyte is represented; d) comparison of proximity measures with a training sample model for proximity measures determined from members of the population who are known to either have the disease or not; and e) determining whether the results of the comparison indicate that the subject has a disease. It is contemplated that step (a) of determining concentrations (or levels) of predetermined analytes may be performed at a different time and location from the rest of the method steps. Likewise, one or more of the other steps of the method may be wholly or partially practiced at other times and locations. Therefore, the authors of the present invention consider as their invention a method that only involves steps (b) to (f).

Подробное раскрытие настоящего изобретенияDetailed disclosure of the present invention

[0046] При описании предпочтительных вариантов осуществления настоящего изобретения, проиллюстрированных на чертежах, для ясности будет использована конкретная терминология. Тем не менее, не подразумевается, что настоящее изобретение ограничено конкретными выбранными терминами, и следует понимать, что каждый конкретный термин включает все технические эквиваленты, которые функционируют аналогичным образом при реализации аналогичного назначения. С целью иллюстрации описано несколько предпочтительных вариантов осуществления настоящего изобретения, при этом следует понимать, что настоящее изобретение можно осуществить в других формах, которые конкретно не показаны на чертежах.[0046] In describing the preferred embodiments of the present invention illustrated in the drawings, specific terminology will be used for clarity. However, the present invention is not intended to be limited to the specific terms chosen, and each specific term is to be understood to include all technical equivalents that function in a similar manner in a similar purpose. For purposes of illustration, several preferred embodiments of the present invention have been described, it being understood that the present invention may be embodied in other forms not specifically shown in the drawings.

[0047] В контексте настоящей заявки для лучшего описания предпочтительных вариантов осуществления настоящего изобретения применяют конкретную терминологию, определение которой дано ниже.[0047] In the context of the present application, in order to better describe the preferred embodiments of the present invention, specific terminology is used, which is defined below.

[0048] Термин «аналитическая чувствительность» определяют как три стандартных отклонения выше нулевого калибровочного стандарта. Диагностические представления не считают точными для концентраций, которые ниже этого уровня. Следовательно, релевантные с клинической точки зрения концентрации, которые ниже этого уровня, не считают точными и не применяют для диагностических целей в клинической лаборатории.[0048] The term "analytical sensitivity" is defined as three standard deviations above a zero calibration standard. Diagnostic representations are not considered accurate for concentrations below this level. Therefore, clinically relevant concentrations below this level are not considered accurate and are not used for diagnostic purposes in the clinical laboratory.

[0049] «Измерение аналита на исходном уровне у индивидуума» означает измерение набора представляющих интерес биомаркеров для перевода индивидуального пациента из статуса отсутствия заболевания в статус наличия заболевания, который измеряют у одного индивидуума несколько раз в течение определенного периода времени. Результат измерения аналита на исходном уровне по статусу отсутствия заболевания получают, если у индивидуального пациента отсутствует заболевание, и, альтернативно, результат измерения аналита на исходном уровне по статусу наличия заболевания получают, если у индивидуального пациента присутствует заболевание. Такие результаты измерения на исходном уровне считают характерными для индивидуального пациента, и они могут быть полезны для диагностики перехода из статуса отсутствия заболевания в статус наличия заболевания такого индивидуального пациента. Измерение аналита на исходном уровне в случае статуса наличия заболевания может быть полезным для диагностики заболевания при втором или более возникновении заболевания у такого индивидуума.[0049] "Analyte measurement at baseline in an individual" means the measurement of a set of biomarkers of interest to convert an individual patient from disease free to disease status, which is measured in the same individual several times over a period of time. A baseline analyte measurement by disease free status is obtained if the individual patient does not have a disease, and alternatively a baseline analyte measurement by disease status is obtained if the individual patient has a disease. Such baseline measurements are considered representative of the individual patient and may be useful in diagnosing the transition from disease-free to disease status of that individual patient. The measurement of an analyte at baseline in the case of disease status may be useful in diagnosing disease in a second or more occurrence of the disease in such an individual.

[0050] «Биологический образец» означает ткань или биологическую жидкость, такую как кровь или плазма, которые взяты у субъекта и в которых можно определить концентрации или уровни диагностически информативных аналитов (также называемых маркерами или биомаркерами).[0050] "Biological sample" means a tissue or biological fluid, such as blood or plasma, that is taken from a subject and in which concentrations or levels of diagnostically informative analytes (also called markers or biomarkers) can be determined.

[0051] «Биомаркер» или «маркер» означает биологический компонент биологического образца субъекта, который обычно представляет собой белок или метаболический аналит, измеряемый в жидкости организма, такой как белок сыворотки крови. Примеры включают цитокины, опухолевые маркеры и тому подобное. Настоящее изобретение также предусматривает другие признаки в качестве «биомаркеров» и «маркеров», включая без ограничения рост, цвет глаз, географический фактор, факторы окружающей среды и т. д. В целом, такие признаки будут включать любые результаты измерений или атрибуты, которые варьируют в совокупности и остаются измеряемыми, определяемыми или наблюдаемыми.[0051] "Biomarker" or "marker" means a biological component of a biological sample of a subject, which is usually a protein or metabolic analyte measured in a body fluid, such as a serum protein. Examples include cytokines, tumor markers, and the like. The present invention also contemplates other traits as "biomarkers" and "markers" including, but not limited to, height, eye color, geographic factor, environmental factors, etc. In general, such traits will include any measurements or attributes that vary collectively and remain measurable, determinable or observable.

[0052] «Слепой образец» представляет собой биологический образец, взятый у субъекта без известного диагноза данного заболевания, и для которого необходим прогноз о наличии или отсутствии такого заболевания.[0052] A "blind sample" is a biological sample taken from a subject without a known diagnosis of a given disease, and for which a prediction of the presence or absence of such a disease is needed.

[0053] «Связанная с заболеванием функциональность» является характеристикой биомаркера, которая либо оказывает действие, продолжая или ухудшая заболевание, или оказывает действие на организм, останавливая прогрессирование заболевания. В случае рака опухоль будет действовать на организм, вынуждая, чтобы продолжался и увеличивался рост кровеносных сосудов, а иммунная система будет усиливать провоспалительные действия для уничтожения опухоли. Эти биомаркеры отличаются от опухолевых маркеров, которые не имеют связанной с заболеванием функциональности, но попадают в систему кровообращения, и поэтому их можно измерить. В качестве примера функциональных биомаркеров можно привести интерлейкин 6, который усиливает действие иммунной системы, или VEGF, который секретируется опухолью, вызывая локальный рост кровеносных сосудов. Тогда как в качестве нефункционального примера можно привести CA 125. Это структурный белок, расположенный в глазу и женском репродуктивном тракте, который не задействуется организмом для уничтожения опухоли или задействуется опухолью, чтобы помочь росту опухоли.[0053] "Disease-associated functionality" is a characteristic of a biomarker that either has an effect, continuing or worsening a disease, or has an effect on an organism, stopping the progression of a disease. In the case of cancer, the tumor will act on the body to continue and increase the growth of blood vessels, and the immune system will increase pro-inflammatory actions to destroy the tumor. These biomarkers are distinct from tumor markers, which have no disease-related functionality but enter the circulatory system and can therefore be measured. Examples of functional biomarkers include interleukin 6, which enhances the action of the immune system, or VEGF, which is secreted by the tumor, causing local growth of blood vessels. Whereas CA 125 is a non-functional example. It is a structural protein located in the eye and female reproductive tract that is not used by the body to kill the tumor or is used by the tumor to help the tumor grow.

[0054] «Предел обнаружения» (LOD) определяют как 2 стандартных отклонения от значения концентрации, превышающего значение концентрации у «нулевого» калибровочного стандарта. Обычно нулевой калибровочный стандарт прогоняют в 20 или более повторностях для получения точного представления о стандартном отклонении результатов измерения. Результаты определения концентрации ниже данного уровня рассматривают как нулевые или отсутствующие, например, при обнаружении вирусов или бактерий. В контексте настоящего изобретения можно использовать 1,5 стандартного отклонения, если образцы прогоняют в двух повторностях, хотя предпочтительно использовать 20 повторностей. Диагностические представления, требующие единственное число концентрации, как правило, не отображаются ниже этого уровня. Результаты измерений на уровне предела обнаружения статистически находятся на уровне достоверности 95%. Прогнозирование статуса заболевания с помощью рассматриваемых в настоящем документе способов не основано на одной концентрации, и было показано, что прогнозирование возможно на уровнях измерения, которые ниже концентрационного LOD.[0054] The "limit of detection" (LOD) is defined as 2 standard deviations from a concentration value greater than the concentration value of a "zero" calibration standard. Typically, the zero calibration standard is run 20 or more times to get an accurate representation of the standard deviation of the measurement results. The results of determining the concentration below this level are considered as zero or absent, for example, when viruses or bacteria are detected. In the context of the present invention, 1.5 standard deviations can be used if the samples are run in duplicate, although 20 replicates are preferred. Diagnostic views that require a single concentration number are generally not displayed below this level. The measurement results at the detection limit level are statistically at the 95% confidence level. Prediction of disease status using the methods discussed herein is not based on a single concentration, and it has been shown that prediction is possible at measurement levels that are below the concentration LOD.

[0055] «Белки с низкой частотой встречаемости» представляют собой белки в сыворотке, которые представлена на очень низких уровнях. Определение этого уровня в литературе четко не дано, но при использовании в данном описании уровень будет ниже приблизительно 1 пикограмма/миллилитр в сыворотке крови или плазме и других жидкостях организма, из которых забирают образцы.[0055] "Proteins with low frequency of occurrence" are proteins in serum that are present at very low levels. The definition of this level in the literature is not clearly defined, but when used in this description, the level will be below about 1 picogram/milliliter in serum or plasma and other body fluids from which samples are taken.

[0056] «Метапеременная» означает информацию, которая характерна для данного субъекта, за исключением концентраций или уровней аналитов и биомаркеров, но которая не обязательно индивидуализирована или уникальна для такого субъекта. Примеры таких метапеременных включают без ограничения возраст субъекта, менопаузальный статус (пре-, пери- и пост-) и другие условия и характеристики, такие как половое созревание, масса тела, географическое местоположение или регион проживания пациента, географический источник биологического образца, процентное содержание телесного жира, возраст, раса или расовая принадлежность или эпоха времени.[0056] "Metavariable" means information that is specific to a given subject, with the exception of concentrations or levels of analytes and biomarkers, but which is not necessarily individualized or unique to such a subject. Examples of such metavariables include, without limitation, the subject's age, menopausal status (pre-, peri- and post-), and other conditions and characteristics such as puberty, body weight, geographic location or region of residence of the patient, geographic source of the biological sample, percentage of body fat, age, race or racial origin or era of time.

[0057] «Распределение генеральной совокупности» означает диапазон концентраций конкретного аналита в биологических образцах данной совокупности субъектов. Конкретная «совокупность» означает без ограничения индивидуумов, выбранных из географического региона, конкретной расы или конкретного пола. И выбранная для использования характеристика распределения генеральной совокупности, как описано в настоящей заявке, дополнительно предусматривает использование двух отдельных подсовокупностей в пределах этой более крупной определенной совокупности, которые являются членами совокупности и для которых было диагностировано наличие указанного заболевания (подсовокупность наличия заболевания) и отсутствие заболевания (подсовокупность отсутствия заболевания). Совокупность может быть любой группой, для которой необходимо прогнозирование статуса заболевания. Более того, предусмотрено, что соответствующие совокупности включают тех субъектов, у которых присутствует заболевание, развившееся до определенной клинической стадии по сравнению с другими стадиями прогрессирования заболевания.[0057] "Population distribution" means the range of concentrations of a particular analyte in biological samples of a given population of subjects. Specific "population" means, without limitation, individuals selected from a geographic region, a particular race, or a particular gender. And the characterization of the distribution of the population selected for use, as described herein, further provides for the use of two separate subpopulations within this larger defined population, which are members of the population and which have been diagnosed with the presence of the specified disease (the subset of the presence of the disease) and the absence of the disease ( subset of absence of disease). The population can be any group for which a disease status prediction is desired. Moreover, appropriate populations are contemplated to include those subjects who have a disease that has progressed to a particular clinical stage as compared to other stages of disease progression.

[0058] «Характеристики распределения генеральной совокупности» можно определить в пределах распределения генеральной совокупности биомаркера, такого как среднее значение концентрации конкретного аналита, или его медианное значение концентрации, или динамический диапазон концентрации, или как распределение генеральной совокупности подпадает в группы, которые можно распознать в виде отдельных пиков, поскольку степень положительной или отрицательной регуляции различных представляющих интерес биомаркеров и метапеременных зависит от начала и прогрессирования заболевания по мере того, как пациент испытывает биологический переход или прогрессирование из статуса отсутствия заболевания к статусу наличия заболевания.[0058] "Population distribution characteristics" can be defined within the population distribution of a biomarker, such as the mean concentration of a particular analyte, or its median concentration, or the dynamic range of concentration, or how the population distribution falls into groups that can be recognized in distinct peaks, since the degree of up- or down-regulation of the various biomarkers and metavariables of interest depends on the onset and progression of the disease as the patient experiences a biological transition or progression from disease-free to disease-positive status.

[0059] «Прогностическая сила» означает среднее значение чувствительности и специфичности для диагностического анализа или теста или один минус общее количество ошибочных прогнозов (как ложноотрицательных, так и ложноположительных), деленное на общее количество образцов.[0059] "Predictive power" means the mean value of sensitivity and specificity for a diagnostic assay or test, or one minus the total number of false predictions (both false negatives and false positives) divided by the total number of samples.

[0060] «Показатель близости» означает замещающее или заменяющее значение для концентрации измеряемого биомаркера и, по сути, является новой независимой переменной, которую можно использовать в диагностическом корреляционном анализе. Показатель близости связан с концентрацией измеряемых аналитов биомаркеров и рассчитывается из них, при этом такие аналиты имеют прогностическую силу для статуса заданного заболевания. Показатель близости рассчитывают с помощью скорректированной по метапеременной представляющей интерес характеристики распределения генеральной совокупности для преобразования фактической измеренной концентрации прогностического биомаркера у заданного пациента, для которого необходимо поставить диагноз, как раскрыто в международной публикации № WO 2017/127822 и международной публикации № WO 2014/158287. «Показатель близости» и «псевдоконцентрация» имеют одно и то же определение, и их можно использовать взаимозаменяемо.[0060] "Proximity Score" means a surrogate or substitute value for the concentration of the measured biomarker and, in fact, is a new independent variable that can be used in a diagnostic correlation analysis. Proximity score is related to and calculated from the concentration of measurable biomarker analytes, such analytes having predictive power for a given disease status. Proximity score is calculated using a metavariable-adjusted population distribution characteristic of interest to convert the actual measured concentration of a predictive biomarker in a given patient to be diagnosed as disclosed in International Publication No. WO 2017/127822 and International Publication No. WO 2014/158287. "Proximity score" and "pseudo concentration" have the same definition and can be used interchangeably.

[0061] «Специфичность» представляет собой истинно/ложноположительный результат теста. Математически это один минус количество ложноположительных результатов измерений с помощью теста, деленное на общее количество измеренных истинноотрицательных образцов.[0061] "Specificity" is a true/false positive test result. Mathematically, this is one minus the number of false positives measured by the test divided by the total number of true negatives measured.

[0062] «Неконгруэнтная модель обучающей выборки» (или «вторичный алгоритм») представляет собой вторичную модель обучающей выборки, в которой используют другой феноменологический способ сокращения данных с тем, чтобы отдельные точки на сетках двухмаркерных плоскостей имели малую вероятность нестабильного состояния в первичной корреляционной модели обучающей выборки и данном вторичном алгоритме.[0062] A "non-congruent training sample model" (or "secondary algorithm") is a secondary training sample model that uses a different phenomenological data reduction method so that individual points on two-marker plane grids have a low probability of an unstable state in the primary correlation model training sample and this secondary algorithm.

[0063] «Способ определения корреляции по пространственной близости» (или поиск кластера или кластерный анализ) является способом определения корреляционной связи между независимыми переменными и двоичным выходным результатом, при этом независимые переменные отложены по ортогональным осям. Прогнозирование для слепых образцов основано на близости к числу (3, 4, 5 или более) точек данных так называемой «обучающей выборки», у которой известен выходной результат. Оценка двоичного выходного результата основана на общем расстоянии, рассчитанном от слепой точки на многомерном пространстве до точек противоположного выходного результата обучающей выборки. Оценку индивидуальной слепой точки данных определяет наименьшее расстояние. Этот же анализ можно провести на двухмаркерных плоскостях, размеченных многомерной сеткой, при этом индивидуальную оценку двухмаркерной плоскости объединяют с оценкой других плоскостей с получением общей оценки. Такое использование срезов или двумерных ортогональных проекций в пространстве может сократить время вычислений.[0063] A "proximity correlation method" (or cluster search or cluster analysis) is a method for determining a correlation between independent variables and a binary output with the independent variables plotted along orthogonal axes. Prediction for blind samples is based on proximity to the number (3, 4, 5, or more) of the so-called "training set" data points for which the output is known. The binary output score is based on the total distance calculated from the blind point in the multidimensional space to the points of the opposite training sample output. The smallest distance determines the estimate of an individual data blind point. The same analysis can be carried out on two-marker planes marked with a multidimensional grid, while the individual score of the two-marker plane is combined with the score of other planes to obtain an overall score. This use of slices or 2D orthogonal projections in space can reduce computation time.

[0064] «Обучающая выборка» обозначает группу пациентов (обычно 200 или более для достижения статистической значимости) с известными концентрациями биомаркеров, известными значениями метапеременных и известным диагнозом. Обучающую выборку используют для определения значений осей «показатели близости» «двухмаркерных» плоскостей, а также точек сетки оценки, полученных по результатам анализа пространственной близости, которые будут использованы для оценки индивидуальных слепых образцов.[0064] "Training sample" refers to a group of patients (typically 200 or more to achieve statistical significance) with known biomarker concentrations, known metavariable values, and known diagnosis. The training sample is used to determine the values of the "proximity" axes of the "two-marker" planes, as well as the evaluation grid points obtained from the results of the spatial proximity analysis, which will be used to evaluate individual blind samples.

[0065] «Модель обучающей выборки» представляет собой алгоритм или группу алгоритмов, созданных из обучающей выборки, которые делают возможной оценку слепых образцов в отношении прогностического выходного результата касательно вероятности того, что у субъекта (или пациента) присутствует заболевание или не присутствует заболевание. Затем «модель обучающей выборки» используют для расчета оценок для слепых образцов в клинических и диагностических целях. Для этой цели получают оценку в произвольном диапазоне, которая указывает процент вероятности наличия заболевания или отсутствия заболевания или какого-либо другого заранее определенного указателя, который предпочитает использовать медицинский работник, который проводит диагностику пациента.[0065] A "training sample model" is an algorithm or group of algorithms generated from a training sample that makes it possible to evaluate blind samples for a predictive output regarding the likelihood that a subject (or patient) has or does not have a disease. The "training sample model" is then used to calculate scores for clinical and diagnostic blinds. For this purpose, an arbitrary range score is obtained that indicates the percentage probability of having a disease or not having a disease, or some other predetermined indicator preferred by the medical professional who is diagnosing the patient.

[0066] «Кривая зависимости чувствительности от частоты ложноположительных заключений (ROC)» представляет собой графический способ представления эффективности способа передачи сигнала, используемого для принятия решения, есть ли компромисс между ложноположительными, ложноотрицательными результатами и интенсивностью детектирующего сигнала. В данном графическом представлении по ординате графика представлена чувствительность способа тестирования, а по абсциссе представлен уровень ложноположительных результатов. Для биомаркеров (или сигналов) с восходящим действием к точке возникновения заболевания кривая будет находиться выше 45° нулевой линии, начинающейся в точке начале координат (0,0) графика и идущей в правый верхний угол графика (1.0,1.0). По площади под кривой видно, насколько хорошо биомаркер позволяет делать прогноз.[0066] "Sensitivity versus False Positive Rate (ROC) Curve" is a graphical way to represent the effectiveness of the signal transmission method used to decide whether there is a trade-off between false positives, false negatives and detection signal strength. In this graphical representation, the ordinate of the graph represents the sensitivity of the testing method, and the abscissa represents the false positive rate. For biomarkers (or signals) with an upward effect to the point of origin of the disease, the curve will be above the 45° zero line, starting at the origin (0,0) of the graph and going to the upper right corner of the graph (1.0,1.0). The area under the curve shows how well the biomarker makes predictions.

[0067] «'Площадь под кривой' (AUC) для кривой ROC» является площадью между характеристической кривой биомаркера и абсциссой. Для совершенно бесполезного биомаркера AUC будет составлять 0,5, а его площадь под 45° нулевой линией будет такой, как указано выше. Идеальный тест имеет AUC, равную 1,0, и кривая проходит от точки начала координат по ординате до точки 100% чувствительности, а затем по кривой ROC до точки 1.0,1.0 в правом верхнем углу.[0067] "'Area under the curve' (AUC) for the ROC curve" is the area between the characteristic curve of the biomarker and the abscissa. For a completely useless biomarker, the AUC would be 0.5 and its area under the 45° baseline would be as above. The ideal test has an AUC of 1.0 and the curve runs from the origin on the ordinate to the 100% sensitivity point and then on the ROC curve to the 1.0,1.0 point in the upper right corner.

[0068] «Микроокружение опухоли» омывается интерстициальной жидкостью опухоли (TIF) и является клеточной средой, в которой существует опухоль, включая окружающие кровеносные сосуды, иммуноциты, фибробласты, воспалительные клетки из костного мозга, лимфоциты, сигнальные молекулы и внеклеточный матрикс.[0068] The "tumor microenvironment" is bathed in tumor interstitial fluid (TIF) and is the cellular environment in which the tumor exists, including surrounding blood vessels, immunocytes, fibroblasts, inflammatory cells from the bone marrow, lymphocytes, signaling molecules, and extracellular matrix.

[0069] «Опухолевый маркер» представляет собой белковый маркер, который попадает в TME или в кровоснабжение, который не имеет видимой функции, является маркером либо роста опухоли за счет секретов опухоли, либо маркером подавления опухоли иммунной системой.[0069] A "tumor marker" is a protein marker that enters the TME or blood supply that has no apparent function, is a marker of either tumor growth due to tumor secretions, or a marker of tumor suppression by the immune system.

[0070] В последние годы в исследовании противораковой иммунотерапии все больший интерес уделяют микроокружению опухоли (TME), которое обеспечивает идеальную научно-исследовательскую платформу для разработки и усовершенствования новых средств терапии и представляет собой потенциально огромный кладезь диагностического содержимого. TME, которое омывается интерстициальной жидкостью опухоли (TIF), является клеточной средой, в которой существует опухоль, включая окружающие кровеносные сосуды, иммуноциты, фибробласты, воспалительные клетки из костного мозга, лимфоциты, сигнальные молекулы и внеклеточный матрикс.[0070] In recent years, there has been increasing interest in cancer immunotherapy research in the tumor microenvironment (TME), which provides an ideal research platform for the development and improvement of new therapeutics and represents a potentially huge treasure trove of diagnostic content. The TME that is bathed in tumor interstitial fluid (TIF) is the cellular environment in which the tumor exists, including surrounding blood vessels, immunocytes, fibroblasts, inflammatory cells from the bone marrow, lymphocytes, signaling molecules, and extracellular matrix.

[0071] TIF также является транспортной жидкостью, связывающей опухоль (и TME) с кровоснабжением, и является важной, поскольку она является «посредником на поле боя» для активных белков, которые иммунная система использует в попытке подавить опухоль, или которые опухоль экспрессирует, чтобы помочь своему росту. Эти конкурирующие белки или цитокины, которые постоянно находятся в состоянии войны друг с другом, подразделяются на несколько функциональных категорий низкоуровневых сигнальных белков: про- и противовоспалительные, противоопухолевого происхождения (или вызывающие апоптоз клеток), вызывающие ангиогенез и васкуляризацию.[0071] TIF is also the transport fluid that links the tumor (and TME) to the blood supply and is important because it is the "battlefield go-between" for active proteins that the immune system uses in an attempt to suppress the tumor, or that the tumor expresses to help your growth. These competing proteins or cytokines, which are constantly at war with each other, fall into several functional categories of low-level signaling proteins: pro- and anti-inflammatory, anti-tumor (or causing cell apoptosis), angiogenesis and vascularization.

[0072] Несмотря на признание в качестве потенциального источника богатой диагностической информации, разработка анализа с помощью TIF в качестве метода скрининга рака не продвигается, поскольку взятие проб этой жидкости является очень затруднительным, а для того, чтобы сделать это, означает, что должно быть известно расположение опухоли, а, значит, существует ли сама опухоль. Обнаружение наличия TME/TIF, а значит и злокачественной опухоли, является достаточно сложным без этих сведений. Для этого необходима более доступная жидкость для клинической диагностики, такая как сыворотка крови, в сочетании с анализом множества белков, известного как протеомика, которые предположительно могут коррелировать с наличием или отсутствием заболевания. В этом отношении с сывороткой возникают некоторые трудности, так как она является скорее отражением сочетания состояний организма пациента, чем прямым способом обнаружения наличия активного ТМЕ (и, следовательно, опухоли).[0072] Despite being recognized as a potential source of rich diagnostic information, the development of the TIF assay as a cancer screening method is not moving forward because sampling this fluid is very difficult, and to do so means that the location of the tumor, which means whether the tumor itself exists. Detection of the presence of TME/TIF, and thus malignancy, is quite difficult without this information. This requires a more readily available clinical diagnostic fluid, such as blood serum, coupled with the analysis of a variety of proteins, known as proteomics, that could conceivably correlate with the presence or absence of disease. There are some difficulties with serum in this regard, as it is more of a reflection of a combination of conditions in the patient's body than a direct way to detect the presence of active TME (and therefore a tumor).

[0073] В настоящем раскрытии рассмотрен способ анализа специфических цитокинов, присутствующих в сыворотке крови, в качестве точного заместителя белков, активных в ТМЕ и TIF. Способ предусматривает несколько стадий, включая два запатентованных способа, называемых подавлением протеомного шума и многомерной (или пространственной) корреляцией. С помощью описываемого способа можно получить точного заместителя в отношении действий белков, встречающихся в TIF, и, таким образом, данный способ полезен для обнаружения присутствия активного ТМЕ в организме и, следовательно, опухоли. По сути, с помощью данного способа выделяют сигнатуру ТМЕ в сыворотке и получают указание на присутствие (или отсутствие) активного ТМЕ, что свидетельствует о присутствии активной опухоли. Помимо этого, данный способ позволяет измерять модуляцию этих белков, что дает ценную информацию о статусе опухоли, степени агрессивного действия и стадии, а также информацию о прогрессе иммунной системы в подавлении опухоли.[0073] The present disclosure discusses a method for analyzing specific cytokines present in blood serum as an accurate substitute for proteins active in TME and TIF. The method involves several steps, including two proprietary methods called proteomic noise suppression and multivariate (or spatial) correlation. With the method described, a precise substituent can be made for the actions of proteins occurring in TIF and thus the method is useful for detecting the presence of active TME in the body and hence the tumor. Essentially, this method isolates the TME signature in serum and indicates the presence (or absence) of active TME, indicative of the presence of an active tumor. In addition, this method allows the modulation of these proteins to be measured, which provides valuable information about the status of the tumor, the degree of aggressiveness and stage, as well as information about the progress of the immune system in suppressing the tumor.

[0074] Представляющие интерес биомаркеры[0074] Biomarkers of interest

[0075] Представляющими интерес биомаркерами в настоящем раскрытии являются провоспалительные (интерлейкин 6, IL 6, или другие); противовоспалительные (интерлейкин 10, IL 10, или другие.) противоопухолевые или лизирующие опухоль цитокины (фактор некроза опухолей альфа, TNFα, или другие) и циркулирующие факторы роста, такие как стимулирующие ангиогенез (интерлейкин 8, IL 8, или другие) и стимулирующие васкуляризацию цитокины (фактор роста эндотелия сосудов, VEGF, или другие). Это цитокины с имеющей непосредственное отношение функциональностью ответа иммунной системы на опухоль или действие опухоли на организм. Стимулирующие васкуляризацию факторы, VEGF, являются действием опухоли, стимулирующим рост кровеносной системы в массу растущей опухоли. Подавляющие развитие опухоли факторы, TNFα, являются действием иммунной системы, направленным на цитолиз опухоли (апоптоз), а провоспалительный фактор IL 6 является медиатором действия всей иммунной системы. Противовоспалительный IL 10 секретируется опухолью в интерстициальную жидкость опухоли для подавления иммунной системы. И наконец, стимулирующие ангиогенез факторы, такие как IL 8, секретируются опухолью для увеличения васкуляризации в окружающей ткани.[0075] Biomarkers of interest in the present disclosure are pro-inflammatory (interleukin 6, IL 6, or others); anti-inflammatory (interleukin 10, IL 10, or others.) antitumor or tumor-lysing cytokines (tumor necrosis factor alpha, TNFα, or others) and circulating growth factors such as those that stimulate angiogenesis (interleukin 8, IL 8, or others) and stimulate vascularization cytokines (vascular endothelial growth factor, VEGF, or others). These are cytokines with a directly related functionality to the response of the immune system to a tumor or the effect of a tumor on the body. Vascularization stimulating factors, VEGF, are the action of a tumor to stimulate the growth of the circulatory system into a growing tumor mass. The tumor inhibitory factors, TNFα, are the action of the immune system to promote tumor cytolysis (apoptosis), and the pro-inflammatory factor IL 6 mediates the action of the entire immune system. Anti-inflammatory IL 10 is secreted by the tumor into the interstitial fluid of the tumor to suppress the immune system. Finally, angiogenesis stimulating factors such as IL 8 are secreted by the tumor to increase vascularity in the surrounding tissue.

[0076] В целом, рак является провоспалительным заболеванием, при котором такие факторы, как IL-6, подвергаются положительной регуляции. Тем не менее, в трех описанных в настоящем документе случаях опухоль на более поздней стадии секретирует противовоспалительный цитокин в интерстициальную жидкость опухоли (и, следовательно, в кровь). Было показано, что такое действие имеет место на поздних стадиях рака, на 3-й или 4-й стадии, в легких и молочной железе, и при более высокой оценке по шкале Глисона (8, 9 или 10 по шкале Глисона). В этот момент противовоспалительное действие имеет тенденцию подавлять провоспалительный ответ иммунной системы организма. В некоторых случаях, при раке молочной железы, на более поздних стадиях также подавляется ответ в форме ангиогенеза. Наконец, стимулирующее васкуляризацию действие опухоли возрастает, как и следовало ожидать, по мере увеличения опухоли в размерах на 3-й или 4-й стадиях рака молочной железы или легкого и при раке предстательной железы при оценке 8, 9 и 10 по шкале Глисона. Все эти действия, происходящие в микроокружении опухоли, можно установить путем забора образцов сыворотки из организма и применения способов, описанных в международных публикациях № WO 2017/127822 и № WO 2014/158287.[0076] In general, cancer is a pro-inflammatory disease in which factors such as IL-6 are up-regulated. However, in the three cases described herein, the tumor at a later stage secretes an anti-inflammatory cytokine into the interstitial fluid of the tumor (and hence into the blood). This has been shown to occur in advanced cancers, stage 3 or 4, in the lung and breast, and at higher Gleason scores (8, 9, or 10 Gleason). At this point, the anti-inflammatory action tends to suppress the pro-inflammatory response of the body's immune system. In some cases, in advanced breast cancer, the response in the form of angiogenesis is also suppressed. Finally, the vascularization-stimulating effect of the tumor increases, as would be expected, as the tumor increases in size in stage 3 or 4 breast or lung cancer and in prostate cancer with a Gleason score of 8, 9, and 10. All of these activities occurring in the tumor microenvironment can be ascertained by taking serum samples from the body and applying the methods described in International Publications No. WO 2017/127822 and No. WO 2014/158287.

[0077] В частном случае рака высокая степень интереса в последних терапевтических исследованиях была сосредоточена на так называемом «микроокружении опухоли» (ТМЕ) для разработки методов лечения. Считается, что плодотворным путем разработки этих средств лечения является подавление или усиление регуляции белков, активных в интерстициальной жидкости опухоли (TIF) и встречающихся в TME. Белки в TIF, для которых было установлено, что они являются хорошими индикаторами, как правило, относятся к пяти функциональным группам цитокинов: провоспалительного или противовоспалительного, противоопухолевого генеза (или вызывающие клеточный апоптоз), воздействующие на ангиогенез и васкуляризацию.[0077] In the particular case of cancer, a high degree of interest in recent therapeutic research has been focused on the so-called "tumor microenvironment" (TME) for the development of treatments. It is believed that a fruitful way to develop these treatments is the suppression or upregulation of proteins active in tumor interstitial fluid (TIF) and occurring in TME. The proteins in TIF that have been found to be good indicators generally belong to the five functional groups of cytokines: pro-inflammatory or anti-inflammatory, anti-tumor (or cell apoptotic), angiogenesis and vascularity.

[0078] Измерение активности этих белков может дать лучшее представление об опухолевой активности и терапевтическом действии. Например, методы лечения, с помощью которых стимулируют или подавляют активность белков, для определения эффективности можно отслеживать в TIF. Если уместно в терапевтических целях, и когда известно, что рак существует, не проводят забор образцов TIF для диагностики. Поскольку наличие TIF (и наличие TME) по определению означает, что у пациента присутствует активная опухоль с известным местоположением, ее применение в качестве диагностического инструмента становится неактуальным. Кроме того, не было рассмотрено использование этих белков для диагностики при их присутствии в других жидкостях организма, таких как сыворотка или моча, поскольку до сих пор проблема протеомного шума делала их непригодными для использования.[0078] Measuring the activity of these proteins can give a better idea of tumor activity and therapeutic effect. For example, treatments that stimulate or inhibit the activity of proteins can be tracked in TIF to determine effectiveness. If appropriate for therapeutic purposes, and when cancer is known to exist, do not collect TIF samples for diagnosis. Since the presence of TIF (and the presence of TME) by definition means that the patient has an active tumor with a known location, its use as a diagnostic tool becomes irrelevant. In addition, the use of these proteins for diagnostics in their presence in other body fluids such as serum or urine has not been considered, since the problem of proteomic noise has made them unusable so far.

[0079] В настоящем документе описаны системы и способы получения точного заместителя в отношении активности TME, которую используют активные белки в TIF, с помощью легко доступной замещающей жидкости, в данном случае сыворотки (но возможны и другие жидкости, такие как моча). Следует отметить, что сыворотка является сочетанием состояний всего организма (называемым «протеомным шумом») и не специфична для опухоли. Методология, которую мы предлагаем, также позволяет устранить протеомный шум, делая возможной точную оценку состояния пациента.[0079] The present document describes systems and methods for obtaining an accurate substitute for the TME activity that active proteins in TIF use with a readily available replacement fluid, in this case serum (but other fluids such as urine are possible). It should be noted that serum is a combination of whole body conditions (referred to as "proteomic noise") and is not tumor specific. The methodology we propose also eliminates proteomic noise, making an accurate assessment of the patient's condition possible.

[0080] В целом, раскрываемые в настоящем документе системы и способы предусматривают: 1) отбор активных белков TIF, которые свидетельствуют о состояниях в TME, 2) измерение этих белков в сывороточном заместителе, 3) подавление протеомного шума для точной идентификации связанной с раком активности белков, 4) затем осуществление способа определения корреляции, который усиливает действия этих белков в многомерной матрице, и 5) оценку активности белка, указывающей на наличие или отсутствие рака и, если он есть, стадию его развития. Это делают в первую очередь для создания обучающей выборки, представляющей совокупность в целом, которая служит эталоном, с которым затем сравнивают индивидуальные образцы для определения их статуса: либо пораженные заболеванием, либо не имеющие заболевания.[0080] In general, the systems and methods disclosed herein include: 1) selecting active TIF proteins that are indicative of conditions in the TME, 2) measuring these proteins in a serum substituent, 3) suppressing proteomic noise to accurately identify cancer-associated activity proteins, 4) then performing a correlation method that enhances the actions of these proteins in a multidimensional matrix, and 5) evaluating the activity of the protein indicative of the presence or absence of cancer and, if present, the stage of its development. This is done primarily to create a training sample representing the population as a whole, which serves as a reference against which individual samples are then compared to determine their status: either affected by the disease or not having the disease.

[0081] Комбинированные действия биомаркеров[0081] Combined actions of biomarkers

[0082] Эти цитокиновые биомаркеры очень активны при раке предстательной железы с высокой степенью тяжести, и, по сравнению с уровнем у «здоровых» мужчин, подвергаются очень сильной положительной или отрицательной регуляции, и поэтому являются очень хорошими индикаторами статуса заболевания. Также следует отметить, что они активны при раке легкого и молочной железы. На фиг. 1, 2 и 3 видно такое действие по мере прогрессирования опухоли. Следует отметить, что при немелкоклеточном раке легкого и предстательной железы, как видно на фиг. 1 и 2, IL 6 оказывает отрицательную регуляцию на поздней стадии рака или при высокой оценке, равной 8, 9 или 10, по шкале Глисона. Также следует отметить, что в обоих случаях при переходе с низкой степени тяжести рака легкого или низкой оценки по шкале Глисона рака предстательной железы повышенные количества интерлейкина 10, секретируемые опухолью, приводят к отрицательной регуляции уровня IL 6. Также следует отметить, что секреция IL 10 в интерстициальную жидкость опухоли и, следовательно, в кровь связана с плохим прогнозом для пациентки. Это обычно означает, что имеет место поздняя стадия рака молочной железы. Таким образом, сочетание IL 6 и IL 10 в корреляционном анализе статуса наличия заболевания улучшается с помощью сочетания провоспалительных и противовоспалительных цитокинов. Более того, следует отметить, что влияющие на васкуляризацию цитокины продолжают оказывать в целом положительную регуляцию по мере того, как опухоль прогрессирует до более поздней стадии или становится более агрессивной.[0082] These cytokine biomarkers are very active in high-grade prostate cancer and, when compared to levels in "healthy" men, are highly up- or down-regulated and therefore very good indicators of disease status. It should also be noted that they are active in lung and breast cancer. In FIG. 1, 2 and 3 show such an effect as the tumor progresses. It should be noted that in non-small cell lung and prostate cancer, as seen in FIG. 1 and 2, IL 6 is down-regulated in advanced cancer or high Gleason scores of 8, 9, or 10. It should also be noted that in both cases, when going from low grade lung cancer or low Gleason prostate cancer, increased amounts of interleukin 10 secreted by the tumor lead to downregulation of IL 6 levels. It should also be noted that the secretion of IL 10 in the interstitial fluid of the tumor and therefore into the blood is associated with a poor prognosis for the patient. This usually means that there is an advanced stage of breast cancer. Thus, the combination of IL 6 and IL 10 in the correlation analysis of disease status is improved by the combination of pro-inflammatory and anti-inflammatory cytokines. Moreover, it should be noted that vascularity-influencing cytokines continue to be generally upregulated as the tumor progresses to a later stage or becomes more aggressive.

[0083] Трое из этих биомаркеров имеют уникальные характеристики кривой ROC, которые не являются общими для опухолевых биомаркеров. Они имеют плоскую часть со 100% чувствительностью для определенных более низких уровней концентраций биомаркера. Они также характеризуются довольно большими площадями под кривой (AUC), что указывает на то, что они являются очень хорошими биомаркерами для данного заболевания, т.е. рака предстательной железы с высокой степенью тяжести (PCa) по сравнению с отличным от PCa заболеванием. Один из них имеет прямой вертикальный участок, идущий вверх по ординате от [0,0], что указывает на то, что образцы в этом диапазоне сигналов должны иметь PCa с нулевым уровнем ложноположительных результатов.[0083] Three of these biomarkers have unique ROC curve characteristics that are not common to tumor biomarkers. They have a flat part with 100% sensitivity for certain lower levels of biomarker concentrations. They are also characterized by rather large areas under the curve (AUC), indicating that they are very good biomarkers for this disease, ie. prostate cancer with high severity (PCa) compared with non-PCa disease. One of them has a straight vertical section going up the ordinate from [0,0], indicating that samples in this signal range should have PCa with zero false positives.

[0084] В научной литературе есть ограниченное число публикаций по нескольким выбранным биомаркерам, упомянутым в этом описании. И нет ничего, связанного с выявлением PCa с высокой степенью тяжести в сравнении с генеральной совокупностью, то есть пациентами без PCa. В случае VEGF в литературе действительно упоминается положительная регуляция биомаркеров, но ничего не указано в отношении стадии рака или, в частности, оценки по шкале Глисона. Большая часть литературы ограничивается применением VEGF в качестве прогностического средства для лечения мужчин с уже диагностированным PCa. TNFα также не имеет никакого отношения к установлению различия действий биомаркеров, связанных со стадией опухоли или, в частности, оценкой опухоли по шкале Глисона. Результаты научных исследований интерлейкина 6 дают аналогичную информацию. Известно, что для PCa с низкой степенью тяжести в некоторых литературных источниках упоминается небольшая положительная регуляция уровня биомаркера. Результаты наших измерений не подтверждают этого, поскольку небольшую отрицательную регуляцию наблюдают при PCa с низкой степенью тяжести, но очень сильную отрицательную регуляцию наблюдают при PCa с высокой оценкой по шкале Глисона, что делает этот цитокин, наряду с другими, сильным индикатором наличия PCa с высокой степенью тяжести. Большая часть литературы посвящена применению этих биомаркеров в качестве прогностических факторов у мужчин с PCa и in vitro экспрессии белка из линий клеток PCa, а также изучению способов подавления экспрессии (особенно VEGF) для лечебных целей.[0084] In the scientific literature there is a limited number of publications on several selected biomarkers mentioned in this description. And there is nothing associated with the detection of PCa with high severity in comparison with the general population, that is, patients without PCa. In the case of VEGF, the literature does mention the upregulation of biomarkers, but nothing is indicated in relation to the stage of the cancer or, in particular, the Gleason score. Most of the literature is limited to the use of VEGF as a prognostic agent for the treatment of men with already diagnosed PCa. TNFα also has nothing to do with distinguishing the actions of biomarkers associated with tumor stage or, in particular, tumor Gleason score. The results of scientific studies of interleukin 6 give similar information. It is known that for PCa with low severity, some literature mentions a slight positive regulation of the level of the biomarker. Our measurements do not support this, as little downregulation is seen in low PCa, but very strong downregulation is seen in high Gleason PCa, making this cytokine, along with others, a strong indicator of the presence of high PCa. gravity. Much of the literature is devoted to the use of these biomarkers as prognostic factors in men with PCa and in vitro protein expression from PCa cell lines, as well as to the study of ways to suppress expression (especially VEGF) for therapeutic purposes.

[0085] Кривые ROC в случае рака предстательной железы[0085] ROC curves for prostate cancer

[0086] VEGF [0086] VEGF

[0087] На фиг. 4 показана кривая ROC для VEGF при агрессивной форме (оценка по шкале Глисона 7 (4+3), 8, 9 и 10). Следует отметить, что большая плоская часть ROC проходит через верхнюю границу, где чувствительность составляет 100%. При уровнях концентрации VEGF на этом уровне чувствительности или ниже приблизительно 50 пг/мл PCa с высокой степенью тяжести отсутствует, и не было выявлено ни единого такого случая. AUC для данного биомаркера при сравнении статуса наличия данного заболевания / отсутствия данного заболевания составляет 0,87. Кроме того, уникальная форма без ложноположительных результатов ниже уровня 50 пг/мл делает его очень хорошим кандидатом в качестве биомаркера для определения «PCa» с высокой степенью тяжести в сравнении «отличным от PCa» заболеванием, поскольку уровни концентрации ниже приблизительно 50 пг/мл вовсе не указывают на PCa.[0087] FIG. 4 shows the ROC curve for VEGF in the aggressive form (Gleason score 7 (4+3), 8, 9 and 10). It should be noted that a large flat part of the ROC passes through the upper boundary, where the sensitivity is 100%. At VEGF concentration levels at or below about 50 pg/mL of VEGF, there is no high severity PCa, and no such case has been identified. The AUC for this biomarker when comparing the presence/absence of this disease status is 0.87. In addition, the unique formulation with no false positives below 50 pg/mL makes it a very good candidate as a biomarker for high-severity "PCa" versus "non-PCa" disease, as levels below approximately 50 pg/mL do do not point to PCa.

[0088] TNFα[0088] TNFα

[0089] Комментарии к TNFα аналогичны тем, которые были описаны в отношении характера кривой ROC для агрессивной формы (оценка по шкале Глисона 7 (4+3), 8, 9 и 10), как видно на фиг. 5. В этом случае AUC составляет 0,85, и снова, высокая и такая же граничная точка не дает ложноотрицательных результатов ниже приблизительно 6,5 пг/мл. Для TNFα также видна часть кривой, которая имеет нулевой уровень ложноположительных результатов (абсцисса) для образцов с концентрацией более приблизительно 9,85 пг/мл. В этом участке нет ложноположительных результатов.[0089] Comments on TNFα are similar to those described regarding the nature of the ROC curve for the aggressive form (Gleason score of 7 (4+3), 8, 9 and 10) as seen in FIG. 5. In this case, the AUC is 0.85, and again, the high and same breakpoint does not produce false negatives below approximately 6.5 pg/mL. For TNFα, a portion of the curve is also visible that has a zero false positive rate (abscissa) for samples greater than approximately 9.85 pg/mL. There are no false positives in this region.

[0090] PSA [0090] PSA

[0091] Комментарии к PSA аналогичны тем, которые были описаны в отношении характера кривой ROC для агрессивной формы (оценка по шкале Глисона 7 (4+3), 8, 9 и 10), как видно на фиг. 6. В этом случае AUC составляет 0,85, и снова, высокая и такая же граничная точка не дает ложноотрицательных результатов ниже приблизительно 2 нг/мл. Кривая ROC для общего анализа на PSA для PCa с любой оценкой по шкале Глисона показана для справки зеленым цветом (показана под названием «Все PCa»).[0091] Comments on the PSA are similar to those described regarding the nature of the ROC curve for the aggressive form (Gleason score of 7 (4+3), 8, 9, and 10) as seen in FIG. 6. In this case, the AUC is 0.85, and again, the high and same breakpoint does not produce false negatives below about 2 ng/mL. The ROC curve for overall PSA analysis for PCa with any Gleason score is shown in green for reference (shown labeled "All PCa").

[0092] IL6[0092] IL6

[0093] В отличие от этого, для IL 6 наблюдают сильную отрицательную регуляцию при агрессивной форме (оценка по шкале Глисона 7 (4+3), 8, 9 и 10), с AUC приблизительно в два раза превышающей для текущего PSA, необходимого для обнаружения PCa, как видно на фиг. 7, в генеральной совокупности (кривая должна быть перевернута для учета такой отрицательной регуляции). Можно предположить, что, возможно, PCa с высокой степенью тяжести эффективен в подавлении иммунной системы, но это не является предметом настоящего рассмотрения. Дело в том, что для этого биомаркера наблюдают сильную отрицательную регуляцию. В ограниченном числе литературных источников указана небольшая положительная регуляция при общем PCa. По результатам наших измерений для PCa с любой оценкой по шкале Глисона видна небольшая отрицательная регуляция. Тем не менее, при высокой оценке по шкале Глисона у данного цитокина наблюдают сильную отрицательную регуляцию. Общая совокупность PCa имеет приблизительно 80% случаев низкой степени тяжести, поэтому при заборе образцов на PCa в характеристиках группы будет преобладать низкая степень тяжести. Такая отрицательная регуляция, вероятно, вызвана секрецией противовоспалительного цитокина (IL 10) при прогрессировании опухоли до агрессивной формы с оценкой по шкале Глисона 7 (4+3) и выше.[0093] In contrast, IL 6 is strongly downregulated in the aggressive form (Gleason score of 7 (4+3), 8, 9, and 10), with an AUC approximately twice that of the current PSA required for detection of PCa, as seen in FIG. 7, in the general population (the curve must be inverted to account for this negative regulation). It can be speculated that perhaps high-severity PCa is effective in suppressing the immune system, but this is not the subject of this review. The fact is that a strong negative regulation is observed for this biomarker. A limited number of literature sources indicate a small positive regulation in total PCa. According to our measurements for PCa with any Gleason score, a slight negative regulation is visible. However, with a high Gleason score, this cytokine is strongly downregulated. The general population of PCa has approximately 80% of cases of low severity, so when sampling for PCa, the characteristics of the group will be dominated by low severity. This downregulation is likely caused by the secretion of an anti-inflammatory cytokine (IL 10) as the tumor progresses to an aggressive form with a Gleason score of 7 (4+3) or higher.

[0094] Кривые ROC в случае рака легкого[0094] ROC curves for lung cancer

[0095] IL 10 [0095] IL 10

[0096] На фиг. 8 показана кривая ROC для интерлейкина 10 в случае отделения низкой степени тяжести (1-й и 2-й стадии от более поздней 3-й и 4-й стадии немелкоклеточного рака легкого). Следует отметить, что имеет место положительная регуляция при переходе от ранней стадии (1-й и 2-й) к более поздним стадиям (3-й и 4-й). Это соответствует отрицательной регуляции интерлейкина 6 и вызвано противовоспалительным действием опухоли, секретирующей IL 10 в микроокружение опухоли, а затем в кровоток.[0096] FIG. 8 shows the ROC curve for interleukin 10 in a low grade separation (stage 1 and 2 from later stage 3 and 4 non-small cell lung cancer). It should be noted that there is a positive regulation during the transition from the early stage (1st and 2nd) to later stages (3rd and 4th). This is consistent with the downregulation of interleukin 6 and is caused by the anti-inflammatory action of the tumor secreting IL 10 into the tumor microenvironment and then into the bloodstream.

[0097] IL6 [0097] IL6

[0098] Кривая ROC для IL 6 показана на фиг. 9 и снова для случая немелкоклеточного рака легкого на ранних стадиях (1-й и 2-й) в сравнении с поздними стадиями (3-й и 4-й). Как показано на фиг. 9, данное действие IL 6 подавляется противовоспалительным действием опухоли.[0098] The ROC curve for IL 6 is shown in FIG. 9 and again for the case of non-small cell lung cancer in the early stages (1st and 2nd) compared with the late stages (3rd and 4th). As shown in FIG. 9, this action of IL 6 is inhibited by the anti-inflammatory action of the tumor.

[0099] VEGF [0099] VEGF

[0100] Кривая ROC для VEGF показана на фиг. 10, на которой видна положительная регуляция стимулирующего васкуляризацию фактора, который встречается при других формах рака по мере роста и прогрессирования опухоли до более поздних стадий.[0100] The ROC curve for VEGF is shown in FIG. 10, which shows upregulation of a vascularization stimulating factor that occurs in other cancers as the tumor grows and progresses to advanced stages.

[0101] Тест на агрессивную форму или позднюю стадию рака в сравнении с неагрессивной формой или ранней стадией рака[0101] A test for aggressive or late-stage cancer versus non-aggressive or early-stage cancer

[0102] Данные биомаркеры можно взять совместно для разработки очень простого протеомного алгоритма для отслеживания мужчин с низкой степенью тяжести рака предстательной железы с оценкой по шкале Глисона 5, 6 или 7(3+4) в отношении перехода к высокой степени тяжести PCa с оценкой по шкале Глисона 7 (4+3), 8, 9 или 10. Кроме того, эти биомаркеры позволяют отличать раннюю стадию рака, 1-ю или 2-ю стадию от 3-й или 4-й стадии. Сочетание IL 6 и IL 10 с противоположными действиями может дать (с простым способом определения корреляции, таким как логистическая регрессия) 80% прогностическую силу. Добавление подавления протеомного шума и способа определения корреляции по пространственной близости будет давать значения прогностической силы, равные 90%. Добавление действия VEGF к панели биомаркеров улучшит прогностическую силу до 95% и более.[0102] These biomarkers can be taken together to develop a very simple proteomic algorithm to track men with low-severity prostate cancer with a Gleason score of 5, 6, or 7(3+4) for transition to high-severity PCa with a score of Gleason score of 7 (4+3), 8, 9, or 10. In addition, these biomarkers distinguish early-stage cancer, stage 1 or 2, from stage 3 or 4. Combining IL 6 and IL 10 with opposite actions can give (with a simple correlation technique such as logistic regression) 80% predictive power. The addition of proteomic noise suppression and the proximity correlation method will yield predictive power values of 90%. Adding VEGF action to the biomarker panel will improve predictive power to 95% or more.

[0103] Тест на агрессивную форму рака предстательной железы в сравнении с мужчинами без рака[0103] Test for an aggressive form of prostate cancer in comparison with men without cancer

[0104] На самом деле, VEGF и сам по себе будет давать тест с 76% прогностической силой, 100% чувствительностью и 76% специфичностью (24% ложноположительных результатов). Эта простая модель будет просто исключать образцы с диагнозом отсутствия PCa в тех диапазонах концентраций, где кривая ROC их исключает, и будет снова включать образцы с PCa в тех зонах, где его включает кривая ROC. Затем она будет использовать простой подсчет граничных точек и количество положительных и отрицательных оценок каждого биомаркера, не входящих в критерий исключения или включения. Количество должно превышать 3 из 4 для тех случаев, которые не были предварительно исключены или включены. Эта простая модель позволяет получить 100% репрезентативный набор образцов из 100 образцов с диагнозом наличия PCa с высокой оценкой по шкале Глисона (определяемой как 7 (4+3) и выше) и 100 образцов с диагнозом отсутствия PCa. Сочетание VEGF, IL 6, TNFα и PSA будет давать прогностическую силу, равную 90%. Кроме того, этот тест будет позволять прогнозировать «отсутствие рака» для мужчин с повышенным уровнем PSA, но не цитокинов. У этих мужчин присутствует доброкачественная гиперплазия предстательной железы или другое незлокачественное состояние предстательной железы, и они составляют основную массу многочисленных ложноположительных результатов текущего скринингового теста с помощью PSA на рак предстательной железы. Тест, включающий такие цитокины, позволяет решить эту проблему ложноположительных результатов.[0104] In fact, VEGF by itself will produce a test with 76% predictive power, 100% sensitivity, and 76% specificity (24% false positives). This simple model will simply exclude samples diagnosed as absent of PCa in concentration ranges where the ROC curve excludes them, and will again include samples with PCa in those areas where it is included in the ROC curve. It will then use a simple breakpoint count and the number of positive and negative scores for each biomarker that is not included in the exclusion or inclusion criteria. The number must be greater than 3 out of 4 for cases not previously excluded or included. This simple model generates a 100% representative sample set of 100 PCa-diagnosed specimens with a high Gleason score (defined as 7 (4+3) or higher) and 100 PCa-free specimens. The combination of VEGF, IL 6, TNFα and PSA will give a predictive power of 90%. In addition, this test will be predictive of "no cancer" for men with elevated PSA levels, but not cytokines. These men have benign prostatic hyperplasia or another non-cancerous condition of the prostate and constitute the bulk of the many false positives on the current PSA screening test for prostate cancer. A test that includes these cytokines overcomes this problem of false positives.

[0105] Прогнозирование стадии рака[0105] Cancer staging prediction

[0106] Данные, полученные в ходе исследования рака молочной железы под наблюдением института Герцена в Москве, позволяли спрогнозировать с высокой точностью стадии рака молочной железы с использованием описанных ниже оборудования и реагентов. Было получено 189 образцов ткани молочной железы с информацией о стадии (от 0 до 4). Измерения проводили для опухолевого маркера PSA и четырех упомянутых цитокинов провоспалительного (IL 6), противоопухолевого генеза (TNFα), воздействующих на ангиогенез (IL 8) и васкуляризацию (VEGF). В этом случае целью было оценить каждый образец в отношении полученной по результатам биопсии информации о возможной стадии. Все способы определения корреляции являются двоичными по природе и не могут быть реализованы без некоторой манипуляционной оценки четырех различных выходных результатов. Поэтому группы стадий объединяли в бинарные группы, представляющие все группы стадий; 1 плюс 2, 3, 4; 2 плюс 1, 3, 4; 3 плюс 1, 2, 4 и 4 плюс 1, 2, 3. Все четыре группы были смоделированы и оценены с помощью способов нормализации по возрасту, подавления шума и определения корреляции по пространственной близости, описанных в международной публикации № WO 2017/127822 и международной публикации № WO 2014/158287. Оценку для каждого отдельного образца затем рассчитывали с помощью каждой индивидуальной групповой оценки каждого образца совместно со взвешиванием по вкладу каждого в эту группу (1 или 1/3). Данная модель давала 99% точность.[0106] The data obtained during the study of breast cancer under the supervision of the Herzen Institute in Moscow made it possible to predict the stage of breast cancer with high accuracy using the equipment and reagents described below. 189 breast tissue samples were obtained with stage information (from 0 to 4). Measurements were made for the tumor marker PSA and the four mentioned cytokines of proinflammatory (IL 6), antitumor genesis (TNFα), angiogenesis (IL 8) and vascularization (VEGF) cytokines. In this case, the goal was to evaluate each sample for possible staging information obtained from the biopsy. All methods of determining correlation are binary in nature and cannot be implemented without some manipulation evaluation of the four different outputs. Therefore, the stage groups were combined into binary groups representing all the stage groups; 1 plus 2, 3, 4; 2 plus 1, 3, 4; 3 plus 1, 2, 4, and 4 plus 1, 2, 3. All four groups were modeled and evaluated using the age normalization, noise suppression, and proximity correlation methods described in International Publication No. WO 2017/127822 and International Publication No. WO 2014/158287. A score for each individual sample was then calculated using each individual group score for each sample, together with a weighting on the contribution of each to that group (1 or 1/3). This model gave 99% accuracy.

[0107] В настоящем описании было описано несколько способов улучшения прогностической силы традиционных способов определения корреляции в протеомике для диагностики заболевания. Они предусматривают: 1) использование метапеременной и значений оценки близости для установления корреляции, и 2) использование специальных сведений о стабильности топологии и характеристик измерения в ходе анализа для корректировки влияния двухмаркерной плоскости в модели обучающей выборки. Кроме того, описаны способы обнаружения и коррекции проблем со стабильностью для слепых образцов, уникальных для конкретной модели обучающей выборки, с использованием неконгруэнтной модели обучающей выборки. Кроме того, описаны способы поиска и коррекции не связанных с заболеванием состояний, которые частично имитируют модель обучающей выборки набора для статуса данного заболевания. Все эти способы являются взаимодополняющими и могут быть использованы совместно. Например, корректировка модели обучающей выборки для областей с высокой вероятностью нестабильности не может полностью устранить данную проблему из прогностических расчетов для слепого образца, и поэтому можно использовать оба способа для улучшения прогностической силы. Авторами настоящего изобретения было обнаружено, что сочетание этих способов может давать прогностическую силу выше 95%, а исследование рака молочной железы, рассмотренное в Примере 1 ниже, дает прогностическую силу более 98% (100% чувствительность, 97,5% специфичность).[0107] Several methods have been described herein to improve the predictive power of conventional proteomics correlation methods for disease diagnosis. They include: 1) using the metavariable and proximity score values to establish correlation, and 2) using special knowledge about the stability of the topology and measurement characteristics during the analysis to correct for the influence of the two-marker plane in the training sample model. In addition, methods are described for detecting and correcting stability issues for blind samples unique to a particular training set model using a non-congruent training set model. In addition, methods for finding and correcting non-disease related conditions that partially mimic the training set model for the status of a given disease are described. All of these methods are complementary and can be used together. For example, adjusting the training sample model for areas of high probability of instability cannot completely eliminate this issue from blind predictive calculations, and therefore both methods can be used to improve predictive power. The present inventors have found that a combination of these methods can give a predictive power of over 95%, and the breast cancer study discussed in Example 1 below gives a predictive power of over 98% (100% sensitivity, 97.5% specificity).

[0108] ПРИМЕР 1: клиническое исследование по оценке теста крови на рак молочной железы [0108] EXAMPLE 1: clinical study evaluating a blood test for breast cancer

[0109] Характеристики набора для проведения теста OTraces BC Sera Dx и системы OTraces CDx Immunochemistry Instrument (www.otraces.com) оценивали в эксперименте по оценке риска наличия рака молочной железы. С помощью набора для проведения теста измеряли концентрации пяти очень низкоуровневых цитокинов и маркеров ткани, и данный набор предусматривал использование модели обучающей выборки, которая была разработана, как описано выше, для расчета оценок CS1 и CSq для оценки риска наличия рака молочной железы. Измеряемыми белками были IL-6, IL-8, VEGF, TNFα и PSA. Эксперимент заключался в измерении приблизительно 300 образцов пациентов, разделенных примерно по 50% между случаями рака молочной железы, диагностированными с помощью биопсии, и 50% от пациентов, которых предположительно считали со статусом отсутствия заболевания (или в этом случае не имеющих рак молочной железы). Из этой группы результаты биопсии для 200 образцов разделяли точно на 50% случаев со статусом отсутствия заболевания и 50% случаев с наличием рака молочной железы и каждую группу дополнительно разделяли на определенные возрастные группы.[0109] The performance of the OTraces BC Sera Dx test kit and the OTraces CDx Immunochemistry Instrument system ( www.otraces.com ) was evaluated in a breast cancer risk experiment. The test kit measured concentrations of five very low level cytokines and tissue markers, and the kit used a training set model that was designed as described above to calculate CS1 and CSq scores for breast cancer risk assessment. The proteins measured were IL-6, IL-8, VEGF, TNFα and PSA. The experiment consisted of measuring approximately 300 patient samples, separated by approximately 50% between biopsy-diagnosed breast cancers and 50% of patients presumed to be disease-free (or in this case free of breast cancer). From this group, the biopsy results for 200 specimens were divided exactly into 50% of cases with no disease status and 50% of cases with breast cancer, and each group was further divided into specific age groups.

[0110] Результаты анализа образцов применяли для разработки модели обучающей выборки, которая позволяла прогнозировать статус наличия заболевания. Оставшиеся образцы (приблизительно 110) затем обрабатывали как слепые образцы с помощью модели обучающей выборки для получения конечных цифровых оценок риска наличия рака и такие оценки передавали в основной клинический центр. Такие оценки слепых образцов затем анализировали в клиническом центре для оценки клинической точности результатов.[0110] The results of the sample analysis were used to develop a training sample model that predicted disease status. The remaining samples (approximately 110) were then processed as blanks using a training sample model to obtain final numerical estimates of the risk of having cancer and these estimates were transmitted to the main clinical center. These blank scores were then analyzed at the clinical center to evaluate the clinical accuracy of the results.

[0111] Для этого эксперимента были разработаны две диагностические модели и названы в настоящем описании алгоритмом I и алгоритмом II. Для обоих алгоритмов использовали способ анализа пространственной близости. Возраст участников использовали не как независимую переменную, а как метапеременную для преобразования измеренных концентраций в новые независимые переменные, называемые в настоящем описании показателями близости, которые непосредственно применяли в корреляционном анализе. Разница между алгоритмом I и алгоритмом II заключалась в количестве новых независимых переменных, используемых при определении корреляции. В алгоритме I использовали пять переменных показателей близости в десятимерном кластерном пространстве. Нижний предел алгоритма I имел два измерения, и он был основан не на конкретном способе, а на том факте, что вообще определяют корреляцию. При корреляции, по сути, было задействовано более одного измерения. Верхний предел алгоритма I теоретически представлял собой бесконечность, но практически был ограничен временем расчета и статистической мощностью исследования. Кластерное пространство можно было увидеть невооруженным взглядом с помощью проекции или срезов такого многомерного пространства, позволяющих видеть его в двухмерной двухмаркерной плоскости. В соответствии с этим иллюстративным вариантом осуществления алгоритма I, есть десять таких плоскостей.[0111] Two diagnostic models were developed for this experiment and are referred to herein as Algorithm I and Algorithm II. For both algorithms, the spatial proximity analysis method was used. The age of the participants was not used as an independent variable, but as a metavariable to convert the measured concentrations into new independent variables, referred to herein as proximity scores, which were directly used in the correlation analysis. The difference between Algorithm I and Algorithm II was the number of new independent variables used in determining the correlation. Algorithm I used five variables of proximity measures in a ten-dimensional cluster space. The lower limit of Algorithm I had two dimensions, and it was based not on a specific method, but on the fact that correlation is generally determined. Correlation, in fact, involved more than one dimension. The upper limit of Algorithm I was theoretically infinity, but in practice it was limited by the calculation time and the statistical power of the study. The cluster space could be seen with the naked eye using a projection or slices of such a multidimensional space, allowing to see it in a two-dimensional two-marker plane. According to this exemplary embodiment of Algorithm I, there are ten such planes.

[0112] В алгоритме II предусмотрено использование в десять раз большего количества созданных независимых переменных, так чтобы было приблизительно 100 двухмаркерных плоскостей. Ожидали, что 200 образцов будет достаточно для модели обучающей выборки с тем, чтобы она достаточно близко моделировала генеральную совокупность. Вторичную или неконгруэнтную модель обучающей выборки разрабатывали на основе того же набора обучающих данных из 200 образцов. Модель обучающей выборки является основным способом оценки, применяемым для описания результатов в настоящем описании. Неконгруэнтную модель обучающей выборки применяли для вынесения арбитражного решения для оценок статуса рака, рассчитанных с помощью первичной модели обучающей выборки, которые считались нестабильными, т.е. оценок, которые оставались на области топологической нестабильности. Хотя неконгруэнтная модель обучающей выборки была несколько менее точной на слепых образцах, она все же могла выносить арбитражное решение для основной модели обучающей выборки и, таким образом, улучшать прогностическую силу.[0112] Algorithm II uses ten times as many explanatory variables as created, so that there are approximately 100 two-marker planes. It was expected that 200 samples would be enough for the training set model to closely model the population. A secondary or incongruent training set model was developed based on the same set of training data of 200 samples. The training sample model is the main estimation method used to describe the results in the present description. An incongruent training sample model was used to arbitrate cancer status scores calculated with the primary training sample model that were considered unstable, i.e. estimates that remained in the region of topological instability. Although the incongruent training set model was somewhat less accurate on blind samples, it could still arbitrate for the underlying training set model and thus improve predictive power.

[0113] Вышеупомянутый способ анализа пространственной близости обладает существенными преимуществами по сравнению с логистической регрессией в том, что его можно приспособить к сильно нелинейным тенденциям в независимых переменных, используемых для получения рассчитываемого выходного результата. Выходным результатом является либо статус наличия заболевание, либо статус отсутствия заболевания (в данном случае наличия рака или отсутствия рака), и он основан на показателях близости результатов расчета с помощью модели обучающей выборки. Недостатком этого способа является то, что сильно нелинейные области могут быть связаны с очень большими значениями крутизны топологии. Таким образом, неизвестный (или слепой) образец может находиться на резком пике или в глубокой крутой впадине, что приводит к усилению небольших ошибок в рассчитанных показателях близости. Авторами настоящего изобретения была оценена стабильность рассчитанных оценок с помощью собственного запатентованного теста на стабильность, а затем был использован алгоритм II для вынесения арбитражного решения по результатам, полученным с помощью алгоритма I, для образцов, у которых наблюдали стабильность.[0113] The above spatial proximity analysis method has significant advantages over logistic regression in that it can accommodate highly non-linear trends in the explanatory variables used to produce the calculated output. The output is either disease status or disease absence status (in this case, cancer or cancer absence) and is based on proximity scores of the results calculated using the training sample model. The disadvantage of this method is that highly non-linear regions can be associated with very large topology slopes. Thus, an unknown (or blind) sample may be at a sharp peak or in a deep steep trough, leading to amplification of small errors in the calculated proximity metrics. The present inventors evaluated the stability of the calculated scores using their proprietary stability test and then used Algorithm II to arbitrate the results obtained with Algorithm I for samples that were observed to be stable.

[0114] На фиг. 11, 12 и 13 показаны результаты, полученные с помощью алгоритма I для обучающей выборки. Сама модель состояла из 10 двухмаркерных плоскостей с 40000 точек топологии, каждую из которых оценивали на статус отсутствия заболевания и статус наличия заболевания (в данном случае рака молочной железы) с помощью способа пространственной близости. На данных фигурах показана способность модели разделять на две выборки: отсутствие рака и наличия рака. Модель должна была быть построена из очень приближенных к или предпочтительно точно 50% на 50% или очень приближенных к одному из двух статусов выходных результатов. Кроме того, способ предусматривал использование возраста в качестве преобразующей метапеременной. Образцы обучающей выборки включали образцы, распределенные по всем представляющим интерес возрастным группам. Модель (фиг. 12) для алгоритма I строили из данных, полученных от 100 здоровых женщин и 98 женщин с раком молочной железы. В сводной таблице на фиг. 12 показаны числовые результаты, где N=198 является количеством образцов. CI обозначает дающие правильные результаты образцы, а FI обозначает дающие ложные результаты образцы, и 4 образца посчитали неопределенными. Вторичную модель обучающей выборки разрабатывали для распознания четырех неопределенных образцов, которые возникли в результате применения основной модели обучающей выборки. Эта модель является неконгруэнтной моделью обучающей выборки. Данная вторичная модель использовала те же данные обучающей выборки, что и основная модель. На фиг. 13 показаны результаты расчетов неконгруэнтной моделью обучающей выборки. Алгоритм II давал 100% разделение с более 60 точками разделения.[0114] FIG. Figures 11, 12 and 13 show the results obtained with Algorithm I for the training set. The model itself consisted of 10 two-marker planes with 40,000 topology points, each of which was assessed for disease free status and disease status (in this case, breast cancer) using a spatial proximity method. These figures show the ability of the model to divide into two samples: the absence of cancer and the presence of cancer. The model had to be built from very close to or preferably exactly 50% to 50%, or very close to one of the two output statuses. In addition, the method included the use of age as a transformative metavariable. The training samples included samples distributed across all age groups of interest. The model (FIG. 12) for Algorithm I was built from data from 100 healthy women and 98 women with breast cancer. In the summary table in Fig. 12 shows numerical results where N=198 is the number of samples. CI denotes correct samples and FI denotes false samples, and 4 samples were considered indeterminate. The secondary training set model was developed to recognize the four uncertain samples that resulted from the application of the primary training set model. This model is an incongruent training sample model. This secondary model used the same training data as the main model. In FIG. 13 shows the results of calculations by the incongruent model of the training set. Algorithm II gave 100% separation with over 60 split points.

[0115] Результаты тестирования слепых образцов в исследовании рака молочной железы[0115] Blind test results in a breast cancer study

[0116] На фиг. 14 показаны результаты для слепых образцов, оцениваемых в клиническом исследовании. Из результатов видна 100% чувствительность и 97,5% специфичность. Онкологами в центре клинических исследований было установлено такое значение диагностического перехода, чтобы были правильно идентифицированы все положительные по раку молочной железы образцы. Так, два образца со статусом отсутствия заболевания были обозначены положительными на рак. С точки зрения медицины это обосновывали тем, что все образцы, оцененные как положительные, будут направлены на следующую стадию диагностики - маммографию. Многих женщин не направляли на маммографию, поскольку они жили достаточно далеко от учреждений с медицинским оборудованием. Тем не менее, их кровь можно было взять удаленно в клинической лаборатории и отправить на льду в лабораторию в крупном городе.[0116] FIG. 14 shows the results for blind samples evaluated in a clinical study. The results show 100% sensitivity and 97.5% specificity. The oncologists at the Clinical Research Center have determined the value of the diagnostic transition so that all samples positive for breast cancer are correctly identified. So, two samples with the status of the absence of the disease were designated positive for cancer. From a medical point of view, this was justified by the fact that all samples evaluated as positive would be sent to the next stage of diagnosis - mammography. Many women were not referred for mammograms because they lived quite far from facilities with medical equipment. However, their blood could be taken remotely from a clinical lab and sent on ice to a lab in a major city.

[0117] ПРИМЕР 2: применение метапеременной «возраст» для повышения точности диагностики [0117] EXAMPLE 2: use of the meta-variable "age" to improve diagnostic accuracy

[0118] В таблице 1 (приведенной ниже) показаны сведенные в таблицу результаты исследования образцов от 868 субъектов на предмет рака молочной железы.[0118] Table 1 (below) shows the tabulated results of examining samples from 868 subjects for breast cancer.

Таблица 1. Сводные данные по диагностической точности при раке молочной железыTable 1 Summary of diagnostic accuracy in breast cancer

СостояниеState ГруппаGroup Правильно выявленныеCorrectly identified Неопределенныеindefinite Неправильно выявленныеMisidentified Рак молочной железыMammary cancer 495495 98,0%98.0% 1,0%1.0% 1,0%1.0% Здоровые женщиныhealthy women 373373 98,0%98.0% 0,5%0.5% 1,5%1.5%

[0119] В таблице 2 (приведенной ниже) показаны результаты сравнения различных способов расчета корреляции. Стандартный способ, логистической регрессии, давал лишь 82% прогностическую силу. При этом улучшался стандартный анализ пространственной близости, дававший приблизительно 88% прогностическую силу в линейной форме и 90% прогностическую силу в логарифмической форме. Описанные в настоящем описании способы с применением подходов с метапеременными и взвешиванием, нормализации стабильности топологии, группировки ответов иммунной системы и нормализации весовых коэффициентов для выполнения анализа, в сочетании с тестированием на нестабильность слепых образцов и коррекцией с помощью неконгруэнтного алгоритма, давали прогностическую силу более 97%.[0119] Table 2 (below) shows the results of comparing different methods of calculating the correlation. The standard method, logistic regression, gave only 82% predictive power. This improved the standard spatial proximity analysis, giving approximately 88% predictive power in linear form and 90% predictive power in logarithmic form. The methods described herein, using metavariable and weighting approaches, topology stability normalization, immune system response pooling, and analysis weight normalization, combined with blind instability testing and correction with a non-congruent algorithm, yielded predictive power greater than 97%. .

Таблица 2. Сравнительная прогностическая сила результатов расчетов корреляции заболеванийTable 2. Comparative predictive power of the results of calculations of the correlation of diseases

Figure 00000001
Figure 00000001

[0120] ПРИМЕР 3: применение метапеременной «возраст» для повышения точности диагностики в исследовании рака яичников [0120] EXAMPLE 3: application of the metavariable "age" to improve diagnostic accuracy in an ovarian cancer study

[0121] В таблице 3 (ниже) показаны результаты исследования 107 женщин с раком яичников или без рака яичников с помощью способа метапеременных, описанного в вариантах осуществления настоящего изобретения. В этом исследовании не использовали все улучшения прогностической силы, описанные в настоящем описании, но при этом все же достигали относительно превосходящей прогностической силы, составлявшей приблизительно 95%.[0121] Table 3 (below) shows the results of a study of 107 women with or without ovarian cancer using the metavariable method described in the embodiments of the present invention. This study did not utilize all of the improvements in predictive power described herein, but still achieved a relatively superior predictive power of approximately 95%.

Таблица 3. Сводные данные по диагностической точности при раке яичниковTable 3 Summary of diagnostic accuracy in ovarian cancer

СостояниеState ГруппаGroup Правильно выявленныеCorrectly identified Неопределенныеindefinite Неправильно выявленныеMisidentified Рак яичниковovarian cancer 5151 94,1%94.1% 3,9%3.9% 0,0%0.0% Здоровые женщиныhealthy women 5656 96,4%96.4% 3,6%3.6% 0,0%0.0%

[0122] ПРИМЕР 4: применение метапеременной «возраст» для повышения точности диагностики при раке предстательной железы [0122] EXAMPLE 4: application of the metavariable "age" to improve the accuracy of diagnosis in prostate cancer

[0123] В таблице 4 (ниже) показаны результаты исследования 259 мужчин, страдающих раком предстательной железы или доброкачественной гиперплазией предстательной железы (BPH), с помощью способа метапеременных, описанного в настоящем описании. В этом исследовании также не использовали все улучшения прогностической силы, описанные в настоящем документе, но при этом все же достигали относительно превосходящей прогностической силы, составлявшей приблизительно 94%. Следует отметить, что BPH является наиболее распространенным патологическим состоянием, которое дает ложноположительные результаты в текущем тесте на PSA при определении рака предстательной железы. Мужчины с BPH имеют приблизительно 4 из пяти положительных результатов при традиционной диагностике рака предстательной железы, в результате чего большинство биопсий рака предстательной железы являются отрицательными. Способ метапеременных позволяет исправить эти ошибочные диагнозы, как рассмотрено выше.[0123] Table 4 (below) shows the results of a study of 259 men suffering from prostate cancer or benign prostatic hyperplasia (BPH) using the metavariable method described herein. This study also did not use all of the improvements in predictive power described herein, but still achieved a relatively superior predictive power of approximately 94%. It should be noted that BPH is the most common pathological condition that gives false positive results in the current PSA test for prostate cancer. Men with BPH have approximately 4 out of five positive results on conventional prostate cancer diagnosis, resulting in the majority of prostate cancer biopsies being negative. The metavariable method allows these misdiagnoses to be corrected, as discussed above.

Таблица 4. Сводные данные по диагностической точности при раке предстательной железыTable 4 Summary of diagnostic accuracy in prostate cancer

СостояниеState ГруппаGroup Правильно выявленныеCorrectly identified Неопределенныеindefinite Неправильно выявленныеMisidentified Рак предстательной железыprostate cancer 111111 93,70%93.70% 0,90%0.90% 5,40%5.40% Доброкачественная гиперплазия/гипертрофия предстательной железыBenign prostatic hyperplasia/hypertrophy 148148 95,90%95.90% 0,00%0.00% 4,10%4.10%

[0124] Для вышеуказанных результатов, указанных в примерах 3 и 4 (для рака яичника и рака предстательной железы соответственно), не использовали способы метапеременных или корректировки влияния (LOD, подсовокупности, группы и нестабильность), а также способ определения стабильности у слепого образца.[0124] For the above results in Examples 3 and 4 (for ovarian cancer and prostate cancer, respectively), no metavariable or influence adjustment methods (LOD, subsets, groups, and instability) were used, nor was the blinded stability method used.

[0125] Для дополнительного улучшения прогностической силы эти концентрации, скорректированные по возрасту или группе, ограничивали условием для их нормализации и уменьшения или устранения смещения в пространстве (также известного как пространственное смещение) при кластеризации многомерных графиков сгруппированных маркеров для анализа пространственной близости. См., например, фиг. 15, на которой представлена двухмаркерная плоскость для IL-6 и VEGF. Для диагностической панели тестов на рак молочной железы по пяти биомаркерам было десять таких плоскостей. В этом случае рассчитанные значения показателя близости нормализовали и смещали для получения произвольных значений от нуля до двадцати, при этом вылетающие значения очень повышенных концентраций подвергали высокой степени сжатия.[0125] To further improve predictive power, these age- or group-adjusted concentrations were constrained to normalize them and reduce or eliminate spatial bias (also known as spatial bias) when clustering multivariate clustered marker plots for spatial proximity analysis. See, for example, FIG. 15 showing a two marker plane for IL-6 and VEGF. For the diagnostic panel of tests for breast cancer on five biomarkers, there were ten such planes. In this case, the calculated values of the proximity index were normalized and biased to obtain arbitrary values from zero to twenty, while the outlier values of very high concentrations were subjected to a high degree of compression.

[0126] Каждую из двухмаркерных проекций многомерных маркерных плоскостей на одном и том же нормализованном расстоянии относительно концентраций, полученных в результате анализа с использованием возраста/группы, сжимали и нормализовали относительно скорректированных по возрасту средних, а также скорректированных по возрасту (или всей совокупности) подгрупп.[0126] Each of the two-marker projections of the multidimensional marker planes at the same normalized distance relative to the concentrations derived from the age/group analysis was compressed and normalized to the age-adjusted means as well as age-adjusted (or population) subgroups .

[0127] Улучшения прогностической силы модели обучающей выборки с помощью корректируемых уровней влияния на двухмаркерной плоскости [0127] Improving the Predictive Power of the Training Sample Model with Adjustable Influence Levels on the Two-Marker Plane

[0128] Как правило, двухмаркерную плоскость оценивали двоичными числами для статуса отсутствия заболевания и статуса наличия заболевания (например, +1 и -1). Описанный в настоящем документе способ с использованием показателей близости можно изменить, дополнительно улучшив прогностическую силу, путем выборочной корректировки уровней влияния у этих двух двоичных чисел. Приведенные ниже способы были реализованы в модели обучающей выборки и после их создания зафиксированы в данной модели.[0128] Typically, the two-marker plane was evaluated with binary numbers for disease-free status and disease status (eg, +1 and -1). The proximity metric method described herein can be modified to further improve predictive power by selectively adjusting the influence levels of the two binary numbers. The following methods were implemented in the training sample model and, after their creation, were fixed in this model.

[0129] На фиг. 16 и 17 показаны проекции одной двухмаркерной плоскости для случая пяти биомаркеров, применяемых для прогнозирования наличия заболевания, в данном случае рака молочной железы, с помощью пяти маркеров: IL-6, IL-8, TNFα, VEGF и PSA. На фиг. 16 показана модель обучающей выборки с данными, применяемыми для оценки точек сетки на графике с помощью способа анализа пространственной близости. На фиг. 17 показана модель обучающей выборки без данных. Она является моделью обучающей выборки. Данные обучающей выборки, использованные для создания модели, не были нужны, поскольку оценивали каждую из 40000 точек сетки, а слепой образец оценивали путем его размещения на сетке. На топологии можно было видеть красный положительный сигнал в случае наличия рака, а синий сигнал означал отрицательный по наличию рака статус. При расчете общей оценки в этом случае точки на сетке со статусом отсутствия заболевания задавали равными +1, а точки на сетки со статусом наличия заболевания (рака) задавали равными -1. Каждый двойной маркер в этом примере с пятью биомаркерами анализировали в пятиортогональном пространстве, для которого на фиг. 16 представлена одна проекция в двух измерениях. На этом графике показана топология различных подгрупп ответа иммунной системы. В этом случае все точки сетки (2000×2000 или 40000 в данном случае) оценивали обычным способом, и назначенное значение равно -1 для положительного статуса наличия заболевания (рака молочной железы), а для статуса отсутствия заболевания равно +1. Эту двухмаркерную плоскость нормализовали с помощью расстояния к показателю близости и метапеременной возраста, как отмечено выше.[0129] FIG. 16 and 17 show projections of one two-marker plane for the case of five biomarkers used to predict the presence of a disease, in this case breast cancer, using five markers: IL-6, IL-8, TNFα, VEGF and PSA. In FIG. 16 shows a training sample model with data used to evaluate grid points on a plot using a proximity analysis method. In FIG. 17 shows the training sample model without data. It is a training set model. The training data used to create the model was not needed because each of the 40,000 grid points was evaluated, and the blind sample was evaluated by placing it on the grid. On the topology, one could see a red positive signal in the presence of cancer, and a blue signal meant a negative status for cancer. When calculating the overall score in this case, the points on the grid with the status of the absence of the disease were set equal to +1, and the points on the grids with the status of the presence of the disease (cancer) were set equal to -1. Each dual marker in this five-biomarker example was analyzed in a five-orthogonal space, for which FIG. 16 shows one projection in two dimensions. This graph shows the topology of the various immune system response subsets. In this case, all grid points (2000×2000 or 40000 in this case) were evaluated in the usual way, and the assigned value is -1 for the positive status of the presence of the disease (breast cancer), and for the status of the absence of the disease is +1. This two-marker plane was normalized with distance to proximity score and age metavariable as noted above.

[0130] На фиг. 18 показана та же двухмаркерная модель и, кроме того, группы иммунного ответа (см. фиг. 24) внутри серых областей. Влияние серых областей корректировали с учетом того факта, что каждая серая занятая область оказывала несколько иное влияние на вероятность того, что пациент имеет статус отсутствия заболевания или статус наличия заболевания. Эту корректировку можно было производить либо путем оценки человека с проверкой обучающей выборкой, либо путем строгого компьютерного многопараметрического инкрементального анализа. Эти корректировки улучшали модель обучающей выборки. Для двух выходных результатов, которые представляли собой статус наличия заболевания или статус отсутствия заболевания, создавали две отдельные двухмаркерные плоскости. В этом случае слепые точки данных в IV группе иммунного ответа с большей вероятностью указывали на статус наличия заболевания, а влияние незначительно увеличивалось (абсолютное значение) (например, при изменении оценки с -1 на -1,1). Фактическую величину этого прироста предпочтительно определяли с помощью компьютерного анализа или, возможно, с помощью строгих ручных способов. Этот способ пригоден для способа пространственной близости (также известного как псевдоконцентрации) корреляционного анализа, но для получения аналогичного результата можно использовать и другие средства. Такие способы взвешивания влияния в связи с заболеванием могут давать улучшение прогностической силы приблизительно на 1%. Это очень важно при значениях прогностической силы, превышающих 95%.[0130] In FIG. 18 shows the same two-marker model and, in addition, immune response groups (see FIG. 24) within the gray areas. The effect of the gray areas was corrected for the fact that each gray area occupied had a slightly different effect on the likelihood that a patient had disease free status or disease status. This adjustment could be made either by assessing the person with a training sample check, or by rigorous computer multivariate incremental analysis. These adjustments improved the training sample model. For the two outputs, which were disease status or disease absence status, two separate two-marker planes were created. In this case, blind data points in immunoresponse group IV were more likely to indicate disease status, and the impact increased slightly (absolute value) (eg, when the score changed from -1 to -1.1). The actual value of this increment is preferably determined by computer analysis or possibly by rigorous manual methods. This method is suitable for spatial proximity (also known as pseudo-concentration) correlation analysis, but other means can be used to obtain a similar result. Such methods of weighting impact on disease can provide an improvement in predictive power of approximately 1%. This is very important for predictive power values greater than 95%.

[0131] На фиг. 19 снова показана та же самая двухмаркерная плоскость с серой областью, обведенной кружком в комплексной области нелинейной, быстро изменяющейся топологии статуса наличия заболевания относительно статуса отсутствия заболевания. Такие области можно было выявить путем подстановки значений тестового слепого образца с включенным шумом (скажем, +/- 10%) в модель, а затем включения измеренной величины шума. Большинство из этих слепых точек практически не изменяли оценку статуса заболевания (в данном случае - рака). Тем не менее, можно было найти некоторые точки сетки, которые после такого рода корректировки шума резко переходили из оценки отсутствия заболевания в наличие заболевания. Это были области, где большинство или все двухмаркерные плоскости имели быстро меняющуюся топологию, которая перекрывала многомерные общие двухмаркерные плоскости. Путем осторожного уменьшения влияния в этих областях можно увеличить вес в нескольких релевантных двухмаркерных плоскостях, у которых зашумленные данные расположены на широкой плоскости, при этом не приближаясь к изменению границ выходных результатов. Было показано, что с помощью данного способа можно исправлять ошибочные прогнозы. В приведенном выше случае влияние красных областей, относящихся к статусу наличия рака, смещалось вниз (в абсолютном значении), например, с -1,0 до -0,9. Или же синие области, относящиеся к статусу отсутствия заболевания, смещались с +1,0 до -0,9. Уровень оптимального смещения можно было определить с помощью строгого компьютерного анализа.[0131] In FIG. 19 again shows the same two-marker plane with the gray area circled in the complex area of the non-linear, rapidly changing topology of disease status relative to disease-free status. Such areas could be identified by plugging the values of a blind test sample with noise included (say, +/- 10%) into the model, and then plugging in the measured amount of noise. Most of these blind spots did little to change the assessment of disease status (in this case, cancer). However, it was possible to find some grid points that, after this kind of noise adjustment, abruptly changed from an assessment of the absence of disease to the presence of disease. These were areas where most or all of the 2-marker planes had a rapidly changing topology that overlapped the high-dimensional common 2-marker planes. By carefully reducing the influence in these areas, you can increase the weight in several relevant two-marker planes that have noisy data on the wide plane, without coming close to changing the boundaries of the output results. It has been shown that erroneous predictions can be corrected using this method. In the above case, the influence of the red areas related to cancer status shifted downwards (in absolute value), for example from -1.0 to -0.9. Alternatively, the blue areas related to disease-free status shifted from +1.0 to -0.9. The level of optimal bias could be determined by rigorous computer analysis.

[0132] Шум анализа может оказывать влияние на точность корреляционного анализа. Этот шум может быть особенно проблематичным на уровнях в пределах или ниже предела обнаружения с помощью такого анализа. Этот шум также можно смягчить путем уменьшения влияния измеренных точек для отдельных биомаркеров, которые находятся в этих нестабильных зонах. На фиг. 20 снова показана двухмаркерная плоскость для PSA и IL-6 для диагностической панели определения рака молочной железы. Области внутри серой прямоугольной области в левом нижнем углу фигуры находятся ниже общепринятого предела обнаружения (LOD) анализа. Общепринятый LOD определяют как два стандартных отклонения 20 нулевых калибровочных стандартов плюс среднее значение двадцати нулевых калибровочных стандартов. Статистическая достоверность для таких значений на этом уровне составляет 95% в пределах двух стандартных отклонений, и, конечно, достоверность измерений снижается по мере того, как измеряемый образец становится ниже LOD. Эти данные все еще могут давать полезную информацию, но к анализу их следует применять с меньшим влиянием. В этом случае влияние на базовые точки слепого образца в серой области уменьшалось, например, с +1,0 до -0,9, для точек сетки модели обучающей выборки в пределах серой области. Это увеличивало влияние базовых точек для этого тестового образца, которые превышали предел обнаружения на своих двухмаркерных плоскостях. Вышеуказанные способы являются взаимодополняющими и могут быть использованы совместно.[0132] Analysis noise can affect the accuracy of the correlation analysis. This noise can be especially problematic at levels within or below the detection limit using such an analysis. This noise can also be mitigated by reducing the influence of measured points for individual biomarkers that are in these unstable zones. In FIG. 20 again shows the two-marker plane for PSA and IL-6 for the breast cancer diagnostic panel. Areas within the gray box in the lower left corner of the figure are below the generally accepted limit of detection (LOD) of the assay. The generally accepted LOD is defined as two standard deviations of 20 zero calibration standards plus the average of twenty zero calibration standards. Statistical confidence for such values at this level is 95% within two standard deviations, and of course the measurement confidence decreases as the measured sample goes below the LOD. These data can still provide useful information, but should be applied to the analysis with less impact. In this case, the effect on the base points of the blind sample in the gray area was reduced, for example, from +1.0 to -0.9, for grid points of the training sample model within the gray area. This increased the influence of the base points for this test sample, which exceeded the limit of detection on their two-marker planes. The above methods are complementary and can be used together.

[0133] Способы повышения прогностической силы путем тестирования слепых образцов на нестабильность [0133] Methods for improving predictive power by testing blind samples for instability

[0134] После завершения формирования и фиксации модели обучающей выборки ее применяли для расчета оценок статуса рака для слепых образцов от пациентов. Авторами настоящего изобретения было использовано два предпочтительных способа получения оценок статуса рака. В первом, называемым линейным способом (CS1), брали оценку местоположения топологии (+1 или -1), умноженную на прогностическую силу для этой двухмаркерной плоскости. Затем их складывали, масштабировали и смещали с получением оценки от 0 до 200. Вторую оценку, называемую оценкой q (CSq), рассчитывали с помощью квадратного корня из суммы квадратов для этих же значений. Согласно этому второму способу, внимание акцентировали на различиях в индивидуальных двухмаркерных оценках, и он полезен в постановке окончательного диагноза врачом.[0134] Once the training set model was completed and fixed, it was used to calculate scores of cancer status for blind patient samples. The present inventors have used two preferred methods for obtaining cancer status scores. The first, called the linear method (CS1), took the topology location estimate (+1 or -1) multiplied by the predictive power for that two-marker plane. They were then added, scaled and shifted to give a score from 0 to 200. A second score, called the q score (CSq), was calculated using the square root of the sum of squares of the same values. According to this second method, attention was focused on differences in individual two-marker scores and is useful in making a final diagnosis by the physician.

[0135] Нестабильность топологии все еще сохранялась в двухмаркерных плоскостях из-за крайне нелинейной природы способа установления корреляции с помощью пространственной близости, и ее нельзя было полностью устранить. Согласно другим аспектам настоящего изобретения, к слепому набору данных можно применять тест стабильности и методики, учитывающие включенный шум. А неконгруэнтную модель обучающей выборки можно использовать для вынесения арбитражного решения или коррекции оценок статуса рака. В случае данного аспекта настоящего изобретения для каждого набора слепых данных от пациента включали фиксированный уровень шума (например, плюс или минус 10%). Если набор слепых образцов брали от приблизительно 100 пациентов, то фактический цикл работы компьютера для создания модели обучающей выборки проводили для набора из 300 образцов, при этом каждый проводили в трех повторностях (необработанные данные плюс шум и минус шум). Полученный набор трехкратных данных затем тестировали на стабильность (a составляет -10%, b составляет +10%, а точка c является необработанными данными). В таблице 5 (ниже) показан результат теста на стабильность для данных, полученных в ходе клинического исследования. Следует отметить, что у трех образцов наблюдали очень высокую нестабильность оценок статуса рака. У всех образцов 138, 207, 34 и 29 наблюдали очень высокий показатель. Данный показатель (чем ниже, тем лучше) должен охватывать как степень сдвига оценки, так и особенно то, сдвигается ли или нет в ходе прогнозирования оценка из статуса здорового состояния в статус наличия рака или наоборот. Эти наборы данных, полученные от слепых образцов, имеют высокую степень риска быть ошибочными при постановке прогнозируемого диагноза.[0135] Topology instability still persisted in the two-marker planes due to the highly non-linear nature of the proximity correlation method, and could not be completely eliminated. In accordance with other aspects of the present invention, a stability test and techniques can be applied to a blind dataset that take into account included noise. And an incongruent training sample model can be used to make an arbitral award or adjust estimates of cancer status. For this aspect of the present invention, a fixed noise level (eg, plus or minus 10%) is included for each set of blind data from a patient. If a set of blind samples were taken from approximately 100 patients, then the actual computer run to create a training sample model was performed on a set of 300 samples, each performed in triplicate (raw data plus noise and minus noise). The resulting set of triplicate data was then tested for stability (a is -10%, b is +10%, and c is the raw data). Table 5 (below) shows the result of the stability test for the data obtained during the clinical study. It should be noted that three of the samples showed very high instability in cancer status scores. All samples 138, 207, 34 and 29 showed a very high rate. This metric (the lower the better) should capture both the degree of score shift and especially whether or not the score shifts from healthy to cancer status or vice versa during prediction. These blinded datasets have a high risk of being misleading in making a predictive diagnosis.

Таблица. Результаты теста нестабильности топологииTable. Topology instability test results

Figure 00000002
Figure 00000002

Figure 00000003
Figure 00000003

[0136] Неконгруэнтную модель обучающей выборки можно использовать для вынесения арбитражного решения по наборам данных от образцов пациентов «в группе риска», которые не прошли тест на уровень шума. Эти точки попадают в группу риска из-за неминуемого шума при измерениях, либо случайно, либо систематически связанного с чрезвычайной нестабильностью топологии, обусловленной тем фактом, что точка данных слепого образца лежит на очень крутом склоне почти на всех, если не на всех, двухмаркерных плоскостях, поэтому небольшие возмущения дают большие отклонения по результату оценки. В таблице 5 приведены образцы с включенным шумом. Каждый образец имеет три значения: 1) плюс шум, 2) минус шум и 3) необработанные данные без шума. Для этих образцов показаны оценки статуса рака, которые переходят из статуса наличия заболевания в статус отсутствия заболевания и обратно с включением +-10% шума. Данные по этим образцам в этом случае оценивали как нестабильные. Уровень нестабильности не был точно определен, и можно было вносить корректировки для различных уровней включения шума. В этом случае их корректировали на +- 10% шума и оценки стабильности, превышающей 200 (следует отметить, что оценка стабильности и оценка статуса рака представляют собой два совершенно разных числа с разными значениями).[0136] An incongruent training sample model can be used to arbitrate on datasets from "at risk" patient samples that fail a noise test. These points are at risk due to the inevitable measurement noise, either accidentally or systematically associated with extreme topology instability due to the fact that the blind sample data point lies on a very steep slope on almost all, if not all, two-marker planes. , so small perturbations give large deviations in the result of the estimate. Table 5 shows samples with noise turned on. Each sample has three values: 1) plus noise, 2) minus noise, and 3) raw data without noise. For these samples, cancer status scores are shown that go from having disease to not having disease and back again with +-10% noise included. The data for these samples in this case was assessed as unstable. The level of instability was not precisely defined and adjustments could be made for various levels of noise inclusion. In this case, they were corrected for +-10% noise and stability scores greater than 200 (it should be noted that the stability score and the cancer status score are two completely different numbers with different values).

[0137] С помощью такого неконгруэнтного второго алгоритма (алгоритм II) можно было вынести арбитражное решение по шуму результатов измерений. Используемый для определения неконгруэнтный алгоритм можно было использовать для коррекции этих наборов образцов пациентов «в группе риска», даже если он имел немного меньшую прогностическую силу, чем основной алгоритм, так как это повышало вероятность того, что точка верна. В этом случае корректировали два из них (см. фиг. 21); образец 138 имел оценку 85 статуса отсутствия и был скорректирован до 195 с помощью неконгруэнтного алгоритма (эта точка была стабильной при использовании алгоритма I), образец 34 имел оценку 102 (линейный способ) и был снова скорректирован до 198 с помощью алгоритма II. Образцы 29 и 207 не претерпевали изменений при использовании неконгруэнтного алгоритма.[0137] Using such a non-congruent second algorithm (algorithm II), an arbitration decision could be made on the noise of the measurement results. The incongruent algorithm used to determine could be used to correct these sets of "at risk" patient samples, even if it had slightly less predictive power than the main algorithm, as it increased the likelihood that the point was correct. In this case, two of them were corrected (see Fig. 21); sample 138 had a missing status score of 85 and was adjusted to 195 with the incongruent algorithm (this point was stable using Algorithm I), sample 34 had a score of 102 (linear) and was adjusted again to 198 with Algorithm II. Samples 29 and 207 did not change when using the incongruent algorithm.

[0138] В неконгруэнтной модели обучающей выборки (алгоритме II) были использованы 105 двухмаркерных плоскостей, и она была неконгруэнтной в отношении основной модели обучающей выборки (алгоритма I) в том, что те же самые образцы выглядели стабильными в тесте стабильности с помощью алгоритма II. Тестирование неконгруэнтной модели обучающей выборки выполняли точно так же, как и в случае основной модели обучающей выборки. Следует отметить, что для расчета этих оценок образцов также можно было использовать способ логистической регрессии. Алгоритм II обладает высокой прогностической силой, поэтому его и использовали. Арбитражную модель обучающей выборки можно использовать, если ее прогностическая сила меньше (но предпочтительно не меньше 50% прогностической силы), чем у основного алгоритма, при условии, что она дает относительно правильный результат без нестабильности. Следует отметить, что коррекция является важной для слепых образцов, которые не прошли тест на шум. Все эти образцы действительно имели статус наличия рака с высокими оценками. Восемь из десяти двухмаркерных плоскостей для этих образцов лежали на топологии с очень высоконестабильными точками сетки. Таким образом, оценки попадали в группу риска и действительно были неверными (одна была неверной, а другая была неопределенной и имели оценки 100/120). В этом случае был скорректирован один образец с улучшением прогностической силы с 97% до 98%, что было очень значительным снижением погрешности (на 50%). Один образец, хотя имел неопределенный статус, был изменен на статус наличия рака и также был скорректирован.[0138] The incongruent training set model (Algorithm II) used 105 two-marker planes and was incongruent with the main training set model (Algorithm I) in that the same samples appeared to be stable in the stability test with Algorithm II. Testing of the incongruent model of the training sample was performed in the same way as in the case of the main model of the training sample. It should be noted that a logistic regression method could also be used to calculate these sample scores. Algorithm II has a high predictive power, which is why it was used. The training sample arbitrage model can be used if its predictive power is less (but preferably not less than 50% of the predictive power) than that of the main algorithm, provided that it gives a relatively correct result without instability. It should be noted that the correction is important for blind samples that fail the noise test. All of these samples did indeed have cancer status with high scores. Eight of the ten two-marker planes for these samples lay on a topology with very highly unstable grid points. Thus, the scores were at risk and were indeed incorrect (one was incorrect and the other was indeterminate and had scores of 100/120). In this case, one sample was corrected with an improvement in predictive power from 97% to 98%, which was a very significant reduction in error (by 50%). One sample, although of indeterminate status, was changed to cancer status and was also adjusted.

[0139] Способ улучшения прогностической силы двоичного выходного результата с коррекцией по статусу заболевания путем исключения независимого статуса, который частично имитирует один из статусов выходного результата, полученного в основном анализе статуса заболевания [0139] A method for improving the predictive power of a disease status-adjusted binary output by eliminating an independent status that partially mimics one of the statuses of the output obtained in the main disease status analysis

[0140] Анализ пространственной близости обычно предусматривает использование трех или большего числа независимых переменных, зачастую концентрации белков в сыворотке крови пациента. Алгоритм расчета корреляции может оказывать влияние только на двоичный выходной результат, т. е. статус отсутствия заболевания или статус наличия заболевания, но он производит непрерывную оценку, что более тесно связано с вероятностью, что фактический выходной результат является двумя бинарными состояниями. В некоторых случаях существуют другие состояния, которые номинально классифицируют как статус отсутствия заболевания, которые частично имитируют статус наличия заболевания в распределениях генеральной совокупности используемых биомаркеров. В некоторых из этих случаев данный статус «MIMIC (имитирования)» отсутствия заболевания может привести к ложноположительному выходному результату корреляционного анализа. Решением для устранения такого ложноположительного результата является создание дополнительного нового корреляционного анализа, полностью отделенного от анализа статуса наличия или отсутствия заболевания. Этот новый корреляционный анализ предпочтительно предусматривает использование тех же самых измеренных данных по биомаркерам, что и в случае корреляции для статусов отсутствия или наличия заболевания, или же он может предусматривать использование некоторых или полностью иных биомаркеров. Такой новый корреляционный анализ дает в результате статус «MIMIC отсутствия заболевания» или «наличия заболевания» или, по меньшей мере, дает оценку, позволяющую сделать заключение о реальном состоянии пациента. Неопределенная или почти переходная оценка в случае анализа статуса отсутствия заболевания или наличия заболевания в сочетании с очень низкой или высокой оценкой по корреляции MIMIC отсутствия заболевания или наличия заболевания может помочь практикующему врачу улучшить заключение по статусу наличия заболевания и уменьшить количество ложноположительных оценок.[0140] The analysis of spatial proximity usually involves the use of three or more independent variables, often the concentration of proteins in the patient's blood serum. The correlation calculation algorithm can only affect the binary output, i.e. no disease status or disease status, but it produces a continuous estimate that is more closely related to the probability that the actual output is two binary states. In some cases, there are other conditions that are nominally classified as disease-free status that partially mimic disease status in the population distributions of the biomarkers used. In some of these cases, this "MIMIC (mimic)" status of the absence of disease can lead to a false positive outcome of the correlation analysis. The solution to eliminate such a false positive result is to create an additional new correlation analysis, completely separate from the analysis of the status of the presence or absence of the disease. This new correlation analysis preferably uses the same measured data for biomarkers as in the case of correlation for the absence or presence of the disease, or it may use some or completely different biomarkers. This new correlation analysis results in a "MIMIC disease free" or "disease present" status, or at least an estimate that allows a judgment to be made about the actual condition of the patient. An indeterminate or near-transitional score in the case of a disease-free or disease status analysis, combined with a very low or high score on the MIMIC correlation of disease-free or disease-positive status, can help the practitioner improve the judgment of disease status and reduce false positives.

[0141] Примером такой ситуации, когда состояние отсутствия заболевания имитирует состояние наличия заболевания, является такое незлокачественное состояние, как доброкачественная гипертрофия предстательной железы (BPH). При таком состоянии обычно будут наблюдаться высокие уровни по меньшей мере одного биомаркера, используемого для диагностики рака предстательной железы. Например, такой биомаркер, как простатоспецифический антиген (PSA), будет повышен у мужчин с ВНР, а также с раком предстательной железы. В таблице 4 показано, что дополнительный способ корреляционного анализа может помочь распознать мужчин с ВНР и мужчин с раком предстательной железы, и, аналогично, с использованием тех же биомаркеров, но иной модели обучающей выборки, можно распознать мужчин, которые предположительно находятся в статусе отсутствия заболевания, и мужчин с подтвержденным раком предстательной железы в статусе наличия заболевания. У небольшой части мужчин ложноположительный результат будет получаться в случае использования модели обучающей выборки статуса отсутствия заболевания в сравнении со статусом наличия рака, но его можно будет распознать с помощью модели обучающей выборки статуса наличия BHP в сравнении со статусом наличия рака. В этих случаях две оценки, одна - для статуса предположительно отсутствия заболевания в сравнении со статусом наличия рака, а другая - для статуса наличия BHP в сравнении со статусом наличия рака, помогут врачу или другому специалисту в области медицины решить, какую выбрать следующую стадию диагностики. Например, в случае общей оценки (в случае либо CS1, либо CSq) от 0 до 200 для обеих моделей оценка, равная 110, для «СТАТУСА ОТСУТСТВИЯ РАКА ПРЕДСТАТЕЛЬНОЙ ЖЕЛЕЗЫ ИЛИ СТАТУСА НАЛИЧИЯ РАКА ПРЕДСТАТЕЛЬНОЙ ЖЕЛЕЗЫ» означает слабую оценку для положительного статуса по раку, но в случае второй оценки, равной 30, для статуса наличия BPH или рака, она также будет указывать практикующему врачу о высокой вероятности наличия BPH, но не рака. Практикующий врач будет использовать эту дополнительную информацию вместе с другой медицинской информацией и историей болезни пациента для принятия решения о следующих стадиях в диагностике.[0141] An example of such a situation where the state of the absence of a disease mimics the state of the presence of a disease is a non-malignant condition such as benign prostatic hypertrophy (BPH). In such a condition, high levels of at least one biomarker used to diagnose prostate cancer will typically be observed. For example, a biomarker such as prostate-specific antigen (PSA) will be elevated in men with HPR as well as those with prostate cancer. Table 4 shows that an additional method of correlation analysis can help to recognize men with HRD and men with prostate cancer, and similarly, using the same biomarkers but a different training sample model, men who are presumed to be in the disease-free status can be recognized. , and men with confirmed prostate cancer in the status of having the disease. In a small proportion of men, a false positive result will be obtained using a training sample model of disease-free versus cancer status, but can be recognized by a training sample model of BHP status versus cancer status. In these cases, two scores, one for presumed disease-free versus cancer status and the other for BHP versus cancer status, will help the physician or other healthcare professional decide which next stage of diagnosis to choose. For example, in the case of an overall score (in the case of either CS1 or CSq) of 0 to 200 for both models, a score of 110 for "PROSTATE CANCER FREE STATUS OR PROSTATE CANCER PRESENT STATUS" means a weak score for positive cancer status, but in the case of a second score of 30 for BPH or cancer status, it would also indicate to the practitioner a high probability of having BPH but not cancer. The practitioner will use this additional information, along with other medical information and the patient's medical history, to decide on the next steps in diagnosis.

[0142] Подробное рассмотрение способов [0142] Detailed consideration of methods

[0143] Стадии анализа / алгоритм [0143] Analysis steps / algorithm

[0144] Процесс разработки аналитической модели в соответствии с настоящим изобретением обычно следует описанному ниже логическому пути, который проиллюстрирован на фиг. 22.[0144] The process of developing an analytical model in accordance with the present invention generally follows the logical path described below, which is illustrated in FIG. 22.

[0145] На стадии 2200 «Забор образцов у пациентов» программное обеспечение собирало большую группу образцов от пациентов с известным статусом отсутствия и наличия заболевания. Образцы, как правило, не подвергали скринингу на наличие каких-либо других не связанных патологических состояний (незлокачественных в случае новообразований), но собирали таким образом, чтобы наборы образцов выглядели статистически как генеральная совокупность.[0145] In step 2200 "Patient Sample Collection", the software collected a large group of samples from patients with known disease free and disease status. Samples were generally not screened for any other unrelated pathological conditions (non-malignant in the case of neoplasms), but were collected in such a way that the sample sets looked statistically like the population.

[0146] На стадии 2202 «Измерение концентраций биомаркеров» программное обеспечение измеряло такие параметры, как концентрации биомаркеров, с использованием способов и устройств, известных в настоящей области техники.[0146] In step 2202 "Measuring Biomarker Concentrations", the software measured parameters such as biomarker concentrations using methods and devices known in the art.

[0147] На стадии 2204 «Расчет показателя близости для каждого биомаркера» программное обеспечение рассчитывало кривые показателей близости для каждого биомаркера и устанавливало зоны для каждого из них, как показано на фиг. 25.[0147] In step 2204 "Calculate Proximity Score for Each Biomarker", the software calculated proximity scoring curves for each biomarker and set zones for each as shown in FIG. 25.

[0148] На стадии 2206, «Оценка образцов по статусу наличия или отсутствия рака» программное обеспечение запускало программу модели для оценки образцов с помощью способа определения корреляции по пространственной близости. В модели использовали уравнения сжатия или ренормализации, уникальные для каждой из 4 зон (см. Уравнение 1 ниже).[0148] In step 2206, "Assess Samples by Cancer or No Cancer Status," the software runs a model program to evaluate the samples with the proximity correlation method. The model used compression or renormalization equations unique to each of the 4 zones (see Equation 1 below).

[0149] На стадии 2208 «Тестирование и коррекция оценки» программное обеспечение тестировало индивидуальные образцы в отношении стабильности топологии и корректировало те, которые получалось правильно рассчитать с помощью неконгруэнтного алгоритма. Сначала все раковые оценки тестировали в отношении стабильности топологии обычным способом, включая плюс-минус шум на измеряемом уровне концентрации, рассчитывая оценки близости с внесенными искажениями и применяя их к основной модели пространственной близости. Если эти оценки статуса рака с внесенными искажениями смещались за заранее определенный предел, оценку статуса рака, рассчитанную с помощью первичной модели, отклоняли. Первоначальные уровни концентраций у неудачных тестов затем переводили в новые показатели близости, используя вторичную или неконгруэнтную модель. Эти новые показатели близости для этих неудачных образцов затем применяли к модели анализа корреляции по пространственной близости. Эти новые оценки статуса рака затем таким же образом тестировали с помощью вторичной модели на стабильность. Если эти образцы проходили тест на стабильность, то регистрировали, что они были проанализированы неконгруэнтной моделью. Если как первичная, так и вторичная модель были нестабильны, образец регистрировали как неопределенный.[0149] In step 2208 "Test and Correct Estimation", the software tested the individual samples for topology stability and corrected those that could be calculated correctly with the incongruent algorithm. First, all cancer scores were tested for topology stability in the usual manner, including plus or minus noise at the measured concentration level, calculating biased proximity scores and applying them to a basic spatial proximity model. If these skewed cancer status estimates skewed beyond a predetermined limit, the cancer status estimate calculated by the primary model was rejected. The initial concentration levels of the failed tests were then converted to new proximity measures using a secondary or incongruent model. These new proximity scores for these failed samples were then applied to a spatial proximity correlation analysis model. These new cancer status scores were then tested in a secondary model for stability in the same manner. If these samples passed the stability test, they were recorded as having been analyzed by the incongruent model. If both the primary and secondary models were unstable, the sample was reported as indeterminate.

[0150] Наконец, на стадии 2210 программное обеспечение выдавало рассмотренный выше результат в модели обучающей выборки, относя к категории статус наличия заболевания или статус отсутствия заболевания.[0150] Finally, at step 2210, the software outputted the result discussed above in the training sample model, categorizing the status of having a disease or the status of not having a disease.

[0151] Устройства и реагенты, применяемые для валидационного исследования рака молочной железы: описание тестовой платформы[0151] Devices and reagents used for breast cancer validation study: test platform description

[0152] Система OTraces CDx Instrument [0152] OTraces CDx Instrument System

[0153] Данные теста, включенные для приведенной ниже части и для большей части работы, рассмотренной выше, измеряли на устройствах и с реагентами, которые указаны ниже. Данные обрабатывали в системе OTraces LEVIS или, в некоторых случаях, расчеты проводили с помощью программного обеспечения для ПК. Все вычислительное программное обеспечение было написано и валидировано компанией OTraces Inc. Специалист в настоящей области техники без труда поймет, что для получения аналогичных результатов можно применять другие эквивалентные аппаратные средства, устройства и реагенты.[0153] The test data included for the portion below and for most of the work discussed above were measured on the devices and reagents listed below. Data were processed in the OTraces LEVIS system or, in some cases, calculations were performed using PC software. All computing software has been written and validated by OTraces Inc. One skilled in the art will readily appreciate that other equivalent hardware, devices, and reagents may be used to obtain similar results.

[0154] Система CDx Instrument основана на системе MicroLab Starlet от компании Hamilton. Она индивидуализирована посредством программы для передачи способов иммуноанализа OTraces высокоскоростному роботу для проведения ИФА от компании Hamilton. Компания Hamilton является уважаемой компанией, которая по всему миру продает автоматизированные системы работы с жидкостями, в том числе систему MicroLab Starlet. Устройство индивидуализировано компанией Hamilton для OTraces с целью обеспечения полной автоматизации. Система OTraces CDx включает встроенную систему промывки микропланшетов и планшет-ридер. Эти два дополнительных устройства позволяют системе выполнять один полный цикл из суммарно пяти иммуноанализов на тестовой панели за одну смену без вмешательства оператора после первоначальной настройки. Настроенная система выполняла 40 оценок статуса рака в день. Усовершенствования включают программное обеспечение для проведения анализа одного целевого аналита за раз. Это необходимо для возможности повторного проведения определенного теста при возникновении ошибки в ходе полного прохождения теста.[0154] The CDx Instrument system is based on the MicroLab Starlet system from Hamilton. It is customized with the OTraces immunoassay transfer software for Hamilton's high-speed ELISA robot. Hamilton is a reputable company that sells automated fluid handling systems worldwide, including the MicroLab Starlet system. The device has been customized by Hamilton for OTraces to provide full automation. The OTraces CDx system includes an integrated microplate washer and plate reader. These two additional devices allow the system to perform one complete run of a total of five panel immunoassays in one shift without operator intervention after initial setup. The configured system performed 40 cancer status assessments per day. Improvements include software to analyze one target analyte at a time. This is necessary to be able to re-run a particular test if an error occurs during the full passage of the test.

[0155] Тестовый набор BC Sera DX [0155] BC Sera DX Test Kit

[0156] Данный тестовый набор включает в себя все реагенты и одноразовые устройства для проведения 120 тестовых оценок статуса рака, в том числе все буферы, блокирующие растворы, промывочный раствор, антитела и калибраторы. Усовершенствования, необходимые для полной коммерциализации этого набора, включают добавление двух контрольных образцов. Эти контроли обеспечивают независимую проверку того, что «слепой» тестовый образец дает правильную оценку статуса рака. Два контроля предназначены для получения показателя близости 50 и 150 соответственно. Программа контроля качества системы LIMS (см. ниже) проверяла правильность этих контролей, тем самым проверяя проведение отдельных тестов в эксплуатационных условиях. Тестовые наборы были собраны на заводе стандарта GMP и получили знак CE. Микротитрационный планшет предварительно был покрыты на заводе растворами антител для захвата и белка для блокировки.[0156] This test kit includes all reagents and disposable devices for performing 120 test assessments of cancer status, including all buffers, blocking solutions, wash solution, antibodies and calibrators. The improvements needed to fully commercialize this kit include the addition of two controls. These controls provide an independent check that a blinded test item is giving a correct assessment of cancer status. The two controls are designed to produce proximity scores of 50 and 150, respectively. The LIMS quality control program (see below) verified the correctness of these controls, thereby verifying that the individual tests were carried out in the field. The test kits were assembled in a GMP factory and received the CE mark. The microtiter plate was pre-coated at the factory with antibody solutions for capture and protein for blocking.

[0157] Система организации лабораторной информации (LIMS) [0157] Laboratory Information Management System (LIMS)

[0158] Все системы клинической химии, представленные на рынке на сегодняшний день, например, Roche и Abbott, включают графический интерфейс с программным обеспечением, достаточным для управления данными пациента, обеспечения контроля качества прибора и химическими операциями и облегчения идентификации тестового образца и введения его в систему для проведения теста. Эти меню интегрированы в поставляемую химическую систему. Бизнес-модель OTraces заключается в том, чтобы включить эти функции на компьютерные серверы OTraces, расположенные на предприятиях OTraces в США, и подключить прибор CDx к этим серверам через Интернет с помощью облачных технологий. Это дает несколько существенных преимуществ. 1) Программное обеспечение LIMS включает в себя FDA-совместимое архивирующее программное обеспечение, так что с данными всех циклов тестирования с каждой системы CDx, развернутой в эксплуатационных условиях, работают на серверах OTraces. С помощью обратной связи от установленной базы вводные данные от ключевых учреждений о результатах лечения пациентов позволяют OTraces собирать соответствующие требованиям FDA данные для установления рыночного равновесия FDA в США. 2) Предпочтительно, упаковка реагентов со штрих-кодом позволяет прибору и LEVIS соединять все результаты QC-тестов из заводских QC-тестов. Эти данные доступны в режиме реального времени по мере проведения тестов в эксплуатационных условиях для дальнейшей проверки результатов тестов, проведенных в эксплуатационных условиях. 3) Система CDx работает только на валидированных реагентах OTraces и, следовательно, тестовые циклы с использованием реагентов, отличных от OTraces, невозможны. Данная система представляет собой типичный пользовательский интерфейс для оператора со всеми функциями, работающими в режиме реального времени, и отчеты о пациентах становятся доступны сразу после завершения теста.[0158] All clinical chemistry systems on the market today, for example, Roche and Abbott, include a graphical interface with software sufficient to manage patient data, provide instrument quality control and chemical operations, and facilitate identification of a test sample and its introduction into test system. These menus are integrated into the supplied chemistry system. The OTraces business model is to enable these features on OTraces computer servers located at OTraces facilities in the US and connect the CDx to those servers over the Internet using cloud technology. This provides several significant benefits. 1) The LIMS software includes FDA compliant archiving software so that all test run data from each field deployed CDx system is run on OTraces servers. With feedback from the established base, input from key institutions on patient outcomes allows OTraces to collect FDA-compliant data to help FDA market balance in the US. 2) Preferably, the barcoded reagent packaging allows the instrument and LEVIS to link all QC test results from factory QC tests. This data is available in real time as field tests are performed to further validate the results of field tests. 3) The CDx system only works with validated OTraces reagents and therefore test runs using non-OTraces reagents are not possible. This system is a typical operator user interface with all real-time functions and patient reports are available immediately after the test is completed.

[0159] Поэтапный способ разработки модели обучающей выборки и расчета оценки риска показан на блок-схеме на фиг. 23. Данный способ можно реализовать в программном обеспечении в определенных вариантах осуществления настоящего изобретения. Сначала производят построение модели обучающей выборки, и ее конечный продукт позволяет получать результаты диагностики для неизвестных образцов пациентов, называемых слепыми образцами, поскольку правильный диагноз на момент анализа этих слепых образцов неизвестен. В целом, настоящее изобретение позволяет медицинскому работнику определить оценку риска, при этом работник затем рассматривает эту оценку вместе с другими факторами пациента, чтобы вынести медицинское заключение о наличии или отсутствии данного заболевания.[0159] A step-by-step method for developing a training sample model and calculating a risk score is shown in the flowchart of FIG. 23. This method can be implemented in software in certain embodiments of the present invention. First, a training sample model is built, and its final product provides diagnostic results for unknown patient samples, called blind samples, since the correct diagnosis is not known at the time of analysis of these blind samples. In general, the present invention allows the healthcare professional to determine a risk score, which the healthcare professional then considers that score, along with other patient factors, to make a medical judgment about the presence or absence of a given disease.

[0160] Стадии 2302-2318 представляют собой описание способа, с помощью которого создают модель обучающей выборки. На стадии 2302 программное обеспечение определяло требования к образцам обучающей выборки, исходя из диагностических потребностей, которые являются заранее определенными критериями, которые могут быть заданы специалистом в настоящей области техники. Например, эти критерии могут представлять собой статус наличия заболевания в сравнении со статусом отсутствия заболевания, более конкретно, например, рака молочной железы, сравнивая положительные по раку молочной железы образцы с образцами, для которых известно, что у них отсутствует рак молочной железы.[0160] Steps 2302-2318 are a description of the method by which a training sample model is created. In step 2302, the software determined training sample requirements based on diagnostic needs, which are predetermined criteria that can be specified by one of skill in the art. For example, these criteria may be disease status versus disease free status, more specifically, for example, breast cancer, comparing breast cancer positive samples with samples known to be free of breast cancer.

[0161] На стадии 2304 программа определяла подлежащие расчету метапеременные, а также подлежащие измерению независимые переменные (т.е. биомаркеры).[0161] In step 2304, the program determined the metavariables to be calculated as well as the independent variables (ie, biomarkers) to be measured.

[0162] На стадии 2306 программное обеспечение собирало образцы обучающей выборки в соответствии с параметрами, установленными на стадиях 2302-2304. На стадии 2308 программное обеспечение определяло измеренные независимые переменные и метапеременные, а также правильный диагноз заболевания, связанный с этими результатами, используя подходящее медицинское оборудование для каждого образца обучающей выборки. На стадии 2310 программное обеспечение рассчитывало двухмаркерную топологию для каждого образца и обучающей выборки. На стадии 2312 программное обеспечение рассчитывало оптимальные весовые корректировки или корректировки влияния двухмаркерной топологии для следующего: (1) неопределенностей предела обнаружения, например, образцов для которых было определено, что они ниже классического предела обнаружения; (2) нестабильностей экстремальной топологии, например, определенных с помощью способов, описанных в абзаце [0111] и в отношении рассмотренной выше стабильности топологии. На стадии 2314 расчеты считали завершенными и основную обучающую модель фиксировали для диагностики заболевания (например, рака). На стадии 2316 программное обеспечение разрабатывало вторичную обучающую модель с использованием фундаментально неконгруэнтного моделирования корреляции (см., например, фиг. 10). На стадии 2318 расчеты считали завершенными и зафиксированными, поскольку создавали вторичную обучающую модель для диагностики статуса наличия заболевания. Таким образом был создан набор обучающих моделей для диагностики заболевания.[0162] In step 2306, the software collected training samples according to the parameters set in steps 2302-2304. In step 2308, the software determined the measured explanatory variables and metavariables, as well as the correct disease diagnosis associated with those results, using the appropriate medical equipment for each training sample. In step 2310, the software calculated a two-marker topology for each sample and training set. In step 2312, the software calculated optimal weight or two-marker topology effect corrections for the following: (1) detection limit uncertainties, eg, samples that were determined to be below the classical detection limit; (2) extremal topology instabilities, such as those determined using the methods described in paragraph [0111] and in relation to the topology stability discussed above. At step 2314, the calculations were considered complete and the main training model was fixed for diagnosing a disease (eg, cancer). In step 2316, the software developed a secondary training model using fundamentally incongruent correlation modeling (see, for example, FIG. 10). At step 2318, the calculations were considered complete and fixed, since a secondary training model was created to diagnose the status of the presence of the disease. Thus, a set of training models for diagnosing the disease was created.

[0163] Стадии 2320-2338 представляют собой описание, как программное обеспечение по настоящему изобретению использовало разработанную обучающую модель для диагностики заболеваний, таких как рак. На стадии 2320 программное обеспечение измеряло независимые переменные слепого образца, такие как биомаркеры, с использованием медицинского оборудования, аналогичного тому, которое было использовано при разработке модели обучающей выборки. На стадии 2322 программное обеспечение получало или измеряло и рассчитывало метапеременные данные для каждого слепого образца. На стадии 2324 программное обеспечение использовало эти данные для вычисления начальной оценки риска наличия заболевания для слепого образца с помощью первичной модели обучающей выборки. На стадии 2326 программное обеспечение определяло стабильность топологии оценки слепого образца от пациента. На стадии 2328 программное обеспечение проверяло, прошла ли оценка тест по стабильности топологии. Критерии для пройдено/не пройдено подразумевали определение того, насколько велика ошибка, вызванная нестабильностью, и, что наиболее важно, меняется ли оценка от положительного к отрицательному статусу наличия заболевания или наоборот. На стадии 2330, если было обнаружено, что оценкой был пройден тест на стабильность, выводился и/или публиковался отчет о диагностике и оценка риска. Если оценкой не был пройден тест, то на стадии 2332 программное обеспечение дополнительно рассчитывало вторичную оценку риска наличия заболевания с помощью неконгруэнтного алгоритма способа (алгоритма II), который описан выше. На стадии 2334 программное обеспечение снова проверяло, прошла ли оценка тест по стабильности топологии. На стадии 2336, если было обнаружено, что оценкой был пройден тест на стабильность, выводился и/или публиковался отчет о диагностике и оценка риска. Если оценкой все еще не был пройден тест, на стадии 2338 программное обеспечение готовило отчет о диагностике и выводило и/или публиковало результаты как неопределенные относительно того, имеет ли место заболевание.[0163] Steps 2320-2338 are a description of how the software of the present invention used the developed training model to diagnose diseases such as cancer. In step 2320, the software measured blind explanatory variables, such as biomarkers, using medical equipment similar to that used to develop the training sample model. In step 2322, the software received or measured and calculated the metavariable data for each blank. In step 2324, the software used this data to calculate an initial disease risk score for the blind sample using the primary training sample model. In step 2326, the software determined the topology stability of the blind sample evaluation from the patient. In step 2328, the software checked whether the evaluation passed the topology stability test. The pass/fail criteria involved determining how large the error is due to instability and, most importantly, whether the score changes from a positive to a negative disease status or vice versa. In step 2330, if the assessment was found to have passed the stability test, a diagnostic report and risk assessment was output and/or published. If the score failed the test, then at step 2332 the software additionally calculated a secondary risk score for the presence of the disease using the incongruent method algorithm (Algorithm II) as described above. At step 2334, the software again checked whether the evaluation passed the topology stability test. In step 2336, if the assessment was found to have passed the stability test, a diagnostic report and risk assessment was output and/or published. If the evaluation still failed the test, at step 2338 the software generated a diagnostic report and output and/or publish the results as indeterminate as to whether a disease is present.

[0164] Показатели близости, рассчитанные согласно настоящему изобретению, имеют несколько уникальных свойств. В соответствии с определенными вариантами осуществления, средние значения белков включены в логарифмическое сжатие в виде соотношения к фактической измеренной концентрации для пациента с данным возрастом. По сути, с помощью данного способа создавали веер схожих уравнений, каждое из которых уникально, например, по возрасту в годах для совокупности пациентов. Каждый неизвестный образец получал уникальное уравнение для возраста образца.[0164] Proximity scores calculated according to the present invention have several unique properties. In accordance with certain embodiments, mean protein values are included in the log compression as a ratio to the actual measured concentration for a patient of a given age. In essence, this method created a fan of similar equations, each of which is unique, for example, in terms of age in years for a population of patients. Each unknown sample received a unique equation for the age of the sample.

[0165] Можно было использовать соотношение, которое включало в себя скорректированное по возрасту среднее значение для статуса отсутствия заболевания и статуса наличия заболевания и фактическую концентрацию в образце пациента, в приведенной далее форме.[0165] A ratio could be used that included the age-adjusted mean for disease free status and disease status, and the actual concentration in the patient sample, in the following form.

[0166] УРАВНЕНИЕ 1 [0166] EQUATION 1

[0167] Показатель близости = (K) * ln ((Ci/C(c или h))-(Ch/Cc))2, где:[0167] Proximity index = (K) * ln ((C i /C (c or h) )-(C h /C c )) 2 where:

[0168] K = пропорциональная константа;[0168] K = proportional constant;

[0169] Ci = измеренная концентрация фактического аналита пациента;[0169] C i = measured concentration of the patient's actual analyte;

[0170] C(C или h) = скорректированная по возрасту пациента концентрация аналита этого пациента; значение корректируют в зависимости от того, имеет ли пациент статус отсутствия заболевания или наличия заболевания;[0170] C( C or h ) = age-adjusted patient analyte concentration of that patient; the value is adjusted depending on whether the patient has the status of the absence of the disease or the presence of the disease;

[0171] Ch = скорректированная по возрасту пациента средняя концентрация аналита пациента со статусом отсутствия заболевания; и[0171] C h = age-adjusted mean analyte concentration of a patient with no disease status; and

[0172] Cc = скорректированная по возрасту пациента средняя концентрация аналита пациента со статусом наличия заболевания.[0172] C c = patient age-adjusted mean analyte concentration of a patient with disease status.

[0173] Данное Уравнение 1 предназначено для корректировки сжатия и расширения в зависимости от зоны группы с положительной регуляцией, как показано на фиг. 25. Приведенная выше формула для показателя близости выполняет это требование; однако можно реализовать и многие другие формы данного уравнения, что будет очевидно специалистам в настоящей области техники. Например, Ci, Ch и Cc могут быть фактическими концентрациями или концентрационными расстояниями от среднего значения, медианного значения или расстоянием от медиан подгруппы или краев динамического диапазона, как рассмотрено выше. Другие варианты этого расчета приведены ниже в виде Уравнений 2 и 3.[0173] This Equation 1 is designed to adjust contraction and expansion depending on the zone of the positively regulated group, as shown in FIG. 25. The above formula for the proximity indicator fulfills this requirement; however, many other forms of this equation can be implemented as will be apparent to those skilled in the art. For example, C i , C h and C c can be actual concentrations or concentration distances from the mean, median, or distance from subgroup medians or dynamic range edges, as discussed above. Other variations of this calculation are given below as Equations 2 and 3.

[0174] УРАВНЕНИЕ 2 [0174] EQUATION 2

[0175] Показатель близости = K * ln (((концентрация у неизвестного образца) / (концентрация со средним значением для статуса наличия рака при возрасте пациента, у которого взят неизвестный образец)) - ((концентрация со средним значением статуса отсутствия рака при возрасте пациента, у которого взят неизвестный образец) / (концентрация со средним значением для статуса наличия рака при возрасте пациента, у которого взят неизвестный образец)))2.[0175] Proximity index = K * ln (((concentration in unknown sample) / (concentration with average value for cancer status at the age of the patient from whom the unknown sample was taken)) - ((concentration with average value for cancer absence status at age of the patient from whom the unknown sample was taken) / (concentration with the average value for the status of having cancer at the age of the patient from whom the unknown sample was taken))) 2 .

[0176] Данное уравнение дает отрицательную бесконечность (натуральный логарифм нуля), если значение неизвестного образца равно среднему значению статуса отсутствия рака со значением возраста пациентов, у которых взяты неизвестные образцы. Ее заменяют в фактическом уравнении на заданное значение, например 2, как показано на фиг. 25. Другими словами, программным обеспечением тестировались значения вне предустановленного диапазона и сбрасывались до значения на пределе предустановленного диапазона. [0176] This equation yields negative infinity (the natural logarithm of zero) if the value of the unknown sample is equal to the mean of the cancer-free status with the value of the age of the patients from whom the unknown samples were taken. It is replaced in the actual equation with a given value, such as 2, as shown in FIG. 25. In other words, the software tested values outside the preset range and reset to a value at the limit of the preset range.

[0177] УРАВНЕНИЕ 3 [0177] EQUATION 3

[0178] Показатель близости = K * ln (((концентрация у неизвестного образца) / (концентрация со средним значением для статуса отсутствия рака при возрасте пациента, у которого взят неизвестный образец)) - ((концентрация со средним значением статуса наличия рака при возрасте пациента, у которого взят неизвестный образец) / (концентрация со средним значением для статуса отсутствия рака при возрасте пациента, у которого взят неизвестный образец)))2.[0178] Proximity index = K * ln (((concentration in unknown sample) / (concentration with mean value of cancer-free status at the age of the patient from whom the unknown sample was taken)) - ((concentration with the mean value of cancer-free status at age of the patient from whom the unknown sample was taken) / (concentration with the average value for the cancer-free status at the age of the patient from whom the unknown sample was taken))) 2 .

[0179] Уравнение 3 дает натуральный логарифм нуля, т.е. отрицательную бесконечность, если значение неизвестного образца равно среднему значению статуса наличия рака для такого значения возраста пациента, у которого взят неизвестный образец. Данный вариант осуществления уравнения используют, если неизвестный образец имеет значение, превышающее среднюю концентрацию между средними значениями статусов наличия или отсутствия рака, при возрасте пациента, у которого взят неизвестный образец (предположительное наличие рака). В этой ситуации все уравнение обращается, таким образом, в положительную бесконечность, если неизвестный образец имеет среднее значение статуса наличия рака для значения его возраста. Данную бесконечность заменяют в фактическом уравнении на заданное значение, например, 18. На графике на фиг. 25 показано семейство уравнений, которые приводят к представляющему интерес возрастному диапазону. Уравнения независимо работают на каждой из четырех зон, показанных на фиг. 25. Этими зонами являются: 1) ниже среднего значения для совокупности со статусом отсутствия заболевания; (2) выше среднего значения статуса отсутствия заболевания и ниже производной средней точки между средним значением статуса отсутствия заболевания и статуса наличия заболевания (переход из статуса отсутствия заболевания/в статус наличия заболевания); (3) между производной средней точкой между средним значением статуса отсутствия заболевания / статуса наличия заболевания и средним значением статуса наличия заболевания у совокупности; и (4) выше среднего значения для статуса наличия заболевания. Следует отметить, что эти зоны не указывают, что образцы, расположенные внутри зоны, имеют статус наличия заболевания или статус отсутствия заболевания. Истинный диагноз индивидуального образца может быть любым, и его положение, если он «неправильный», может быть обусловлено другим состоянием, которое влияет на данный биомаркер. Мы называем это протеомным шумом. Зоны лишь обозначают, как индивидуальные образцы относятся к средним значениям, и являются каркасом для сжатия или ренормализации, проводимыми, например, по Уравнению 1. Следует отметить, что каждое уравнение представляет лишь одно значение возраста, и что общий набор представляет собой множество уравнений, каждое из которых представляет одно значение возраста. Общий набор уравнений предназначен для установки значений показателя близости на одно и то же заранее определенное значение для всех возрастов, когда фактическая концентрация точно равна средним значениям. Показанные возрасты составляют 35, 50 и 65. Полный набор выглядит как веер, с одним уравнением для каждого значения возраста пациента, у которого взят неизвестный образец.[0179] Equation 3 gives the natural logarithm of zero, i.e. negative infinity if the value of the unknown sample is equal to the mean of the cancer status for the age of the patient from whom the unknown sample was taken. This embodiment of the equation is used if the unknown sample has a value greater than the average concentration between the means of the statuses of the presence or absence of cancer, at the age of the patient from whom the unknown sample was taken (presumed to have cancer). In this situation, the whole equation thus goes to positive infinity if the unknown sample has an average cancer status value for its age value. This infinity is replaced in the actual equation by a given value, eg 18. In the graph of FIG. 25 shows a family of equations that lead to the age range of interest. The equations operate independently on each of the four zones shown in FIG. 25. These areas are: 1) below the population mean with no disease status; (2) above the mean of disease free status and below the derived midpoint between the mean of disease free status and disease present status (transition from disease free/to disease status); (3) between the derivative of the midpoint between the mean disease free status/disease status and the population mean disease status; and (4) above average for disease status. It should be noted that these zones do not indicate that the samples located within the zone have the status of the presence of the disease or the status of the absence of the disease. The true diagnosis of an individual sample can be anything, and its position, if "incorrect", may be due to another condition that affects this biomarker. We call this proteomic noise. The zones only indicate how the individual samples relate to the averages, and are a framework for compression or renormalization, carried out according to Equation 1, for example. It should be noted that each equation represents only one age value, and that the total set is a set of equations, each of which represents a single age value. The general set of equations is designed to set proximity score values to the same predetermined value for all ages when the actual concentration is exactly equal to the mean values. The ages shown are 35, 50, and 65. The full set looks like a fan, with one equation for each patient's age from which the unknown sample was taken.

[0180] Показатели близости (без единиц измерения и, следовательно, не являющиеся концентрациями или уровнями), например, иллюстративно рассчитывают так, как описано выше, а затем используют на многомерном графике корреляции по пространственной близости для анализа. Кроме того, все графики нормированы к общим характеристикам распределения генеральной совокупности; средним значениям возраста у статуса отсутствия заболевания и статуса наличия заболевания (с коррекцией на возраст или без нее), медианному значению или динамическому диапазону подгрупп. Эти способы могут улучшить прогностическую силу на 5 и более процентных пунктов.[0180] Proximity scores (without units and therefore not concentrations or levels), for example, are illustratively calculated as described above and then used on a multivariate spatial proximity correlation plot for analysis. In addition, all graphs are normalized to the general characteristics of the population distribution; mean age of disease-free status and disease status (adjusted for age or not), median, or subgroup dynamic range. These methods can improve predictive power by 5 percentage points or more.

[0181] Вышеупомянутые иллюстративные варианты осуществления систем и способов по настоящему изобретению можно реализовать в программном обеспечении, работающем как на подключенном к сети, так и на не подключенном к сети аппаратном обеспечении. Иллюстративный вариант осуществления аппаратного обеспечения, используемого для реализации настоящего изобретения, описан в связи с фиг. 26. В иллюстративной системе 2600 одно или несколько периферийных устройств 2610 подключены к одному или нескольким компьютерам 2620 через сеть 2630. Примеры периферийных устройств 2610 включают смартфоны, умные часы, планшеты, носимые электронные устройства, медицинские устройства, такие как ЭКГ и мониторы кровяного давления, и любые другие устройства, собирающие данные о биомаркерах, которые известны в настоящей области техники. Сеть 2630 может быть глобальной сетью, такой как Интернет, или локальной сетью, такой как интрасеть. Из-за сети 2630 физическое местоположение периферийных устройств 2610 и компьютеров 2620 не влияет на функциональные возможности настоящего изобретения. Обе реализации описаны в настоящем документе, и, если не указано иное, предполагают, что периферийные устройства 2610 и компьютеры 2620 могут находиться в одном и том же или в разных физических местоположениях. Связь между аппаратными компонентами системы может осуществляться множеством известных способов, например, с помощью компонентов сетевого подключения, таких как модем или Ethernet-адаптер. Как периферийные устройства 2610, так и компьютеры 2620 будут включать или будут подключены к оборудованию связи. Предполагают, что связь происходит через стандартизованные протоколы производственной сети, такие как HTTP.[0181] The above exemplary embodiments of the systems and methods of the present invention can be implemented in software running on both networked and non-networked hardware. An exemplary embodiment of the hardware used to implement the present invention is described in connection with FIG. 26. In an exemplary system 2600, one or more peripheral devices 2610 are connected to one or more computers 2620 via a network 2630. Examples of peripheral devices 2610 include smartphones, smartwatches, tablets, wearable electronic devices, medical devices such as ECG and blood pressure monitors, and any other devices that collect data on biomarkers, which are known in the present field of technology. Network 2630 may be a wide area network, such as the Internet, or a local area network, such as an intranet. Because of the network 2630, the physical location of the peripherals 2610 and computers 2620 does not affect the functionality of the present invention. Both implementations are described herein, and unless otherwise noted, assume that peripherals 2610 and computers 2620 may be in the same or different physical locations. Communication between the hardware components of the system can take place in a variety of known ways, for example, using network connection components such as a modem or an Ethernet adapter. Both 2610 peripherals and 2620 computers will include or be connected to communications equipment. It is assumed that communication occurs through standardized production network protocols such as HTTP.

[0182] Каждый компьютер 2620 состоит из центрального процессора 2622, носителя 2624 данных, пользовательского устройства 2626 ввода и дисплея 2628. Примерами компьютеров, которые можно использовать, являются коммерчески доступные персональные компьютеры, вычислительные устройства с открытым исходным кодом (например, Raspberry Pi), коммерчески доступные серверы и коммерчески доступные портативные устройства (например, смартфоны, умные часы, планшеты). В соответствии с одним вариантом осуществления, каждое из периферийных устройств 2610 и каждый из компьютеров 2620 системы могут иметь программное обеспечение, связанное с установленной на нем системой. В соответствии с таким вариантом осуществления, данные по биомаркеру могут храниться локально на подключенных к сети компьютерах 2620 или, альтернативно, на одном или нескольких удаленных серверах 2640, которые доступны любому из подключенных к сети компьютеров 2620 через сеть 2630. В соответствии с альтернативными вариантами осуществления, программное обеспечение работает в виде приложения на периферийных устройствах 2610.[0182] Each computer 2620 consists of a central processing unit 2622, a storage medium 2624, a user input device 2626, and a display 2628. Examples of computers that can be used are commercially available personal computers, open source computing devices (e.g., Raspberry Pi), commercially available servers; and commercially available portable devices (eg smartphones, smartwatches, tablets). In accordance with one embodiment, each of the peripherals 2610 and each of the computers 2620 of the system may have software associated with the system installed thereon. In accordance with such an embodiment, the biomarker data may be stored locally on the networked computers 2620, or alternatively, on one or more remote servers 2640 that are accessible to any of the networked computers 2620 via the network 2630. In accordance with alternative embodiments, , the software runs as an application on 2610 peripherals.

[0183] Несмотря на что были проиллюстрированы определенные признаки описанных вариантов осуществления, специалистам в настоящей области техники теперь будут очевидны многие модификации, замены, изменения и эквиваленты. Поэтому понятно, что настоящее изобретение не ограничено конкретными раскрытыми вариантами осуществления или схемами, а скорее подразумевается как охватывающее любые изменения, адаптации или модификации, которые находятся в пределах объема и сущности настоящего изобретения, которые определены в прилагаемой формуле изобретения. Все упоминаемые в настоящем документе источники, в том числе патенты и заявки, в прямой форме включены во всей своей полноте.[0183] While certain features of the described embodiments have been illustrated, many modifications, substitutions, alterations, and equivalents will now be apparent to those skilled in the art. Therefore, it is to be understood that the present invention is not limited to the specific embodiments or schemes disclosed, but rather is intended to cover any changes, adaptations or modifications that fall within the scope and spirit of the present invention as defined in the appended claims. All sources cited herein, including patents and applications, are expressly incorporated in their entirety.

Claims (31)

1. Компьютеризованный способ диагностики заболевания, согласно которому компьютер, на котором реализуется способ, содержит один или более процессоров, содержащих память, функционально связанную с указанными одним или более процессорами, причем способ предусматривает следующие стадии:1. A computerized method for diagnosing a disease, according to which the computer on which the method is implemented contains one or more processors containing memory functionally associated with said one or more processors, and the method includes the following steps: (a) получение первого набора одного или нескольких значений концентрации первого биомаркера из первого образца пациента, причем первый образец пациента диагностирован со статусом отсутствия заболевания, причем первый биомаркер представляет собой белок интерстициальной жидкости активной опухоли, который отобран в сыворотку в качестве заместителя активности в микроокружении опухоли;(a) obtaining a first set of one or more concentration values of a first biomarker from a first patient sample, wherein the first patient sample is diagnosed with a disease-free status, wherein the first biomarker is an active tumor interstitial fluid protein that is selected in serum as a proxy for activity in the tumor microenvironment ; (b) получение второго набора одного или нескольких значений концентрации первого биомаркера из второго образца пациента, причем второй образец пациента диагностирован со статусом наличия заболевания, причем первый биомаркер представляет собой белок интерстициальной жидкости активной опухоли, который отобран в сыворотку в качестве заместителя активности в микроокружении опухоли;(b) obtaining a second set of one or more first biomarker concentration values from a second patient sample, wherein the second patient sample is diagnosed with disease status, wherein the first biomarker is an active tumor interstitial fluid protein that is selected for serum as a proxy for activity in the tumor microenvironment ; (c) расчет первого набора показателей близости из первого набора значений концентрации и второго набора показателей близости из второго набора значений концентрации; и(c) calculating a first set of proximity metrics from the first set of concentration values and a second set of proximity metrics from the second set of concentration values; and (d) расчет корреляции для первого биомаркера с диагнозом наличия заболевания из первого и второго набора значений концентрации и первого и второго набора значений показателя близости, причем корреляция представляет собой одно из простой регрессии, максимизации площади под кривой ROC, стабилизации топологии или анализа пространственной близости; и(d) calculating a correlation for a first biomarker diagnosed with a disease from the first and second set of concentration values and the first and second set of proximity score values, the correlation being one of simple regression, ROC area maximization, topology stabilization, or spatial proximity analysis; and (e) диагностику заболевания пациента с помощью рассчитанной корреляции для первого биомаркера.(e) diagnosing the disease of the patient using the calculated correlation for the first biomarker. 2. Компьютеризованный способ по п. 1, причем стадии (a) - (d) повторяют для максимум пяти биомаркеров.2. The computerized method according to claim 1, wherein steps (a) to (d) are repeated for a maximum of five biomarkers. 3. Компьютеризованный способ по п. 1, причем корреляция сочетает два или более из простой регрессии, максимизации площади под кривой ROC, стабилизации топологии и анализа пространственной близости.3. The computerized method of claim 1, wherein the correlation combines two or more of simple regression, area under the ROC curve maximization, topology stabilization, and spatial proximity analysis. 4. Компьютеризованный способ по п. 1, причем первый и второй образцы пациента включают по меньшей мере одно из образцов крови, образцов мочи или образцов ткани.4. The computerized method of claim 1, wherein the first and second patient samples include at least one of blood samples, urine samples, or tissue samples. 5. Компьютеризованный способ по п. 1, причем диагностируемое заболевание представляет собой одно из рака предстательной железы, рака молочной железы, рака легкого или рака яичника.5. The computerized method of claim 1, wherein the disease being diagnosed is one of prostate cancer, breast cancer, lung cancer, or ovarian cancer. 6. Компьютеризованный способ по п. 5, причем диагностируемое заболевание представляет собой стадию рака предстательной железы, рака молочной железы, рака легкого или рака яичника на основании оценки по шкале Глисона.6. The computerized method of claim 5, wherein the disease being diagnosed is the stage of prostate cancer, breast cancer, lung cancer, or ovarian cancer based on the Gleason score. 7. Компьютеризованный способ по п. 6, причем первый и второй образцы пациента содержат данные о стадии рака, и причем данные о стадии рака категоризируют на множество двоичных групп.7. The computerized method of claim 6, wherein the first and second patient samples comprise cancer staging data, and wherein the cancer staging data is categorized into a plurality of binary groups. 8. Компьютеризованный способ по п. 7, в котором оценивают каждую двоичную группу.8. Computerized method according to claim 7, in which each binary group is evaluated. 9. Компьютеризованный способ по п. 1, причем биомаркеры выбраны из функциональной группы цитокинов, и причем функциями цитокинов являются по меньшей мере три из провоспалительного, противовоспалительного, противоопухолевого генеза, клеточного апоптоза и васкуляризации.9. The computerized method of claim 1, wherein the biomarkers are selected from the functional group of cytokines, and wherein the functions of the cytokines are at least three of pro-inflammatory, anti-inflammatory, antitumor genesis, cell apoptosis, and vascularization. 10. Компьютеризованный способ по п. 1, причем первый биомаркер представляет собой VEGF.10. The computerized method of claim 1, wherein the first biomarker is VEGF. 11. Сервер для диагностики заболевания, содержащий:11. Server for diagnosing a disease, containing: центральный процессор и носитель данных, содержащий хранящиеся на нем инструкции, которые при их исполнении процессором побуждает сервер:a central processing unit and a storage medium containing instructions stored on it, which, when executed by the processor, causes the server to: (a) получать первый набор одного или нескольких значений концентрации первого биомаркера из первого образца пациента, причем первый образец пациента диагностирован со статусом отсутствия заболевания, причем первый биомаркер представляет собой белок интерстициальной жидкости активной опухоли, который отобран в сыворотку в качестве заместителя активности в микроокружении опухоли;(a) obtain a first set of one or more concentration values of a first biomarker from a first patient sample, wherein the first patient sample is diagnosed with a disease-free status, wherein the first biomarker is an active tumor interstitial fluid protein that is selected in serum as a proxy for activity in the tumor microenvironment ; (b) получать второй набор одного или нескольких значений концентрации первого биомаркера из второго образца пациента, причем второй образец пациента диагностирован со статусом наличия заболевания, причем первый биомаркер представляет собой белок интерстициальной жидкости активной опухоли, который отобран в сыворотку в качестве заместителя активности в микроокружении опухоли;(b) obtain a second set of one or more first biomarker concentration values from a second patient sample, wherein the second patient sample is diagnosed with a disease status, wherein the first biomarker is an active tumor interstitial fluid protein that is selected for serum as a proxy for activity in the tumor microenvironment ; (c) рассчитывать первый набор показателей близости из первого набора значений концентрации и второй набор показателей близости из второго набора значений концентрации;(c) calculate a first set of proximity metrics from the first set of concentration values and a second set of proximity metrics from the second set of concentration values; (d) рассчитывать корреляции для первого биомаркера с диагнозом наличия заболевания из первого и второго набора значений концентрации и первого и второго набора значений показателя близости, причем корреляция представляет собой одно из простой регрессии, максимизации площади под кривой ROC, стабилизации топологии или анализа пространственной близости; и(d) calculate correlations for a first biomarker diagnosed with a disease from the first and second set of concentration values and the first and second set of proximity score values, the correlation being one of simple regression, ROC area maximization, topology stabilization, or spatial proximity analysis; and (e) диагностировать заболевание пациента с помощью рассчитанной корреляции для первого биомаркера.(e) diagnose the patient's disease using the calculated correlation for the first biomarker. 12. Сервер по п. 11, причем стадии (a) - (d) повторяют для максимум пяти биомаркеров.12. Server according to claim 11, wherein steps (a) to (d) are repeated for a maximum of five biomarkers. 13. Сервер по п. 11, причем корреляция сочетает два или более из простой регрессии, максимизации площади под кривой ROC, стабилизации топологии и анализа пространственной близости.13. The server of claim 11, wherein the correlation combines two or more of simple regression, area under the ROC curve maximization, topology stabilization, and spatial proximity analysis. 14. Сервер по п. 11, причем первый и второй образцы пациента включают по меньшей мере одно из образцов крови, образцов мочи или образцов ткани.14. The server of claim 11, wherein the first and second patient samples include at least one of blood samples, urine samples, or tissue samples. 15. Сервер по п. 11, причем диагностируемое заболевание представляет собой одно из рака предстательной железы, рака молочной железы, рака легкого или рака яичника.15. The server of claim 11, wherein the disease being diagnosed is one of prostate cancer, breast cancer, lung cancer, or ovarian cancer. 16. Сервер по п. 15, причем диагностируемое заболевание представляет собой стадию рака предстательной железы, рака молочной железы, рака легкого или рака яичника на основании оценки по шкале Глисона.16. Server according to claim 15, wherein the diagnosed disease is the stage of prostate cancer, breast cancer, lung cancer, or ovarian cancer based on the Gleason score. 17. Сервер по п. 16, причем первый и второй образцы пациента содержат данные о стадии рака, и причем данные о стадии рака категоризируют на множество двоичных групп.17. The server of claim 16, wherein the first and second patient samples contain cancer staging data, and wherein the cancer staging data is categorized into a plurality of binary groups. 18. Сервер по п. 17, причем оценивают каждую двоичную группу.18. Server according to claim 17, each binary group being evaluated. 19. Сервер по п. 11, причем биомаркеры выбраны из функциональной группы цитокинов, и причем функциями цитокинов являются по меньшей мере три из провоспалительного, противовоспалительного, противоопухолевого генеза, клеточного апоптоза и васкуляризации.19. Server according to claim 11, wherein the biomarkers are selected from the functional group of cytokines, and wherein the functions of the cytokines are at least three of pro-inflammatory, anti-inflammatory, antitumor genesis, cell apoptosis, and vascularization. 20. Сервер по п. 11, причем первый биомаркер представляет собой VEGF.20. Server according to claim 11, wherein the first biomarker is VEGF.
RU2020109551A 2017-08-09 2018-08-09 Systems and methods for improvement of diagnostics of diseases, using measured analytes RU2782359C2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762542865P 2017-08-09 2017-08-09
US62/542,865 2017-08-09
PCT/US2018/046056 WO2019032858A1 (en) 2017-08-09 2018-08-09 Systems and methods for improving disease diagnosis using measured analytes

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2022126800A Division RU2022126800A (en) 2017-08-09 2018-08-09 SYSTEMS AND METHODS FOR IMPROVING DISEASE DIAGNOSTICS USING MEASURED ANALYTES

Publications (3)

Publication Number Publication Date
RU2020109551A RU2020109551A (en) 2021-09-10
RU2020109551A3 RU2020109551A3 (en) 2021-12-24
RU2782359C2 true RU2782359C2 (en) 2022-10-26

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2560423C2 (en) * 2008-02-08 2015-08-20 Пхадиа Аб Method, computer software product and system for providing support for clinical decision-making
US20160034651A1 (en) * 2013-03-14 2016-02-04 Otraces Inc. A method for improving disease diagnosis using measured analytes
WO2017127822A1 (en) * 2016-01-22 2017-07-27 Otraces, Inc. Systems and methods for improving disease diagnosis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2560423C2 (en) * 2008-02-08 2015-08-20 Пхадиа Аб Method, computer software product and system for providing support for clinical decision-making
US20160034651A1 (en) * 2013-03-14 2016-02-04 Otraces Inc. A method for improving disease diagnosis using measured analytes
WO2017127822A1 (en) * 2016-01-22 2017-07-27 Otraces, Inc. Systems and methods for improving disease diagnosis

Similar Documents

Publication Publication Date Title
US20240112811A1 (en) Methods and machine learning systems for predicting the likelihood or risk of having cancer
CN109196593B (en) System and method for improved disease diagnosis
US20230274838A1 (en) Method for improving disease diagnosis using measured analytes
US11664126B2 (en) Clinical predictor based on multiple machine learning models
Khene et al. Application of machine learning models to predict recurrence after surgical resection of nonmetastatic renal cell carcinoma
Li et al. Moving beyond the Cox proportional hazards model in survival data analysis: a cervical cancer study
JP2023087100A (en) Systems and methods for improving disease diagnosis using measured analytes
Huang et al. Clinical prediction models for acute kidney injury
JP2024505333A (en) Markers for early detection of colon cell proliferation disorders
JP7441853B2 (en) cancer prognosis
RU2782359C2 (en) Systems and methods for improvement of diagnostics of diseases, using measured analytes
Zeng et al. Development and validation of survival prediction model for gastric adenocarcinoma patients using deep learning: A SEER-based study
Liu et al. A novel nomogram integrated with systemic inflammation markers and traditional prognostic factors for adverse events’ prediction in patients with chronic heart failure in the Southwest of China
US20230187081A1 (en) Certainty-based medical conclusion model adaptation
Yang et al. Development and validation of peritoneal metastasis in gastric cancer based on simplified clinicopathological features and serum tumour markers
EA041076B1 (en) METHOD FOR IMPROVING DIAGNOSIS OF DISEASES USING MEASURED ANALYTES
Sheng et al. Development of a haematological indices-based nomogram for prognostic prediction and immunotherapy response assessment in primary pulmonary lymphoepithelioma-like carcinoma patients
CN117275715A (en) Prognosis and survival prediction model for young lung cancer patient
CN115404277A (en) Gene set and kit for three-negative breast cancer prognosis evaluation and application of gene set and kit