WO2023128780A1 - Method for the early diagnosis of chronic diseases in a patient - Google Patents

Method for the early diagnosis of chronic diseases in a patient Download PDF

Info

Publication number
WO2023128780A1
WO2023128780A1 PCT/RU2021/000605 RU2021000605W WO2023128780A1 WO 2023128780 A1 WO2023128780 A1 WO 2023128780A1 RU 2021000605 W RU2021000605 W RU 2021000605W WO 2023128780 A1 WO2023128780 A1 WO 2023128780A1
Authority
WO
WIPO (PCT)
Prior art keywords
patient
medical
signs
chronic diseases
social
Prior art date
Application number
PCT/RU2021/000605
Other languages
French (fr)
Russian (ru)
Inventor
Роман Эдвардович НОВИЦКИЙ
Александр Владимирович ГУСЕВ
Original Assignee
Общество с ограниченной ответственностью "К-Скай"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from RU2021139105A external-priority patent/RU2800315C2/en
Application filed by Общество с ограниченной ответственностью "К-Скай" filed Critical Общество с ограниченной ответственностью "К-Скай"
Publication of WO2023128780A1 publication Critical patent/WO2023128780A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • the invention relates to the field of medicine, as well as to the field of information and communication technologies for processing medical data, in particular to a method for early diagnosis of a patient's chronic diseases, based on cluster analysis of big data.
  • the presented solution can be used, at least in clinical practice, by doctors and other medical professionals who are involved in the diagnosis, treatment and prevention of diseases, in predicting the onset of various medical events for a patient.
  • the source of information RU 2 698 007 C1 is known from the prior art, published on August 21, 2019 and revealing an automatic medical decision support system for comorbidities.
  • the system contains an interface block, an input data block made in the format of an electronic medical record, a decision storage block for each of the therapeutic areas, a computing block, an input data inconsistency check block, a decision issuing block, a treatment recommendations block, while the interface block is made with the possibility of obtaining data from a clinician, or from databases with electronic medical records, or from "big data” repositories, while the interface block is configured to exchange data with the input data block, with the decision block and with the treatment recommendations block, while the input data block is made in the format of an electronic medical record with the possibility of transmitting the input information to the computing unit and with the possibility of storing reference models of various diseases corresponding to different human organs and systems, while the input data block is configured to transfer data to the input data inconsistency check block , and the computing unit is configured to recalculate the weight coefficient
  • the disadvantage of the proposed solution is that the diagnosis of diseases is based on the symptoms of the disease.
  • the proposed solution uses only patient health information and risk factors extracted from the patient's electronic health record. Also, the difference of the proposed solution is the definition of diagnosing chronic diseases by means of an ensemble of classifiers.
  • the technical problem to be solved by the claimed solution is the need to develop a method for early diagnosis of a patient's chronic diseases, as well as to create a set of classifiers for determining chronic diseases.
  • classifiers which is characterized in an independent claim. Additional embodiments of the present invention are presented in dependent claims.
  • the technical result consists in increasing the accuracy of early diagnosis of a patient's chronic diseases and determining the risk of developing complications of chronic diseases by using a set of classifiers, since the data obtained will be used to check for all chronic diseases for which the classifier is trained, and to assess the risks of developing chronic diseases in patient. Additional technical the result is an increase in the performance of the server infrastructure on which the method is implemented when solving the task (i.e., due to the implementation of the described method, it becomes possible to process data with obtaining results in less time), thereby reducing the load on the central processors of computing devices / servers , by reducing the number of requests processed.
  • the claimed result is achieved by using a method for early diagnosis of a patient's chronic diseases, running on a computing device containing a processor and a memory that stores instructions executed by the processor and containing the following steps: depersonalized medical data of an electronic medical record is received from a medical information system to a computing device; on the computing device, extracting medical and social signs about the patient's health status, as well as signs of risk factors through Natural language processing; the extracted features are input to the trained set of classifiers to assign the features to the probability class of chronic diseases, while training the classifier set consists in training at least one classifier for at least one chronic disease and contains the following steps: the extracted medical and social features are divided about the state of health of the patient in groups; carry out the division of the received groups into clusters according to the diseases diagnosed in them, according to the data of the electronic medical record and medical and social signs about the state of health of the patient, and combine the groups into clusters with common diagnoses; get the values of medical and social signs about the patient's health status and signs of risk factors in each cluster
  • the signs of the risk factor characterize the signs that adversely affect the health of the patient.
  • the grouping into clusters is carried out using the k-means method and / or the c-means method and / or layered clustering and / or the selection of connected components and / or the minimum spanning tree method.
  • Fig. 1 illustrates an example of diagnosing cardiovascular disease
  • various data about patients are accumulated in the course of work, including general and medical information: height, weight, blood pressure numbers, etc., registered diseases and visits to medical organizations, examination protocols, data from medical examinations, surgical interventions, etc.
  • the proposed solution is integrated with the medical information system of a medical organization through open API systems.
  • a package of depersonalized medical data of the patient is automatically generated and sent from the patient's electronic medical record.
  • Electronic medical record (electronic patient passport) - EMR; English, electronic health record - EHR) - a database containing information about the patient: the patient's physiological parameters, anamnesis, medical histories and their treatment (methods and course of treatment, prescribed drugs, etc.), which is created in a medical institution.
  • Including an electronic medical record of patients contains records of patients, including at least the following data: the date the record was added, codes for diagnoses, symptoms, procedures and drugs, a textual description of the medical history in natural language, biomedical images associated with the medical history, research results and patient analyses.
  • Risk factors are signs that characterize the negative impact on the patient's health, for example, but not limited to smoking, personal and family history, physical inactivity, obesity, etc.
  • the extracted features are input to a trained set of classifiers to assign the features to the probability class of chronic diseases, such as cardiovascular diseases, endocrinological diseases, kidney diseases, and respiratory diseases.
  • Each classifier from the set is trained to identify one chronic disease.
  • Each classifier has its own set of data, which it defines to assign features to the class of probability of having chronic diseases. If the extracted features lack one parameter from the data set of the classifier, then this classifier is not used in the evaluation. For example, a classifier for the definition of chronic heart failure will not be used in the assessment if the extracted features will not have a hemoglobin level.
  • Training a set of classifiers consists in training at least one classifier to determine at least one chronic disease (determining the risk of having atherosclerosis, chronic lung disease and chronic heart failure, chronic kidney disease, diabetes). The stages of classifier training are shown below.
  • Classifiers are trained using the scikit-learn, tensorflow, catboost, xgboost, etc. libraries. Classifiers are trained on the same data set, after which the obtained accuracy metrics and error matrices are analyzed, which makes it possible to determine the optimal algorithm for each of the tasks.
  • the set of analyzed accuracy metrics includes:
  • Data for disease prediction include:
  • demographic data (gender, age, region of residence);
  • the implementation of this technical solution allows for the initial stage of determining suspicions of diseases without using accurate medical information.
  • the probability of having chronic diseases is determined.
  • Interpretation of the output data of the classifiers occurs using a confidence threshold, above which the probability of a patient having chronic diseases is defined as high, below which it is defined as low.
  • the probability of having cardiovascular diseases is defined as high.
  • Processor at least 6 cores with a frequency of 2.0 GHz or more with support for AVX instructions; RAM: at least 24 GB;
  • Disk subsystem 100 GB of free disk space.
  • the operating system is one of the following:
  • the extracted medical and social signs about the patient's health status are divided into groups using a hierarchical clustering algorithm.
  • Groups are formed according to a limited number of characteristics: gender, age category, area of residence.
  • Age groups are distinguished (according to the classification of the World Health Organization, as well as on the basis of published clinical studies, depending on the disease, for example, for cardiovascular diseases, a step of 5 years is used within the age group of 40+ or, for example, for the study of gynecological syndromes, a fundamental the cut-off is the age of menopause), after separating the age group on the data, a joint breakdown by sex (men and women) is performed, after the breakdown by sex, the 3rd feature is added - the territory of residence (according to the EHR data).
  • groups of this type are obtained: “men aged 40-50 years old living in the Far North”, or “women aged 60-65 years old living in the Southern Federal District”. 2.
  • the obtained groups are divided into clusters according to the diseases diagnosed in them, according to the data of the electronic medical record, medical and social signs of the patient's health, and the groups are combined into clusters with common diagnoses.
  • Combining groups into clusters with a common diagnosis occurs through algorithms: the k-means method or the c-means method, or layered clustering, or the selection of connected components, or the minimum spanning tree method.
  • Clustering methods use relationship measures obtained as a result of comparing diagnoses with each other.
  • a community will be formed, characterized by the presence of common diagnoses. For example, for the group “men 40-55 years old, residents of large cities”, a subcluster “with the presence of atherosclerosis” or “having had a heart attack” will be allocated.
  • the subcluster code is passed to the model as a categorical value (for example, 0 and 1 for a heart attack, 1 for a history of a heart attack, 0 for no heart attack).
  • k-means method - the number of clusters k is determined; - k rows are randomly selected from the initial data set, which act as the initial centers of clusters; -for each data series, the nearest cluster center is determined; - centroids (centers of gravity of clusters) are calculated; - the center of the cluster is shifted to its centroid; - the steps from determining the center of gravity to shifting it to the centroid are iteratively repeated, which ensures the growth of intercluster distances, the smaller the intercluster distance, the more likely it is to refer the patient to several clusters, and if the intercluster distance is large, then the patient is assigned to a cluster with a common diagnosis.
  • C-average method a membership matrix is formed to divide objects into k clusters; - the values of the error criterion are determined; - all objects are regrouped to reduce the value of the error criterion; - the last two procedures are repeated until the changes in the matrix during the rearrangement become insignificant, which indicate the definition of a general diagnosis.
  • Minimum Spanning Tree Algorithm - a minimum spanning tree is built, and then the edges with the highest weight are sequentially removed. The criterion for belonging to the general diagnosis of the cluster will be the minimum weights.
  • Layer-by-layer clustering connected components of the graph are distinguished, the clustering algorithm forms a sequence of subgraphs that reflect the connections between clusters.
  • the distance threshold is set, by changing which you can control the depth of the cluster hierarchy. By the value of this threshold (he is calculated based on the selection of connected components at a certain level of distances between objects), a tree structure is selected.
  • the values of medical and social signs about the patient's health status and signs of risk factors in each cluster are obtained, according to which the extracted signs will be assigned to the probability classes of the presence of chronic diseases. These values are the training sample.
  • a categorical value is obtained for him, for example, 5, which will mean that the patient is assigned to the group “men 40-55 years old living in large cities.” It is this value that becomes the input parameter for risk assessment models, t .e. the input is not only data for each patient (initial data), but also the value of its cluster.
  • Each classifier from the set is trained on the basis of a multilayer (at least 3 layers) neural network of direct propagation with normalization in the input layer and / or gradient boosting, which classify the patients of each cluster to a positive or negative class (positive class according to the probability of atherosclerosis, positive class for stroke probability, negative class for chronic kidney disease, etc.).
  • a class is obtained (1 or 0, where 0 - the probability of the disease is absent, 1 - the disease will develop) of the probability of having chronic diseases, according to the ICD class, of each cluster.
  • the risk of developing a diagnosis in the age group of 20-30 years of any gender in the absence of overweight 0.1, which is interpreted as a low probability.
  • An assessment is made of the risk of developing complications of chronic diseases in patients assigned to the probability class of the presence of chronic diseases according to the ICD class. This assessment of the risk of developing complications of chronic diseases is based on machine learning algorithms (neural network, gradient boosting or random forest algorithm). Risk assessment refers to the numerical output of the model and its interpretation. For each algorithm, a certain threshold is calculated, above which the risk of an event (development of a complication) is considered high, below which it is considered low. It is possible to introduce multiple thresholds for interpretation, according to which the degree of risk is assessed as low, moderate, high, very high, etc. When training models, the algorithms learn from big datasets of patients who developed these complications and who did not.
  • regression algorithms are used that allow not only to classify patient data, such as “there is a risk of stroke” or “no risk”, but to quantify the likelihood of a complication, which the platform interprets depending on the degree of risk, for example, an assessment of the likelihood of developing in this patient, a stroke is issued in the form of "high risk”, which refers the patient to the group of increased attention.
  • a probability class for the presence of chronic diseases is obtained, according to the ICD class, and an assessment of the risk of developing complications of chronic diseases.
  • FIG. 1 illustrates an example where, based on the medical and social signs of the patient's health (such as: age - 65 years, social status - military pensioner, territory of residence - the far north, which has - hypodynamia, high cholesterol, arthritis, arterial hypertension, there was a heart attack , antihypertensive therapy was carried out, the presence of injuries), as well as on the basis of signs of risk factors (high body mass index, smoking, heart rate indicated, waist circumference), the probability of coronary heart disease was determined more than 50%, as well as the likelihood of developing diabetes mellitus 2 type more than 45%.
  • the medical and social signs of the patient's health such as: age - 65 years, social status - military pensioner, territory of residence - the far north, which has - hypodynamia, high cholesterol, arthritis, arterial hypertension, there was a heart attack , antihypertensive therapy was carried out, the presence of injuries
  • risk factors high body mass index, smoking, heart rate indicated, waist circumference
  • the degree of risk of cardiovascular disease is linked to factors such as gender, age, region of residence and social status.
  • the next step in segmenting patients will be to identify categories of patients with a burdened history (for example, patients with type 2 diabetes, patients with kidney disease, etc.) and to identify risk factors (family history, obesity, smoking, physical inactivity) within the age and sex groups.
  • a burdened history for example, patients with type 2 diabetes, patients with kidney disease, etc.
  • risk factors family history, obesity, smoking, physical inactivity
  • the classifier set contains classifiers for determining the following diseases: determining the risk of atherosclerosis, chronic lung disease and chronic heart failure, chronic kidney disease, the presence of atherosclerosis of the brachiocephalic arteries, diabetes.
  • patient s health data (high cholesterol, arthritis, arterial hypertension, there was a heart attack, antihypertensive therapy was carried out, the presence of injuries) and risk factors (family history, obesity, smoking, physical inactivity), then classifiers begin to work on these data: determining the risk of diabetes mellitus and determining the risk of coronary heart disease, the rest of the classifiers are not involved in the work, since there are no data for work for them.
  • a probability class for the presence of chronic diseases in a patient according to the ICD class is obtained.
  • the threshold value is determined for each algorithm using Youden statistics.
  • the following data are submitted to the input of the classifier set: general information about the patient (age, smoking); general medical information (weight, height, waist circumference, body mass index); medical examination data (blood pressure, heart rate, respiratory rate); information about the anamnesis (COVID-19, gout, diabetes mellitus, psoriasis, rheumatoid arthritis, atrial fibrillation); laboratory parameters (cholesterol, LDL, HDL, blood glucose, creatinine, ACT, ALT, blood protein, triglycerides); data of instrumental measurements (myocardial mass of the left ventricle).
  • the set of classifiers is based on the decision tree algorithm. To determine atherosclerosis of the brachiocephalic arteries, only the classifier for atherosclerosis of the brachiocephalic arteries is launched, the rest of the classifiers from the set are not involved in the analysis.
  • AND Decision tree analysis uses a visual and analytical decision support tool to calculate expected values (or expected benefits) of competing alternatives.
  • the structure of a tree is "leaves” and “branches”.
  • branches On the edges ("branches") of the decision tree, the features on which the objective function depends are written, the values of the objective function are written in the "leaves", and the other nodes are the features by which the cases differ.
  • To classify a new case one must go down the tree to a leaf and return the corresponding value.
  • a decision tree in general can be described by the following formula:
  • the dependent variable Y is the target variable to be analysed, classified and summarized.
  • the vector x consists of the input variables x1, x2, x3, etc., which are used to complete this task.
  • the decision tree consists of three types of nodes:
  • Probability of having plaque in the brachiocephalic arteries as a number from 0 to 1.
  • the interpretation of the output is carried out using a threshold value (0.55), the output value above which is considered as a high risk, less - as a low risk of the presence of plaques of the brachiocephalic arteries.

Abstract

A method for the early diagnosis of chronic diseases in a patient, implemented by a computer containing a processor and a memory, includes the following steps of: receiving, on a computer, anonymized electronic medical record data from a medical information system; extracting medical and social features of a patient's state of health, as well as risk factor features, using natural language processing, wherein the extracted features are sent to the input of a trained suite of classifiers for assigning the features to a probability class for the presence of chronic diseases; dividing the extracted medical and social features about the patient's state of health into groups, and dividing the resulting groups into clusters according to diseases diagnosed, wherein groups are combined into clusters with common diagnoses; obtaining values for the medical and social features of the patient's state of health and for the risk factor features in each cluster; evaluating the risk of the development of complications of chronic diseases; obtaining, at the output of the suite of classifiers, the probability class for the presence of chronic diseases and an evaluation of the risk of the development of complications.

Description

СПОСОБ РАННЕЙ ДИАГНОСТИКИ ХРОНИЧЕСКИХ ЗАБОЛЕВАНИЙ ПАЦИЕНТА METHOD FOR EARLY DIAGNOSIS OF CHRONIC DISEASES OF A PATIENT
ОБЛАСТЬ ТЕХНИКИ FIELD OF TECHNOLOGY
Изобретение относится к области медицины, а также к области информационных и коммуникационных технологий для обработки медицинских данных, в частности к способу ранней диагностики хронических заболеваний пациента, основанный на кластерном анализе больших данных. The invention relates to the field of medicine, as well as to the field of information and communication technologies for processing medical data, in particular to a method for early diagnosis of a patient's chronic diseases, based on cluster analysis of big data.
Представленное решение может быть использовано, по меньшей мере, в клинической практике врачами и другими медицинскими специалистами, которые занимаются диагностикой, лечением и профилактикой заболеваний, при прогнозе наступления различных медицинских событий для пациента. The presented solution can be used, at least in clinical practice, by doctors and other medical professionals who are involved in the diagnosis, treatment and prevention of diseases, in predicting the onset of various medical events for a patient.
УРОВЕНЬ ТЕХНИКИ BACKGROUND OF THE INVENTION
Из уровня техники известен источник информации RU 2 698 007 С1 , опубликованный 21.08.2019 года и раскрывающий автоматическую систему поддержки медицинских решений при сочетанной патологии. Система содержит блок интерфейса, блок входных данных, выполненный в формате электронной истории болезней, блок хранения решений для каждой из терапевтических областей, вычислительный блок, блок проверки на противоречивость вводимых данных, блок выдачи решений, блок рекомендаций по лечению, при этом блок интерфейса выполнен с возможностью получения данных от клинициста, или от баз данных с электронными историями болезней, или из хранилищ «больших данных», при этом блок интерфейса выполнен с возможностью обмена данными с блоком входных данных, с блоком выдачи решений и с блоком рекомендаций по лечению, при этом блок входных данных выполнен в формате электронной истории болезни с возможностью передачи вводимой информации в вычислительный блок и с возможностью хранения эталонных моделей различных заболеваний, соответствующих разным органам и системам человека, при этом блок входных данных выполнен с возможностью передачи данных в блок проверки на противоречивость вводимых данных, а вычислительный блок выполнен с возможностью пересчета весовых коэффициентов, приписанных к симптомам или признакам для каждого заболевания конкретного органа или системы организма человека, и баллов в пользу конкретных заболеваний, при этом блок интерфейса, блок входных данных и блок проверки на противоречивость, блок хранения решений, вычислительный блок, блок выдачи решений, блок рекомендаций по лечению выполнены с возможностью работы на вызовах, и/или в удаленных районах, и/или в зонах чрезвычайных ситуаций без устойчивого доступа в интернет, блок выдачи решений выполнен с возможностью вывода информации обо всех эталонных историях заболеваний с выделением признаков или симптомов, выявленных при обследовании пациента, или вывода информации о тех эталонных заболеваниях, в которых есть общие признаки или симптомы с данными, полученными в ходе обследования, и с возможностью сопоставления каждой эталонной модели заболевания с введенными данными обследования пациента; анализа достаточности данных обследования для определения заболеваний; запроса дополнительных обследований в случае невозможности определения заболевания или назначения плана лечения; группирования заболеваний по органам или системам организма человека, при этом блок рекомендаций по лечению выполнен с возможностью получения данных из блока входных данных и блока выдачи решений и вывода оптимального плана лечения на блок интерфейса. The source of information RU 2 698 007 C1 is known from the prior art, published on August 21, 2019 and revealing an automatic medical decision support system for comorbidities. The system contains an interface block, an input data block made in the format of an electronic medical record, a decision storage block for each of the therapeutic areas, a computing block, an input data inconsistency check block, a decision issuing block, a treatment recommendations block, while the interface block is made with the possibility of obtaining data from a clinician, or from databases with electronic medical records, or from "big data" repositories, while the interface block is configured to exchange data with the input data block, with the decision block and with the treatment recommendations block, while the input data block is made in the format of an electronic medical record with the possibility of transmitting the input information to the computing unit and with the possibility of storing reference models of various diseases corresponding to different human organs and systems, while the input data block is configured to transfer data to the input data inconsistency check block , and the computing unit is configured to recalculate the weight coefficients assigned to the symptoms or signs for each disease of a particular organ or system of the human body, and scores in favor of specific diseases, while the interface unit, the input data unit and the inconsistency check unit, the decision storage unit , computing unit, decision making unit, treatment recommendations unit made with the ability to work on calls, and / or in remote areas, and / or in emergency zones without stable access to the Internet, the decision block is made with the ability to display information about all reference case histories, highlighting the signs or symptoms identified during the examination of the patient , or displaying information about those reference diseases that have signs or symptoms in common with the data obtained during the survey, and with the ability to compare each reference disease model with the entered patient examination data; analysis of the sufficiency of survey data to determine diseases; requesting additional examinations if it is impossible to determine the disease or prescribe a treatment plan; grouping diseases by organs or systems of the human body, while the treatment recommendations block is configured to receive data from the input data block and the decision issuing block and output the optimal treatment plan to the interface block.
Недостатком предлагаемого решения является то, что диагностика заболеваний осуществляется на основе симптомов заболевания. В предлагаемом решении используются только сведения о здоровье пациента и факторы риска, извлеченные из электронной медицинской карты пациента. Также отличием предлагаемого решения является определение диагностирования хронических заболеваний посредством ансамбля классификаторов. The disadvantage of the proposed solution is that the diagnosis of diseases is based on the symptoms of the disease. The proposed solution uses only patient health information and risk factors extracted from the patient's electronic health record. Also, the difference of the proposed solution is the definition of diagnosing chronic diseases by means of an ensemble of classifiers.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ SUMMARY OF THE INVENTION
Технической задачей, на решение которой направлено заявленное решение, является необходимость разработки способа ранней диагностики хронических заболеваний пациента, а также создании набора классификаторов для определения хронических заболеваний., Предлагаемое решение решает заявленную техническую проблему, путем разработки способа ранней диагностики хронических заболеваний пациента на основе использования набора классификаторов, которое охарактеризовано в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения. The technical problem to be solved by the claimed solution is the need to develop a method for early diagnosis of a patient's chronic diseases, as well as to create a set of classifiers for determining chronic diseases. classifiers, which is characterized in an independent claim. Additional embodiments of the present invention are presented in dependent claims.
Технический результат заключается в повышении точности раннего диагностирования хронических заболеваний пациента и определения риска развития осложнений хронических заболеваний, за счет использования набора классификаторов, так как по полученным данным будет происходить проверка по всем хроническим заболеваниям, на которые обучен классификатор, и оценивать риски развития хронических болезней у пациента. Дополнительным техническим результатом является увеличение производительности серверной инфраструктуры, на которой реализуется способ при решении поставленной задачи (т.е. за счет реализации описываемого способа появляется возможность производить обработку данных с получением результата за меньшее количество времени), тем самым снижая нагрузку на центральные процессоры вычислительных устройств/серверов, за счет уменьшения количества обрабатываемых запросов. The technical result consists in increasing the accuracy of early diagnosis of a patient's chronic diseases and determining the risk of developing complications of chronic diseases by using a set of classifiers, since the data obtained will be used to check for all chronic diseases for which the classifier is trained, and to assess the risks of developing chronic diseases in patient. Additional technical the result is an increase in the performance of the server infrastructure on which the method is implemented when solving the task (i.e., due to the implementation of the described method, it becomes possible to process data with obtaining results in less time), thereby reducing the load on the central processors of computing devices / servers , by reducing the number of requests processed.
Заявленный результат достигается за счет применения способа ранней диагностики хронических заболеваний пациента, выполняющийся на вычислительном устройстве, содержащем процессор и память, хранящую инструкции, исполняемые процессором и содержащие следующие этапы: получают деперсонифицированные медицинские данные электронной медицинской карты от медицинской информационной системы на вычислительное устройство; на вычислительном устройстве осуществляют извлечение медицинских и социальных признаков о состоянии здоровья пациента, а также признаки факторов риска посредством Natural language processing; извлеченные признаки поступают на вход обученного набора классификаторов для отнесения признаков к классу вероятности наличия хронических заболеваний, при это обучение набора классификатора заключается в обучении по меньшей мере одного классификатора на по меньшей мере одно хроническое заболевание и содержит следующие этапы: осуществляют деление извлеченных медицинских и социальных признаков о состоянии здоровья пациента на группы; осуществляют деление полученных групп на кластеры по диагностированным у них заболеваниям, согласно данным электронной медицинской карты и медицинских и социальных признаков о состоянии здоровья пациента, причем объединяют группы в кластеры с общими диагнозами; получают значения медицинских и социальных признаков о состоянии здоровья пациента и признаков факторов риска в каждом кластере, по которым будет происходит отнесение извлеченных признаков к классам вероятности наличия хронических заболеваний; осуществляют оценку риска развития осложнений хронических заболеваний, отнесенных к классу вероятности наличия хронических заболеваний по классу МКБ.; на выходе ансамбля классификаторов получают класс вероятности наличия хронических заболеваний, по классу МКБ, и оценку риска развития осложнений хронических заболеваний. В частном варианте реализации предлагаемого решения, медицинские и социальные признаки о состоянии здоровья пациента включают в себя: пол, возраст, социальный статус, регион проживания, физиологические параметры, лабораторные показатели. The claimed result is achieved by using a method for early diagnosis of a patient's chronic diseases, running on a computing device containing a processor and a memory that stores instructions executed by the processor and containing the following steps: depersonalized medical data of an electronic medical record is received from a medical information system to a computing device; on the computing device, extracting medical and social signs about the patient's health status, as well as signs of risk factors through Natural language processing; the extracted features are input to the trained set of classifiers to assign the features to the probability class of chronic diseases, while training the classifier set consists in training at least one classifier for at least one chronic disease and contains the following steps: the extracted medical and social features are divided about the state of health of the patient in groups; carry out the division of the received groups into clusters according to the diseases diagnosed in them, according to the data of the electronic medical record and medical and social signs about the state of health of the patient, and combine the groups into clusters with common diagnoses; get the values of medical and social signs about the patient's health status and signs of risk factors in each cluster, according to which the extracted signs will be assigned to the probability classes of the presence of chronic diseases; carry out an assessment of the risk of developing complications of chronic diseases, classified as the probability class of the presence of chronic diseases according to the ICD class; at the output of the ensemble of classifiers, they obtain a probability class for the presence of chronic diseases, according to the ICD class, and an assessment of the risk of developing complications of chronic diseases. In a particular implementation of the proposed solution, medical and social signs of the patient's health include: gender, age, social status, region of residence, physiological parameters, laboratory parameters.
В другом частном варианте реализации предлагаемого решения, признаки фактора риска характеризуют признаки, негативно влияющие на здоровье пациента. In another particular embodiment of the proposed solution, the signs of the risk factor characterize the signs that adversely affect the health of the patient.
В другом частном варианте реализации предлагаемого решения, объединение групп в кластеры осуществляется посредствам метода k-средних и/или метода с- средних и/или послойная кластеризация и/или выделение связных компонент и/или метод минимального покрывающего дерева. In another particular implementation of the proposed solution, the grouping into clusters is carried out using the k-means method and / or the c-means method and / or layered clustering and / or the selection of connected components and / or the minimum spanning tree method.
ОПИСАНИЕ ЧЕРТЕЖЕЙ DESCRIPTION OF THE DRAWINGS
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи: The implementation of the invention will be described hereinafter in accordance with the accompanying drawings, which are presented to explain the essence of the invention and in no way limit the scope of the invention. The following drawings are attached to the application:
Фиг. 1 , иллюстрирует пример диагностирования сердечно-сосудистых заболеваний Fig. 1 illustrates an example of diagnosing cardiovascular disease
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ DETAILED DESCRIPTION OF THE INVENTION
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения. In the following detailed description of the implementation of the invention, numerous implementation details are provided to provide a clear understanding of the present invention. However, it will be apparent to one skilled in the art how the present invention can be used, both with and without these implementation details. In other instances, well-known methods, procedures, and components have not been described in detail so as not to unnecessarily obscure the features of the present invention.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов. Furthermore, it will be clear from the foregoing that the invention is not limited to the present implementation. Numerous possible modifications, changes, variations and substitutions that retain the spirit and form of the present invention will be apparent to those skilled in the subject area.
В медицинской информационной системе, используемой в медицинской организации, в процессе работы аккумулируются различные данные о пациентах, включая общую и медицинскую информацию: рост, вес, цифры артериального давления и т.д., зарегистрированные заболевания и обращения в медицинские организации, протоколы обследований, данные врачебных осмотров, хирургических вмешательств и др. In the medical information system used in a medical organization, various data about patients are accumulated in the course of work, including general and medical information: height, weight, blood pressure numbers, etc., registered diseases and visits to medical organizations, examination protocols, data from medical examinations, surgical interventions, etc.
Предлагаемое решение интегрируется с медицинской информационной системой медицинской организации посредством открытых API систем. The proposed solution is integrated with the medical information system of a medical organization through open API systems.
От медицинской информационной системы на вычислительное устройства, по запросу, автоматически формируется и отправляется пакет деперсонифицированных медицинских данных пациента из электронной медицинской карты пациента. From the medical information system to the computing device, upon request, a package of depersonalized medical data of the patient is automatically generated and sent from the patient's electronic medical record.
Электронная медицинская карта, (электронный паспорт пациента) - ЭМК; англ, electronic health record - EHR) - база данных, содержащая сведения о пациенте: физиологические параметры пациента, анамнез, истории болезней и их лечение (методы и ход лечения, прописанные препараты и т.п.), которая создается в медицинском учреждении. В том числе электронная медицинская карта пациентов содержит записи пациентов, включающих, по меньшей мере, следующие данные: дату добавления записи, коды диагнозов, симптомов, процедур и лекарств, текстовое описание истории болезни на естественном языке, ассоциированные с историей болезни биомедицинские изображения, результаты исследований и анализов пациентов. Electronic medical record, (electronic patient passport) - EMR; English, electronic health record - EHR) - a database containing information about the patient: the patient's physiological parameters, anamnesis, medical histories and their treatment (methods and course of treatment, prescribed drugs, etc.), which is created in a medical institution. Including an electronic medical record of patients contains records of patients, including at least the following data: the date the record was added, codes for diagnoses, symptoms, procedures and drugs, a textual description of the medical history in natural language, biomedical images associated with the medical history, research results and patient analyses.
Посредством методов Natural language processing, на вычислительном устройстве происходит извлечение медицинских и социальных признаков о состоянии здоровья пациента, а также признаков факторов риска из полученного пакета деперсонифицированных медицинских данных пациента из электронной медицинской карты пациента. By means of Natural language processing methods, on a computing device, medical and social signs about the patient's health status, as well as signs of risk factors are extracted from the received package of depersonalized medical data of the patient from the patient's electronic medical record.
Под медицинскими признаками о состоянии здоровья пациента понимаются признаки, характеризующие индекс массы тела, артериальное давление, пульсовое давление и др., лабораторные показатели (общий и клинический анализ крови, биохимия крови и т.д.). Under the medical signs of the patient's health are understood signs that characterize the body mass index, blood pressure, pulse pressure, etc., laboratory parameters (general and clinical blood tests, blood biochemistry, etc.).
Под социальными признаками о состоянии здоровья пациента понимаются признаки, характеризующие пол, возраст, социальный статус, регион проживания. Under the social signs of the patient's health status are understood signs that characterize gender, age, social status, region of residence.
Под факторами риска понимаются признаки, характеризующие негативное влияние на здоровье пациента, например, но не ограничиваясь курение, личный и семейный анамнез, гиподинамия, ожирение и др. Risk factors are signs that characterize the negative impact on the patient's health, for example, but not limited to smoking, personal and family history, physical inactivity, obesity, etc.
Извлеченные признаки поступают на вход обученному набору классификаторов для отнесения признаков к классу вероятности наличия хронических заболеваний, таких как сердечно-сосудистых заболеваний, эндокринологических заболеваний, заболеваний почек, заболеваний органов дыхания. Каждый классификатор из набора обучен на определение одного хронического заболевания. У каждого классификатора есть свой набор данных, который он определяет для отнесения признаков к классу вероятности наличия хронических заболеваний. В случае, если в извлеченных признаках отсутствует один параметр из набора данных у классификатора, то данный классификатор не используется при оценке. Например, классификатор на определение хронической сердечной недостаточности не будет использован при оценке, если в извлеченных признаках будет отсутствовать уровень гемоглобина. The extracted features are input to a trained set of classifiers to assign the features to the probability class of chronic diseases, such as cardiovascular diseases, endocrinological diseases, kidney diseases, and respiratory diseases. Each classifier from the set is trained to identify one chronic disease. Each classifier has its own set of data, which it defines to assign features to the class of probability of having chronic diseases. If the extracted features lack one parameter from the data set of the classifier, then this classifier is not used in the evaluation. For example, a classifier for the definition of chronic heart failure will not be used in the assessment if the extracted features will not have a hemoglobin level.
Обучение набора классификаторов заключается в обучении по меньшей мере одного классификатора на определение по меньшей мере одного хронического заболевания (определение риска наличия атеросклероза, хронической болезни легких и хронической сердечной недостаточности, хроническая болезнь почек, диабет). Этапы обучения классификатора указаны ниже. Training a set of classifiers consists in training at least one classifier to determine at least one chronic disease (determining the risk of having atherosclerosis, chronic lung disease and chronic heart failure, chronic kidney disease, diabetes). The stages of classifier training are shown below.
Обучение классификаторов осуществляется с помощью библиотек scikit-learn, tensorflow, catboost, xgboost, и др. На одном и том же наборе данных проводится обучение классификаторов, после чего анализируются полученные метрики точности и матрицы ошибок, что позволяет определить оптимальный для каждой из задач алгоритм. Набор анализируемых метрик точности включает в себя: Classifiers are trained using the scikit-learn, tensorflow, catboost, xgboost, etc. libraries. Classifiers are trained on the same data set, after which the obtained accuracy metrics and error matrices are analyzed, which makes it possible to determine the optimal algorithm for each of the tasks. The set of analyzed accuracy metrics includes:
Для алгоритмов классификации: For classification algorithms:
- accuracy (доля правильных ответов); - accuracy (percentage of correct answers);
- точность (precision); - precision (precision);
- полнота (recall); - completeness (recall);
- f-мера (гармоническое среднее полноты и точности); - f-measure (harmonic mean of recall and accuracy);
- аис -гос (площадь под кривой ошибок); - ais-gos (area under the error curve);
- логистическая функция потерь. is the logistic loss function.
Данные для прогнозирования заболеваний включают в себя: Data for disease prediction include:
• демографические данные (пол, возраст, регион проживания); • demographic data (gender, age, region of residence);
• анамнез пациентов (коды хронических неинфекционных заболеваний); • patient history (codes for chronic noncommunicable diseases);
• медицинская история пациента (частота обращений и госпитализаций, диагностических манипуляций etc); • medical history of the patient (frequency of visits and hospitalizations, diagnostic manipulations, etc.);
• извлеченные из ЭМК пациентов признаки в их динамической интерпретации - определенные в виде функций тенденции изменчивости физиологических и лабораторных параметров. • signs extracted from patients' EHR in their dynamic interpretation - defined as functions of the trend of variability of physiological and laboratory parameters.
Реализация настоящего технического решения позволяет проводить первичный этап определения подозрений на заболевания без задействования точных медицинских сведений. На основе принадлежности пациента к одному из выделенных кластеров определяется вероятность наличия у него хронических заболеваний. Интерпретация выходных данных классификаторов происходит с использованием порога достоверности, выше которого вероятность наличия у пациента хронических заболеваний определяется как высокая, ниже - как низкая. Например, для представителей кластера «мужчины 45-50 лет, страдающие ожирением и артериальной гипертензией, с малой историей обращений в ЛПУ» вероятность наличия сердечно-сосудистых заболеваний определяется как высокая. The implementation of this technical solution allows for the initial stage of determining suspicions of diseases without using accurate medical information. Based on the patient's belonging to one of the selected clusters, the probability of having chronic diseases is determined. Interpretation of the output data of the classifiers occurs using a confidence threshold, above which the probability of a patient having chronic diseases is defined as high, below which it is defined as low. For example, for the representatives of the cluster “men aged 45-50 years, suffering from obesity and arterial hypertension, with a small history of visits to healthcare facilities”, the probability of having cardiovascular diseases is defined as high.
Для развертывания модели прогнозирования хронических заболеваний на основе кластерного анализа больших данных необходимо выполнение следующих минимальных технических требований. To deploy a chronic disease prediction model based on big data cluster analysis, the following minimum technical requirements must be met.
Минимальные характеристики вычислительных элементов: Minimum characteristics of computing elements:
Процессор: не менее 6 ядер частотой от 2.0 ГГЦ с поддержкой инструкций AVX; Оперативная память: не менее 24 ГБ; Processor: at least 6 cores with a frequency of 2.0 GHz or more with support for AVX instructions; RAM: at least 24 GB;
Дисковая подсистема: 100 ГБ свободного дискового пространства. Disk subsystem: 100 GB of free disk space.
Операционная система одна из следующих: The operating system is one of the following:
• Ubuntu 18.04 LTS; • Ubuntu 18.04 LTS;
• Ubuntu 20.04 LTS; • Ubuntu 20.04 LTS;
• Astra Linux Common Edition 2.12.29; • Astra Linux Common Edition 2.12.29;
• CentOS 7.7. • CentOS 7.7.
Необходимое ПО: Required software:
• docker 19.03 и выше • docker 19.03 and above
• docker-compose 1 .25.5 и выше • docker-compose 1.25.5 and higher
1. Осуществляют деление извлеченных медицинских и социальных признаков о состоянии здоровья пациента на группы посредством алгоритма иерархической кластеризации. Группы составляются по ограниченному количеству признаков: пол, возрастная категория, территория проживания. Выделяются возрастные группы (согласно классификации Всемирной организации здравоохранения, а также на основе опубликованных клинических исследований, в зависимости от заболевания, например, для сердечно-сосудистых заболеваний используется шаг в 5 лет внутри возрастной группы 40+ или, например, для исследования гинекологических синдромов, принципиальной отсечкой является возраст менопаузы), после выделения возрастных группы на данных производится совместная разбивка по полу (мужчины и женщины), после разбивки по полу добавляется 3-й признак - территория проживания (согласно данным ЭМК). В результате работ алгоритма получаются группы такого типа «мужчины 40-50 лет, проживающие в условиях Крайнего Севера», или «женщины 60-65 лет, проживающие в Южном Федеральном округе». 2. Осуществляют деление полученных групп на кластеры по диагностированным у них заболеваниям, согласно данным электронной медицинской карты, медицинским и социальным признакам о состоянии здоровья пациента, причем объединяют группы в кластеры с общими диагнозами. Объединение групп в кластеры с общим диагнозом происходит посредством алгоритмов: метод k-средних или метод с-средних, или послойная кластеризация, или выделение связных компонент, или метод минимального покрывающего дерева. Методы кластеризации используют меры связи, полученные в результате сравнения диагнозов между собой. Соответственно, внутри выделенного кластера будет сформирована общность, характеризующаяся наличием общих диагнозов. Например, для группы «мужчины 40-55 лет, жители крупных городов» будет выделен подкластер «с наличием атеросклероза» или «перенесшие инфаркт». Код подкластера передается в модель в виде категорийного значения (например, 0 и 1 для инфаркта, 1 - есть инфаркт в анамнезе, 0 - не было инфаркта). 1. The extracted medical and social signs about the patient's health status are divided into groups using a hierarchical clustering algorithm. Groups are formed according to a limited number of characteristics: gender, age category, area of residence. Age groups are distinguished (according to the classification of the World Health Organization, as well as on the basis of published clinical studies, depending on the disease, for example, for cardiovascular diseases, a step of 5 years is used within the age group of 40+ or, for example, for the study of gynecological syndromes, a fundamental the cut-off is the age of menopause), after separating the age group on the data, a joint breakdown by sex (men and women) is performed, after the breakdown by sex, the 3rd feature is added - the territory of residence (according to the EHR data). As a result of the work of the algorithm, groups of this type are obtained: “men aged 40-50 years old living in the Far North”, or “women aged 60-65 years old living in the Southern Federal District”. 2. The obtained groups are divided into clusters according to the diseases diagnosed in them, according to the data of the electronic medical record, medical and social signs of the patient's health, and the groups are combined into clusters with common diagnoses. Combining groups into clusters with a common diagnosis occurs through algorithms: the k-means method or the c-means method, or layered clustering, or the selection of connected components, or the minimum spanning tree method. Clustering methods use relationship measures obtained as a result of comparing diagnoses with each other. Accordingly, within the selected cluster, a community will be formed, characterized by the presence of common diagnoses. For example, for the group “men 40-55 years old, residents of large cities”, a subcluster “with the presence of atherosclerosis” or “having had a heart attack” will be allocated. The subcluster code is passed to the model as a categorical value (for example, 0 and 1 for a heart attack, 1 for a history of a heart attack, 0 for no heart attack).
Метод k-средних: - определяется число кластеров к ; - из исходного набора данных случайным образом выбирается к рядов, которые выполняют роль начальных центров кластеров; -для каждого ряда данных определяется ближайший к нему центр кластера; - вычисляются центроиды (центры тяжести кластеров); - центр кластера смещается в его центроид; - шаги от определения центра тяжести до смещения его в центроид итеративно повторяются, что обеспечивает рост межкластерных расстояний, чем меньше межкластерное расстояние, тем больше вероятность отнести пациента к нескольким кластерам и если межкластерное расстояние большое, то относят пациента к кластеру с общим диагнозом. k-means method: - the number of clusters k is determined; - k rows are randomly selected from the initial data set, which act as the initial centers of clusters; -for each data series, the nearest cluster center is determined; - centroids (centers of gravity of clusters) are calculated; - the center of the cluster is shifted to its centroid; - the steps from determining the center of gravity to shifting it to the centroid are iteratively repeated, which ensures the growth of intercluster distances, the smaller the intercluster distance, the more likely it is to refer the patient to several clusters, and if the intercluster distance is large, then the patient is assigned to a cluster with a common diagnosis.
Метод с-средних: формируется матрица принадлежности для разбиения объектов на к кластеров; - определяются значения критерия ошибки; - все объекты перегруппируются для уменьшения значения критерия ошибки; - последние две процедуры повторяются пока изменения матрицы при перегруппировке не станут незначительными, которые свидетельствуют об определении общего диагноза. C-average method: a membership matrix is formed to divide objects into k clusters; - the values of the error criterion are determined; - all objects are regrouped to reduce the value of the error criterion; - the last two procedures are repeated until the changes in the matrix during the rearrangement become insignificant, which indicate the definition of a general diagnosis.
Алгоритм минимального покрывающего дерева: - строится минимальное покрывающее дерево, а затем последовательно убираются ребра с наибольшим весом. Критерием принадлежности к общему диагнозу кластера будут - минимальные веса. Minimum Spanning Tree Algorithm: - a minimum spanning tree is built, and then the edges with the highest weight are sequentially removed. The criterion for belonging to the general diagnosis of the cluster will be the minimum weights.
Послойная кластеризация: выделяются связные компоненты графа, алгоритмом кластеризации формирую последовательность подграфов, которые отражают связи между кластерами. Задается порог расстояния, с помощью изменения которого можно контролировать глубину иерархии кластеров. По значению этого порога (он рассчитывается на основе выделения связных компонент на некотором уровне расстояний между объектами) происходит выделение древовидной структуры. Layer-by-layer clustering: connected components of the graph are distinguished, the clustering algorithm forms a sequence of subgraphs that reflect the connections between clusters. The distance threshold is set, by changing which you can control the depth of the cluster hierarchy. By the value of this threshold (he is calculated based on the selection of connected components at a certain level of distances between objects), a tree structure is selected.
3. Получают значения медицинских и социальных признаков о состоянии здоровья пациента и признаков факторов риска в каждом кластере, по которым будет происходит отнесение извлеченных признаков к классам вероятности наличия хронических заболеваний. Данные значения являются обучающей выборкой. После того как пациент отнесен к одному из кластеров, для него получают категорийное значение, например, 5, будет значить что пациент отнесен группе «мужчины 40-55 лет, проживающие в крупных городах» Именно это значение становится входным параметром для моделей оценки рисков, т.е. на вход подаются не только данные по каждому пациенту (исходные данные), но и значение его кластера. 3. The values of medical and social signs about the patient's health status and signs of risk factors in each cluster are obtained, according to which the extracted signs will be assigned to the probability classes of the presence of chronic diseases. These values are the training sample. After the patient is assigned to one of the clusters, a categorical value is obtained for him, for example, 5, which will mean that the patient is assigned to the group “men 40-55 years old living in large cities.” It is this value that becomes the input parameter for risk assessment models, t .e. the input is not only data for each patient (initial data), but also the value of its cluster.
4. Осуществляют обучение каждого классификатора из набора на основе многослойной (не менее 3 слоев) нейронной сети прямого распространения с нормализацией во входном слое и/или градиентного бустинга, которые относят пациентов каждого кластера к положительному или отрицательному классу (положительный класс по вероятности атеросклероза, положительный класс по вероятности инсульта, отрицательный класс по вероятности хронической болезни почек и т.д. ). 4. Each classifier from the set is trained on the basis of a multilayer (at least 3 layers) neural network of direct propagation with normalization in the input layer and / or gradient boosting, which classify the patients of each cluster to a positive or negative class (positive class according to the probability of atherosclerosis, positive class for stroke probability, negative class for chronic kidney disease, etc.).
5. В результате получают класс (1 или 0, где 0 - вероятность заболевания отсутствует, 1 - заболевание разовьется) вероятности наличия хронических заболеваний, по классу МКБ, каждого кластера. Например, для атеросклероза брахиоцефальных артерий риск вероятности развития диагноза у представителей возрастной группы 20-30 лет любого пола при отсутствии избыточной массы тела = 0.1 , что интерпретируется как низкая вероятность. 5. As a result, a class is obtained (1 or 0, where 0 - the probability of the disease is absent, 1 - the disease will develop) of the probability of having chronic diseases, according to the ICD class, of each cluster. For example, for atherosclerosis of the brachiocephalic arteries, the risk of developing a diagnosis in the age group of 20-30 years of any gender in the absence of overweight = 0.1, which is interpreted as a low probability.
6. Осуществляют оценку риска развития осложнений хронических заболеваний пациентов, отнесенных к классу вероятности наличия хронических заболеваний по классу МКБ. Данная оценка риска развития осложнений хронических заболеваний осуществляется на основе алгоритмов машинного обучения (нейронная сеть, градиентный бустинг или алгоритм случайного леса). Под оценкой риска подразумевается численный выход модели и его интерпретация. Для каждого алгоритма рассчитывается определенный порог, выше которого риск наступления события (развития осложнения) считают высоким, ниже - низким. Возможно введение множественных порогов для интерпретации, по которым степень риска оценивается как низкая, умеренная, высокая, очень высокая и т.д. При тренировке моделей алгоритмы учатся на наборах больших данных пациентов, у которых данные осложнения развились, и у которых таковых не было. Для численной оценки риска развития осложнения применяются алгоритмы регрессии, позволяющие не просто классифицировать данные пациента, как, к примеру «есть риск инсульта» или «нет риска», а дать количественную оценку вероятности развития осложнения, которую платформа интерпретирует в зависимости от степени риска, например, оценка вероятности развития у данного пациента инсульта выдается в виде «высокий риск», что относит пациента к группе повышенного внимания. 6. An assessment is made of the risk of developing complications of chronic diseases in patients assigned to the probability class of the presence of chronic diseases according to the ICD class. This assessment of the risk of developing complications of chronic diseases is based on machine learning algorithms (neural network, gradient boosting or random forest algorithm). Risk assessment refers to the numerical output of the model and its interpretation. For each algorithm, a certain threshold is calculated, above which the risk of an event (development of a complication) is considered high, below which it is considered low. It is possible to introduce multiple thresholds for interpretation, according to which the degree of risk is assessed as low, moderate, high, very high, etc. When training models, the algorithms learn from big datasets of patients who developed these complications and who did not. For numerical risk assessment complication development, regression algorithms are used that allow not only to classify patient data, such as “there is a risk of stroke” or “no risk”, but to quantify the likelihood of a complication, which the platform interprets depending on the degree of risk, for example, an assessment of the likelihood of developing in this patient, a stroke is issued in the form of "high risk", which refers the patient to the group of increased attention.
Качественная интерпретация разрабатывается с участием медицинских экспертов и в реализации выглядит как цветовая схема с пояснениями (красный - высокий риск, зеленый - низкие риски или риски отсутствуют). Например, вероятность наличия атеросклеротических бляшек брахиоцефальных артерий у мужчин с ожирением (индекс массы тела > = 25) в возрасте 45-50 лет, без диагностированных хронических сердечно-сосудистых заболеваний, при наличии факторов риска (курение, гиподинамия, семейный анамнез, дислипедемия) модель оценила, как 0.6. Порог отсечения для этой модели, рассчитанный по критерию Юдена, составляет 0.55. Таким образом, у пациента из описанной группы высок риск наличия атеросклеротических бляшек. A qualitative interpretation is developed with the participation of medical experts and in the implementation looks like a color scheme with explanations (red - high risk, green - low risks or no risks). For example, the probability of having atherosclerotic plaques in the brachiocephalic arteries in obese men (body mass index >= 25) aged 45-50 years, without diagnosed chronic cardiovascular diseases, in the presence of risk factors (smoking, physical inactivity, family history, dyslipidemia) model rated as 0.6. The cutoff threshold for this model, calculated using the Youden criterion, is 0.55. Thus, a patient from the described group has a high risk of having atherosclerotic plaques.
На выходе набора классификаторов получают класс вероятности наличия хронических заболеваний, по классу МКБ, и оценку риска развития осложнений хронических заболеваний. At the output of a set of classifiers, a probability class for the presence of chronic diseases is obtained, according to the ICD class, and an assessment of the risk of developing complications of chronic diseases.
На фиг. 1 проиллюстрирован пример, где на основе медицинских и социальных признаков здоровья пациента (таких как: возраст-65 лет, социальный статус - военный пенсионер, территория проживания - крайний север, у которого присутствует - гиподинамия, повышенный холестерин, артрит, артериальная гипертензия, был инфаркт, проводилась антигипертензиваня терапия, наличие травм), а также на основе признаков факторов риска (, высокий индекс массы тела, курит, указана частота сердечных сокращений, окружность талии) была определена вероятность ишемической болезни сердца более 50%, а также вероятность развития сахарного диабета 2 типа более 45%. In FIG. 1 illustrates an example where, based on the medical and social signs of the patient's health (such as: age - 65 years, social status - military pensioner, territory of residence - the far north, which has - hypodynamia, high cholesterol, arthritis, arterial hypertension, there was a heart attack , antihypertensive therapy was carried out, the presence of injuries), as well as on the basis of signs of risk factors (high body mass index, smoking, heart rate indicated, waist circumference), the probability of coronary heart disease was determined more than 50%, as well as the likelihood of developing diabetes mellitus 2 type more than 45%.
Степень риска сердечно-сосудистых заболеваний сцеплена с такими факторами, как пол, возраст, регион проживания и социальный статус. Следующим этапом сегментирования пациентов будет выделение внутри половозрастных групп категорий пациентов с отягощенным анамнезом (например, пациентов с диабетом 2 типа, пациентов с почечными заболеваниями и т.д) и выделение факторов риска (семейный анамнез, ожирение, курение, гиподинамия). С помощью комбинированного метода кластеризации, используя иерархическую кластеризацию, а также другие методы кластеризации, описанные выше, присваивают каждой группе пациентов с определенным набором признаков номер группы со сходными факторами отягощённого анамнеза и факторами риска (например, мужчина 68 лет, пенсионер, индекс массы тела = 34, курит, в анамнезе имеются заболевания опорно-двигательного аппарата (артрозы, которые приводят к гиподинамии). Данный номер группы и данные о пациенте поступают на вход обученного набора классификаторов. Набор классификатор содержит классификаторы для определения следующих заболевании: определение риска наличия атеросклероза, хронической болезни легких и хронической сердечной недостаточности, хроническая болезнь почек, наличие атеросклероза брахиоцефальных артерий, диабет. Так как вход набора классификатор попадают данные здоровья пациента (повышенный холестерин, артрит, артериальная гипертензия, был инфаркт, проводилась антигипертензиваня терапия, наличие травм) и факторы риска (семейный анамнез, ожирение, курение, гиподинамия), то по этим данным начинает осуществлять работу классификаторы: определение риска сахарного диабета и определение риска ишемической болезни сердца, остальные классификаторы не участвуют в работе, так как для них отсутствуют данные для работы. На выходе получают класс вероятности наличия у пациента хронических заболеваний по классу МКБ. The degree of risk of cardiovascular disease is linked to factors such as gender, age, region of residence and social status. The next step in segmenting patients will be to identify categories of patients with a burdened history (for example, patients with type 2 diabetes, patients with kidney disease, etc.) and to identify risk factors (family history, obesity, smoking, physical inactivity) within the age and sex groups. Using the combined clustering method, using hierarchical clustering, as well as other clustering methods described above, assign each group of patients with a group number with similar aggravated history and risk factors (for example, a 68-year-old man, retired, body mass index = 34, smoker, history of diseases of the musculoskeletal system (arthritis that leads to physical inactivity). This group number and data about the patient is fed into the trained set of classifiers.The classifier set contains classifiers for determining the following diseases: determining the risk of atherosclerosis, chronic lung disease and chronic heart failure, chronic kidney disease, the presence of atherosclerosis of the brachiocephalic arteries, diabetes. patient’s health data (high cholesterol, arthritis, arterial hypertension, there was a heart attack, antihypertensive therapy was carried out, the presence of injuries) and risk factors (family history, obesity, smoking, physical inactivity), then classifiers begin to work on these data: determining the risk of diabetes mellitus and determining the risk of coronary heart disease, the rest of the classifiers are not involved in the work, since there are no data for work for them. At the output, a probability class for the presence of chronic diseases in a patient according to the ICD class is obtained.
Далее осуществляют оценку риска развития осложнений хронических заболеваний пациентов, пороговое значение определяется для каждого алгоритма с помощью статистики Юдена. Next, the risk of developing complications of chronic diseases of patients is assessed, the threshold value is determined for each algorithm using Youden statistics.
Если необходимо определить оценку на наличие атеросклероза брахиоцефальных артерий, то на вход набора классификатора подаются следующие данные: общие сведения о пациенте (возраст, курение); общемедицинские сведения (вес, рост, окружность талии, индекс массы тела); данные медицинских осмотров (артериальное давление, частота сердечных сокращений, частота дыхания); сведение об анамнезе (COVID-19, подагра, сахарный диабет, псориаз, ревматоидный артрит, фибрилляция предсердий); лабораторные показатели (холестерин, ЛПНП, ЛПВП, глюкоза крови, креатинин, ACT, АЛТ, белок крови, триглицериды); данные инструментальных измерений (масса миокарда левого желудочка).If it is necessary to determine the assessment for the presence of atherosclerosis of the brachiocephalic arteries, then the following data are submitted to the input of the classifier set: general information about the patient (age, smoking); general medical information (weight, height, waist circumference, body mass index); medical examination data (blood pressure, heart rate, respiratory rate); information about the anamnesis (COVID-19, gout, diabetes mellitus, psoriasis, rheumatoid arthritis, atrial fibrillation); laboratory parameters (cholesterol, LDL, HDL, blood glucose, creatinine, ACT, ALT, blood protein, triglycerides); data of instrumental measurements (myocardial mass of the left ventricle).
Набор классификаторов основывается на алгоритме решающих деревьев. Для определения атеросклероза брахиоцефальных артерий, запускается только классификатор для атеросклероза брахиоцефальных артерий, остальные классификаторы из набора не участвуют в анализе. The set of classifiers is based on the decision tree algorithm. To determine atherosclerosis of the brachiocephalic arteries, only the classifier for atherosclerosis of the brachiocephalic arteries is launched, the rest of the classifiers from the set are not involved in the analysis.
И При анализе решений посредством «дерева решений» используют визуальный и аналитический инструмент поддержки принятия решений для расчёта ожидаемых значений (или ожидаемой пользы) конкурирующих альтернатив. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны признаки, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — признаки, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение. AND Decision tree analysis uses a visual and analytical decision support tool to calculate expected values (or expected benefits) of competing alternatives. The structure of a tree is "leaves" and "branches". On the edges ("branches") of the decision tree, the features on which the objective function depends are written, the values of the objective function are written in the "leaves", and the other nodes are the features by which the cases differ. To classify a new case, one must go down the tree to a leaf and return the corresponding value.
Дерево решений в общем виде может быть описано следующей формулой:A decision tree in general can be described by the following formula:
(х, Y) = (х1 , х2, хЗ, .... xk, Y) (x, y) = (x1, x2, x3, .... xk, y)
Зависимая переменная Y является целевой переменной, которую необходимо проанализировать, классифицировать и обобщить. Вектор х состоит из входных переменных х1 , х2, хЗ и т.д., которые используются для выполнения этой задачи. The dependent variable Y is the target variable to be analysed, classified and summarized. The vector x consists of the input variables x1, x2, x3, etc., which are used to complete this task.
Дерево решений состоит из трёх типов узлов: The decision tree consists of three types of nodes:
Узлы решения Decision Nodes
Вероятностные узлы Probabilistic nodes
Замыкающие узлы Closing knots
В результате работы ансамбля решающих деревьев представляется выход модели: As a result of the work of the ensemble of decision trees, the output of the model is presented:
Вероятность наличия бляшек брахиоцефальных артерий в виде числа от 0 до 1 . Интерпретация выхода осуществляется с применением порогового значения (0.55), выходное значение больше которого оценивается как высокий риск, меньше - как низкий риск наличия бляшек брахиоцефальных артерий. Probability of having plaque in the brachiocephalic arteries, as a number from 0 to 1. The interpretation of the output is carried out using a threshold value (0.55), the output value above which is considered as a high risk, less - as a low risk of the presence of plaques of the brachiocephalic arteries.
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники. In these application materials, a preferred disclosure of the implementation of the claimed technical solution was presented, which should not be used as limiting other, private embodiments of its implementation, which do not go beyond the scope of the requested legal protection and are obvious to specialists in the relevant field of technology.

Claims

Формула Formula
1. Компьютерно-реализуемый способ ранней диагностики хронических заболеваний пациента, выполняющийся на вычислительном устройстве, содержащем процессор и память, хранящую инструкции, исполняемые процессором и содержащие следующие этапы: получают деперсонифицированные медицинские данные электронной медицинской карты от медицинской информационной системы на вычислительное устройство; на вычислительном устройстве осуществляют извлечение медицинских и социальных признаков о состоянии здоровья пациента, а также признаки факторов риска посредством Natural language processing; осуществляют отнесение извлеченных медицинских и социальных признаков о состоянии здоровья пациента к группе пациентов; осуществляют отнесение группы пациентов к определенному кластеру по диагностированным у пациента заболеваниям, согласно данным электронной медицинской карты и медицинских и социальных признаков о состоянии здоровья пациента, причем объединяют группу пациентов в кластеры с общими диагнозами; получают значения медицинских и социальных признаков о состоянии здоровья пациента и признаков факторов риска в каждом кластере, по которым будет происходит отнесение извлеченных признаков к классам вероятности наличия хронических заболеваний; кластеры с извлеченными признаками поступают на вход обученного набора классификаторов для отнесения признаков к классу вероятности наличия хронических заболеваний, при это обучение набора классификатора заключается в обучении по меньшей мере одного классификатора на по меньшей мере одно хроническое заболевание, причем классификатор из набора не участвует в классификации, если извлеченных признаках отсутствуют входные признаки для данного классификатора; осуществляют оценку риска развития осложнений хронических заболеваний; на выходе набора классификаторов получают класс вероятности наличия хронических заболеваний, по классу МКБ, и оценку риска развития осложнений хронических заболеваний. 1. A computer-implemented method for early diagnosis of a patient's chronic diseases, running on a computing device containing a processor and a memory that stores instructions executed by the processor and containing the following steps: receive depersonalized medical data of an electronic medical record from a medical information system to a computing device; on the computing device, extracting medical and social signs about the patient's health status, as well as signs of risk factors through Natural language processing; carry out assignment of the extracted medical and social signs about the state of health of the patient to the group of patients; assigning a group of patients to a specific cluster according to the diseases diagnosed in the patient, according to the data of the electronic medical record and medical and social signs about the patient's health, and combining the group of patients into clusters with common diagnoses; get the values of medical and social signs about the patient's health status and signs of risk factors in each cluster, according to which the extracted signs will be assigned to the probability classes of the presence of chronic diseases; clusters with extracted features are fed to the input of a trained set of classifiers for assigning features to the probability class of chronic diseases, while training the classifier set consists in training at least one classifier for at least one chronic disease, and the classifier from the set does not participate in the classification, if the extracted features do not have input features for this classifier; assess the risk of developing complications of chronic diseases; at the output of a set of classifiers, a probability class for the presence of chronic diseases is obtained, according to the ICD class, and an assessment of the risk of developing complications of chronic diseases.
2. Способ по п.1 , отличающийся тем, что медицинские и социальные признаки о состоянии здоровья пациента включают в себя: пол, возраст, социальный статус, регион проживания, физиологические параметры, лабораторные показатели. 2. The method according to claim 1, characterized in that the medical and social signs of the patient's health include: gender, age, social status, region of residence, physiological parameters, laboratory parameters.
3. Способ по п.1 , отличающийся тем, что признаки фактора риска характеризуют признаки, негативно влияющие на здоровье пациента. 3. The method according to claim 1, characterized in that the signs of the risk factor characterize the signs that negatively affect the health of the patient.
4. Способ по п.1 , отличающийся тем, что отнесение групп в кластеры осуществляется посредствам метода k-средних и/или метода с-средних и/или послойная кластеризация и/или выделение связных компонент и/или метод минимального покрывающего дерева. 4. The method according to claim 1, characterized in that the assignment of groups into clusters is carried out by means of the k-means method and / or the c-means method and / or layered clustering and / or the selection of connected components and / or the minimum spanning tree method.
PCT/RU2021/000605 2021-12-27 2021-12-28 Method for the early diagnosis of chronic diseases in a patient WO2023128780A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2021139105A RU2800315C2 (en) 2021-12-27 Method of early diagnostics of chronic diseases of a patient based on cluster analysis of big data
RU2021139105 2021-12-27

Publications (1)

Publication Number Publication Date
WO2023128780A1 true WO2023128780A1 (en) 2023-07-06

Family

ID=86999839

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2021/000605 WO2023128780A1 (en) 2021-12-27 2021-12-28 Method for the early diagnosis of chronic diseases in a patient

Country Status (1)

Country Link
WO (1) WO2023128780A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287837A1 (en) * 2000-07-06 2009-11-19 David Paul Felsher Information record infrastructure, system and method
WO2015142708A1 (en) * 2014-03-17 2015-09-24 3M Innovative Properties Company Predicting personalized risk of preventable healthcare events
US20180330828A1 (en) * 2013-03-15 2018-11-15 II Robert G. Hayter Method for searching a text (or alphanumeric string) database, restructuring and parsing text data (or alphanumeric string), creation/application of a natural language processing engine, and the creation/application of an automated analyzer for the creation of medical reports
US20200335219A1 (en) * 2015-12-18 2020-10-22 Pointright Inc. Systems and methods for providing personalized prognostic profiles
US20210106288A1 (en) * 2016-02-12 2021-04-15 Newton Howard Detection Of Disease Conditions And Comorbidities

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287837A1 (en) * 2000-07-06 2009-11-19 David Paul Felsher Information record infrastructure, system and method
US20180330828A1 (en) * 2013-03-15 2018-11-15 II Robert G. Hayter Method for searching a text (or alphanumeric string) database, restructuring and parsing text data (or alphanumeric string), creation/application of a natural language processing engine, and the creation/application of an automated analyzer for the creation of medical reports
WO2015142708A1 (en) * 2014-03-17 2015-09-24 3M Innovative Properties Company Predicting personalized risk of preventable healthcare events
US20200335219A1 (en) * 2015-12-18 2020-10-22 Pointright Inc. Systems and methods for providing personalized prognostic profiles
US20210106288A1 (en) * 2016-02-12 2021-04-15 Newton Howard Detection Of Disease Conditions And Comorbidities

Similar Documents

Publication Publication Date Title
US11037070B2 (en) Diagnostic test planning using machine learning techniques
CN111710420B (en) Complication onset risk prediction method, system, terminal and storage medium based on electronic medical record big data
Ahmed Developing a predicted model for diabetes type 2 treatment plans by using data mining
CN111164705A (en) Medical device and computer-implemented method for predicting the risk, occurrence or development of an adverse health condition in a test subject in an arbitrarily selected sub-population of a total population
Yasnitsky et al. The capabilities of artificial intelligence to simulate the emergence and development of diseases, optimize prevention and treatment thereof, and identify new medical knowledge
Khan et al. A Comparative Study of Machine Learning classifiers to analyze the Precision of Myocardial Infarction prediction
CN111553478B (en) Community old people cardiovascular disease prediction system and method based on big data
EP3433614A1 (en) Use of clinical parameters for the prediction of sirs
Ferreira et al. Competitive neural layer-based method to identify people with high risk for diabetic foot
Shin et al. Early prediction of mortality in critical care setting in sepsis patients using structured features and unstructured clinical notes
WO2022010384A1 (en) Clinical decision support system
Mainenti et al. Machine Learning Approaches for Diabetes Classification: Perspectives to Artificial Intelligence Methods Updating.
RU2800315C2 (en) Method of early diagnostics of chronic diseases of a patient based on cluster analysis of big data
Mpanya et al. Predicting in-hospital all-cause mortality in heart failure using machine learning
Saab et al. Comparison of Machine Learning Algorithms for Classifying Adverse-Event Related 30-ay Hospital Readmissions: Potential Implications for Patient Safety
WO2023128780A1 (en) Method for the early diagnosis of chronic diseases in a patient
Suha et al. A systematic review and future research agenda on detection of polycystic ovary syndrome (PCOS) with computer-aided techniques
Mandava MDensNet201-IDRSRNet: Efficient cardiovascular disease prediction system using hybrid deep learning
TW202211258A (en) Pathological condition prediction system for elderly flu patients, a program product thereof, and a method for establishing and using the same
Liu et al. Constructing large scale cohort for clinical study on heart failure with electronic health record in regional healthcare platform: challenges and strategies in data reuse
Firyulina et al. Using of machine learning methods in cardiology
CN116884631B (en) Comprehensive liver failure prediction and treatment reference system based on AI and similar patient analysis
Foshati et al. Predicting retinopathy risk among diabetic patients: a data mining approach
Deshmukh et al. Heart Disease Prediction Using ML Algorithm
WO2023121503A1 (en) Method for predicting chronic non-infectious diseases in biological organisms

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21970113

Country of ref document: EP

Kind code of ref document: A1