WO2019132686A1 - Method for generating mathematical models of a patient using artificial intelligence technologies - Google Patents

Method for generating mathematical models of a patient using artificial intelligence technologies Download PDF

Info

Publication number
WO2019132686A1
WO2019132686A1 PCT/RU2017/000820 RU2017000820W WO2019132686A1 WO 2019132686 A1 WO2019132686 A1 WO 2019132686A1 RU 2017000820 W RU2017000820 W RU 2017000820W WO 2019132686 A1 WO2019132686 A1 WO 2019132686A1
Authority
WO
WIPO (PCT)
Prior art keywords
patient
server
medical
data
facts
Prior art date
Application number
PCT/RU2017/000820
Other languages
French (fr)
Russian (ru)
Inventor
Иван Сергеевич ДРОКИН
Олег Леонидович БУХВАЛОВ
Сергей Юрьевич СОРОКИН
Original Assignee
Общество С Ограниченной Ответственностью "Интеллоджик"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Интеллоджик" filed Critical Общество С Ограниченной Ответственностью "Интеллоджик"
Publication of WO2019132686A1 publication Critical patent/WO2019132686A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics

Definitions

  • This technical solution relates to the field of artificial intelligence, and in particular to methods of forming mathematical models of patients.
  • neural network models are built that can diagnose one of the types of diseases. Data is submitted to such neural network models and a set of diagnoses is made for each patient. This approach is not very convenient and accurate, because does not allow to predict the development of diseases, treatment strategies.
  • a vector representation of patients can be used, which makes it possible to build a mathematical model of the patient on the basis of anamnesis, medical history and treatment (methods and course of treatment, prescribed medications, etc.).
  • the technical problem solved in the framework of this technical solution is the creation of an effective mathematical model of the patient based on the records of his electronic medical history.
  • the method of forming a patient's mathematical models using artificial intelligence technologies includes the following steps:
  • the patient's vector representation After the patient's vector representation has been formed, it can be used by various technical and software tools to analyze and predict the development of diseases, make diagnoses, simulate processes and trends in the patient's body, identify the effect of medications and prescribed treatment, determine the patient's mortality after surgery or treatment prescriptions.
  • Vector representation is a common name for various approaches to modeling a language and learning representations in natural language processing, aimed at matching words (and possibly phrases) from a certain dictionary of vectors from R n for n, significantly fewer words in the dictionary.
  • the theoretical basis for vector representations is distributive semantics.
  • There are several methods for constructing such a comparison for example, using neural networks, methods of decreasing dimensionality applied to word co-occurrence matrices, and explicit representations studying explicit word representations.
  • the patient's vector representation is a mathematical model of the patient, based on the patient's physiological parameters, history, disease history and treatment (methods and course of treatment, prescribed drugs, etc.), etc., allowing to predict the development of diseases, diagnose, formulate recommendations treatment strategies, etc. for a particular patient.
  • Histology is a branch of biology that studies the structure, vital activity and development of tissues of living organisms.
  • Human histology is a branch of medicine that studies the structure of human tissues.
  • Distributive semantics is a field of linguistics, which is engaged in calculating the degree of semantic proximity between linguistic units based on their distribution (distribution) in large arrays of linguistic data (text corpuses). Distributive semantics is based on a distributive hypothesis: linguistic units occurring in similar contexts have similar meanings. Metadata - information about other information, or data related to additional information about the content or object. Metadata discloses information about the signs and properties that characterize any entity that allows you to automatically search for and manage them in large information flows.
  • Data modality is the belonging of data to a certain data source, determining the structure of the mentioned data, its format, and also allowing to correlate the said structure with one or another system of organs and / or nosologies and / or procedures.
  • the source of data can be both the means of obtaining data about the patient and the patient himself.
  • Ontology is a comprehensive and detailed formalization of a certain area of knowledge using a conceptual scheme.
  • a conceptual scheme consists of a hierarchical data structure containing all the relevant classes of objects, their relationships and rules (theorems, constraints) adopted in this area.
  • Regularization in statistics, machine learning, inverse problem theory is a method of adding some additional information to a condition in order to solve an incorrectly posed problem or prevent retraining. This information often takes the form of a penalty for the complexity of a model, for example, it may be smoothness limitations of the resulting function or restrictions on the norm of a vector space.
  • Stemming the process of finding the basis of a word for a given source word.
  • the basis of the word does not necessarily coincide with the morphological root of the word.
  • Electronic patient case history (electronic medical record, patient electronic passport; Engl, electronic medical record - EMR, electronic health record) - a database containing information about the patient: physiological parameters of the patient, history, medical history and their treatment (methods and course of treatment prescribed drugs, etc.).
  • Including an electronic case history of patients contains records of patients, including at least the following data: the date of addition of the record, codes of diagnoses, symptoms, procedures and drugs, textual description of the natural history of the disease, biomedical images associated with the history of the disease, research results and patient analyzes.
  • Medical personnel or another user of the medical information system uploads to the server through its interface data about the patient, which contain the patient's medical history, information about the patient's physiological parameters, other information.
  • the data on the server can be automatically downloaded without human intervention, for example, when collecting and examining tests, performing treatment procedures, etc.
  • the medical information system When a patient visits a doctor, undergoes examination, tests or other medical procedures, the medical information system generates (fills in and stores) the data for each such procedure.
  • the data may include records of patient examinations, codes of diagnoses, symptoms, procedures and drugs prescribed and / or taken by the patient, a description of the history of the disease in a natural language, biomedical images, analysis results, studies, observations / measurements of physiological parameters, ECG, EEG, MRI , Ultrasound, biopsy, cytology, x-ray, mammography, but not limited to the specified data.
  • the specified data can be presented in a text, tabular format, in the form of time series, images, video, genomic data, signals, but not limited to. Data can also be presented in a structured and unstructured form. Additionally, the data between the above data can be used as data.
  • Analyzes may include, but are not limited to, blood tests, cerebrospinal fluid, urine, feces, genetic tests, etc. As part of the technical solution does not impose restrictions on the types of analyzes.
  • One patient 105 comes for a primary examination to a specialist physician.
  • the doctor performs the necessary medical actions, after which he forms a description of the symptoms of the patient, gives an appointment for testing.
  • the doctor enters this information into the computer through the interface of the medical information system 110, after which this data is stored in an electronic medical history.
  • Another 106 patient comes to a second appointment with a general practitioner.
  • the therapist makes a prescription of drugs to the patient, entering this data into an electronic medical record.
  • the necessary set of records in electronic case histories is formed, which can later be used by other doctors or decision support systems.
  • One of the important components in the medical decision support system is a vector representation of the patient (a mathematical model of the patient), which allows to predict the development of diseases, diagnose, formulate recommendations, treatment strategies, etc. for a particular patient.
  • the functional allowing to form a vector representation of the patient is a cloud service (eng, cloud service) using cloud computing (eng. Cloud computing) on a distributed server system.
  • a training sample 210 is formed to form a vector representation of the patient; FIG. 2 (English training dataset), which will later be used for learning by machine learning algorithms, including deep learning algorithms.
  • the training sample is formed by the user of the medical information system, by selecting patient records.
  • the training sample contains an electronic medical history of patients grouped by patient.
  • the patient's electronic medical record used to form a training set contains patient records including at least the following data: the date of adding the record, codes of diagnoses, symptoms, procedures and drugs, a textual description of the natural language history associated with the history of the disease biomedical images, research results and patient analyzes.
  • presentation formats used may vary and change depending on the technology used.
  • the described formats are not the only possible and are described for a better understanding of the principles laid down in this technical solution.
  • An electronic patient history can be presented in the format openEHR, HL7, etc.
  • the choice of format and standard does not affect the essence of the technical solution.
  • the record of the medical history is a set of fields containing at least parameters describing:
  • the records in the training sample are not grouped by patient, after receiving the data, they are grouped using known algorithms or functions (for example, any sorting and sampling known from the prior art, including when sampling data from databases, using the 'GROUP BY ', ORDER BY "in SQL queries).
  • the data of the medical history can be presented in text, tabular format, in the form of time series, images, video, genomic data, signals, but not limited to. Data can also be presented in a structured and unstructured form.
  • the date of adding a record can only store the date, date and time, time stamp, while the records mentioned can contain the specified temporary objects, both in absolute form and relative (relative to temporary objects from other records).
  • the codes of diagnoses, symptoms, procedures, drugs may be presented in the ICD format (for example, ICD-10), SNOMED-CT, CCS (Clinical Classifications Software) or so on.
  • ICD format for example, ICD-10
  • SNOMED-CT SNOMED-CT
  • CCS Clinical Classifications Software
  • the results of the analyzes can be presented in tabular form.
  • Textual description of the medical history can be presented in a structured and unstructured form (description in natural language).
  • Biomedical images can be presented as images (jpg, png, tiff and other graphic formats), video (avi, mpg, mov, mkv and other video formats), 3D photos, 3D videos, 3D models (obj, max, dwg etc.).
  • the results of ECG, EEG, MRI, ultrasound, biopsy, cytology, x-rays, mammography, etc. can be presented in the form of biomedical images.
  • RNA sequencing data can be presented in TDF (tiled data format) format, non-indexed formats such as GFF, BED and WIG, indexed formats such as BAM and Goby, as well as in bigWig and bigBed formats.
  • TDF tiled data format
  • non-indexed formats such as GFF, BED and WIG
  • indexed formats such as BAM and Goby
  • the server preprocesses the data 220 contained in the patient’s medical history selected from the training sample.
  • specialized handlers are defined. In the case when no data handler is provided for the data type and / or source, or it is not necessary, then an empty handler is used or a handler is skipped for this data type.
  • the type of data is determined based on the metadata specified for at least one type of data field in an electronic patient record.
  • Metadata indicates the modality of the data explicitly and the modality of the data is interpreted according to the internal definition of the dicom standard.
  • the data type can be determined using signatures.
  • the server or external source there is a database of signatures with the help of which the data type in the record is determined.
  • GIF89a byte sequence “GIF89a” at the beginning of the data (field or file) indicates that this is a bitmap in GIF format
  • 'BM' bytes means that it is a bitmap in BMP format.
  • the type of data may be determined based on the information contained in the record using predefined rules.
  • the type of image data (Bitmap, Icon), multimedia data (video, sound) stored in the resources of the executable files (PE file, .exe) is determined based on the analysis of the structure of the resource section of the mentioned executable file.
  • data of one type can be converted into data of another type (video — into a set of images and vice versa, a 3d object — into an image of the projections of the said object and vice versa, etc.).
  • a handler can be set, which transforms them into a series of raster images with possible normalization, if the parameters of the device on which the image was taken are known.
  • a text handler can be specified for the text, which produces standard text transformations for NLP (mainly lower case conversion, number replacement, removal of stop words and prepositions, stamming).
  • a natural language text can be assigned a processor that generates a sequence of medical facts from the text using its mapping (English mapping) on the terms of medical ontology and / or a glossary of medical terms.
  • algorithms known from the prior art can be applied at least lexical analysis and syntactic analysis on the basis of which lexemes are extracted from the text and combined into objects representing a sequence of medical facts.
  • each medical fact is annotated (marked) with a date and / or time corresponding to the date and / or time of the current record from the medical history.
  • algorithms known from the prior art can be applied at least lexical analysis and syntactic analysis on the basis of which lexemes are extracted from the text and combined into objects representing a sequence of medical facts.
  • a text recognition model is used previously for the text analysis, which is previously trained (by one of the machine learning methods), and as a result of which a set of medical facts is formed.
  • the mentioned model can be retrained (using teaching methods with a teacher) if the generated medical facts do not satisfy the predetermined criteria (for example, when analyzing the results by a specialist).
  • the handler searches for each word (after preprocessing) from text in an ontology or dictionary. If a word is found in an ontology or dictionary, then the processor stores the corresponding ontology concept or a word from the dictionary, while words not found in the ontology or dictionary are discarded. In one of the implementation options, more complex rules (procedures) for displaying natural language text in a sequence of facts can be used.
  • additional patterns may be specified to extract related concepts and / or quantities.
  • ontologies and / or dictionaries are located locally on the server.
  • the server can receive ontologies and dictionaries from external sources,
  • Ontology Lookup Service which provides a web service interface for requesting many ontologies from one place with a unified data output format.
  • any source of medical data can be used from which a forest of knowledge can be formed (many acyclic directed knowledge graphs).
  • Such sources include, in particular, medical scheme-guidelines, etc.
  • open biomedical ontologies are used as a source of knowledge (OBO, eng. Open Biomedical Ontologies).
  • the handler performs data normalization (for each data type, its own normalization rules can be used).
  • the measurement values of certain blood parameters can be processed by the processor to normalize the mentioned values (feature scaling), and the parameters of such a transformation are calculated on the training set.
  • sample mean a and variance s 2 are calculated, while
  • the handler can display the Houndsfield scale in the range [-1, 1] (normalize all integer values to range [0..255] for black and white images to real values in the range [-1.0..1.0]).
  • the normalization can be described by the formula:
  • x is the normalized value in the space of values ⁇ ;
  • the data from the table containing measurements of certain blood parameters are subjected to preprocessing - data normalization (reduction of each of the parameters to zero mean unit variance, the parameters of such a transformation are calculated on the training set).
  • the data presented as an image in the RGB format obtained from a microscope undergoes post-processing - binarization from probability to class. If the probability of pathology in the opinion of the model is greater than a predetermined threshold, then the image is marked as containing pathology, otherwise it does not contain.
  • the processor handles noise filtering or noise reduction of the analyzed data (the process of removing noise from the useful signal in order to increase its subjective quality or to reduce the level of errors in transmission channels and digital data storage systems).
  • noise filtering or noise reduction of the analyzed data the process of removing noise from the useful signal in order to increase its subjective quality or to reduce the level of errors in transmission channels and digital data storage systems.
  • one of the methods of spatial noise reduction can be used in image processing; for video, one of the temporal, spatial or space-time methods noise reduction.
  • the server preprocesses the data selected from the record fields. For example, the server retrieves one record 301 from the patient’s medical history from the training sample 310, determines the composition of the fields and / or the types of data contained in the record. In this example, the 301 record contains a date, a description in natural language, CT scans, and a blood test.
  • the server for each record field processes the data using the corresponding handler from the handler pool 320 (handlers 3201..32N).
  • the date can be processed with an empty handler 3201, text in natural language - handler 3202, performing standard text processing for NLP, CT images - handler CT 3203, blood test - handler 3204, making data normalization.
  • the patient's record 301 contains the processed data 301 *, where the '*' symbol next to the field means that it contains modified records (different from the original ones).
  • the handler is formed using one of the scripting languages (scripting languages), and in the form of plug-ins and libraries (including those that are executable files, such as PE, for example, dll).
  • a set of procedures for elementary actions on data types is built in. Combining these procedures in the right order for the user allows you to create handlers yourself. Creating handlers in this case occurs with the help of built-in support for scripting languages or through the platform interface that allows you to create such handlers.
  • the server After the server has performed the necessary preliminary data processing, the server converts 230 processed data into a sequence of medical facts for each patient using medical ontologies.
  • the entire case history is converted by the server into a sequence of medical facts about the patient.
  • Facts may contain additional information, such as a biomedical image, an ECG, test results, etc.
  • the server After converting the medical history into a set of medical facts, the server automatically marks the received sequence of medical facts 240 for each patient, using diagnoses taken from the patient's medical history or other facts of interest. If the data is marked up, this step is skipped by the server.
  • the facts of interest are set by the server user or collected from users of this technical solution (for example, a doctor).
  • the lists of inclusive and exclusive criteria for clinical trials may be the facts of interest, i.e. lists of criteria that a person must meet in order to be included in the clinic (including lists), or vice versa to be excluded from the clinic or not admitted to the clinic (excluding lists).
  • an inclusive criterion could be liver cancer with a tumor no larger than 5 mm.
  • smoking may be an exclusionary criterion, the patient's age above 65 years.
  • the facts of interest are extracted from external sources.
  • facts of interest can be extracted from medical information systems.
  • the server then organizes and groups the facts by inspections by time. Such a grouping is necessary in order to consider a group of facts within a single inspection simultaneously.
  • the implementation of the analyzes may relate to the reception at which they were assigned, or allocated to a separate entity (separate inspection).
  • a separate inspection In one of the options for the implementation of CT, MRI, histology refer to a separate examination.
  • At least all research methods containing raw data are referred to individual examinations. If only a doctor's report or the fact of passing the study is available, such data are considered as part of the examination.
  • the server uses information about the time and / or date associated with each fact.
  • the server forms pairs ⁇ set of facts, diagnosis ⁇ or ⁇ set of facts, fact of interest ⁇ based on grouping by inspections.
  • the server prepares a training set for each of the data modalities.
  • data histology, x-rays, CT, mammography, etc. can be used as a data modality.
  • the server selects records containing CT:
  • the server After the formation of training samples for each modality, the server provides training for the primary representations 250 independently for each of the modalities.
  • a model (group of models) is set, for training in forecasting diagnoses found in this training sample that are present in these modalities.
  • machine learning algorithms such as:
  • the mentioned model satisfies the requirement - compliance of the modality with which this model will work.
  • convolutional networks are used for images.
  • modalities are grouped into clusters (for example, all histology, X-ray, mammography, etc.) having a common architecture of models (one parametric family) and studying together, while each model from the cluster has different sets of weights.
  • a set of parametric model families is formed.
  • the parametric family means that there is a general view of models with a certain set of parameters, the definition of which uniquely defines the model.
  • one of the examples of the parametric family is a multilayer perceptron, and the parameters will be the number of layers and the number of neurons in the layers.
  • Another example is any neural network with a fixed architecture that generates a parametric family (for example, a family designed for image segmentation, for classifying images, etc.).
  • image classification assign one or several classes or labels to each image
  • image segmentation input one or several labels for each image pixel
  • localization of objects of interest construct a framing rectangle within which object of interest (for each object in the image).
  • an architecture is set that solves this problem. Modalities differ mainly in the size of the input image and in the number of target labels / objects of interest. The basis of each such model is taken by Dense-net, whose architecture concept is represented in FIG. five. The idea of this architecture is to use additional paths for the movement of information within the model, which makes it possible to effectively train even very large models with a large number of convolutional layers.
  • the size of the input image and the number of classes, such a model forms a parametric family
  • the weights of the neural network are just the parameters of the family. They are defined in the learning process, during which the models are presented with images and target labels, and the neural network changes its weights so that its response coincides with what is contained in the markup of the training set (the so-called target values or target response).
  • the server searches for family parameters that give the optimal result for this training sample.
  • the models are added as data is collected and new patient data sources are added.
  • a new type of research eg, ECG
  • ECG ECG
  • a training sample is formed for the ECG modality, then a neural network model (Fig. 4) is trained on this training sample, from which the representation of this modality is obtained.
  • the server forms the primary vector representations for each modality.
  • the server provides previously prepared patient data, determines the output values of the model and the weights of the last hidden layer of this model for each record. The weights of the last hidden layer will then be used by the server as primary vector representations, which represent the mapping of modality to a vector of fixed size determined by the model.
  • the server generates a new data set, which is a transformation of the original.
  • Each modality has its own vector dimension, for example, if the modality is m ⁇ and the dimension of the common space is n, then a mapping will be constructed:
  • / - non-linear function for example, ReLU, sigmoid, etc.
  • A is a matrix of size (n, that, and b is a vector of size n
  • the vector representation of the text is built in the space in which the primary vector representations of all other modalities are displayed, i.e. the primary vector representation of the textual modality is mapped into the space of general representations by the identity mapping.
  • the neural network model is a classifier that displays input data into a certain set of facts for which there are already vector representations. Since it is guaranteed that any model will generate a probability vector of the presence of a fact, then the vector representation will be a probability-weighted sum of vector-representations of the facts.
  • a model is built.
  • the model f it can be interpreted as the probability of the fact that the patient has the fact yi (or other options, depending on the problem being solved, for example, the occurrence of a fact with a horizon a year and so on).
  • the server forms the primary vector representations for each of the modalities, resulting in a set of vector representations for medical facts and terms (diagnoses, symptoms, procedures and medications) and models for mapping the primary vector representations to the joint representation space.
  • the server additionally pre-educates vector representations of medical terms (concepts), for example:
  • the server performs pre-training of medical terms (concepts) using distributive semantics and vector representation of words.
  • Each word is assigned its own context vector.
  • a set of vectors forms a verbal vector space.
  • pre-training of medical terms is carried out using the Word2vec software for the analysis of the semantics of natural languages using ontology for regularization.
  • Regularization in statistics, machine learning, inverse problem theory is a method of adding some additional information to a condition in order to solve an incorrectly posed problem or prevent retraining. This information often has the appearance of a fine for the complexity of the model.
  • these may be:
  • the essence of this method is to select a small test sample from the training sample, which is not clearly involved in the learning process, but is used to measure the model error in the learning process. As soon as the error on this test sample begins to grow, learning stops.
  • word2vec takes a large text corpus and matches a tin vector to the tin logo, giving the coordinates of the output words.
  • word2vec takes a large text corpus and matches a tin vector to the tin logo, giving the coordinates of the output words.
  • word2vec takes a large text corpus and matches a tin vector to the tin logo, giving the coordinates of the output words.
  • he creates a dictionary, “learning” on the input text data, and then calculates a vector representation of the words.
  • a vector representation is based on contextual intimacy: words that appear in the text next to identical words (and, therefore, have a similar meaning) will have close coordinates of word vectors in a vector representation.
  • the resulting word vectors can be used for natural language processing and machine learning.
  • CBOW Continuous Bag of Words
  • Skip-gram a model architecture that predicts the current word based on its surrounding context.
  • the architecture of the Skip-gram type works differently: it uses the current word to predict the words surrounding it. The word order of the context does not affect the result in any of these algorithms.
  • multilevel (hierarchical) error function based on relations between terms from ontology.
  • the ontology is used in the particular case in the form of a knowledge graph, which defines a hierarchy of terms and their categories. This allows you to pre-order the space of the vector representation, since it is obvious that proximity in the knowledge graph should mean proximity in the vector space between terms or categories. Using this, you can impose a fine on learning vector presentations. In the future, the penalty is minimized along with the main error function.
  • c the vector of the current term.
  • OD (c) can be used by analogy with the L X / L 2 regularization.
  • the ontology used for regularization is a parameter external to the system, can be set in advance and depend on the corresponding system of disease codes (for example, ldcd / S, ICD-10, etc.).
  • the primary vector representation is extracted as the output of the hidden layer.
  • This model allows you to display the input data of a given modality in the primary vector representation. This requires simple manipulations with a trained model, essentially angry at removing the output layer from the model.
  • the server After training and receiving the primary representations, the server performs the learning of the joint representations 260 (illustrated in Fig. 6) (English coordinated multimodal machine learning, more details “Multimodal Machine Learning: A Survey and Taxonomy”, Tadas Baltrusaitis, Chaitanya Ahuja, and Louis-Philippe Morency ).
  • a non-textual modality occurs in the history of a disease, for example, a CT study
  • its primary vector representation is taken, processed using a multilayer perceptron, and the output of this perceptron is considered to be the vector representation of this image and its cosine distance is considered on it.
  • skip-gram is used, but when it comes to non-textual modalities (for example, medical images), as their vector representations, the output of the function for this modality is used, with the body of medical fact sequences extracted from the skip-gram input from medical records or medical texts.
  • non-textual modalities for example, medical images
  • the output of the function for this modality is used, with the body of medical fact sequences extracted from the skip-gram input from medical records or medical texts.
  • the server will train the final models and aggregation parameters 270.
  • Aggregation is a receipt from a set of vectors, where each vector represents a medical fact from the history of a selected patient a single vector.
  • Each fact is assigned a weight obtained in the learning process.
  • a set of weights is formed, which are used in the process of obtaining a prediction / diagnosis for a specific patient - aggregation parameters. Then determine the weighted sum - multiplying each vector in the patient's history with the corresponding weight and the resulting vectors are added.
  • such an aggregation option may not always be optimal, since each of the facts may have a different weight in terms of decision-making for each of the nosology or for this patient.
  • a graph of calculations is constructed, where weights are present as parameters. Further, the graph parameters are optimized for the current dataset using the gradient descent method. The resulting set of weights is a learner, that is, it is modified along with the rest of the model weights in the learning process. Weights define a specific function from a parametric family, which, from several input vectors, forms one output. All of the above can be summarized as follows: Classifier training for a group of diagnoses is based on graphs, the training sample is generated from available EHRs automatically based on the NLP technician (extracting the facts + arranging them in a time order, then "diagnosis"). The choice of the classifier is determined by the ability to work with vector non-categorical signs and in this method it is multi-layer fully connected neural networks with residues.
  • Figure 7 shows two pipelines for the ECG and biomedical images, for example, CT of the chest.
  • the data first falls into the preprocessing block.
  • the preprocessing block is domain-specific and transforms the input data into a form that the model can get.
  • the transformed data is sent to the corresponding modality of the mentioned data model - for example, a CT scan of the thoracic section is sent to the neural network, which analyzes this study.
  • the model can produce results in two forms (two outputs): this is the desired output of the model (probability of pathology, segmentation maps, etc.) and the vector representation of this particular example.
  • the desired output of the model is sent to the post-process module that is associated with the model, and the output of this block is shown to the expert person, for example, or sent to the customer in the form of a report or in another convenient form.
  • the central diagram shows the vector space of medical concepts, which is based on skip-gram and ontology regularization, and each concept is mapped to a specific point in this space. For each model, the mapping into this space of medical concepts from vector representation, which is generated by the pipeline model, through the mapping function is also constructed.
  • vectors for a particular patient are taken from this common space and sent to the final model, where they are aggregated into a single patient model, where it is later diagnosed and / or treatment is recommended, etc.
  • the administrator, doctor or other user adds (sends) patient records to the server, which must be analyzed.
  • Displaying the results can be in the form of recommendations, highlighting regions of interest on medical images, in the form of reports.
  • FIG. 8 shows an example of a general-purpose computer system on which a given technical solution can be performed and which includes a multi-purpose computing device in the form of a computer 20 or a server including a processor 21, a system memory 22 and a system bus 23 that interconnects various system components, including system memory with a processor 21.
  • the system bus 23 may be any of various types of bus structures including a memory bus or memory controller, a peripheral bus, and a local bus using any of a variety of bus architectures.
  • Systemic the memory includes a read-only memory (ROM) 24 and a random access memory (RAM) 25.
  • the ROM 24 stores the basic input / output system 26 (BIOS), consisting of the main routines that help to exchange information between the elements inside the computer 20, for example, moment of launch.
  • BIOS basic input / output system 26
  • Computer 20 may also include a hard disk drive 27 for reading from and writing to a hard disk, a magnetic disk drive 28 for reading from or writing to a removable disk 29, and a storage device 30 for an optical disk to read from or writing to a removable optical disk.
  • a disk 31 such as a compact disk, a digital video disk and other optical means.
  • the hard disk drive 27, the magnetic disk drive 28 and the optical disk drive 30 are connected to the system bus 23 via the hard disk drive interface 32, the magnetic disk drive interface 33 and the optical drive interface 34. Drives and their respective computer-readable media provide non-volatile storage of computer-readable instructions, data structures, program modules and other data for the computer 20.
  • Computer 20 includes a file system 36 associated with the operating system 35 or included in it or more software application 37, other software modules 38, and software data 39.
  • a user can enter commands and information into computer 20 using input devices such as keyboard 40 and pointing device 42.
  • Other input devices may include Be a microphone, joystick, gamepad, satellite dish, scanner, or any other.
  • serial port interface 46 which is connected to the system bus, but can be connected via other interfaces, such as the parallel port, the game port, or the universal serial bus (USB).
  • a monitor 47 or other type of visual display device is also connected to system bus 23 via an interface, for example, video adapter 48.
  • video adapter 48 In addition to monitor 47, personal computers typically include other peripheral output devices (not shown), such as speakers and printers.
  • Computer 20 may operate in a networked environment through logical connections to one or more remote computers 49.
  • Remote computer (or computers) 49 may be another computer, server, router, network PC, peer device or another node of a single network, and usually includes most or all of the elements described above with respect to computer 20, although only the device is shown storage information 50.
  • Logical connections include a local area network (LAN) 51 and a global computer network (GCS) 52.
  • LAN local area network
  • GCS global computer network
  • the computer 20 used in the LAN network environment is connected to the local network 51 via a network interface or adapter 53.
  • the computer 20 used in the network environment of the GCS typically uses a modem 54 or other means to establish communication with the global computer network 52, such as the Internet.
  • the modem 54 which may be internal or external, is connected to the system bus 23 via the serial port interface 46.
  • program modules, or parts of them, described with reference to computer 20 can be stored on a remote storage device. It is necessary to take into account that the network connections shown are typical, and other means can be used to establish the communication link between the computers and the link.

Landscapes

  • Public Health (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

The present technical solution relates to the field of artificial intelligence, and more particularly to methods for generating mathematical models of patients. The present method for generating mathematical models of a patient using artificial intelligence technologies includes the following steps: obtaining, on a server, a training dataset containing electronic medical records of patients grouped by patient; pre-processing, on the server, the data contained in the medical records of patients; converting, on the server, the processed data into a sequence of medical facts with respect to each patient, using medical ontologies; automatically tagging, on the server, the resulting sequence of medical facts with respect to each patient, using diagnoses or other facts of interest extracted from the patient's medical record; training, on the server, initial representations independently for each modality; training, on the server, combined representations; training, on the server, final models and aggregation parameters; obtaining, on the server, the medical record of a patient not included in the training dataset; pre-processing, on the server, the data contained in the patient medical record obtained; converting, on the server, the pre-processed data into a sequence of medical facts, using medical ontologies; generating, on the server, a vector representation of the patient.

Description

Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта  The method of forming a mathematical model of the patient using artificial intelligence technology
Область техники  Technical field
Данное техническое решение относится к области искусственного интеллекта, а именно к способам формирования математических моделей пациентов.  This technical solution relates to the field of artificial intelligence, and in particular to methods of forming mathematical models of patients.
Уровень техники  The level of technology
В настоящее время одним из наиболее востребованных направлений в технологии искусственного интеллекта является прогнозирование развития заболеваний, диагностирование, формирование рекомендации, стратегий лечения и т.д. для конкретного пациента.  Currently, one of the most popular areas in the technology of artificial intelligence is the prediction of the development of diseases, diagnosis, the formation of recommendations, treatment strategies, etc. for a particular patient.
Обычно для каждого конкретного заболевания строятся нейросетевые модели, которые могут диагностировать один из видов заболеваний. Данные подаются на такие нейросетевые модели и по каждому пациенту строится набор диагнозов. Такой подход не очень удобен и точен, т.к. не позволяет спрогнозировать развитие заболеваний, стратегий лечения.  Usually, for each particular disease, neural network models are built that can diagnose one of the types of diseases. Data is submitted to such neural network models and a set of diagnoses is made for each patient. This approach is not very convenient and accurate, because does not allow to predict the development of diseases, treatment strategies.
Для решения этих проблем может использоваться векторное представление пациентов, которое позволяет построить математическую модель пациента на основании анамнеза, истории болезней и их лечения (методов и хода лечения, прописанных препараты и т.п.).  To solve these problems, a vector representation of patients can be used, which makes it possible to build a mathematical model of the patient on the basis of anamnesis, medical history and treatment (methods and course of treatment, prescribed medications, etc.).
Сущность  Essence
Техническим задачей, решаемой в рамках настоящего технического решения является создание эффективной математической модели пациента на основании записей его электронной истории болезни.  The technical problem solved in the framework of this technical solution is the creation of an effective mathematical model of the patient based on the records of his electronic medical history.
Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта, включает следующие шаги:  The method of forming a patient's mathematical models using artificial intelligence technologies includes the following steps:
получают на сервере обучающую выборку, содержащую электронную историю болезни пациентов, сгруппированных по пациенту; receive on the server a training sample containing an electronic medical history of patients grouped by patient;
производят на сервере предварительную обработку данных, содержащихся полученных историях болезней пациентов; make on the server the preliminary processing of the data contained in the obtained patient histories;
преобразовывают на сервере обработанные данные в последовательность медицинских фактов по каждому пациенту с использованием медицинских онтологий; convert the processed data on the server into a sequence of medical facts for each patient using medical ontologies;
производят на сервере автоматическую разметку полученной последовательности медицинских фактов по каждому пациенту, используя извлечённые из истории болезни пациента диагнозы или другие интересующие факты; produce on the server an automatic marking of the obtained sequence of medical facts for each patient, using diagnoses or other facts of interest extracted from the patient’s medical history;
производят на сервере обучение первичных репрезентаций независимо для каждой из модальностей; primary representations are trained on the server independently for each of the modalities;
осуществляют на сервере обучение совместных репрезентаций; carry out joint representation training on the server;
производят на сервере обучение финальных моделей и параметров агрегации; получают на сервере историю болезни пациента, не входящего в обучающую выборку; produce on the server the training of final models and aggregation parameters; receive on the server the patient's history, not included in the training set;
производят на сервере предварительную обработку данных полученной истории болезни пациента; make on the server the preliminary processing of the data obtained patient's history;
преобразовывают на сервере предварительно обработанные данные в последовательность медицинских фактов с использованием медицинских онтологий; convert pre-processed data on the server into a sequence of medical facts using medical ontologies;
формируют на сервере векторное представление пациента; form the patient's vector representation on the server;
После того, как векторное представление пациента сформировано, оно может использоваться различными техническими и программными средствами для осуществления анализа и прогноза развития заболеваний, постановки диагнозов, для моделирования процессов и тенденций в организме пациента, выявления влияния медикаментов и назначенного лечения, определения смертности пациента после операций или назначения лечения.  After the patient's vector representation has been formed, it can be used by various technical and software tools to analyze and predict the development of diseases, make diagnoses, simulate processes and trends in the patient's body, identify the effect of medications and prescribed treatment, determine the patient's mortality after surgery or treatment prescriptions.
Подробное описание  Detailed description
Ниже перечислены термины и определения, используемые в данном техническом решении.  The following are terms and definitions used in this technical solution.
Векторное представление — общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам (и, возможно, фразам) из некоторого словаря векторов из Rn для п, значительно меньшего количества слов в словаре. Теоретической базой для векторных представлений является дистрибутивная семантика. Существует несколько методов для построения такого сопоставления например, используют нейронные сети, методы понижения размерности в применении к матрицам совместных упоминаний слов (англ word co-occurrence matrices) и явные представления, обучающиеся на контекстах упоминаний слов (англ explicit representations). Vector representation is a common name for various approaches to modeling a language and learning representations in natural language processing, aimed at matching words (and possibly phrases) from a certain dictionary of vectors from R n for n, significantly fewer words in the dictionary. The theoretical basis for vector representations is distributive semantics. There are several methods for constructing such a comparison, for example, using neural networks, methods of decreasing dimensionality applied to word co-occurrence matrices, and explicit representations studying explicit word representations.
Векторное представление пациента— математическая модель пациента, на основании физиологических параметров пациента, анамнеза, истории болезней и их лечения (методов и хода лечения, прописанных препараты и т.п.) и т.д., позволяющая прогнозировать развития заболеваний, диагностировать, формировать рекомендации, стратегии лечения и т.д. для конкретного пациента. The patient's vector representation is a mathematical model of the patient, based on the patient's physiological parameters, history, disease history and treatment (methods and course of treatment, prescribed drugs, etc.), etc., allowing to predict the development of diseases, diagnose, formulate recommendations treatment strategies, etc. for a particular patient.
Гистология — раздел биологии, изучающий строение, жизнедеятельность и развитие тканей живых организмов. Histology is a branch of biology that studies the structure, vital activity and development of tissues of living organisms.
Гистология человека— раздел медицины, изучающий строение тканей человека. Human histology is a branch of medicine that studies the structure of human tissues.
Дистрибутивная семантика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах). Дистрибутивная семантика основывается на дистрибутивной гипотезе: лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения. Метаданные— информация о другой информации, или данные, относящиеся к дополнительной информации о содержимом или объекте. Метаданные раскрывают сведения о признаках и свойствах, характеризующих какие-либо сущности, которые позволяют автоматически искать и управлять ими в больших информационных потоках. Distributive semantics is a field of linguistics, which is engaged in calculating the degree of semantic proximity between linguistic units based on their distribution (distribution) in large arrays of linguistic data (text corpuses). Distributive semantics is based on a distributive hypothesis: linguistic units occurring in similar contexts have similar meanings. Metadata - information about other information, or data related to additional information about the content or object. Metadata discloses information about the signs and properties that characterize any entity that allows you to automatically search for and manage them in large information flows.
Модальность данных— принадлежность данных к некоторому источнику данных, определяющему структуру упомянутых данных, их формат, а также позволяющему соотнести упомянутую структуру с той или иной системой органов и/или нозологий и/или процедур. В качестве источника данных могут выступать как средства, получения данных о пациенте, так и сам пациент.  Data modality is the belonging of data to a certain data source, determining the structure of the mentioned data, its format, and also allowing to correlate the said structure with one or another system of organs and / or nosologies and / or procedures. The source of data can be both the means of obtaining data about the patient and the patient himself.
Онтология — всеобъемлющая и детальная формализация некоторой области знаний с помощью концептуальной схемы. Обычно такая схема состоит из иерархической структуры данных, содержащей все релевантные классы объектов, их связи и правила (теоремы, ограничения), принятые в этой области.  Ontology is a comprehensive and detailed formalization of a certain area of knowledge using a conceptual scheme. Typically, such a scheme consists of a hierarchical data structure containing all the relevant classes of objects, their relationships and rules (theorems, constraints) adopted in this area.
Регуляризация (в статистике, машинном обучении, теории обратных задач)— метод добавления некоторой дополнительной информации к условию с целью решить некорректно поставленную задачу или предотвратить переобучение. Эта информация часто имеет вид штрафа за сложность модели например, это могут быть ограничения гладкости результирующей функции или ограничения по норме векторного пространства.  Regularization (in statistics, machine learning, inverse problem theory) is a method of adding some additional information to a condition in order to solve an incorrectly posed problem or prevent retraining. This information often takes the form of a penalty for the complexity of a model, for example, it may be smoothness limitations of the resulting function or restrictions on the norm of a vector space.
Стемминг (англ stemming)— процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова.  Stemming (Engl stemming) - the process of finding the basis of a word for a given source word. The basis of the word does not necessarily coincide with the morphological root of the word.
Факт (медицинский факт)— данные, описывающие пациента, в том числе способы его лечения и связь упомянутых данных с другими медицинскими фактами.  Fact (medical fact) - the data describing the patient, including the methods of his treatment and the connection of the mentioned data with other medical facts.
Электронная история болезней пациентов (электронная медицинская карта, электронный паспорт пациента; англ, electronic medical record - EMR, electronic health record)— база данных, содержащая сведения о пациенте: физиологические параметры пациента, анамнез, истории болезней и их лечение (методы и ход лечения, прописанные препараты и т.п.). В том числе электронная история болезней пациентов содержит записи пациентов, включающих, по меньшей мере, следующие данные: дату добавления записи, коды диагнозов, симптомов, процедур и лекарств, текстовое описание истории болезни на естественном языке, ассоциированные с историей болезни биомедицинские изображения, результаты исследований и анализов пациентов.  Electronic patient case history (electronic medical record, patient electronic passport; Engl, electronic medical record - EMR, electronic health record) - a database containing information about the patient: physiological parameters of the patient, history, medical history and their treatment (methods and course of treatment prescribed drugs, etc.). Including an electronic case history of patients contains records of patients, including at least the following data: the date of addition of the record, codes of diagnoses, symptoms, procedures and drugs, textual description of the natural history of the disease, biomedical images associated with the history of the disease, research results and patient analyzes.
Медицинский персонал или другой пользователь медицинской информационной системы загружает на сервер через её интерфейс данные о пациенте, которые содержат историю болезни пациента, сведения о физиологических параметрах пациента, другую информацию. Medical personnel or another user of the medical information system uploads to the server through its interface data about the patient, which contain the patient's medical history, information about the patient's physiological parameters, other information.
Ещё в одном из вариантов реализации данные на сервер могут быть загружены автоматически, без участия человека, например, при сборе и исследовании анализов, проведения лечащих процедур и т.д.  In yet another implementation variant, the data on the server can be automatically downloaded without human intervention, for example, when collecting and examining tests, performing treatment procedures, etc.
з При обращении пациента к врачу, прохождении обследования, сдачи анализов или других медицинских процедурах, в медицинской информационной системе формируются (заполняются и сохраняются) данные по каждой такой процедуре. Данные могут включать записи осмотров пациента, коды диагнозов, симптомов, процедур и лекарств, назначаемых и/или принимаемых пациентом, описание истории болезни на естественном языке, биомедицинские изображения, результаты анализов, исследований, результаты наблюдений/измерений физиологических параметров, ЭКГ, ЭЭГ, МРТ, УЗИ, биопсия, цитологические исследования, рентгена, маммографии, но не ограничиваясь указанными данными. s When a patient visits a doctor, undergoes examination, tests or other medical procedures, the medical information system generates (fills in and stores) the data for each such procedure. The data may include records of patient examinations, codes of diagnoses, symptoms, procedures and drugs prescribed and / or taken by the patient, a description of the history of the disease in a natural language, biomedical images, analysis results, studies, observations / measurements of physiological parameters, ECG, EEG, MRI , Ultrasound, biopsy, cytology, x-ray, mammography, but not limited to the specified data.
Указанные данные могут быть представлены в текстовом, табличном формате, в виде временных рядов, изображений, видео, геномных данных, сигналов, но не ограничиваясь. Данные также могут быть представлены в структурированном и неструктурированном виде. Дополнительно в качестве данных могут выступать связи между приведёнными выше данными.  The specified data can be presented in a text, tabular format, in the form of time series, images, video, genomic data, signals, but not limited to. Data can also be presented in a structured and unstructured form. Additionally, the data between the above data can be used as data.
Анализы могут включать, но не ограничиваясь, анализ крови, спинномозговой жидкости, мочи, кала, генетические тесты и т.д. В рамках технического решения не накладывает ограничения на типы анализов.  Analyzes may include, but are not limited to, blood tests, cerebrospinal fluid, urine, feces, genetic tests, etc. As part of the technical solution does not impose restrictions on the types of analyzes.
Рассмотрим пример, проиллюстрированного на Фиг.1 :  Consider the example illustrated in Figure 1:
Один пациент 105 приходит на первичный осмотр к профильному врачу. Врач производит необходимые медицинские действия, после чего формирует описание имеющихся у пациента симптомов, даёт назначения на проведение анализов. Далее врач вводит данную информацию в компьютер через интерфейс медицинской информационной системы 110, после чего эти данные сохраняются в электронной истории болезни. Другой пациент 106 приходит на повторный приём к врачу-терапевту. Врач-терапевт производит назначение лекарственных препаратов пациенту, внося эти данные в электронную медицинскую карту. Таким образом, по каждому пациенту формируется необходимый набор записей в электронных историях болезни, который в дальнейшем может использоваться другими врачами или системами поддержки принятия решений.  One patient 105 comes for a primary examination to a specialist physician. The doctor performs the necessary medical actions, after which he forms a description of the symptoms of the patient, gives an appointment for testing. Next, the doctor enters this information into the computer through the interface of the medical information system 110, after which this data is stored in an electronic medical history. Another 106 patient comes to a second appointment with a general practitioner. The therapist makes a prescription of drugs to the patient, entering this data into an electronic medical record. Thus, for each patient, the necessary set of records in electronic case histories is formed, which can later be used by other doctors or decision support systems.
Для построения систем поддержки принятия решений в области медицины требуется набрать определённый объём данных, позволяющий обучить систему распознавать по полученным медицинским данным диагнозы, группы диагнозов или фактов. Когда необходимый объём данных собирается в медицинской информационной системе, он может быть использован в качестве обучающей выборки. Большинство существующих систем поддержки принятия решений используют в свой составляющей машинное обучение (англ, machine learning) в различных его проявлениях.  To build decision-making systems in the field of medicine, it is necessary to collect a certain amount of data that allows the system to learn to recognize diagnoses, groups of diagnoses or facts from medical data obtained. When the required amount of data is collected in the medical information system, it can be used as a training set. Most of the existing decision support systems use machine learning in its various manifestations.
Одним из важных компонентов в системе поддержки принятия медицинских решений является векторное представление пациента (математическая модель пациента), позволяющее прогнозировать развития заболеваний, диагностировать, формировать рекомендации, стратегии лечения и др. для конкретного пациента.  One of the important components in the medical decision support system is a vector representation of the patient (a mathematical model of the patient), which allows to predict the development of diseases, diagnose, formulate recommendations, treatment strategies, etc. for a particular patient.
В одном из вариантов реализации функционал, позволяющий формировать векторное представление пациента, располагается на отдельном сервере. В одном из вариантов реализации функционал, позволяющий формировать векторное представление пациента, располагается на том же сервере, где и располагается медицинская информационная система. In one of the options for the implementation of the functionality that allows you to create a vector representation of the patient is located on a separate server. In one of the options for the implementation of the functionality that allows you to create a vector representation of the patient, is located on the same server, where the medical information system is located.
В одном из вариантов реализации функционал, позволяющий формировать векторное представление пациента, представляет собой облачный сервис (англ, cloud service), использующий облачные вычисления (англ cloud computing) на распределённой системе серверов.  In one of the implementation options, the functional allowing to form a vector representation of the patient is a cloud service (eng, cloud service) using cloud computing (eng. Cloud computing) on a distributed server system.
На первом этапе для формирования векторного представления пациента формируют обучающую выборку 210, фиг. 2 (англ training dataset), которая в дальнейшем будет использована для обучения алгоритмами машинного обучения, в том числе алгоритмами глубокого обучения (англ, deep learning).  At the first stage, a training sample 210 is formed to form a vector representation of the patient; FIG. 2 (English training dataset), which will later be used for learning by machine learning algorithms, including deep learning algorithms.
В одном из вариантов реализации обучающая выборка формируется пользователем медицинской информационной системы, путём отбора записей пациентов.  In one of the implementation options, the training sample is formed by the user of the medical information system, by selecting patient records.
В одном из вариантов реализации отбор записей может осуществляться по заданным критериям. При этом в качестве упомянутых критериев могут выступать по меньшей мере:  In one of the implementation options for the selection of records can be carried out according to specified criteria. At the same time as the above criteria can be at least:
• правила включения/выключения в обучающую выборку:  • on / off rules in the training set:
о пациентов с анамнезом из заданной совокупности анамнезов (Например, только пациенты с онкологическим анамнезом);  about patients with a history of a given set of anamnesis (for example, only patients with an oncological history);
о пациентов, удовлетворяющие заданным гендерным или возрастным параметрами (Например, только мужчины в возрасте от 30 до 45 лет);  o patients who meet the specified gender or age parameters (for example, only men aged 30 to 45 years);
о пациентов, связанных с пациентами, уже включёнными в обучающую выборку, при этом связь определяется по меньшей мере схожестью анамнезов, способов лечения и т.д.  about patients associated with patients already included in the training set, while the relationship is determined by at least the similarity of anamnesis, treatment methods, etc.
• правила включения сформированных ранее обучающих выборок. • rules for the inclusion of previously created training samples.
В рамках данного технического решения обучающая выборка содержит электронную историю болезни пациентов, сгруппированных по пациенту. Электронная история болезни пациента, используемая для формирования обучающей выборки, содержит записи пациентов, включающих, по меньшей мере, следующие данные: дату добавления записи, коды диагнозов, симптомов, процедур и лекарств, текстовое описание истории болезни на естественном языке, ассоциированные с историей болезни биомедицинские изображения, результаты исследований и анализов пациентов. As part of this technical solution, the training sample contains an electronic medical history of patients grouped by patient. The patient's electronic medical record used to form a training set contains patient records including at least the following data: the date of adding the record, codes of diagnoses, symptoms, procedures and drugs, a textual description of the natural language history associated with the history of the disease biomedical images, research results and patient analyzes.
В качестве иллюстративного примера приведём следующий фрагмент из истории болезни пациента:  As an illustrative example, we present the following fragment from the patient’s medical history:
Figure imgf000007_0001
Figure imgf000008_0001
Figure imgf000007_0001
Figure imgf000008_0001
Используемые форматы представления данных могут варьироваться и меняться в зависимости от используемых технологий. Описанные форматы не являются единственно возможными и описаны для лучшего понимания принципов заложенных в данном техническом решении.  The presentation formats used may vary and change depending on the technology used. The described formats are not the only possible and are described for a better understanding of the principles laid down in this technical solution.
Электронная история болезни пациента может быть представлена в формате openEHR, HL7 и т.д. Выбор формата и стандарта не влияет на сущность технического решения.  An electronic patient history can be presented in the format openEHR, HL7, etc. The choice of format and standard does not affect the essence of the technical solution.
В одном из вариантов реализации запись истории болезни представляет собой набор полей, содержащих по меньшей мере параметрами, описывающие:  In one embodiment, the record of the medical history is a set of fields containing at least parameters describing:
• состояние пациента;  • patient's condition;
• способы лучения пациента (методики, способы их применения, характеристики);  • methods of patient's radiation (methods, methods of their use, characteristics);
• средствами, используемыми при лучении пациента (препараты, дозировки и т.п.);  • means used in the patient's radiation (drugs, dosages, etc.);
• результаты анализов и т.д;  • test results, etc;
и метаданные, связывающих описанные параметры с параметрами из других записей  and metadata linking the described parameters with parameters from other records
В случае, если записи в обучающей выборке не сгруппированы по пациенту, после получения данных производят их группировку используя известные алгоритмы или функции (Например, любые сортировки и выборки, известные из уровня техники, в том числе при выборке данных из баз данных использование команд 'GROUP BY’, ORDER BY” в SQL-запросах).  If the records in the training sample are not grouped by patient, after receiving the data, they are grouped using known algorithms or functions (for example, any sorting and sampling known from the prior art, including when sampling data from databases, using the 'GROUP BY ', ORDER BY "in SQL queries).
Данные истории болезни могут быть представлены в текстовом, табличном формате, в виде временных рядов, изображений, видео, геномных данных, сигналов, но не ограничиваясь. Данные также могут быть представлены в структурированном и не структурированном виде.  The data of the medical history can be presented in text, tabular format, in the form of time series, images, video, genomic data, signals, but not limited to. Data can also be presented in a structured and unstructured form.
Дата добавления записи может хранить только дату, дату и время, временную отметку, при этом упомянутые записи могут содержать указанные временные объекты, как в абсолютном виде, так и в относительном (относительно временных объектов из других записей).  The date of adding a record can only store the date, date and time, time stamp, while the records mentioned can contain the specified temporary objects, both in absolute form and relative (relative to temporary objects from other records).
Коды диагнозов, симптомов, процедур, лекарств могут быть представлены в формате МКБ (Например, МКБ-10), SNOMED-CT, CCS (Clinical Classifications Software) или т.д. Выбор формата не влияет на сущность данного технического решения.  The codes of diagnoses, symptoms, procedures, drugs may be presented in the ICD format (for example, ICD-10), SNOMED-CT, CCS (Clinical Classifications Software) or so on. The choice of format does not affect the essence of this technical solution.
Результаты анализов могут быть представлены в табличном виде.  The results of the analyzes can be presented in tabular form.
Текстовое описание истории болезни может быть представлено в структурированном и не структурированном виде (описание на естественном языке). Биомедицинские изображения могут быть представлены в виде изображения (jpg, png, tiff и другие графические форматы), видео (avi, mpg, mov, mkv и другие видео-форматы), 3D фото, 3D видео, 3D моделей (obj, max, dwg и т.д.). В виде биомедицинских изображений могут быть представлены результаты ЭКГ, ЭЭГ, МРТ, УЗИ, биопсии, цитологических исследований, рентгена, маммографии и т.д. Textual description of the medical history can be presented in a structured and unstructured form (description in natural language). Biomedical images can be presented as images (jpg, png, tiff and other graphic formats), video (avi, mpg, mov, mkv and other video formats), 3D photos, 3D videos, 3D models (obj, max, dwg etc.). The results of ECG, EEG, MRI, ultrasound, biopsy, cytology, x-rays, mammography, etc. can be presented in the form of biomedical images.
Данные РНК-секвенирования могут быть представлены в формате TDF (tiled data format), неиндексированных форматах такие как GFF, BED и WIG, индексированных форматах таких как ВАМ и Goby, а также в форматах bigWig и bigBed.  RNA sequencing data can be presented in TDF (tiled data format) format, non-indexed formats such as GFF, BED and WIG, indexed formats such as BAM and Goby, as well as in bigWig and bigBed formats.
Описанные выше форматы отражают какое минимум программное обеспечение предназначено для работы с упомянутыми выше данными (создание, модификация и т.д.).  The formats described above reflect what minimum software is designed to work with the above-mentioned data (creation, modification, etc.).
После того, как обучающая выборка сформирована и получена на сервере, сервер производит предварительную обработку данных 220, содержащихся в истории болезней пациентов, выбранных из обучающей выборки.  After the training sample has been formed and obtained on the server, the server preprocesses the data 220 contained in the patient’s medical history selected from the training sample.
Предварительная обработка данных доменно-специфична и зависит от типа данных и источника данных.  Preliminary data processing domain-specific and depends on the type of data and data source.
Для каждого типа данных и/или источника данных задаются специализированные обработчики. В случае, когда для типа данных и/или источника не предусмотрен обработчик или в нем нет необходимости, то применяется пустой обработчик или осуществляется пропуск обработчика для данного типа данных.  For each data type and / or data source, specialized handlers are defined. In the case when no data handler is provided for the data type and / or source, or it is not necessary, then an empty handler is used or a handler is skipped for this data type.
В одном из вариантов реализации тип данных определяется на основе метаданных, задаваемых для по меньшей мере одного типа поля данных в электронной записи истории болезни пациента.  In one embodiment, the type of data is determined based on the metadata specified for at least one type of data field in an electronic patient record.
Например, в dicom в метаданных указывается модальность данных в явном виде и модальность данных трактуется согласно внутреннему определению dicom стандарта.  For example, in dicom, metadata indicates the modality of the data explicitly and the modality of the data is interpreted according to the internal definition of the dicom standard.
В одном из вариантов реализации тип данных может определяться при помощи сигнатур. При этом на сервере или внешнем источнике есть база данных сигнатур при помощи которых происходит определение типа данных в записи.  In one embodiment, the data type can be determined using signatures. At the same time on the server or external source there is a database of signatures with the help of which the data type in the record is determined.
Например, наличие последовательности байт“GIF89a” в начале данных (поля или файла) обозначает, что это растровое изображение в формате GIF, а наличие байт 'BM’ означает, что это растровое изображение в формате BMP.  For example, the presence of a byte sequence “GIF89a” at the beginning of the data (field or file) indicates that this is a bitmap in GIF format, and the presence of 'BM' bytes means that it is a bitmap in BMP format.
В одном из вариантов реализации тип данных может определяться на основании информации, содержащейся в записи, с использованием заранее заданных правил.  In one embodiment, the type of data may be determined based on the information contained in the record using predefined rules.
Например, тип данных изображений (Bitmap, Icon), мультимедиа данных (видео, звук), хранящихся в ресурсах исполнимых файлов (PE-файл, .ехе) определяется на основании анализа структуры секции ресурсов упомянутого исполнимого файла. В одном из вариантов реализации данные одного типа могут быть конвертированы в данные другого вида (видео - в совокупность изображений и наоборот, 3d объект - в изображение проекций упомянутого объекта и наоборот, и т.д.). For example, the type of image data (Bitmap, Icon), multimedia data (video, sound) stored in the resources of the executable files (PE file, .exe) is determined based on the analysis of the structure of the resource section of the mentioned executable file. In one implementation variant, data of one type can be converted into data of another type (video — into a set of images and vice versa, a 3d object — into an image of the projections of the said object and vice versa, etc.).
Например, для КТ снимков может задаваться обработчик, производящий их трансформацию в серию растровых изображений с возможной нормализацией, если известны параметры устройства, на котором сделан снимок.  For example, for CT images, a handler can be set, which transforms them into a series of raster images with possible normalization, if the parameters of the device on which the image was taken are known.
Ещё в одном примере для текста может задаваться обработчик, который производит стандартные для NLP трансформации текста (в основном это приведение к нижнему регистру, замена чисел, удаление стоп-слов и предлогов, стэмминг).  In another example, a text handler can be specified for the text, which produces standard text transformations for NLP (mainly lower case conversion, number replacement, removal of stop words and prepositions, stamming).
Ещё в одном примере для текста на естественном языке может задаваться обработчик, который формирует из текста последовательность медицинских фактов при помощи его отображения (англ mapping - мапинг) на термины медицинской онтологии и/или словаря медицинских терминов.  In yet another example, a natural language text can be assigned a processor that generates a sequence of medical facts from the text using its mapping (English mapping) on the terms of medical ontology and / or a glossary of medical terms.
В одном из вариантов реализации для анализа текста на естественном языке могут применяться известные из уровня техники алгоритмы по меньшей мере лексического анализа и синтаксического анализа на основании которых из текста выделяются лексемы и объединяются в объекты, представляющие собой последовательность медицинских фактов.  In one of the implementation options for the analysis of the text in natural language, algorithms known from the prior art can be applied at least lexical analysis and syntactic analysis on the basis of which lexemes are extracted from the text and combined into objects representing a sequence of medical facts.
В одном из вариантов реализации при отображении текста каждый медицинский факт аннотируется (помечается) датой и/или временем, соответствующей дате и/или времени текущей записи из истории болезни.  In one of the implementation options, when displaying text, each medical fact is annotated (marked) with a date and / or time corresponding to the date and / or time of the current record from the medical history.
Например, если обработчик обрабатывает поле содержащее текст на естественном языке из записи пациента, имеющей дату 20.01.2017, то все медицинские факты будут аннотированы (помечены) датой 20.01.2017.  For example, if a processor handles a field containing text in natural language from a patient record that has a date of 01/20/2017, then all medical facts will be annotated (marked) with date of 01/20/2017.
В одном из вариантов реализации для анализа текста на естественном языке могут применяться известные из уровня техники алгоритмы по меньшей мере лексического анализа и синтаксического анализа на основании которых из текста выделяются лексемы и объединяются в объекты, представляющие собой последовательность медицинских фактов.  In one of the implementation options for the analysis of the text in natural language, algorithms known from the prior art can be applied at least lexical analysis and syntactic analysis on the basis of which lexemes are extracted from the text and combined into objects representing a sequence of medical facts.
Ещё в одном из вариантов реализации для анализа текста используется предварительно обученная (одним из методов машинного обучения) модель распознавания текста, в результате работы которой формируется совокупность медицинских фактов. При этом упомянутая модель может быть переобучена (с использованием методов обучения с учителем), в случае если сформированные медицинские факты не будут удовлетворять заранее заданным критериям (например, при анализе результатов специалистом).  In yet another variant of implementation, a text recognition model is used previously for the text analysis, which is previously trained (by one of the machine learning methods), and as a result of which a set of medical facts is formed. At the same time, the mentioned model can be retrained (using teaching methods with a teacher) if the generated medical facts do not satisfy the predetermined criteria (for example, when analyzing the results by a specialist).
В одном из вариантов реализации обработчика для естественного языка, обработчик ищет каждое слово (после предобработки) из текста в онтологии или словаре. Если слово найдено в онтологии или словаре, то обработчик сохраняет соответствующее ему понятие онтологии или слово из словаря, при этом слова, не найденные в онтологии или словаре, отбрасываются. В одном из вариантов реализации могут использоваться более сложные правила (процедуры) отображения текста на естественном языке в последовательность фактов. In one of the options for implementing a handler for a natural language, the handler searches for each word (after preprocessing) from text in an ontology or dictionary. If a word is found in an ontology or dictionary, then the processor stores the corresponding ontology concept or a word from the dictionary, while words not found in the ontology or dictionary are discarded. In one of the implementation options, more complex rules (procedures) for displaying natural language text in a sequence of facts can be used.
Например, для некоторых понятий могут задаваться дополнительные шаблоны (регулярные выражения), позволяющие извлечь связанные понятия и/или величины.  For example, for some concepts, additional patterns (regular expressions) may be specified to extract related concepts and / or quantities.
В одном из вариантов реализации онтологии и/или словари располагаются локально на сервере.  In one of the variants of implementation, ontologies and / or dictionaries are located locally on the server.
Ещё в одном из вариантов реализации сервер может получать онтологии и словари из внешних источников,  In another implementation variant, the server can receive ontologies and dictionaries from external sources,
Например, через Ontology Lookup Service, который предоставляет интерфейс веб-сервиса для запроса многих онтологий из одного места с унифицированным форматом вывода данных.  For example, through the Ontology Lookup Service, which provides a web service interface for requesting many ontologies from one place with a unified data output format.
В одном из вариантов реализации в качестве источника знаний, вместо онтологий или словарей может использоваться любой источник медицинских данных из которого можно сформировать лес знаний (множество ацикличных направленных графов знаний). К таким источникам относятся, в частности, медицинские схемы-гайдлайны и т.п.  In one of the implementation options, as a source of knowledge, instead of ontologies or dictionaries, any source of medical data can be used from which a forest of knowledge can be formed (many acyclic directed knowledge graphs). Such sources include, in particular, medical scheme-guidelines, etc.
Ещё в одном из вариантов реализации в качестве источника знаний могут выступать медицинские профильные статьи и/или учебники. При этом предварительно найденные статьи обрабатываются известными из уровня техники методами распознавания текстов (с помощью описанного выше лексического и синтаксического анализов, использования обученных моделей распознавания текстов и т.д.).  In one more variant of realization medical profile articles and / or textbooks can act as a source of knowledge. In this case, previously found articles are processed by methods of text recognition known from the prior art (using the above-described lexical and syntactic analyzes, the use of trained text recognition models, etc.).
Ещё в одном из вариантов реализации в качестве источника знаний используются открытые биомедицинские онтологии (ОБО, англ. Open Biomedical Ontologies).  In another of the implementation options, open biomedical ontologies are used as a source of knowledge (OBO, eng. Open Biomedical Ontologies).
В одном из вариантов реализации обработчик производит нормализацию данных (под каждый тип данных могут использоваться свои правила нормализации).  In one of the implementation options, the handler performs data normalization (for each data type, its own normalization rules can be used).
Например, значений измерений определённых показателей крови, оформленных в виде таблиц, обработчик может производить нормализацию упомянутых значений (англ feature scaling), при этом параметры такого преобразования рассчитываются на обучающей выборке. В частности, вычисляются выборочные среднее а и дисперсия s2, при этом For example, the measurement values of certain blood parameters, designed in the form of tables, can be processed by the processor to normalize the mentioned values (feature scaling), and the parameters of such a transformation are calculated on the training set. In particular, sample mean a and variance s 2 are calculated, while
х— а  x— a
х = - s  x = - s
Ещё в одном примере для изображения, где значение каждого пикселя соответствует значению измеренной плотности среды для рентгеновского излучения в Хаундсфилдах обработчик может производить отображение шкалы Хаундсфилда в диапазон [-1 , 1] (нормализовать все целочисленные значения в диапазоне [0..255] для чёрно-белых изображений к действительным значениям в диапазоне [-1.0..1.0]). В частности, нормализация может быть описана формулой:
Figure imgf000012_0001
In another example, for an image where the value of each pixel corresponds to the value of the measured density of the medium for X-rays in Houndsfield, the handler can display the Houndsfield scale in the range [-1, 1] (normalize all integer values to range [0..255] for black and white images to real values in the range [-1.0..1.0]). In particular, the normalization can be described by the formula:
Figure imgf000012_0001
где Where
x - нормализуемое значение в пространстве значений { };  x is the normalized value in the space of values {};
Хтт ~ минимальное значение в пространстве значений { };  Htt ~ the minimum value in the space of values {};
Хтах - минимальное значение в пространстве значений { };  Htah - the minimum value in the space of values {};
c' - нормализованное значение в пространстве значений {X};  c 'is the normalized value in the space of values {X};
Утт - минимальное значение в пространстве значений {К};  Utt - the minimum value in the space of values {K};
Утах - минимальное значение в пространстве значений {У};  Utah - the minimum value in the space of values {Y};
у' - нормализованное значение в пространстве значений {У};  y 'is the normalized value in the space of values {Y};
Ещё в одном примере данные из таблицы, содержащей измерения определённых показателей крови, подвергаются препроцессингу - нормализации данных (приведение каждого из параметров к zero mean unit variance, параметры такого преобразования рассчитываются на обучающей выборке).  In another example, the data from the table containing measurements of certain blood parameters are subjected to preprocessing - data normalization (reduction of each of the parameters to zero mean unit variance, the parameters of such a transformation are calculated on the training set).
Ещё в одном примере данные, представленные в виде изображения в RGB формате, полученные с микроскопа подвергаются постпроцессингу - бинаризации от вероятности к классу. Если вероятность патологии по мнению модели больше заданного порога, то изображение помечается как содержащее патологию, иначе как не содержащее.  In another example, the data presented as an image in the RGB format obtained from a microscope undergoes post-processing - binarization from probability to class. If the probability of pathology in the opinion of the model is greater than a predetermined threshold, then the image is marked as containing pathology, otherwise it does not contain.
В одном из вариантов реализации обработчик производит фильтрацию шума или шумопонижение анализируемых данных (процесс устранения шумов из полезного сигнала с целью повышения его субъективного качества или для уменьшения уровня ошибок в каналах передачи и системах хранения цифровых данных). В частности, при обработке изображений может применяться один из методов пространственного шумоподавления (адаптивная фильтрация, медианная фильтрация, математическая морфология, методы на основе дискретного вейвлет- преобразования и т.д.), для видео - один из методов временного, пространственного или пространственно-временного шумоподавления.  In one of the implementation options, the processor handles noise filtering or noise reduction of the analyzed data (the process of removing noise from the useful signal in order to increase its subjective quality or to reduce the level of errors in transmission channels and digital data storage systems). In particular, one of the methods of spatial noise reduction (adaptive filtering, median filtering, mathematical morphology, methods based on discrete wavelet transform, etc.) can be used in image processing; for video, one of the temporal, spatial or space-time methods noise reduction.
Рассмотрим пример, проиллюстрированный на Фиг.З:  Consider the example illustrated in FIG. 3:
Пусть имеется обучающая выборка 310, состоящая из записей пациентов. Для каждой записи выборки сервер производит предварительную обработку данных, выбранных из полей записи. Так, например, сервер извлекает из обучающей выборки 310 одну запись 301 из истории болезни пациента, определяет состав полей и/или типы данных содержащихся в записи. В данном примере запись 301 содержит дату, описание на естественном языке, снимки КТ, анализ крови. Далее сервер для каждого поля записи производит обработку данных при помощи соответствующего обработчика из пула обработчиков 320 (обработчики 3201..32N). Так, например, дата может быть обработана пустым обработчиком 3201, текст на естественном языке - обработчиком 3202, осуществляющим стандартную для NLP обработку текста, снимки КТ - обработчиком КТ 3203, анализ крови - обработчиком 3204, производящим нормализацию данных. После обработки запись 301 пациента содержит обработанные данные 301*, где символ '*' рядом с полем означает, что в нем содержатся изменённые записи (отличающиеся от первоначальных). Suppose there is an educational sample 310 consisting of patient records. For each sample record, the server preprocesses the data selected from the record fields. For example, the server retrieves one record 301 from the patient’s medical history from the training sample 310, determines the composition of the fields and / or the types of data contained in the record. In this example, the 301 record contains a date, a description in natural language, CT scans, and a blood test. Next, the server for each record field processes the data using the corresponding handler from the handler pool 320 (handlers 3201..32N). So, for example, the date can be processed with an empty handler 3201, text in natural language - handler 3202, performing standard text processing for NLP, CT images - handler CT 3203, blood test - handler 3204, making data normalization. After processing, the patient's record 301 contains the processed data 301 *, where the '*' symbol next to the field means that it contains modified records (different from the original ones).
В одном из вариантов реализации обработчик формируется с использованием одном из скриптовых языков (языков сценариев), так и в виде плагинов, библиотек (в том числе, представляющих собой исполнимые файлы, типа РЕ, например, dll). In one of the implementation options, the handler is formed using one of the scripting languages (scripting languages), and in the form of plug-ins and libraries (including those that are executable files, such as PE, for example, dll).
В одном из вариантов реализации на сервере встроен набор процедур для элементарных действий над типами данных. Комбинирование этих процедур в нужном для пользователя порядке позволяет создавать обработчики самостоятельно. Создание обработчиков в таком случае происходит при помощи встроенной поддержки скриптовых языков или через интерфейс платформы, позволяющий создавать такие обработчики. In one of the options for implementation on the server, a set of procedures for elementary actions on data types is built in. Combining these procedures in the right order for the user allows you to create handlers yourself. Creating handlers in this case occurs with the help of built-in support for scripting languages or through the platform interface that allows you to create such handlers.
После того, как сервер произвёл необходимую предварительную обработку данных, сервер преобразовывает 230 обработанные данные в последовательность медицинских фактов по каждому пациенту с использованием медицинских онтологий.  After the server has performed the necessary preliminary data processing, the server converts 230 processed data into a sequence of medical facts for each patient using medical ontologies.
Вся история болезни преобразуется сервером в последовательность медицинских фактов о пациенте. Факты могут содержать дополнительную информацию, например, биомедицинское изображение, ЭКГ, результаты анализов и т.д.  The entire case history is converted by the server into a sequence of medical facts about the patient. Facts may contain additional information, such as a biomedical image, an ECG, test results, etc.
В качестве иллюстративного примера рассмотрим две записи из электронной истории болезни и их результат преобразования в последовательность медицинских терминов.  As an illustrative example, consider two entries from an electronic medical record and their result of conversion into a sequence of medical terms.
Запись до преобразования:  Record before conversion:
Figure imgf000013_0001
Figure imgf000014_0001
Figure imgf000013_0001
Figure imgf000014_0001
После преобразования истории болезни в набор медицинских фактов, сервер производит автоматическую разметку полученной последовательности медицинских фактов 240 по каждому пациенту, используя извлечённые из истории болезни пациента диагнозы или другие интересующие факты. В случае, если данные размечены, то этот шаг пропускается сервером. After converting the medical history into a set of medical facts, the server automatically marks the received sequence of medical facts 240 for each patient, using diagnoses taken from the patient's medical history or other facts of interest. If the data is marked up, this step is skipped by the server.
В одном из вариантов реализации интересующие факты задаются пользователем сервера или собираются у пользователей данного технического решения (например, у врача).  In one of the implementation options, the facts of interest are set by the server user or collected from users of this technical solution (for example, a doctor).
Например, в качестве интересующих фактов могут выступать списки включающих и исключающих критериев для клинических испытаний, т.е. списки критериев, которым должен соответствовать человек, чтобы быть включённым в клинику (включающие списки), или наоборот быть исключённым из клиники или не быть допущенным в клинику (исключающие списки).  For example, the lists of inclusive and exclusive criteria for clinical trials may be the facts of interest, i.e. lists of criteria that a person must meet in order to be included in the clinic (including lists), or vice versa to be excluded from the clinic or not admitted to the clinic (excluding lists).
Ещё в одном примере включающим критерием может быть заболевание раком печени с опухолью размером не больше 5 мм.  In another example, an inclusive criterion could be liver cancer with a tumor no larger than 5 mm.
Ещё в одном примере исключающим критерием может быть курение, возраст пациента выше 65 лет.  In another example, smoking may be an exclusionary criterion, the patient's age above 65 years.
В одном из вариантов реализации интересующие факты извлекаются из внешних источников.  In one of the implementation options, the facts of interest are extracted from external sources.
Например, интересующие факты могут извлекаться из медицинских информационных систем.  For example, facts of interest can be extracted from medical information systems.
Далее сервер упорядочивает и группирует факты по осмотрам по времени. Такая группировка необходима для того, чтобы рассматривать группу фактов внутри одного осмотра одновременно.  The server then organizes and groups the facts by inspections by time. Such a grouping is necessary in order to consider a group of facts within a single inspection simultaneously.
В одном из вариантов реализации анализы могут относится к приёму, на котором они были назначены, или выделяются в отдельную сущность (отдельный осмотр). В одном из вариантов реализации КТ, МРТ, гистологию относят к отдельному осмотру. In one embodiment, the implementation of the analyzes may relate to the reception at which they were assigned, or allocated to a separate entity (separate inspection). In one of the options for the implementation of CT, MRI, histology refer to a separate examination.
Ещё в одном из вариантов реализации к отдельным осмотрам относят по меньшей мере все методы исследования, содержащие необработанные данные (не отчёт врача, а непосредственный результат в виде изображения, видео, временных меток). Если доступен только отчёт врача или сам факт прохождения исследования, то такие данные рассматриваются как часть осмотра.  In one more variant of realization, at least all research methods containing raw data (not a doctor's report, but an immediate result in the form of an image, video, time stamps) are referred to individual examinations. If only a doctor's report or the fact of passing the study is available, such data are considered as part of the examination.
Для такой группировки по осмотрам сервер использует информацию о времени и/или дате, связанные с каждым фактом.  For such grouping by inspections, the server uses information about the time and / or date associated with each fact.
Далее сервер формируются пары {множество фактов, диагноз} или {множество фактов, интересующий факт} на основании группировки по осмотрам.  Next, the server forms pairs {set of facts, diagnosis} or {set of facts, fact of interest} based on grouping by inspections.
В одном из вариантов реализации пары формируются простым перебором. In one of the options for the implementation of the pair formed by a simple search.
Далее сервер подготавливает обучающую выборку для каждой из модальности данных. Как упоминалось ранее, в качестве модальности данных могут выступать данные гистологии, рентгена, КТ, маммографии и т.д. Next, the server prepares a training set for each of the data modalities. As mentioned earlier, data histology, x-rays, CT, mammography, etc. can be used as a data modality.
Например, для формирования обучающей выборки для модальности КТ сервер отбирает записи, содержащие КТ:  For example, to form a training sample for the modality of CT, the server selects records containing CT:
Figure imgf000015_0001
Figure imgf000015_0001
Затем, после формирования обучающих выборок для каждой модальности, сервер производит обучение первичных репрезентаций 250 независимо для каждой из модальностей. Then, after the formation of training samples for each modality, the server provides training for the primary representations 250 independently for each of the modalities.
Для каждой модальности на сервере задаётся модель (группа моделей), для обучения прогнозирования выявленных в данной обучающей выборке диагнозов, присутствующих в данных модальностях.  For each modality on the server, a model (group of models) is set, for training in forecasting diagnoses found in this training sample that are present in these modalities.
В одном из вариантов реализации в качестве модели могут выступать такие алгоритмы машинного обучения, как:  In one of the implementation options, machine learning algorithms, such as:
• линейная регрессии;  • linear regression;
• логистическая регрессия;  • logistic regression;
• алгоритм к ближайших соседей;  • algorithm to the nearest neighbors;
• случайный лес; • градиентный бустинг на деревьях; • random forest; • gradient boosting on trees;
• байесовы классификаторы;  • Bayes classifiers;
• глубокие нейронные сети (полносвязные, свёрточные, рекуррентные, их комбинации).  • deep neural networks (fully connected, convolutional, recurrent, their combinations).
Ещё в одном из вариантов реализации упомянутая модель удовлетворяет требованию - соответствие модальности, с которым эта модель будет работать.  In one more variant of realization, the mentioned model satisfies the requirement - compliance of the modality with which this model will work.
Например, для изображений используются свёрточные сети.  For example, convolutional networks are used for images.
В одном из вариантов реализации для каждой модальности задаётся несколько моделей.  In one of the implementation options for each modality, several models are defined.
В одном из вариантов реализации модальности группируют в кластеры (например, вся гистология, рентген, маммография и др.), имеющие общую архитектуру моделей (одно параметрическое семейство) и обучающиеся совместно, при этом, каждая модель из кластера имеет разные комплекты весов.  In one of the variants of implementation, modalities are grouped into clusters (for example, all histology, X-ray, mammography, etc.) having a common architecture of models (one parametric family) and studying together, while each model from the cluster has different sets of weights.
В одном из вариантов реализации для каждой модальности формируется набор параметрических семейств моделей. Параметрическое семейство означает, что есть общий вид моделей с некоторым набором параметров, определение которых однозначно задаёт модель.  In one of the implementation options for each modality, a set of parametric model families is formed. The parametric family means that there is a general view of models with a certain set of parameters, the definition of which uniquely defines the model.
Например, если в качестве модели используется нейронная сеть, то один из примеров параметрического семейства это многослойный перцептрон, а параметрами будут количество слоёв и количество нейронов в слоях. Другой пример - любая нейросеть с фиксированной архитектурой, которая порождает параметрическое семейство (к примеру семейство, предназначенное для сегментации изображений, для классификации изображений и т.д.).  For example, if a neural network is used as a model, one of the examples of the parametric family is a multilayer perceptron, and the parameters will be the number of layers and the number of neurons in the layers. Another example is any neural network with a fixed architecture that generates a parametric family (for example, a family designed for image segmentation, for classifying images, etc.).
В рамках данного технического решения могут использоваться следующие параметрические семейства:  The following parametric families can be used within this technical solution:
• свёрточные нейронные сети для работы с изображениями, видео, сигналами;  • convolutional neural networks for working with images, video, signals;
• рекуррентные нейронные сети для работы с последовательностями фактов в истории болезни пациента и для построения прогнозных моделей, для обработки неструктурированной текстовой информации; • recurrent neural networks for working with sequences of facts in the patient’s medical history and for building predictive models for processing unstructured textual information;
• Баейсов подход и деревья решений для работы с табличными данными.• Baeys approach and tabular data decision trees.
Разберём подробней на примере работы с изображениями. Let us examine in more detail on the example of working with images.
В работе с изображениями встречаются следующие основные задачи: классификация изображения (поставить в соответствие каждому изображению один или несколько классов, или меток), сегментация изображений (поставить одну или несколько меток для каждого пикселя изображения), локализация объектов интереса (построить обрамляющий прямоугольник, внутри которого находится объект интереса, для каждого объекта на изображении). Для каждой из этих задач задаётся архитектура, решающая данную задачу. Отличия у модальностей в основном в размере входного изображения и в количестве целевых меток/объектов интереса. За основу каждой такой модели берётся Dense-net, концепт архитектуры которой представлен на фиг. 5. Идея данной архитектуры в использовании дополнительных путей для движения информации внутри модели, что позволяет эффективно обучать даже очень большие модели с большим количеством сверточных слоёв. При заданной модальности, размере входного изображения и количества классов, такая модель образует параметрическое семейство, и веса нейронной сети как раз и является параметрами семейства. Они определяются в процессе обучения, во время которого модели предъявляются изображения и целевые метки, и нейронная сеть изменяет свои веса так, чтобы её отклик совпадал с тем, что содержится в разметке обучающей выборки (так называемые целевые значения или целевой отклик). The following basic tasks are encountered in working with images: image classification (assign one or several classes or labels to each image), image segmentation (put one or several labels for each image pixel), localization of objects of interest (construct a framing rectangle within which object of interest (for each object in the image). For each of these tasks, an architecture is set that solves this problem. Modalities differ mainly in the size of the input image and in the number of target labels / objects of interest. The basis of each such model is taken by Dense-net, whose architecture concept is represented in FIG. five. The idea of this architecture is to use additional paths for the movement of information within the model, which makes it possible to effectively train even very large models with a large number of convolutional layers. With a given modality, the size of the input image and the number of classes, such a model forms a parametric family, and the weights of the neural network are just the parameters of the family. They are defined in the learning process, during which the models are presented with images and target labels, and the neural network changes its weights so that its response coincides with what is contained in the markup of the training set (the so-called target values or target response).
Далее для каждой модальности сервер производит поиск параметров семейства, дающих оптимальный результат на данной обучающей выборке.  Further, for each modality, the server searches for family parameters that give the optimal result for this training sample.
В одном из вариантов реализации для поиска параметров семейства, дающих оптимальный результат, используется по меньшей мере:  In one of the implementation options for finding family parameters that give an optimal result, at least the following is used:
• метод Монте-Карло;  • Monte Carlo method;
• Байесова оптимизация.  • Bayesian optimization.
В одном из вариантов реализации для оценки моделей использует кросс- валидация (скользящий контроль или кросс-проверка), на основании которой выбирается лучшая по показателям модель для данной обучающей выборки для данной модальности. Процедура скользящего контроля осуществляется следующим образом. Выборка XL разбивается N различными способами на две непересекающиеся подвыборки: In one of the implementation options for the evaluation of models, it uses cross-validation (sliding control or cross-check), on the basis of which the best-performing model for this training set for this modality is selected. The sliding control procedure is as follows. A sample of X L is divided in two different ways into two non-intersecting subsamples:
xL = x™ux , x L = x ™ ux,
где Where
— обучающая подвыборка длины т,  - training subsample of length t,
— контрольная подвыборка длины к = L— m,  - control subsample of length k = L— m,
n = l..N — номер разбиения.  n = l..N is the partition number.
Для каждого разбиения п строится алгоритм  For each partition, an algorithm is built.
On = ДОС) O n = DOS)
и вычисляется значение функционала качества and calculates the value of the quality functional
Qn = (Нап,х ) Qn = (At n , x)
Среднее арифметическое значений Qn по всем разбиениям называется оценкой скользящего контроля : The arithmetic average of Q n values over all partitions is called the sliding control estimate:
cv(ji,xL = 1SZ.1 Q(um.xb· cv (ji, x L = 1SZ. 1 Q (um.xb ·
Именно на основании оценки скользящего контроля и выбирается лучшая модель.  It is on the basis of the evaluation of the sliding control that the best model is chosen.
В одном из вариантов реализации модели добавляются по мере сбора данных и добавления новых источников данных о пациентах. Например, в медицинской информационной системе стал доступен новый тип исследований (например, ЭКГ)· Далее для модальности ЭКГ формируется обучающая выборка, затем на этой обучающей выборке обучается нейросетевая (фиг. 4) модель (группа моделей), из которой получается репрезентация этой модальности. In one of the implementation options, the models are added as data is collected and new patient data sources are added. For example, a new type of research (eg, ECG) has become available in the medical information system. Next, a training sample is formed for the ECG modality, then a neural network model (Fig. 4) is trained on this training sample, from which the representation of this modality is obtained.
После того, как модели обучены, сервер формирует первичные векторные репрезентации для каждой модальности. Для этого на вход каждой модели, обученной для данной модальности, сервер подаёт ранее предобработанные данные пациентов, определяет выходные значения модели и значения весов последнего скрытого слоя данной модели для каждой записи. Значения весов последнего скрытого слоя далее будут использоваться сервером в качестве первичных векторных репрезентаций, которые представляют собой отображение модальности в вектор фиксированного размера, определяемого моделью. В результате сервером формируется новый набор данных, представляющий собой трансформацию исходного.  After the models are trained, the server forms the primary vector representations for each modality. To do this, the input of each model trained for this modality, the server provides previously prepared patient data, determines the output values of the model and the weights of the last hidden layer of this model for each record. The weights of the last hidden layer will then be used by the server as primary vector representations, which represent the mapping of modality to a vector of fixed size determined by the model. As a result, the server generates a new data set, which is a transformation of the original.
У каждой модальности есть своя размерность вектора, например, если модальность - т^, а размерность общего пространства - п, то будет строиться отображение:  Each modality has its own vector dimension, for example, if the modality is m ^ and the dimension of the common space is n, then a mapping will be constructed:
Rmu -+ Rn Rmu - + R n
Например, пусть  For example, let
х Е Rmu,y€ Rn, x E R mu , y € R n ,
тогда отображение: then the mapping:
у = Ax + b,  y = ax + b,
где Where
А Е /?(пт Е Дп And E /? (p ' t e d p
Ещё в одном примере  Another example
у = f(Ax + Ь),  y = f (Ax + b),
где Where
/ - нелинейная функция (например, ReLU, sigmoid, и т.д.).  / - non-linear function (for example, ReLU, sigmoid, etc.).
То есть А есть матрица размером ( п , ту , а Ь есть вектор размера п  That is, A is a matrix of size (n, that, and b is a vector of size n
В одном из вариантов реализации векторная репрезентация текста строится в пространстве, в которое отображаются первичные векторные репрезентации всех остальных модальностей, т.е. первичная векторная репрезентация текстовой модальности отображается в пространство общих репрезентаций тождественным отображением.  In one of the implementation options, the vector representation of the text is built in the space in which the primary vector representations of all other modalities are displayed, i.e. the primary vector representation of the textual modality is mapped into the space of general representations by the identity mapping.
В случае использование не нейросетевой модели возможны два сценария: In the case of using a non-neural network model, two scenarios are possible:
• в качестве репрезентации данных принимается выход модели как таковой; • нейросетевая модель представляет собой классификатор, отображающий входные данные в некоторый набор фактов, для которых уже есть векторные представления. Поскольку гарантируется, что любая модель будет порождать вектор вероятности наличия факта, то векторная репрезентация будет взвешенная по вероятности сумма вектор-репрезентаций фактов. • the output of the model as such is taken as the representation of the data; • The neural network model is a classifier that displays input data into a certain set of facts for which there are already vector representations. Since it is guaranteed that any model will generate a probability vector of the presence of a fact, then the vector representation will be a probability-weighted sum of vector-representations of the facts.
Например, строится модель  For example, a model is built.
Kc, 0·.c -* g, K c , 0 · .c - * g,
где Where
X - множество признаков,  X - a set of signs
Y = {y i = 1, ... , n) - множество целевых фактов  Y = {y i = 1, ..., n) is the set of target facts
x - параметры модели.  x - model parameters.
Без ограничения общности можно переформулировать задачу следующим образом:  Without loss of generality, we can reformulate the problem as follows:
Р = (*, £): - Я71. P = (*, £): - I am 71 .
при этомwherein
Figure imgf000019_0001
Figure imgf000019_0001
При таких ограничениях на модель f можно трактовать как вероятность наличия факта yi у пациента (либо другие варианты, в зависимости от решаемой задачи, например, появление факта с горизонтом год и так далее). With such restrictions on the model f, it can be interpreted as the probability of the fact that the patient has the fact yi (or other options, depending on the problem being solved, for example, the occurrence of a fact with a horizon a year and so on).
Имея обучающую выборку {*,·, tj\,j = 1, ..., N, можно определить параметры модели x. Обозначим найденные в процессе обучения параметры модели как £. Также, поскольку каждый из yt представляет собой медицинский факт, то ему соответствует векторная репрезентация 1^. Having the training sample {*, ·, tj \, j = 1, ..., N, it is possible to determine the parameters of the model x. Denote the model parameters found in the learning process as £. Also, since each of y t is a medical fact, it corresponds to a vector representation of 1 ^.
Тогда, для нового случая получаем следующее: строим соответствующий этому случаю вектор входных признаков х\ получаем соответствующий ему вектор вероятностей р = /(x, f); векторная репрезентация данной модальности в данном случае будет строиться следующим образом:  Then, for the new case we get the following: we construct the vector of input features x \ corresponding to this case and we obtain the corresponding vector of probabilities ρ = / (x, f); the vector representation of this modality in this case will be constructed as follows:
V ^ P V- V ^ P V-
Сервер формирует первичные векторные репрезентации для каждой из модальностей в результате чего получается набор векторных репрезентаций для медицинских фактов и терминов (диагнозов, симптомов, процедур и медикаментов) и модели для отображения первичных векторных репрезентаций в пространство совместных репрезентаций. The server forms the primary vector representations for each of the modalities, resulting in a set of vector representations for medical facts and terms (diagnoses, symptoms, procedures and medications) and models for mapping the primary vector representations to the joint representation space.
В одном из вариантов реализации сервер дополнительно предобучает векторные репрезентации медицинских терминов (концептов), например:  In one of the implementation options, the server additionally pre-educates vector representations of medical terms (concepts), for example:
• при наличии дополнительного источника данных в виде большого корпуса медицинской литературы; • при наличии альтернативного обучающего корпуса, который был собран независимо от текущего. • if there is an additional source of data in the form of a large body of medical literature; • if there is an alternative training building that was assembled independently of the current one.
Сервер осуществляет предобучение медицинских терминов (концептов) с использованием дистрибутивной семантики и векторного представления слов.  The server performs pre-training of medical terms (concepts) using distributive semantics and vector representation of words.
Каждому слову присваивается свой контекстный вектор. Множество векторов формирует словесное векторное пространство.  Each word is assigned its own context vector. A set of vectors forms a verbal vector space.
В одном из вариантов реализации предобучение медицинских терминов (концептов) осуществляется при помощи программного инструмента анализа семантики естественных языков Word2vec с использованием онтологии для регуляризации.  In one of the variants of implementation, pre-training of medical terms (concepts) is carried out using the Word2vec software for the analysis of the semantics of natural languages using ontology for regularization.
Регуляризация в статистике, машинном обучении, теории обратных задач— метод добавления некоторой дополнительной информации к условию с целью решить некорректно поставленную задачу или предотвратить переобучение. Эта информация часто имеет вид штрафа за сложность модели.  Regularization in statistics, machine learning, inverse problem theory is a method of adding some additional information to a condition in order to solve an incorrectly posed problem or prevent retraining. This information often has the appearance of a fine for the complexity of the model.
Например, это могут быть:  For example, these may be:
• ограничения гладкости результирующей функции;  • restrictions on the smoothness of the resulting function;
• ограничения по норме векторного пространства;  • restrictions on the norm of the vector space;
• регуляризация на весах и на активациях нейронов;  • regularization on scales and on neuron activations;
• известные из уровня техники методы регуляризации.  • well-known regularization methods.
В данной техническом решении используются известные из уровня техники основные и общепринятые для машинного и глубокого обучения способы регуляризации. Допустим, что Е - функция ошибки, минимизируемая в процессе обучения, W - веса модели, А - активация всех нейронов скрытых слоёв (если речь ведётся о нейронной сети). Тогда, одна из наиболее широко используемых техник регуляризации под названием LI
Figure imgf000020_0001
регуляризация может быть описан следующим образом: Заместо минимизации Е решается задача минимизации
In this technical solution are used known from the prior art basic and generally accepted for machine and in-depth training methods of regularization. Suppose that E is the error function minimized in the learning process, W is the model weight, and A is the activation of all neurons of the hidden layers (if it is a neural network). Then, one of the most widely used regularization techniques called L I
Figure imgf000020_0001
regularization can be described as follows: Instead of minimizing E, the problem of minimizing is solved
регуляризация весов),  regularization of weights),
регуляризация весов), regularization of weights),
Figure imgf000020_0002
Figure imgf000020_0002
Е + aLx(A min (Lt регуляризация активаций), E + aL x (A min (L t regularization of activations),
Е + aL2(A) -» min ( 2 регуляризация активаций), где
Figure imgf000020_0003
норма.
Е + aL 2 (A) - »min ( 2 regularization of activations), where
Figure imgf000020_0003
norm.
Возможны также различные варианты приведённых случаев. Данные регуляризующие слагаемые (термы) накладывают дополнительные (нежёсткие) ограничения (т.е. не заданные в виде явной системы уравнений и/или неравенств, порождающих множество W с Rn допустимых весов модели) ограничения на возможные веса модели, что позволяет избежать переобучения. Также, помимо L X/L2 регуляризации могут быть использованы: • ранний останов: There are also various options for the above cases. These regularizing terms (terms) impose additional (non-rigid) constraints (that is, not specified as an explicit system of equations and / or inequalities that generate the set W with R n allowable weights of the model) constraints on the possible weights of the model, thus avoiding overtraining. Also, besides L X / L 2 regularization can be used: • early stop:
суть данного метода в том, чтобы из обучающей выборки выделить небольшую тестовую выборку, которая не участвует явно в процессе обучения, но используется для измерения ошибки модели в процессе обучения. Как только ошибка на этой тестовой выборке начинает расти, обучение прекращается.  The essence of this method is to select a small test sample from the training sample, which is not clearly involved in the learning process, but is used to measure the model error in the learning process. As soon as the error on this test sample begins to grow, learning stops.
• синтетическое увеличение обучающей выборки (англ data augmentation): суть данного подхода в том, что к каждому примеру обучающей выборки с некоторой вероятностью применяется преобразование, не меняющий желаемый отклик или позволяющее, применив аналогичное преобразование, получить новый ожидаемый отклик, который будет корректным. Например, классифицируя рентгеновское изображение грудной клетки на предмет наличия или отсутствия признаков пневмонии, к входному изображению можно применить зеркальное отображение относительно вертикальной оси, т.к. очевидно это не изменит целевую метку. • Synthetic increase of the training sample (data augmentation engl): the essence of this approach is that with each sample of the training sample a transformation is applied with some probability that does not change the desired response or allows applying a similar transformation to obtain a new expected response that will be correct. For example, by classifying an x-ray image of the chest for the presence or absence of signs of pneumonia, a mirror image about the vertical axis can be applied to the input image, since obviously this will not change the target label.
• могут быть явно наложены ограничения на параметры модели через ограничение на значение норм вектора весов модели: X( ) < g или L2(W) < g. • restrictions on the model parameters can be explicitly imposed through the restriction on the value of the norms of the model weight vector: X () <g or L 2 (W) <g.
• могут применяться и другие методы регуляризации, широко используемые в машинном и глубоком обучении. • other regularization methods widely used in machine and deep learning can be applied.
Иллюстративно опишем работу инструмента word2vec: на вход word2vec принимает большой текстовый корпус и сопоставляет каэдому олову вектор, выдавая координаты слов на выходе. Сначала он создаёт словарь, «обучаясь» на входных текстовых данных, а затем вычисляет векторное представление слов. Векторное представление основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а, следовательно, имеющие схожий смысл), в векторном представлении будут иметь близкие координаты векторов-слов. Полученные векторы-слова могут быть использованы для обработки естественного языка и машинного обучения.  We illustratively describe the work of the word2vec tool: as an input, word2vec takes a large text corpus and matches a tin vector to the tin logo, giving the coordinates of the output words. First, he creates a dictionary, “learning” on the input text data, and then calculates a vector representation of the words. A vector representation is based on contextual intimacy: words that appear in the text next to identical words (and, therefore, have a similar meaning) will have close coordinates of word vectors in a vector representation. The resulting word vectors can be used for natural language processing and machine learning.
В word2vec существуют два основных алгоритма обучения: CBOW (Continuous Bag of Words) и Skip-gram. CBOW («непрерывный мешок со словами») — модельная архитектура, которая предсказывает текущее слово, исходя из окружающего его контекста. Архитектура типа Skip-gram действует иначе: она использует текущее слово, чтобы предугадывать окружающие его слова. Порядок слов контекста не оказывает влияния на результат ни в одном из этих алгоритмов.  There are two basic learning algorithms in word2vec: CBOW (Continuous Bag of Words) and Skip-gram. CBOW (“continuous bag with words”) is a model architecture that predicts the current word based on its surrounding context. The architecture of the Skip-gram type works differently: it uses the current word to predict the words surrounding it. The word order of the context does not affect the result in any of these algorithms.
Получаемые на выходе координатные представления векторов-слов позволяют вычислять «семантическое расстояние» между словами. Основываясь на контекстной близости этих слов, технология word2vec делает свои предсказания.  The resulting coordinate representations of word vectors allow us to calculate the "semantic distance" between words. Based on the context of these words, word2vec technology makes its predictions.
В одном из вариантов реализации при использовании онтологии как регуляризации (ограничения на структуру пространства) используется attention.  In one of the implementation options when using ontology as a regularization (restrictions on the structure of space), attention is used.
В одном из вариантов реализации при использовании онтологии для регуляризации (ограничения на структуру пространства) используется многоуровневая (иерархическая) функция ошибки, опирающаяся на соотношения между терминами из онтологии. Онтология используется в частном случае в виде графа знаний, который задаёт иерархию терминов и их категорий. Это позволяет заранее упорядочить пространство векторного представления, так как очевидно, что близость в графе знаний должна означать близость в векторном пространстве между терминами или категориями. Используя это, можно наложить штраф на обучение векторных презентаций. В дальнейшем минимизируется штраф вместе с основной функцией ошибки. Обозначим за с вектор текущего термина. За q обозначим бинарную меру близости между двумя терминами сх и с2 по онтологии. Если q(c1, c2) = 0, то термины можно считать близкими, если q(cltc2) = 1, то далекими. Тогда функция ошибки на онтологии может быть задана:
Figure imgf000022_0001
In one of the options for implementation when using ontology for regularization (restrictions on the structure of space) is used multilevel (hierarchical) error function, based on relations between terms from ontology. The ontology is used in the particular case in the form of a knowledge graph, which defines a hierarchy of terms and their categories. This allows you to pre-order the space of the vector representation, since it is obvious that proximity in the knowledge graph should mean proximity in the vector space between terms or categories. Using this, you can impose a fine on learning vector presentations. In the future, the penalty is minimized along with the main error function. Denote by c the vector of the current term. For q, we denote the binary measure of proximity between two terms from x and 2 on the ontology. If q (c 1 , c 2 ) = 0, then the terms can be considered close, if q (c lt c 2 ) = 1, then far. Then the error function on the ontology can be specified:
Figure imgf000022_0001
Теперь, в процессе обучения векторных репрезентаций OD(c) может использоваться по аналогии с LX/L2 регуляризацией.Now, in the process of learning vector representations, OD (c) can be used by analogy with the L X / L 2 regularization.
Использование регуляризации с помощью онтологии позволяет улучшить качество модели, не прибегая к расширению обучающей выборки. За счёт разумного ограничения на пространство репрезентаций, накладываемые регуляризацией, повышается качество модели, что позволяет в частности избежать переобучения, стать алгоритму более устойчивым по отношению к выбросам и ошибкам в обучающем наборе. Стандартные методы классической регуляризации также накладывают ограничения на пространство репрезентаций, но они только сужают варианты, в отличии от регуляризации на онтологии, которая накладывает ограничения на пространство репрезентаций, основанные на внешней информации о доменной области. The use of regularization with the help of ontology allows to improve the quality of the model, without resorting to the expansion of the training sample. Due to a reasonable restriction on the space of representations imposed by regularization, the quality of the model is improved, which makes it possible in particular to avoid retraining and to make the algorithm more stable with respect to outliers and errors in the training set. Standard classical regularization methods also impose restrictions on the representation space, but they only narrow the options, in contrast to regularization on ontology, which imposes restrictions on the representation space based on external information about the domain domain.
В одном из вариантов реализации онтология, используемая для регуляризации, представляет собой внешний относительно системы параметр, может задаваться заранее и зависеть от соответствующей системы кодов заболеваний (например, ldcd/Ю, МКБ-10 и т.д.).  In one embodiment, the ontology used for regularization is a parameter external to the system, can be set in advance and depend on the corresponding system of disease codes (for example, ldcd / S, ICD-10, etc.).
Для каждой нейросетевой модели, полученной на данном шаге, извлекается первичная векторная репрезентация как выход скрытого слоя. Упомянутая модель позволяет отобразить входные данные заданной модальности в первичное векторное представление. Это требует простых манипуляций с обученной моделью, по сути сердящейся к удалению из модели выходного слоя.  For each neural network model obtained in this step, the primary vector representation is extracted as the output of the hidden layer. This model allows you to display the input data of a given modality in the primary vector representation. This requires simple manipulations with a trained model, essentially angry at removing the output layer from the model.
После обучения и получения первичных репрезентаций сервер осуществляет обучение совместных репрезентаций 260 (проиллюстрировано на фиг.6)(англ. coordinated multimodal machine learning, подробнее“Multimodal Machine Learning: A Survey and Taxonomy”, Tadas Baltrusaitis, Chaitanya Ahuja, and Louis-Philippe Morency).  After training and receiving the primary representations, the server performs the learning of the joint representations 260 (illustrated in Fig. 6) (English coordinated multimodal machine learning, more details “Multimodal Machine Learning: A Survey and Taxonomy”, Tadas Baltrusaitis, Chaitanya Ahuja, and Louis-Philippe Morency ).
Для того, чтобы использовать в процессе обучения совместных репрезентаций нетекстовые данные, например, медицинские изображения, необходимо обучить модель отображения из пространства этой модальности в общее векторное пространство. Для этого используется первичная векторизация модальности и обучаемая функция представления из первичной векторной репрезентации в общую, при этом в качестве обучаемой функции может выступать описанная выше модель (модель, обученная для отображения из пространства заданной модальности в общее векторное пространство). In order to use non-textual data, for example, medical images, in the learning process of joint representations, it is necessary to train a model of the mapping from the space of this modality to the common vector space. For this, the primary vectorization of the modality and the learning function of the representation from the primary vector are used. representations in general, while the model described above can be used as a learning function (a model trained to map from a given modality space to a common vector space).
Например, если модель занимается исключительно классификацией изображения, то за последним свёрточным слоем может следовать несколько скрытых полносвязных слоев. В таком случае берётся выход именно последнего скрытого свёрточного, а не полносвязного слоя.  For example, if a model deals exclusively with image classification, then several hidden fully connected layers may follow the last convolutional layer. In this case, it is the output of the last hidden convolutional layer that is taken, and not the fully connected layer.
Когда же в истории болезни встречается нетекстовая модальность, например, КТ исследование, берётся его первичная векторная репрезентация, обрабатывается с использованием многослойного перцептрона, при этом выход этого перцептрона считается вектором-репрезентацией данного изображения и на нем считается косинусное расстояние с его соседями.  When a non-textual modality occurs in the history of a disease, for example, a CT study, its primary vector representation is taken, processed using a multilayer perceptron, and the output of this perceptron is considered to be the vector representation of this image and its cosine distance is considered on it.
Далее используется skip-gram, но, когда дело доходит до нетекстовых модальностей (например, медицинские изображения), в качестве их векторных представлений, и используются выход функции для этой модальности, при этом на вход skip-gram передаётся корпус из последовательностей медицинских фактов, извлечённый из историй болезни или медицинских текстов.  Next, skip-gram is used, but when it comes to non-textual modalities (for example, medical images), as their vector representations, the output of the function for this modality is used, with the body of medical fact sequences extracted from the skip-gram input from medical records or medical texts.
Затем, после обучения совместных репрезентаций сервер производит обучение финальных моделей и параметров агрегации 270.  Then, after training the joint representations, the server will train the final models and aggregation parameters 270.
Агрегация представляет собой получение из набора векторов, где каждый вектор представляет медицинский факт из истории болезни выбранного пациента единого вектора.  Aggregation is a receipt from a set of vectors, where each vector represents a medical fact from the history of a selected patient a single vector.
Каждому факту присваивается вес, получаемый в процессе обучения. Формируется набор весов, которые используются в процессе получения прогноза/диагноза для конкретного пациента - параметры агрегации. Затем определяют взвешенную сумму - домножая каждый вектор в истории болезни пациента на соответствующий ему вес и полученные вектора суммируются. Обычно, при агрегации вектор-репрезентаций используется прямая сумма векторов сад =
Figure imgf000023_0001
. где сад агрегированное представление пациента, - векторные репрезентации фактов в истории данного пациента. Однако, такой вариант агрегации не всегда может быть оптимальным, так как каждый из фактов может иметь разный вес с точки зрения принятия решения для каждой из нозологии или же для этого пациента. Поэтому предлагается использовать в качества агрегации следующий подход сад = Xf=1 aiCf, где а, есть скаляр, S?=i ai = 1. Каждый их может быть как явным параметров модели и определяться в процессе обучения, так и представлять из себя функцию вида а{ = f(i, сх, с2, ... , ск, гр), где y есть параметры этой функции, которые определяются в процессе обучения со всеми остальными весами модели.
Each fact is assigned a weight obtained in the learning process. A set of weights is formed, which are used in the process of obtaining a prediction / diagnosis for a specific patient - aggregation parameters. Then determine the weighted sum - multiplying each vector in the patient's history with the corresponding weight and the resulting vectors are added. Usually, the aggregation of vector representations uses the direct sum of vectors with hell =
Figure imgf000023_0001
. where with hell is the aggregated representation of the patient, - vector representations of the facts in the history of the patient. However, such an aggregation option may not always be optimal, since each of the facts may have a different weight in terms of decision-making for each of the nosology or for this patient. Therefore, it is proposed to use as an aggregation the following approach with hell = Xf = 1 aiC f , where a, is a scalar, S? = I ai = 1. Each of them can be either explicit model parameters and determined in the learning process, or be a function of the form a { = f (i, с х , с 2 , ..., с к , г), where y is the parameters of this function, which are determined in the learning process with all the other weights of the model.
Строится граф вычислений, где веса присутствуют как параметры. Дальше параметры графа оптимизируются под текущий набор данных методом градиентного спуска. Получаемый в результате набор весов является обучаемым, то есть модифицируется вместе с остальными весами модели в процессе обучения. Веса определяют конкретную функцию из параметрического семейства, которая из нескольких входных векторов формирует один выходной. Все вышесказанное можно резюмировать следующим образом: Обучение классификатора под группу диагнозов осуществляется на основе графов, обучающая выборка генерируется из доступных EHR в автоматическом режиме на базе NLP-техник (извлечение фактов + расположение их во временном порядке, дальше из них генерируются пары «факты»-«диагноз»). Выбор классификатора детерминирован возможностью осуществлять работу с векторными некатегориальными признаками и в данном способе это многослойные полносвязные нейронные сети с остатками. A graph of calculations is constructed, where weights are present as parameters. Further, the graph parameters are optimized for the current dataset using the gradient descent method. The resulting set of weights is a learner, that is, it is modified along with the rest of the model weights in the learning process. Weights define a specific function from a parametric family, which, from several input vectors, forms one output. All of the above can be summarized as follows: Classifier training for a group of diagnoses is based on graphs, the training sample is generated from available EHRs automatically based on the NLP technician (extracting the facts + arranging them in a time order, then "diagnosis"). The choice of the classifier is determined by the ability to work with vector non-categorical signs and in this method it is multi-layer fully connected neural networks with residues.
На Фиг.7 изображены два пайплайна (pipeline) для ЭКГ и биомедицинских изображений, например, КТ грудной клетки. Данные попадают сначала в блок препроцесса. Блок препроцесса доменно-специфичный и преобразует входные данные к виду, который модель охшдает получить. Преобразованные данные отправляются в соответствующую модальности упомянутых данных модель - например, КТ грудного отдела отправляется в нейросеть, которая и анализирует данное исследование. Модель может выдавать результаты в двух видах (два выхода): это собственно желаемый выход модели (вероятность патологии, карты сегментации и т.д.) и векторную репрезентацию данного конкретного примера. Желаемый выход модели отправляется в модуль постпроцесса, который сопряжён с моделью, и выход этого блока показывается человеку-эксперту, например, или отправляется заказчику в виде отчета или в другом, удобном для него виде.  Figure 7 shows two pipelines for the ECG and biomedical images, for example, CT of the chest. The data first falls into the preprocessing block. The preprocessing block is domain-specific and transforms the input data into a form that the model can get. The transformed data is sent to the corresponding modality of the mentioned data model - for example, a CT scan of the thoracic section is sent to the neural network, which analyzes this study. The model can produce results in two forms (two outputs): this is the desired output of the model (probability of pathology, segmentation maps, etc.) and the vector representation of this particular example. The desired output of the model is sent to the post-process module that is associated with the model, and the output of this block is shown to the expert person, for example, or sent to the customer in the form of a report or in another convenient form.
В центральной схеме изображено векторное пространство медицинских концептов, которое строится на основе skip-gram и регуляризация по онтологии и каждый концепт отображается в определённую точку этого пространства. Для каждой модели также строится отображение в это пространство медицинских концептов из векторной репрезентации, которая порождена моделью из пайплайна, через функцию отображения.  The central diagram shows the vector space of medical concepts, which is based on skip-gram and ontology regularization, and each concept is mapped to a specific point in this space. For each model, the mapping into this space of medical concepts from vector representation, which is generated by the pipeline model, through the mapping function is also constructed.
Дальше из этого общего пространства забираются вектора для конкретного пациента и отправляются в финальную модель, где агрегируются в единую модель пациента, где по ней в дальнейшем ставится диагноз и/или рекомендуется лечение и т.д.  Further, vectors for a particular patient are taken from this common space and sent to the final model, where they are aggregated into a single patient model, where it is later diagnosed and / or treatment is recommended, etc.
После того, как все необходимые действия выполнены, администратор, врач или иной пользователь добавляет на сервер (отправляют) записи пациента, которые необходимо проанализировать.  After all the necessary actions have been completed, the administrator, doctor or other user adds (sends) patient records to the server, which must be analyzed.
Отображение результатов может быть в виде рекомендаций, выделения регионов интереса на медицинских изображения, в виде отчетов.  Displaying the results can be in the form of recommendations, highlighting regions of interest on medical images, in the form of reports.
На Фиг.8 показан пример компьютерной системы общего назначения, на которой может выполняться данное техническое решение и которая включает в себя многоцелевое вычислительное устройство в виде компьютера 20 или сервера, включающего в себя процессор 21, системную память 22 и системную шину 23, которая связывает различные системные компоненты, включая системную память с процессором 21.  FIG. 8 shows an example of a general-purpose computer system on which a given technical solution can be performed and which includes a multi-purpose computing device in the form of a computer 20 or a server including a processor 21, a system memory 22 and a system bus 23 that interconnects various system components, including system memory with a processor 21.
Системная шина 23 может быть любого из различных типов структур шин, включающих шину памяти или контроллер памяти, периферийную шину и локальную шину, использующую любую из множества архитектур шин. Системная память включает постоянное запоминающее устройство (ПЗУ) 24 и оперативное запоминающее устройство (ОЗУ) 25. В ПЗУ 24 хранится базовая система ввода/вывода 26 (БИОС), состоящая из основных подпрограмм, которые помогают обмениваться информацией между элементами внутри компьютера 20, например, в момент запуска. The system bus 23 may be any of various types of bus structures including a memory bus or memory controller, a peripheral bus, and a local bus using any of a variety of bus architectures. Systemic the memory includes a read-only memory (ROM) 24 and a random access memory (RAM) 25. The ROM 24 stores the basic input / output system 26 (BIOS), consisting of the main routines that help to exchange information between the elements inside the computer 20, for example, moment of launch.
Компьютер 20 также может включать в себя накопитель 27 на жёстком диске для чтения с и записи на жёсткий диск, накопитель 28 на магнитных дисках для чтения с или записи на съёмный диск 29, и накопитель 30 на оптическом диске для чтения с или записи на съёмный оптический диск 31 такой, как компакт-диск, цифровой видео-диск и другие оптические средства. Накопитель 27 на жёстком диске, накопитель 28 на магнитных дисках и накопитель 30 на оптических дисках соединены с системной шиной 23 посредством, соответственно, интерфейса 32 накопителя на жёстком диске, интерфейса 33 накопителя на магнитных дисках и интерфейса 34 оптического накопителя. Накопители и их соответствующие читаемые компьютером средства обеспечивают энергонезависимое хранение читаемых компьютером инструкций, структур данных, программных модулей и других данных для компьютера 20.  Computer 20 may also include a hard disk drive 27 for reading from and writing to a hard disk, a magnetic disk drive 28 for reading from or writing to a removable disk 29, and a storage device 30 for an optical disk to read from or writing to a removable optical disk. a disk 31 such as a compact disk, a digital video disk and other optical means. The hard disk drive 27, the magnetic disk drive 28 and the optical disk drive 30 are connected to the system bus 23 via the hard disk drive interface 32, the magnetic disk drive interface 33 and the optical drive interface 34. Drives and their respective computer-readable media provide non-volatile storage of computer-readable instructions, data structures, program modules and other data for the computer 20.
Хотя описанная здесь типичная конфигурация использует жёсткий диск, съёмный магнитный диск 29 и съёмный оптический диск 31 , специалист примет во внимание, что в типичной операционной среде могут также быть использованы другие типы читаемых компьютером средств, которые могут хранить данные, которые доступны с помощью компьютера, такие как магнитные кассеты, карты флеш-памяти, цифровые видеодиски, картриджи Бернулли, оперативные запоминающие устройства (ОЗУ), постоянные запоминающие устройства (ПЗУ) и т.п.  Although the typical configuration described here uses a hard disk, removable magnetic disk 29 and removable optical disk 31, the technician will take into account that other types of computer-readable media that can store data that is accessible by computer can also be used in a typical operating environment. such as magnetic cassettes, flash memory cards, digital video disks, Bernoulli cartridges, random access memory (RAM), read-only memory (ROM), etc.
Различные программные модули, включая операционную систему 35, могут быть сохранены на жёстком диске, магнитном диске 29, оптическом диске 31, ПЗУ 24 или ОЗУ 25. Компьютер 20 включает в себя файловую систему 36, связанную с операционной системой 35 или включённую в неё, одно или более программное приложение 37, другие программные модули 38 и программные данные 39. Пользователь может вводить команды и информацию в компьютер 20 при помощи устройств ввода, таких как клавиатура 40 и указательное устройство 42. Другие устройства ввода (не показаны) могут включать в себя микрофон, джойстик, геймпад, спутниковую антенну, сканер или любое другое.  Various program modules, including the operating system 35, can be stored on a hard disk, magnetic disk 29, optical disk 31, ROM 24 or RAM 25. Computer 20 includes a file system 36 associated with the operating system 35 or included in it or more software application 37, other software modules 38, and software data 39. A user can enter commands and information into computer 20 using input devices such as keyboard 40 and pointing device 42. Other input devices (not shown) may include Be a microphone, joystick, gamepad, satellite dish, scanner, or any other.
Эти и другие устройства ввода соединены с процессором 21 часто посредством интерфейса 46 последовательного порта, который связан с системной шиной, но могут быть соединены посредством других интерфейсов, таких как параллельный порт, игровой порт или универсальная последовательная шина (УПШ). Монитор 47 или другой тип устройства визуального отображения также соединён с системной шиной 23 посредством интерфейса, например, видеоадаптера 48. В дополнение к монитору 47, персональные компьютеры обычно включают в себя другие периферийные устройства вывода (не показано), такие как динамики и принтеры.  These and other input devices are often connected to the processor 21 via the serial port interface 46, which is connected to the system bus, but can be connected via other interfaces, such as the parallel port, the game port, or the universal serial bus (USB). A monitor 47 or other type of visual display device is also connected to system bus 23 via an interface, for example, video adapter 48. In addition to monitor 47, personal computers typically include other peripheral output devices (not shown), such as speakers and printers.
Компьютер 20 может работать в сетевом окружении посредством логических соединений к одному или нескольким удалённым компьютерам 49. Удалённый компьютер (или компьютеры) 49 может представлять собой другой компьютер, сервер, роутер, сетевой ПК, пиринговое устройство или другой узел единой сети, а также обычно включает в себя большинство или все элементы, описанные выше, в отношении компьютера 20, хотя показано только устройство хранения информации 50. Логические соединения включают в себя локальную сеть (ЛВС) 51 и глобальную компьютерную сеть (ГКС) 52. Такие сетевые окружения обычно распространены в учреждениях, корпоративных компьютерных сетях, Интернете. Computer 20 may operate in a networked environment through logical connections to one or more remote computers 49. Remote computer (or computers) 49 may be another computer, server, router, network PC, peer device or another node of a single network, and usually includes most or all of the elements described above with respect to computer 20, although only the device is shown storage information 50. Logical connections include a local area network (LAN) 51 and a global computer network (GCS) 52. Such network environments are common in institutions, corporate computer networks, the Internet.
Компьютер 20, используемый в сетевом окружении ЛВС, соединяется с локальной сетью 51 посредством сетевого интерфейса или адаптера 53. Компьютер 20, используемый в сетевом окружении ГКС, обычно использует модем 54 или другие средства для установления связи с глобальной компьютерной сетью 52, такой как Интернет.  The computer 20 used in the LAN network environment is connected to the local network 51 via a network interface or adapter 53. The computer 20 used in the network environment of the GCS typically uses a modem 54 or other means to establish communication with the global computer network 52, such as the Internet.
Модем 54, который может быть внутренним или внешним, соединён с системной шиной 23 посредством интерфейса 46 последовательного порта. В сетевом окружении программные модули или их части, описанные применительно к компьютеру 20, могут храниться на удалённом устройстве хранения информации. Надо принять во внимание, что показанные сетевые соединения являются типичными, и для установления коммуникационной связи меходу компьютерами могут быть использованы другие средства.  The modem 54, which may be internal or external, is connected to the system bus 23 via the serial port interface 46. In a networked environment, program modules, or parts of them, described with reference to computer 20, can be stored on a remote storage device. It is necessary to take into account that the network connections shown are typical, and other means can be used to establish the communication link between the computers and the link.
В заключение следует отметить, что приведённые в описании сведения являются примерами, которые не ограничивают объём настоящего технического решения, определённого формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего технического решения, согласующиеся с сущностью и объёмом настоящего технического решения.  In conclusion, it should be noted that the information given in the description are examples that do not limit the scope of this technical solution defined by the formula. The person skilled in the art will recognize that there may be other embodiments of this technical solution consistent with the nature and scope of this technical solution.
Литература: Literature:
1. htps://hackernoon.com/atention-mechanism-in-neural-networK-30aaf5e39512 1. htps: //hackernoon.com/atention-mechanism-in-neural-networK-30aaf5e39512
2. https://medium.eom/@Svnced/a-brief-overview-of-attention-mechanism-2. https: //medium.eom/@Svnced/a-brief-overview-of-attention-mechanism-
13c578ba9129 13c578ba9129
3. “Medical Concept Representation Learning from Electronic Health Records and its Application on Heart Failure Prediction”, Edward Choi, Andy Schuetz, Walter F. Stewart, Jimeng Sun, 11/02/2016.  3. “Medical Concept Representation Learning for Failure Prediction”, Edward Choi, Andy Schuetz, Walter F. Stewart, Jimeng Sun, 02/11/2016.
4. “Graph-based atention model for healthcare representation learning”, Edward Choi, Mohammad Taha Bahadori, Le Song, Walter F. Stewart, Jimeng Sun, 2017.  4. “Graph-based atention model for healthcare representation learning”, Edward Choi, Mohammad Taha Bahadori, Le Song, Walter F. Stewart, Jimeng Sun, 2017.

Claims

ФОРМУЛА  FORMULA
Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта, включает следующие шаги:  The method of forming a patient's mathematical models using artificial intelligence technologies includes the following steps:
• получают на сервере обучающую выборку, содержащую электронную  • receive on the server a training set containing electronic
историю болезни пациентов, сгруппированных по пациенту;  case history of patients grouped by patient;
• производят на сервере предварительную обработку данных, содержащихся полученных историях болезней пациентов;  • make on the server the preliminary processing of the data contained obtained histories of diseases of patients;
• преобразовывают на сервере обработанные данные в последовательность медицинских фактов по каждому пациенту с использованием медицинских онтологий;  • convert the processed data on the server into a sequence of medical facts for each patient using medical ontologies;
• производят на сервере автоматическую разметку полученной  • produce on the server an automatic markup obtained
последовательности медицинских фактов по каждому пациенту, используя извлечённые из истории болезни пациента диагнозы или другие  sequences of medical facts for each patient, using diagnoses taken from the patient’s medical history or other
интересующие факты;  facts of interest;
• производят на сервере обучение первичных репрезентаций независимо для каждой из модальностей;  • produce primary representations on the server independently for each of the modalities;
• осуществляют на сервере обучение совместных репрезентаций;  • implement joint representations on the server;
• производят на сервере обучение финальных моделей и параметров  • make on the server training of final models and parameters
агрегации;  aggregation;
• получают на сервере историю болезни пациента, не входящего в  • receive on the server the patient’s non-medical history
обучающую выборку;  training sample;
• производят на сервере предварительную обработку данных полученной истории болезни пациента;  • make on the server the preliminary processing of the patient's medical history data;
• преобразовывают на сервере предварительно обработанные данные в последовательность медицинских фактов с использованием медицинских онтологий;  • convert pre-processed data on the server into a sequence of medical facts using medical ontologies;
• формируют на сервере векторное представление пациента;  • form the patient's vector representation on the server;
PCT/RU2017/000820 2017-12-29 2017-12-29 Method for generating mathematical models of a patient using artificial intelligence technologies WO2019132686A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2017137801 2017-12-29
RU2017137801A RU2720363C2 (en) 2017-12-29 2017-12-29 Method for generating mathematical models of a patient using artificial intelligence techniques

Publications (1)

Publication Number Publication Date
WO2019132686A1 true WO2019132686A1 (en) 2019-07-04

Family

ID=67064076

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2017/000820 WO2019132686A1 (en) 2017-12-29 2017-12-29 Method for generating mathematical models of a patient using artificial intelligence technologies

Country Status (2)

Country Link
RU (1) RU2720363C2 (en)
WO (1) WO2019132686A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466462A (en) * 2020-11-26 2021-03-09 华侨大学 EMR information association and evolution method based on deep learning of image
CN113421632A (en) * 2021-07-09 2021-09-21 中国人民大学 Psychological disease type diagnosis system based on time series

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581969B (en) * 2020-05-08 2023-03-31 医渡云(北京)技术有限公司 Medical term vector representation method, device, storage medium and electronic equipment
RU2752792C1 (en) * 2020-07-10 2021-08-05 Общество с ограниченной ответственностью "К-Скай" System for supporting medical decision-making

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015023674A1 (en) * 2013-08-12 2015-02-19 Cerner Innovation, Inc. Dynamically determining risk of clinical condition
US20160364537A1 (en) * 2015-06-15 2016-12-15 Dascena Diagnostic support systems using machine learning techniques
US20160378919A1 (en) * 2013-11-27 2016-12-29 The Johns Hopkins University System and method for medical data analysis and sharing
US20170053064A1 (en) * 2014-03-03 2017-02-23 Semanticmd, Inc. Personalized content-based patient retrieval system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2515587C1 (en) * 2012-12-07 2014-05-10 Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук Method for arranging and keeping medical monitoring

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015023674A1 (en) * 2013-08-12 2015-02-19 Cerner Innovation, Inc. Dynamically determining risk of clinical condition
US20160378919A1 (en) * 2013-11-27 2016-12-29 The Johns Hopkins University System and method for medical data analysis and sharing
US20170053064A1 (en) * 2014-03-03 2017-02-23 Semanticmd, Inc. Personalized content-based patient retrieval system
US20160364537A1 (en) * 2015-06-15 2016-12-15 Dascena Diagnostic support systems using machine learning techniques

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466462A (en) * 2020-11-26 2021-03-09 华侨大学 EMR information association and evolution method based on deep learning of image
CN113421632A (en) * 2021-07-09 2021-09-21 中国人民大学 Psychological disease type diagnosis system based on time series

Also Published As

Publication number Publication date
RU2017137801A (en) 2019-07-01
RU2720363C2 (en) 2020-04-29
RU2017137801A3 (en) 2019-07-17

Similar Documents

Publication Publication Date Title
RU2703679C2 (en) Method and system for supporting medical decision making using mathematical models of presenting patients
Bustos et al. Padchest: A large chest x-ray image dataset with multi-label annotated reports
Yang et al. Unbox the black-box for the medical explainable AI via multi-modal and multi-centre data fusion: A mini-review, two showcases and beyond
Wu et al. Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents
Pandey et al. A comprehensive survey of deep learning in the field of medical imaging and medical natural language processing: Challenges and research directions
US20220375611A1 (en) Determination of health sciences recommendations
US20190347269A1 (en) Structured report data from a medical text report
López-Úbeda et al. Automatic medical protocol classification using machine learning approaches
RU2720363C2 (en) Method for generating mathematical models of a patient using artificial intelligence techniques
Beddiar et al. Automatic captioning for medical imaging (MIC): a rapid review of literature
CN112712879A (en) Information extraction method, device, equipment and storage medium for medical image report
Liu et al. Natural language processing, electronic health records, and clinical research
Kaswan et al. AI-based natural language processing for the generation of meaningful information electronic health record (EHR) data
Poongodi et al. Deep learning techniques for electronic health record (EHR) analysis
Heiliger et al. Beyond medical imaging-a review of multimodal deep learning in radiology
Liu et al. Advancing clinical research through natural language processing on electronic health records: traditional machine learning meets deep learning
Ju et al. 3D-CNN-SPP: A patient risk prediction system from electronic health records via 3D CNN and spatial pyramid pooling
Holderrieth et al. Transfer Learning for Neuroimaging via Re-use of Deep Neural Network Features
Malgieri Ontologies, Machine Learning and Deep Learning in Obstetrics
Iqbal et al. AI technologies in health-care applications
Srinivasan et al. A framework of faster CRNN and VGG16-enhanced region proposal network for detection and grade classification of knee RA
Hidalgo Exploring the big data and machine learning framing concepts for a predictive classification model
EP4390960A1 (en) Systems and methods for providing an updated machine learning algorithm
Hiriyannaiah et al. Multi-modal Data-Driven Analytics for Health Care
US20240028831A1 (en) Apparatus and a method for detecting associations among datasets of different types

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17935984

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 11/11/2020)

122 Ep: pct application non-entry in european phase

Ref document number: 17935984

Country of ref document: EP

Kind code of ref document: A1