RU2654125C1 - Statistical estimation method of a multifactor trend of conditional probability of the occurrence of a studied undesired event in cohort study - Google Patents
Statistical estimation method of a multifactor trend of conditional probability of the occurrence of a studied undesired event in cohort study Download PDFInfo
- Publication number
- RU2654125C1 RU2654125C1 RU2016148559A RU2016148559A RU2654125C1 RU 2654125 C1 RU2654125 C1 RU 2654125C1 RU 2016148559 A RU2016148559 A RU 2016148559A RU 2016148559 A RU2016148559 A RU 2016148559A RU 2654125 C1 RU2654125 C1 RU 2654125C1
- Authority
- RU
- Russia
- Prior art keywords
- neural network
- statistical
- factors
- trend
- studied
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000007477 logistic regression Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract 2
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000087 stabilizing effect Effects 0.000 claims description 2
- 230000003585 interneuronal effect Effects 0.000 claims 1
- 238000013178 mathematical model Methods 0.000 claims 1
- 238000000528 statistical test Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 5
- 238000012502 risk assessment Methods 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract description 2
- 230000005855 radiation Effects 0.000 description 9
- 206010005949 Bone cancer Diseases 0.000 description 5
- 208000018084 Bone neoplasm Diseases 0.000 description 5
- 230000034994 death Effects 0.000 description 4
- 231100000517 death Toxicity 0.000 description 4
- 210000001153 interneuron Anatomy 0.000 description 3
- 230000005865 ionizing radiation Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 231100000987 absorbed dose Toxicity 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000771 oncological effect Effects 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010073310 Occupational exposures Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 231100000675 occupational exposure Toxicity 0.000 description 1
- 201000008968 osteosarcoma Diseases 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06G—ANALOGUE COMPUTERS
- G06G7/00—Devices in which the computing operation is performed by varying electric or magnetic quantities
- G06G7/48—Analogue computers for specific processes, systems or devices, e.g. simulators
- G06G7/60—Analogue computers for specific processes, systems or devices, e.g. simulators for living beings, e.g. their nervous systems ; for problems in the medical field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Physiology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Veterinary Medicine (AREA)
- Computational Mathematics (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Analysis (AREA)
- Fuzzy Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Neurosurgery (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Neurology (AREA)
Abstract
Description
Изобретение относится к области статистического исследования больших массивов индивидуальных данных для административных, коммерческих, финансовых, управленческих, надзорных и прогностических целей.The invention relates to the field of statistical research of large amounts of individual data for administrative, commercial, financial, managerial, supervisory and prognostic purposes.
Аналоги и прототип. Известны аналогичные способы анализа данных, результаты применения которых могут быть использованы для прогнозирования рисков наступления неблагоприятных событий. Особенно много способов известно в области медицинской статистики. Например, искусственная нейронная сеть (ИНС) применялась в патенте RU 2567038 [Нарезкин Д.В. и др.] и программном комплексе "КиберДоктор" [Таранов Ю.А., per. свидетельство №2015615066, РФ].Analogs and prototype. Similar methods of data analysis are known, the results of which can be used to predict the risks of adverse events. Especially many methods are known in the field of medical statistics. For example, an artificial neural network (ANN) was used in the patent RU 2567038 [Narezkin D.V. et al.] and the CyberDoctor software package [Yu.A. Taranov, per. certificate No. 2015615066, RF].
В отличие от предлагаемого изобретения указанные способы и средства осуществления прогнозирования используют технологию обучения ИНС с применением эвристических методов оценки его качества, в результате чего не производится вероятностной оценки статистической значимости полученных выводов. Прогнозируемые оценки риска при этом оказываются статистически смещенными на неконтролируемую величину, в результате чего в отдельных случаях прогноз наступления неблагоприятного события может быть ошибочным, что выражается в увеличении количества ложноположительных или ложноотрицательных заключений. Наиболее близким к предлагаемому способу по технической сущности и по достигаемому эффекту является способ применения слоистой ИНС Румельхарта с искусственными нейронами, имеющими логистическую (сигмоидную) функцию активации [Нарезкин Д.В. и др., патенте RU 2567038].In contrast to the invention, these forecasting methods and means use ANS training technology using heuristic methods for assessing its quality, as a result of which a probabilistic assessment of the statistical significance of the conclusions is not made. In this case, the predicted risk assessments turn out to be statistically biased by an uncontrolled value, as a result of which, in some cases, the prognosis of an adverse event may be erroneous, which is reflected in an increase in the number of false positive or false negative conclusions. Closest to the proposed method in technical essence and in the achieved effect is a method of using a layered Rumelhart ANN with artificial neurons having a logistic (sigmoid) activation function [D. Narezkin and others, patent RU 2567038].
Однако такой патент защищает сеть с жестко заданной архитектурой межнейронных связей, фиксированных по силе, что не позволяет рекомендовать применение способа для выборки, сильно отличающейся от описанной в патенте. Например, способ прогнозирования течений послеоперационного периода после хирургического лечения рака прямой кишки не может быть перенесен для прогнозирования результата хирургического лечения рака легкого. Недостатком выбранного метода прогнозирования является также невозможность сравнения с конкурирующими гипотезами (прогнозами). Кроме того, не описан алгоритм настройки оптимальных параметров межнейронного взаимодействия, числовые величины которых защищены текстом патента, несмотря на то что выборка из 15 человек, по которой проведено обучение ИНС, никак не могла быть представительной.However, such a patent protects a network with a fixed architecture of interneuron communications, fixed in strength, which does not allow us to recommend the use of the method for sampling, which is very different from that described in the patent. For example, a method for predicting the course of the postoperative period after surgical treatment of colorectal cancer cannot be applied to predict the outcome of surgical treatment of lung cancer. The disadvantage of the chosen method of forecasting is also the impossibility of comparing with competing hypotheses (forecasts). In addition, the algorithm for setting the optimal parameters of interneuron interaction, the numerical values of which are protected by the text of the patent, is not described, despite the fact that the sample of 15 people who trained the ANN could not be representative.
Аналогичное назначение имеют также патенты RU 2456608 [Полоников А.В. и др.] и RU 2492804 [Акимова Е.В. и др.], посвященные оценке показателей риска возникновения гипертонической болезни и кардиоваскулярного риска смерти. Оба патента используют тот или иной способ регрессии выборочных персональных данных. Патент RU 2456608 опирается на способ логистической регрессии. Общим недостатком обоих способов является постулирование линейной зависимости показателя ожидаемого эффекта от совокупности факторов до начала проведения статистического исследования. Реальные данные, однако, почти никогда не следуют простым и недостаточно гибким моделям с низкой избыточностью. Это приводит к избыточному прогнозированию ложноотрицательных и ложноположительных случаев. В то же время в статистике хорошо известно, что увеличение избыточности модели вместо увеличения ее гибкости обычно приводит к снижению обобщающей способности, так как формальные модели связи показателей риска с факторами (например, линейная модель) часто игнорируют типовые априорные свойства вероятностных величин.Patents RU 2456608 [Polonikov A.V. also have a similar purpose. and others] and RU 2492804 [Akimova E.V. et al.], dedicated to the assessment of risk indicators for hypertension and cardiovascular risk of death. Both patents use one way or another regression of selective personal data. Patent RU 2456608 relies on a method of logistic regression. A common drawback of both methods is the postulation of a linear dependence of the indicator of the expected effect on the totality of factors before the start of the statistical study. Real data, however, almost never follows simple and not flexible models with low redundancy. This leads to excessive prediction of false negative and false positive cases. At the same time, it is well known in statistics that an increase in the redundancy of a model instead of an increase in its flexibility usually leads to a decrease in generalizing ability, since formal models for linking risk indicators with factors (for example, a linear model) often ignore typical a priori properties of probability values.
Эта проблема хорошо известна в отраслях статистики биологических и медицинских объектов. Отчасти ее пытаются разрешить в таких разделах, как "Статистика зависимых величин. Таблицы сопряженности" (УДК 519.235), "Оценка смертности. Коэффициенты смертности. Статистика смертности" (УДК 314.48), "Статистический анализ сложных сдвигов: Структурные изменения" (УДК 311.175). Наибольшие успехи биологической и медицинской статистики связаны с применением аппарата классических таблиц сопряженности, гибридных таблиц сопряженности с таблицами дожития (пуассоновская регрессия), логистической регрессии. Однако таблицы сопряженности трудно приспособить к многофакторным исследованиям риска; пуассоновская регрессия не может применяться к оценке риска наступления сравнительно частых событий (онкологическая заболеваемость, болезни системы кровообращения, профессиональные радиационные и химические риски); логистическая регрессия сталкивается с проблемой формулирования и селекции гипотез - регрессионных моделей.This problem is well known in the branches of statistics of biological and medical objects. In part, they are trying to resolve it in such sections as “Statistics of dependent variables. Conjugation tables” (UDC 519.235), “Estimation of mortality. Mortality rates. Mortality statistics” (UDC 314.48), “Statistical analysis of complex shifts: Structural changes” (UDC 311.175) . The greatest successes of biological and medical statistics are associated with the use of the apparatus of classical contingency tables, hybrid contingency tables with survival tables (Poisson regression), and logistic regression. However, contingency tables are difficult to adapt to multivariate risk studies; Poisson regression cannot be applied to assessing the risk of relatively frequent events (cancer incidence, circulatory system diseases, occupational radiation and chemical risks); logistic regression is faced with the problem of formulating and selecting hypotheses - regression models.
Задача изобретения. Предложить гибкий способ оценки основных трендов вероятностных показателей исследования когортного риска по изучаемым факторам с учетом статистической значимости полученных выводов и возможности селекции конкурирующих гипотез (моделей регрессии) с учетом априорной информации.The objective of the invention. To propose a flexible way of assessing the main trends in the probabilistic indicators of cohort risk research by the studied factors, taking into account the statistical significance of the findings and the possibility of selecting competing hypotheses (regression models) taking into account a priori information.
Сущность предлагаемого способа. Вместо общепринятого обучения нейронной сети для повышения ее обобщающей способности в изобретении применяется метод максимального правдоподобия, свойственный способу и функционалу оценки логистической регрессии; кроме того, в отличие от логистической регрессии модель связи вероятностного показателя с факторами риска генерируется самой нейросетью в процессе ее оптимальной настройки и не постулируется аналитиком до начала исследования.The essence of the proposed method. Instead of the generally accepted training of a neural network, in order to increase its generalizing ability, the invention uses the maximum likelihood method inherent in the method and functional of evaluating logistic regression; in addition, unlike logistic regression, a model for the connection of a probabilistic indicator with risk factors is generated by the neural network itself in the process of its optimal tuning and is not postulated by the analyst before the study begins.
Техническая реализация предлагаемого изобретения. Для достижения задачи изобретения используются: 1) база данных с результатами индивидуальных наблюдений исходов в когорте в сопоставлении с индивидуальным рандомизированным списком факторов, предположительно влиявших на исходы; 2) компьютерная программа-имитатор прямого функционирования многослойной ИНС; 3) компьютерная программа оптимизации параметров межнейронных связей ИНС, в которой вместо традиционного функционала оценки, численно минимизирующего норму отклонения результатов функционирования сети от обучающего множества примеров, используется функционал биномиально-логистической регрессии, позволяющий произвести настройку по методу максимального правдоподобия (1).Technical implementation of the invention. To achieve the objectives of the invention, the following are used: 1) a database with the results of individual observations of outcomes in a cohort in comparison with an individual randomized list of factors that presumably influenced the outcomes; 2) a computer program simulating the direct functioning of a multilayer ANN; 3) a computer program for optimizing the parameters of the interneuron connections of the ANN, in which instead of the traditional evaluation functional that numerically minimizes the deviation of the network functioning results from the training set of examples, the binomial-logistic regression functional is used, which allows tuning using the maximum likelihood method (1).
где i - номер индивидуального наблюдения; Ii - индекс индивидуального исхода (1 - неблагоприятное событие наступило; 0 - неблагоприятное событие не наступило); Fi - вектор списка индивидуальных факторов; α(Fi, β) - прогнозируемый индивидуальный отклик ИНС на индивидуальную комбинацию факторов; β - совокупность всех настроечных коэффициентов связей нейронов. Неопределенность отдельных слагаемых функционала раскрывается по правилу 0⋅ln(0)=0. Один из примеров двухслойной искусственной нейронной сети показан на фиг. 1.where i is the number of individual observations; I i - individual outcome index (1 - an adverse event has occurred; 0 - an adverse event has not occurred); F i is the vector of the list of individual factors; α (F i , β) is the predicted individual response of the ANN to an individual combination of factors; β is the totality of all the tuning coefficients of neuron connections. The uncertainty of the individual terms of the functional is revealed by the rule 0⋅ln (0) = 0. One example of a bilayer artificial neural network is shown in FIG. one.
Функционал оценки, являясь статистической суммой по списку наблюдений, позволяет оценить статистический выигрыш от применения некоторой модели (статистической гипотезы H1) по сравнению с исходной моделью с нулевыми настройками (гипотеза Н0 об отсутствии влияния изучаемых факторов на наблюдаемый результат в когорте). Такие оценки позволяют произвести количественную селекцию моделей (конкурирующих гипотез) по известному тесту отношения правдоподобий [Wilks]. Аналогичные оценки позволяют также установить статистическую значимость учета влияния анализируемых факторов по величине статистики G2 [Wilks] и достигнутой вероятности ошибки.The evaluation functional, being a statistical sum from the list of observations, allows us to estimate the statistical gain from applying a certain model (statistical hypothesis H1) compared to the original model with zero settings (hypothesis Н0 about the absence of the influence of the studied factors on the observed result in the cohort). Such estimates allow quantitative selection of models (competing hypotheses) using the well-known likelihood ratio test [Wilks]. Similar estimates also allow us to establish the statistical significance of taking into account the influence of the analyzed factors on the value of statistics G 2 [Wilks] and the achieved error probability.
Специфическими особенностями предлагаемого способа (кроме перечисленных выше отличительных особенностей) являются:The specific features of the proposed method (in addition to the above distinguishing features) are:
a) центрирование и нормирование индивидуальных наблюдений действующих факторов на входе искусственной нейронной сети так, чтобы сигналы, поступающие на вход, находились в диапазоне [-1; +1];a) centering and normalization of individual observations of acting factors at the input of an artificial neural network so that the signals arriving at the input are in the range [-1; +1];
b) в силу специфических ограничений на величину условной вероятности 0≤Р≤1 и на величину отклика каждого нейрона допустимо центрирование работы всех нейронов сети с сигмоидной функцией активации за исключением нейрона на ее выходе. Результатом центрирования является среднее значение из диапазона возможных откликов нейрона при нулевых значениях коэффициентов связей на его входе. Нейрон на выходе не центрируется. Смещение его выходного сигнала подбирается таким образом, чтобы при нулевых настройках коэффициентов связей нейронов сети статистическая сумма (биномиальный функционал оценки) достигала значения, свойственного гипотезе Н0 об отсутствии влияния факторов;b) due to specific restrictions on the value of the conditional probability 0≤P≤1 and on the response value of each neuron, it is permissible to center the operation of all neurons of the network with a sigmoid activation function, with the exception of the neuron at its output. The result of centering is the average value from the range of possible responses of the neuron at zero values of the coupling coefficients at its input. The output neuron is not centered. The offset of its output signal is selected in such a way that, at zero settings of the neural network connection coefficients, the statistical sum (binomial estimation functional) reaches the value inherent to the H0 hypothesis that there are no influence of factors;
c) включение в состав функционала оценки, используемого для настройки сети, дополнительного штрафного (стабилизирующего, регуляризирующего) слагаемого, препятствующего неограниченному росту настроечных параметров сети в процессе оптимизации. Ограничение роста коэффициентов связей способствует улучшению обобщающей способности ИНС и приводит к незначительным смещениям оценок риска, если ведущим слагаемым в функционале является статистическая сумма. Для регулирования силы штрафа можно трактовать штрафное слагаемое в качестве байесовской поправки, опирающейся на априорную информацию о характере трендов "факторы - риск";c) the inclusion in the evaluation functional used to configure the network, an additional penalty (stabilizing, regularizing) term that impedes the unlimited growth of the network configuration parameters during the optimization process. Limiting the growth of link coefficients improves the generalizing ability of ANNs and leads to insignificant biases in risk assessments if the leading summand in the functional is a statistical sum. To regulate the power of the fine, the penalty term can be interpreted as a Bayesian amendment based on a priori information on the nature of the “factor-risk” trends;
d) для настройки сети не используется традиционный алгоритм обратного распространения ошибок, свойственный многослойным ИНС. Вместо этого применяются эффективные алгоритмы оптимального поиска экстремума в многомерном пространстве факторов. Например, может быть использовано сочетание метода стохастического поиска глобального экстремума с тонкой настройкой градиентным методом сопряженных направлений в малой окрестности экстремума.d) the traditional back-propagation algorithm inherent to a multilayer ANN is not used to configure the network. Instead, effective algorithms are used to optimally search for an extremum in a multidimensional space of factors. For example, a combination of the stochastic global extremum search method and the fine tuning by the gradient method of conjugate directions in a small neighborhood of the extremum can be used.
Техническим результатом предлагаемого гибридного способа статистического исследования является рост достоверности многофакторной оценки трендов вероятностного показателя изучаемого риска в представительной выборке (когорте), выражающийся в уменьшении величины статистического смещения оценок, учете роли мешающих факторов, уменьшении количества ложноположительных и ложноотрицательных прогностических выводов по отношению к объему исследуемой когорты. В результате применения изобретения к исследованию представительной выборки появляется возможность говорить об измерении вероятностных показателей когортного риска.The technical result of the proposed hybrid method of statistical research is the increase in the reliability of multivariate trend estimation of the probabilistic indicator of the studied risk in a representative sample (cohort), expressed in a decrease in the statistical bias of estimates, taking into account the role of interfering factors, reducing the number of false positive and false negative predictive conclusions in relation to the volume of the studied cohort . As a result of applying the invention to the study of a representative sample, it becomes possible to talk about measuring probabilistic indicators of cohort risk.
Пример использования. Работоспособность изобретения иллюстрируется на примере опубликованного эпидемиологического оценивания вероятности смерти от рака кости среди работников специализированного предприятия, подвергавшихся профессиональному облучению от различных источников ионизирующей радиации [Koshurnikova N.A.]. Эта публикация характеризуется противоречием между предписанными объективными требованиями к радиационной защите [Публикация 103 МКРЗ; действующие НРБ-99/2009] и регистрацией авторами исследования отрицательных трендов онкологического риска по дозе внешнего облучения [Koshurnikova N.A.]. Противоречие может быть вызвано неадекватностью использованного способа оценки. Имеется ряд причин, смещающих оценку тренда: 1) нормативные документы предписывают оценку величины пожизненного риска; вместо этого и авторы, и большинство исследователей радиационно-онкологического риска [UNSCEAR] оценивают показатель интенсивности реализации риска; 2) существующие алгоритмы пуассоновской регрессии [Preston D., Epicure] не могут работать со списком индивидуальных наблюдений, нуждаясь в группировке данных, снижающей статистическую мощность исследования; 3) модели трендов риска по факторам постулируются исследователями до выполнения оценок, что приводит к неконтролируемым систематическим искажениям.Usage example. The efficiency of the invention is illustrated by the example of a published epidemiological assessment of the probability of death from bone cancer among employees of a specialized enterprise exposed to occupational exposure from various sources of ionizing radiation [Koshurnikova N.A.]. This publication is characterized by a contradiction between the prescribed objective requirements for radiation protection [Publication 103 ICRP; current NRB-99/2009] and registration by the authors of the study of negative trends in oncological risk by the dose of external exposure [Koshurnikova N.A.]. The contradiction may be caused by the inadequacy of the used assessment method. There are a number of reasons that bias the trend assessment: 1) regulatory documents prescribe the assessment of the value of lifelong risk; instead, both authors and most radiation oncological risk researchers [UNSCEAR] evaluate the rate of risk realization; 2) existing Poisson regression algorithms [Preston D., Epicure] cannot work with a list of individual observations, needing a data grouping that reduces the statistical power of the study; 3) models of risk trends by factors are postulated by researchers before making assessments, which leads to uncontrolled systematic distortions.
Предлагаемое изобретение позволяет устранить перечисленные недостатки, обеспечивая непосредственную оценку условного пожизненного риска, а также переход к биномиально-логистической регрессии, не требующей предварительного группирования данных. Использование искусственной нейронной сети в качестве генератора моделей позволяет отказаться от обычно предполагаемых линейных связей "доза-эффект", заведомо искажающих оценки в области больших доз (больших вероятностей).The present invention allows to eliminate the above disadvantages, providing a direct assessment of the conditional lifetime risk, as well as the transition to binomial and logistic regression, which does not require preliminary grouping of data. Using an artificial neural network as a generator of models allows us to abandon the usually assumed linear dose-effect relationships, which obviously distort the estimates in the field of high doses (high probabilities).
В частности, на опубликованном материале [Koshurnikova N.A.] выполнена повторная оценка трендов. Общая численность выборки составила 3155 мужчин и 1019 женщин. Из них насчитывалось всего 17 случаев смерти от рака кости (остеосаркомы). Все лица в выборке умерли по тем или иным причинам в период до 2008 года с момента найма на предприятие после 1948 года. В число факторов влияния были включены возраст найма, возраст реализации эффекта, пол, поглощенная доза внешнего облучения (до 6,4 Гр) и поглощенная доза внутреннего облучения (до 107,4 Гр - на костную поверхность). Прогностическая величина - условный пожизненный риск - кумулятивная вероятность гибели от рака кости. Были установлены:In particular, the published material [Koshurnikova N.A.] re-evaluated trends. The total sample size was 3155 men and 1019 women. Of these, there were only 17 deaths from bone cancer (osteosarcoma). All individuals in the sample died for one reason or another between 2008 and the time they were hired after 1948. The factors of influence included the age of employment, the age of the effect, gender, absorbed dose of external radiation (up to 6.4 Gy) and absorbed dose of internal radiation (up to 107.4 Gy - on the bone surface). Prognostic value - conditional lifetime risk - cumulative probability of death from bone cancer. The following were installed:
- статистически значимое отличие наблюдаемых трендов от нулевой гипотезы об их отсутствии (Р-value=0.021) даже для ИНС с простейшей архитектурой "5+2+1";- a statistically significant difference between the observed trends from the null hypothesis of their absence (P-value = 0.021) even for ANNs with the simplest architecture "5 + 2 + 1";
- тренды оказались восходящими и слабо-нелинейными как по дозе внешнего облучения, так и по дозе внутреннего облучения, что опровергает выводы аналога, но согласуется с широко распространенным мнением о вреде ионизирующего излучения;- the trends turned out to be upward and slightly non-linear both in the dose of external radiation and in the dose of internal radiation, which refutes the conclusions of the analogue, but is consistent with the widespread opinion about the dangers of ionizing radiation;
- для женщин когортная радиочувствительность по раку кости оказалась выше, чем для мужчин, что согласуется с общебиологической закономерностью;- for women, the cohort radiosensitivity for bone cancer was higher than for men, which is consistent with the general biological pattern;
- центральная оценка коэффициента номинального риска была на уровне 1,0%⋅Гр-1, что сопоставимо с коэффициентами риска для жертв атомной бомбардировки Хиросимы и Нагасаки для изученного заболевания.- the central assessment of the nominal risk coefficient was at the level of 1.0% ⋅Gy -1 , which is comparable with the risk factors for the victims of the atomic bombing of Hiroshima and Nagasaki for the studied disease.
ЛитератураLiterature
1. Нарезкин Д.В., Кузьменков А.Ю., Недзимовская Д.В. Способ прогнозирования течения раннего послеоперационного периода у больных с осложнениями рака прямой кишки и средство его осуществления. - Патент RU 2567038, дата регистрации 24.06.2014.1. Narezkin D.V., Kuzmenkov A.Yu., Nedzimovskaya D.V. A method for predicting the course of the early postoperative period in patients with complications of colorectal cancer and a means for its implementation. - Patent RU 2567038, registration date 06/24/2014.
2. Таранов Ю.А. Программный комплекс «КиберДоктор» - Программа для диагностирования заболеваний щитовидной железы («CyberDoctor: Neuronet-thyroid»). - Per. свидетельство №2015615066 от 07.05.2015.2. Taranov Yu.A. CyberDoctor software package - A program for diagnosing thyroid diseases (CyberDoctor: Neuronet-thyroid). - Per. Certificate No. 2015615066 dated 05/07/2015.
3. Полоников А.В., Солодилова М.А., Иванов В.П. и др. Способ прогнозирования риска возникновения гипертонической болезни у мужчин. - Патент RU 2456608, дата регистрации 15.03.2011.3. Polonikov A.V., Solodilova M.A., Ivanov V.P. et al. A method for predicting the risk of hypertension in men. - Patent RU 2456608, registration date 03/15/2011.
4. Акимова Е.В., Пушкарев Г.С., Гакова Е.И. и др. Способ определения суммарного кардиоваскулярного риска смерти у мужчин. - Патент RU 2492804, дата регистрации 12.05.2012.4. Akimova E.V., Pushkarev G.S., Gakova E.I. et al. A method for determining the total cardiovascular risk of death in men. - Patent RU 2492804, registration date 05/12/2012.
5. Wilks S.S. The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses. - The Annals of Mathematical Statistics, 1938, 9, pp. 60-62.5. Wilks S.S. The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses. - The Annals of Mathematical Statistics, 1938, 9, pp. 60-62.
6. Koshurnikova, N.A. Bone Cancers in MAYAK Workers. / N.A. Koshurnikova, E.S. Gilbert, M. Sokolnikov [et al] // Radiation Research. - 2000. - 154. - P. 237-245.6. Koshurnikova, N.A. Bone Cancers in MAYAK Workers. / N.A. Koshurnikova, E.S. Gilbert, M. Sokolnikov [et al] // Radiation Research. - 2000. - 154. - P. 237-245.
7. Публикация 103 Международной Комиссии по радиационной защите (МКРЗ). Пер с англ. / Под общей ред. М.Ф. Киселева и Н.К. Шандалы. - М.: Изд. ООО ПКФ «Алана», 2009.7. Publication 103 of the International Commission on Radiation Protection (ICRP). Per from English. / Under the general ed. M.F. Kiseleva and N.K. Shandals. - M.: Publishing. PKF Alana LLC, 2009.
8. Нормы радиационной безопасности НРБ-99/2009. - Санитарные правила и нормативы СанПин 2.6.1.2523-09. - Утверждены постановлением главного государственного санитарного врача РФ от 7 июля 2009 г., №47.8. Radiation safety standards NRB-99/2009. - Sanitary rules and regulations SanPin 2.6.1.2523-09. - Approved by resolution of the Chief State Sanitary Doctor of the Russian Federation of July 7, 2009, No. 47.
9. Effects of Ionizing Radiation. UNSCEAR 2006 Report., Vol. 1A. - NY: United Nations Publication, 2008. - 383 p.9. Effects of Ionizing Radiation. UNSCEAR 2006 Report., Vol. 1A. - NY: United Nations Publication, 2008 .-- 383 p.
10. Preston D., Lubin J., Pierce D. Epicure User's Guide. Release 2. - Hirosoft I.C., 1998. - 344 p.10. Preston D., Lubin J., Pierce D. Epicure User's Guide. Release 2. - Hirosoft I.C., 1998 .-- 344 p.
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016148559A RU2654125C1 (en) | 2016-12-09 | 2016-12-09 | Statistical estimation method of a multifactor trend of conditional probability of the occurrence of a studied undesired event in cohort study |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016148559A RU2654125C1 (en) | 2016-12-09 | 2016-12-09 | Statistical estimation method of a multifactor trend of conditional probability of the occurrence of a studied undesired event in cohort study |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2654125C1 true RU2654125C1 (en) | 2018-05-16 |
Family
ID=62152790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016148559A RU2654125C1 (en) | 2016-12-09 | 2016-12-09 | Statistical estimation method of a multifactor trend of conditional probability of the occurrence of a studied undesired event in cohort study |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2654125C1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635344A (en) * | 2018-11-14 | 2019-04-16 | 中国航空工业集团公司沈阳飞机设计研究所 | Effectiveness Evaluation Model preparation method and device based on l-G simulation test |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6004267A (en) * | 1997-03-07 | 1999-12-21 | University Of Florida | Method for diagnosing and staging prostate cancer |
US20060293921A1 (en) * | 2000-10-19 | 2006-12-28 | Mccarthy John | Input device for web content manager responsive to browser viewers' psychological preferences, behavioral responses and physiological stress indicators |
RU2567038C1 (en) * | 2014-06-24 | 2015-10-27 | Государственное бюджетное образовательное учреждение высшего профессионального образования "Смоленский государственный медицинский университет" Министерства здравоохранения Российской Федерации (ГБОУ ВПО СГМУ Минздрава России) | Method for prediction of clinical course of early postoperative period in patients with complicated rectal cancer and aid for implementing it |
RU2015123307A (en) * | 2008-03-26 | 2015-11-27 | Теранос, Инк. | METHOD AND SYSTEM FOR FORECASTING CLINICAL RESULTS |
US20160034814A1 (en) * | 2014-08-01 | 2016-02-04 | University Of Southern California | Noise-boosted back propagation and deep learning neural networks |
-
2016
- 2016-12-09 RU RU2016148559A patent/RU2654125C1/en active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6004267A (en) * | 1997-03-07 | 1999-12-21 | University Of Florida | Method for diagnosing and staging prostate cancer |
US20060293921A1 (en) * | 2000-10-19 | 2006-12-28 | Mccarthy John | Input device for web content manager responsive to browser viewers' psychological preferences, behavioral responses and physiological stress indicators |
RU2015123307A (en) * | 2008-03-26 | 2015-11-27 | Теранос, Инк. | METHOD AND SYSTEM FOR FORECASTING CLINICAL RESULTS |
RU2567038C1 (en) * | 2014-06-24 | 2015-10-27 | Государственное бюджетное образовательное учреждение высшего профессионального образования "Смоленский государственный медицинский университет" Министерства здравоохранения Российской Федерации (ГБОУ ВПО СГМУ Минздрава России) | Method for prediction of clinical course of early postoperative period in patients with complicated rectal cancer and aid for implementing it |
US20160034814A1 (en) * | 2014-08-01 | 2016-02-04 | University Of Southern California | Noise-boosted back propagation and deep learning neural networks |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635344A (en) * | 2018-11-14 | 2019-04-16 | 中国航空工业集团公司沈阳飞机设计研究所 | Effectiveness Evaluation Model preparation method and device based on l-G simulation test |
CN109635344B (en) * | 2018-11-14 | 2023-11-28 | 中国航空工业集团公司沈阳飞机设计研究所 | Efficiency evaluation model obtaining method and device based on simulation test |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Congdon | Applied bayesian modelling | |
Kalet et al. | Bayesian network models for error detection in radiotherapy plans | |
Kuo | Individual claims forecasting with Bayesian mixture density networks | |
Yuan et al. | A sequential approach for stochastic computer model calibration and prediction | |
RU2654125C1 (en) | Statistical estimation method of a multifactor trend of conditional probability of the occurrence of a studied undesired event in cohort study | |
Kohns et al. | Horseshoe prior Bayesian quantile regression | |
Pantazis et al. | Analyzing longitudinal data in the presence of informative dropout: The jmre1 command | |
Mercat et al. | Capacity of a Bayesian model to detect infected herds using disease dynamics and risk factor information from surveillance programmes: a simulation study | |
Shen et al. | Regression analysis of longitudinal data with outcome‐dependent sampling and informative censoring | |
Yuan et al. | Calibration, validation, and prediction in random simulation models: Gaussian process metamodels and a bayesian integrated solution | |
Leonetti et al. | Uncertainty analysis of constant amplitude fatigue test data employing the six parameters random fatigue limit model | |
Ng et al. | Design of follow‐up experiments for improving model discrimination and parameter estimation | |
Omer et al. | Modelling logistic regression using multivariable fractional polynomials | |
Song et al. | A two‐level structural equation model approach for analyzing multivariate longitudinal responses | |
Verbeke et al. | Generalized linear mixed models—Overview | |
Redmill | Exploring subjectivity in hazard analysis | |
Aguirregabiria et al. | Identification of biased beliefs in games of incomplete information using experimental data | |
de Andrés-Sánchez et al. | Pattern recognition in social expenditure and social expenditure performance in EU 28 countries | |
Dagne | Joint two‐part Tobit models for longitudinal and time‐to‐event data | |
Jiang et al. | Mitigating bias from intermittent measurement of time‐dependent covariates in failure time analysis | |
López-Martín | Feedforward neural networks for predicting the duration of maintained software projects | |
Whittaker et al. | Towards the development of a three-state Markov Chain model of working life expectancy in South Africa | |
Yadav et al. | Deep Learning for Software Defect Prediction in time | |
Zhang et al. | Internal pilot design for balanced repeated measures | |
Noorian et al. | Bayesian Analysis of a Transition (Markov) Model for Longitudinal Ordinal Response Data with Drop-out |