WO2015173917A1 - 分析システム - Google Patents

分析システム Download PDF

Info

Publication number
WO2015173917A1
WO2015173917A1 PCT/JP2014/062874 JP2014062874W WO2015173917A1 WO 2015173917 A1 WO2015173917 A1 WO 2015173917A1 JP 2014062874 W JP2014062874 W JP 2014062874W WO 2015173917 A1 WO2015173917 A1 WO 2015173917A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
distribution
analysis system
data
distribution information
Prior art date
Application number
PCT/JP2014/062874
Other languages
English (en)
French (fr)
Inventor
泰隆 長谷川
信二 垂水
利昇 三好
伴 秀行
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2014/062874 priority Critical patent/WO2015173917A1/ja
Publication of WO2015173917A1 publication Critical patent/WO2015173917A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Definitions

  • the present invention relates to an analysis system that supports a health business.
  • Insurers implement health services such as health guidance for the prevention of lifestyle-related diseases and the prevention of serious diseases with the aim of curbing soaring medical costs.
  • health services such as health guidance for the prevention of lifestyle-related diseases and the prevention of serious diseases with the aim of curbing soaring medical costs.
  • insurers such as public health nurses that can be secured for health guidance and costs for health guidance, are limited, a system that supports the operation of effective and efficient health services is desired. Yes.
  • Patent Document 1 discloses a health business support system that selects a health guidance target person based on medical information, medical examination information, and health guidance information, and includes a predicted medical cost for each insured's severity and test value.
  • the medical cost model creation unit that creates a medical cost model that indicates the level of health
  • the test value improvement model creation unit that creates the test value improvement model that indicates the amount of improvement for each severity and test value
  • a predictive medical cost reduction effect calculation unit that calculates for each severity and test value
  • a target selection unit that selects an insured person who belongs to a severity and test value with a high predicted medical cost reduction amount as a health guidance target.
  • An object of the present invention is to provide a disease onset factor analysis system capable of analyzing a factor that suppresses an increase in a disease that will be a future problem from health care data of an insurer.
  • the present application includes a plurality of means for solving the above-mentioned problem.
  • the application is a graphical model composed of data items included in the health care information of the insurance subscriber, A first node group corresponding to a random variable of the data item, a second node group corresponding to a random variable of the data item at a second time point in the future from the first time point, and the first node
  • a database storing current distribution information representing a probability distribution at one time point, an improvement value of a future distribution of the target data item at the second time point, and the current distribution information in the graphical model.
  • the estimated distribution calculating unit for calculating the estimated distribution information at the first time point for each data item, and comparing the estimated distribution information and the current distribution information between the data items, and the estimated distribution
  • An index value calculation unit for calculating an index value indicating a change between information and the current distribution information, and comparing the index value for each data item, thereby making the factor of the target data item as factor information
  • an analysis system including a factor extracting unit for extracting and an output unit for displaying at least the factor information.
  • a disease that is a problem for each insurer is extracted.
  • the health care data is data including information on medical / health for each individual such as medical records and test values of the insurance subscriber (insured person).
  • Specific examples of information included in the health care data include, for example, medical information such as the name of the illness of the insurance subscriber, the medical practice performed on the insurance subscriber, the cost of the medical practice (medical expenses), and the insurance subscriber.
  • the test values that are information (health checkup information) and lifestyle habits of the medical checkup conducted in 1) are mentioned.
  • Medical information is information that records the disease name, prescription drugs, medical practice performed, medical expenses, etc. when an insurance member has visited a medical institution, examples of which are shown in FIGS. Will be described later.
  • the prescribed medicine and the practiced medical practice are collectively referred to as medical practice.
  • the medical examination information is information in which test values when the insurance subscriber receives a medical examination and results of an inquiry such as lifestyle and family medical history are stored, and an example thereof will be described later with reference to FIG.
  • FIG. 1 is a block diagram showing the configuration of the disease onset factor analysis system of the present embodiment.
  • the disease onset factor analysis system includes a disease onset factor analysis terminal 101 and a database 120.
  • the disease onset factor analysis terminal 101 includes an input unit 102, an output unit 103, a CPU 104, a memory 105, and a storage medium 106.
  • the input unit 102 is a human interface such as a mouse or a keyboard, and receives input to the disease onset factor analysis terminal 101.
  • the output unit 103 is a display or printer that outputs a calculation result by the disease onset factor analysis terminal 101.
  • the storage medium 106 is a storage device that stores various programs for realizing the disease onset factor analysis processing by the disease onset factor analysis terminal 101, the execution result of the disease onset factor analysis processing, and the like. Drive, non-volatile memory, etc.).
  • the CPU 104 is an arithmetic device that executes a program loaded in the memory 105, and is a processor such as a CPU or a GPU.
  • the CPU 104 executes the processes and operations described below.
  • the disease onset factor analysis system is a computer system configured on a single computer or on a plurality of computers configured logically or physically, and in a separate thread on the same computer. It may operate, and may operate on a virtual machine constructed on a plurality of physical computer resources.
  • the storage medium 106 includes a data shaping unit 107, a graphical model creation unit 108, a current distribution calculation unit 109, a future distribution prediction unit 110, and a problem disease extraction unit 111 as various programs.
  • the data shaping unit 107 matches the medical examination information and the medical information input by the input unit 102, and shapes the data into a form suitable for analysis.
  • the data shaped by the data shaping unit 107 is referred to as shaping information.
  • the graphical model creation unit 108 expresses the stochastic dependence between each item of T year and T + 1 year from the shaping information shaped by the data shaping unit 107, using items such as diseases, test values, lifestyle habits as random variables. Create a graphical model.
  • the current distribution calculation unit 109 extracts insurer data to be analyzed from the shaping information shaped by the data shaping unit 107, and the probability of the current item value for each item such as disease, test value, and lifestyle Calculate the distribution and create a current distribution by item.
  • the future distribution prediction unit 110 inputs the current distribution of the corresponding item calculated by the current distribution calculation unit 109 to the item of year T of the graphical model created by the graphical model creation unit 108. Thereby, the future distribution prediction unit 110 predicts the probability distribution of each disease item in T + 1 year and creates a future distribution.
  • the problem disease extraction unit 111 calculates the expected value of the probability distribution of T + 1 year of each disease item predicted by the future distribution prediction unit 110, and compares the calculated expected value. Then, the problem disease extraction unit 111 extracts a disease having a high probability distribution expected value as a problem disease of the insurer to be analyzed.
  • the database 120 includes a medical information storage unit 121, a shaping information storage unit 122, a graphical model storage unit 123, a distribution storage unit 124, and a problem disease storage unit 125. Below, various data and data processing used in said subject disease extraction process are demonstrated.
  • the medical information storage unit 121 stores healthcare data input from the input unit 102.
  • two types of medical information and medical examination information will be taken as examples of typical healthcare data, and each will be described.
  • the medical information includes basic information of a plurality of insurance subscribers, disease information, pharmaceutical information, and medical practice information for each insurance subscriber over a plurality of years.
  • FIG. 2 is an explanatory diagram of the basic information 200 stored in the medical information storage unit 121 according to the embodiment of this invention.
  • the basic information 200 holds basic information such as the gender and date of birth of the insurance subscriber.
  • the basic information 200 includes an insurance subscriber ID 201, gender 202, date of birth 203, and insurer name 204.
  • an insurance subscriber ID 201 an identifier for identifying the insurance subscriber is registered.
  • the gender 202 information indicating the gender of the insurance subscriber is registered.
  • the date of birth 203 information indicating the date of birth of the insurance subscriber is registered.
  • the insurer name 204 information indicating the name of the insurer who the insurance subscriber has joined is registered.
  • FIG. 3 is an explanatory diagram of the disease information 300 stored in the medical information storage unit 121 according to the embodiment of this invention.
  • the disease information 300 includes a search number 301, an insurance subscriber ID 201, a medical treatment date 303, a disease name 304, and a medical fee 305.
  • search number 301 an identifier for specifying one piece of medical information is registered.
  • the insurance subscriber ID 201 is the same as the insurance subscriber ID 201 shown in FIG.
  • the disease name 304 information indicating the disease name described in one piece of medical information is registered.
  • medical cost 305 information indicating the medical cost of one piece of medical information is registered.
  • a plurality of disease names can be described in one medical information.
  • the disease information 300 shown in FIG. 3 “diabetes” and “high blood pressure” are registered in the disease name 304 of the entry in which “11” is registered in the search number 301. Therefore, in the medical information whose search number is “11”, the names of diseases of diabetes and hypertension are registered.
  • the search number 301 is the same as the search number 301 shown in FIG.
  • the drug code 402 an identifier for specifying a drug is registered.
  • the drug name 403 and the drug medical cost 404 the name of the corresponding drug and the medical cost of the corresponding drug are registered, respectively.
  • FIG. 5 is an explanatory diagram of the medical practice information 500 stored in the medical information storage unit 121 according to the embodiment of this invention.
  • the medical practice information 500 includes a search number 301, a medical practice code 502, a medical practice name 503, and a medical practice medical cost 504.
  • the search number 301 is the same as the search number 301 shown in FIG.
  • the medical practice code 502 information indicating a medical practice code for identifying the medical practice described in the medical information is registered.
  • medical practice name 503 information indicating the name of the medical practice described in the medical information is registered.
  • medical practice medical cost 504 a medical cost related to the medical practice is registered.
  • FIG. 6 is an explanatory diagram of the medical examination information 600 stored in the medical information storage unit 121 according to the embodiment of this invention.
  • the medical examination information 600 manages medical examination information for a plurality of years for a plurality of insurance subscribers.
  • the medical examination information 600 includes an insurance subscriber ID 201, a medical examination date 602, a BMI 603, an abdominal circumference 604, blood sugar 605, systolic blood pressure 606, neutral fat 607, smoking 613, fast eating 614, lack of exercise 615, and the like.
  • BMI 603 to neutral fat 607 are items to be examined in a medical examination.
  • a BMI value is registered in the BMI 603.
  • a waist circumference value is registered in the waist circumference 604.
  • the blood sugar value is registered in the blood sugar 605.
  • the systolic blood pressure 606 the value of the systolic blood pressure is registered.
  • neutral fat 607 the value of the neutral fat is registered.
  • Smoking 613 to lack of exercise 615 are items related to lifestyle habits that are interrogated during a health checkup. For example, for smoking 613, a value replied to the presence or absence of smoking is registered. In the quick eating 614, a value that is answered by whether or not an inquiry about whether or not to eat quickly is registered. In the exercise deficit 615, a value that is answered by the presence or absence of an inquiry about whether or not exercise is deficient is registered. The inquiry may include a family medical history, subjective symptoms, and the like.
  • the data shaping unit 107 creates shaping information in which the health care data stored in the medical information storage unit 121 is summarized for each insurance subscriber and every predetermined period.
  • the data shaping unit 107 aggregates and integrates information from the health care data stored in the medical information storage unit 121 for each insurance subscriber and every predetermined period, and shapes the data into tabular data.
  • one period is assumed to be one year, but another period such as six months, two years, or three years may be used.
  • molded using medical information and medical examination information is demonstrated, you may add and add data other than these.
  • FIG. 7 is a diagram for explaining an example of the shaping information 700. Processing of the data shaping unit 107 will be described with reference to FIG.
  • the shaping information 700 includes information obtained by shaping medical information and medical examination information. Each row of the shaping information 700 is a total of data for one year corresponding to one insurance subscriber ID.
  • the insurance subscriber ID 201, gender 202, and insurer name 204 are the same as the insurance subscriber ID 201, gender 202, and insurer name 204 of the basic information 200 shown in FIG.
  • the data year 702 is a year when each of the medical information and medical examination information of the insurance subscriber is recorded.
  • the age 703 is the age of the insurance subscriber at the time of the data year 702, and is calculated from the data year 702 and the date of birth 203.
  • the presence / absence of diabetes of the insurance subscriber ID 201 is stored as “1” and “0”.
  • the hypertension 707 and the nephropathy 709 store the presence or absence of hypertension and the presence or absence of nephropathy of the insurance subscriber ID 201, respectively.
  • the diabetes medical expenses 706 stores the annual medical expenses for diabetes of the insurance subscriber ID 201.
  • the high blood pressure medical expenses 708 and the nephropathy medical expenses 710 store the annual medical expenses for high blood pressure and the annual medical expenses for nephropathy, respectively.
  • the presence / absence of prescription of oral diabetes medicine A in the data year 702 is stored as “1” and “0”.
  • the hypertensive oral drug A712 and the diabetic oral drug B713 store the prescription presence / absence of the hypertensive oral drug A and the diabetic oral drug B in the data year 702, respectively.
  • the value is stored as “1” is present and “0” is absent.
  • the medical practice B722 and the medical practice C723 store whether or not the medical practice B722 and the medical practice C723 in the data year 702 are performed.
  • the processing of the data shaping unit 107 will be specifically described in the case of shaping the 2004 data.
  • one insurance subscriber ID 201 is selected.
  • the search number 301 of the insurance subscriber ID 201 whose medical treatment date 303 is “2004” is acquired from the disease information 300 of FIG.
  • the presence or absence of each disease name 304 is determined with reference to the acquired disease information 300 of the search number 301, and is set to “1” when the corresponding disease is present and “0” when there is none. Thereby, the presence or absence of each disease is obtained.
  • medical examination data “2004” of the insurance subscriber ID “K0001” is recorded.
  • the search numbers “11”, “12”, and “13” can be acquired.
  • “1” is registered in the column of diabetes 705 in the first line of the shaping information 700. .
  • each drug name is determined with reference to the drug information 400 of the acquired search number 301, and is set to “1” when the corresponding drug is present and “0” when there is no corresponding drug. Further, the presence / absence of each medical practice name is determined by referring to the obtained medical practice information 500 of the search number 301, and is set to “1” when the corresponding medical practice is present, and “0” when there is none. As a result, a 2004 data row of the selected insurance subscriber ID 201 is generated. This process is performed for all insurance subscriber IDs and year combinations to be analyzed.
  • Each row is a total of data corresponding to one insurance subscriber ID 201.
  • the value of each item is the value of the health checkup data in the insurance subscriber and year indicated in the insurance subscriber ID 201 and the data year 702.
  • This medical examination data can be acquired from the medical examination information 600.
  • the health checkup information 600 includes a plurality of health checkup data for the same insurance member ID in the same year, the average of the results of the health checkups of the same year can be calculated using any one checkup date data. You may use it.
  • the data for a single medical checkup it is recommended to use data for a general medical checkup that is conducted at approximately the same time every year.
  • data with few defects may be selected.
  • As the missing data a numerical value indicating a predetermined missing is used. For example, “ ⁇ 1” is registered as missing data.
  • all values of insurance subscribers who do not have medical examination information are assumed to be missing data.
  • the shaping information 700 can be created from the medical information and the medical examination information. That is, based on the health care data possessed by the insurer, it is possible to automatically create shaped information for creating a current distribution and a graphical model.
  • FIG. 7 shows only data for 2004, but shaping information for another year is also created.
  • the created shaping information is stored in the shaping information storage unit 122.
  • FIG. 28A is a simple model consisting of two nodes.
  • the presence or absence of diabetes in year T is a random variable representing the presence or absence of diabetes in year T (1 is present, 0 is not present), and the presence or absence of nephropathy in year T + 1 is the presence or absence of nephropathy in year T + 1 (whether 1 is present or not. 0).
  • the nodes representing the respective random variables are denoted by v1 and v2
  • FIG. 28B shows a conditional probability table of p (x1) and p (x2
  • a table 3001 is a probability distribution p (x1) of the random variable x1.
  • Table 3002 is a probability distribution of conditional probability p (x2
  • p (x2 0
  • x1) is obtained by calculating p (x2
  • p (x2 s2
  • the graph G shown in FIG. 28A and the probability table shown in FIG. 28B are graphical models.
  • x1 1).
  • FIG. 29 shows a model for predicting the presence or absence of T + 1 year nephropathy using the presence or absence of diabetes in year T, blood glucose in year T, and blood pressure in year T. It is assumed that such a model can make a more accurate prediction.
  • Random variables representing the presence / absence of diabetes in year T, blood glucose in year T, blood pressure in year T, and presence / absence of nephropathy in year T + 1 are x1, x2, x3, and x4, and the nodes representing these are v1, v2, v3, and v4, respectively. far.
  • the conditional probability table is obtained by calculating p (x1), p (x2), p (x3), and p (x4
  • T + 1 year the probability distribution of the presence or absence of T + 1 year depends on. It is possible, but it becomes difficult as the scale increases.
  • the presence or absence of nephropathy in T + 1 year may depend on other test values, lifestyle, age, sex, and the like.
  • the presence or absence of diabetes and blood sugar itself depend on other items. Therefore, when a random variable becomes large as in the item of the shaping information 700, the stochastic dependency (edge) may be automatically created based on the data. Further, at the time of creation, the presence / absence of an edge, directed / undirected may be limited by a dependency based on experience and knowledge.
  • a Bayesian network structure learning technique or the like can be used.
  • the graphical model includes a first node group corresponding to a random variable at a first time point, a second node group corresponding to a random variable at a second time point in the future from the first time point, and the first node group. And a directed or undirected edge representing a stochastic dependency between any two nodes included in the set of the second node group and the second node group.
  • a graphical model may be created using the items of the shaping information 700 of T years and T + n years as random variables. These are created from past data. For example, in the case of three years later, data for 2008 and 2011, and data for 2009 and 2012 may be used. At this time, even for the same insurance subscriber data, the data for 2008 and 2011 and the data for 2009 and 2012 can be used for learning as different cases.
  • the graphical model 910 in FIG. 30 includes an item for year T and an item for year T + 1.
  • the graphical model 910 includes a T-year node 911, a T + 1 year node 913, and an edge 912 that expresses a probabilistic dependency relationship between two items.
  • the disease item 901 includes three items of nephropathy, diabetes, and hypertension
  • the test value item 902 includes two items of blood sugar and BMI
  • the lifestyle item 903 includes two items of lack of exercise and quick eating, for a total of seven items.
  • a configuration example of a graphical model that expresses a probabilistic dependency relationship between each item is shown as a random variable.
  • This configuration obtains data of items of diabetes 705, hypertension 707, nephropathy 709, BMI 603, blood sugar 605, fast eating 614, lack of exercise 615 from the shaping information 700 of FIG. 7, and structure learning technology of Bayesian network or Markov network Etc. can be constructed.
  • a graphical model for estimating the future probability of the data item can be automatically created from the shaping information obtained by shaping the health care data.
  • the created graph and probability table are stored in the graphical model storage unit 123.
  • the disease information for each insurer is obtained from the shaping information 700 stored in the shaping information storage unit 122 and the graphical model stored in the graphical model storage unit 123.
  • a process for predicting the future distribution of the probability and extracting a disease whose increase is predicted in the future as a problem disease will be described.
  • a target group extraction step 801 is performed.
  • the current state distribution calculation unit 109 acquires the shaping information 700 stored in the shaping information storage unit 122.
  • the current distribution calculation unit 109 refers to the insurer name and data year of the shaping information 700, and extracts target group data whose data year is the latest year for the insurer to be analyzed. For example, when the insurer to be analyzed is the insurer A and the latest year is 2013, data with the insurer name “A” and the data year “2013” is extracted as target group data.
  • the current distribution calculation unit 109 calculates a current probability distribution (current distribution) for each data item from the target group data extracted in the target group extraction step 801. Specifically, the current distribution calculation unit 109 calculates the current probability distribution (current distribution) by counting the number of data for each item value and dividing by the total number of data for each data item. The calculated current distribution for each data item is stored in the distribution storage unit 124 in the form of current distribution information 1000 shown in FIG.
  • the 10 includes an item classification 1001, an item 1002, an item value 1003, and a current distribution 1004.
  • the item classification 1001 indicates the classification of the data item, and indicates to which classification the data item belongs, such as a disease item, a test value item, or a lifestyle item.
  • An item 1002 indicates a data item name, and an item value 1003 indicates a value of the corresponding data item.
  • the current distribution 1004 shows a probability distribution for each item value 1003 of the data item 1002.
  • the future distribution prediction unit 110 acquires the current distribution information calculated by the current distribution calculation unit 109 and the graphical model stored in the graphical model storage unit 123. Then, the future distribution prediction unit 110 inputs the acquired current distribution information into the data item for year T of the graphical model.
  • the future distribution prediction unit 110 treats the current distribution of each data item input in the current distribution input step 803 as a known probability distribution, using a graphical model, and the probability distribution ( Forecast future distribution).
  • the probability distribution of the random variable for year T can be known, and the probability distribution of the remaining random variables for year T + 1 can be obtained. Thereby, it is possible to predict the probability distribution (future distribution) of the data item such as the disease item of T + 1 year.
  • a probability calculation method in such a graphical model Junction Tree Algorithm, Loopy Belief Propagation, or the like can be used.
  • FIG. 9 is a diagram illustrating an example of a future distribution prediction process and a problem disease extraction process.
  • the current distribution 920 of each data item is input to the T year node 911 of the graphical model 910 to be known, and the future distribution 930 of each data item is predicted by calculating the probability distribution of the T + 1 year node 913.
  • FIG. 9 shows an example in which the future distribution 930 of these items is predicted by inputting the current distribution 920 of nephropathy, diabetes, hypertension, blood glucose, BMI, and lack of exercise.
  • the current distribution 920 corresponds to the current distribution information shown in FIG.
  • the current distribution of nephropathy items has a probability 921 of “0” of 90% and a probability 922 of “1” of 10%, but the future distribution has a probability 931 of “0”.
  • the probability 932 of 80% and “1” changes to 20%.
  • the predicted future distribution for each data item is stored in the distribution storage unit 124 in the form of future distribution information 1100 shown in FIG.
  • the future distribution information 1100 in FIG. 11 has a format in which a future distribution 1105 for each item value of each data item is added to the current distribution information 1000 in FIG.
  • the target disease extraction unit 111 acquires a current distribution 1004 and a future distribution 1105 whose item classification 1001 is “disease” from the future distribution information of FIG. 11 predicted by the future distribution prediction unit 110.
  • the problem disease extraction unit 111 calculates the expected value of the current distribution and the expected value of the future distribution for each disease item based on the future distribution information 1100, and calculates the expected value of the future distribution and the expected value of the current distribution. Calculate the difference (future-present). And the difference with the present distribution of the future distribution according to a disease item is compared, and the disease with the big difference is extracted as problem disease.
  • the difference 940 between the future distribution of the disease item in FIG. 9 and the current distribution is + 10%.
  • the difference 940 between the future distribution of other disease items and the current distribution can be calculated in the same manner, with + 5% for diabetes and + 3% for hypertension.
  • + 10% of nephropathy is the largest, and this disease item is extracted as the problem disease 941 of the insurer A.
  • the extracted problem diseases are stored in the problem disease storage unit 125 in the form of problem disease data shown in FIG.
  • the problem disease data 1200 of FIG. 12 includes a disease 1201, an expected value 1202 of the current distribution, an expected value 1203 of the future distribution, and a difference 1204 between the future distribution and the current distribution. These items include the future distribution and the current distribution. Are stored in descending order.
  • a target illness of a different insurer can be extracted by extracting the group data of the target insurer in the target group extraction step 801 and executing the same processing.
  • the disease onset factor analysis system predicts the onset probability of a disease for each insurer based on the medical checkup information and medical information possessed by the insurer, and is expected to increase in the future. Can be extracted as a problem disease. Thereby, it is possible to identify diseases to be preferentially prevented and perform an effective health business.
  • the health care data includes two pieces of information, medical information and medical examination information, not only medical information such as disease and medical practice, but also data items such as health checkup values and lifestyle habits are included.
  • a graphical model can be created. Therefore, diseases whose future increase is predicted based on a wide range of data items can be extracted as problem diseases.
  • the process of extracting a disease that will be a future problem has been described, but the items to be extracted are not limited to this.
  • Other arbitrary items of health care data for example, medical expenses or medical practices (medicine, medical practice), etc., which become future issues) may be extracted as the items of issues.
  • FIG. 13 is a block diagram showing the configuration of the disease onset factor analysis system of the present embodiment.
  • the disease onset factor analysis system of this embodiment includes a disease onset factor analysis terminal 101 and a database 120.
  • the disease onset factor analysis terminal 101 includes an input unit 102, an output unit 103, a CPU 104, a memory 105, and a storage medium 106. Since the input unit 102, the output unit 103, the CPU 104, and the memory 105 are the same as those in the first embodiment, description thereof is omitted.
  • the storage medium 106 includes a future distribution changing unit 112, an estimated distribution calculating unit 113, a distribution comparison index value calculating unit 114, and a factor extracting unit 115 as various programs.
  • the future distribution change unit 112 displays the current distribution and future distribution of the target disease from the target disease data stored in the target disease storage unit 125 to the user via the output unit 103, and changes the future distribution of the target disease. This makes it possible to input an improvement value for the future distribution of the target disease while comparing the current distribution and the future distribution of the target disease on the screen.
  • the estimated distribution calculation unit 113 inputs the future distribution of the subject disease changed by the user and the current distribution stored in the distribution storage unit 124 into the graphical model stored in the graphical model storage unit 123, so that each data item Calculate the estimated distribution of.
  • the distribution comparison index value calculation unit 114 compares the estimated distribution calculated by the estimated distribution calculation unit 113 with the current distribution stored in the distribution storage unit 124 for each data item, and indicates a distribution change magnitude. A comparison index value is calculated.
  • the factor extraction unit 115 compares the distribution comparison index value calculated by the distribution comparison index value calculation unit 114 for each data item, and extracts a data item having a large index value as a factor.
  • the database 120 includes a medical information storage unit 121, a shaping information storage unit 122, a graphical model storage unit 123, a distribution storage unit 124, a problem disease storage unit 125, and a factor storage unit 131.
  • the future distribution change screen 1401 includes a problem disease 1410, an expected value display field 1411 of the problem disease current distribution, an expected value display field 1412 of the future distribution, a change value input field 1413 of the future distribution, and an input completion button 1421. It is displayed.
  • FIG. 14 shows an example in which an improved future distribution of 15% is input with respect to a future distribution of nephropathy of 20%.
  • the estimated distribution calculation unit 113 selects a target data item for calculating the estimated distribution. At this time, a data item other than the subject disease item whose future distribution has been changed by the future distribution changing unit 112 is selected as a target data item.
  • the estimated distribution calculation unit 113 acquires the current distribution information stored in the distribution storage unit 124 and the graphical model stored in the graphical model storage unit 123.
  • the improvement future distribution of the problem disease changed by the future distribution changing unit 112 is input to the T + 1 year node of the graphical model, and the current distribution of all data items other than the target data item selected in the data item selection step 2002 is graphically displayed.
  • the estimated distribution of the target data item in T year is calculated.
  • the above-described probability calculation method Junction Tree Algorithm or Loopy Belief Propagation can be used.
  • the estimated distribution calculation unit 113 determines whether there is a data item for which the estimated distribution is not calculated among data items other than the problem disease item. If there is, return to the data item selection step 2002 and repeat the estimated distribution calculation step 2003 until there are no non-calculated items. If there are no non-calculated items, the process proceeds to an expected value calculation step 2005.
  • FIG. 15A shows processing for calculating an estimated distribution 1520 of diabetes items.
  • an improved future distribution 1530 of nephropathy is input to the T + 1 year node of the graphical model 910, and further, data items other than diabetes (nephropathy, hypertension, blood glucose, BMI, Insufficient exercise ...)
  • data items other than diabetes nephropathy, hypertension, blood glucose, BMI, Insufficient exercise .
  • an estimated distribution 1520 of T years for diabetic items is calculated.
  • the estimated distribution of diabetes items in year T indicates that the probability 1521 of “0” is 75% and the probability 1522 of “1” is 25%.
  • FIG. 15B shows processing for calculating an estimated distribution 1520 of hypertension items.
  • an improved future distribution 1530 of nephropathy is input to the T + 1 year node of the graphical model 910, and further, data items other than hypertension (nephropathy, diabetes, blood glucose, BMI, Insufficient exercise ...)
  • data items other than hypertension nephropathy, diabetes, blood glucose, BMI, Insufficient exercise .
  • an estimated distribution 1520 of T years for hypertension items is calculated.
  • the estimated distribution of the hypertension item in year T indicates that the probability 1523 of “0” is 83% and the probability 1524 of “1” is 17%.
  • FIG. 15C shows processing for calculating an estimated distribution 1520 of blood glucose items.
  • an improved future distribution 1530 of nephropathy is input to the T + 1 year node of the graphical model 910, and further, data items other than blood glucose (nephropathy, diabetes, hypertension, BMI, Insufficient exercise ...)
  • data items other than blood glucose nephropathy, diabetes, hypertension, BMI, Insufficient exercise .
  • an estimated distribution 1520 of T-year blood glucose items is calculated.
  • the estimated distribution of T-year blood glucose items has a shape like a distribution 1525.
  • the above processing is repeated until there are no non-calculated items, and the estimated distribution of each data item is calculated.
  • the calculated estimated distribution is stored in the distribution storage unit 124 in the form of estimated distribution information 1600 shown in FIG.
  • the estimated distribution information 1600 in FIG. 16 has a format in which the estimated distribution 1606 for each item value of each data item is added to the future distribution information 1100 in FIG.
  • the estimated distribution information calculated in the estimated distribution calculating step 2003 is stored in the estimated distribution 1606.
  • the estimated distribution 1606 of blood glucose items indicates that 70-79 is 5%, 80-89 is 13%,.
  • the estimated distribution calculation unit 113 inputs the current distribution of data items other than the calculation target data item (estimation target data item) and calculates the estimated distribution of the calculation target data item as known. For this reason, the influence of data items (covariates) other than the calculation target data item can be eliminated, and an estimated distribution representing the single influence of the calculation target data item can be calculated. That is, the apparent correlation (pseudo-correlation) caused by the influence of other data items (covariates) can be eliminated, and the contribution of the data items to the suppression of the increase in the target disease can be accurately calculated.
  • the distribution comparison index value calculation unit 114 calculates the expected value of the current distribution of each data item and the expected value of the estimated distribution calculated by the estimated distribution calculation unit 113, respectively.
  • the distribution comparison index value calculation unit 114 calculates the variance of the current distribution of each data item and the variance of the estimated distribution calculated by the estimated distribution calculation unit 113, respectively.
  • the distribution comparison index value calculation unit 114 for each data item, the estimated distribution calculated in the expected value calculation step 2005, the expected value of the current distribution, and the estimated distribution calculated in the variance calculation step 2006. Then, a distribution comparison index value indicating a change in the estimated distribution and the current distribution is calculated from the variance of the current distribution.
  • This index H is an index obtained by normalizing the difference between the expected values using the variance of the current distribution and the estimated distribution. For this reason, distribution changes can be compared even between data items having different distribution shapes, such as disease items and test value items, and factors that suppress the increase in problem diseases can be extracted.
  • the calculation of the index value is not limited to this example, and any other calculation method may be used as long as the value indicates a change between the estimated distribution and the current distribution.
  • the factor extraction unit 115 compares the distribution comparison index value of each data item calculated by the distribution comparison index value calculation unit 114, and extracts a data item having a large distribution comparison index value as a factor.
  • the extracted factors are stored in the factor storage unit 131 in the form of factor data 1800 shown in FIG.
  • the factor data 1800 in FIG. 17 includes an item classification 1001, a factor data item 1801, an expected value Eg1802 of the current distribution of the factor data item, an expected value Es1803 of the estimated distribution of the factor data item, an expected value Eg of the current distribution, and an expected distribution expectation. And a distribution comparison index value H1805 which is a difference 1804 between the values Es and an expected value difference 1804 normalized by variance. These factor data items are stored in descending order of the distribution comparison index value H1805.
  • FIG. 18A and 18B are screen examples in which the factor extraction result calculated by the above processing is displayed on the output unit 103.
  • FIG. 18A shows the factor extraction result 1901 of the insurer A
  • FIG. 18B shows the factor extraction result 1911 of the insurer B.
  • the screen includes an insurer name selection field 1902, a problem disease display field 1904, a causative disease display field 1903, and a factor list display field 1905.
  • the target disease display column 1904 the target disease is displayed based on the target disease data 1200.
  • “nephropathy” having the largest difference 1204 between the future distribution and the current distribution is displayed.
  • disease items are displayed based on the item 1801 of the factor data 1800.
  • the factor list display field 1905 items other than the factor data item 1801 to the disease item are displayed in descending order of the distribution comparison index value H1805.
  • the problem disease displayed in the problem disease display field 1904 is the same nephropathy in the insurer A and the insurer B, but the factor extraction results are different.
  • the factor extraction result 1901 of insurer A in FIG. 18A indicates that the causative disease is diabetes, and the contribution is in the order of blood glucose, BMI, lack of exercise, and fast eating as factor data test values and lifestyle items.
  • the factor extraction result 1911 of the insurer B in FIG. 18B indicates that the causative disease is high blood pressure, and the contribution is in the order of systolic blood pressure, BMI, fast eating, and evening meal as factor data test values and lifestyle items. ing.
  • the current distribution (health state) of the health care data possessed by the insurer it is possible to extract and display the factor data items that suppress the increase in the target disease.
  • the disease onset factor analysis system calculates an estimated distribution of each data item when the increase in future problem diseases is suppressed, and extracts a data item having a large difference from the current distribution. Therefore, there is an effect of extracting a factor that suppresses the increase in the subject disease.
  • the disease onset factor analysis system calculates the estimated distribution of a certain data item
  • the current distribution of the other data item is input and calculated, so the influence of the other data item (covariate) There is an effect that an accurate factor can be extracted.
  • the processing for calculating the problem illness and the factor for each insurer has been described.
  • this embodiment applies not only to the insurer but also to an arbitrary group (or individual).
  • the processing of the present embodiment can be performed by selecting an arbitrary group such as gender, age, or establishment. Thereby, there is an effect that it is possible to calculate a problem disease and a factor according to data (health state) of an arbitrary group (or individual).
  • the process of extracting the cause of the disease that will be a future problem has been described, but the present invention is not limited to this.
  • Other arbitrary items of health care data for example, medical expenses and medical practices (pharmaceuticals, medical practice), etc., which will be a future subject) may be set as the subject items, and factors of the subject items may be extracted.
  • the disease occurrence factor analysis system that extracts the data items that are the factors that suppress the increase in the target disease from the current distribution and the future distribution of the data items and determines the guidance target person and the countermeasure from the factor data. An example will be described.
  • FIG. 20 is a block diagram showing the configuration of the disease onset factor analysis system of the present embodiment.
  • the disease onset factor analysis system of this embodiment includes a disease onset factor analysis terminal 101 and a database 120.
  • the disease onset factor analysis terminal 101 includes an input unit 102, an output unit 103, a CPU 104, a memory 105, and a storage medium 106. Since the input unit 102, the output unit 103, the CPU 104, and the memory 105 are the same as those in the first and second embodiments, description thereof is omitted.
  • the storage medium 106 includes a future distribution changing unit 112, an estimated distribution calculating unit 113, a distribution comparison index value calculating unit 114, a factor extracting unit 115, an improved distribution calculating unit 116, a target person range determining unit 117, and a countermeasure determining unit 118. . Since the future distribution changing unit 112, the estimated distribution calculating unit 113, the distribution comparison index value calculating unit 114, and the factor extracting unit 115 perform the same processing as in the second embodiment, the description thereof is omitted.
  • the improved distribution calculation unit 116 uses the graphical model stored in the graphical model storage unit 123 based on the improved future distribution of the target disease changed by the future distribution change unit 112 and the current distribution stored in the distribution storage unit 124. The improvement distribution of the test value and lifestyle items extracted as factors by the factor extraction unit 115 is calculated.
  • the target person range determination unit 117 compares the improvement distribution of the inspection value item calculated by the improvement distribution calculation unit 116 with the current distribution, and a range of values in which the probability for each value of the inspection value item is reduced from the current distribution by the improvement distribution And determine the scope of instructors.
  • the measure determining unit 118 calculates the difference between the improvement distribution of the test value item and the lifestyle item calculated by the improvement distribution calculating unit 116 and the expected value of the current distribution, and calculates the improvement amount of the test value item and the lifestyle item as a measure. decide.
  • the database 120 includes a medical information storage unit 121, a shaping information storage unit 122, a graphical model storage unit 123, a distribution storage unit 124, a problem disease storage unit 125, a factor storage unit 131, a subject storage unit 141, and a countermeasure storage unit 142. Composed.
  • the data items that cause the increase in the target disease are determined from the current distribution and the future distribution of the data items.
  • the process of extracting and determining the person to be instructed and the countermeasure from the factor data will be described.
  • a factor extraction step 2000 is performed.
  • the improvement distribution calculation unit 116 acquires the factor data extracted by the factor extraction unit 115, the current distribution stored in the distribution storage unit 124, and the graphical model stored in the graphical model storage unit 123. .
  • the improvement future distribution of the problem disease changed by the future distribution changing unit 112 is input to the T + 1 year node, the current distribution of the disease item is input to the T year node, and the test value item and the life of the factor data are input using the graphical model.
  • Junction Tree Algorithm or Loop Belief Propagation which is the probability calculation method described above, can be used.
  • FIG. 21 An example of the improvement distribution calculation process shown in FIG. 21 will be described.
  • the problem disease item is nephropathy and the future distribution changing unit 112 changes the future distribution 930 (expected value 20%) to the improved future distribution 1530 (expected value 15%)
  • the test value items are blood glucose and BMI among the factor data items extracted by the factor extraction unit 115, and the lifestyle items are insufficient exercise and fast eating.
  • the future distribution 1530 of improvement of nephropathy and the current distribution 920 of disease items are input to the graphical model 910 and are made known, so that the improvement distribution 2320 of T data of the factor data item is shown. Is calculated.
  • the improvement future distribution 1530 of nephropathy is input to the T + 1 year node, and the current distribution 920 of the disease item is input to the T year node, and the improvement distribution 2320 in the T year of the factor data item is calculated.
  • FIG. 21 shows the calculated blood glucose improvement distribution 2312, BMI improvement distribution 2313, lack of exercise improvement distribution 2314, and rapid eating improvement distribution 2315.
  • the subject range determination unit 117 compares the improvement distribution of the inspection value item calculated by the improvement distribution calculation unit 116 with the current distribution, and the probability for each value of the inspection value item 902 is the current distribution. Determine the range of values that have been reduced in the improvement distribution from, and determine the scope of the instructor.
  • FIG. 22 shows an example of processing for determining the target person range 2400 from the improvement distribution 2320 and the current distribution 920 for blood glucose and BMI.
  • the improvement distribution 2312 and the current distribution 923 are compared. As can be seen by comparing these two distributions, the probability of the improved distribution 2312 is lower than the probability of the current distribution 923 in the blood glucose range of 110 to 119. Therefore, the subject range 2401 in the case of blood sugar is 110 to 119.
  • the improvement distribution 2313 and the current distribution 924 are compared. As can be seen by comparing these two distributions, the probability of the improved distribution 2313 is reduced in comparison with the probability of the current distribution 924 in the range of BMI of 25 to 28. Accordingly, the target person range 2402 in the case of BMI is 25 to 28.
  • the determination of the target person range is not limited to the above method, and other methods may be used as long as the improvement distribution and the current distribution are compared to calculate a range having a large change in the probability distribution.
  • the calculated subject range for each inspection value item is stored in the subject storage unit 141 in the form of subject range data 2600 in FIG.
  • the target person range data 2600 in FIG. 24 stores an insurer name 204, a factor data item 1801, and a target person range 2602 for each factor data item.
  • the instructor range of the insurer name A indicates that the blood glucose is 110 to 119 and the BMI is 25 to 28.
  • the target person range determination unit 117 compares the improvement distribution of the factor data item with the current distribution and calculates the range of the value with a large change in the probability distribution, so guidance is necessary to suppress the increase in the target disease. Specific target person can be determined.
  • the measure determining unit 118 calculates the difference between the improvement distribution of the test value item 902 and the lifestyle item 903 calculated by the improvement distribution calculating unit 116 and the expected value of the current distribution, and the test value item is used as a measure. And determine the amount of improvement of lifestyle items.
  • FIG. 23 shows an example of processing in which the test value item 902 is blood glucose and BMI, the lifestyle item 903 is lack of exercise and fast eating, and the countermeasure 2500 is determined from the improvement distribution 2320 and the current distribution 920 for each factor data item. Show. Specifically, the expected value of the improvement distribution 2320 and the expected value of the current distribution 920 are calculated, and the difference between the expected values (current state-improvement) is calculated, so that the improvement amount is determined for each factor data item as a countermeasure 2500. To do.
  • the determined countermeasure is stored in the countermeasure storage unit 142 in the form of countermeasure data 2700 in FIG.
  • the countermeasure data 2700 in FIG. 25 stores an insurer name 204, a factor data item 2701, and an improvement amount 2702 for each factor data item.
  • the improvement amount of the blood glucose item of the insurer name A is 4%
  • the improvement amount of the exercise deficient item is 3%.
  • the countermeasure determining unit 118 calculates the difference between the expected value of the improvement distribution 2320 of the factor data item and the current distribution 920, so that the improvement amount of the factor data item can be determined as a specific countermeasure.
  • FIG. 26A and FIG. 26B are screen examples in which the target person range determined by the above processing and the countermeasure determination result are displayed on the output unit 103.
  • FIG. 26A shows the result 2801 of the insurer A
  • FIG. 26B shows the result 2811 of the insurer B.
  • the problem disease improvement target display field 2805 displays the expected value of the future distribution 930 of the problem disease and the expected value of the improved future distribution 1530 changed by the future distribution changing unit 112 and the difference between them.
  • both the insurer A and the insurer B display the case where the subject disease item is nephropathy and the 5% decrease from the expected value 20% of the future distribution 930 to the expected value 15% of the improved future distribution 1530. .
  • the target person range display field 2806 the target person range of the inspection value item determined by the target person range determination unit 117 based on the factor data is displayed, and the number of persons corresponding to the range is further displayed.
  • the target person range of the inspection value item is displayed by referring to the target person range data 2600 of FIG. 24 stored in the target person storage unit 141.
  • the number of persons in the target person range is displayed by counting the number of persons in the target person range from the shaping information 700 stored in the shaping information storage unit 122.
  • the target person range display field 2806 of the result 2801 of the insurer A indicates that the target person ranges are blood glucose 110 to 119 and BMI 25 to 28, and the target number of persons in the range is 300 people.
  • the target person range display field 2806 of the result 2811 of the insurer B indicates that the target person ranges are systolic blood pressures 130 to 140 and BMI 25 to 29, and the target number of persons in the range is 1000 people.
  • the inspection value item determined by the measure determining unit 118 based on the factor data and the improvement amount of the lifestyle improvement item are displayed.
  • the amount of improvement of the inspection value item and the lifestyle improvement item is displayed by referring to the countermeasure data in FIG. 25 stored in the countermeasure storage unit 142.
  • the result 2801 of the insurer A shows a measure that the amount of improvement in each factor data item is 4 blood glucose reduction, BMI 1 reduction, exercise deficit 3% reduction, and quick eating 2% reduction.
  • the result 2811 of the insurer B shows a measure that the systolic blood pressure is reduced by 3, the BMI is reduced by 1, the fast eating is reduced by 3%, and the evening meal is reduced by 2% as the improvement amount of each factor data item.
  • the target person range determination unit 117 compares the improvement distribution of the factor data item with the current distribution, and calculates a range of values with a large change in the probability distribution. Therefore, there is an effect that a target person who needs guidance in order to suppress an increase in problem diseases can be specifically determined.
  • the measure determination unit 118 calculates the difference between the expected value of the improvement distribution of the factor data item and the expected value of the current distribution. There is an effect that the improvement amount of the item can be determined.
  • a graphical model created from two types of information, medical information and medical examination information is used. Can be determined.
  • the process of calculating the problem illness, factor, target person range, and countermeasure for each insurer has been described, but not only for each insurer but also for an arbitrary group (or individual)
  • the processing of this embodiment can be performed on the above.
  • the processing of the present embodiment can be performed by selecting an arbitrary group such as gender, age, or establishment. Thereby, there is an effect that it is possible to calculate the problem disease, the factor, the subject range, and the countermeasure according to the data (health state) of an arbitrary group (or individual).
  • the process of determining the target person range and the countermeasure from the cause of the disease that will be a future problem has been described, but the present invention is not limited to this.
  • Set any other items of health care data for example, medical expenses or medical practices (pharmaceuticals, medical practices), etc., which will be a future task) as the task items, extract the factors of the task items, and use them as the factors
  • the target person range and countermeasures may be determined.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
  • a part of the configuration of one embodiment can be replaced with the configuration of another embodiment.
  • the structure of another Example can also be added to the structure of a certain Example.
  • another configuration can be added, deleted, or replaced.
  • the functions, processing means, and the like of the disease onset factor analysis apparatus described above may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files that realize each function can be stored in a storage device such as a memory, a hard disk, or an SSD (Solid State Drive), or a storage medium such as an IC card, an SD card, or a DVD.
  • the functions and processing means of the disease onset factor analyzing apparatus described above may be realized by hardware by designing a part or all of them, for example, with an integrated circuit.

Abstract

 分析システムは、保険加入者のヘルスケア情報に含まれるデータ項目から構成されるグラフィカルモデルと、前記データ項目毎の現状分布情報とを格納するデータベースを備える。前記分析システムは、対象となるデータ項目の将来分布の改善値と、前記現状分布情報とを前記グラフィカルモデルに入力することにより、各データ項目毎に推定分布情報を算出する。前記分析システムは、前記推定分布情報と前記現状分布情報とを前記データ項目間で比較し、前記推定分布情報と前記現状分布情報との間の変化を示す指標値を算出する。前記分析システムは、前記指標値を前記データ項目毎に比較することにより、前記対象となるデータ項目の要因を要因情報として抽出し、少なくとも前記要因情報を表示する。

Description

分析システム
 本発明は、保健事業を支援する分析システムに関する。
 保険者(健康保険事業の運営主体)は、高騰する医療費の抑制を目的に、生活習慣病予防及び重症化予防のための保健指導などの保健事業を実施している。しかし、保健指導のために確保できる保健師、及び保健指導のための費用等の保険者のリソースは限られているため、効果的・効率的な保健事業の運営を支援するシステムが望まれている。
 保健事業の運営を支援するシステムとして、次のような方法が知られている。特許文献1には、医療情報、健診情報、及び保健指導情報に基づいて、保健指導対象者を選択する保健事業支援システムであって、被保険者の重症度及び検査値ごとの予測医療費を示す医療費モデルを作成する医療費モデル作成部と、重症度及び検査値ごとの改善量を示す検査値改善モデルを作成する検査値改善モデル作成部と、保健指導による予測医療費削減量を重症度及び検査値ごとに算出する予測医療費削減効果算出部と、予測医療費削減量が高い重症度及び検査値に属する被保険者を保健指導対象者として選択する対象者選択部と、を備える保健事業支援システムが記載されている。
特開2012-128670号公報
 保険者の限られたリソースの中で、効果的な保健事業を推進するためには、保険加入者の将来増加すると思われる疾病を特定し、その疾病の増加を抑制する要因を抽出することが重要である。しかし、従来技術では、課題となる疾病の増加を抑制する要因を分析する方法について考慮されていなかった。
 本発明の目的は、保険者のヘルスケアデータから、将来の課題となる疾病の増加を抑制する要因を分析することが可能な疾病発症要因分析システムを提供することにある。
 上記課題を解決する為に、例えば請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、保険加入者のヘルスケア情報に含まれるデータ項目から構成されるグラフィカルモデルであって、第1の時点の前記データ項目の確率変数に対応する第1のノード群と、前記第1の時点よりも将来の第2の時点の前記データ項目の確率変数に対応する第2のノード群と、前記第1のノード群と前記第2のノード群から成る集合に含まれる任意の2つのノード間の確率的依存性を表す有向又は無向のエッジとにより定義されるグラフィカルモデルと、前記データ項目毎の前記第1の時点の確率分布を表す現状分布情報と、を格納するデータベースと、対象となるデータ項目の前記第2の時点の将来分布の改善値と、前記現状分布情報とを前記グラフィカルモデルに入力することにより、各データ項目毎に前記第1の時点の推定分布情報を算出する推定分布算出部と、前記推定分布情報と前記現状分布情報とを前記データ項目間で比較し、前記推定分布情報と前記現状分布情報との間の変化を示す指標値を算出する指標値算出部と、前記指標値を前記データ項目毎に比較することにより、前記対象となるデータ項目の要因を要因情報として抽出する要因抽出部と、少なくとも前記要因情報を表示する出力部と、を備える分析システムが提供される。
 本発明によれば、保険者のヘルスケアデータから、将来の課題となる疾病の増加を抑制する要因を分析することができる。
 本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成および効果は、以下の実施例の説明により明らかにされる。
第1実施例における疾病発症要因分析システムの構成を示すブロック図である。 保険加入者の基本情報の一例を説明する図である。 ヘルスケアデータにおける疾病情報の一例を説明する図である。 ヘルスケアデータにおける医薬品情報の一例を説明する図である。 ヘルスケアデータにおける診療行為情報の一例を説明する図である。 ヘルスケアデータにおける健診情報の一例を説明する図である。 ヘルスケアデータの整形情報の一例を説明する図である。 課題疾病抽出処理の一例を説明するフローチャートである。 将来分布予測処理および課題疾病抽出処理の一例を説明する図である。 現状分布情報の一例を説明する図である。 将来分布情報の一例を説明する図である。 課題疾病データの一例を説明する図である。 第2実施例における疾病発症要因分析システムの構成を示すブロック図である。 将来分布変更画面の一例を説明する図である。 推定分布算出処理方法の一例を説明する図である。 推定分布算出処理方法の一例を説明する図である。 推定分布算出処理方法の一例を説明する図である。 推定分布情報の一例を説明する図である。 要因データの一例を説明する図である。 課題疾病及び要因の抽出結果を示す画面の一例を説明する図である。 課題疾病及び要因の抽出結果を示す画面の一例を説明する図である。 要因抽出処理の一例を説明する図である。 第3実施例における疾病発症要因分析システムの構成を示すブロック図である。 改善分布算出処理方法の一例を説明する図である。 対象者範囲決定方法の一例を説明する図である。 対策決定方法の一例を説明する図である。 対象者範囲データの一例を説明する図である。 対策データの一例を説明する図である。 対象者範囲及び対策の決定結果を示す画面の一例を説明する図である。 対象者範囲及び対策の決定結果を示す画面の一例を説明する図である。 対象者範囲決定処理及び対策決定処理の一例を説明するフローチャートである。 2変数のグラフィカルモデルの一例を説明する図である。 確率分布を示す表の一例を説明する図である。 4変数のグラフィカルモデルの一例を説明する図である。 グラフィカルモデルの構成例を説明する図である。
 以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
[第1実施例]
 第1実施例では、ヘルスケアデータから、保険者(健康保険事業の運営主体)毎に疾病発症確率を予測し、将来増加が予測される疾病を課題疾病として抽出する疾病発症要因分析システムの例を説明する。
 本実施例では、ヘルスケアデータから作成された疾病、検査値、生活習慣等のデータ項目間の関係を示すグラフィカルモデルと、ヘルスケアデータに基づき、保険者毎に課題となる疾病を抽出する。
 ここで、ヘルスケアデータとは、保険加入者(被保険者)の医療記録や検査値など、個人毎の医療/健康に関する情報を含むデータのことである。ヘルスケアデータに含まれる情報の具体的な例としては、例えば、保険加入者の疾病名、保険加入者に行われた医療行為、医療行為の費用(医療費)等の医療情報、保険加入者に実施された健康診断の情報(健診情報)である検査値、生活習慣などが挙げられる。
 以後、本実施例では、医療情報及び健診情報の2つの情報がヘルスケアデータ内に存在している場合を説明するが、必ずしもこれらを全て含む必要はない。以下、医療情報及び健診情報の2つの情報の概要を説明する。
 医療情報は、保険加入者が医療機関を受診した際の疾病名、処方された医薬品、実施された診療行為、及び医療費などが記録された情報であり、その一例は図2~図5を用いて後述する。なお、処方された医薬品、及び実施された診療行為を医療行為と総称する。
 健診情報は、保険加入者が健康診断を受診した場合の検査値と、生活習慣や家族の病歴などの問診の結果が記憶された情報であり、その一例は図7を用いて後述する。
 図1は、本実施例の疾病発症要因分析システムの構成を示すブロック図である。疾病発症要因分析システムは、疾病発症要因分析端末101と、データベース120とを有する。
 疾病発症要因分析端末101は、入力部102、出力部103、CPU104、メモリ105及び記憶媒体106を有する。入力部102は、マウス、キーボードなどのヒューマンインタフェースであり、疾病発症要因分析端末101への入力を受け付ける。出力部103は、疾病発症要因分析端末101による演算結果を出力するディスプレイやプリンタである。
 記憶媒体106は、疾病発症要因分析端末101による疾病発症要因分析処理を実現する各種プログラム、及び疾病発症要因分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体(磁気ディスクドライブ、不揮発性メモリ等)である。
 メモリ105には、記憶媒体106に格納されているプログラムが展開される。CPU104は、メモリ105にロードされたプログラムを実行する演算装置であり、例えば、CPU、GPUなどのプロセッサである。以下に説明する処理及び演算は、CPU104が実行する。
 本実施例の疾病発症要因分析システムは、一つの計算機上で、又は、論理的あるいは物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
 CPU104によって実行されるプログラムは、リムーバブルメディア(CD-ROM、フラッシュメモリなど)又はネットワークを介して各サーバに提供され、非一時的記憶媒体(non-transitory computer readable media)である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインタフェースを備えてもよい。
 記憶媒体106は、各種プログラムとして、データ整形部107と、グラフィカルモデル作成部108と、現状分布算出部109と、将来分布予測部110と、課題疾病抽出部111とを備える。
 データ整形部107は、入力部102によって入力された健診情報と医療情報を突合わせ、分析に適した形にデータを整形する。以下、データ整形部107によって整形されたデータを整形情報と称する。
 グラフィカルモデル作成部108は、データ整形部107で整形された整形情報から、疾病、検査値、生活習慣等の項目を確率変数として、T年とT+1年の各項目間の確率的依存関係を表現するグラフィカルモデルを作成する。
 現状分布算出部109は、データ整形部107で整形された整形情報から、分析対象とする保険者のデータを抽出し、疾病、検査値、生活習慣等の各項目について、現状の項目値の確率分布を算出し、項目別の現状分布を作成する。
 将来分布予測部110は、グラフィカルモデル作成部108で作成されたグラフィカルモデルのT年の項目に、現状分布算出部109で算出された該当項目の現状分布を入力する。これにより、将来分布予測部110は、各疾病項目のT+1年の確率分布を予測し、将来分布を作成する。
 課題疾病抽出部111は、将来分布予測部110で予測した各疾病項目のT+1年の確率分布の期待値を算出し、算出された期待値を比較する。そして、課題疾病抽出部111は、確率分布の期待値が高い疾病を、分析対象の保険者の課題疾病として抽出する。
 データベース120は、医療情報記憶部121と、整形情報記憶部122と、グラフィカルモデル記憶部123と、分布記憶部124と、課題疾病記憶部125とから構成される。以下では、上記の課題疾病抽出処理において用いられる各種データ及びデータ処理について説明する。
 まず、本実施例で扱うヘルスケアデータについて説明する。医療情報記憶部121は、入力部102から入力されたヘルスケアデータを格納する。以下、医療情報及び健診情報の2つを、代表的なヘルスケアデータの例として取り上げ、それぞれについて説明する。
 まず、医療情報について説明する。医療情報は、複数の保険加入者の基本情報、各保険加入者の複数年度にわたる疾病情報、医薬品情報、及び診療行為情報などを含む。
 図2は、本発明の実施形態の医療情報記憶部121が記憶する基本情報200の説明図である。基本情報200は、保険加入者の性別、生年月日等の基本情報を保持するものである。基本情報200は、保険加入者ID201、性別202、生年月日203、及び保険者名204を含む。保険加入者ID201には、保険加入者を特定するための識別子が登録される。性別202には、保険加入者の性別を示す情報が登録される。生年月日203には、保険加入者の生年月日を示す情報が登録される。保険者名204には、保険加入者が加入している保険者名を示す情報が登録される。
 図3は、本発明の実施形態の医療情報記憶部121が記憶する疾病情報300の説明図である。疾病情報300は、検索番号301、保険加入者ID201、診療年月303、疾病名304及び医療費305を含む。検索番号301には、一件の医療情報を特定するための識別子が登録される。保険加入者ID201は、図2に示す保険加入者ID201と同じである。診療年月303には、保険加入者が医療機関を受診した年及び月を示す情報が登録される。疾病名304には、一件の医療情報に記載された疾病名を示す情報が登録される。医療費305には、一件の医療情報の医療費を示す情報が登録される。
 なお、一件の医療情報には、複数の疾病名が記載可能である。例えば、図3に示す疾病情報300では、検索番号301に「11」が登録されたエントリの疾病名304には「糖尿病」及び「高血圧」が登録されている。したがって、検索番号が「11」の医療情報には、糖尿病及び高血圧の疾病名が登録されている。
 なお、医療費305には、上述した図3の検索番号301「11」のように、一つの検索番号301に対して複数の疾病名が登録されている場合には、疾病名別に医療費が登録される。
 図4は、本発明の実施形態の医療情報記憶部121が記憶する医薬品情報400の説明図である。医薬品情報400は、処方された医薬品を各医療情報に対応して記憶するものである。医薬品情報400は、検索番号301、医薬品コード402、医薬品名403、及び医薬品医療費404を含む。
 検索番号301は、図3に示す検索番号301と同じである。医薬品コード402には、医薬品を特定するための識別子が登録される。医薬品名403、及び医薬品医療費404には、それぞれ、対応する医薬品の名称、対応する医薬品の医療費が登録される。図4では、例えば、検索番号301に「11」が登録された医療情報には、医薬品名403として、糖尿病経口薬A、及び高血圧経口薬Aが登録されている。
 図5は、本発明の実施形態の医療情報記憶部121が記憶する診療行為情報500の説明図である。診療行為情報500は、検索番号301、診療行為コード502、診療行為名503、診療行為医療費504を含む。
 検索番号301は、図3に示す検索番号301と同じであるので、説明を省略する。診療行為コード502には、医療情報に記載された診療行為を識別するための診療行為コードを示す情報が登録される。診療行為名503には、医療情報に記載された診療行為の名称を示す情報が登録される。診療行為医療費504には、診療行為にかかる医療費が登録される。
 なお、図4に示す医薬品情報400及び図5に示す診療行為情報500を総称して、医療行為情報という。
 図6は、本発明の実施形態の医療情報記憶部121が記憶する健診情報600の説明図である。健診情報600は、複数の保険加入者の複数年分の健診情報を管理する。健診情報600は、保険加入者ID201、健診受診日602、BMI603、腹囲604、血糖605、収縮期血圧606、中性脂肪607、喫煙613、早食い614、運動不足615などを含む。
 保険加入者ID201には、健康診断を受診した保険加入者の識別子が登録される。健診受診日602には、健康診断を受診した年月日を示す情報が登録される。BMI603~中性脂肪607は、健康診断で検査される項目である。BMI603にはBMI値が登録される。腹囲604には腹囲の値が登録される。血糖605には血糖の値が登録される。収縮期血圧606には収縮期血圧の値が登録される。中性脂肪607には中性脂肪の値が登録される。
 喫煙613~運動不足615は、健康診断で問診される生活習慣に関する項目である。例えば、喫煙613は、喫煙有無に回答した値が登録される。早食い614は、早食いかどうかの問診に有無で回答した値が登録される。運動不足615は、運動不足かどうかの問診に有無で回答した値が登録される。なお、問診は、家族の病歴、自覚症状などを含んでもよい。
 次に、データ整形部107の処理について説明する。データ整形部107は、医療情報記憶部121に記憶されているヘルスケアデータを、保険加入者毎かつ所定の期間毎にまとめた整形情報を作成する。データ整形部107は、医療情報記憶部121に記憶されているヘルスケアデータから、保険加入者毎かつ所定の期間毎に情報を集計及び統合し、表形式のデータに整形する。以下では、一つの期間は1年であるとして説明するが、半年、2年、3年など、別の期間でもよい。また、医療情報及び健診情報を用いて整形する例を説明するが、これら以外のデータを追加して行っても良い。
 図7は、整形情報700の一例を説明する図である。図7を用いて、データ整形部107の処理を説明する。整形情報700は、医療情報及び健診情報を整形した情報を含む。整形情報700の各行は、一つの保険加入者IDに対応する一つの年のデータを集計したものである。
 保険加入者ID201、性別202、保険者名204は、それぞれ、図2に示す基本情報200の保険加入者ID201、性別202、保険者名204と同じである。データ年702は、保険加入者の医療情報及び健診情報の各々が記録された年である。年齢703は、データ年702の時点での保険加入者の年齢であり、データ年702と生年月日203から計算する。
 糖尿病705には、保険加入者ID201の糖尿病の有無について、有を「1」、無を「0」としてその値が格納される。高血圧707及び腎症709も同様に、保険加入者ID201の高血圧の有無および腎症の有無がそれぞれ格納される。また、糖尿病医療費706には、保険加入者ID201の糖尿病の年間医療費が格納される。高血圧医療費708及び腎症医療費710も同様に、高血圧の年間医療費及び腎症の年間医療費がそれぞれ格納される。
 糖尿病経口薬A711には、データ年702での糖尿病経口薬Aの処方有無について、有を「1」、無を「0」としてその値が格納される。高血圧経口薬A712及び糖尿病経口薬B713も同様に、データ年702での高血圧経口薬A及び糖尿病経口薬Bの処方有無が格納される。
 診療行為A721には、データ年702での診療行為Aの実施有無について、有を「1」、無を「0」としてその値が格納される。診療行為B722及び診療行為C723も同様に、データ年702での診療行為B722及び診療行為C723の実施有無が格納される。
 データ整形部107の処理について、2004年のデータを整形する場合を具体的に説明する。まず、一つの保険加入者ID201を選択する。次に、図3の疾病情報300から診療年月303が「2004年」である保険加入者ID201の検索番号301を取得する。次に、取得した検索番号301の疾病情報300を参照して、各疾病名304の有無を判定し、該当疾病が有の場合は「1」、無の場合は「0」とする。これによって、各疾病の有無が得られる。例えば、図6に示す健診情報600の1行目には、保険加入者ID「K0001」の「2004年」の健診データが記録されている。保険加入者ID「K0001」で疾病情報300を参照することにより、検索番号「11」「12」「13」が取得できる。疾病情報300を参照すると、この3回の診療のうち、疾病名が「糖尿病」である診療が有るため、整形情報700の1行目の糖尿病705の欄には、「1」が登録される。
 同様に、取得した検索番号301の医薬品情報400を参照して、各医薬品名の有無を判定し、該当医薬品が有の場合は「1」、無の場合は「0」とする。さらに、取得した検索番号301の診療行為情報500を参照して、各診療行為名の有無を判定し、該当診療行為が有の場合は「1」、無の場合は「0」とする。これにより、選択された保険加入者ID201の2004年のデータ行が生成される。この処理を、分析対象となる全ての保険加入者ID及び年の組み合わせに対して行う。
 図7に示す整形情報700は、健診情報を整形した情報も含む。各行は、一つの保険加入者ID201に対応するデータを集計したものである。各項目の値は、保険加入者ID201及びデータ年702に示される保険加入者及び年度における健診データの値である。この健診データは健診情報600から取得できる。健診情報600が同一の保険加入者IDの同一年の健診データを複数含む場合、いずれか一つの健診受診日のデータを使っても、当該年の複数回の健診結果の平均を使ってもよい。一つの健診受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。また、欠損が少ないデータを選択してもよい。欠損データは、予め定められた欠損であることを示す数値を用いる。例えば、欠損データとして「-1」を登録する。なお、健診情報がない保険加入者の値は、全て欠損データとする。
 以上の処理によって、医療情報及び健診情報から整形情報700を作成することができる。すなわち、保険者が持つヘルスケアデータを元に、現状分布やグラフィカルモデルを作成するための整形された情報を自動的に作成することができる。なお、図7には2004年のデータのみを示したが、別の年の整形情報も作成する。作成した整形情報は、整形情報記憶部122に格納される。
 次に、グラフィカルモデル作成部108について説明する。グラフィカルモデル作成部108は、整形情報記憶部122に記憶される整形情報700の各項目を確率変数とし、確率変数をノード、確率変数間の条件付き依存関係をエッジとして表現したグラフ及び条件付き確率テーブルよりなるモデルを作成する。ただし、エッジは有向及び無向の2種類がある。ノードの集合をV、エッジの集合をE、グラフをG=(V、E)とおくことにする。グラフィカルモデル作成部108では、モデルとして、ベイジアンネットワークやマルコフネットワークなどのグラフィカルモデルを作成する。
 以下ではグラフィカルモデルについて、例を挙げて説明する。図28Aは、2つのノードから成る単純なモデルである。T年の糖尿病有無は、T年の糖尿病の有無(有が1、無が0)を表す確率変数とし、T+1年の腎症有無は、T+1年の腎症の有無(有が1、無が0)を表す確率変数とする。それぞれの確率変数を表すノードを、v1、v2とおくと、図28Aのグラフは、v1、v2、およびv1からv2への有向エッジe1より成る。V=(v1、v2)、E=(e1)とおくと、図28AのグラフはG=(V、E)となる。
 次に、条件付確率テーブルについて説明する。ノードv1、v2が表す確率変数を、それぞれx1、x2とおくと、図28Aで示されるグラフGは、x1とx2の同時分布p(x1、x2)がp(x1、x2)=p(x2|x1)p(x1)により与えられることを示している。つまり、x2の確率分布は、x1の値に依存し、x1に関する条件付き確率p(x2|x1)により与えられる。確率変数x1には親ノードがないため、x1の確率分布はp(x1)となる。条件付確率テーブルは、p(x1)とp(x2|x1)の値である。p(x1)の確率テーブルは、x1の各値に対する確率値である。
 図28Bは、p(x1)とp(x2|x1)の条件付き確率テーブルを表3001と表3002をそれぞれ示す。表3001は、確率変数x1の確率分布p(x1)である。例えば、p(x1=0)=a1はx1=0となる確率がa1であることを示す。これは、整形情報700から、T年に糖尿病705が0であった人の割合を計算することにより得ることができる。a2も同様にして計算できる。p(x1)は確率分布であるので、Σp(x1)=1となる。ここで、和はx1の全ての値に対してとる。
 表3002は、x1に関する条件付き確率p(x2|x1)の確率分布である。例えば、p(x2=0|x1=0)=b11は、x2=0かつx1=0となる確率がb11であることを示す。p(x2|x1)の確率テーブルは、x1、x2の各値に対して、p(x2|x1)を求めることで得られる。例えば、p(x2=s2|x1=s1)は、整形情報700から、x1=s1となるデータのうち、x2=s2となっているデータの割合を計算することで得られる。この計算により、確率テーブルが得られる。
 図28A及び図28Bの単純な例の場合には、図28Aに示すグラフGと図28Bに示す確率テーブルがグラフィカルモデルとなる。このモデルを用いることにより、例えば、ある保険加入者のある年の糖尿病有無が分かっている場合に、その保険加入者が1年後の腎症有無の確率分布を求めることができる。例えば、今年、糖尿病有「1」の場合に、1年後、腎症有「1」の確率は、P(x2=1|x1=1)により与えられる。
 次に、図28A及び図28Bより確率変数の数を増やした例を図29を用いて説明する。T+1年の腎症有無を予測したいとき、図28Aでは、T年の糖尿病有無を用いた。しかし、T+1年の腎症有の確率は、血糖値が高い人のほうが大きいと予想できる。さらに、血圧にも依存すると予想できる。そこで、例えば、図29では、T年の糖尿病有無、T年の血糖、及びT年の血圧を用いてT+1年の腎症有無を予測するモデルが示されている。このようなモデルの方が、より正確な予測ができると想定される。
 T年の糖尿病有無、T年の血糖、T年の血圧、T+1年の腎症有無を表す確率変数を、それぞれ、x1、x2、x3、x4、これらを表すノードをv1、v2、v3、v4とおく。このグラフのノード集合は、V=(v1、v2、v3、v4)である。また、3つの有向エッジが定義されており、x1からx4、x2からx4、x3からx4への有向エッジを、それぞれe1、e2、e3とおくと、エッジ集合は、E=(e1、e2、e3)となる。グラフはG=(V、E)とあらわされる。このグラフにより、x1、…、x4の同時分布はp(x1、x2、x3、x4)=p(x4|x1、x2、x3)p(x1)p(x2)p(x3)となる。条件付き確率テーブルは、p(x1)、p(x2)、p(x3)、p(x4|x1、x2、x3)をx1、…、x4の各値に対して計算することにより得られる。このモデルにより、T年の糖尿病有無だけでなく、T年の血糖が分かっている場合には、より正確にT+1年の腎症有無が予測できる。
 上記で説明した図28A、図28B、及び図29のような小規模なモデルの場合には、T+1年の腎症有無の確率分布が何に依存しているか、経験や知識に基づいて定義することも可能であるが、規模が大きくなると困難となる。例えば、T+1年の腎症有無は、他の検査値、生活習慣、年齢、性別などに依存する可能性がある。また、糖尿病の有無や血糖自体も、他の項目に依存する。そのため、整形情報700の項目のように確率変数が大規模になる場合には、その確率的依存関係(エッジ)をデータに基づいて自動的に作成してもよい。また、作成の際に、経験や知識に基づく依存関係によりエッジの有無や有向、無向を制限してもよい。既存技術として、ベイジアンネットワークの構造学習技術などを用いることができる。
 上記ではT年のノードとT+1年のノードを含むグラフィカルモデルを説明したが、これに限定されない。グラフィカルモデルは、第1の時点の確率変数に対応する第1のノード群と、前記第1の時点よりも将来の第2の時点の確率変数に対応する第2のノード群と、前記第1のノード群と前記第2のノード群から成る集合に含まれる任意の2つのノード間の確率的依存性を表す有向又は無向のエッジと、により定義されればよい。
 グラフィカルモデルを、例えば、n年後の確率分布の予測に利用する場合には、T年とT+n年の整形情報700の項目を確率変数としたグラフィカルモデルを作成すればよい。これらは過去のデータから作成され、例えば、3年後の場合は、2008年と2011年、2009年と2012年のデータを用いればよい。このとき、同一の保険加入者のデータであっても、2008年と2011年のデータと、2009年と2012年のデータは、別の事例として、学習に利用できる。
 ここで、グラフィカルモデルの構成例を、図30を用いて説明する。図30のグラフィカルモデル910は、T年の項目とT+1年の項目より構成される。グラフィカルモデル910は、T年ノード911と、T+1年ノード913と、2つの項目の確率的依存関係を表現するエッジ912とからなる。この例では、疾病項目901として、腎症、糖尿病、高血圧の3項目、検査値項目902として、血糖、BMIの2項目、生活習慣項目903として、運動不足、早食いの2項目、計7項目を確率変数として、各項目間の確率的依存関係を表現するグラフィカルモデルの構成例を示している。この構成は、図7の整形情報700から糖尿病705、高血圧707、腎症709、BMI603、血糖605、早食い614、運動不足615の項目のデータを取得し、ベイジアンネットワークやマルコフネットワークの構造学習技術などを用いることで構築できる。以上の処理により、データ項目の将来の確率を推定するグラフィカルモデルを、ヘルスケアデータを整形した整形情報から自動的に作成することができる。作成したグラフと確率テーブルは、グラフィカルモデル記憶部123に格納される。
 次に、図8のフローチャートと図9~図12を用いて、整形情報記憶部122に記憶された整形情報700と、グラフィカルモデル記憶部123に記憶されたグラフィカルモデルから、保険者毎に、疾病確率の将来分布を予測し、今後増加が予測される疾病を課題疾病として抽出する処理を説明する。
 図8のフローチャートを開始すると、まず、対象集団抽出ステップ801を行う。対象集団抽出ステップ801では、まず、現状分布算出部109が、整形情報記憶部122に記憶された整形情報700を取得する。次に、現状分布算出部109が、整形情報700の保険者名とデータ年を参照し、分析対象とする保険者についてデータ年が最新年の対象集団データを抽出する。例えば、分析対象とする保険者が保険者Aで、最新年が2013年の場合、保険者名が「A」でデータ年が「2013」のデータを対象集団データとして抽出する。
 現状分布算出ステップ802では、まず、現状分布算出部109が、対象集団抽出ステップ801で抽出された対象集団データから、データ項目毎に現状の確率分布(現状分布)を算出する。具体的には、現状分布算出部109は、データ項目毎に、項目値別のデータ数を集計し、全データ数で割ることで、現状の確率分布(現状分布)を算出する。算出されたデータ項目別の現状分布は、図10に示す現状分布情報1000の形で、分布記憶部124に格納される。
 図10の現状分布情報1000は、項目分類1001、項目1002、項目の値1003、及び現状分布1004を含む。項目分類1001は、データ項目の分類を示しており、そのデータ項目が疾病項目、検査値項目、生活習慣項目等のどの分類に属しているかを示している。項目1002は、データ項目名を示し、項目値1003は、該当データ項目の値を示している。現状分布1004は、データ項目1002の項目値1003別の確率分布を示している。
 例えば、項目1002が「糖尿病」の場合は、項目値は1か0なので、項目値1003に「1」と「0」が登録され、現状分布1004に項目値別の確率が登録される。図10の例では、糖尿病の現状分布が項目値「0」で70%、「1」で30%であることを示している。これは、「1」のデータ数と「0」のデータ数を対象集団データから集計し、全データ数で各々を割ることで算出する。疾病項目の場合は、項目値1の確率が疾病の有病率を示している。また、項目分類1001の検査値項目は、項目値別に現状分布を算出しても、項目値を離散化した後に算出してもよい。例えば、図10の血糖項目のように、項目値を70-79、80-89等に10刻みに離散化した後に、現状分布を算出してもよい。この例では、血糖の現状分布が、70-79が5%、80-89が10%・・・であることを示している。
 現状分布入力ステップ803では、将来分布予測部110が、現状分布算出部109で算出された現状分布情報と、グラフィカルモデル記憶部123で記憶されているグラフィカルモデルを取得する。そして、将来分布予測部110が、取得した現状分布情報をグラフィカルモデルのT年のデータ項目に入力する。
 将来分布予測ステップ804では、将来分布予測部110が、現状分布入力ステップ803で入力された各データ項目の現状分布を既知の確率分布として、グラフィカルモデルにより、T+1年の各データ項目の確率分布(将来分布)を予測する。上述したように、グラフィカルモデルでは、T年の確率変数の確率分布を既知として、残りのT+1年の確率変数の確率分布を求めることができる。これにより、T+1年の疾病項目等のデータ項目の確率分布(将来分布)を予測できる。このようなグラフィカルモデルにおける確率計算方法として、Junction Tree Algorithmや、Loopy Belief Propagationなどを用いることができる。
 図9と図11を用いて、将来分布予測の例について説明する。図9は、将来分布予測処理および課題疾病抽出処理の一例を説明する図である。各データ項目の現状分布920をグラフィカルモデル910のT年ノード911に入力して既知とし、T+1年ノード913の確率分布を算出することで、各データ項目の将来分布930を予測する。図9では、腎症、糖尿病、高血圧、血糖、BMI、運動不足の現状分布920を入力することで、これら項目の将来分布930を予測する例を示している。現状分布920は、図10で示した現状分布情報に対応する。
 例えば、図9の例では、腎症項目の現状分布は、「0」の確率921が90%、「1」の確率922が10%であるが、将来分布は、「0」の確率931が80%、「1」の確率932が20%と変化する。予測されたデータ項目別の将来分布は、図11に示す将来分布情報1100の形で、分布記憶部124に格納される。図11の将来分布情報1100は、図10の現状分布情報1000に対して、各データ項目の項目値別の将来分布1105が追加された形式である。
 課題疾病抽出ステップ805では、課題疾病抽出部111が、将来分布予測部110が予測した図11の将来分布情報から、項目分類1001が「疾病」である現状分布1004と将来分布1105を取得する。次に、課題疾病抽出部111が、将来分布情報1100を元に、疾病項目別に、現状分布の期待値と将来分布の期待値を算出し、将来分布の期待値と現状分布の期待値との差(将来-現状)を算出する。そして、疾病項目別の将来分布の現状分布との差を比較し、その差が大きい疾病を課題疾病として抽出する。
 図9と図12を用いて、課題疾病抽出の例について説明する。腎症の場合、現状分布の期待値が10%であり、将来分布の期待値が20%であるため、図9の疾病項目の将来分布と現状分布との差940は、+10%となる。他の疾病項目の将来分布と現状分布との差940も同様に計算でき、糖尿病は+5%、高血圧は+3%である。そして、算出した疾病項目の将来分布と現状分布との差を比較すると、腎症の+10%が最も大きく、この疾病項目が保険者Aの課題疾病941として抽出される。抽出された課題疾病は、図12に示す課題疾病データの形で、課題疾病記憶部125に格納される。図12の課題疾病データ1200は、疾病1201、現状分布の期待値1202、将来分布の期待値1203、及び将来分布と現状分布との差1204を含み、これらの項目は、将来分布と現状分布との差1204の大きい順に格納される。
 以上で、図8のフローチャートの処理を終了する。これにより、保険者Aの課題疾病を抽出できる。異なる保険者の課題疾病を抽出したい場合は、対象集団抽出ステップ801で、対象保険者の集団データを抽出し、同じ処理を実行することで、異なる保険者の課題疾病を抽出することができる。
 以上示したように、本実施例の疾病発症要因分析システムは、保険者が有する健診情報及び医療情報に基づいて、保険者毎に疾病の発症確率を予測し、将来増加が予測される疾病を課題疾病として抽出できる効果がある。これにより、重点的に予防する疾病を特定でき、効果的な保健事業を行うことができる効果がある。
 本例では、ヘルスケアデータが医療情報及び健診情報の2つの情報を含んでいるため、疾病や診療行為などの医療情報だけでなく、健康診断の検査値や生活習慣などのデータ項目も含むグラフィカルモデルを作成でき、したがって、幅広いデータ項目に基づいて将来増加が予測される疾病を課題疾病として抽出できる。
 また、本実施例の疾病発症要因分析システムでは、保険者別の課題疾病を算出する処理を説明したが、保険者別だけでなく、任意の集団(あるいは個人)に対して本実施例の処理を行うことができる。例えば、男女別、年齢別、事業所別など、任意の集団を前述した対象集団抽出ステップ801で選定することで、本実施例の処理を行うことができる。これにより、任意の集団(あるいは個人)のデータ(健康状態)に応じた課題疾病を算出できる効果がある。
 また、本実施例の疾病発症要因分析システムでは、将来課題となる疾病を抽出する処理を説明したが、抽出する項目はこれに限定されない。ヘルスケアデータの他の任意の項目(例えば、将来課題となる医療費や医療行為(医薬品、診療行為)など)を課題の項目として抽出してもよい。
[第2実施例]
 第2実施例では、データ項目の現状分布と将来分布から、課題疾病の増加を抑制する要因となるデータ項目を抽出する疾病発症要因分析システムの例を説明する。
 本実施例では、前述したグラフィカルモデル、データ項目の現状分布と将来分布、及び課題疾病データに基づき、保険者毎に課題疾病が増加する要因となるデータ項目を抽出する。
 図13は、本実施例の疾病発症要因分析システムの構成を示すブロック図である。本実施例の疾病発症要因分析システムは、疾病発症要因分析端末101及びデータベース120を有する。疾病発症要因分析端末101は、入力部102、出力部103、CPU104、メモリ105及び記憶媒体106を有する。入力部102、出力部103、CPU104、及び、メモリ105は、第1実施例と同じであるため、説明を省略する。
 記憶媒体106は、各種プログラムとして、将来分布変更部112、推定分布算出部113、分布比較指標値算出部114、及び、要因抽出部115を備える。
 将来分布変更部112は、課題疾病記憶部125が記憶する課題疾病データから、課題疾病の現状分布と将来分布をユーザに出力部103を介して表示し、課題疾病の将来分布を変更させる。これにより、課題疾病の現状分布と将来分布を画面上で比較しながら課題疾病の将来分布の改善値を入力することが可能となる。
 推定分布算出部113は、ユーザに変更させた課題疾病の将来分布と分布記憶部124に記憶された現状分布とを、グラフィカルモデル記憶部123が記憶するグラフィカルモデルに入力することで、各データ項目の推定分布を算出する。
 分布比較指標値算出部114は、推定分布算出部113で算出された推定分布と、分布記憶部124に記憶された現状分布とをデータ項目毎に比較し、その分布変化の大きさを表す分布比較指標値を算出する。
 要因抽出部115は、分布比較指標値算出部114で算出された分布比較指標値を、データ項目毎に比較し、指標値が大きいデータ項目を要因として抽出する。
 データベース120は、医療情報記憶部121、整形情報記憶部122、グラフィカルモデル記憶部123、分布記憶部124、課題疾病記憶部125、及び要因記憶部131から構成される。
 次に図19の要因抽出処理のフローチャートと図14~図18を用いて、データ項目の現状分布と将来分布から、課題疾病の増加を抑制する要因となるデータ項目を抽出する処理を説明する。以下では、第1実施例に説明したデータを利用した例で説明する。
 図19のフローチャートを開始すると、まず、将来分布変更ステップ2001を行う。将来分布変更ステップ2001では、将来分布変更部112が、課題疾病記憶部125の課題疾病データを取得する。次に、図14の将来分布変更画面1401に示すように、将来分布変更部112が、課題疾病データから課題疾病の現状分布と将来分布を出力部103に表示し、ユーザに課題疾病の将来分布を変更させる。将来分布変更画面1401には、課題疾病1410、課題疾病の現状分布の期待値の表示欄1411、将来分布の期待値の表示欄1412、将来分布の変更値入力欄1413、及び入力完了ボタン1421が表示されている。
 ユーザには、将来分布の変更値入力欄1413に、課題疾病の将来分布の改善値(改善将来分布)を入力させる。改善値を入力した後、ユーザが入力完了ボタン1421を押下し、入力を確定させる。図14では、腎症の将来分布20%に対して、改善将来分布15%を入力した例を示している。
 データ項目選定ステップ2002では、推定分布算出部113が、推定分布を算出する対象データ項目を選定する。この時、将来分布変更部112で将来分布を変更した課題疾病項目以外のデータ項目を対象データ項目として選定する。
 推定分布算出ステップ2003では、まず、推定分布算出部113が、分布記憶部124に記億されている現状分布情報と、グラフィカルモデル記憶部123に記憶されているグラフィカルモデルを取得する。次に、将来分布変更部112で変更した課題疾病の改善将来分布をグラフィカルモデルのT+1年ノードに入力し、データ項目選定ステップ2002で選定された対象データ項目以外のデータ項目全ての現状分布をグラフィカルモデルのT年ノードに入力することで、対象データ項目のT年の推定分布を算出する。推定分布の算出には、前述した確率計算方法であるJunction Tree Algorithmや、Loopy Belief Propagationを用いることができる。
 不算出項目有無判定ステップ2004では、推定分布算出部113が、課題疾病項目以外のデータ項目で、推定分布を算出していないデータ項目があるか判定する。ある場合は、データ項目選定ステップ2002に戻り、不算出項目が無くなるまで推定分布算出ステップ2003を繰り返す。不算出項目がない場合は、期待値算出ステップ2005に進む。
 図15A~15Cに示す推定分布算出処理の例を用いて説明する。図15A~15Cでは、課題疾病項目を腎症とし、将来分布変更部112で将来分布930(期待値20%)を改善将来分布1530(期待値15%)に変更した場合について説明する。また、データ項目選定ステップ2002において糖尿病項目、高血圧項目、血糖項目の順で選定された場合をそれぞれ説明する。
 図15Aは、糖尿病項目の推定分布1520を算出する処理を示している。図15Aでは、グラフィカルモデル910のT+1年ノードに、腎症の改善将来分布1530を入力し、さらに、グラフィカルモデル910のT年ノードに、糖尿病以外のデータ項目(腎症、高血圧、血糖、BMI、運動不足・・・)全ての現状分布920を入力して既知とすることで、糖尿病項目のT年の推定分布1520を算出する。図15Aの例では、糖尿病項目のT年の推定分布は、「0」の確率1521が75%、「1」の確率1522が25%であることを示している。
 図15Bは、高血圧項目の推定分布1520を算出する処理を示している。図15Bでは、グラフィカルモデル910のT+1年ノードに、腎症の改善将来分布1530を入力し、さらに、グラフィカルモデル910のT年ノードに、高血圧以外のデータ項目(腎症、糖尿病、血糖、BMI、運動不足・・・)全ての現状分布920を入力し既知とすることで、高血圧項目のT年の推定分布1520を算出する。図15Bの例では、高血圧項目のT年の推定分布は、「0」の確率1523が83%、「1」の確率1524が17%であることを示している。
 図15Cは、血糖項目の推定分布1520を算出する処理を示している。図15Cでは、グラフィカルモデル910のT+1年ノードに、腎症の改善将来分布1530を入力し、さらに、グラフィカルモデル910のT年ノードに、血糖以外のデータ項目(腎症、糖尿病、高血圧、BMI、運動不足・・・)全ての現状分布920を入力し既知とすることで、血糖項目のT年の推定分布1520を算出する。図15Cの例では、血糖項目のT年の推定分布は、分布1525のような形になることを示している。
 以上の処理を不算出項目が無くなるまで繰り返し、各データ項目の推定分布を算出する。算出された推定分布は、図16に示す推定分布情報1600の形で、分布記憶部124に格納される。図16の推定分布情報1600は、図11の将来分布情報1100に対して、各データ項目の項目値別の推定分布1606が追加された形式である。推定分布算出ステップ2003で算出された推定分布情報は、推定分布1606に格納される。例えば、血糖項目の推定分布1606は、70-79が5%、80-89が13%・・・であることを示している。
 以上示したように、推定分布算出部113が、算出対象データ項目(推定対象のデータ項目)以外のデータ項目の現状分布を入力して既知として、算出対象データ項目の推定分布を算出する。このため、算出対象データ項目以外のデータ項目(共変量)の影響を排除することができ、算出対象データ項目の単独の影響を表す推定分布を算出できる効果がある。つまり、他のデータ項目(共変量)の影響により生じる見かけの相関(疑似相関)を排除して、課題疾病の増加抑制へのデータ項目の寄与を正確に算出できる。
 図19のフローチャートの説明に戻る。期待値算出ステップ2005では、分布比較指標値算出部114が、各データ項目の現状分布の期待値と、推定分布算出部113で算出された推定分布の期待値をそれぞれ算出する。期待値Eは、データ項目値をxi、データ項目値の確率をpiとすると、E=Σpi×xiで算出する。
 分散算出ステップ2006では、分布比較指標値算出部114が、各データ項目の現状分布の分散と、推定分布算出部113で算出された推定分布の分散をそれぞれ算出する。分散Vは、データ項目値をxi、データ項目値の確率をpiとすると、V=Σpi(xi-E)で算出する。
 分布比較指標値算出ステップ2007では、分布比較指標値算出部114が、各データ項目について、期待値算出ステップ2005で算出した推定分布と現状分布の期待値と、分散算出ステップ2006で算出した推定分布と現状分布の分散から、推定分布と現状分布の変化を示す分布比較指標値を算出する。
 分布比較指標値Hは、推定分布の期待値と分散をEs、Vsとし、現状分布の期待値と分散をEg、Vgとすると、H=(Eg-Es)/(Vg+Vs)0.5で算出する。この指標Hは、現状分布と推定分布の分散を用いて期待値の差を正規化した指標となる。このため、疾病項目と検査値項目のように、分布の形状が異なるデータ項目間でも分布の変化を比較することができ、課題疾病の増加を抑制する要因を抽出できる。なお、指標値の計算はこの例に限定されず、推定分布と現状分布との間の変化を示す値であれば、他の計算方法で算出されてもよい。
 要因抽出ステップ2008では、要因抽出部115が、分布比較指標値算出部114で算出された各データ項目の分布比較指標値を比較し、分布比較指標値が大きいデータ項目を要因として抽出する。抽出された要因は、図17に示す要因データ1800の形で、要因記憶部131に格納される。
 図17の要因データ1800は、項目分類1001、要因データ項目1801、要因データ項目の現状分布の期待値Eg1802、要因データ項目の推定分布の期待値Es1803、現状分布の期待値Egと推定分布の期待値Esの差1804、及び、分散で正規化した期待値の差1804である分布比較指標値H1805を含む。これらの要因データ項目は、分布比較指標値H1805の大きい順に格納される。
 以上で、図19のフローチャートの処理を終了する。この処理を保険者別に行うことで、保険者毎に、課題疾病の増加を抑制する要因を抽出できる。
 図18A及び図18Bは、以上の処理で算出した要因抽出結果を出力部103に表示した画面例である。図18Aは、保険者Aの要因抽出結果1901を示し、図18Bは、保険者Bの要因抽出結果1911を示している。画面は、保険者名選択欄1902、課題疾病表示欄1904、原因疾病表示欄1903、及び要因リスト表示欄1905を備える。
 課題疾病表示欄1904には、課題疾病データ1200に基づいて課題疾病が表示される。ここでは、将来分布と現状分布との差1204が最も大きい「腎症」が表示されている。原因疾病表示欄1903には、要因データ1800の項目1801に基づいて、疾病の項目が表示される。要因リスト表示欄1905には、要因データの項目1801から疾病項目以外の項目を分布比較指標値H1805の大きい順に表示する。図18A及び図18Bの例では、課題疾病表示欄1904に表示する課題疾病は保険者A、保険者Bで同じ腎症であるが、要因抽出結果が異なる例を示している。
 図18Aの保険者Aの要因抽出結果1901では、原因疾病が糖尿病であり、要因データ検査値および生活習慣項目として血糖、BMI、運動不足、早食いの順に寄与が大きいことが示されている。また、図18Bの保険者Bの要因抽出結果1911では、原因疾病が高血圧であり、要因データ検査値および生活習慣項目として収縮期血圧、BMI、早食い、夜食の順に寄与が大きいことが示されている。このように保険者が持つヘルスケアデータの現状分布(健康状態)に基づき、課題疾病の増加を抑制する要因データ項目を抽出及び表示できる。
 以上示したように、本実施例の疾病発症要因分析システムが、将来の課題疾病の増加を抑制した場合の各データ項目の推定分布を算出し、現状分布との差が大きいデータ項目を抽出するので、課題疾病の増加を抑制する要因を抽出できる効果がある。
 また、本実施例の疾病発症要因分析システムが、あるデータ項目の推定分布を算出する際に、他のデータ項目の現状分布を入力して算出するので、他のデータ項目(共変量)の影響を排除した正確な要因を抽出できる効果がある。
 本例では、医療情報及び健診情報の2つの情報から作成されたグラフィカルモデルを用いるため、疾病や診療行為などの医療情報だけでなく、健康診断の検査値や生活習慣などについても課題疾病の要因として抽出することができる。
 また、本実施例の疾病発症要因分析システムでは、保険者別の課題疾病、要因を算出する処理を説明したが、保険者別だけでなく、任意の集団(あるいは個人)に対して本実施例の処理を行うことができる。例えば、男女別、年齢別、事業所別など、任意の集団を選定することで、本実施例の処理を行うことができる。これにより、任意の集団(あるいは個人)のデータ(健康状態)に応じた課題疾病、要因を算出できる効果がある。
 また、本実施例の疾病発症要因分析システムでは、将来課題となる疾病の要因を抽出する処理を説明したが、これに限定されない。ヘルスケアデータの他の任意の項目(例えば、将来課題となる医療費や医療行為(医薬品、診療行為)など)を課題の項目として設定し、その課題の項目の要因を抽出してもよい。
[第3実施例]
 第3実施例では、データ項目の現状分布と将来分布から、課題疾病の増加を抑制する要因となるデータ項目を抽出し、その要因データから指導対象者と対策を決定する疾病発症要因分析システムの例を説明する。
 本実施例では、前述したグラフィカルモデル、データ項目の現状分布と将来分布及び課題疾病データに基づき、保険者毎に課題疾病が増加する要因となるデータ項目を抽出し、要因データから指導対象者と対策を決定する。
 図20は、本実施例の疾病発症要因分析システムの構成を示すブロック図である。本実施例の疾病発症要因分析システムは、疾病発症要因分析端末101及びデータベース120を有する。疾病発症要因分析端末101は、入力部102、出力部103、CPU104、メモリ105及び記憶媒体106を有する。入力部102、出力部103、CPU104、メモリ105は、第1実施例及び第2実施例と同じであるため、説明を省略する。
 記憶媒体106は、将来分布変更部112、推定分布算出部113、分布比較指標値算出部114、要因抽出部115、改善分布算出部116、対象者範囲決定部117、及び対策決定部118を備える。将来分布変更部112、推定分布算出部113、分布比較指標値算出部114、及び要因抽出部115は、第2実施例と同じ処理を行うため、説明を省略する。
 改善分布算出部116は、将来分布変更部112で変更された課題疾病の改善将来分布と、分布記憶部124が記憶する現状分布を元に、グラフィカルモデル記憶部123が記憶するグラフィカルモデルを用いて、要因抽出部115で要因として抽出された検査値及び生活習慣項目の改善分布を算出する。
 対象者範囲決定部117は、改善分布算出部116で算出された検査値項目の改善分布と現状分布を比較し、検査値項目の値別の確率が現状分布から改善分布で減少した値の範囲を決定し、指導対象者範囲を決定する。
 対策決定部118は、改善分布算出部116で算出された検査値項目及び生活習慣項目の改善分布と現状分布の期待値の差を算出し、対策として検査値項目と生活習慣項目の改善量を決定する。
 データベース120は、医療情報記憶部121、整形情報記憶部122、グラフィカルモデル記憶部123、分布記憶部124、課題疾病記憶部125、要因記憶部131、対象者記憶部141、及び対策記憶部142から構成される。
 次に、図27の対象者範囲決定処理及び対策決定処理のフローチャートと図21~図26を用いて、データ項目の現状分布と将来分布から、課題疾病の増加を抑制する要因となるデータ項目を抽出し、要因データから指導対象者と対策を決定する処理を説明する。
 図27のフローチャートを開始すると、まず、要因抽出ステップ2000を行う。要因抽出ステップ2000では、前述した図19の要因抽出処理のフローチャートと同じ処理を行うため、説明を省略する。
 改善分布算出ステップ2901では、改善分布算出部116が、要因抽出部115が抽出した要因データと、分布記憶部124が記憶する現状分布と、グラフィカルモデル記憶部123が記憶するグラフィカルモデルとを取得する。次に、将来分布変更部112が変更した課題疾病の改善将来分布をT+1年ノードに、疾病項目の現状分布をT年ノードに入力し、グラフィカルモデルを用いて、要因データの検査値項目と生活習慣項目の改善分布を算出する。改善分布の算出には、前述した確率計算方法であるJunction Tree Algorithmや、Loopy Belief Propagationを用いることができる。
 図21に示す改善分布算出処理の例を説明する。図21の例では、課題疾病項目を腎症とし、将来分布変更部112で将来分布930(期待値20%)を改善将来分布1530(期待値15%)に変更した場合について説明する。また、要因抽出部115で抽出された要因データ項目において、検査値項目が血糖、BMIであり、生活習慣項目が運動不足、早食いである場合について説明する。
 図21では、グラフィカルモデル910に、腎症の改善将来分布1530、疾病項目(腎症、糖尿病、高血圧)の現状分布920を入力し既知とすることで、要因データ項目のT年の改善分布2320を算出する。ここで、腎症の改善将来分布1530はT+1年ノードに、疾病項目の現状分布920はT年ノードに入力し、要因データ項目のT年における改善分布2320を算出する。図21では、算出された血糖の改善分布2312、BMIの改善分布2313、運動不足の改善分布2314、早食いの改善分布2315を示している。
 対象者範囲決定ステップ2902では、対象者範囲決定部117が、改善分布算出部116で算出された検査値項目の改善分布と現状分布を比較し、検査値項目902の値別の確率が現状分布から改善分布で減少した値の範囲を決定し、指導対象者範囲を決定する。
 図22を用いて対象者範囲決定処理の例を説明する。図22では、血糖とBMIについて改善分布2320と現状分布920から対象者範囲2400を決定する処理の例を示している。改善分布2320と現状分布920の項目値別の確率を比較することで、現状分布920に比べて改善分布2320の確率が減少する値の範囲を算出し、対象者範囲2400を決定する。
 血糖の場合は、改善分布2312と現状分布923を比較する。この2つの分布を比較すると分かるように、血糖が110~119の範囲では、現状分布923の確率に比べて改善分布2312の確率が減少している。したがって、血糖の場合の対象者範囲2401は110~119となる。
 同様に、BMIの場合は、改善分布2313と現状分布924を比較する。この2つの分布を比較すると分かるように、BMIが25~28の範囲では、現状分布924の確率に比べて改善分布2313の確率が減少している。したがって、BMIの場合の対象者範囲2402は25~28となる。なお、対象者範囲の決定は、上記の方法に限定されず、改善分布と現状分布を比較して確率分布の変化が大きい値の範囲を算出すれば、他の方法でもよい。
 算出された検査値項目別の対象者範囲は、図24の対象者範囲データ2600の形で、対象者記憶部141に記憶される。図24の対象者範囲データ2600は、保険者名204、要因データ項目1801、要因データ項目別の対象者範囲2602を格納している。例えば、保険者名Aの指導対象者範囲は、血糖が110~119でBMIが25~28の範囲であることを示している。以上より、対象者範囲決定部117が、要因データ項目の改善分布と現状分布を比較し、確率分布の変化が大きい値の範囲を算出するので、課題疾病の増加を抑制するために指導が必要な対象者を具体的に決定できる。
 対策決定ステップ2903では、対策決定部118が、改善分布算出部116で算出された検査値項目902及び生活習慣項目903の改善分布と現状分布の期待値の差を算出し、対策として検査値項目と生活習慣項目の改善量を決定する。
 図23を用いて対策決定処理の例を説明する。図23は、検査値項目902が血糖とBMIであり、生活習慣項目903が運動不足、早食いであり、各要因データ項目について改善分布2320と現状分布920から対策2500を決定する処理の例を示している。具体的には、改善分布2320の期待値と現状分布920の期待値を算出し、期待値の差(現状-改善)を算出することにより、対策2500として、改善量を各要因データ項目別に決定する。
 この例では、対策2500として、血糖を4減、BMIを1減、運動不足を3%減、早食いを2%減が決定される。決定された対策は、図25の対策データ2700の形で、対策記憶部142に記憶される。図25の対策データ2700は、保険者名204、要因データ項目2701、要因データ項目別の改善量2702を格納している。例えば、保険者名Aの血糖項目の改善量は4減、運動不足項目の改善量は3%減であることを示している。以上により、対策決定部118が、要因データ項目の改善分布2320と現状分布920の期待値の差を算出するので、具体的な対策として、要因データ項目の改善量を決定できる。
 以上で、図27のフローチャートの処理を終了する。この処理を保険者別に行うことで、保険者毎に、課題疾病の増加を抑制するために必要な指導対象者範囲と改善量を要因データ項目から決定でき、保険者は具体的な対策を決定できる。
 図26A及び図26Bは、以上の処理で決定した対象者範囲及び対策決定結果を出力部103に表示した画面例である。図26Aは、保険者Aの結果2801を示し、図26Bは、保険者Bの結果2811を示している。
 図26A及び図26Bにおいて、画面の左側には、保険者名選択欄1902、課題疾病表示欄1904、原因疾病表示欄1903、要因リスト表示欄1905が表示されている。これは図18A及び図18Bと同じであるため、説明を省略する。画面右側には、課題疾病の改善目標表示欄2805、対象者範囲表示欄2806、及び、対策表示欄2807が表示されている。
 課題疾病の改善目標表示欄2805には、将来分布変更部112で変更した課題疾病の将来分布930の期待値及び改善将来分布1530の期待値と、それらの差が表示される。この例では、保険者Aと保険者B共に、課題疾病項目を腎症とし、将来分布930の期待値20%から改善将来分布1530の期待値15%に5%減少した場合を表示している。
 対象者範囲表示欄2806には、対象者範囲決定部117が、要因データに基づき決定した検査値項目の対象者範囲が表示され、さらに、その範囲に該当する人数を表示する。検査値項目の対象者範囲は、対象者記憶部141が記憶する図24の対象者範囲データ2600を参照することにより表示される。対象者範囲の人数は、整形情報記憶部122が記憶する整形情報700から、その対象者範囲の人数をカウントすることにより表示される。保険者Aの結果2801の対象者範囲表示欄2806では、対象者範囲が、血糖110~119、BMI25~28であり、その範囲の対象人数が300人であることが示されている。保険者Bの結果2811の対象者範囲表示欄2806では、対象者範囲が、収縮期血圧130~140、BMI25~29であり、その範囲の対象人数が1000人であることが示されている。
 対策表示欄2807には、対策決定部118が要因データに基づき決定した検査値項目と生活習慣改善項目の改善量が表示される。検査値項目と生活習慣改善項目の改善量は、対策記憶部142が記憶する図25の対策データを参照することにより表示される。保険者Aの結果2801では、各要因データ項目の改善量として、血糖を4減、BMIを1減、運動不足を3%減、早食いを2%減である対策が示されている。保険者Bの結果2811では、各要因データ項目の改善量として、収縮期血圧を3減、BMIを1減、早食いを3%減、夜食を2%減である対策が示されている。このように保険者が持つヘルスケアデータの現状分布(健康状態)に基づき、課題疾病の増加を抑制する要因データから、具体的な指導対象者範囲と対策を決定及び表示できる。
 以上示したように、本実施例の疾病発症要因分析システムでは、対象者範囲決定部117が、要因データ項目の改善分布と現状分布を比較し、確率分布の変化が大きい値の範囲を算出するので、課題疾病の増加を抑制するために指導が必要な対象者を具体的に決定できる効果がある。
 また、本実施例の疾病発症要因分析システムでは、対策決定部118が、要因データ項目の改善分布の期待値と現状分布の期待値との差を算出するので、具体的な対策として、要因データ項目の改善量を決定できる効果がある。
 以上により、保険者の健診・医療情報に基づいて、課題疾病の増加を抑制するために必要な指導対象者範囲と改善量を要因データ項目から決定でき、具体的な対策を決定できる効果がある。
 本例では、医療情報及び健診情報の2つの情報から作成されたグラフィカルモデルを用いるため、ある特定の疾病に対して、健康診断の検査値や生活習慣などに関する具体的な対象者範囲と対策を決定できる。
 また、本実施例の疾病発症要因分析システムでは、保険者別の課題疾病、要因、対象者範囲、対策を算出する処理を説明したが、保険者別だけでなく、任意の集団(あるいは個人)に対して本実施例の処理を行うことができる。例えば、男女別、年齢別、事業所別など、任意の集団を選定することで、本実施例の処理を行うことができる。これにより、任意の集団(あるいは個人)のデータ(健康状態)に応じた課題疾病、要因、対象者範囲、対策を算出できる効果がある。
 また、本実施例の疾病発症要因分析システムでは、将来課題となる疾病の要因から対象者範囲及び対策を決定する処理を説明したが、これに限定されない。ヘルスケアデータの他の任意の項目(例えば、将来課題となる医療費や医療行為(医薬品、診療行為)など)を課題の項目として設定し、その課題の項目の要因を抽出し、その要因に対して対象者範囲及び対策を決定してもよい。
 本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。上記実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることもできる。また、ある実施例の構成に他の実施例の構成を加えることもできる。また、各実施例の構成の一部について、他の構成を追加・削除・置換することもできる。
 上記の疾病発症要因分析装置の機能、処理手段などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリやハードディスク、SSD(Solid State Drive)などの記憶装置、または、ICカード、SDカード、DVDなどの記憶媒体に置くことができる。また、上記で説明した疾病発症要因分析装置の機能、処理手段などは、それらの一部あるいは全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。
101 疾病発症要因分析端末
102 入力部
103 出力部
104 CPU
105 メモリ
106 記憶媒体
107 データ整形部
108 グラフィカルモデル作成部
109 現状分布算出部
110 将来分布予測部
111 課題疾病抽出部
112 将来分布変更部
113 推定分布算出部
114 分布比較指標値算出部
115 要因抽出部
116 改善分布算出部
117 対象者範囲決定部
118 対策決定部
120 データベース
121 医療情報記録部
122 整形情報記憶部
123 グラフィカルモデル記憶部
124 分布記憶部
125 課題疾病記憶部
131 要因記憶部
141 対象者記憶部
142 対策記録部

Claims (15)

  1.  保険加入者のヘルスケア情報に含まれるデータ項目から構成されるグラフィカルモデルであって、第1の時点の前記データ項目の確率変数に対応する第1のノード群と、前記第1の時点よりも将来の第2の時点の前記データ項目の確率変数に対応する第2のノード群と、前記第1のノード群と前記第2のノード群から成る集合に含まれる任意の2つのノード間の確率的依存性を表す有向又は無向のエッジとにより定義されるグラフィカルモデルと、前記データ項目毎の前記第1の時点の確率分布を表す現状分布情報と、を格納するデータベースと、
     対象となるデータ項目の前記第2の時点の将来分布の改善値と、前記現状分布情報とを前記グラフィカルモデルに入力することにより、各データ項目毎に前記第1の時点の推定分布情報を算出する推定分布算出部と、
     前記推定分布情報と前記現状分布情報とを前記データ項目間で比較し、前記推定分布情報と前記現状分布情報との間の変化を示す指標値を算出する指標値算出部と、
     前記指標値を前記データ項目毎に比較することにより、前記対象となるデータ項目の要因を要因情報として抽出する要因抽出部と、
     少なくとも前記要因情報を表示する出力部と、
    を備えることを特徴とする分析システム。
  2.  請求項1に記載の分析システムにおいて、
     前記改善値と前記現状分布情報とを前記グラフィカルモデルに入力することにより、前記要因情報として抽出された前記データ項目の改善分布情報を算出する改善分布算出部と、
     前記改善分布情報と前記現状分布情報とを比較することにより、指導対象者範囲を決定する対象者範囲決定部と、をさらに備え、
     前記出力部が、前記指導対象者範囲をさらに表示することを特徴とする分析システム。
  3.  請求項2に記載の分析システムにおいて、
     前記改善分布情報と前記現状分布情報とを比較することにより、前記要因情報として抽出された前記データ項目毎に改善量を対策情報として決定する対策決定部をさらに備え、
     前記出力部が、前記対策情報をさらに表示することを特徴とする分析システム。
  4.  請求項3に記載の分析システムにおいて、
     前記対策決定部は、前記改善分布情報の期待値と前記現状分布情報の期待値との差を用いて前記改善量を決定することを特徴とする分析システム。
  5.  請求項1に記載の分析システムにおいて、
     前記指標値算出部は、前記現状分布情報の期待値及び前記推定分布情報の期待値の差を用いて前記指標値を算出することを特徴とする分析システム。
  6.  請求項5に記載の分析システムにおいて、
     前記指標値算出部は、前記現状分布情報の期待値及び前記推定分布情報の期待値の前記差を、前記現状分布情報の分散及び前記推定分布情報の分散を用いて正規化することにより、前記指標値を算出することを特徴とする分析システム。
  7.  請求項1に記載の分析システムにおいて、
     前記対象となるデータ項目が疾病であることを特徴とする分析システム。
  8.  請求項1に記載の分析システムにおいて、
     前記ヘルスケア情報が、前記保険加入者の医療情報及び健康診断情報を含むことを特徴とする分析システム。
  9.  請求項1に記載の分析システムにおいて、
     前記改善値の入力を受付けるためのインタフェースを前記出力部に表示させる将来分布変更部をさらに備えることを特徴とする分析システム。
  10.  請求項1に記載の分析システムにおいて、
     前記現状分布情報を前記グラフィカルモデルに入力することにより、前記データ項目の前記第2の時点の将来分布情報を予測する将来分布予測部と、
     前記現状分布情報と前記将来分布情報に基づいて、前記データ項目の中から、将来課題となる課題データ項目を抽出する課題抽出部と、
    をさらに備え、
     前記出力部が、前記課題データ項目をさらに表示することを特徴とする分析システム。
  11.  請求項10に記載の分析システムにおいて、
     前記課題抽出部は、前記現状分布情報の期待値と前記将来分布情報の期待値との差を用いて前記課題データ項目を抽出することを特徴とする分析システム。
  12.  請求項10に記載の分析システムにおいて、
     前記データベースは、前記ヘルスケア情報の前記データ項目を保険加入者毎かつ所定期間毎にまとめた整形情報を更に格納しており、
     前記整形情報から前記現状分布情報を算出する現状分布算出部をさらに備えることを特徴とする分析システム。
  13.  請求項12に記載の分析システムにおいて、
     前記ヘルスケア情報から前記整形情報を作成するデータ整形部をさらに備えることを特徴とする分析システム。
  14.  請求項12に記載の分析システムにおいて、
     前記整形情報から前記グラフィカルモデルを作成するグラフィカルモデル作成部をさらに備えることを特徴とする分析システム。
  15.  請求項10に記載の分析システムにおいて、
     前記課題データ項目が疾病であることを特徴とする分析システム。
PCT/JP2014/062874 2014-05-14 2014-05-14 分析システム WO2015173917A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/062874 WO2015173917A1 (ja) 2014-05-14 2014-05-14 分析システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/062874 WO2015173917A1 (ja) 2014-05-14 2014-05-14 分析システム

Publications (1)

Publication Number Publication Date
WO2015173917A1 true WO2015173917A1 (ja) 2015-11-19

Family

ID=54479487

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/062874 WO2015173917A1 (ja) 2014-05-14 2014-05-14 分析システム

Country Status (1)

Country Link
WO (1) WO2015173917A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017204233A1 (ja) * 2016-05-23 2017-11-30 Necソリューションイノベータ株式会社 健康状態予測装置、健康状態予測方法、及びコンピュータ読み取り可能な記録媒体
JP2021022228A (ja) * 2019-07-29 2021-02-18 株式会社日立社会情報サービス 分析装置および分析方法
JP2022008719A (ja) * 2016-11-23 2022-01-14 セルヴァス エーアイ インコーポレイテッド 疾患発症予測方法及び装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301893A (ja) * 2005-04-20 2006-11-02 Hitachi Ltd 保健事業支援システム
JP2007172187A (ja) * 2005-12-20 2007-07-05 Data Horizon:Kk 医療費分解解析装置、医療費分解解析方法およびコンピュータプログラム
JP2011203996A (ja) * 2010-03-25 2011-10-13 Oki Electric Industry Co Ltd ベイジアンネットワークによる推論を実行する推論装置、及び当該推論装置を実現するプログラム
JP2013121440A (ja) * 2011-12-12 2013-06-20 Jvc Kenwood Corp 健康管理システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301893A (ja) * 2005-04-20 2006-11-02 Hitachi Ltd 保健事業支援システム
JP2007172187A (ja) * 2005-12-20 2007-07-05 Data Horizon:Kk 医療費分解解析装置、医療費分解解析方法およびコンピュータプログラム
JP2011203996A (ja) * 2010-03-25 2011-10-13 Oki Electric Industry Co Ltd ベイジアンネットワークによる推論を実行する推論装置、及び当該推論装置を実現するプログラム
JP2013121440A (ja) * 2011-12-12 2013-06-20 Jvc Kenwood Corp 健康管理システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017204233A1 (ja) * 2016-05-23 2017-11-30 Necソリューションイノベータ株式会社 健康状態予測装置、健康状態予測方法、及びコンピュータ読み取り可能な記録媒体
CN109313939A (zh) * 2016-05-23 2019-02-05 日本电气方案创新株式会社 健康状况预测装置,健康状况预测方法和计算机可读记录介质
JPWO2017204233A1 (ja) * 2016-05-23 2019-03-22 Necソリューションイノベータ株式会社 健康状態予測装置、健康状態予測方法、及びプログラム
JP2022008719A (ja) * 2016-11-23 2022-01-14 セルヴァス エーアイ インコーポレイテッド 疾患発症予測方法及び装置
JP2021022228A (ja) * 2019-07-29 2021-02-18 株式会社日立社会情報サービス 分析装置および分析方法
JP7296269B2 (ja) 2019-07-29 2023-06-22 株式会社日立社会情報サービス 分析装置および分析方法

Similar Documents

Publication Publication Date Title
Melgaard et al. Assessment of the CHA2DS2-VASc score in predicting ischemic stroke, thromboembolism, and death in patients with heart failure with and without atrial fibrillation
JP5564708B2 (ja) 保健事業支援システム、保険事業支援装置、及び保険事業支援プログラム
Fernando et al. Plantar pressure in diabetic peripheral neuropathy patients with active foot ulceration, previous ulceration and no history of ulceration: a meta-analysis of observational studies
JP6305437B2 (ja) 臨床判断支援のためのシステムおよび方法
JP6182431B2 (ja) 医療データ分析システム、及び医療データを分析する方法
JP2017537365A (ja) 患者データに基づく健康診断および治療のためのベイジアン因果関係ネットワークモデル
JP7212630B2 (ja) 進行性の病気の患者のための治療の開始及び種類を決定するための意思決定システム及び方法
JP6159872B2 (ja) 医療データ分析システム、医療データ分析方法及び記憶媒体
JP6282783B2 (ja) 分析システム及び分析方法
Madadi et al. Evaluation of breast cancer mammography screening policies considering adherence behavior
WO2015071968A1 (ja) 分析システム
JP6038727B2 (ja) 分析システム及び分析方法
Coley et al. Predicting outcomes of psychotherapy for depression with electronic health record data
WO2015173917A1 (ja) 分析システム
Hamburger et al. Utility of the Diamond-Forrester classification in stratifying acute chest pain in an academic chest pain center
JP5982949B2 (ja) 保健指導対象者選定条件決定支援装置
JP6436855B2 (ja) 分析システム、及び、分析方法
JP7373958B2 (ja) 分析システム及び分析方法
JP7027359B2 (ja) ヘルスケアデータ分析装置及びヘルスケアデータ分析方法
JP6138824B2 (ja) セルフケア行動の患者固有の順序付けられたリストを生成するための方法、システム及びコンピュータプログラム
JP6231657B2 (ja) サービス利用効果予測方法及びサービス利用効果予測装置
US20220188951A1 (en) Information Processing System and Selection Support Method
JP6960369B2 (ja) 分析システム及び分析方法
JP5201290B2 (ja) 疾患名選定装置
Meehan et al. Predictive modeling and analysis of high-cost patients

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14892083

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14892083

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP