WO2021193864A1 - Aiによる事象クラスの判別方法及び判別システム - Google Patents

Aiによる事象クラスの判別方法及び判別システム Download PDF

Info

Publication number
WO2021193864A1
WO2021193864A1 PCT/JP2021/012705 JP2021012705W WO2021193864A1 WO 2021193864 A1 WO2021193864 A1 WO 2021193864A1 JP 2021012705 W JP2021012705 W JP 2021012705W WO 2021193864 A1 WO2021193864 A1 WO 2021193864A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
data
judgment
learning
teacher
Prior art date
Application number
PCT/JP2021/012705
Other languages
English (en)
French (fr)
Inventor
康樹 木原
美知子 森山
佳奈 加澤
拡人 渡邉
高歩 中村
範章 吉開
晴拡 永久
Original Assignee
国立大学法人広島大学
株式会社Okeios
学校法人 日本大学
株式会社データホライゾン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人広島大学, 株式会社Okeios, 学校法人 日本大学, 株式会社データホライゾン filed Critical 国立大学法人広島大学
Priority to US17/913,643 priority Critical patent/US20230107088A1/en
Priority to EP21775026.4A priority patent/EP4131282A4/en
Priority to JP2022510691A priority patent/JPWO2021193864A1/ja
Publication of WO2021193864A1 publication Critical patent/WO2021193864A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Definitions

  • the present invention relates to a method and a device for classifying events to be classified based on an individual, an object, or information from data on an individual, an object, or information.
  • the classification is generally judged based on a large number of data, and the classification is based on the judgment of an expert on the type of data related to the subject event such as an individual, an object, or information. Credit will also increase.
  • the severity and severity of the disease that each individual has as an event is comprehensively judged by a medical professional such as a doctor who is an expert. By doing so, the accuracy is improved.
  • the target event such as an individual, an object, or information changes with time
  • the classified class also changes according to the change of the event.
  • the AI is an obstacle to its use in fields where clarification of the causal relationship is required because the causal relationship between the inference for output of the result and the result is not clear.
  • AI processing is required in which the judgment is made from the viewpoint for the expert to make the judgment.
  • JP-A-2018-173814 Japanese Unexamined Patent Publication No. 2019-212146 Japanese Unexamined Patent Publication No. 2016-206950
  • the present invention provides a new judgment method and a system thereof from such a viewpoint, enables AI processing in which a judgment is made according to a viewpoint for an expert to make a judgment, and further, an expert's answer. It provides a new judgment method and system that enables effective answers even with a small amount of learning data by adjusting each other between the error and the error of the AI answer.
  • the teacher data for AI (Artificial Intelligence) learning in which the event of the object specified by the identification code is classified and the data related to the object for which the classification of the event is required are AI-processed and obtained by AI processing.
  • a system is provided that is configured to receive the given class judgment data.
  • teacher data for learning is randomly input to each of a plurality of AI processes for learning
  • data related to a target is input to each of a plurality of AI processes
  • class judgment data corresponding to each learning is input to each AI. It is configured to receive from the process, thereby determining the class of the target event identified by the identification code based on the respective class determination data corresponding to each identification code.
  • the above subject can be a person
  • the event is the severity of the person's health
  • the severity is classified into multiple classes.
  • the class of the target event specified by the identification code can be determined as the class to which the plurality of class judgment data obtained from each AI process belongs most.
  • the teacher data corresponding to the plurality of class judgment data corresponding to the predetermined condition is the total teacher data. Delete from and use it as teacher data for AI learning.
  • the predetermined condition may be at least based on the variance of a plurality of class judgment data obtained from each AI process, and for example, the variance of a plurality of class judgment data obtained from each AI process is predetermined. It may be a condition that it is less than or equal to the degree of.
  • the above-mentioned predetermined condition is a condition that the number of discrepancies between the class indicated by the teacher data and the class indicated by the class judgment data by a plurality of AI processes corresponding to the teacher data is equal to or greater than the predetermined condition. May be added as.
  • the class of the above-mentioned target event is a class of events that changes according to the elapse of the temporal period
  • the class judgment of the event required by AI processing is also the event expected after the elapse of the temporal period.
  • the present invention provides a method in which teacher data for AI learning, which classifies target events identified by an identification code stored in a storage device, is randomly input into a plurality of AI processes. Data related to an object for which class judgment of an event is required is input to each of the plurality of AI processes by an information processing device, class judgment data corresponding to each learning is received from each AI process, and each identification is performed. It has a step of determining the class of the target event identified by the identification code based on each class determination data corresponding to the code.
  • FIG. 1 It is a figure which shows the structure which the information processing apparatus which is one Embodiment of this invention is connected to a network. It is a figure which shows the hardware configuration of the information processing apparatus of FIG. It is a block diagram which shows each functional component part of the information processing apparatus of FIG. An example of the data stored in the storage unit of the information processing apparatus of FIG. 1 is shown. It is a conceptual diagram which shows a part of the processing flow executed by the information processing apparatus of FIG. It is a conceptual diagram which shows a part of the processing flow which follows the processing flow of FIG. It is a conceptual diagram which shows a part of the processing flow which follows the processing flow of FIG. It is a conceptual diagram which shows a part of the processing flow which follows the processing flow of FIG. It is a conceptual diagram which shows a part of the processing flow which follows the processing flow of FIG. It is a conceptual diagram which shows a part of the processing flow which follows the processing flow of FIG.
  • FIG. 1 It is a conceptual diagram which shows a part of the processing flow which follows the processing flow of FIG. It is a conceptual diagram which shows the present state of the medical ratio composition considered when applying this invention to the medical field.
  • the target year of medical data acquired from each medical institution is shown.
  • An example of a processing flow for verifying the effectiveness of the judgment by AI is shown.
  • An example of the judgment result by AI based on 49 main factors is shown.
  • An example of deleting a predetermined expert prediction judgment data judged to be abnormal from the teacher data by the medical expert prediction judgment and the plural AI judgment is shown.
  • An example of AI prediction judgment based on the adjusted teacher data is shown.
  • FIG. 1 shows a system 1 according to an embodiment of the present invention.
  • the information processing device 100 is connected to the network 20.
  • the user can access the information processing device 100 via the information terminal 30 and receive the service provided by the information processing device 100. Access is made via the Internet, a dedicated line, a wired line such as an indoor line, or a wireless network 20. There is no particular limitation on the number of accessible information terminals, and they can be used as appropriate according to the purpose of use.
  • the information processing device 100 is configured to receive input data from the information terminal 30 via the network 20 and provide a corresponding service.
  • the provider data server 10 is configured to provide necessary data to the information processing device 100 according to the service content of the information processing device 100 via the network 20. If necessary, mutual authentication and consensus building regarding the handling of data may be performed in advance between the information processing device 100, the provider data server, and the information terminal 30.
  • the AI server or server engine 200 combines hardware such as a CPU, a multi-processor equipped with a plurality of processor cores, a GPU (Graphics Processing Units), a DSP (Digital Signal Processors), and an FPGA (Field-Programmable Gate Arrays). It can be configured by an algorithm or a trained model that realizes a machine learning function, a language analysis function, a voice recognition function, and the like. It is also possible to combine quantum processors, and machine learning functions can be achieved, for example, by neural networks including deep learning or reinforcement learning.
  • the server may be configured by one or a plurality of servers, and each component such as an AI engine unit and a storage unit may be distributed and arranged.
  • the information processing device 100 is a communication unit including a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), a storage unit, and a network I / F (Interface). , Display unit, input unit, etc. Other hardware configurations may be included, if desired.
  • the CPU is an arithmetic unit that realizes the control and functions of the information processing device 100 by reading programs and data stored in a ROM, a storage unit, or the like, and executing processing while storing necessary data in the RAM. be.
  • the storage unit is a storage device such as an HDD (Hard Disk Drive) or SSD (Solid State Drive) for storing an OS (Operating System), various application programs, and the like.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • OS Operating System
  • the communication unit provides an interface between the information processing device 100 and the network 20, and communicates with external devices such as an information terminal 30, a provider data server 10, and an AI server 200 connected to the network 20. It has an interface function.
  • the display unit is a display device such as a display, and displays the processing result of the information processing device 100 to the user.
  • the input unit can be, for example, an input device such as a keyboard, a mouse, a camera, or a microphone.
  • the bus transmits an address signal, a data signal, various control signals, and the like in order to connect each component in the information processing device 100.
  • the information processing device 100 is not limited to the above configuration, and may be realized by being distributed by separate computers, or each component of the information processing device 100 may be distributed and function integrally. Each element constituting the information processing apparatus 100 may also be a single element or a combination of a plurality of elements. Further, depending on the required service content, the necessary applications may be distributed between the information terminal 30 and the information processing device 100 so that the service can be realized in cooperation with each other.
  • system is not limited to the hardware configuration shown in the present embodiment, and may be any form as long as the present invention can be implemented. Further, an external AI processing function provided by a private sector or the like may be used.
  • FIG. 3 shows an example of the functions of the information processing device 100.
  • FIG. 4 shows various data stored in the storage unit of the information processing apparatus 100, and
  • FIGS. 5 to 9 show a series of main processing flows based on the embodiment of the present invention.
  • the data collection unit 110 collects data necessary for class determination of the target event (step S110 in FIG. 5) and stores it as ID-specific data D110 that can be managed by identification data (ID).
  • the main factor selection unit 120 enables a user who uses the method and system of the present invention to select a factor used for class determination. On behalf of the user, the system 1 may be able to automatically determine and select a valid factor.
  • the main factor data extraction unit 130 collects data for each ID related to the factor (hereinafter, also referred to as “ID-specific factor data” or simply “factor data”) from the factors selected by the main factor selection unit 120. It is extracted from the data collected by the collection unit 110 and stored as ID-specific factor data D120 (step S120).
  • the factors may be selected in advance, and necessary factor data may be collected from the provider data server 10 based on the selected factors.
  • the identification data is data that can uniquely identify an object such as an individual, a company, an object, or information
  • the collected data or the extracted factor data D110 for each ID is various data that can be associated with the identification data. include.
  • the identification data may be the name itself, or an identification code that can identify the name (for example, a patient ID when visiting a hospital, an account number for a bank transaction, or a network mail order). ID, etc. used when purchasing products, etc.).
  • ID for example, a patient ID when visiting a hospital, an account number for a bank transaction, or a network mail order.
  • ID, etc. used when purchasing products, etc.).
  • the individual, company, etc. can be identified, a large number of IDs, accounts, etc. may be used, and the data associated with them may be collected and integrated as a whole.
  • the types of data that can be linked to the identification data are those that can be used to classify certain events related to objects such as individuals, companies, goods, and information. It doesn't matter.
  • the target can be classified as a company and the events can be classified as the soundness of each company, and various data may be any information related to the soundness of the company.
  • the classification teacher determination unit 140 uses a part of the ID-specific factor data of the ID-specific factor data D120 extracted from the ID-specific data D110 as the classification (step S130).
  • the factor data for each ID may be directly extracted from the data for each ID D110 and used as the discrimination of the class.
  • the discrimination is performed by an expert, an intellectual, or the like (hereinafter, also simply referred to as “expert”) who is familiar with the business related to the data.
  • a practical expert may input the class determination result to the information processing device 100 via the information terminal 30. Therefore, the information processing apparatus 100 displays the extracted factor data to an expert via the information terminal 30, and the expert is based on the displayed data and based on his / her own experience and knowledge.
  • the determination result can be input to the information terminal 30 and stored in the information processing device 100.
  • the information processing device 100 stores the discriminating result of the class by each of the plurality of persons in the information processing device 100.
  • step S130 performed by the classification teacher determination unit 140 factor data is provided from the information processing device 100 to the information terminal 30 so that the expert can determine the class, and the information terminal 30 moves to the information processing device 100.
  • It may be realized as a simple interface application capable of providing discrimination data, or may be realized as a simple application capable of inputting discrimination data into the information processing apparatus 100 by an expert.
  • Class determination may be duplicated and independently performed by different experts based on the same information based on the same identification code.
  • teacher judgment data D130 Since the discrimination result of this class is input to AI and used as learning data, it can be referred to as teacher judgment data D130 as a generalized name here.
  • the teacher judgment data D130 may be the judgment data of the current class based on the factor data, as well as the judgment data of the class that can be predicted in the future.
  • the future forecast includes the forecast for the next fiscal year, the forecast for the next month, etc., and the future period is not particularly limited. Further, the future period may be appropriately set according to the period to which the data to be collected belongs.
  • the teacher determination data noise removing unit 150 is data in which the discrimination result of the class is treated as abnormal, such as peculiar data or abnormal data, among the teacher determination data input for learning, for example, data having noise. As a result, it is excluded from the entire teacher judgment data.
  • the teacher determination data D130 is input to the AI process of the AI server 200 or the like, and learning is performed according to the contents of the teacher determination data D130.
  • the ID-based factor data D120 is input to the AI process as a target of class prediction, and is output to the information processing device 100 as AI determination data D140 accompanied by class discrimination according to learning (step S140).
  • the ID-based factor data used for expert discrimination as the teacher determination data D130, as shown in FIG. 5, a part of the ID-based factor data D120 extracted from the above-mentioned ID-based factor data D120 can be used.
  • the main factor data extraction unit 130 may separately collect the ID-based factor data D120 and the ID-based factor data used for expert discrimination from an external server. That is, there is no particular limitation on when and by what route the ID-specific factor data D120 used for determination by AI and the ID-specific factor data input to AI for learning are acquired and prepared.
  • the AI determination data D140 can include a class determined by a teacher for each individual identification code (ID), that is, a class determined by an expert and a class determined by AI.
  • ID individual identification code
  • the learning to AI and the discrimination by AI are performed by a plurality of AI processes. Further, it is preferable that data is input to a plurality of AIs at random.
  • the randomly input teacher determination data D150 and ID-specific factor data D120 are individually processed by a plurality of AIs (step S140), and the individual AI determination data is received and stored in the information processing device 100 as an output for each AI. NS. Then, a plurality of AI determination data D140 for each identification code are created from the AI determination data.
  • FIG. 7 shows an example in which the teacher determination data determined that the class is 1 with respect to the ID of 0002 is deleted from the determination (step S150 of FIG. 7).
  • the teacher judgment data is treated as noise and removed from the entire teacher judgment data. (Step S150).
  • the classes are divided into 1 to 4 and numbered, if there is a predetermined value between the class determined by AI and the class determined by the teacher, for example, a difference of 3 or more, an abnormal value is obtained. Can be judged as.
  • the method of determining an abnormal class is not limited to this, and it goes without saying that other appropriate judgment methods can be applied.
  • the information processing apparatus 100 can be executed as mathematical arithmetic processing.
  • the collective intelligence theorem When making predictions by a plurality of AIs, the collective intelligence theorem may be used.
  • the collective intelligence theorem can be expressed by the following equation.
  • Collective error mean individual error-variance value
  • the group error is the difference between the average of the values estimated by the members of a certain group and the correct answer.
  • the average individual error is the average value of the error of each member, and the variance value is the variation of the estimated value of each member.
  • Mathematically Estimate member i as Xi (i 1,2,..., N)
  • Average individual error ⁇ (X (1) -R) 2 + (X (2) -R) 2 + ⁇ ⁇ + (X (N) -R) 2 ⁇ / N
  • Variation (variance value) ⁇ (X (1) -A) 2 + (X (2) -A) 2 + ⁇ ⁇ + (X (N) -A) 2 ⁇ / N
  • Variation (variance value) ⁇ (X (1) -A) 2 + (X (2) -A) 2 + ⁇ ⁇ + (X (N) -A)
  • This collective intelligence theorem shows that the individual guessing error (1st term) in a group is offset by the diversity (2nd term), and the group can make a guess close to the correct answer.
  • AI (1) to AI (n) (n is an integer), which are AI servers or AI engines, are used as each member, and the rank predicted and determined by each member is used as an estimated value, a plurality of AIs are used.
  • the judgment result should show a distribution centered on the correct answer, and according to this collective intelligence theorem, the larger the variance value of the judgment result of each member, the more the solution shown by the average of the group is the judgment result of each AI. It means that the accuracy of getting the correct answer is higher than that of.
  • one condition is that the variance of the rank determined by AI is within a predetermined range, and the standard deviation is, for example, below a certain threshold, and the entire teacher data corresponding to the corresponding AI determination is used.
  • the teacher data is provided on the condition that a predetermined number or more of AIs are different from the teacher data class between the class prediction of a plurality of AIs and the teacher data class. Is an outlier, and the teacher data may be deleted from the entire teacher data.
  • the teacher data may be removed as it has an outlier due to non-negligible fluctuations or blurring.
  • abnormal or "abnormal value” used here is used for convenience in order to remove the teacher judgment data of a specific condition, and the term “abnormal” is used. It should be understood that it is intended to indicate an object to exclude teacher data that is widely judged to be unsuitable for AI processing.
  • the teacher judgment data from which the teacher judgment data judged to be abnormal has been removed is stored as the adjusted teacher judgment data D150.
  • the post-removal data class determination unit 160 uses the adjusted teacher determination data D150, which includes a plurality of factor data related to the plurality of identification codes and has the abnormal data removed, as training data. Input to the AI server 200 described above. Further, a group of ID-specific factor data D120 related to one or more identification codes to be classified is also input to the AI server 200. By the AI processing, the AI discrimination of the classification corresponding to each identification code is executed based on the group of ID-specific factor data (step S160). After removal, the data class determination unit 160 receives the determination result by AI and stores it as AI determination data D160.
  • the adjusted teacher determination data D150 and the ID-specific factor data D120 are also input to a plurality of AI (1) to AI (n) for predictive determination. Further, it is preferable that data is input to a plurality of AIs at random.
  • the randomly input adjusted teacher determination data D150 and ID-specific factor data D120 are individually processed by a plurality of AIs, and the adjusted individual AI determination data is stored in the information processing device 100 as an output for each AI. .. Then, the final class AI determination data D160 for each identification code is created from the AI determination data.
  • the final class determination unit 170 performs the final class determination (step S170).
  • the final determination class data D170 is created from the class determination of AI (1) to AI (n) for each identification code listed in the final class AI determination data D160.
  • This class criterion may be determined from the median average of the predicted classes of AI (1)-AI (n), the most abundant class may be determined as the final class, or any other suitable class. It may be a determination method.
  • FIG. 10 divides the state of a person who has undergone a health diagnosis into four layers as a class, and shows an outline of the relationship between the number composition of each layer and medical expenses.
  • class 1 is expected to continue to improve health
  • class 2 is mild
  • class 3 is moderate. Things
  • class 4 is considered severe.
  • These four layers can also be used to measure the risk of illness to humans and can be grasped as the level of aggravation.
  • the highest level is the highest level of aggravation, and the lowest layer is the level of aggravation. It can be judged that there is almost none. Therefore, this classification is also a risk classification, and the present invention can be used as risk management.
  • the ratio of the number of people in each layer to the total number of people forms a substantially pyramid shape such as 50%, 30%, 15%, and 5% from the bottom, although it depends on the classification method. do.
  • the medical expenses of each layer which accounts for the total medical expenses, occupy 40% in the class 4 of the uppermost layer, and form an inverted pyramid distribution of 35%, 20%, and 5% as it goes below it. ..
  • medical examinations and medical data of 250 people are acquired from medical institutions, and the medical data of 2014 is used for medical treatment.
  • doctors and other specialists also referred to simply as “specialists”.
  • the risk numbers were assigned to numbers 1 to 4, and the medical data of each person with risk numbers 1 to 4 was input to AI as learning data. Furthermore, for the learned AI, medical data of 50 out of 250 people in 2014 was input, and it was predicted as the risk of aggravation in 2015.
  • AI may be effective, although it is a small amount of data.
  • the information processing device 100 uses data of "medical information statement", “long-term care benefit statement”, “specific medical examination result”, and “insured person master” from the data server 10 (FIG. 1) of various medical institutions. Data D110 by ID was constructed, and 2699 factor data D120 by ID having 2014 factor data of 49 selected items were created and stored.
  • FIG. 11 shows the relevant year of the data collected from each medical institution.
  • ID-based factor data D120s stored in the information processing device 100 are read out, and the contents of the ID-based factor data D120s are displayed by 25 experts via the information terminal 30 to be used.
  • Clinical inferences were made by experts based on each of the 49 items of data in FY2014.
  • the risk prediction for FY2015 obtained by clinical inference was input to the information terminal 30, and stored in the information processing device 100 as teacher judgment data D130 for each of the 2699 IDs having the risk prediction.
  • the information processing apparatus 100 inputs the 2699 teacher determination data D130 into AI as AI learning data and trains them.
  • 6707 ID-specific factor data D120 which is the actual data in the 2014 fiscal year collected and extracted by the information processing device 100, was input to the AI server 200.
  • the information processing apparatus 100 received 6707 prediction data (class prediction data for FY2015) predicted by the AI server 200 from the AI server 200.
  • AI server 200 In order to confirm the accuracy of the results predicted by AI server 200, experts performed risk classification by clinical inference based on 6707 actual data in 2015, and the results (teacher class based on actual data in 2015). The actual judgment) and the AI prediction (2015 class prediction) were compared.
  • the matching ratio of the classes was 58.90%, and the ratio of each class was as shown in FIG.
  • the severity prediction may vary or the severity prediction may be far from the others, which affects the accuracy of AI prediction as a fluctuation of teacher data. It turned out to be giving.
  • a plurality of AI prediction results by a plurality of AIs are used, a comparison is made with an expert prediction, and a severity prediction determined to be abnormal by the comparison is performed. It was decided to make a final severity prediction from the AI prediction again based on the data excluding.
  • a plurality of AIs are used.
  • the order of the data in the teacher determination data D130 was randomly input from the information processing apparatus 100 into a plurality of AIs to perform AI prediction.
  • the resulting multiple AI severities were compared to the corresponding expert predicted severities by ID.
  • the judgment between AI (1) to AI (n) was also performed, and the comparison is shown as a list in FIG.
  • the number of expert judgment data that does not match the AI judgment data is 7 or more, and the deviation of judgment between AIs is less than 0.5 in standard deviation. , It was decided to delete the expert judgment data.
  • the teacher data determined to have an abnormal value was deleted from the total teacher data of 2699 cases, and 2228 new teacher data D150 were created.
  • the information processing apparatus 100 randomly trained a plurality of AIs and predicted from the AI server as shown in the step shown in FIG. The judgment result was received.
  • the four layers explained can be used to measure the risk of illness to humans, this classification is also equivalent to risk classification, and each layer can also be recognized as a risk layer. Therefore, it can be understood that the AI prediction based on the classification according to the present invention is also effective for risk management.
  • Source data server 10 10
  • Network 30 Information terminal
  • Information processing device 200 AI server or server engine

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

専門家が判断を行うための視点に沿った判断がされたAI処理を可能とし、専門家の回答の誤差とAIの回答の誤差の相互を調整して少ない学習データであっても、有効な回答が可能な新たな判断手法及びシステムを提供する。識別コードにより特定される対象の事象をクラス分けしたAI学習用の教師データと、事象のクラス判断が求められる対象に関するデータをAI処理させ、AI処理によって求められたクラス判断データを受信するように構成されたシステム。そのシステムは、学習用の教師データを複数のAI処理に各々ランダムに入力して学習させ、対象に関するデータを複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信して記憶装置に格納するように構成され、これにより、各識別コードに対応する各々のクラス判断データに基づき、当該識別コードにより特定される対象の事象のクラスが決定される。

Description

AIによる事象クラスの判別方法及び判別システム
 本発明は、個人や物、あるいは情報に関するデータから、その個人や物、あるいは情報に基づき分類されるべき事象のクラス分けを行うための方法、装置に関する。
 個々の個人や、物、あるいは情報等の対象に関する様々なデータから、その個人や、物、あるいは情報に関するランク、等級、危険性、重要度、といったある種の事象のクラス分けを行うことが少なくない。
 そのクラス分けは、一般に多数のデータに基づいて判定されるものであり、個人や、物、あるいは情報等の対象の事象に関連するデータの種類の専門家の判断によることで、そのクラス分けの信用度も増大する。
 例えば、医療関係でいえば、対象となる各個人の医療データに基づき、各個人が事象として有する病気の重さや重篤度が、その専門家である医師等の医療従事者によって総合的に判断されることで、その正確度が向上する。
 加えて、個人や、物、あるいは情報等の対象の事象は、時間とともに変化するものであり、その事象の変化に応じて、分類されるクラスも変化する。
 したがって、現在や過去のデータに基づいた将来的な事象の変化をクラスの変化として推測することができれば、事前のリスク回避や将来的な準備など、より良い社会的な活動に貢献することができる。
 一方、今年のAI技術の向上により、様々なデータに基づいて予測判定の制度の向上が図られている。
 しかし、そのAIは、結果出力のための推論と結果との因果関係が明確でないために、因果関係の明確化を求められる分野にとって、その利用の妨げとなっている。
 したがって、少なくとも、専門家が判断を行うための視点に沿った判断がされたAI処理が求められている。
 さらに、専門家の判断にもエラーやその時々の環境に応じて微妙に変化する揺らぎが存在する。しかも、あるクラス分けを行う場合には、その判断が専門家間で微妙に異なり、それが各専門家の個性ともなって、個性に基づいた回答結果であるリスク分けにも違いを生じる。その個性は尊重すべき点もあるが、その個性によって特異なクラス分けがされると却って予測の精度が低下することともなる。
 一方、AIの判断においても、ビッグデータと呼ばれる大量のデータと比較すると、専門家が判断するデータは比較して少数であり、AI自体の回答の精度もそれ故、幅を有することとなる。
 したがって、専門家の判断の個性を維持しつつ、専門家の回答の正確性と、AIによる判断の正確性との相互を調整する新たな手法が求められていた。
特開2018-173814号公報 特開2019-212146号公報 特開2016-206950号公報
 本発明は、かかる観点から新たな判断手法およびそのシステムを提供するものであり、専門家が判断を行うための視点に沿った判断がされたAI処理を可能とし、さらに、専門家の回答の誤差とAIの回答の誤差の相互を調整して少ない学習データであっても、有効な回答が可能な新たな判断手法、及びシステムを提供するものである。
 本発明によると、識別コードにより特定される対象の事象をクラス分けしたAI(Artificial  Intelligence)学習用の教師データと、事象のクラス判断が求められる対象に関するデータをAI処理して、AI処理によって求められたクラス判断データを受信するように構成されたシステムが提供される。
 そのシステムは、学習用の教師データを複数のAI処理に各々ランダムに入力して学習させ、対象に関するデータを複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信するように構成され、これにより、各識別コードに対応する各々のクラス判断データに基づき、当該識別コードにより特定される対象の事象のクラスが決定される。
 ここで、上記対象は人とすることができ、事象は当該人の健康に関する重症度であり、重症度を複数のクラスとして分類する。
 さらに、識別コードにより特定される対象の事象のクラスの決定は、各々のAI処理から得られた複数のクラス判断データが最も多く属するクラスとすることができる。
 さらに、各々のAI処理から得られた複数のクラス判断データが所定の条件に該当するかどうかを判断し、その所定の条件に該当する複数のクラス判断データに対応する教師データを全体の教師データから削除してAIの学習用の教師データとする。
 上記所定の条件は、少なくとも、各々のAI処理から得られた複数のクラス判断データ同士の分散に基づいてもよく、例えば、各々のAI処理から得られた複数のクラス判断データ同士の分散が所定の度合い以下であることを条件としてもよい。
 さらには、上記所定の条件に、教師データの示すクラスと、当該教師データに対応する複数のAI処理によるクラス判断データの示すクラスとの間の不一致の数が所定以上の場合であることを条件として加えてもよい。
 ここで、上記対象の事象のクラスは、時期的な期間の経過に応じて変化する事象のクラスであり、AI処理により求められる事象のクラス判断も時期的な期間の経過後に予想される事象のクラスとすることができる。例えば、医療でいえば、年度ごとに変化する重症度のクラスを予想するのに利用可能である。
 さらに、本発明は方法を提供し、その方法は、記憶装置に格納された識別コードにより特定される対象の事象をクラス分けしたAI学習用の教師データを、複数のAI処理に各々ランダムに入力して学習させ、事象のクラス判断が求められる対象に関するデータを情報処理装置によって前記複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信し、各識別コードに対応する各々のクラス判断データに基づき、当該識別コードにより特定される対象の事象のクラスを決定する、ステップを有する。
本発明の一実施形態である情報処理装置が、ネットワークに接続された構成を示す図である。 図1の情報処理装置のハードウェア構成を示す図である。 図1の情報処理装置の各機能構成部を示すブロック図である。 図1の情報処理装置の記憶部に格納されるデータの一例を示す。 図1の情報処理装置が実行する処理フローの一部を示す概念図である。 図5の処理フローに引き続く処理フローの一部を示す概念図である。 図6の処理フローに引き続く処理フローの一部を示す概念図である。 図7の処理フローに引き続く処理フローの一部を示す概念図である。 図8の処理フローに引き続く処理フローの一部を示す概念図である。 本発明を医療分野に適用する際に考察した医療比構成の現状を示す概念図である。 各医療機関より取得した医療データの対象年度を示す。 AIによる判断の有効性を検証するための処理フローの例を示す。 49項目の主要因子に基づいたAIによる判断結果の一例を示す。 医療の専門家予測判定と複数AI判定により教師データから異常と判断された所定の専門家予測判定データを削除する例を示す。 調整後の教師データによるAI予想判定の例を示す。
 図1は、本発明の一実施形態に従ったシステム1を示す。一実施形態として情報処理装置100はネットワーク20に接続されている。ユーザは、情報端末30を介して情報処理装置100にアクセスし、情報処理装置100が提供するサービスを受けることができる。アクセスは、インターネット、専用回線、屋内回線等の有線、または無線ネットワーク20を介してなされる。アクセス可能な情報端末の数に特に制限はなく、利用する目的に応じて適宜利用可能である。情報処理装置100は、情報端末30からの入力データをネットワーク20を介して受け付け、対応したサービスを提供するように構成されている。
 提供元データサーバ10は、ネットワーク20を介して、情報処理装置100のサービス内容に応じて必要なデータを情報処理装置100に提供するように構成されている。必要であれば、情報処理装置100、提供元データサーバ、そして情報端末30との間で、相互認証や、データの扱いに対する同意形成が予め行われるようにしてもよい。
 AIサーバ又はサーバエンジン200は、CPU、複数のプロセッサコアを実装したマルチ・プロセッサ、GPU(Graphics Processing Units)、DSP(Digital Signal Processors)、FPGA(Field-Programmable Gate Arrays)等のハードウェアを組み合わせることによって構成可能であり、機械学習機能や、言語解析機能、さらには、音声認識機能、などを実現するアルゴリズム又は学習済モデルなどで構成され得る。量子プロセッサを組み合わせることも可能であり、機械学習機能は、例えば、深層学習(ディープラーニング)を含むニューラルネットワーク又は強化学習などによって達成され得る。尚、サーバは、1つ又は複数のサーバで構成することも可能であり、AIエンジン部と記憶部等、各構成要素を分散配置するようにしてもよい。
 次に、図2を参照して、情報処理装置100のハードウェア構成を説明する。
 本実施形態の一例に応じた情報処理装置100は、CPU(Centr al Processing Unit)、RAM(Random Access  Memory)、ROM(Read Only Memory)、記憶部、ネットワークI/F(Interface)を含む通信部、表示部、入力部等を有する。必要に応じて、他のハードウェア構成を含み得る。
 CPUは、ROMや記憶部等に記憶されたプログラムやデータを読み出し、必要なデータをRAM上に格納しながら、処理を実行することにより、情報処理装置100の制御や機能を実現する演算装置である。
 記憶部は、OS(Operating System)や、各種のアプリケーシ ョンプログラム等を記憶するための、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等のストレージ装置である。
 通信部は、情報処理装置100とネットワーク20とのインタフェースを提供し、ネットワーク20に結ばれた情報端末30、提供元データサーバ10、AIサーバ200等の外部装置との情報通信を行うための通信インタフェース機能を有する。
 表示部は、ディスプレイ等の表示装置であり、情報処理装置100による処理結果をユーザに表示する。入力部は、例えばキーボード、マウス、カメラ、マイク等の入力装置とすることができる。
 バスは、情報処理装置100内の各構成部を接続するために、アドレス信号、データ信号、及び各種の制御信号等を伝達する。
 なお、情報処理装置100は、上記構成に限らず、別々のコンピュータにより分散して実現されてもよければ、情報処理装置100の各構成要素が分散して一体的に機能してもよく、また、情報処理装置100を構成する各要素も、単一でもあるいは複数の組み合わせからなってもよい。さらに、求められるサービス内容により、情報端末30と情報処理装置100との間で必要なアプリケーションが分散されて、協働してサービスが実現されるようにしてもよい。
 また、システムは、本実施形態で示されたハードウェア構成に限定されず、本発明を実施できるものであれば、どのような形態であってもよい。また、民間等が提供する外部のAI処理機能を利用してもよい。
 図3は、情報処理装置100が有する機能の一例を示す。図4は、情報処理装置100の記憶部に格納される各種データを示す、図5乃至図9は、本発明の実施形態に基づく一連の主要な処理フローを示す。
 データ収集部110は、対象事象のクラス判定を行う上で必要となるデータを収集し(図5のステップS110)して、識別データ(ID)で管理可能なID別データD110として記憶する。
 主要因子選別部120は、本発明の方法、システムを利用するユーザがクラス判定を行う上で利用される因子を選択できるようにしている。ユーザの代わりに、システム1が自動に判断して有効な因子を選択できるようにしてもよい。
主要因子データ抽出部130は、主要因子選別部120によって選択された因子から、その因子に関連するID毎のデータ(以下、「ID別因子データ」または単に「因子データ」ともいう)を、データ収集部110で収集したデータから抽出してID別因子データD120として記憶する(ステップS120)。
 尚、因子は予め選択され、その選択された因子に基づき、必要となる因子データを提供元データサーバ10から収集できるようにしてもよい。
 識別データは、個人や会社、物、情報等の対象を一意に識別できるデータであり、収集されたデータや抽出されたID別因子データD110は、その識別データに対して紐づけできる各種データを含む。
 例えば、識別データは、個人で言えば、氏名自体であったり、あるいは、その氏名を特定可能な識別コード(例えば、病院に通院した際に患者IDや、銀行取引の際のアカウント番号、ネットワーク通販等で商品等を購入する際に使用するID等)である。もちろん、その個人や会社等を特定できるものであれば、多数のIDやアカウント等でよく、それらに紐付けされたデータを全体的に収集、統合できるようにしてもよい。
 その識別データに対して紐づけできる各種データには、それらのデータから、個人や会社、物、情報等の対象に関するある種の事象をクラス分けすることに利用できるものであれば、その種類は問わない。
 例えば、対象を会社として、事象を各会社の健全性としてクラス分けすることができ、各種データは、会社の健全性に関連するいかなる情報であってもよい。
 クラス分け教師判定部140は、ID別データD110から抽出したID別因子データD120の一部のID別因子データをクラスの判別として使用する(ステップS130)。代わりに、ID別データD110から直接ID別因子データを抽出してクラスの判別として使用するようにしてもよい。信頼できるクラスの判別を可能とするために、判別はそのデータに関連する実務に精通する専門家や知識人等(以下、単に「専門家」ともいう)が行うことが好ましい。
 実務の専門家は、情報端末30を介して、情報処理装置100にクラスの判別結果を入力するようにしてもよい。そのために、情報処理装置100は、抽出した因子データを情報端末30を介して専門家に情報表示し、専門家は、その表示されたデータに基づき、自らの経験や知識に基づいて、クラスの判別結果を情報端末30に入力して、情報処理装置100へと記憶することができる。
 クラスの判別を行う専門家は、複数人であることが好ましく、情報処理装置100は、各複数人によるクラスの判別結果を、情報処理装置100に記憶する。
 したがって、クラス分け教師判定部140によって行われるステップS130は、専門家がクラスの判別ができるように情報処理装置100から情報端末30に因子データを提供し、情報端末30から情報処理装置100へと判別データを提供できるような、簡単なインタフェースアプリケーションとして実現されてもよく、あるいは、専門家が判別データを情報処理装置100に入力可能な単純なアプリケーションとして実現されてもよい。クラスの判別は、異なる専門家が同一の識別コードに基づいた同一の情報に基づき重複して独自に行ってもよい。
 このクラスの判別結果は、AIに入力して、学習用のデータとして使用するために、ここでは、一般化した名称として、教師判定データD130と呼ぶことができる。
 教師判定データD130は、因子データに基づいた現在のクラスの判別のほか、将来予想できるクラスの判別データであってもよい。将来の予測とは、翌年度の予測や、次月度の予測等を含み、その将来の期間をどのようにするかは、特に限定するものではない。また、収集するデータが属する期間に応じて、その将来の期間を適宜設定するようにしてもよい。
 教師判定データノイズ除去部150は、学習用として入力される教師判定データのうちから特異なデータやあるいは異常なデータ等、クラスの判別結果が異常として扱われるデータを、例えばノイズを有するデータであるとして、全体の教師判定データから排除する。
 教師判定データノイズ除去部150が行うこの排除方法の一実施形態を図6及び図7を参照して説明する。
 まず、教師判定データD130が、AIサーバ200等のAI処理に入力されて教師判定データD130の内容に従った学習が行われる。加えて、ID別因子データD120が、クラス予想の対象でとしてAI処理に入力され、学習に応じたクラス判別を伴ったAI判定データD140として情報処理装置100に出力される(ステップS140)。
 ここで、教師判定データD130として専門家の判別に使われるID別因子データは、図5に示したように、上記ID別因子データD120から一部が抽出されたものが利用可能であるが、主要因子データ抽出部130は、ID別因子データD120と専門家の判別に使われるID別因子データとを別々に外部サーバから収集してもよい。つまり、AIによって判定のために使用されるID別因子データD120と、学習用にAIに投入されるID別因子データは、いつどのような経路で取得し用意するかは、特に限定されない。
 AI判定データD140は、個別の識別コード(ID)毎に教師判定によるクラス、すなわち、専門家が判別したクラスと、AIによって判別したクラスとを伴うことができる。
 このAIへの学習とAIのよる判別は、複数のAI処理で行われることが好ましい。また、複数のAIへのデータの入力は、ランダムに行うことが好ましい。ランダムに入力された教師判定データD150とID別因子データD120は、複数のAIにより個別に処理され(ステップS140)、個別のAI判定データがAI毎の出力として情報処理装置100に受信され記憶される。そして、それらのAI判定データから、識別コード別の複数AI判定データD140が作成される。
 次に、各識別コードごとに、教師判定によるクラス分けと、各AIによるクラス分けのデータから、異常値として判断される教師判定データを削除する。図7は、その判定から、IDが0002に対してクラスが1として判定した教師判定データを削除する(図7のステップS150)例を示している。
 異常値の判断は、例えば、AI判定によるクラスと教師判定によるクラスとの間に所定の差や距離が生じた場合に、その教師判定データはノイズとして処理して、全体の教師判定データから除去する(ステップS150)。
 例えば、クラスを1~4に分けて番号付けを行った場合に、AI判定によるクラスと教師判定によるクラスとの間で所定の値、例えば、3以上の差を有した場合には、異常値として判断することができる。もちろん、異常なクラス判定とする手法は、これに限定されず、他の適切な判断手法を適用できることは言うまでもない。このように、クラスを番号として管理することで、情報処理装置100は、数学的な演算処理として実行することが可能となる。
 複数のAIによる予想を行う場合には、集合知定理を利用してもよい。集合知定理は、次の式で表すことができる。
  集団誤差=平均個人誤差-分散値
 集団誤差は、ある集団のメンバーで推定した値の平均と正解との差である。平均個人誤差は、各メンバーの誤差の平均値、そして分散値は、各メンバーの推定値のばらつきである。
 数学的には、
 メンバーiの推定値をXi(i=1,2,…,N)
 集団推定値をA, 真値をRとした時
    集団誤差=(A-R)2
 A= { X(1)+X(2)+・・・+X(N)}/ N
   平均個人誤差= { (X(1)-R)2+(X(2)-R)2+・・+(X(N)-R)2}/ N
   ばらつき(分散値)= { (X(1)-A)2+(X(2)-A)2+・・+(X(N)-A)2}/ N
で表すことができる。
 この集合知定理が示すところは、集団における個人の推測誤差(第1項)は、多様性(第2項)によって相殺され、集団として正解に近い推測ができる、というものである。
 本発明について適用すると、AIサーバまたはAIエンジンであるAI(1)~AI(n)(nは整数)を各メンバーとし、各メンバーが予想判定したランクを推定値としたとき、複数のAIの判定結果は、正解を中心にした分布を示すはずであり、この集合知定理によると、各メンバーの判定結果の分散値が大きい方が、集団の平均で示す解は、個々のAIの判定結果に比べて、正解になる精度が上がることを意味する。
 教師データの中の異常なクラス判定のデータを削除し、全体の誤差を小さくするためには、この集合知定理に基づいて、AIの誤差が小さく、分散値が大きい事が条件とすることができるため、削除するデータは、誤差が大きく、分散値又は標準偏差が小さいデータに渋ることができる。
 したがって、本実施形態では、AIの判定したランクの分散が所定の範囲内にあり、例えばその標準偏差がある閾値以下の場合を一つの条件として、その該当するAI判定に対応する教師データを全体の教師データから削除する。または、若しくはその条件に加えて、複数のAIのクラス予想と教師データのクラスとの間で、所定以上の数のAIが教師データのクラスと違いが生じている場合を条件とし、その教師データは異常値であるとして、その教師データを全体の教師データから削除するようにしてもよい。
 例えば、AIの数を10として、AI同士の判定の標準偏差が0.5以下であって、AIの判断と教師データとの不一致となっているAI数が7以上あった場合には、その教師データは無視できないゆらぎ又はブレによる異常値を有するとして、除去するようにしてもよい。
 なお、ここで使用されている「異常」または「異常値」の用語は、特定の条件の教師判定データを除去するために便宜的に使われているものであり、「異常」という用語は、広くAI処理にふさわしくないと判断される教師データを排除する対象を示すためのものであることを理解すべきである。
 図7に示すように、異常であると判断された教師判定データが除去された教師判定データは調整済み教師判定データD150として記憶される。
 図8を参照すると、除去後データクラス判定部160は、複数の識別コードに関連する複数の因子データを含み異常データが除去された調整後の教師判定データD150を学習用データとして利用するために前述のAIサーバ200に入力する。さらに、クラス分けしたい1つ又は複数の識別コードに関連する一群のID別因子データD120もAIサーバ200に入力するし。AI処理により、その一群のID別因子データに基づき、各識別コードに対応するクラス分けのAI判別が実行される(ステップS160)。除去後データクラス判定部160は、AIによるその判別結果を受信し、AI判定データD160として記憶する。
 このとき、調整後の教師判定データD150とID別因子データD120も、複数のAI(1)~AI(n)に入力して予想判別することが好ましい。また、複数のAIへのデータの入力は、ランダムに行うことが好ましい。ランダムに入力された調整後の教師判定データD150とID別因子データD120は、複数のAIにより個別に処理され、調整後の個別AI判定データがAI毎の出力として情報処理装置100に記憶される。そして、それらのAI判定データから、識別コード別の最終クラスAI判定データD160が作成される。
 図9に示したように、最終クラス判定部170によって最終的なクラス判定が行われる(ステップS170)。最終クラスAI判定データD160に列記された識別コードごとのAI(1)~AI(n)のクラス判定から最終の判別クラスデータD170が作成される。このクラス判定基準は、AI(1)~AI(n)の予想したクラスの中央平均から決定してもよければ、最も多いクラスを最終的なクラスとして決定してもよく、あるいは他の適切な決定方法であってもよい。
 次に、本発明を医療分野に適用した実施例を説明する。
 (AIの有効性の事前確認 その1)
 本発明を行う上で、本発明の基本的な思想によるAI利用方法が有効であるかどうかの事前確認を行った。
 図10は、健康診断を受診した人の状態を、クラスとして4つの層に分け、各層の人数構成と、医療費との関係の概要を示している。
 下の層から、クラス1、クラス2、クラス3、そしてクラス4とクラス番号付けを行い、クラス1は、今後も健康増進を期待するもの、クラス2は軽度のもの、クラス3は中度のもの、そしてクラス4を重度のもの、としている。
 この4つの層は、人への病気の危険度を図る上でも利用可能あり、重症化のレベルとしても把握でき、最上位は重症化レベルが最大であり、最下層は、重症化レベルとしてはほぼ無いとも判断できる。したがって、このクラス分けはリスク分けでもあり、本発明は、リスク管理として利用することができる。
 このクラス分けを行った場合に、その分け方にも依存するが、全体の人数に占める各層の人数の割合は、下から、50%、30%、15%、5%といった略ピラミッド状を形成する。一方、全体の医療費の占める各層の医療費は、最上位層のクラス4で、40%を占め、その下に行くにしたがって、35%、20%、5%の逆ピラミッドの分布を形成する。
 したがって、人数構成が5%や15%となるクラス4やクラス3の発生を予想し、その予防ができれば、重度となる可能性のある人へのより適切なケアを可能とし、全体の医療費の削減も可能となる。
 そこで、まずは、事前に本発明の有効性を検証するために、医療機関から250人の健診や医療データ(以下、単に「医療データ」という)を取得し、2014年の医療データを医療に従事する医師やその他の専門家(単に「専門家」ともいう)に目視してもらい、翌年度の2015年時点での各人の重症化のリスクレベルを予想してもらった。
 そして、そのリスク番号を1~4の番号に振り分けてもらい、リスク番号1~4を伴った各人の医療データを学習用データとしてAIに入力した。さらに、その学習したAIに対して、250人の中から2014年の50人の医療データを入力して、2015年の重症化リスクとして予想した。
 その結果、50人のうち、専門家による2015年度の予測とAIによる2015年度の予測との間で、8件(人)が相違した。
 さらに、50人の2015年の医療データからその年の重症度を専門家によって判断してもらい、その実際の結果を専門家とAIの両予測データと比較したところ、相違する8件のうち、AIが予想した2件の重症度と実際の結果とが一致した。
 このことから、小規模なデータではあるが、AIの有効性の可能性が確認された。
 (AIの有効性の事前確認 その2)
 医療機関から得られるデータは多岐の種類にわたるが、個別保健指導で得ることのできる各疾患に影響する因子であって、レセプトデータや健診データから取得可能な項目を一定数に絞り、主要な因子として洗い出しができれば、広く一般の被医療者にも予測が可能となり、利用範囲が広がるとともに、予測精度の向上も図れる。
 かかる観点から、ここではその過程を詳述しないが、49項目の因子データを用いることとした。
 まず、情報処理装置100は、各種医療機関のデータサーバ10(図1)から、「診療情報明細書」、「介護給付明細書」、「特定健診結果」及び「被保険者マスタ」のデータを収集してID別データD110を構成し、選択した49項目の2014年度の因子データを有する2699件のID別因子データD120を作成して記憶した。
 尚、図11は、各医療機関から収集したデータの該当年度を示している。
 つぎに、情報処理装置100に格納された2699件のID別因子データD120を読み出し、25人の専門家により、利用する情報端末30を介してそれらのID別因子データD120の内容を表示し、2014年度の49項目各データに基づいた専門家による臨床推論を行った。
 臨床推論により得られた2015年度のリスク予測は、情報端末30に入力され、リスク予測を有する2699件の各IDごとの教師判定データD130として情報処理装置100に記憶した。
 さらに、図13に示すように、情報処理装置100は、この2699件の教師判定データD130をAI学習用データとしてAIに入力して学習させた。
 また、2015年年度のリスク予想に使用されるデータとして、情報処理装置100が収集して抽出した2014年度実データである6707件のID別因子データD120をAIサーバ200に入力した。
 その結果として、情報処理装置100は、AIサーバ200が予測した6707件の予測データ(2015年度のクラス予測データ)をAIサーバ200から受信した。
 AIサーバ200が予測した結果の正確性を確認するために、専門家により、2015年度の6707件の実データに基づいた臨床推論によりリスク分けを行い、その結果(2015年実データに基づく教師クラス実判定)とAI予測(2015年クラス予測)とを比較した。
 結果は、クラスの一致する割合が58.90%であり、各クラスの割合は、図13に示す通りであった。
 以上から、ある年度のデータから翌年度の重症度の予測の可能性があることが理解できたが、より高い精度での予測も望まれた。
 (複数AI判定による不必要なゆらぎやブレの排除と、予測の向上)
 教師データの内容を調査した結果、専門家によっては、重症度予測にばらつきがあったり、他とかけ離れた重症度予測となっており、それが教師データの揺らぎとして、AI予測の精度にも影響を与えていることが分かった。
 したがって、図6~図9のフローで説明したように、複数のAIによる複数のAI予測結果を利用し、専門家予測との間での比較を行い、比較により異常と判別された重症度予測を排除したデータに基づく再度のAI予測から最終的な重症度予測を行うこととした。
 実施例2で説明した、2699件のID別因子データD120からの教師判定データD130と、情報処理装置100が収集して抽出した6707件のID別因子データD120とを利用し、複数のAIに対して、教師判定データD130内のデータの順をランダムに情報処理装置100より複数のAIに入力して、AI予測を行った。その結果得られた複数のAIによる重症度を、ID別にその対応する専門家の予測重症度と比較した。
 比較は、専門家判定データと、AI(1)~AI(n)各判定データとの比較に加え、AI(1)~AI(n)同士間の判定も行い、図14のリストとして示したように、すでに説明した集合知定理に基づき、専門家判定データがAI判定データと一致しない数が7以上の場合であって、AI同士間の判定のブレが標準偏差で0.5未満である、専門家判定データを削除することとした。
 なお、ここで示した数字は例示であって、任意の値によって異常値として判定し得る。
 このように、図7で示したステップに従い、2699件の全体の教師データから異常値を有するとして判断された教師データを削除して、2228件の新たな教師データD150を作成した。
 その新たな教師データD150と2014年度の6707件のID別因子データから、図8で示すステップのように、情報処理装置100は、複数のAIに対してランダムに学習させてAIサーバから予測した判定結果を受信した。
 図15に示すように、AIサーバから出力された6707件の2015年度クラス予測データと、2015年度の実データに基づく専門家によるクラス実判定とを比較した結果、すべてのAI(1)~AI(n)(n=10)について、83%以上の著しい向上が見られた。
 このことは、一般の医療従事者の目線にあったAI予測が可能であることを示しており、広く医療範囲に適用可能となる根拠を示すものである。
 また、説明した4つの層は、人への病気の危険度を図る上でも利用可能あるために、このクラス分けはリスク分けにも相当し、各層はリスク層としても認識できる。よって、本発明によるクラス分けに基づくAI予想は、リスク管理にも有効であると理解できるだろう。
 以上のように本発明の実施態様について説明したが、上述の説明に基づいて当業者にとって種々の代替例、修正又は変形が可能であり、本発明はその趣旨を逸脱しない範囲で前述の種々の代替例、修正又は変形を包含するものである。
 10 提供元データサーバ10
 20 ネットワーク
 30 情報端末
 100 情報処理装置
 200 AIサーバ又はサーバエンジン
 

Claims (14)

  1.  識別コードにより特定される対象の事象をクラス分けしたAI(Artificial  Intelligence)学習用の教師データと、事象のクラス判断が求められる対象に関するデータをAI処理し、AI処理によって求められたクラス判断データを受信するためのシステムであって、
     前記学習用の教師データを複数のAI処理に各々ランダムに入力して学習させ、前記対象に関するデータを前記複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信する、ように構成され、
     これにより、各識別コードにより特定される対象の事象のクラスが、当該各識別コードに対応する各々のクラス判断データに基づき決定される、システム。
  2.  所定の条件に該当する複数のクラス判断データに対応する教師データを全体の教師データから削除してAIの学習用の教師データとする、請求項1に記載のシステム。
  3.  前記所定の条件は、少なくとも、各々のAI処理から得られた複数のクラス判断データ同士の分散に基づく、又は、少なくとも、各々のAI処理から得られた複数のクラス判断データ同士の分散が所定の度合い以下であるかどうかに基づく、請求項2に記載のシステム。
  4.  さらに、前記所定の条件は、教師データの示すクラスと、当該教師データに対応する前記複数のAI処理によるクラス判断データの示すクラスとの間の不一致の数が所定以上の場合である、ことを条件とする、請求項3に記載のシステム。
  5.  前記対象の事象のクラスは、時期的な期間の経過に応じて変化する事象のクラスであり、AI処理により求められる事象のクラス判断も時期的な期間の経過後に予想される事象のクラスである、請求項1に記載のシステム。
  6.  前記識別コードにより特定される対象の事象のクラスの決定は、各々のAI処理から得られた複数のクラス判断データが最も多く属するクラスとする、請求項1又は2に記載のシステム。
  7.  前記対象は人であり、前記事象は当該人の重症度である、請求項1に記載のシステム。
  8.  記憶装置に格納された識別コードにより特定される対象の事象をクラス分けしたAI学習用の教師データを、前記情報処理装置によって複数のAI処理に各々ランダムに入力して学習させ、
    さらに前記情報処理装置によって事象のクラス判断が求められる対象に関するデータを前記複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信する、方法であって、
     各識別コードにより特定される対象の事象のクラスは当該各識別コードに対応する各々のクラス判断データに基づき決定される、方法。
  9.  所定の条件に該当する複数のクラス判断データに対応する教師データを全体の教師データから削除してAIの学習用の教師データとする、請求項8に記載の方法。
  10.  前記所定の条件は、少なくとも、各々のAI処理から得られた複数のクラス判断データ同士の分散に基づく、又は、少なくとも、各々のAI処理から得られた複数のクラス判断データ同士の分散が所定の度合い以下であるかどうかに基づく、請求項9に記載の方法。
  11.  さらに、前記所定の条件は、教師データの示すクラスと、当該教師データに対応する前記複数のAI処理によるクラス判断データの示すクラスとの間の不一致の数が所定以上の場合である、ことを条件とする、請求項10に記載の方法。
  12.  前記対象の事象のクラスは、時期的な期間の経過に応じて変化する事象のクラスであり、AI処理により求められる事象のクラス判断も時期的な期間の経過後に予想される事象のクラスである、請求項8に記載の方法。
  13.  前記識別コードにより特定される対象の事象のクラスの決定は、各々のAI処理から得られた複数のクラス判断データが最も多く属するクラスとする、請求項8又は9に記載の方法。
  14.  前記対象は人であり、前記事象は当該人の重症度である、請求項8に記載の方法。
     
PCT/JP2021/012705 2020-03-25 2021-03-25 Aiによる事象クラスの判別方法及び判別システム WO2021193864A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/913,643 US20230107088A1 (en) 2020-03-25 2021-03-25 Method and system for determining event class by ai
EP21775026.4A EP4131282A4 (en) 2020-03-25 2021-03-25 METHOD AND SYSTEM FOR DETERMINING A CLASS OF EVENTS BY AI
JP2022510691A JPWO2021193864A1 (ja) 2020-03-25 2021-03-25

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020054986 2020-03-25
JP2020-054986 2020-03-25

Publications (1)

Publication Number Publication Date
WO2021193864A1 true WO2021193864A1 (ja) 2021-09-30

Family

ID=77892750

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/012705 WO2021193864A1 (ja) 2020-03-25 2021-03-25 Aiによる事象クラスの判別方法及び判別システム

Country Status (4)

Country Link
US (1) US20230107088A1 (ja)
EP (1) EP4131282A4 (ja)
JP (1) JPWO2021193864A1 (ja)
WO (1) WO2021193864A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023067726A1 (ja) * 2021-10-20 2023-04-27 三菱電機株式会社 学習装置、予測装置、予測システム、学習方法、予測方法、及び予測プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005209211A (ja) * 2004-01-26 2005-08-04 Honda Research Inst Europe Gmbh 進化的最適化方法
JP2005284348A (ja) * 2004-03-26 2005-10-13 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP2013148996A (ja) * 2012-01-18 2013-08-01 Osaka Univ 重症度判定装置、及び、重症度判定方法
JP2018155522A (ja) * 2017-03-16 2018-10-04 株式会社島津製作所 データ解析装置
US20190362072A1 (en) * 2018-05-22 2019-11-28 International Business Machines Corporation Detecting and delaying effect of machine learning model attacks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200074951A (ko) * 2017-10-17 2020-06-25 새티쉬 라오 신경계 장애의 식별 및 모니터링을 위한 머신 러닝 기반 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005209211A (ja) * 2004-01-26 2005-08-04 Honda Research Inst Europe Gmbh 進化的最適化方法
JP2005284348A (ja) * 2004-03-26 2005-10-13 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP2013148996A (ja) * 2012-01-18 2013-08-01 Osaka Univ 重症度判定装置、及び、重症度判定方法
JP2018155522A (ja) * 2017-03-16 2018-10-04 株式会社島津製作所 データ解析装置
US20190362072A1 (en) * 2018-05-22 2019-11-28 International Business Machines Corporation Detecting and delaying effect of machine learning model attacks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4131282A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023067726A1 (ja) * 2021-10-20 2023-04-27 三菱電機株式会社 学習装置、予測装置、予測システム、学習方法、予測方法、及び予測プログラム
JP7475549B2 (ja) 2021-10-20 2024-04-26 三菱電機株式会社 学習装置、予測装置、予測システム、学習方法、予測方法、及び予測プログラム

Also Published As

Publication number Publication date
EP4131282A1 (en) 2023-02-08
US20230107088A1 (en) 2023-04-06
EP4131282A4 (en) 2024-04-17
JPWO2021193864A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
JP6463572B1 (ja) 対象システムの内部状態を推定する支援システム
US20200152334A1 (en) Computerized system and method for identifying members at high risk of falls and fractures
Kessler et al. The effects of competition on variation in the quality and cost of medical care
Ortega et al. A Medical Claim Fraud/Abuse Detection System based on Data Mining: A Case Study in Chile.
Sedlak et al. Fourth national incidence study of child abuse and neglect (NIS-4)
US20190102670A1 (en) Secure Broker-Mediated Data Analysis and Prediction
JP2014512624A (ja) 予測モデリング
CN112017789B (zh) 分诊数据处理方法、装置、设备及介质
CN111341446B (zh) 一种个性化体检套餐推荐方法
US20180211727A1 (en) Automated Evidence Based Identification of Medical Conditions and Evaluation of Health and Financial Benefits Of Health Management Intervention Programs
WO2015132903A1 (ja) 医療データ分析システム、医療データ分析方法及び記憶媒体
US20160358282A1 (en) Computerized system and method for reducing hospital readmissions
Chand et al. Learning from machines to close the gap between funding and expenditure in the Australian National Disability Insurance Scheme
WO2021193864A1 (ja) Aiによる事象クラスの判別方法及び判別システム
CN112908452A (zh) 事件数据建模
Chua et al. A two‐stage estimation of hospital quality using mortality outcome measures: an application using hospital administrative data
Bishop et al. Improving patient flow during infectious disease outbreaks using machine learning for real-time prediction of patient readiness for discharge
US20140164012A1 (en) System and methods for simulating future medical episodes
Janaraniani et al. Heart attack prediction using machine learning
Kaushik et al. Disease management: clustering–based disease prediction
Tekieh et al. Analysing healthcare coverage with data mining techniques
Barons et al. A comparison of artificial neural network, latent class analysis and logistic regression for determining which patients benefit from a cognitive behavioural approach to treatment for non-specific low back pain
EP2038837A2 (en) Means and method of obtaining and processing data for use in medical or health assessment
Louhab et al. A Coloured Petri Net-based approach and Genetic Algorithms for improving services in the Emergency Department.
Hanifa et al. Prediction of patient length of stay using random forest method based on the Indonesian national health insurance

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21775026

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022510691

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021775026

Country of ref document: EP

Effective date: 20221025