WO2022091413A1 - 機械学習プログラム、推定プログラム、装置、及び方法 - Google Patents

機械学習プログラム、推定プログラム、装置、及び方法 Download PDF

Info

Publication number
WO2022091413A1
WO2022091413A1 PCT/JP2020/041077 JP2020041077W WO2022091413A1 WO 2022091413 A1 WO2022091413 A1 WO 2022091413A1 JP 2020041077 W JP2020041077 W JP 2020041077W WO 2022091413 A1 WO2022091413 A1 WO 2022091413A1
Authority
WO
WIPO (PCT)
Prior art keywords
machine learning
ontology
embedded vector
graph data
data
Prior art date
Application number
PCT/JP2020/041077
Other languages
English (en)
French (fr)
Inventor
孝典 鵜飼
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2020/041077 priority Critical patent/WO2022091413A1/ja
Priority to JP2022558810A priority patent/JP7444280B2/ja
Priority to EP20959928.1A priority patent/EP4239535A4/en
Publication of WO2022091413A1 publication Critical patent/WO2022091413A1/ja
Priority to US18/302,084 priority patent/US20230259828A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Definitions

  • the disclosed technology is related to machine learning technology.
  • a system has been proposed that calculates the similarity between drugs and estimates the side effects of the designated drug.
  • This system has a similarity calculator and a side effect determination device.
  • the similarity calculator obtains data related to a drug set from a plurality of open data sources, generates an RDF (Resource Description Framework) triple, and stores an RDF graph of the RDF triple.
  • the similarity calculator calculates the similarity between each drug and all other drugs by generating feature vectors for each drug based on RDF triples and comparing the feature vectors.
  • the side effect determination device estimates the side effect of the designated drug based on the similarity of the drug.
  • the accuracy of estimating side effects may not be sufficient only by the similarity of drugs (drugs) comparing feature vectors.
  • drugs drugs
  • even patients receiving the same drug may have different side effects if the patients are affected by different diseases.
  • the above situation is not limited to the case of estimating side effects based on the similarity of medicines, but may occur when some event is estimated using a machine learning model in which machine learning is executed using past cases as training data.
  • the disclosed technique aims to train machine learning models to improve the accuracy of event estimation.
  • the disclosed technique inputs training data including an embedded vector of graph data, an embedded vector of ontology, and a correct label.
  • the disclosed technique also performs machine learning of machine learning models based on the loss function.
  • the loss function combines the value of the activation function calculated only by the embedded vector of the graph data in the input training data and the value of the activation function calculated only by the embedded vector of the ontology in the training data. It is calculated by the obtained value and the correct answer label.
  • the machine learning model can be trained to improve the estimation accuracy of the event.
  • the past case data is used.
  • the case data shall include information on the patient's attributes, the drug administered, the disease the patient is suffering from, and the like.
  • the ontology is a systematization of background knowledge in the target field, and in the case of this embodiment, for example, information such as disease similarity and relationship, drug similarity and contained components is used as a tree. It is organized in the form of structure, etc. Similar side effects can occur if the disease is similar or if a drug containing the same ingredients is administered. Therefore, it is considered that such a possibility can be estimated by using a feature vector containing the above-mentioned ontology information as an element.
  • the method transforms case data into graph data consisting of nodes and edges connecting the nodes, and combines this graph data with a tree-structured ontology. Then, the method calculates an embedded vector representing each node from the graph data in which the case data and the ontology are combined. Further, the method is a method of training a machine learning model using a feature vector generated from this embedded vector as training data.
  • the ontology information is appropriately reflected in the machine learning of the machine learning model.
  • the machine learning system includes a machine learning device 10 and an estimation device 30.
  • the machine learning device 10 will be described.
  • the case data for machine learning is data including information on the attributes of the patient, the drug administered, the disease affected by the patient, and the side effects.
  • FIG. 2 shows an example of case data for machine learning.
  • information on "ID”, “gender”, “age”, “weight”, “height”, “pharmaceutical product”, “disease”, and “side effect” is included for each patient.
  • the “ID” is patient identification information.
  • "Gender,”"age,”"weight,” and “height” are examples of patient attributes.
  • “Pharmaceutical” is the name of a drug given to a patient.
  • Disease is the name of the underlying disease that the patient is suffering from.
  • the “side effect” is information on the side effect that occurred when the drug shown in “pharmaceutical product” was administered.
  • FIG. 3 shows an example of an ontology.
  • the drug ontology is between a node indicating a drug (a circle with a drug name inside), a node showing background knowledge (an ellipse with background knowledge inside), and related nodes. It is the information of the tree structure including the edge (arrow) connecting the. The edge may be associated with relevant information indicating how the drug and background knowledge are related.
  • a node indicating the drug and a node indicating a severe infection are connected at an edge, and related information prohibiting administration (“Contraindications” in FIG. 3). ”) Is given.
  • a node indicating a disease a circle with a disease name inside
  • a node showing background knowledge an ellipse with background knowledge inside
  • an edge connecting related nodes a circle.
  • Information on the tree structure including the arrow For example, when a disease called alcohol intake is classified as a mental illness, a node indicating alcohol intake and a node indicating mental illness are connected by an edge, and related information such as "classification" is given to the edge.
  • the machine learning device 10 includes a graph generation unit 12, an embedded vector calculation unit 14, a training data generation unit 16, and a machine learning unit 18.
  • the graph generation unit 12 acquires machine learning case data input to the machine learning device 10, and generates graph data composed of nodes and edges connecting the nodes from the acquired machine learning case data. ..
  • the graph generation unit 12 generates each value of each item other than the side effect included in the machine learning case data as a node.
  • the node indicated by the circle in which each value is indicated is a node indicating each of the attribute, the drug, and the disease.
  • the graph generation unit 12 connects an edge from each "ID" node to a node indicating each of the attributes, medicines, and diseases of the patient indicated by the ID.
  • FIG. 4 the graph generation unit 12 acquires machine learning case data input to the machine learning device 10, and generates graph data composed of nodes and edges connecting the nodes from the acquired machine learning case data. ..
  • the graph generation unit 12 generates each value of each item other than the side effect included in the machine learning case data as a node.
  • the node indicated by the circle in which each value is indicated is a node
  • the node showing the side effect (the node indicated by the rounded square in which the side effect is indicated) and the node of "ID" and the side effect are shown.
  • the edge connecting to the indicated node is also shown.
  • the method of generating graph data is not limited to the above example, and other methods may be adopted.
  • the graph data generated from the case data is referred to as "case graph data". In the following description, the case graph data does not include the node showing the side effect.
  • the graph generation unit 12 generates graph data in which an ontology is connected to the case graph data based on the case data for machine learning. Specifically, the graph generation unit 12 connects the case graph data and the ontology by sharing the nodes that match the case graph data and the ontology. For example, the graph generation unit 12 searches for a node that matches a node indicating "pharmaceutical product" and "disease" contained in the case graph data from the drug ontology and the disease ontology, and searches for the searched node and a portion connected to the node. Extract.
  • the graph generation unit 12 connects the portion extracted from the ontology to the case graph data so as to superimpose the nodes indicating the matching “pharmaceutical products” or “disease” as shown by the broken line in FIG. ..
  • the graph data in which the part extracted from the ontology is connected to the case graph data is referred to as "overall graph data”.
  • the embedded vector calculation unit 14 calculates an embedded vector representing each node included in the overall graph data based on the overall graph data. Specifically, the embedded vector calculation unit 14 calculates the embedded vector by mapping each of the nodes and edges included in the overall graph data to an n-dimensional vector space. More specifically, as shown in the upper figure of FIG. 6, an embedded vector is taken as an example of graph data including nodes A, B, C, an edge r between nodes A and B, and an edge r between nodes C and B. The calculation of the embedded vector by the calculation unit 14 will be described. Here, for the sake of simplicity, a case of mapping to a two-dimensional vector space will be described.
  • the embedded vector calculation unit 14 arranges each of the nodes and edges included in the graph data in the vector space as an initial value vector, as shown in the middle diagram of FIG. Then, the embedded vector calculation unit 14 optimizes the arrangement of each vector so as to express the connection relationship of the nodes.
  • the vector A + the vector r is close to the vector B
  • the vector C + the vector r is close to the vector B.
  • the optimized vector becomes the embedded vector of the node indicated by the vector.
  • the embedded vector calculation unit 14 calculates the embedded vector for each node included in the overall graph data by the calculation method as described above.
  • the training data generation unit 16 generates training data to be used for machine learning of a machine learning model by using the embedding vector calculated by the embedding vector calculation unit 14 and the correct answer label generated from the side effect information. Specifically, the training data generation unit 16 concatenates the vector values of the embedded vectors calculated for each node connected to each node of the "ID" included in the overall graph data to generate the identity. .. Then, the training data generation unit 16 indicates a correct label indicating "TRUE" when the target side effect has occurred, and "FALSE" when the target side effect has not occurred, based on the information on the side effect. Generate a correct label and add it to the identity to generate training data.
  • FIG. 7 shows an example of training data.
  • the predisposition is the concatenation of the embedded vectors of the nodes of the case graph data (hereinafter referred to as “case data identity”).
  • case data identity the identity that concatenate the embedded vectors of the drug ontology nodes
  • disease identities the identities that concatenate the embedded vectors of the disease ontology nodes
  • the embedded vector of the node (node indicating the item "drug” and “disease” of the case data) common to the case graph data and the ontology is used for both the identity of the case data and the identity of the drug or the identity of the disease.
  • node indicating the item "drug” and “disease” of the case data
  • the embedded vector of the node common to the case graph data and the ontology is used for both the identity of the case data and the identity of the drug or the identity of the disease.
  • the machine learning unit 18 updates the parameters of the machine learning model 20 configured by, for example, a neural network, using the training data generated by the training data generation unit 16.
  • FIG. 8 schematically shows the network configuration of the machine learning model 20.
  • the machine learning model 20 includes a first hidden layer, a second hidden layer, a third hidden layer, and a fourth hidden layer.
  • the identity of the case data is input to the first hidden layer
  • the identity of the drug is input to the second hidden layer
  • the identity of the disease is input to the third hidden layer.
  • the output from each of the first hidden layer, the second hidden layer, and the third hidden layer and all the identities included in the training data are input to the fourth hidden layer.
  • the machine learning model 20 outputs the probability that the side effect of the target occurs based on the output from the fourth hidden layer.
  • the machine learning unit 18 updates the parameters of the machine learning model 20 of the network configuration as described above so as to minimize the value LOSS of the loss function shown below.
  • G (A, B) is a loss function of A and B, for example, a function for calculating a square sum error, a cross entropy error, and the like.
  • Label is a function that returns 1 when the correct label is TRUE and 0 when the correct label is FALSE.
  • Output is an output value when the input of the training data is input to the machine learning model 20.
  • T is a vector consisting of the features of the case data among the features included in the training data.
  • O1 is a vector consisting of the features of the drug among the features included in the training data.
  • O2 is a vector consisting of disease features among the features included in the training data.
  • f1 is an activation function corresponding to the first hidden layer
  • f2 is an activation function corresponding to the second hidden layer
  • f3 is an activation function corresponding to the third hidden layer.
  • This activation function is, for example, ReLU (Rectified Linear Unit). That is, f1 (T) is the value of the activation function calculated only by the embedded vector of the node of the case graph data among the input training data. Further, f2 (O1) is the value of the activation function calculated only by the embedded vector of the node of the drug ontology in the input training data. Further, f3 (O2) is the value of the activation function calculated only by the embedded vector of the node of the disease ontology in the input training data.
  • ReLU Rectified Linear Unit
  • f4 is an activation function corresponding to the fourth hidden layer, and is, for example, a sigmoid function. That is, f4 (T, O1, O2, f1 (T), f2 (O1), f3 (O2)) is active in a vector that combines all the identities and the outputs from each of the first to third hidden layers. It is the value to which the conversion function is applied.
  • the machine learning unit 18 reaches the predetermined number of repetitions of machine learning when the value LOSS of the above loss function is equal to or less than a predetermined threshold value and when the difference from the previously calculated LOSS is equal to or less than a predetermined value. In such cases, it is determined that the value LOSS of the loss function has been minimized. When the machine learning unit 18 determines that the value LOSS of the loss function is minimized, the machine learning is terminated, and the machine learning model 20 including the network configuration information and the parameter values at the time when the machine learning is completed is output. do.
  • the estimation device 30 is input with estimation target case data and ontology, which are case data whose correct answer is unknown, which are targets for estimating side effects.
  • the estimation target case data is case data excluding the item of "side effect" from the case data for machine learning.
  • the estimation device 30 includes a graph generation unit 32, an embedded vector calculation unit 34, and an estimation unit 36, as shown in FIG. Further, the machine learning model 20 output from the machine learning device 10 is stored in a predetermined storage area of the estimation device 30.
  • the graph generation unit 32 is the same as the graph generation unit 12 of the machine learning device 10 except that the data that is the source of generating the graph data is not the machine learning case data but the estimation target case data. Further, the embedded vector calculation unit 34 is also the same as the embedded vector calculation unit 14 of the machine learning device 10.
  • the estimation unit 36 has a vector value of an embedded vector calculated by the embedded vector calculation unit 34 for each node of "ID" included in the whole graph data generated by the graph generation unit 32 and for each node connected to the node. To generate a node by concatenating.
  • the generated traits include each of the traits of the case data, the traits of the drug, and the traits of the disease, as well as the traits included in the training data generated by the training data generation unit 16 of the machine learning device 10.
  • the estimation unit 36 outputs an estimation result indicating whether or not a side effect of the target occurs for the estimation target case data. For example, as shown in FIG.
  • the estimation unit 36 inputs the identities generated from the estimation target case data for each patient whose “ID” is C and D into the machine learning model 20, and side effects of the target occur. Get the probability.
  • the estimation unit 36 outputs TRUE when the acquired probability is equal to or higher than a predetermined value, and outputs FALSE when the acquired probability is less than a predetermined value.
  • the estimation unit 36 may output the probability output from the machine learning model 20 as it is as an estimation result.
  • the machine learning device 10 can be realized by, for example, the computer 40 shown in FIG.
  • the computer 40 includes a CPU (Central Processing Unit) 41, a memory 42 as a temporary storage area, and a non-volatile storage unit 43. Further, the computer 40 includes an input / output device 44 such as an input unit and a display unit, and an R / W (Read / Write) unit 45 that controls reading and writing of data to the storage medium 49. Further, the computer 40 includes a communication I / F (Interface) 46 connected to a network such as the Internet.
  • the CPU 41, the memory 42, the storage unit 43, the input / output device 44, the R / W unit 45, and the communication I / F 46 are connected to each other via the bus 47.
  • the storage unit 43 can be realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a flash memory, or the like.
  • a machine learning program 50 for making the computer 40 function as a machine learning device 10 is stored in the storage unit 43 as a storage medium.
  • the machine learning program 50 includes a graph generation process 52, an embedded vector calculation process 54, a training data generation process 56, and a machine learning process 58.
  • the CPU 41 reads the machine learning program 50 from the storage unit 43, expands it into the memory 42, and sequentially executes the processes of the machine learning program 50.
  • the CPU 41 operates as the graph generation unit 12 shown in FIG. 1 by executing the graph generation process 52. Further, the CPU 41 operates as the embedded vector calculation unit 14 shown in FIG. 1 by executing the embedded vector calculation process 54. Further, the CPU 41 operates as the training data generation unit 16 shown in FIG. 1 by executing the training data generation process 56. Further, the CPU 41 operates as the machine learning unit 18 shown in FIG. 1 by executing the machine learning process 58.
  • the computer 40 that has executed the machine learning program 50 functions as the machine learning device 10.
  • the CPU 41 that executes the program is hardware.
  • the estimation device 30 can be realized by, for example, the computer 60 shown in FIG.
  • the computer 60 includes a CPU 61, a memory 62, a storage unit 63, an input / output device 64, an R / W unit 65, and a communication I / F 66.
  • the CPU 61, the memory 62, the storage unit 63, the input / output device 64, the R / W unit 65, and the communication I / F 66 are connected to each other via the bus 67.
  • the storage unit 63 can be realized by an HDD, SSD, flash memory, or the like.
  • the storage unit 63 as a storage medium stores an estimation program 70 for causing the computer 60 to function as the estimation device 30.
  • the estimation program 70 includes a graph generation process 72, an embedded vector calculation process 74, and an estimation process 76. Further, the storage unit 63 has an information storage area 80 in which information constituting the machine learning model 20 that has been machine-learned is stored.
  • the CPU 61 reads the estimation program 70 from the storage unit 63, expands the estimation program 70 into the memory 62, and sequentially executes the processes of the estimation program 70.
  • the CPU 61 operates as the graph generation unit 32 shown in FIG. 9 by executing the graph generation process 72. Further, the CPU 61 operates as the embedded vector calculation unit 34 shown in FIG. 9 by executing the embedded vector calculation process 74. Further, the CPU 61 operates as the estimation unit 36 shown in FIG. 9 by executing the estimation process 76. Further, the CPU 61 reads information from the information storage area 80 and expands the machine learning model 20 into the memory 62. As a result, the computer 60 that has executed the estimation program 70 functions as the estimation device 30.
  • the CPU 61 that executes the program is hardware.
  • each of the machine learning program 50 and the estimation program 70 can also be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC (Application Specific Integrated Circuit) or the like.
  • a semiconductor integrated circuit more specifically, an ASIC (Application Specific Integrated Circuit) or the like.
  • the machine learning device 10 executes the machine learning process shown in FIG. Then, the machine learning model 20 machine-learned by executing the machine learning process is output from the machine learning device 10.
  • the estimation device 30 acquires the machine learning model 20 output from the machine learning device 10 and stores it in a predetermined storage area, and the estimation target case data and the ontology are input to the estimation device 30, the estimation device 30 Will execute the estimation process shown in FIG.
  • the machine learning process is an example of the machine learning method of the disclosed technique
  • the estimation process is an example of the estimation method of the disclosed technique.
  • each of the machine learning process and the estimation process will be described in detail.
  • step S10 the graph generation unit 12 generates each value of each item of the machine learning case data as a node. Then, the graph generation unit 12 generates case graph data by connecting an edge from each "ID" node to a node indicating each of the attributes, medicines, and diseases of the patient indicated by the ID.
  • step S12 the graph generation unit 12 searches for a node matching the node indicating “drug” and “disease” included in the case graph data from the drug ontology and the disease ontology, and the searched node and its node. Extract the part that connects to. Then, the graph generation unit 12 connects the portion extracted from the ontology to the case graph data so as to superimpose the nodes indicating the matching "pharmaceutical products" or "diseases", and generates the whole graph data.
  • step S14 the embedded vector calculation unit 14 arranges each of the nodes and edges included in the overall graph data in an n-dimensional vector space as an initial value vector. Then, the embedded vector calculation unit 14 calculates the embedded vector of each node included in the overall graph data by optimizing the arrangement of each vector so as to express the connection relationship of the nodes. Therefore, the embedded vector of each node of the case graph data and the embedded vector of each node of the ontology are calculated.
  • step S16 the training data generation unit 16 concatenates the vector values of the embedded vectors calculated for each node connected to the node for each node of the "ID" included in the overall graph data, and determines the identity. Generate. Then, the training data generation unit 16 generates a correct label for the target side effect based on the side effect information, and adds the training data to the identity to generate the training data.
  • step S18 the machine learning unit 18 uses the training data generated in step S16 to update the parameters of the machine learning model 20 so as to minimize the value LOSS of the loss function described above.
  • the machine learning unit 18 determines that the value LOSS of the loss function is minimized, the machine learning is terminated, and the machine learning model 20 including the network configuration information and the parameter values at the time when the machine learning is completed is output. Then, the machine learning process ends.
  • step S20 the graph generation unit 32 generates case graph data from the estimation target case data.
  • step S22 the graph generation unit 32 connects the ontology to the case graph data and generates the entire graph data.
  • step S24 the embedded vector calculation unit 34 calculates the embedded vector of each node of the case graph data and the ontology from the whole graph data.
  • step S26 the estimation unit 36 concatenates the vector values of the embedded vectors calculated for each node connected to each node of the "ID" included in the overall graph data to generate an identity. ..
  • step S28 the estimation unit 36 inputs the characteristics generated in step S26 into the machine learning model 20 to obtain an estimation result indicating whether or not a side effect of the target occurs for the estimation target case data. It is output and the estimation process is completed.
  • the machine learning device inputs training data including an embedding vector of case graph data, an ontology embedding vector, and a correct answer label. Then, the machine learning device executes machine learning of the machine learning model based on the loss function.
  • the value of the loss function is obtained by combining the value of the activation function calculated only by the embedded vector of the case graph data and the value of the activation function calculated only by the embedded vector of the ontology among the input training data. It is calculated by the obtained value and the correct answer label.
  • the machine learning device according to the first embodiment can train the machine learning model in which the information of the case data and the information of the ontology are grouped and transmitted. Therefore, the machine learning device according to the first embodiment can appropriately reflect the information of the ontology and train the machine learning model so as to improve the estimation accuracy of the event.
  • the estimation device estimates using the machine learning model machine-learned as described above and the embedded vector calculated from the estimation target case graph data and the ontology. Estimate the event for the target case. This improves the estimation accuracy of the event.
  • the machine learning system includes a machine learning device 210 and an estimation device 230.
  • the machine learning device 210 will be described. Functionally, as shown in FIG. 1, the machine learning device 210 includes a graph generation unit 12, an embedded vector calculation unit 214, a training data generation unit 16, and a machine learning unit 18.
  • the embedded vector calculation unit 214 first calculates the embedded vector for the node of the ontology in the whole graph data in which the ontology is connected to the case graph data. For example, the embedded vector calculation unit 214 calculates the embedded vector of the node of the drug ontology (the node shown by the solid line in FIG. 15) as shown in FIG. Further, as shown in FIG. 16, the embedded vector calculation unit 214 calculates the embedded vector of the disease ontology node (the node shown by the solid line in FIG. 16). Then, as shown in FIG. 17, the embedded vector calculation unit 214 uses the embedded vector of the ontology node as an initial value (broken line portion in FIG. 17), and the node of the case graph data (node shown by the solid line in FIG. 16). Calculate the embedded vector of.
  • the embedded vector of the ontology accurately reflects the meaning of the connection between the nodes. Since the embedded vector can be calculated more accurately as the initial value is appropriately given, the embedded vector of the case graph data can be calculated accurately by using the embedded vector of the ontology as the initial value.
  • the estimation device 230 includes a graph generation unit 32, an embedded vector calculation unit 234, and an estimation unit 36, as shown in FIG. Further, the machine learning model 20 output from the machine learning device 210 is stored in the predetermined storage area of the estimation device 230.
  • the embedded vector calculation unit 234 first calculates the embedded vector of the ontology, and calculates the embedded vector of the case graph data using this as the initial value, similarly to the embedded vector calculation unit 214 of the machine learning device 210.
  • the machine learning device 210 can be realized by, for example, the computer 40 shown in FIG.
  • the storage unit 43 of the computer 40 stores a machine learning program 250 for making the computer 40 function as a machine learning device 210.
  • the machine learning program 250 has a graph generation process 52, an embedded vector calculation process 254, a training data generation process 56, and a machine learning process 58.
  • the CPU 41 reads the machine learning program 250 from the storage unit 43, expands it into the memory 42, and sequentially executes the processes of the machine learning program 250.
  • the CPU 41 operates as the embedded vector calculation unit 214 shown in FIG. 1 by executing the embedded vector calculation process 254. Other processes are the same as the machine learning program 50 according to the first embodiment.
  • the computer 40 that has executed the machine learning program 250 functions as the machine learning device 210.
  • the estimation device 230 can be realized by, for example, the computer 60 shown in FIG.
  • the storage unit 63 of the computer 60 stores an estimation program 270 for causing the computer 60 to function as the estimation device 230.
  • the estimation program 270 includes a graph generation process 72, an embedded vector calculation process 274, and an estimation process 76.
  • the storage unit 63 has an information storage area 80 in which information constituting the machine learning model 20 that has been machine-learned is stored.
  • the CPU 61 reads the estimation program 270 from the storage unit 63, expands the estimation program 270 into the memory 62, and sequentially executes the processes of the estimation program 270.
  • the CPU 61 operates as the embedded vector calculation unit 234 shown in FIG. 9 by executing the embedded vector calculation process 274. Other processes are the same as those of the estimation program 70 according to the first embodiment.
  • the computer 60 that has executed the estimation program 270 functions as the estimation device 230.
  • each of the machine learning program 250 and the estimation program 270 can also be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC or the like.
  • step S14 of the machine learning process shown in FIG. 13 and step S24 of the estimation process shown in FIG. 14 is the same as that of the first embodiment as described above. Since it is only different, the description is omitted.
  • the machine learning device first calculates the embedded vector of the ontology, and uses this as the initial value to calculate the embedded vector of the case graph data.
  • the embedded vector can be calculated with high accuracy, and the machine learning model can be trained to improve the estimation accuracy of the event. Further, in the estimation device according to the second embodiment, the estimation accuracy of the event is improved.
  • the drug predisposition and the disease predisposition may be generated from the node embedding vector common to the case graph data and the ontology. That is, in the example of FIG. 17, the identity of the case data is generated from the embedded graph of the node of the case graph data shown by the solid line, and the identity of the drug and the identity of the disease are generated from the embedded graph of the node surrounded by the broken line. You may do so.
  • the embedded vector of the case graph data is calculated with the embedded vector of the ontology as the initial value, the information of the ontology is reflected. Further, since the amount of feature information can be reduced, the load of machine learning processing and estimation processing is reduced. Further, in this case, the embedded vector of the ontology calculated without connecting the ontology to the case graph data may be given as the initial value of the embedded vector of the case graph data.
  • the ontology embedding vector in this case may be calculated for the identified ontology portion by identifying the ontology portion including the node corresponding to the node indicating the drug and disease in the case graph data.
  • the disclosed technique is applied when estimating the side effect of the administration of the drug to the patient, but the disclosed technique can also be applied to the example of estimating other events. ..
  • the case data includes information such as the chemical substance to be blended and the conditions for blending (temperature, catalyst, etc.), and information on chemical substances having similar properties such as the same melting point of substance A and substance B. Can be used as an ontology, and the event that occurred during the formulation may be used as the correct label.
  • the ontology to be used may be one type or three or more types.
  • a hidden layer of the machine learning model may be provided corresponding to each type of ontology to be used.
  • machine learning device and the estimation device are configured by separate computers
  • the machine learning device and the estimation device may be configured by one computer.
  • the mode in which the machine learning program and the estimation program are stored (installed) in the storage unit in advance has been described, but the present invention is not limited to this.
  • the program according to the disclosed technique can also be provided in a form stored in a storage medium such as a CD-ROM, a DVD-ROM, or a USB memory.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

機械学習装置は、事例データをグラフ化した事例グラフデータの埋め込みベクトルと、オントロジーの埋め込みベクトルと、正解ラベルとを含む訓練データを機械学習モデルに入力する。機械学習モデルの第1隠れ層からは、事例グラフデータの埋め込みベクトルからなる事例データの素性のみで計算される活性化関数の値が出力され、第2隠れ層からは、医薬品オントロジーの埋め込みベクトルからなる医薬品の素性のみで計算される活性化関数の値が出力され、第3隠れ層からは、疾病オントロジーの埋め込みベクトルからなる疾病の素性のみで計算される活性化関数の値が出力され、機械学習装置は、これらの値と全素性とを結合した値と、正解ラベルとによって計算される損失関数に基づいて、機械学習モデルの機械学習を実行する。

Description

機械学習プログラム、推定プログラム、装置、及び方法
 開示の技術は、機械学習技術に関する。
 従来、過去の事例を訓練データとして機械学習を実行した機械学習モデルを用いて、対象の事象を推定することが行われている。例えば、薬物の間の類似性を計算し、指定薬物の副作用を推定するシステムが提案されている。このシステムは、類似性計算装置と、副作用決定装置とを有する。類似性計算装置は、複数のオープンデータソースから薬物セットに関連するデータを得て、RDF(Resource Description Framework)トリプルを生成し、RDFトリプルのRDFグラフを格納する。類似性計算装置は、RDFトリプルに基づいて薬物毎の特徴ベクトルを生成し、特徴ベクトルを比較することにより、各々の薬物と全ての他の薬物との類似性を計算する。副作用決定装置は、薬物の類似性に基づいて、指定薬物の副作用を推定する。
特開2016-212853号公報
 しかしながら、上述の従来技術のように、特徴ベクトルを比較した医薬品(薬物)の類似性だけでは、副作用の推定精度が十分でない場合がある。例えば、同じ医薬品を投与している患者であっても、患者が罹患している疾病が相違する場合には、副作用の状況が異なる場合があるためである。上記のような状況は、医薬品の類似性で副作用を推定する場合に限らず、過去の事例を訓練データとして機械学習を実行した機械学習モデルを用いて、何らかの事象を推定する場合に起こり得る。
 一つの側面として、開示の技術は、事象の推定精度を向上させるように機械学習モデルを訓練することを目的とする。
 一つの態様として、開示の技術は、グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力する。また、開示の技術は、損失関数に基づいて、機械学習モデルの機械学習を実行する。損失関数は、入力された訓練データのうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される。
 一つの側面として、事象の推定精度を向上させるように機械学習モデルを訓練することができる、という効果を有する。
機械学習装置の機能ブロック図である。 機械学習用事例データの一例を示す図である。 オントロジーの一例を示す図である。 事例グラフデータの生成を説明するための図である。 事例グラフデータへのオントロジーの接続を説明するための図である。 埋め込みベクトルの計算を説明するための図である。 訓練データの一例を示す図である。 機械学習モデルのネットワーク構成を概略的に示す図である。 推定装置の機能ブロック図である。 推定対象事例データ及び推定結果の一例を示す図である。 機械学習装置として機能するコンピュータの概略構成を示すブロック図である。 推定装置として機能するコンピュータの概略構成を示すブロック図である。 機械学習処理の一例を示すフローチャートである。 推定処理の一例を示すフローチャートである。 オントロジーの埋め込みベクトルを初期値として、事例グラフデータの埋め込みベクトルを計算する場合を説明するための図である。 オントロジーの埋め込みベクトルを初期値として、事例グラフデータの埋め込みベクトルを計算する場合を説明するための図である。 オントロジーの埋め込みベクトルを初期値として、事例グラフデータの埋め込みベクトルを計算する場合を説明するための図である。
 以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。なお、以下の各実施形態では、医薬品の投与における、想定以外の作用(以下、「副作用」という)の推定に開示の技術を適用する場合を例に説明する。
 まず、実施形態の詳細を説明する前に、従来技術のように、医薬品の類似性を比較するのみでは精度良く副作用の推定が行えない場合があることを考慮して、過去の事例データに、オントロジーを組み合せた特徴ベクトルを用いる場合を考える。事例データは、患者の属性、投与した医薬品、患者が罹患している疾病等の情報を含むものとする。また、オントロジーとは、対象の分野における背景知識を体系化したものであり、本実施形態の場合、例えば、疾病の類似性や関係、医薬品の類似性や含まれている成分等の情報を木構造等の形式で整理したものである。疾病が類似する場合や、同じ成分が含まれている医薬品を投与する場合などには、同じような副作用が起こる可能性がある。そこで、上記のようなオントロジーの情報を素性として含む特徴ベクトルを用いることで、このような可能性を推定可能になると考えられる。
 しかし、事例データを示す素性と、オントロジーを示す素性とを並べて特徴ベクトルを生成することが困難な場合がある。例えば、医薬品に含まれる成分を素性として並べることはできるが、木構造の形式で整理された疾病の関係性を素性として利用することは困難である。
 そこで、以下のような方法が考えられる。その方法は、事例データを、ノードとノード間を接続するエッジとで構成されるグラフデータに変換し、このグラフデータに木構造のオントロジーを結合する。そして、その方法は、事例データとオントロジーとが組み合わされたグラフデータから、各ノードを表す埋め込みベクトルを計算する。さらに、その方法は、この埋め込みベクトルから生成される特徴ベクトルを訓練データとして用いて機械学習モデルを訓練する方法である。しかし、この方法の場合、特徴ベクトルに含まれる事例データに関する情報とオントロジーに関する情報との扱いに区別がなく、オントロジーの情報を、事象(ここでは、副作用)の推定に適切に反映することができない場合がある。そこで、以下の各実施形態では、オントロジーの情報が適切に機械学習モデルの機械学習に反映されるようにする。以下、各実施形態について詳述する。
<第1実施形態>
 第1実施形態に係る機械学習システムは、機械学習装置10と、推定装置30とを含む。まず、機械学習装置10について説明する。図1に示すように、機械学習装置10には、機械学習用事例データ及びオントロジーが入力される。機械学習用事例データは、患者の属性、投与した医薬品、患者が罹患している疾病等の情報、及び、副作用の情報を含むデータである。図2に、機械学習用事例データの一例を示す。図2の例では、患者毎に、「ID」、「性別」、「年代」、「体重」、「身長」、「医薬品」、「疾病」、及び「副作用」の情報が含まれている。「ID」は、患者の識別情報である。「性別」、「年代」、「体重」、及び「身長」は、患者の属性の一例である。「医薬品」は、患者に投与された医薬品の名称である。「疾病」は、患者が罹患している原疾病の名称である。「副作用」は、「医薬品」に示す医薬品を投与した際に発生した副作用の情報である。
 図3に、オントロジーの一例を示す。本実施形態では、医薬品に関するオントロジー(以下、「医薬品オントロジー」という)、及び疾病に関するオントロジー(以下、「疾病オントロジー」という)を用いる場合について説明する。図3に示すように、医薬品オントロジーは、医薬品を示すノード(中に医薬品名が表記された丸)と、背景知識を示すノード(中に背景知識が表記された楕円)と、関連するノード間を接続したエッジ(矢印)とを含む木構造の情報である。エッジには、医薬品と背景知識とがどのように関連するかを示す関連情報が対応付けられている場合がある。例えば、重症感染症の患者への投与が禁止される医薬品については、その医薬品を示すノードと、重症感染症を示すノードとがエッジで接続され、投与を禁止する関連情報(図3では「禁忌」と表記)が付与される。
 疾病オントロジーも同様に、疾病を示すノード(中に疾病名が表記された丸)と、背景知識を示すノード(中に背景知識が表記された楕円)と、関連するノード間を接続したエッジ(矢印)を含む木構造の情報である。例えば、アルコール摂取という疾病が精神疾患に分類される場合、アルコール摂取を示すノードと、精神疾患を示すノードとがエッジで接続され、例えば「分類」という関連情報がエッジに付与される。
 機械学習装置10は、機能的には、図1に示すように、グラフ生成部12と、埋め込みベクトル計算部14と、訓練データ生成部16と、機械学習部18とを含む。
 グラフ生成部12は、機械学習装置10に入力された機械学習用事例データを取得し、取得した機械学習用事例データから、ノードとノード間を接続するエッジとで構成されるグラフデータを生成する。例えば、グラフ生成部12は、図4に示すように、機械学習用事例データに含まれる副作用以外の各項目の各値をノードとして生成する。図4において、中に各値が表記された丸で示すノードは、属性、医薬品、及び疾病の各々を示すノードである。そして、グラフ生成部12は、各「ID」のノードから、そのIDが示す患者についての属性、医薬品、及び疾病の各々を示すノードへエッジを接続する。なお、図4では、各事例データと副作用との関係を明確にするため、副作用を示すノード(中に副作用が表記された角丸の四角で示すノード)、及び「ID」のノードと副作用を示すノードとを接続するエッジも表記している。また、グラフデータの生成方法は上記の例に限定されず、他の方法を採用してもよい。以下、事例データから生成したグラフデータを「事例グラフデータ」という。なお、以下の説明では、事例グラフデータには、副作用を示すノードは含まれない。
 また、グラフ生成部12は、機械学習用事例データに基づく事例グラフデータにオントロジーを接続したグラフデータを生成する。具体的には、グラフ生成部12は、事例グラフデータとオントロジーとで一致するノードを共通化することで、事例グラフデータとオントロジーとを接続させる。例えば、グラフ生成部12は、事例グラフデータに含まれる「医薬品」及び「疾病」を示すノードと一致するノードを、医薬品オントロジー及び疾病オントロジーから検索し、検索したノード及びそのノードに接続する部分を抽出する。そして、グラフ生成部12は、図5の破線で示す部分のように、オントロジーから抽出した部分を、一致する「医薬品」又は「疾病」を示すノードを重ね合わせるように、事例グラフデータに接続する。以下では、事例グラフデータにオントロジーから抽出した部分を接続したグラフデータを「全体グラフデータ」という。
 埋め込みベクトル計算部14は、全体グラフデータに基づいて、全体グラフデータに含まれる各ノードを表現する埋め込みベクトルを計算する。具体的には、埋め込みベクトル計算部14は、全体グラフデータに含まれるノード及びエッジの各々をn次元のベクトル空間に写像することにより埋め込みベクトルを計算する。より具体的に、図6上段の図に示すように、ノードA、B、C、ノードA-B間のエッジr、及びノードC-B間のエッジrを含むグラフデータを例に、埋め込みベクトル計算部14による埋め込みベクトルの計算について説明する。ここでは、説明を簡単にするため、2次元のベクトル空間に写像する場合について説明する。
 まず、埋め込みベクトル計算部14は、図6中段の図に示すように、グラフデータに含まれるノード及びエッジの各々を、初期値のベクトルとしてベクトル空間に配置する。そして、埋め込みベクトル計算部14は、ノードの接続関係を表現するように、各ベクトルの配置を最適化する。図6の例では、埋め込みベクトル計算部14は、図6下段の図に示すように、ベクトルA+ベクトルrがベクトルBに近くなるように、かつ、ベクトルC+ベクトルrがベクトルBに近くなるように、各ベクトルの配置を最適化する。最適化後のベクトルが、そのベクトルが示すノードの埋め込みベクトルとなる。埋め込みベクトル計算部14は、上記のような計算方法により、全体グラフデータに含まれる各ノードについての埋め込みベクトルを計算する。
 訓練データ生成部16は、埋め込みベクトル計算部14により計算された埋め込みベクトルと、副作用の情報から生成した正解ラベルとを用いて、機械学習モデルの機械学習に用いる訓練データを生成する。具体的には、訓練データ生成部16は、全体グラフデータに含まれる「ID」のノード毎に、そのノードに接続する各ノードについて計算された埋め込みベクトルのベクトル値を連結して素性を生成する。そして、訓練データ生成部16は、副作用の情報に基づいて、対象の副作用が生じている場合には「TRUE」を示す正解ラベル、対象の副作用が生じていない場合には、「FALSE」を示す正解ラベルを生成し、素性に付加して訓練データを生成する。
 図7に、訓練データの一例を示す。図7に示すように、各ノードについての埋め込みベクトルのベクトル値を連結しているため、素性には、事例グラフデータのノードの埋め込みベクトルを連結した素性(以下、「事例データの素性」という)が含まれる。また、素性には、医薬品オントロジーのノードの埋め込みベクトルを連結した素性(以下、「医薬品の素性」という)、及び疾病オントロジーのノードの埋め込みベクトルを連結した素性(以下、「疾病の素性」という)が含まれることになる。なお、事例グラフデータとオントロジーとで共通するノード(事例データの項目「医薬品」及び「疾病」を示すノード)の埋め込みベクトルは、事例データの素性と、医薬品の素性又は疾病の素性との両方に含まれている。また、図7の例では、対象の副作用を「静脈閉塞」とした場合を示している。
 機械学習部18は、訓練データ生成部16で生成された訓練データを用いて、例えばニューラルネットワーク等で構成される機械学習モデル20のパラメータを更新する。ここで、図8に、機械学習モデル20のネットワーク構成を概略的に示す。図8に示すように、機械学習モデル20は、第1隠れ層、第2隠れ層、第3隠れ層、及び第4隠れ層を含む。第1隠れ層には、訓練データのうち、事例データの素性が入力され、第2隠れ層には、医薬品の素性が入力され、第3隠れ層には、疾病の素性が入力される。第4隠れ層には、第1隠れ層、第2隠れ層、及び第3隠れ層の各々からの出力と、訓練データに含まれる全ての素性とが入力される。そして、機械学習モデル20は、第4隠れ層からの出力に基づいて、対象の副作用が生じる確率を出力する。
 機械学習部18は、上記のようなネットワーク構成の機械学習モデル20のパラメータを、下記に示す損失関数の値LOSSを最小化するように更新する。
LOSS=g(Label,Output)
Output
=f4(T,O1,O2,f1(T),f2(O1),f3(O2))
 g(A,B)は、AとBとの損失関数であり、例えば、2乗和誤差や交差エントロピー誤差等を算出する関数である。Labelは、正解ラベルがTRUEの場合には1、FALSEの場合には0を返す関数である。Outputは、機械学習モデル20に訓練データの素性を入力した際の出力値である。Tは、訓練データに含まれる素性のうち、事例データの素性からなるベクトルである。O1は、訓練データに含まれる素性のうち、医薬品の素性からなるベクトルである。O2は、訓練データに含まれる素性のうち、疾病の素性からなるベクトルである。f1は、第1隠れ層に相当する活性化関数、f2は、第2隠れ層に相当する活性化関数、f3は、第3隠れ層に相当する活性化関数である。この活性化関数は、例えば、ReLU(Rectified Linear Unit)である。すなわち、f1(T)は、入力された訓練データのうち、事例グラフデータのノードの埋め込みベクトルのみで計算される活性化関数の値である。また、f2(O1)は、入力された訓練データのうち、医薬品オントロジーのノードの埋め込みベクトルのみで計算される活性化関数の値である。また、f3(O2)は、入力された訓練データのうち、疾病オントロジーのノードの埋め込みベクトルのみで計算される活性化関数の値である。f4は、第4隠れ層に相当する活性化関数であり、例えば、シグモイド関数である。すなわち、f4(T,O1,O2,f1(T),f2(O1),f3(O2))は、全ての素性、及び第1~第3隠れ層の各々からの出力を結合したベクトルに活性化関数を適用した値である。
 機械学習部18は、上記の損失関数の値LOSSが所定の閾値以下となった場合、前回算出されたLOSSとの差が所定値以下となった場合、機械学習の繰り返し数が所定回数に到達した場合等の場合に、損失関数の値LOSSが最小化したと判断する。機械学習部18は、損失関数の値LOSSが最小化したと判断すると、機械学習を終了し、ネットワーク構成の情報、及び機械学習が終了した時点でのパラメータの値を含む機械学習モデル20を出力する。
 次に、推定装置30について説明する。図9に示すように、推定装置30には、副作用を推定する対象となる、正解が未知の事例データである推定対象事例データ及びオントロジーが入力される。推定対象事例データは、機械学習用事例データから「副作用」の項目を除いた事例データである。
 推定装置30は、機能的には、図9に示すように、グラフ生成部32と、埋め込みベクトル計算部34と、推定部36とを含む。また、推定装置30の所定の記憶領域には、機械学習装置10から出力された機械学習モデル20が記憶される。
 グラフ生成部32は、グラフデータを生成する元となるデータが、機械学習用事例データではなく推定対象事例データである点を除いて、機械学習装置10のグラフ生成部12と同様である。また、埋め込みベクトル計算部34も、機械学習装置10の埋め込みベクトル計算部14と同様である。
 推定部36は、グラフ生成部32により生成された全体グラフデータに含まれる「ID」のノード毎に、そのノードに接続する各ノードについて、埋め込みベクトル計算部34で計算された埋め込みベクトルのベクトル値を連結して素性を生成する。生成される素性には、機械学習装置10の訓練データ生成部16で生成される訓練データに含まれる素性と同様に、事例データの素性、医薬品の素性、及び疾病の素性の各々が含まれる。推定部36は、生成した素性を機械学習モデル20に入力することにより、推定対象事例データについて、対象の副作用が発生するか否かを示す推定結果を出力する。例えば、推定部36は、図10に示すように、「ID」がC及びDの各々の患者についての推定対象事例データから生成した素性を機械学習モデル20に入力し、対象の副作用が発生する確率を取得する。推定部36は、取得した確率が所定値以上の場合には、TRUEを出力し、取得した確率が所定値未満の場合には、FALSEを出力する。なお、推定部36は、機械学習モデル20から出力される確率をそのまま推定結果として出力してもよい。
 機械学習装置10は、例えば図11に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
 記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、機械学習装置10として機能させるための機械学習プログラム50が記憶される。機械学習プログラム50は、グラフ生成プロセス52と、埋め込みベクトル計算プロセス54と、訓練データ生成プロセス56と、機械学習プロセス58とを有する。
 CPU41は、機械学習プログラム50を記憶部43から読み出してメモリ42に展開し、機械学習プログラム50が有するプロセスを順次実行する。CPU41は、グラフ生成プロセス52を実行することで、図1に示すグラフ生成部12として動作する。また、CPU41は、埋め込みベクトル計算プロセス54を実行することで、図1に示す埋め込みベクトル計算部14として動作する。また、CPU41は、訓練データ生成プロセス56を実行することで、図1に示す訓練データ生成部16として動作する。また、CPU41は、機械学習プロセス58を実行することで、図1に示す機械学習部18として動作する。これにより、機械学習プログラム50を実行したコンピュータ40が、機械学習装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
 推定装置30は、例えば図12に示すコンピュータ60で実現することができる。コンピュータ60は、CPU61と、メモリ62と、記憶部63と、入出力装置64と、R/W部65と、通信I/F66とを備える。CPU61、メモリ62、記憶部63、入出力装置64、R/W部65、及び通信I/F66は、バス67を介して互いに接続される。
 記憶部63は、HDD、SSD、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部63には、コンピュータ60を、推定装置30として機能させるための推定プログラム70が記憶される。推定プログラム70は、グラフ生成プロセス72と、埋め込みベクトル計算プロセス74と、推定プロセス76とを有する。また、記憶部63は、機械学習済みの機械学習モデル20を構成する情報が記憶される情報記憶領域80を有する。
 CPU61は、推定プログラム70を記憶部63から読み出してメモリ62に展開し、推定プログラム70が有するプロセスを順次実行する。CPU61は、グラフ生成プロセス72を実行することで、図9に示すグラフ生成部32として動作する。また、CPU61は、埋め込みベクトル計算プロセス74を実行することで、図9に示す埋め込みベクトル計算部34として動作する。また、CPU61は、推定プロセス76を実行することで、図9に示す推定部36として動作する。また、CPU61は、情報記憶領域80から情報を読み出して、機械学習モデル20をメモリ62に展開する。これにより、推定プログラム70を実行したコンピュータ60が、推定装置30として機能することになる。なお、プログラムを実行するCPU61はハードウェアである。
 なお、機械学習プログラム50及び推定プログラム70の各々により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
 次に、第1実施形態に係る機械学習システムの作用について説明する。まず、機械学習装置10に機械学習用事例データ及びオントロジーが入力されると、機械学習装置10が、図13に示す機械学習処理を実行する。そして、機械学習処理の実行により機械学習された機械学習モデル20が機械学習装置10から出力される。推定装置30が、機械学習装置10から出力された機械学習モデル20を取得し、所定の記憶領域に記憶した状態で、推定装置30に推定対象事例データ及びオントロジーが入力されると、推定装置30が、図14に示す推定処理を実行する。なお、機械学習処理は、開示の技術の機械学習方法の一例であり、推定処理は、開示の技術の推定方法の一例である。以下、機械学習処理及び推定処理の各々について詳述する。
 まず、図13に示す機械学習処理について説明する。ステップS10で、グラフ生成部12が、機械学習用事例データの各項目の各値をノードとして生成する。そして、グラフ生成部12が、各「ID」のノードから、そのIDが示す患者についての属性、医薬品、及び疾病の各々を示すノードへエッジを接続することにより、事例グラフデータを生成する。
 次に、ステップS12で、グラフ生成部12が、事例グラフデータに含まれる「医薬品」及び「疾病」を示すノードと一致するノードを、医薬品オントロジー及び疾病オントロジーから検索し、検索したノード及びそのノードに接続する部分を抽出する。そして、グラフ生成部12が、オントロジーから抽出した部分を、一致する「医薬品」又は「疾病」を示すノードを重ね合わせるように、事例グラフデータに接続し、全体グラフデータを生成する。
 次に、ステップS14で、埋め込みベクトル計算部14が、全体グラフデータに含まれるノード及びエッジの各々を、初期値のベクトルとしてn次元のベクトル空間に配置する。そして、埋め込みベクトル計算部14が、ノードの接続関係を表現するように、各ベクトルの配置を最適化することにより、全体グラフデータに含まれる各ノードの埋め込みベクトルを計算する。したがって、事例グラフデータの各ノードの埋め込みベクトルと、オントロジーの各ノードの埋め込みベクトルとが計算される。
 次に、ステップS16で、訓練データ生成部16が、全体グラフデータに含まれる「ID」のノード毎に、そのノードに接続する各ノードについて計算された埋め込みベクトルのベクトル値を連結して素性を生成する。そして、訓練データ生成部16が、副作用の情報に基づいて、対象の副作用についての正解ラベルを生成し、素性に付加して訓練データを生成する。
 次に、ステップS18で、機械学習部18が、上記ステップS16で生成された訓練データを用いて、上述した損失関数の値LOSSを最小化するように、機械学習モデル20のパラメータを更新する。機械学習部18は、損失関数の値LOSSが最小化したと判断すると、機械学習を終了し、ネットワーク構成の情報、及び機械学習が終了した時点でのパラメータの値を含む機械学習モデル20を出力し、機械学習処理は終了する。
 次に、図14に示す推定処理について説明する。ステップS20で、グラフ生成部32が、推定対象事例データから事例グラフデータを生成する。次に、ステップS22で、グラフ生成部32が、事例グラフデータにオントロジーを接続し、全体グラフデータを生成する。次に、ステップS24で、埋め込みベクトル計算部34が、全体グラフデータから、事例グラフデータ及びオントロジーの各ノードの埋め込みベクトルを計算する。次に、ステップS26で、推定部36が、全体グラフデータに含まれる「ID」のノード毎に、そのノードに接続する各ノードについて計算された埋め込みベクトルのベクトル値を連結して素性を生成する。次に、ステップS28で、推定部36が、上記ステップS26で生成した素性を機械学習モデル20に入力することにより、推定対象事例データについて、対象の副作用が発生するか否かを示す推定結果を出力し、推定処理は終了する。
 以上説明したように、第1実施形態に係る機械学習システムによれば、機械学習装置が、事例グラフデータの埋め込みベクトルと、オントロジーの埋め込みベクトルと、正解ラベルとを含む訓練データを入力する。そして、機械学習装置が、損失関数に基づいて、機械学習モデルの機械学習を実行する。損失関数の値は、入力された訓練データのうち事例グラフデータの埋め込みベクトルのみで計算される活性化関数の値と、オントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される。これにより、第1実施形態に係る機械学習装置は、事例データの情報とオントロジーの情報とがグループ化されて伝達される機械学習モデルを訓練することができる。したがって、第1実施形態に係る機械学習装置は、オントロジーの情報を適切に反映させて、事象の推定精度を向上させるように機械学習モデルを訓練することができる。
 また、第1実施形態に係る機械学習システムによれば、推定装置が、上記のように機械学習された機械学習モデルと、推定対象事例グラフデータ及びオントロジーから計算した埋め込みベクトルとを用いて、推定対象事例に対する事象を推定する。これにより、事象の推定精度が向上する。
<第2実施形態>
 次に、第2実施形態について説明する。なお、第2実施形態に係る機械学習システムにおいて、第1実施形態に係る機械学習システムと同様の部分については、同一符号を付して詳細な説明を省略する。
 第2実施形態に係る機械学習システムは、機械学習装置210と、推定装置230とを含む。まず、機械学習装置210について説明する。機械学習装置210は、機能的には、図1に示すように、グラフ生成部12と、埋め込みベクトル計算部214と、訓練データ生成部16と、機械学習部18とを含む。
 埋め込みベクトル計算部214は、まず、事例グラフデータにオントロジーを接続させた全体グラフデータにおいて、オントロジーのノードについて埋め込みベクトルを計算する。例えば、埋め込みベクトル計算部214は、図15に示すように、医薬品オントロジーのノード(図15中の実線で示すノード)の埋め込みベクトルを計算する。また、埋め込みベクトル計算部214は、図16に示すように、疾病オントロジーのノード(図16中の実線で示すノード)の埋め込みベクトルを計算する。そして、埋め込みベクトル計算部214は、図17に示すように、オントロジーのノードの埋め込みベクトルを初期値として(図17中の破線部分)、事例グラフデータのノード(図16中の実線で示すノード)の埋め込みベクトルを計算する。
 オントロジーは、背景知識を体系化したものであるため、オントロジーの埋め込みベクトルは、ノード間の接続が持つ意味が精度良く反映されたものとなる。埋め込みベクトルは、初期値が適切に与えられるほど、精度良く計算することができるため、オントロジーの埋め込みベクトルを初期値として用いることで、事例グラフデータの埋め込みベクトルを精度良く計算することができる。
 推定装置230は、機能的には、図9に示すように、グラフ生成部32と、埋め込みベクトル計算部234と、推定部36とを含む。また、推定装置230の所定の記憶領域には、機械学習装置210から出力された機械学習モデル20が記憶される。埋め込みベクトル計算部234は、機械学習装置210の埋め込みベクトル計算部214と同様に、まず、オントロジーの埋め込みベクトルを計算し、これを初期値として、事例グラフデータの埋め込みベクトルを計算する。
 機械学習装置210は、例えば図11に示すコンピュータ40で実現することができる。コンピュータ40の記憶部43には、コンピュータ40を、機械学習装置210として機能させるための機械学習プログラム250が記憶される。機械学習プログラム250は、グラフ生成プロセス52と、埋め込みベクトル計算プロセス254と、訓練データ生成プロセス56と、機械学習プロセス58とを有する。
 CPU41は、機械学習プログラム250を記憶部43から読み出してメモリ42に展開し、機械学習プログラム250が有するプロセスを順次実行する。CPU41は、埋め込みベクトル計算プロセス254を実行することで、図1に示す埋め込みベクトル計算部214として動作する。他のプロセスについては、第1実施形態に係る機械学習プログラム50と同様である。これにより、機械学習プログラム250を実行したコンピュータ40が、機械学習装置210として機能することになる。
 推定装置230は、例えば図12に示すコンピュータ60で実現することができる。コンピュータ60の記憶部63には、コンピュータ60を、推定装置230として機能させるための推定プログラム270が記憶される。推定プログラム270は、グラフ生成プロセス72と、埋め込みベクトル計算プロセス274と、推定プロセス76とを有する。また、記憶部63は、機械学習済みの機械学習モデル20を構成する情報が記憶される情報記憶領域80を有する。
 CPU61は、推定プログラム270を記憶部63から読み出してメモリ62に展開し、推定プログラム270が有するプロセスを順次実行する。CPU61は、埋め込みベクトル計算プロセス274を実行することで、図9に示す埋め込みベクトル計算部234として動作する。他のプロセスについては、第1実施形態に係る推定プログラム70と同様である。これにより、推定プログラム270を実行したコンピュータ60が、推定装置230として機能することになる。
 なお、機械学習プログラム250及び推定プログラム270の各々により実現される機能は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
 第2実施形態に係る機械学習システムの作用については、図13に示す機械学習処理のステップS14、及び図14に示す推定処理のステップS24における埋め込みベクトルの計算手順が上記の通り第1実施形態と異なるだけであるため、説明を省略する。
 以上説明したように、第2実施形態における機械学習システムによれば、機械学習装置が、まず、オントロジーの埋め込みベクトルを計算し、これを初期値として、事例グラフデータの埋め込みベクトルを計算する。これにより、埋め込みベクトルを精度良く計算することができるため、事象の推定精度を向上させるように機械学習モデルを訓練することができる。また、第2実施形態に係る推定装置においては、事象の推定精度が向上する。
 なお、上記第2実施形態では、オントロジーに含まれるノードの埋め込みベクトルを全て素性として用いる場合について説明したが、これに限定されない。第2実施形態と同様の手順により埋め込みベクトルを計算した上で、医薬品の素性及び疾病の素性は、事例グラフデータとオントロジーとで共通するノードの埋め込みベクトルから生成するようにしてもよい。すなわち、図17の例では、実線で示す事例グラフデータのノードの埋め込みグラフから事例データの素性が生成され、そのうちの破線で囲まれたノードの埋め込みグラフから医薬品の素性及び疾病の素性が生成されるようにしてもよい。この場合でも、オントロジーの埋め込みベクトルを初期値として事例グラフデータの埋め込みベクトルが計算されているため、オントロジーの情報は反映された素性となっている。さらに、素性の情報量を削減することができるため、機械学習処理及び推定処理の負荷が軽減される。また、この場合、事例グラフデータにオントロジーを接続することなく計算したオントロジーの埋め込みベクトルを事例グラフデータの埋め込みベクトルの初期値として与えてもよい。この場合のオントロジーの埋め込みベクトルは、事例グラフデータの医薬品及び疾病を示すノードと一致するノードを含むオントロジーの部分を特定して、特定したオントロジーの部分について計算すればよい。
 また、上記各実施形態では、患者への医薬品の投与に対する副作用を推定する場合に開示の技術を適用する例で説明したが、開示の技術は他の事象を推定する例にも適用可能である。例えば、複数の化学物質を調合する場合に発生する事象を推定する場合等にも適用することができる。この場合、事例データに、調合する化学物質、調合の条件(温度、触媒等)等の情報を含め、物質Aと物質Bとは融点が同一である等、性質が類似する化学物質の情報等をオントロジーとして用い、調合の際に発生した事象を正解ラベルとすればよい。
 また、上記各実施形態では、2種類のオントロジーを用いる場合について説明したが、用いるオントロジーは1種類であってもよいし、3種類以上であってもよい。この場合、用いるオントロジーの種類毎に、機械学習モデルの隠れ層を対応させて設ければよい。
 また、上記各実施形態では、機械学習装置と推定装置とを別々のコンピュータで構成する場合について説明したが、機械学習装置と推定装置とを1つのコンピュータで構成してもよい。
 また、上記各実施形態では、機械学習プログラム及び推定プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
10、210  機械学習装置
12   グラフ生成部
14、214  埋め込みベクトル計算部
16   訓練データ生成部
18   機械学習部
20   機械学習モデル
30、230  推定装置
32   グラフ生成部
34、234  埋め込みベクトル計算部
36   推定部
40、60    コンピュータ
41、61    CPU
42、62    メモリ
43、63    記憶部
49   記憶媒体
50、250  機械学習プログラム
70、270  推定プログラム

Claims (20)

  1.  グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力し、
     入力された訓練データのうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習モデルの機械学習を実行する、
     処理をコンピュータに実行させることを特徴とする機械学習プログラム。
  2.  前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値に用いて、前記グラフデータの埋め込みベクトルを計算する、
     処理をさらに前記コンピュータに実行させることを特徴とする請求項1に記載の機械学習プログラム。
  3.  前記オントロジーの埋め込みベクトルのみで計算される活性化関数の値は、前記共通部分の埋め込みベクトルで計算されることを含む、
     ことを特徴とする請求項2に記載の機械学習プログラム。
  4.  前記グラフデータに前記オントロジーを接続させた全体グラフデータに基づいて、前記グラフデータの埋め込みベクトル、及び前記オントロジーの埋め込みベクトルを計算する、
     処理をさらに前記コンピュータに実行させることを特徴とする請求項1に記載の機械学習プログラム。
  5.  前記グラフデータの埋め込みベクトルを計算する処理は、前記全体グラフデータに基づいて、前記オントロジーの埋め込みベクトルを計算し、前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値に用いて、前記グラフデータの埋め込みベクトルを計算する、
     ことを含むことを特徴とする請求項4に記載の機械学習プログラム。
  6.  前記オントロジーは、前記グラフデータが示す元のデータに関する背景知識を体系化したデータである、
     ことを特徴とする請求項1~請求項5のいずれか1項に記載の機械学習プログラム。
  7.  グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力のうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習が実行された機械学習モデルに、正解が未知の推定対象データを示すグラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルとを入力し、前記推定対象データに関する推定結果を出力する
     処理をコンピュータに実行させることを特徴とする推定プログラム。
  8.  グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力し、
     入力された訓練データのうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習モデルの機械学習を実行する、
     処理を実行する制御部を含むことを特徴とする機械学習装置。
  9.  前記制御部は、前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値として、前記グラフデータの埋め込みベクトルを計算する、
     ことを特徴とする請求項8に記載の機械学習装置。
  10.  前記制御部は、前記オントロジーの埋め込みベクトルのみで計算される活性化関数の値を、前記共通部分の埋め込みベクトルで計算する、
     ことを特徴とする請求項9に記載の機械学習装置。
  11.  前記制御部は、前記グラフデータに前記オントロジーを接続させた全体グラフデータに基づいて、前記グラフデータの埋め込みベクトル、及び前記オントロジーの埋め込みベクトルを計算する、
     ことを特徴とする請求項8に記載の機械学習装置。
  12.  前記制御部は、前記グラフデータの埋め込みベクトルを計算する処理として、前記全体グラフデータに基づいて、前記オントロジーの埋め込みベクトルを計算し、前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値として、前記グラフデータの埋め込みベクトルを計算する、
     ことを特徴とする請求項11に記載の機械学習装置。
  13.  前記オントロジーは、前記グラフデータが示す元のデータに関する背景知識を体系化したデータである、
     ことを特徴とする請求項8~請求項12のいずれか1項に記載の機械学習装置。
  14.  グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力のうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習が実行された機械学習モデルに、正解が未知の推定対象データを示すグラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルとを入力し、前記推定対象データに関する推定結果を出力する
     処理を実行する制御部を含むことを特徴とする推定装置。
  15.  グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力し、
     入力された訓練データのうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習モデルの機械学習を実行する、
     処理をコンピュータに実行させることを特徴とする機械学習方法。
  16.  前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値として、前記グラフデータの埋め込みベクトルを計算する、
     処理をさらに前記コンピュータに実行させることを特徴とする請求項15に記載の機械学習方法。
  17.  前記オントロジーの埋め込みベクトルのみで計算される活性化関数の値は、前記共通部分の埋め込みベクトルで計算されることを含む、
     ことを特徴とする請求項16に記載の機械学習方法。
  18.  前記グラフデータに前記オントロジーを接続させた全体グラフデータに基づいて、前記グラフデータの埋め込みベクトル、及び前記オントロジーの埋め込みベクトルを計算する、
     処理をさらに前記コンピュータに実行させることを特徴とする請求項15に記載の機械学習方法。
  19.  前記グラフデータの埋め込みベクトルを計算する処理は、前記全体グラフデータに基づいて、前記オントロジーの埋め込みベクトルを計算し、前記オントロジーの埋め込みベクトルを、前記グラフデータと前記オントロジーとの共通部分の初期値として、前記グラフデータの埋め込みベクトルを計算する、
     ことを含むことを特徴とする請求項18に記載の機械学習方法。
  20.  グラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルと正解ラベルとを含む訓練データを入力のうちグラフデータの埋め込みベクトルのみで計算される活性化関数の値と、入力された訓練データのうちオントロジーの埋め込みベクトルのみで計算される活性化関数の値とを結合して得られた値と正解ラベルとによって計算される損失関数に基づいて、機械学習が実行された機械学習モデルに、正解が未知の推定対象データを示すグラフデータの埋め込みベクトルとオントロジーの埋め込みベクトルとを入力し、前記推定対象データに関する推定結果を出力する
     処理をコンピュータに実行させることを特徴とする推定方法。
PCT/JP2020/041077 2020-11-02 2020-11-02 機械学習プログラム、推定プログラム、装置、及び方法 WO2022091413A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2020/041077 WO2022091413A1 (ja) 2020-11-02 2020-11-02 機械学習プログラム、推定プログラム、装置、及び方法
JP2022558810A JP7444280B2 (ja) 2020-11-02 2020-11-02 機械学習プログラム、推定プログラム、装置、及び方法
EP20959928.1A EP4239535A4 (en) 2020-11-02 2020-11-02 MACHINE LEARNING PROGRAM, INFERENCE PROGRAM, DEVICE AND METHOD
US18/302,084 US20230259828A1 (en) 2020-11-02 2023-04-18 Storage medium, estimation device, and estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/041077 WO2022091413A1 (ja) 2020-11-02 2020-11-02 機械学習プログラム、推定プログラム、装置、及び方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/302,084 Continuation US20230259828A1 (en) 2020-11-02 2023-04-18 Storage medium, estimation device, and estimation method

Publications (1)

Publication Number Publication Date
WO2022091413A1 true WO2022091413A1 (ja) 2022-05-05

Family

ID=81382205

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041077 WO2022091413A1 (ja) 2020-11-02 2020-11-02 機械学習プログラム、推定プログラム、装置、及び方法

Country Status (4)

Country Link
US (1) US20230259828A1 (ja)
EP (1) EP4239535A4 (ja)
JP (1) JP7444280B2 (ja)
WO (1) WO2022091413A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201280A1 (en) * 2007-02-16 2008-08-21 Huber Martin Medical ontologies for machine learning and decision support
JP2016212853A (ja) 2015-04-30 2016-12-15 富士通株式会社 類似性計算装置、薬の類似性を計算し及び類似性を用いて副作用を推定する副作用決定装置及びシステム
US10157226B1 (en) * 2018-01-16 2018-12-18 Accenture Global Solutions Limited Predicting links in knowledge graphs using ontological knowledge

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6622236B2 (ja) 2017-03-06 2019-12-18 株式会社日立製作所 発想支援装置及び発想支援方法
EP3382584A1 (en) 2017-03-30 2018-10-03 Fujitsu Limited A system and a method to predict patient behaviour
JP2020047209A (ja) 2018-09-21 2020-03-26 沖電気工業株式会社 オントロジー処理装置およびオントロジー処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201280A1 (en) * 2007-02-16 2008-08-21 Huber Martin Medical ontologies for machine learning and decision support
JP2016212853A (ja) 2015-04-30 2016-12-15 富士通株式会社 類似性計算装置、薬の類似性を計算し及び類似性を用いて副作用を推定する副作用決定装置及びシステム
US10157226B1 (en) * 2018-01-16 2018-12-18 Accenture Global Solutions Limited Predicting links in knowledge graphs using ontological knowledge

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOBAYASHI, KENJI ET AL.: "Biomedical Literature Curation System For Evidence-Based Medicine", IPSJ SIG TECHNICAL REPORTS, vol. 2, no. 2019-GN-107, JP , pages 1 - 8, XP009537320, ISSN: 2188-8744 *
See also references of EP4239535A4

Also Published As

Publication number Publication date
JPWO2022091413A1 (ja) 2022-05-05
US20230259828A1 (en) 2023-08-17
EP4239535A4 (en) 2023-12-20
JP7444280B2 (ja) 2024-03-06
EP4239535A1 (en) 2023-09-06

Similar Documents

Publication Publication Date Title
Hernandez et al. Synthetic data generation for tabular health records: A systematic review
Van der Laan et al. Targeted learning in data science
US10360405B2 (en) Anonymization apparatus, and program
CN112424748B (zh) 源代码文件推荐通知
CN113012770B (zh) 基于多模态深度神经网络药物-药物相互作用事件预测
Steingrimsson et al. Deep learning for survival outcomes
US10902943B2 (en) Predicting interactions between drugs and foods
WO2016132588A1 (ja) データ分析装置、データ分析方法、およびデータ分析プログラム
Chen et al. New multivariate tests for assessing covariate balance in matched observational studies
Rahman et al. Imputation of missing values in time series with lagged correlations
Bruckers et al. Clustering multiply imputed multivariate high‐dimensional longitudinal profiles
Upadhyaya et al. Scalable causal structure learning: Scoping review of traditional and deep learning algorithms and new opportunities in biomedicine
JP2020119101A (ja) テンソル生成プログラム、テンソル生成方法およびテンソル生成装置
CN111523048B (zh) 社交网络中好友的推荐方法、装置、存储介质及终端
WO2022091413A1 (ja) 機械学習プログラム、推定プログラム、装置、及び方法
Liang et al. Deep advantage learning for optimal dynamic treatment regime
US20220223288A1 (en) Training method, training apparatus, and recording medium
US11194829B2 (en) Methods and system for entity matching
Stenhaug et al. Predictive fit metrics for item response models
Gholi Zadeh Kharrat et al. Feature sensitivity criterion-based sampling strategy from the Optimization based on Phylogram Analysis (Fs-OPA) and Cox regression applied to mental disorder datasets
CN115359865A (zh) 病例数据推送方法、装置、计算机设备和存储介质
JP7283583B2 (ja) 制御方法、制御プログラム、及び情報処理装置
Pölsterl et al. Scalable, axiomatic explanations of deep alzheimer’s diagnosis from heterogeneous data
Wang et al. Adaptive treatment strategies for chronic conditions: shared-parameter G-estimation with an application to rheumatoid arthritis
JP2022007311A (ja) 学習モデルからの情報漏洩リスクを評価するシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20959928

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022558810

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020959928

Country of ref document: EP

Effective date: 20230602