WO2023040150A1 - 药物重定向模型生成方法及装置、存储介质、计算机设备 - Google Patents

药物重定向模型生成方法及装置、存储介质、计算机设备 Download PDF

Info

Publication number
WO2023040150A1
WO2023040150A1 PCT/CN2022/071435 CN2022071435W WO2023040150A1 WO 2023040150 A1 WO2023040150 A1 WO 2023040150A1 CN 2022071435 W CN2022071435 W CN 2022071435W WO 2023040150 A1 WO2023040150 A1 WO 2023040150A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
drug
preset
node
target
Prior art date
Application number
PCT/CN2022/071435
Other languages
English (en)
French (fr)
Inventor
王俊
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2023040150A1 publication Critical patent/WO2023040150A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Definitions

  • the present application relates to the field of artificial intelligence and digital medical technology, in particular to a method and device for generating a drug redirection model, a storage medium, and a computer device.
  • Drug redirection can significantly reduce the time and cost of drug development while avoiding unforeseen side effects. It can be said that drug redirection has become one of the main means of developing drugs.
  • the present application provides a drug redirection model generation method and device, storage medium, and computer equipment. While adding multi-source data, the drug node itself is endowed with inherent data characteristics, which can reduce the risk of drug redirection. The limitations of drug redirection can improve the success rate of drug redirection.
  • a method for generating a drug redirection model including:
  • the preset association relationship data includes disease-gene association relationship data, drug-disease association relationship data, and drug-gene association relationship data;
  • the preset redirection learning model is trained to obtain the drug redirection model.
  • a device for generating a drug redirection model including:
  • An acquisition module configured to acquire gene regulatory networks and preset association relationship data, wherein the preset association relationship data includes disease-gene association relationship data, drug-disease association relationship data, and drug-gene association relationship data;
  • a network generation module configured to generate a target regulatory network based on the gene regulatory network and the preset association relationship data, and embed preset drug molecular data features into each drug node included in the target regulatory network;
  • the model training module is used to train the preset redirection learning model according to the embedded target regulation network, so as to obtain the drug redirection model.
  • a computer-readable storage medium on which computer-readable instructions are stored, and when the computer-readable instructions are executed by a processor, a method for generating a drug redirection model is implemented, including:
  • the preset correlation data includes disease-gene correlation data, drug-disease correlation data, and drug-gene correlation data; based on the gene regulation network and the According to the preset association relationship data, a target regulatory network is generated, and the preset drug molecular data features are embedded into each drug node included in the target regulatory network; according to the embedded target regulatory network, the preset redirection learning model is carried out. Train to get a drug redirection model.
  • a computer device including a storage medium, a processor, and computer-readable instructions stored on the storage medium and operable on the processor, and the processor executes the computer-readable instructions
  • drug redirection model generation methods including:
  • the preset correlation data includes disease-gene correlation data, drug-disease correlation data, and drug-gene correlation data; based on the gene regulation network and the According to the preset association relationship data, a target regulatory network is generated, and the preset drug molecular data features are embedded into each drug node included in the target regulatory network; according to the embedded target regulatory network, the preset redirection learning model is carried out. Train to get a drug redirection model.
  • the application provides a drug redirection model generation method and device, storage medium, and computer equipment. Compared with the traditional drug redirection method, the application adds multi-source data and also The node itself is endowed with inherent data characteristics, which can reduce the limitations of drug redirection and improve the success rate of drug redirection.
  • Fig. 1 shows a schematic flow diagram of a method for generating a drug redirection model provided by an embodiment of the present application
  • Fig. 2 shows a schematic structural diagram of a drug redirection model generation device provided by an embodiment of the present application
  • FIG. 3 shows a schematic diagram of a physical structure of a computer device provided by an embodiment of the present application.
  • a method for generating a drug redirection model is provided in this embodiment, as shown in Figure 1, the method includes:
  • Step 101 obtaining the gene regulatory network and preset association relationship data, wherein the preset association relationship data includes disease-gene association relationship data, drug-disease association relationship data, and drug-gene association relationship data;
  • the server can be an independent server, or it can provide cloud service, cloud database, cloud computing, cloud function, cloud storage, network service, cloud communication, middleware service, domain name service, security service, content distribution network (Content Delivery Network) Network, CDN), and cloud servers for basic cloud computing services such as big data and artificial intelligence platforms.
  • the gene regulatory network and preset association relationship data are obtained.
  • the gene regulatory network includes many genes and the regulatory relationship between genes.
  • the preset correlation data can specifically be disease-gene correlation data, drug-disease correlation data, and drug-gene correlation data, etc.
  • it can also be drug-symptom, disease-symptom, symptom-gene, protein-protein relational data, etc.
  • association relationship data are all data that have been confirmed to have an association relationship. For example, from the disease-gene association relationship data, it can be seen which diseases are associated with which genes.
  • Step 102 Generate a target regulatory network based on the gene regulatory network and the preset association relationship data, and embed preset drug molecular data features into each drug node included in the target regulatory network;
  • the gene regulation network and the preset association relationship data after obtaining the gene regulation network and the preset association relationship data, based on the gene regulation network, through, for example, disease-gene association relationship data, drug-disease association relationship data, drug-gene association relationship data, etc., Generate a target regulatory network.
  • the gene corresponding to each set of disease-gene correlation data can be found from the gene regulatory network, and an edge is constructed between the gene and the corresponding disease, indicating that the disease and the disease There is an association relationship between genes, and then a target regulatory network is constructed. From the edges in the target regulatory network, it can be seen that there is an association relationship between the two nodes corresponding to the edges.
  • each node in the target regulatory network can be determined.
  • the nodes in the target regulatory network can include gene nodes, disease nodes, and drug nodes.
  • obtain the preset drug molecular data features corresponding to different drug nodes in the target regulatory network and combine these preset drug molecular data features with the corresponding drug nodes respectively. It is used to describe the inherent characteristics of the drug node itself.
  • the preset drug molecule data feature may be a feature vector used to represent the drug molecule corresponding to the drug node, and the elements in the feature vector may specifically be some numbers, and the preset drug molecule data feature may represent the composition characteristics of the drug molecule.
  • Step 103 train the preset redirection learning model to obtain the drug redirection model.
  • the preset redirection learning model is trained through the embedded target regulatory network, and the drug redirection model is obtained after the training is completed.
  • the gene regulation network and the preset association relationship data are first obtained, and then based on the gene regulation network, the target regulation network is generated by using the preset association relationship data, and different drug nodes in the target regulation network are obtained.
  • the corresponding preset drug molecular data features are combined with the corresponding drug nodes respectively.
  • the preset redirection learning model is trained through the embedded target regulation network, and after the training is completed, the drug redirection model is obtained.
  • the target regulatory network embedded in this application includes multi-faceted correlation data, and the preset drug molecular data features are embedded in the drug node of the target regulatory network. Compared with the traditional drug redirection method, this application adds multi-source data At the same time, the drug node itself is endowed with inherent data characteristics, which can reduce the limitations of drug redirection and improve the success rate of drug redirection.
  • Step 201 obtaining the gene regulatory network and preset association relationship data, wherein the preset association relationship data includes disease-gene association relationship data, drug-disease association relationship data, and drug-gene association relationship data;
  • Step 202 based on the gene regulation network and the disease-gene association relationship data, generate the first characteristic edge between the gene node and the disease node in the target regulation network, based on the gene regulation network and the drug-gene association relationship data , generating a second characteristic edge between the gene node and the drug node in the target regulatory network, and generating the drug node and the disease node in the target regulatory network based on the drug-disease association data Between the third feature edge, to generate the target regulatory network;
  • the gene regulatory network and preset association relationship data are first obtained.
  • the preset association relationship data may include disease-gene association relationship data, drug-disease association relationship data, drug-gene association relationship data, etc. relational data. Then, based on the gene regulatory network and the preset correlation data, a target regulatory network is generated.
  • the diseases and genes included in the disease-gene correlation data can be determined according to the gene regulatory network and the disease-gene correlation data, and Find the corresponding gene from the gene regulatory network, and generate an edge between the gene and the corresponding disease, which is the first characteristic edge in the target regulatory network;
  • the drug can be determined according to the gene regulatory network and drug-gene correlation data - Drugs and genes included in the gene association relationship data, and find the corresponding gene from the gene regulatory network, and generate an edge between the gene and the corresponding drug, which is the second characteristic edge in the target regulatory network; you can also According to the drug-disease correlation data, determine the drugs and diseases included in the drug-disease correlation data, and find the corresponding drugs and diseases from the gene regulation network, and generate an edge between the drug and the corresponding disease, namely The third characteristic edge in the target regulatory network.
  • the target regulatory network includes gene nodes, drug nodes, and disease nodes.
  • the fourth characteristic edge and the fifth characteristic edge of the target regulatory network can also be constructed through other relational data... I won't repeat them here. When all feature edges are generated, the target regulatory network is constructed.
  • Step 203 obtaining the drug molecules stored in the preset database, and constructing a corresponding first drug molecule graph according to each drug molecule, wherein the first drug molecule graph includes atomic nodes and node-associated edges;
  • the first drug molecule graph can include multiple atomic nodes and two node-associated edges corresponding to atomic nodes, where the node-associated edges may include some relevant information of chemical bonds to represent the connection form between different atoms.
  • Step 204 input the first drug molecular map into the molecular map construction layer of the preset molecular feature learning model, and construct the second drug molecular map through the molecular map construction layer; the first drug molecular map and the The second drug molecule graph is input to the feature recognition layer of the preset molecular feature learning model to obtain the atomic node data features corresponding to each of the atomic nodes, and the associated edge data features corresponding to the node associated edges;
  • the preset molecular feature learning model is trained by the method of comparative learning.
  • the first drug molecule map can be input into the molecular map construction layer of the preset molecular feature learning model, and the second drug molecule map corresponding to the first drug molecule map is obtained through the molecular map construction layer.
  • 50% of the first drug molecule maps can be selected to construct a second drug molecule map corresponding to the 50% of the first drug molecule maps, and then the remaining 50% of the first drug molecule maps
  • the drug molecule graph and the second drug molecule graph are input into the feature recognition layer of the preset molecular feature learning model; or, the second drug molecule graph corresponding to all the first drug molecule graphs is constructed, and all the first drug molecule graphs and the second drug molecule graph are The molecular map of the two drugs is input into the feature recognition layer of the preset molecular feature learning model.
  • the constructed second drug molecule graph is actually a "false graph", which is a non-existent graph, which can be constructed by randomly disrupting about 20% of the atomic nodes in the first drug molecule graph. After all the second drug molecule graphs are constructed, these second drug molecule graphs can be matched with the first drug molecule graphs, and when the same graph structure exists, the second drug molecule graphs can be reconstructed until all the The molecular diagrams of the two drugs are all "false diagrams".
  • the atomic node data features corresponding to all atomic nodes can be obtained, and at the same time, all nodes can be obtained One-to-one correspondence of associated edge data features.
  • both the atomic node data features and the associated edge data features can be represented by vectors.
  • Step 205 input the atomic node data features and the associated edge data features into the judgment layer of the preset molecular feature learning model, and obtain the attribute judgment of the first drug molecule graph and the second drug molecule graph result, and calculate the result judgment accuracy rate of the preset molecular feature learning model according to the attribute judgment result;
  • the judgment layer After obtaining the atomic node data features corresponding to all atomic nodes and the associated edge data features corresponding to all node associated edges, input the atomic node data features and associated edge data features into the judgment layer of the preset molecular feature learning model In the judgment layer, it is judged whether each of the first drug molecule map and the second drug molecule map is a "real map” or a "false map", and the judgment result is compared with the real situation, and the number of correct judgment results among all the judgment results is counted. The number is compared with the sum of the numbers of all the first drug molecule maps and the second drug molecule maps to obtain the result judgment accuracy.
  • Step 206 when the result judgment accuracy rate is less than or equal to the preset accuracy rate, adjust the atomic node data features and the associated edge data features, and calculate the result judgment accuracy rate again;
  • the preset accuracy rate may be determined in advance, and then the resulting judgment accuracy rate is compared with the preset accuracy rate.
  • the result judgment accuracy rate is less than or equal to the preset accuracy rate, it means that the atomic node data features and associated edge data features learned by the preset molecular feature learning model have not met the requirements, and the atomic node data features and associated edge data features need to be analyzed.
  • Step 207 when the result judgment accuracy rate is greater than the preset accuracy rate, based on the atomic node data feature and the associated edge data feature, the preset drug molecule data feature is obtained;
  • the result judgment accuracy rate when the result judgment accuracy rate is greater than the preset accuracy rate, it means that the atomic node data features and associated edge data features learned by the preset molecular feature learning model have met the corresponding requirements, and can be used to represent each atom The characteristics of nodes and associated edges of nodes, so according to the data characteristics of atomic nodes and associated edge data, the corresponding preset drug molecule data characteristics can be obtained.
  • Step 208 embedding preset drug molecule data features into each drug node included in the target regulatory network
  • the preset drug molecular data features corresponding to different drug nodes in the target regulatory network are obtained, and these preset drug molecular data features are respectively combined with the corresponding drug nodes.
  • an embedded target regulatory network is generated.
  • Step 209 input the embedded target regulatory network into the preset data feature learning model, and obtain the positive data corresponding to each set of correlation data in the embedded target regulatory network through the preset data feature learning model.
  • the preset redirection learning model includes a preset data feature learning model and a preset data feature prediction model; the embedded target regulatory network is generated based on each set of associated relationship data. After the embedded target regulatory network is generated, the embedded target regulatory network is input into the preset data feature learning model, and the positive sampling data feature set corresponding to each group of correlation data can be obtained through the preset data feature learning model. Then, by replacing an entity in each set of association relationship data, a negative sampling data feature set corresponding to the positive sampling data feature set can be generated.
  • the preset data feature learning model may be a TransE model. Both the positive sampling data feature set and the negative sampling data feature set include data features corresponding to two entities and data features corresponding to an entity relationship.
  • the first loss value of the preset data feature learning model is calculated.
  • [x]+ represents the positive value function of x
  • l is the interval distance parameter
  • S is the positive sampling data feature set
  • S' corresponds to the negative sampling data feature set of S
  • d(h+r,t) is the vector V(h )+V(r) and the L1 or L2 distance between V(t), h, t, r respectively represent two entities and the corresponding entity relationship in each group of association relationship data
  • V(h), V(t) and V(r) respectively denote the data features corresponding to two entities h, t and entity relationship r in each group of association
  • Step 210 using any node in the embedded target regulatory network as a target node, searching for the first-order neighbor node corresponding to the target node and the corresponding first-order associated edge, and determining the relationship between the positive sampling data feature set and The first-order node data features corresponding to each of the first-order neighbor nodes, and the first-order edge data features corresponding to each of the first-order associated edges, and the first-order node data features and the first-order edge data
  • the features are input into the projection layer of the preset data feature prediction model to obtain the first-order neighbor data features corresponding to the target node, and according to the first-order neighbor data features, calculate the preset data feature prediction model second loss value;
  • this application in order to enable the preset redirection learning model to learn not only the positive sampling data feature set corresponding to different correlation data in the embedded target regulatory network, but also learn the network corresponding to the embedded target regulatory network Structural features, this application also sets a preset data feature prediction model, through the preset data feature prediction model and preset data feature learning model, the node information and network structure information in the embedded target regulatory network can be fully captured study. Therefore, any node is selected from the embedded target regulatory network as the target node, and all the first-order neighbor nodes corresponding to the target node and the first-order neighbor nodes corresponding to each first-order neighbor node are found from the embedded target regulatory network associative edge.
  • the first-order neighbor data features may include all first-order node data features and all information of corresponding first-order edge data features.
  • Nr_1(t)), where t represents the target node, and Nr_1(t) represents the first-order node data feature corresponding to the target node t , and the first-order edge data features corresponding to the first-order node data features: Nr_1(t) ⁇ (h 1 ,r 1 ),(h 2 ,r 2 ),...,(h N ,r N ) ⁇ , h 1 ... h N represents the first-order neighbor node corresponding to the target node t, r 1 ...
  • r N represents the first-order associated edge corresponding to the target node t
  • Step 211 based on the first loss value and the second loss value, calculate the model loss value of the preset redirection learning model
  • Step 212 when the model loss value is greater than the preset loss threshold, obtain the target data feature corresponding to the target node through the output layer of the preset data feature prediction model and the first-order neighbor data feature, and pass The target data feature updates the positive sampling data feature set and the negative sampling data feature set, and calculates the model loss value again;
  • the first-order neighbor data feature is input to the output layer of the preset data feature prediction model to obtain the target data feature corresponding to the target node
  • the target data feature may be a feature vector, which is used to represent the target node's own feature. Then, use the target data features to update the data features related to the target node in the positive sampling data feature set and the negative sampling data feature set to obtain a new positive sampling data feature set and the negative sampling data feature set, and again model loss value is calculated.
  • Step 213 when the model loss value is less than or equal to the preset loss threshold, obtain the drug redirection model
  • the calculated model loss value is less than or equal to the preset loss threshold, it indicates that the preset redirection learning model has been trained, and the trained preset redirection learning model is used as the drug redirection model.
  • Step 214 based on the embedded target regulatory network, determine the target drug node and all first-order associated edges corresponding to the target drug node from the embedded target regulatory network; Obtain the data features corresponding to the target drug node and all first-order associated edges, and input the data features into the preset data feature prediction model to obtain the target disease corresponding to the target drug node
  • Data characteristics according to the data characteristics of the target disease, determine the corresponding target disease from the disease nodes corresponding to the embedded target regulatory network.
  • the drug redirection can be further performed according to the drug redirection model.
  • the target drug node and all first-order associated edges corresponding to the target drug node are determined in the target regulatory network.
  • the data features to be predicted corresponding to the target drug node and all first-order correlation edges are obtained from the positive sampling data feature set, and the data features to be predicted are input into the preset data feature prediction model, and the target drug node can be obtained
  • the target disease data feature may be a vector representing the feature of the target disease itself. Afterwards, based on the characteristics of the target disease data, the corresponding target disease is determined from all disease nodes.
  • the target disease data feature can be a vector A, determine all disease nodes from the target regulatory network, and obtain the data features corresponding to these disease nodes from the positive sampling data feature set, and calculate vector A and these disease nodes respectively according to vector A The similarity between the corresponding data features, and then determine the corresponding target disease according to the similarity.
  • the step 207 of "obtaining the preset drug molecular data features based on the atomic node data features and the associated edge data features" specifically includes: according to the target Regulating each of the drug nodes in the network, determining the atomic node and node-associated edge corresponding to each of the drug nodes, and finding the data characteristics of the atomic node corresponding to the atomic node, and the corresponding node-associated edge
  • the associated edge data features; each of the atomic node data features and the associated edge data features are subjected to dimensionality reduction processing to generate atomic node data and associated edge data, and the atomic node data and associated edge data are generated in a preset order.
  • the associated edge data are arranged to obtain the characteristics of the preset drug molecule data.
  • the atomic nodes and node-associated edges corresponding to each drug node are respectively determined, and the atomic node data corresponding to each atomic node are respectively searched characteristics, and associated edge data features corresponding to each node associated edge, and then perform dimensionality reduction processing on atomic node data features and associated edge data features, specifically, multi-dimensional data features can be changed into one-dimensional data features.
  • the atomic node data features can be changed to atomic node data
  • the associated edge data features can be changed to associated edge data.
  • the atomic node data and associated edge data are combined according to the preset Arrange and combine in order to form a new feature vector, so as to obtain the preset drug molecule data features corresponding to each drug node.
  • the "according to the characteristics of the target disease data, determine the corresponding target disease from the disease nodes corresponding to the embedded target regulatory network" in step 207 specifically includes: The target disease data feature, determining the disease node data feature corresponding to each disease node in the embedded target regulatory network from the positive sampling data feature set, and according to the target disease data feature and the disease
  • the characteristics of the node data are used to determine the similarity of the characteristics; based on the similarity of the characteristics, the diseases corresponding to the preset number of disease nodes with high similarities in the characteristics are used as the target diseases.
  • the target disease data features and disease node data features are both 20-dimensional feature vectors, and similar diseases often have similar data features.
  • the feature similarity between the target disease data feature and each disease node data feature can be obtained, and then the disease corresponding to the disease node with a higher feature similarity can be used as the disease corresponding to the drug redirection.
  • the feature similarity can be sorted from high to low, and the diseases corresponding to the top 10 disease nodes can be used as the diseases corresponding to drug redirection for subsequent research.
  • an embodiment of the present application provides a device for generating a drug redirection model, as shown in Figure 2, the device includes:
  • An acquisition module configured to acquire gene regulatory networks and preset association relationship data, wherein the preset association relationship data includes disease-gene association relationship data, drug-disease association relationship data, and drug-gene association relationship data;
  • a network generation module configured to generate a target regulatory network based on the gene regulatory network and the preset association relationship data, and embed preset drug molecular data features into each drug node included in the target regulatory network;
  • the model training module is used to train the preset redirection learning model according to the embedded target regulation network, so as to obtain the drug redirection model.
  • the device also includes:
  • the drug molecule map construction module is used for obtaining the drug molecules stored in the preset database before embedding the preset drug molecule data features into each drug node contained in the target regulatory network, and according to each drug molecule Construct the corresponding first drug molecule graph, wherein the first drug molecule graph includes atomic nodes and node-associated edges; input the first drug molecule graph to the molecular graph construction layer of the preset molecular feature learning model, through the The molecular map construction layer constructs a second drug molecular map;
  • a data feature acquisition module configured to input the first drug molecule graph and the second drug molecule graph into the feature recognition layer of the preset molecular feature learning model to obtain atomic nodes corresponding to each of the atomic nodes data features, and associated edge data features corresponding to the associated edge of the node;
  • the accuracy calculation module is used to input the atomic node data features and the associated edge data features into the judgment layer of the preset molecular feature learning model to obtain the first drug molecule graph and the second drug molecule The attribute judgment result of the graph, and calculate the result judgment accuracy rate of the preset molecular feature learning model according to the attribute judgment result;
  • a data feature adjustment module used to adjust the data features of the atomic nodes and the associated edge data features when the result judgment accuracy rate is less than or equal to the preset accuracy rate, and recalculate the result judgment accuracy rate;
  • the data feature determination module is used to obtain the preset drug molecule data feature based on the atomic node data feature and the associated edge data feature when the result judgment accuracy rate is greater than the preset accuracy rate.
  • the data feature determination module is specifically used for:
  • each of the drug nodes in the target regulatory network determine the atomic nodes and node-related edges corresponding to each of the drug nodes, and find the data characteristics of the atomic nodes corresponding to the atomic nodes, and the The data characteristics of the associated edge corresponding to the associated edge of the node;
  • the preset redirection learning model includes a preset data feature learning model and a preset data feature prediction model; the model training module is specifically used for:
  • any node in the embedded target regulatory network searching for the first-order neighbor node corresponding to the target node and the corresponding first-order associated edge, and determining from the positive sampling data feature set that is related to each
  • the first-order node data features corresponding to the first-order neighbor nodes, and the first-order edge data features corresponding to each of the first-order associated edges, and the first-order node data features and the first-order edge data features are input to
  • the first-order neighbor data feature corresponding to the target node is obtained, and the second loss of the preset data feature prediction model is calculated according to the first-order neighbor data feature value;
  • the target data feature corresponding to the target node is obtained through the output layer of the preset data feature prediction model and the first-order neighbor data feature, and the target node is obtained through the target
  • the data feature updates the positive sampling data feature set and the negative sampling data feature set, and calculates the model loss value again;
  • the drug redirection model is obtained.
  • the device also includes:
  • the determination module is used to determine the target drug node and all the target drug nodes corresponding to the target drug node from the embedded target regulatory network based on the embedded target regulatory network after the drug redirection model is obtained.
  • the data feature determination module is also used to obtain the data features corresponding to the target drug node and all the first-order associated edges from the positive sampling data feature set, and input the data features to the preset In the data feature prediction model, the target disease data feature corresponding to the target drug node is obtained;
  • the target disease determination module is configured to determine the corresponding target disease from the disease nodes corresponding to the embedded target regulatory network according to the data characteristics of the target disease.
  • the target disease determination module is specifically used for:
  • the target disease data feature determine the disease node data feature corresponding to each disease node in the embedded target regulatory network from the positive sampling data feature set, and according to the target disease data feature and the Disease node data characteristics, determine the similarity of characteristics;
  • a disease corresponding to a preset number of disease nodes with a high feature similarity is used as a target disease.
  • the network generation module is specifically used for:
  • the gene regulation network and the disease-gene association relationship data Based on the gene regulation network and the disease-gene association relationship data, generate the first characteristic edge between the gene node and the disease node in the target regulation network, and generate the following based on the gene regulation network and the drug-gene association relationship data
  • the third characteristic edge is used to generate the target regulatory network.
  • an embodiment of the present application also provides a computer-readable storage medium, and the computer-readable storage medium may be non-volatile or volatile.
  • Computer-readable instructions are stored on the computer-readable storage medium, and when the computer-readable instructions are executed by a processor, the above-mentioned drug redirection model generation method as shown in FIG. 1 is realized.
  • the technical solution of the present application can be embodied in the form of a software product, which can be stored in a non-volatile storage medium (which can be a CD-ROM, U disk, mobile hard disk, etc.), or a volatile
  • a non-volatile storage medium which can be a CD-ROM, U disk, mobile hard disk, etc.
  • the non-volatile storage medium includes several instructions to enable a computer device (which may be a personal computer, server, or network device, etc.) to execute the methods described in various implementation scenarios of the present application.
  • the embodiment of the present application also provides a physical structure diagram of a computer device, as shown in Figure 3, the computer
  • the device includes: a processor 31, a memory 32, and computer-readable instructions stored on the memory 32 and operable on the processor, wherein the memory 32 and the processor 31 are all arranged on the bus 33, and the processor 31 executes the
  • the above-mentioned drug redirection model generation method as shown in FIG. 1 is implemented when the computer readable instructions are used.
  • the computer device may also include a user interface, a network interface, a camera, a radio frequency (Radio Frequency, RF) circuit, a sensor, an audio circuit, a WI-FI module, and the like.
  • the user interface may include a display screen (Display), an input unit such as a keyboard (Keyboard), and the like, and optional user interfaces may also include a USB interface, a card reader interface, and the like.
  • the network interface may include a standard wired interface, a wireless interface (such as a Bluetooth interface, a WI-FI interface) and the like.
  • a computer device does not constitute a limitation to the computer device, and may include more or less components, or combine some components, or arrange different components.
  • the storage medium may also include an operating system and a network communication module.
  • An operating system is a program that manages and maintains the hardware and software resources of a computer device, and supports the operation of information processing programs and other software and/or programs.
  • the network communication module is used to realize the communication between various components inside the storage medium, and communicate with other hardware and software in the physical device.
  • the present application can be realized by means of software plus a necessary general-purpose hardware platform, or by hardware.
  • the gene regulatory network and preset association relationship data are obtained, and then based on the gene regulation network, the target regulatory network is generated using the preset association relationship data, and the preset drug molecular data characteristics corresponding to different drug nodes in the target regulatory network are obtained, Combining these preset drug molecular data features with corresponding drug nodes, when all the drug nodes in the target regulatory network are embedded with the corresponding preset drug molecular data features, the embedded target regulatory network is generated, and finally through the embedding
  • the target regulatory network trains the preset redirection learning model, and after the training is completed, the drug redirection model is obtained.
  • the target regulatory network embedded in this application includes multi-aspect relationship data, and the preset drug molecular data features are embedded in the drug node of the target regulatory network. Compared with the traditional drug redirection method, this application adds multi-source data. At the same time, the drug node itself is endowed with inherent data characteristics, which can reduce the limitations of drug redirection and improve the success rate of drug redirection.
  • the accompanying drawing is only a schematic diagram of a preferred implementation scenario, and the modules or processes in the accompanying drawings are not necessarily necessary for implementing the present application.
  • the modules in the devices in the implementation scenario can be distributed among the devices in the implementation scenario according to the description of the implementation scenario, or can be located in one or more devices different from the implementation scenario according to corresponding changes.
  • the modules of the above implementation scenarios can be combined into one module, or can be further split into multiple sub-modules.

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及人工智能及数字医疗领域,提供了一种药物重定向模型生成方法及装置、存储介质、计算机设备,该方法包括:获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。本申请增加了多源数据的同时,还将药物节点本身赋予固有的数据特征,能够减小药物重定向的局限性,提升药物重定向的成功率。

Description

药物重定向模型生成方法及装置、存储介质、计算机设备
本申请要求与2021年9月16日提交中国专利局、申请号为202111087420.4、申请名称为“药物重定向模型生成方法及装置、存储介质、计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及人工智能及数字医疗技术领域,尤其是涉及到一种药物重定向模型生成方法及装置、存储介质、计算机设备。
背景技术
药物重定向可以大幅减少药物研发所需的时间和成本,同时还能避免不可预见的副作用的产生。可以说,药物重定向已经变成当前研发药物的主要手段之一。
发明人发现,现有技术中通常利用药物-靶点之间的关系构建生物网络,通过这一网络实现药物重定向,但是应用过程中发现利用这种方法进行药物重定向时,预测局限性较高,影响药物重定向的成功率。因此,如何减小药物重定向的局限性,提升药物重定向的成功率,成为了本领域亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种药物重定向模型生成方法及装置、存储介质、计算机设备,增加了多源数据的同时,还将药物节点本身赋予固有的数据特征,能够减小药物重定向的局限性,提升药物重定向的成功率。
根据本申请的一个方面,提供了一种药物重定向模型生成方法,包括:
获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;
基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;
依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
根据本申请的另一方面,提供了一种药物重定向模型生成装置,包括:
获取模块,用于获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;
网络生成模块,用于基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;
模型训练模块,用于依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
依据本申请又一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现药物重定向模型生成方法,包括:
获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现药物重定向模型生成方法,包括:
获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
借由上述技术方案,本申请提供的一种药物重定向模型生成方法及装置、存储介质、计算机设备,相比于传统的药物重定向方法,本申请增加了多源数据的同时,还将药物节点本身赋予固有的数据特征,能够减小药物重定向的局限性,提升药物重定向的成功率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种药物重定向模型生成方法的流程示意图;
图2示出了本申请实施例提供的一种药物重定向模型生成装置的结构示意图;
图3示出了本申请实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种药物重定向模型生成方法,如图1所示,该方法包括:
步骤101,获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;
本实施例主要适用于对药物重定向的场景,本申请实施例提供的药物重定向模型的生成方法,具体可以应用于服务器一侧。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例提供的药物重定向模型生成方法,首先获取基因调控网络和预设关联关系数据。在这里,基因调控网络中包含众多基因和基因之间的调控关系,当任意两个基因之间存在调控关系时,那么在基因调控网络中这两个基因之间是存在边的。预设关联关系数据具体可以是疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据等,此外还可以是药物-症状、疾病-症状、症状-基因、蛋白-蛋白的关联关系数据等。这些关联关系数据都是已经被证实真实存在关联关系的数据,例如,从疾病-基因关联关系数据中,可以看出哪些疾病和哪些基因之间存在关联关系。
步骤102,基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;
在该实施例中,获取基因调控网络以及预设关联关系数据后,可以以基因调控网络为基础,通过例如疾病-基因关联关系数据、药物-疾病关联关系数据、药物-基因关联关系数据等,生成目标调控网络。具体地,例如通过疾病-基因关联关系数据,可以从基因调控网络中找到与每一组疾病-基因关联关系数据对应的基因,并将该基因和对应的疾病之间构建 边,说明疾病和该基因之间存在关联关系,进而构建出目标调控网络。从目标调控网络中的边,可以看出与边对应的两个节点之间存在着关联关系。根据关联关系数据,可以确定目标调控网络中的各个节点,例如当关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据时,那么目标调控网络中的节点可以包括基因节点、疾病节点、药物节点。为了能够进一步提升目标调控网络中包含信息的全面性,获取与目标调控网络中不同药物节点对应的预设药物分子数据特征,并将这些预设药物分子数据特征分别与对应的药物节点结合,用于刻画药物节点本身的固有特征。在这里,预设药物分子数据特征可以是用于表示药物节点对应的药物分子的特征向量,特征向量中的元素具体可以是一些数字,通过预设药物分子数据特征可以表示药物分子的组成特性。
步骤103,依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
在该实施例中,得到嵌入后的目标调控网络后,通过嵌入后的目标调控网络训练预设重定向学习模型,并当训练完毕后,得到药物重定向模型。
通过应用本实施例的技术方案,首先获取基因调控网络和预设关联关系数据,之后以基因调控网络为基础,利用预设关联关系数据生成目标调控网络,并获取与目标调控网络中不同药物节点对应的预设药物分子数据特征,将这些预设药物分子数据特征分别与对应的药物节点结合,当目标调控网络中的全部药物节点均被嵌入对应的预设药物分子数据特征后,生成嵌入后的目标调控网络,最后通过嵌入后的目标调控网络训练预设重定向学习模型,并当训练完毕后,得到药物重定向模型。本申请嵌入后的目标调控网络中包括多方面关联关系数据,而且在目标调控网络的药物节点中嵌入预设药物分子数据特征,相比于传统的药物重定向方法,本申请增加了多源数据的同时,还将药物节点本身赋予固有的数据特征,能够减小药物重定向的局限性,提升药物重定向的成功率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种药物重定向模型生成方法,该方法包括:
步骤201,获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;
步骤202,基于基因调控网络以及所述疾病-基因关联关系数据,生成目标调控网络中基因节点与疾病节点之间的第一特征边,基于所述基因调控网络以及所述药物-基因关联关系数据,生成所述目标调控网络中所述基因节点与药物节点之间的第二特征边,并基于所述药物-疾病关联关系数据,生成所述目标调控网络中所述药物节点与所述疾病节点之间的第三特征边,以生成所述目标调控网络;
在该实施例中,首先获取基因调控网络和预设关联关系数据,在这里,预设关联关系数据可以包括疾病-基因关联关系数据、药物-疾病关联关系数据、药物-基因关联关系数据等关联关系数据。之后以基因调控网络和预设关联关系数据为基础,生成目标调控网络,具体地,可以根据基因调控网络和疾病-基因关联关系数据,确定疾病-基因关联关系数据中包括的疾病和基因,并从基因调控网络中找到对应的基因,将基因和与之对应的疾病之间生成一条边,即目标调控网络中的第一特征边;可以根据基因调控网络和药物-基因关联关系数据,确定药物-基因关联关系数据中包括的药物和基因,并从基因调控网络中找到对应的基因,将基因和与之对应的药物之间生成一条边,即目标调控网络中的第二特征边;还可以根据药物-疾病关联关系数据,确定药物-疾病关联关系数据中包括的药物和疾病,并从基因调控网络中找到对应的药物和疾病,将药物和与之对应的疾病之间生成一条边,即目标调控网络中的第三特征边。此时,目标调控网络中包括基因节点、药物节点、疾病节点。此外,还可以通过其他关联关系数据构建目标调控网络的第四特征边、第五特征边……在此不再赘述。当全部特征边生成完毕后,目标调控网络即构建完成。
步骤203,获取预设数据库中存储的药物分子,并依据每个所述药物分子构建对应的第一药物分子图,其中,所述第一药物分子图包括原子节点以及节点关联边;
在该实施例中,预设数据库中可以存储有足够多的药物分子。从预设数据库中获取这些药物分子,并根据这些药物分子,分别构建与每个药物分子对应的第一药物分子图,第一药物分子图中可以包括多个原子节点,以及有连接关系的两个原子节点对应的节点关联边,其中,节点关联边中可以包括化学键的一些相关信息,以表示不同原子之间的连接形式。
步骤204,将所述第一药物分子图输入至预设分子特征学习模型的分子图构建层,通过所述分子图构建层构建第二药物分子图;将所述第一药物分子图以及所述第二药物分子图输入至所述预设分子特征学习模型的特征识别层,得到与每个所述原子节点对应的原子节点数据特征,以及所述节点关联边对应的关联边数据特征;
在该实施例中,通过对比学习的方法对预设分子特征学习模型进行训练。可以将第一药物分子图输入到预设分子特征学习模型的分子图构建层中,通过该分子图构建层获得与第一药物分子图对应的第二药物分子图。具体地,如果第一药物分子图足够多,可以选择第一药物分子图中的50%,构建这50%的第一药物分子图对应的第二药物分子图,之后将剩余50%的第一药物分子图和第二药物分子图输入到预设分子特征学习模型的特征识别层中;或者,构建全部第一药物分子图对应的第二药物分子图,并将全部第一药物分子图和第二药物分子图输入到预设分子特征学习模型的特征识别层中。构建的第二药物分子图实际上是“假图”,是不存在的图,具体可以通过随机打乱约20%比例的第一药物分子图中的原子节点来构建。当全部第二药物分子图构建完成后,可以先将这些第二药物分子图与第一药物分子图进行匹配,当存在相同的图结构时,重新构造该第二药物分子图,直至确定全部第二药物分子图均为“假图”为止。输入到预设分子特征学习模型的特征识别层中后,经过预设分子特征学习模型特征识别层的学习,可以得到和所有原子节点一一对应的原子节点数据特征,同时还可以得到和所有节点关联边一一对应的关联边数据特征。其中,原子节点数据特征和关联边数据特征均可以通过向量表示。
步骤205,将所述原子节点数据特征以及所述关联边数据特征输入至所述预设分子特征学习模型的判断层,得到所述第一药物分子图以及所述第二药物分子图的属性判断结果,并依据所述属性判断结果计算所述预设分子特征学习模型的结果判断准确率;
在该实施例中,得到全部原子节点对应的原子节点数据特征和全部节点关联边对应的关联边数据特征后,将原子节点数据特征和关联边数据特征输入到预设分子特征学习模型的判断层中,通过判断层判断每一个第一药物分子图和第二药物分子图是“真图”还是“假图”,并将判断结果和真实情况相比较,统计全部判断结果中判断结果正确的个数,与全部第一药物分子图和第二药物分子图的个数总和进行比较,得到结果判断准确率。
步骤206,当所述结果判断准确率小于或等于预设准确率时,调整所述原子节点数据特征以及所述关联边数据特征,并再次计算结果判断准确率;
在该实施例中,可以事先确定预设准确率,之后将结果判断准确率与预设准确率相比。当结果判断准确率小于或等于预设准确率时,说明预设分子特征学习模型学习得到的原子节点数据特征和关联边数据特征还没有达到要求,需要对原子节点数据特征和关联边数据特征进行调整和更新,并再次通过预设分子特征学习模型的判断层判断第一药物分子图和第二药物分子图是“真图”还是“假图”,并对结果判断准确率再次进行计算。
步骤207,当所述结果判断准确率大于预设准确率时,基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征;
在该实施例中,当结果判断准确率大于预设准确率时,说明预设分子特征学习模型学习得到的原子节点数据特征和关联边数据特征已经达到对应的要求,可以用于表示每个原 子节点和节点关联边的自身特征,因而根据原子节点数据特征以及关联边数据特征,可以得到对应的预设药物分子数据特征。
步骤208,将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;
在该实施例中,获取与目标调控网络中不同药物节点对应的预设药物分子数据特征,将这些预设药物分子数据特征分别与对应的药物节点结合,当目标调控网络中的全部药物节点均被嵌入对应的预设药物分子数据特征后,生成嵌入后的目标调控网络。
步骤209,将所述嵌入后的目标调控网络输入至预设数据特征学习模型中,通过所述预设数据特征学习模型得到与所述嵌入后的目标调控网络中每组关联关系数据对应的正采样数据特征集合,并依据所述正采样数据特征集合得到对应的负采样数据特征集合,基于所述正采样数据特征集合以及所述负采样数据特征集合计算所述预设数据特征学习模型的第一损失值;
在该实施例中,所述预设重定向学习模型包括预设数据特征学习模型以及预设数据特征预测模型;嵌入后的目标调控网络是以每组关联关系数据为基础生成的。生成嵌入后的目标调控网络后,将嵌入后的目标调控网络输入到预设数据特征学习模型中,通过预设数据特征学习模型可以得到和每组关联关系数据相对应的正采样数据特征集合,之后可以通过替换每组关联关系数据中一个实体的方式,生成与正采样数据特征集合相对应的负采样数据特征集合。这里,预设数据特征学习模型可以是TransE模型。正采样数据特征集合和负采样数据特征集合中均包括两个实体对应的数据特征和一个实体关系对应的数据特征。之后,以正采样数据特征集合以及负采样数据特征集合为基础,计算预设数据特征学习模型的第一损失值。具体计算公式可以是:L TransE=∑ (h,r,t)∈S(h',r,t')∈S'(h,r,t)[l+d(h+r,t)-d(h′+r,t′)] +
Figure PCTCN2022071435-appb-000001
其中[x]+表示x的正值函数,l是间隔距离参数,S是正采样数据特征集合,S'与S对应的负采样数据特征集合;d(h+r,t)是向量V(h)+V(r)和V(t)之间的L1或L2距离,h、t、r分别表示每组关联关系数据中两个实体和对应的实体关系,V(h)、V(t)和V(r)分别表示每组关联关系数据中两个实体h、t和实体关系r对应的数据特征。
步骤210,将所述嵌入后的目标调控网络中任一节点作为目标节点,查找所述目标节点对应的一阶近邻节点以及对应的一阶关联边,从所述正采样数据特征集合中确定与每个所述一阶近邻节点对应的一阶节点数据特征,以及与每个所述一阶关联边对应的一阶边数据特征,并将所述一阶节点数据特征以及所述一阶边数据特征输入至所述预设数据特征预测模型的投影层中,得到与所述目标节点对应的一阶近邻数据特征,并依据所述一阶近邻数据特征,计算所述预设数据特征预测模型的第二损失值;
在该实施例中,为了使预设重定向学习模型学习到嵌入后的目标调控网络中不同关联关系数据对应的正采样数据特征集合之外,还能够学习到嵌入后的目标调控网络对应的网络结构特征,本申请还设置了预设数据特征预测模型,通过预设数据特征预测模型和预设数据特征学习模型,可以使嵌入后的目标调控网络中的节点信息和网络结构信息能够充分地被学习。因而,从嵌入后的目标调控网络中选择任意一个节点作为目标节点,从嵌入后的目标调控网络中查找与该目标节点对应的全部一阶近邻节点和与每一个一阶近邻节点对应的一阶关联边。之后从正采样数据特征集合中确定和每一个一阶近邻节点相对应的一阶节点数据特征,并确定和每一个一阶关联边对应的一阶边数据特征。接着,将确定的一阶节点数据特征以及对应的一阶边数据特征全部输入到预设数据特征预测模型的投影层中,可以得到与上述目标节点相对应的一阶近邻数据特征,其中,一阶近邻数据特征中可以包括全部一阶节点数据特征以及对应的一阶边数据特征的全部信息。得到与目标节点对应的一阶近邻数据特征后,根据该一阶近邻数据特征,可以计算预设数据特征预测模型的第二损失值。
第二损失值具体可以通过如下公式计算:L 1=∑ t∈Elog p(t|Nr_1(t)),其中t表示目标节点,Nr_1(t)表示目标节点t对应的一阶节点数据特征,以及与一阶节点数据特征对应的一阶边数据特征:Nr_1(t)={(h 1,r 1),(h 2,r 2),…,(h N,r N)},h 1……h N表示目标节点t对应的一阶近邻节点,r 1……r N表示目标节点t对应的一阶关联边,一阶近邻数据特征可以表示为:X t=∑ (h,r)∈Nr_1(t)V(h)+V(r),
Figure PCTCN2022071435-appb-000002
E表示正采样数据特征集合,y t=b+UX t,b、U是softmax的参数。
步骤211,基于所述第一损失值与所述第二损失值,计算所述预设重定向学习模型的模型损失值;
在该实施例中,通过上面计算得到的第一模型损失值和第二模型损失值,计算预设重定向学习模型对应的模型损失值,具体可以用公式表示为:L=ηL 1+L TransE;其中η是平衡第一损失值和第二损失值的参数。
步骤212,当所述模型损失值大于预设损失阈值时,通过所述预设数据特征预测模型的输出层以及所述一阶近邻数据特征得到与所述目标节点对应的目标数据特征,并通过所述目标数据特征更新所述正采样数据特征集合以及所述负采样数据特征集合,并再次计算所述模型损失值;
在该实施例中,当计算得到的模型损失值比预设损失阈值大时,将一阶近邻数据特征输入至预设数据特征预测模型的输出层,得到和目标节点相对应的目标数据特征,目标数据特征可以是特征向量,用于表示目标节点的自身特征。接着,利用目标数据特征对正采样数据特征集合以及负采样数据特征集合中涉及到目标节点的数据特征进行更新,得到全新的正采样数据特征集合所述负采样数据特征集合,并再次对模型损失值进行计算。
步骤213,当所述模型损失值小于或等于预设损失阈值时,得到所述药物重定向模型;
在该实施例中,当计算得到的模型损失值小于或者等于预设损失阈值时,说明预设重定向学习模型已经训练结束,将训练结束的预设重定向学习模型作为药物重定向模型。
步骤214,基于所述嵌入后的目标调控网络,从所述嵌入后的目标调控网络中确定目标药物节点以及与所述目标药物节点对应的全部一阶关联边;从所述正采样数据特征集合中获取与所述目标药物节点以及所述全部一阶关联边对应的数据特征,并将所述数据特征输入至所述预设数据特征预测模型中,得到与所述目标药物节点对应的目标疾病数据特征;依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病。
在该实施例中,生成药物重定向模型之后,可以进一步根据药物重定向模型进行药物重定向。具体地,根据嵌入后的目标调控网络,在该目标调控网络中确定目标药物节点,以及和该目标药物节点相对应的所有一阶关联边。接着,从正采样数据特征集合中获取和该目标药物节点以及所有一阶关联边相对应的待预测数据特征,将待预测数据特征输入到预设数据特征预测模型中,可以得到与目标药物节点对应的目标疾病数据特征,目标疾病数据特征可以是表示目标疾病的自身特征的向量。之后,以目标疾病数据特征为基础,从所有疾病节点中确定对应的目标疾病。例如,目标疾病数据特征可以是向量A,从目标调控网络中确定全部疾病节点,并从正采样数据特征集合中获取这些疾病节点对应的数据特征,根据向量A,分别计算向量A与这些疾病节点对应的数据特征之间的相似度,之后根据相似度确定对应的目标疾病。
在本申请实施例中,可选地,步骤207中所述“基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征”,具体包括:依据所述目标调控网络中的每个所述药物节点,确定每个所述药物节点对应的原子节点以及节点关联边,并查找与所述原子节点对应的所述原子节点数据特征,以及所述节点关联边对应的所述关联边数据特征;将每个所述原子节点数据特征以及所述关联边数据特征进行降维处理,生成原子 节点数据以及关联边数据,并按照预设顺序将所述原子节点数据以及所述关联边数据进行排列,得到所述预设药物分子数据特征。
在该实施例中,根据嵌入后的目标调控网络中包含的全部药物节点,分别确定与每个药物节点对应的原子节点和节点关联边,并分别查找与每一个原子节点相对应的原子节点数据特症,以及与每一个节点关联边相对应的关联边数据特征,之后将原子节点数据特症以及关联边数据特征都进行降维处理,具体可以将多维数据特征变为一维数据特征。降维后,原子节点数据特征可以变为原子节点数据,关联边数据特征可以变为关联边数据,之后根据每个药物节点对应的药物分子式,将原子节点数据和关联边数据按照预先设定的顺序进行排列组合,形成新的特征向量,从而得到每个药物节点对应的预设药物分子数据特征。
在本申请实施例中,可选地,步骤207中所述“依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病”,具体包括:依据所述目标疾病数据特征,从所述正采样数据特征集合中确定与所述嵌入后的目标调控网络中每个疾病节点对应的疾病节点数据特征,并依据所述目标疾病数据特征以及所述疾病节点数据特征,确定特征相似度;基于所述特征相似度,将所述特征相似度较高的预设数量的疾病节点对应的疾病作为目标疾病。
在该实施例中,得到目标疾病数据特征后,找出嵌入后的目标调控网络中的全部疾病节点,并从正采样数据特征集合中确定与每个疾病节点对应的疾病节点数据特征,之后将目标疾病数据特征和疾病节点数据特征进行比较,确定特征相似度。例如,目标疾病数据特征和疾病节点数据特征均为20维的特征向量,相似疾病往往对应的数据特征也是相似的。根据向量中的具体元素,可以得到目标疾病数据特征和每个疾病节点数据特征之间的特征相似度,之后可以将特征相似度较高的疾病节点所对应的疾病作为药物重定向对应的疾病。例如,可以将特征相似度从高到低进行排序,将排名位于前10的疾病节点对应的疾病作为药物重定向对应的疾病,进行后续的研究。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种药物重定向模型生成装置,如图2所示,该装置包括:
获取模块,用于获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;
网络生成模块,用于基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;
模型训练模块,用于依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
可选地,所述装置还包括:
药物分子图构建模块,用于所述将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中之前,获取预设数据库中存储的药物分子,并依据每个所述药物分子构建对应的第一药物分子图,其中,所述第一药物分子图包括原子节点以及节点关联边;将所述第一药物分子图输入至预设分子特征学习模型的分子图构建层,通过所述分子图构建层构建第二药物分子图;
数据特征获取模块,用于将所述第一药物分子图以及所述第二药物分子图输入至所述预设分子特征学习模型的特征识别层,得到与每个所述原子节点对应的原子节点数据特征,以及所述节点关联边对应的关联边数据特征;
准确率计算模块,用于将所述原子节点数据特征以及所述关联边数据特征输入至所述预设分子特征学习模型的判断层,得到所述第一药物分子图以及所述第二药物分子图的属性判断结果,并依据所述属性判断结果计算所述预设分子特征学习模型的结果判断准确率;
数据特征调整模块,用于当所述结果判断准确率小于或等于预设准确率时,调整所述原子节点数据特征以及所述关联边数据特征,并再次计算结果判断准确率;
数据特征确定模块,用于当所述结果判断准确率大于预设准确率时,基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征。
可选地,所述数据特征确定模块,具体用于:
依据所述目标调控网络中的每个所述药物节点,确定每个所述药物节点对应的原子节点以及节点关联边,并查找与所述原子节点对应的所述原子节点数据特征,以及所述节点关联边对应的所述关联边数据特征;
将每个所述原子节点数据特征以及所述关联边数据特征进行降维处理,生成原子节点数据以及关联边数据,并按照预设顺序将所述原子节点数据以及所述关联边数据进行排列,得到所述预设药物分子数据特征。
可选地,所述预设重定向学习模型包括预设数据特征学习模型以及预设数据特征预测模型;所述模型训练模块,具体用于:
将所述嵌入后的目标调控网络输入至预设数据特征学习模型中,通过所述预设数据特征学习模型得到与所述嵌入后的目标调控网络中每组关联关系数据对应的正采样数据特征集合,并依据所述正采样数据特征集合得到对应的负采样数据特征集合,基于所述正采样数据特征集合以及所述负采样数据特征集合计算所述预设数据特征学习模型的第一损失值;
将所述嵌入后的目标调控网络中任一节点作为目标节点,查找所述目标节点对应的一阶近邻节点以及对应的一阶关联边,从所述正采样数据特征集合中确定与每个所述一阶近邻节点对应的一阶节点数据特征,以及与每个所述一阶关联边对应的一阶边数据特征,并将所述一阶节点数据特征以及所述一阶边数据特征输入至所述预设数据特征预测模型的投影层中,得到与所述目标节点对应的一阶近邻数据特征,并依据所述一阶近邻数据特征,计算所述预设数据特征预测模型的第二损失值;
基于所述第一损失值与所述第二损失值,计算所述预设重定向学习模型的模型损失值;
当所述模型损失值大于预设损失阈值时,通过所述预设数据特征预测模型的输出层以及所述一阶近邻数据特征得到与所述目标节点对应的目标数据特征,并通过所述目标数据特征更新所述正采样数据特征集合以及所述负采样数据特征集合,并再次计算所述模型损失值;
当所述模型损失值小于或等于预设损失阈值时,得到所述药物重定向模型。
可选地,所述装置还包括:
确定模块,用于所述得到所述药物重定向模型之后,基于所述嵌入后的目标调控网络,从所述嵌入后的目标调控网络中确定目标药物节点以及与所述目标药物节点对应的全部一阶关联边;
所述数据特征确定模块,还用于从所述正采样数据特征集合中获取与所述目标药物节点以及所述全部一阶关联边对应的数据特征,并将所述数据特征输入至所述预设数据特征预测模型中,得到与所述目标药物节点对应的目标疾病数据特征;
目标疾病确定模块,用于依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病。
可选地,所述目标疾病确定模块,具体用于:
依据所述目标疾病数据特征,从所述正采样数据特征集合中确定与所述嵌入后的目标调控网络中每个疾病节点对应的疾病节点数据特征,并依据所述目标疾病数据特征以及所述疾病节点数据特征,确定特征相似度;
基于所述特征相似度,将所述特征相似度较高的预设数量的疾病节点对应的疾病作为目标疾病。
可选地,所述网络生成模块,具体用于:
基于基因调控网络以及所述疾病-基因关联关系数据,生成目标调控网络中基因节点与疾病节点之间的第一特征边,基于所述基因调控网络以及所述药物-基因关联关系数据,生成所述目标调控网络中所述基因节点与药物节点之间的第二特征边,并基于所述药物-疾病关联关系数据,生成所述目标调控网络中所述药物节点与所述疾病节点之间的第三特征边,以生成所述目标调控网络。
需要说明的是,本申请实施例提供的一种药物重定向模型生成装置所涉及各功能单元的其他相应描述,可以参考图1方法中的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性。所述计算机可读存储介质上上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述如图1所示的药物重定向模型生成方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)、或易失性存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1所示的方法,以及图2所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备的实体结构图,如图3所示,该计算机设备包括:处理器31、存储器32及存储在存储器32上并可在处理器上运行的计算机可读指令,其中存储器32和处理器31均设置在总线33上,所述处理器31执行所述计算机可读指令时实现上述如图1所示的药物重定向模型生成方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。首先获取基因调控网络和预设关联关系数据,之后以基因调控网络为基础,利用预设关联关系数据生成目标调控网络,并获取与目标调控网络中不同药物节点对应的预设药物分子数据特征,将这些预设药物分子数据特征分别与对应的药物节点结合,当目标调控网络中的全部药物节点均被嵌入对应的预设药物分子数据特征后,生成嵌入后的目标调控网络,最后通过嵌入后的目标调控网络训练预设重定向学习模型,并当训练完毕后,得到药物重定向模型。本申请嵌入后的目标调控网络中包括多方面关联关系数据,而且在目标调控网络的药物节点中嵌入预设药物分子数据特征,相比于传统的药物重定向方法,本申请增加了多源数据的同时,还将药物节点本身赋予固有的数据特征,能够减小药物重定向的局限性,提升药物重定向的成功率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实 施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (20)

  1. 一种药物重定向模型生成方法,其中,包括:
    获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;
    基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;
    依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
  2. 根据权利要求1所述的方法,其中,所述将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中之前,所述方法还包括:
    获取预设数据库中存储的药物分子,并依据每个所述药物分子构建对应的第一药物分子图,其中,所述第一药物分子图包括原子节点以及节点关联边;
    将所述第一药物分子图输入至预设分子特征学习模型的分子图构建层,通过所述分子图构建层构建第二药物分子图;
    将所述第一药物分子图以及所述第二药物分子图输入至所述预设分子特征学习模型的特征识别层,得到与每个所述原子节点对应的原子节点数据特征,以及所述节点关联边对应的关联边数据特征;
    将所述原子节点数据特征以及所述关联边数据特征输入至所述预设分子特征学习模型的判断层,得到所述第一药物分子图以及所述第二药物分子图的属性判断结果,并依据所述属性判断结果计算所述预设分子特征学习模型的结果判断准确率;
    当所述结果判断准确率小于或等于预设准确率时,调整所述原子节点数据特征以及所述关联边数据特征,并再次计算结果判断准确率;
    当所述结果判断准确率大于预设准确率时,基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征。
  3. 根据权利要求2所述的方法,其中,所述基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征,具体包括:
    依据所述目标调控网络中的每个所述药物节点,确定每个所述药物节点对应的原子节点以及节点关联边,并查找与所述原子节点对应的所述原子节点数据特征,以及所述节点关联边对应的所述关联边数据特征;
    将每个所述原子节点数据特征以及所述关联边数据特征进行降维处理,生成原子节点数据以及关联边数据,并按照预设顺序将所述原子节点数据以及所述关联边数据进行排列,得到所述预设药物分子数据特征。
  4. 根据权利要求1所述的方法,其中,所述预设重定向学习模型包括预设数据特征学习模型以及预设数据特征预测模型;所述依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型,具体包括:
    将所述嵌入后的目标调控网络输入至预设数据特征学习模型中,通过所述预设数据特征学习模型得到与所述嵌入后的目标调控网络中每组关联关系数据对应的正采样数据特征集合,并依据所述正采样数据特征集合得到对应的负采样数据特征集合,基于所述正采样数据特征集合以及所述负采样数据特征集合计算所述预设数据特征学习模型的第一损失值;
    将所述嵌入后的目标调控网络中任一节点作为目标节点,查找所述目标节点对应的一阶近邻节点以及对应的一阶关联边,从所述正采样数据特征集合中确定与每个所述一阶近邻节点对应的一阶节点数据特征,以及与每个所述一阶关联边对应的一阶边数据特征,并将所述一阶节点数据特征以及所述一阶边数据特征输入至所述预设数据特征预测模型的 投影层中,得到与所述目标节点对应的一阶近邻数据特征,并依据所述一阶近邻数据特征,计算所述预设数据特征预测模型的第二损失值;
    基于所述第一损失值与所述第二损失值,计算所述预设重定向学习模型的模型损失值;
    当所述模型损失值大于预设损失阈值时,通过所述预设数据特征预测模型的输出层以及所述一阶近邻数据特征得到与所述目标节点对应的目标数据特征,并通过所述目标数据特征更新所述正采样数据特征集合以及所述负采样数据特征集合,并再次计算所述模型损失值;
    当所述模型损失值小于或等于预设损失阈值时,得到所述药物重定向模型。
  5. 根据权利要求4所述的方法,其中,所述得到所述药物重定向模型之后,所述方法还包括:
    基于所述嵌入后的目标调控网络,从所述嵌入后的目标调控网络中确定目标药物节点以及与所述目标药物节点对应的全部一阶关联边;
    从所述正采样数据特征集合中获取与所述目标药物节点以及所述全部一阶关联边对应的数据特征,并将所述数据特征输入至所述预设数据特征预测模型中,得到与所述目标药物节点对应的目标疾病数据特征;
    依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病。
  6. 根据权利要求5所述的方法,其中,所述依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病,具体包括:
    依据所述目标疾病数据特征,从所述正采样数据特征集合中确定与所述嵌入后的目标调控网络中每个疾病节点对应的疾病节点数据特征,并依据所述目标疾病数据特征以及所述疾病节点数据特征,确定特征相似度;
    基于所述特征相似度,将所述特征相似度较高的预设数量的疾病节点对应的疾病作为目标疾病。
  7. 根据权利要求1所述的方法,其中,所述基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,具体包括:
    基于基因调控网络以及所述疾病-基因关联关系数据,生成目标调控网络中基因节点与疾病节点之间的第一特征边,基于所述基因调控网络以及所述药物-基因关联关系数据,生成所述目标调控网络中所述基因节点与药物节点之间的第二特征边,并基于所述药物-疾病关联关系数据,生成所述目标调控网络中所述药物节点与所述疾病节点之间的第三特征边,以生成所述目标调控网络。
  8. 一种药物重定向模型生成装置,其中,包括:
    获取模块,用于获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;
    网络生成模块,用于基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;
    训练模块,用于依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
  9. 一种计算机可读存储介质,其上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现药物重定向模型生成方法,包括:
    获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
  10. 根据权利要求9所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中之前,所述方法还包括:
    获取预设数据库中存储的药物分子,并依据每个所述药物分子构建对应的第一药物分子图,其中,所述第一药物分子图包括原子节点以及节点关联边;将所述第一药物分子图输入至预设分子特征学习模型的分子图构建层,通过所述分子图构建层构建第二药物分子图;将所述第一药物分子图以及所述第二药物分子图输入至所述预设分子特征学习模型的特征识别层,得到与每个所述原子节点对应的原子节点数据特征,以及所述节点关联边对应的关联边数据特征;将所述原子节点数据特征以及所述关联边数据特征输入至所述预设分子特征学习模型的判断层,得到所述第一药物分子图以及所述第二药物分子图的属性判断结果,并依据所述属性判断结果计算所述预设分子特征学习模型的结果判断准确率;当所述结果判断准确率小于或等于预设准确率时,调整所述原子节点数据特征以及所述关联边数据特征,并再次计算结果判断准确率;当所述结果判断准确率大于预设准确率时,基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征。
  11. 根据权利要求10所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征,具体包括:
    依据所述目标调控网络中的每个所述药物节点,确定每个所述药物节点对应的原子节点以及节点关联边,并查找与所述原子节点对应的所述原子节点数据特征,以及所述节点关联边对应的所述关联边数据特征;将每个所述原子节点数据特征以及所述关联边数据特征进行降维处理,生成原子节点数据以及关联边数据,并按照预设顺序将所述原子节点数据以及所述关联边数据进行排列,得到所述预设药物分子数据特征。
  12. 根据权利要求9所述的计算机可读存储介质,其中,所述预设重定向学习模型包括预设数据特征学习模型以及预设数据特征预测模型;所述计算机可读指令被处理器执行时实现所述依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型,具体包括:
    将所述嵌入后的目标调控网络输入至预设数据特征学习模型中,通过所述预设数据特征学习模型得到与所述嵌入后的目标调控网络中每组关联关系数据对应的正采样数据特征集合,并依据所述正采样数据特征集合得到对应的负采样数据特征集合,基于所述正采样数据特征集合以及所述负采样数据特征集合计算所述预设数据特征学习模型的第一损失值;将所述嵌入后的目标调控网络中任一节点作为目标节点,查找所述目标节点对应的一阶近邻节点以及对应的一阶关联边,从所述正采样数据特征集合中确定与每个所述一阶近邻节点对应的一阶节点数据特征,以及与每个所述一阶关联边对应的一阶边数据特征,并将所述一阶节点数据特征以及所述一阶边数据特征输入至所述预设数据特征预测模型的投影层中,得到与所述目标节点对应的一阶近邻数据特征,并依据所述一阶近邻数据特征,计算所述预设数据特征预测模型的第二损失值;基于所述第一损失值与所述第二损失值,计算所述预设重定向学习模型的模型损失值;当所述模型损失值大于预设损失阈值时,通过所述预设数据特征预测模型的输出层以及所述一阶近邻数据特征得到与所述目标节点对应的目标数据特征,并通过所述目标数据特征更新所述正采样数据特征集合以及所述负采样数据特征集合,并再次计算所述模型损失值;当所述模型损失值小于或等于预设损失阈值时,得到所述药物重定向模型。
  13. 根据权利要求12所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述得到所述药物重定向模型之后,所述方法还包括:
    基于所述嵌入后的目标调控网络,从所述嵌入后的目标调控网络中确定目标药物节点以及与所述目标药物节点对应的全部一阶关联边;从所述正采样数据特征集合中获取与所 述目标药物节点以及所述全部一阶关联边对应的数据特征,并将所述数据特征输入至所述预设数据特征预测模型中,得到与所述目标药物节点对应的目标疾病数据特征;依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病。
  14. 根据权利要求13所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病,具体包括:
    依据所述目标疾病数据特征,从所述正采样数据特征集合中确定与所述嵌入后的目标调控网络中每个疾病节点对应的疾病节点数据特征,并依据所述目标疾病数据特征以及所述疾病节点数据特征,确定特征相似度;基于所述特征相似度,将所述特征相似度较高的预设数量的疾病节点对应的疾病作为目标疾病。
  15. 一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机可读指令,其中,所述处理器执行所述计算机可读指令时实现药物重定向模型生成方法,包括:
    获取基因调控网络以及预设关联关系数据,其中,所述预设关联关系数据包括疾病-基因关联关系数据、药物-疾病关联关系数据以及药物-基因关联关系数据;基于所述基因调控网络以及所述预设关联关系数据,生成目标调控网络,并将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中;依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型。
  16. 根据权利要求15所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述将预设药物分子数据特征嵌入至所述目标调控网络包含的各药物节点中之前,所述方法还包括:
    获取预设数据库中存储的药物分子,并依据每个所述药物分子构建对应的第一药物分子图,其中,所述第一药物分子图包括原子节点以及节点关联边;将所述第一药物分子图输入至预设分子特征学习模型的分子图构建层,通过所述分子图构建层构建第二药物分子图;将所述第一药物分子图以及所述第二药物分子图输入至所述预设分子特征学习模型的特征识别层,得到与每个所述原子节点对应的原子节点数据特征,以及所述节点关联边对应的关联边数据特征;将所述原子节点数据特征以及所述关联边数据特征输入至所述预设分子特征学习模型的判断层,得到所述第一药物分子图以及所述第二药物分子图的属性判断结果,并依据所述属性判断结果计算所述预设分子特征学习模型的结果判断准确率;当所述结果判断准确率小于或等于预设准确率时,调整所述原子节点数据特征以及所述关联边数据特征,并再次计算结果判断准确率;当所述结果判断准确率大于预设准确率时,基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征。
  17. 根据权利要求16所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述基于所述原子节点数据特征以及所述关联边数据特征,得到所述预设药物分子数据特征,具体包括:
    依据所述目标调控网络中的每个所述药物节点,确定每个所述药物节点对应的原子节点以及节点关联边,并查找与所述原子节点对应的所述原子节点数据特征,以及所述节点关联边对应的所述关联边数据特征;将每个所述原子节点数据特征以及所述关联边数据特征进行降维处理,生成原子节点数据以及关联边数据,并按照预设顺序将所述原子节点数据以及所述关联边数据进行排列,得到所述预设药物分子数据特征。
  18. 根据权利要求15所述的计算机设备,其中,所述预设重定向学习模型包括预设数据特征学习模型以及预设数据特征预测模型;所述处理器执行所述计算机可读指令时实现所述依据嵌入后的目标调控网络,对预设重定向学习模型进行训练,以得到药物重定向模型,具体包括:
    将所述嵌入后的目标调控网络输入至预设数据特征学习模型中,通过所述预设数据特征学习模型得到与所述嵌入后的目标调控网络中每组关联关系数据对应的正采样数据特征集合,并依据所述正采样数据特征集合得到对应的负采样数据特征集合,基于所述正采样数据特征集合以及所述负采样数据特征集合计算所述预设数据特征学习模型的第一损失值;将所述嵌入后的目标调控网络中任一节点作为目标节点,查找所述目标节点对应的一阶近邻节点以及对应的一阶关联边,从所述正采样数据特征集合中确定与每个所述一阶近邻节点对应的一阶节点数据特征,以及与每个所述一阶关联边对应的一阶边数据特征,并将所述一阶节点数据特征以及所述一阶边数据特征输入至所述预设数据特征预测模型的投影层中,得到与所述目标节点对应的一阶近邻数据特征,并依据所述一阶近邻数据特征,计算所述预设数据特征预测模型的第二损失值;基于所述第一损失值与所述第二损失值,计算所述预设重定向学习模型的模型损失值;当所述模型损失值大于预设损失阈值时,通过所述预设数据特征预测模型的输出层以及所述一阶近邻数据特征得到与所述目标节点对应的目标数据特征,并通过所述目标数据特征更新所述正采样数据特征集合以及所述负采样数据特征集合,并再次计算所述模型损失值;当所述模型损失值小于或等于预设损失阈值时,得到所述药物重定向模型。
  19. 根据权利要求18所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述得到所述药物重定向模型之后,所述方法还包括:
    基于所述嵌入后的目标调控网络,从所述嵌入后的目标调控网络中确定目标药物节点以及与所述目标药物节点对应的全部一阶关联边;从所述正采样数据特征集合中获取与所述目标药物节点以及所述全部一阶关联边对应的数据特征,并将所述数据特征输入至所述预设数据特征预测模型中,得到与所述目标药物节点对应的目标疾病数据特征;依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病。
  20. 根据权利要求19所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述依据所述目标疾病数据特征,从所述嵌入后的目标调控网络对应的疾病节点中确定对应的目标疾病,具体包括:
    依据所述目标疾病数据特征,从所述正采样数据特征集合中确定与所述嵌入后的目标调控网络中每个疾病节点对应的疾病节点数据特征,并依据所述目标疾病数据特征以及所述疾病节点数据特征,确定特征相似度;基于所述特征相似度,将所述特征相似度较高的预设数量的疾病节点对应的疾病作为目标疾病。
PCT/CN2022/071435 2021-09-16 2022-01-11 药物重定向模型生成方法及装置、存储介质、计算机设备 WO2023040150A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111087420.4A CN114023397B (zh) 2021-09-16 2021-09-16 药物重定向模型生成方法及装置、存储介质、计算机设备
CN202111087420.4 2021-09-16

Publications (1)

Publication Number Publication Date
WO2023040150A1 true WO2023040150A1 (zh) 2023-03-23

Family

ID=80054458

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/071435 WO2023040150A1 (zh) 2021-09-16 2022-01-11 药物重定向模型生成方法及装置、存储介质、计算机设备

Country Status (2)

Country Link
CN (1) CN114023397B (zh)
WO (1) WO2023040150A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506591A (zh) * 2017-08-28 2017-12-22 中南大学 一种基于多元信息融合和随机游走模型的药物重定位方法
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法
WO2020204586A1 (ko) * 2019-04-01 2020-10-08 한국과학기술정보연구원 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
CN111916145A (zh) * 2020-07-24 2020-11-10 湖南大学 基于图表示学习的新冠病毒靶标预测和药物发现方法
CN112131399A (zh) * 2020-09-04 2020-12-25 牛张明 基于知识图谱的老药新用分析方法和系统
CN113066526A (zh) * 2021-04-08 2021-07-02 北京大学 一种基于超图的药物-靶标-疾病相互作用预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529205B (zh) * 2016-11-03 2019-03-26 中南大学 一种基于药物子结构、分子字符描述信息的药物靶标关系预测方法
WO2019075461A1 (en) * 2017-10-13 2019-04-18 BioAge Labs, Inc. DRUG REPOSITIONING BASED ON DEEP INTEGRATIONS OF GENE EXPRESSION PROFILES
US20200013487A1 (en) * 2018-07-03 2020-01-09 International Business Machines Corporation Drug Repurposing Hypothesis Generation Using Clinical Drug-Drug Interaction Information
CN112652358A (zh) * 2020-12-29 2021-04-13 中国石油大学(华东) 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506591A (zh) * 2017-08-28 2017-12-22 中南大学 一种基于多元信息融合和随机游走模型的药物重定位方法
WO2020204586A1 (ko) * 2019-04-01 2020-10-08 한국과학기술정보연구원 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法
CN111916145A (zh) * 2020-07-24 2020-11-10 湖南大学 基于图表示学习的新冠病毒靶标预测和药物发现方法
CN112131399A (zh) * 2020-09-04 2020-12-25 牛张明 基于知识图谱的老药新用分析方法和系统
CN113066526A (zh) * 2021-04-08 2021-07-02 北京大学 一种基于超图的药物-靶标-疾病相互作用预测方法

Also Published As

Publication number Publication date
CN114023397B (zh) 2024-05-10
CN114023397A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN107111787B (zh) 流处理
US11727053B2 (en) Entity recognition from an image
US11409789B2 (en) Determining identity in an image that has multiple people
WO2022142450A1 (zh) 用于图像分割模型训练和图像分割的方法及装置
CN108287857B (zh) 表情图片推荐方法及装置
WO2023029352A1 (zh) 基于图神经网络的药物小分子性质预测方法、装置及设备
WO2021159738A1 (zh) 基于医学领域的数据推荐方法、设备、服务器及存储介质
WO2020211387A1 (zh) 电子合同显示方法、装置、电子设备及计算机存储介质
WO2020007177A1 (zh) 计算机执行的报价方法、报价装置、电子设备及存储介质
WO2019227716A1 (zh) 流感预测模型的生成方法、装置及计算机可读存储介质
WO2020134010A1 (zh) 对图像关键点提取模型的训练及图像关键点提取
US20180300289A1 (en) Information Determining Method and Apparatus
US20220139061A1 (en) Model training method and apparatus, keypoint positioning method and apparatus, device and medium
CN111627494A (zh) 基于多维特征的蛋白质性质预测方法、装置和计算设备
CN110798467A (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN111666976B (zh) 基于属性信息的特征融合方法、装置和存储介质
CN110929041A (zh) 基于分层注意力机制的实体对齐方法及系统
CN112668482A (zh) 人脸识别训练方法、装置、计算机设备及存储介质
CN116578704A (zh) 文本情感分类方法、装置、设备及计算机可读介质
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
CN108154165B (zh) 基于大数据与深度学习的婚恋对象匹配数据处理方法、装置、计算机设备和存储介质
WO2023040150A1 (zh) 药物重定向模型生成方法及装置、存储介质、计算机设备
CN111291196B (zh) 知识图谱的完善方法及装置、数据处理方法及装置
CN113838527B (zh) 一种靶基因预测模型的生成方法及装置、存储介质
KR20110125968A (ko) 음원 분류 모델 관리 방법 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22868531

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE