WO2023231720A1 - 药物疾病关联预测方法、装置、电子设备和可读存储介质 - Google Patents
药物疾病关联预测方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- WO2023231720A1 WO2023231720A1 PCT/CN2023/093025 CN2023093025W WO2023231720A1 WO 2023231720 A1 WO2023231720 A1 WO 2023231720A1 CN 2023093025 W CN2023093025 W CN 2023093025W WO 2023231720 A1 WO2023231720 A1 WO 2023231720A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- drug
- disease
- embedding
- node
- association
- Prior art date
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 339
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 339
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000003814 drug Substances 0.000 claims abstract description 303
- 229940079593 drug Drugs 0.000 claims abstract description 302
- 230000004927 fusion Effects 0.000 claims abstract description 51
- 108090000623 proteins and genes Proteins 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 abstract description 21
- 239000011159 matrix material Substances 0.000 description 37
- 230000008569 process Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000031018 biological processes and functions Effects 0.000 description 3
- 238000009511 drug repositioning Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 206010061623 Adverse drug reaction Diseases 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 239000003596 drug target Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004879 molecular function Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 1
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006377 glucose transport Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000002718 pyrimidine nucleoside Substances 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011076 safety test Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 229940043263 traditional drug Drugs 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Definitions
- the embodiments of the present disclosure relate to the field of computer technology, and in particular, to a drug-disease association prediction method, device, electronic device and readable storage medium.
- Drug repositioning refers to the process of applying existing drugs to new diseases. Compared with traditional drug development methods, drug repositioning can significantly reduce costs. At the same time, because the repositioned drugs have passed a large number of safety tests, the safety of existing drugs is known, thus reducing drug development failures. risks of. In related technologies, drug correlation is mainly predicted based on the similarity between drugs or diseases, which requires a large amount of calculation and takes a long time.
- a correlation prediction result of the target drug corresponding to the drug node and the target disease corresponding to the disease node is generated according to the third drug embedding and the third disease embedding.
- updating the first drug embedding according to the weight of the first drug embedding and the fusion feature of the first drug embedding to obtain the second drug embedding includes:
- the first updated information and the second updated information are superimposed to obtain a second drug embedding.
- updating the first disease embedding according to the weight of the first disease embedding and the fusion feature of the first disease embedding to obtain the second disease embedding includes:
- the second disease embedding is obtained by superimposing the third update information and the fourth update information.
- the fifth updated information and the second drug embedding are superimposed to obtain a third drug embedding.
- updating the second disease embedding to obtain a third disease embedding according to a preset drug-disease association includes:
- the third disease embedding is obtained by superimposing the sixth update information and the second disease embedding.
- generating an association prediction result of the target drug corresponding to the drug node for the target disease corresponding to the disease node based on the third drug embedding and the third disease embedding includes:
- the first type of node includes one or more of a gene node, a target node, a gene ontology node, and a side effect node.
- the second type of node includes one or more of a gene node, a target node, and a gene ontology node.
- embodiments of the present disclosure provide a device for predicting drug-disease association, including:
- the first update module is used to calculate the weight of the first drug embedding and the fusion characteristics of the first drug embedding. Update the first drug embedding to obtain a second drug embedding, and update the first disease embedding to obtain a second disease embedding according to the weight of the first disease embedding and the fusion feature of the first disease embedding, where the first drug
- the fusion feature of the embedding is determined based on the first drug embedding and the association information between the drug node and the disease node, and the fusion feature of the first disease embedding is determined based on the first disease embedding and the The correlation information between the drug node and the disease node is determined;
- a second update module configured to update the second drug embedding according to the preset drug-disease association to obtain a third drug embedding, and update the second disease embedding according to the preset drug-disease association to obtain a third disease. Embed;
- a prediction module configured to generate an association prediction result of the target drug corresponding to the drug node and the target disease corresponding to the disease node according to the third drug embedding and the third disease embedding.
- embodiments of the present disclosure also provide an electronic device, including: a memory, a processor, and a program stored on the memory and executable on the processor; the processor is configured to read the memory
- the program in implements the steps in the method described in the first aspect.
- Figure 1 is a schematic flow chart of a drug-disease association prediction method provided by an embodiment of the present disclosure
- Figure 2 is a schematic diagram of node association in an embodiment of the present disclosure
- Figure 4A is another schematic diagram of a processing flow provided by an embodiment of the present disclosure.
- Figure 4B is another schematic diagram of a processing flow provided by an embodiment of the present disclosure.
- Figure 7 is a schematic structural diagram of a drug-disease association prediction device provided by an embodiment of the present disclosure.
- FIG. 8 is a schematic structural diagram of an electronic device provided by an embodiment of the present disclosure.
- Embodiments of the present disclosure provide a drug-disease association prediction method.
- the method includes the following steps:
- Step 101 Obtain the first drug embedding between each first type node and the drug node, and obtain the first disease embedding between each second type node and the disease node.
- a drug-disease multi-view heterogeneous information network between drugs and diseases is established to analyze the effectiveness of drugs against diseases.
- V represents the node of the drug-disease multi-view heterogeneous information network
- E represents the edge of the drug-disease multi-view heterogeneous information network
- each node in the node set corresponds to a different type of object
- each edge in the edge set They are used to represent the association between different nodes.
- the nodes specifically include drug nodes, disease nodes, gene nodes, target nodes, Gene Ontology (Gene Ontology, abbreviated as GO) nodes and side effect nodes.
- Node V is a node in the node set O.
- Gene ontology refers to the representation form that contains the essence of the knowledge system in the biological field. Ontology usually consists of a set of classes (or terms or concepts) with relationships between them.
- MF Molecular Function
- Edges represent the association between two nodes.
- a double-arrow line represents an edge between two nodes.
- the first drug embedding includes edges that are related to the drug node and not related to the disease node. Specifically, they are edges that represent the association between the drug node and the first type of node.
- Both the first type nodes and the second type nodes are nodes other than drug nodes and disease nodes, and at least part of the first type nodes and the second type nodes are the same.
- an importance analysis is performed on the obtained plurality of first drug embeddings to determine the degree of importance of each first drug embedding.
- the characteristics of each network included in the first drug embedding protection can be mentioned through convolution operation, and then the importance between different first drug embeddings is determined through the attention mechanism, and then different weight coefficients are given to different first drug embeddings. .
- GCN Graph Convolutional Network
- Graph Convolutional Network is a multi-layer connected neural network architecture used to learn low-dimensional representation of nodes in graph-structured data. Each layer of GCN directly aggregates the information of connected neighbors through the graph, and uses the reconstructed embedding as the input of the next layer.
- the spectral graph convolution theorem defines the normalization-based Convolution of graph Laplacian:
- each obtained network is convolved using the transition probability matrix P rm as the Fourier basis.
- drug-target-drug There are four types: drug-target-drug, drug-gene-drug, drug-GO-drug, and drug-side effects-drug.
- set up Represents the cascade convolution signal of nodes in G m .
- the hierarchical convolution on G rm is defined as follows:
- the specific splicing process is shown in Figure 6. Please refer to the C1 process in Figure 6.
- the blank area is the adjacency matrix area between non-drug nodes, because this scheme does not use the interaction relationship and correlation data between non-drug nodes. , so the relevant areas are replaced with 0.
- the part below H2 to HT is a blank area
- the part below H1 to HT except H2 is a blank area.
- the second disease embedding can be obtained through a method similar to the above process.
- the step of updating the first disease embedding according to the weight of the first disease embedding and the fusion feature of the first disease embedding to obtain the second disease embedding includes:
- the second disease embedding is obtained by superimposing the third update information and the fourth update information.
- the initialization dimension of the constructed first disease embedding is equal to the number of nodes corresponding to the first disease embedding.
- S n is both the number of nodes in G dn and the initialized feature dimension of each node.
- the derivation process of the convolution part is the same as the convolution operation of the first type of network set mentioned above, and will not be described again here.
- the convolution on G dn only relies on nodes that are at most K steps away from the target node.
- the output signal after the convolution operation is defined by the K-order approximation of the local spectral filter on the network. Filter parameters Can be shared across the entire network G dn .
- the convolution operation of the network G dn is defined as:
- d is the output node embedding dimension
- ⁇ ( ⁇ ) is the activation function
- ReLU( ⁇ ) function is used.
- the first disease embedding in this embodiment there are three meta-paths between diseases, namely: disease-target-disease, disease-gene-disease, disease- GO-Three types of diseases.
- the output of N disease-related bipartite networks based on the attention mechanism is further obtained based on the following process.
- each meta-path The learning weight of can be expressed as follows:
- Att sem represents the method of performing semantic level attention. It is the feature matrix learned by the disease node based on the node level attention level under N different meta-paths. It shows that semantic-level attention can obtain various types of semantic information contained in various meta-paths in heterogeneous networks. To understand the importance of each meta-path, a nonlinear transformation is first performed.
- Extract is to extract The operation process of the disease node, are all disease nodes in the n-th bipartite network.
- W is the weight matrix
- b is the bias vector
- q T is a semantic-level trainable weight vector used to measure the similarity between embedding representations under multiple meta-paths
- V n is the disease node in the n-th bipartite network.
- the vectors of the convolution signals are concatenated in order to obtain the final output signal of each node according to the network to which it belongs. For nodes that are not network elements, a zero vector is used to represent the corresponding output signal.
- the fifth updated information and the second drug embedding are superimposed to obtain a third drug embedding.
- the fifth updated information and the second drug embedding are superimposed to obtain a third drug embedding.
- the fifth update information needs to be determined.
- the fifth update information is determined based on the fusion features of the first drug embedding, and the fusion features of the first drug embedding are based on the first drug embedding and the relationship between the drug node and the disease node.
- the associated information is determined.
- GCN is used as an example.
- the processing results of the first drug embedding of each layer are superimposed on each other, the processing results of the first drug embedding of the previous layer, and the processing results of the drug-disease association network of the corresponding layer. In this way, it can be obtained:
- the second update module 703 is specifically used to:
- each module, unit, sub-unit or sub-module may be one or more integrated circuits configured to implement the above method, such as: one or more application specific integrated circuits (Application Specific Integrated Circuit, ASIC), or one or Multiple microprocessors (digital signal processor, DSP), or one or more field programmable gate arrays (Field Programmable Gate Array, FPGA), etc.
- ASIC Application Specific Integrated Circuit
- DSP digital signal processor
- FPGA Field Programmable Gate Array
- the processing element can be a general-purpose processor, such as a central processing unit (Central Processing Unit, CPU) or other processors that can call the program code.
- these modules can be integrated together and implemented in the form of a system-on-a-chip (SOC).
- SOC system-on-a-chip
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开提供一种药物疾病关联预测方法、装置、电子设备和可读存储介质。药物疾病关联预测方法包括:获取各第一类型节点与药物节点之间的第一药物嵌入,获取各第二类型节点与疾病节点之间的第一疾病嵌入;根据第一药物嵌入的权重和第一药物嵌入的融合特征获得第二药物嵌入,根据第一疾病嵌入的权重和第一疾病嵌入的融合特征获得第二疾病嵌入;根据预设药物与疾病关联关系更新第二药物嵌入获得第三药物嵌入,以及根据预设药物与疾病关联关系更新第二疾病嵌入获得第三疾病嵌入;根据第三药物嵌入和第三疾病嵌入生成药物节点对应的目标药物针对疾病节点对应的目标疾病的关联预测结果。本公开实施例能够提高对于药物疾病关联性预测的处理速度。
Description
相关申请的交叉引用
本公开主张在2022年5月31日在中国提交的中国专利申请号No.202210615417.3的优先权,其全部内容通过引用包含于此。
本公开实施例涉及计算机技术领域,尤其涉及一种药物疾病关联预测方法、装置、电子设备和可读存储介质。
药物重定位指的是将现有药物应用于新的疾病的过程。与传统的药物研发方法相比,药物重定位可以显著降低成本,同时,由于重新定位的药物已经通过了大量的安全测试,因此已有药物的安全性是已知的,从而降低了药物研发失败的风险。相关技术中,主要通过药物或疾病之间的相似度对药物关联性进行预测,运算量较大,需要耗费较长的时间。
发明内容
本公开实施例提供一种药物疾病关联预测方法、装置、电子设备和可读存储介质,以解决现有方式对于药物疾病关联的预测耗时较长的问题。
为解决上述问题,本公开是这样实现的:
第一方面,本公开实施例提供了一种药物疾病关联预测方法,包括以下步骤:
获取各第一类型节点与药物节点之间的第一药物嵌入,以及获取各第二类型节点与疾病节点之间的第一疾病嵌入,其中,所述第一类型节点均为所述药物节点和所述疾病节点之外的节点,所述第一类型节点和所述第二类型节点中的至少部分节点相同;
根据第一药物嵌入的权重和第一药物嵌入的融合特征更新所述第一药物嵌入获得第二药物嵌入,以及根据第一疾病嵌入的权重和第一疾病嵌入的融
合特征更新所述第一疾病嵌入获得第二疾病嵌入,其中,所述第一药物嵌入的融合特征是根据所述第一药物嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的,所述第一疾病嵌入的融合特征是根据所述第一疾病嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的;
根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,以及根据所述预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入;
根据所述第三药物嵌入和所述第三疾病嵌入生成所述药物节点对应的目标药物针对所述疾病节点对应的目标疾病的关联预测结果。
在一些实施例中,所述根据第一药物嵌入的权重和第一药物嵌入的融合特征更新所述第一药物嵌入获得第二药物嵌入,包括:
确定各所述第一药物嵌入的权重;
根据各所述第一药物嵌入的权重获得所述第一药物嵌入的第一更新信息;
获取各所述第一药物嵌入之间的融合特征;
根据所述第一药物嵌入之间的融合特征生成所述第一药物嵌入的第二更新信息;
叠加所述第一更新信息和所述第二更新信息获得第二药物嵌入。
在一些实施例中,所述根据第一疾病嵌入的权重和第一疾病嵌入的融合特征更新所述第一疾病嵌入获得第二疾病嵌入,包括:
确定各所述第一疾病嵌入的权重;
根据各所述第一疾病嵌入的权重获得所述第一疾病嵌入的第三更新信息;
获取各所述第一疾病嵌入之间的融合特征;
根据所述第一疾病嵌入之间的融合特征生成所述第一疾病嵌入的第四更新信息;
叠加所述第三更新信息和所述第四更新信息获得第二疾病嵌入。
在一些实施例中,所述根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,包括:
根据所述药物节点和所述疾病节点之间的关联关系生成第五更新信息;
将所述第五更新信息和所述第二药物嵌入叠加获得第三药物嵌入。
在一些实施例中,所述根据预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入,包括:
根据所述药物节点和所述疾病节点之间的关联关系生成第六更新信息;
将所述第六更新信息和所述第二疾病嵌入叠加获得第三疾病嵌入。
在一些实施例中,所述根据所述第三药物嵌入和所述第三疾病嵌入生成所述药物节点对应的目标药物针对所述疾病节点对应的目标疾病的关联预测结果,包括:
根据所述第三药物嵌入和所述第三疾病嵌入生成所述目标药物和所述目标疾病之间的关联参数;
在所述关联参数大于或等于预设参数阈值的情况下,生成所述目标药物对所述目标疾病有效的预测结果;
在所述关联参数小于预设参数阈值的情况下,生成所述目标药物对所述目标疾病无效的预测结果。
在一些实施例中,所述第一药物嵌入的初始化维度与所述第一药物嵌入对应的节点数量相等,其中,所述第一药物嵌入对应的节点包括所述药物节点和所述第一类型节点;和/或
所述第一疾病嵌入的初始化维度与所述第一疾病节点对应的节点数量相等,其中,所述第一疾病节点对应的节点包括所述疾病节点和所述第一类型节点。
在一些实施例中,所述第一类型节点包括基因节点、靶点节点、基因本体论节点和副作用节点中的一项或多项。
在一些实施例中,所述第二类型节点包括基因节点、靶点节点和基因本体论节点中的一项或多项。
第二方面,本公开实施例提供了一种药物疾病关联预测装置,包括:
获取模块,用于获取各第一类型节点与药物节点之间的第一药物嵌入,以及获取各第二类型节点与疾病节点之间的第一疾病嵌入,其中,所述第一类型节点均为所述药物节点和所述疾病节点之外的节点,所述第一类型节点和所述第二类型节点中的至少部分节点相同;
第一更新模块,用于根据第一药物嵌入的权重和第一药物嵌入的融合特
征更新所述第一药物嵌入获得第二药物嵌入,以及根据第一疾病嵌入的权重和第一疾病嵌入的融合特征更新所述第一疾病嵌入获得第二疾病嵌入,其中,所述第一药物嵌入的融合特征是根据所述第一药物嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的,所述第一疾病嵌入的融合特征是根据所述第一疾病嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的;
第二更新模块,用于根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,以及根据所述预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入;
预测模块,用于根据所述第三药物嵌入和所述第三疾病嵌入生成所述药物节点对应的目标药物针对所述疾病节点对应的目标疾病的关联预测结果。
第三方面,本公开实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。
第四方面,本公开实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。
本公开实施例通过采取多路信息融合的策略,避免了计算相似度的过程,减少了计算相似度的时间。
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的药物疾病关联预测方法的流程示意图;
图2是本公开实施例中节点关联示意图;
图3是本公开实施例的处理流程示意图;
图4A是本公开实施例提供的又一处理流程示意图;
图4B是本公开实施例提供的又一处理流程示意图;
图5是本公开实施例提供的又一处理流程示意图;
图6是本公开实施例提供的级联卷积处理流程示意图;
图7是本公开实施例提供的药物疾病关联预测装置的结构示意图;
图8是本公开实施例提供的电子设备的结构示意图。
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本申请中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B和/或C,表示包含单独A,单独B,单独C,以及A和B都存在,B和C都存在,A和C都存在,以及A、B和C都存在的7种情况。
本公开实施例提供了一种药物疾病关联预测方法。
如图1至图6所示,在一个实施例中,该方法包括以下步骤:
步骤101:获取各第一类型节点与药物节点之间的第一药物嵌入,以及获取各第二类型节点与疾病节点之间的第一疾病嵌入。
如图2和图3所示,本实施例中,建立药物和疾病之间的药物-疾病多视图异质信息网络以分析药物针对疾病的有效性。
本实施例中,所构建的药物-疾病多视图异质信息网络G记作G=(V,E)。其中,V代表药物-疾病多视图异质信息网络的节点,E代表药物-疾病多视图异质信息网络的边,节点集中的各节点对应不同类型的对象,边集中的各边
分别用于表示不同节点之间的关联关系。
在一个实施例中,该网络包括六种不同类型的节点,每一类型的节点的数量可以为一个,也可以为多个。
在一个实施例中,节点具体包括药物节点、疾病节点、基因节点、靶点节点、基因本体论(Gene Ontology,缩写为GO)节点和副作用节点。节点V是节点集O中的一个节点,节点集O可以记作O={药物、疾病、靶点、基因、GO、副作用}。
基因本体论指的是包含生物学领域知识体系本质的表示形式,本体通常由一组类(或术语或概念)组成,它们之间具有关系。
基因本体论从三个方面(GO domains)描述了对生物学领域的了解:
1.分子功能(Molecular Function,MF)单个的基因产物(包括蛋白质和RNA)或多个基因产物的复合物在分子水平上的活动,比如“催化”,“转运”;
2.细胞组分(Cellular Component,CC)基因产物在执行功能时所处的细胞结构位置,比如在线粒体,核糖;
3.生物过程(Biological Process,BP)通过多种分子活动完成的生物学过程,广义上的例子是DNA修复或信号转导。更加具体的例子是嘧啶核苷生物合成过程或葡萄糖跨膜转运。
请继续参阅图2和图3,边代表两个节点之间的关联关系,图2中以双箭头线代表两个节点之间关联的一条边。
该网络共包括八种类型的边,具体的,边集R可以记作R={药物-疾病关联、药物-靶点关联、药物-基因关联、药物-GO关联、药物-副作用关联、疾病-靶点关联、疾病-基因关联、疾病-GO关联}。
本实施例中,第一药物嵌入包括与药物节点相关且与疾病节点无关的各边,具体而言,为表示药物节点和第一类型节点之间关联关系的边。
第一疾病嵌入包括与疾病节点相关且与药物节点无关的各边,具体而言,为表示疾病节点和第二类型节点之间关联关系的边。
第一类型节点和第二类型节点均为药物节点和疾病节点之外的节点,第一类型节点和第二类型节点中的至少部分节点相同。
在一些实施例中,第一类型节点包括基因节点、靶点节点、基因本体论节点和副作用节点中的一项或多项,相应的,第一药物嵌入包括药物-靶点关联、药物-基因关联、药物-GO关联和药物-副作用关联中的一项或多项。
在一些实施例中,由于副作用为药物的副作用,仅与药物关联,并不与疾病之间存在关联关系,因此,第二类型节点包括基因节点、靶点节点和基因本体论节点中的一项或多项。相应的,第一疾病嵌入包括疾病-靶点关联、疾病-基因关联、疾病-GO关联中的一项或多项。
可以理解为,本实施例中,根据不同类型的节点之间的关系,将药物-疾病多视图异质信息网络分解为三类二分网络,这里,二分网络指的是包含两种类型节点的网络。
如图3、图4A和图4B所示,第一类型的二分网络包含药物节点和非疾病节点,即上述第一药物嵌入;第二类型的二分网络包含疾病节点和非药物节点,且不包括副作用节点,即上述第一疾病嵌入;第三类网络包含药物节点和疾病节点。
步骤102:根据第一药物嵌入的权重和第一药物嵌入的融合特征更新所述第一药物嵌入获得第二药物嵌入,以及根据第一疾病嵌入的权重和第一疾病嵌入的融合特征更新所述第一疾病嵌入获得第二疾病嵌入。
本实施例中,针对获得的多个第一药物嵌入进行重要性分析,确定各第一药物嵌入的重要性程度。
实施时,可以提取各第一药物嵌入的特征,然后通过分析各第一药物嵌入作为输入时,对输出结果的影响,确定各第一药物嵌入的重要性差异。
具体的,可以通过卷积运算提起第一药物嵌入保护包括的各网络的特征,然后通过注意力机制确定不同第一药物嵌入之间的重要性,然后赋予不同的第一药物嵌入不同的权重系数。
在一个实施例中,根据第一药物嵌入的权重和第一药物嵌入的融合特征更新所述第一药物嵌入获得第二药物嵌入的步骤包括:
确定各所述第一药物嵌入的权重;
根据各所述第一药物嵌入的权重获得所述第一药物嵌入的第一更新信息;
获取各所述第一药物嵌入之间的融合特征;
根据所述第一药物嵌入之间的融合特征生成所述第一药物嵌入的第二更新信息;
叠加所述第一更新信息和所述第二更新信息获得第二药物嵌入。
如图5和图6所示,设{Grm|m=1,2,…,M}是划分后的第一药物嵌入集合,设第一药物嵌入中的第m个二分网络的节点数为Sm,其中药物节点数为Srm,第一类型节点数为则
进一步的,表示与{Grm}对应的二元邻接矩阵,即第一药物嵌入中药物节点与第一类型节点之间的关联关系。
如果一个药物节点与第一类型节点有关联关系,则Arm(i,j)=1,否则,Arm(i,j)=0;设为所有节点之间的邻接矩阵,因没有考虑药物与药物之间相似性关系问题和第一类型节点与第一类型节点之间的关系,故用0矩阵填充。
网络Grm的初始化节点嵌入是表示如下:
这样,所构建的第一药物嵌入的初始化维度与第一药物嵌入对应的节点数量相等,这里,第一药物嵌入对应的节点包括药物节点和第一类型节点,也就是说,Sm既是Grm中的节点数,也是每个节点的初始化的特征维度。
GCN(图卷积网络)是一种多层连接神经网络体系结构用于学习节点的低维表示图结构的数据。GCN的每一层是通过图的直接聚合相连邻居的信息,将重构的嵌入作为下一层的输入。谱图卷积定理定义了傅里叶域中基于归一
化图拉普拉斯算子的卷积:
上述公式中,Irm是单位矩阵,为表示度矩阵,由于HIN(Hetegeneous Information Network,异构信息网络)中节点的度分布可能有很大的变化,非对称矩阵取代对称的Lrm,表示转移概率矩阵。
本实施例中,分别用转移概率矩阵Prm作为傅里叶基对每个得到的网络进行卷积。
具体来说,让Λrm和Φrm分别是Prm的特征向量矩阵和特征值的对角矩阵。所得到的每个网络上的卷积定义如下:
给出信号在图的傅里叶域中与滤光器的乘积,表示图卷积的输出。是信号的傅里叶变换。为了对目标节点的局部邻居进行卷积,定义作为一个K阶多项式滤波器,
θrm∈RK是一个多项式系数的向量。因此,
由上,具体来说,给定网络Grm一个具有相应邻接矩阵的,Grm上的卷积只依赖于距离目标节点最多K步的节点。换句话说,卷积操作后的输出信号是由网络上局部谱滤波器的K阶近似定义的。滤波参数可以在整个网络Grm上共享。推广到一般形式,网络Grm的卷积操作定义为:
其中,和分别表示第一层的,d是输出节点嵌
入维度,σ(·)是激活函数,采用ReLU(·)函数。
其中,和分别是第l+1层的可训练的权重矩阵和节点嵌入,这样,能够实现在第一药物嵌入的每个单独的网络上分别执行卷积。
针对本实施例中的第一药物嵌入,针对药物与药物之间的元路径有四种,分别是:
药物-靶点-药物、药物-基因-药物、药物-GO-药物、药物-副作用-药物四种。
元路径指的是异质网络中,两个同类节点之间的一条连接路径。示例性的,药物-疾病-药物和药物-靶点-药物。
不同的元路径代表着不同的语义信息,例如,药物-疾病-药物代表不同药物与相同的疾病之间存在关联关系,而药物-靶点-药物则表示两个药物与同一靶点之间存在互作用关系。给定一个元路径,每个节点存在一组基于元路径的邻居,这些邻居可以在异构图中揭示各种结构信息和丰富的语义信息。
本实施例中,通过以下过程来求得基于注意力机制的M个药物相关的二分网络的输出。
以从M个二分网络中学习到的M组语义特定的第一药物嵌入作为输入,每条元路径的学习权重可以表示如下:
这里attsem表示执行语义级别注意力的方法。是药物节点基于M条不同元路径下根据节点级别注意力级别学习到的特征矩阵。它表明语义级别的注意力可以获得异构网络中各种元路径包含的各种类型的语义信息。为了解每个元路径的重要性,首先进行非线性转换:
Extract为提取中药物节点的操作过程,即对应图5中的C3过程,
为第m个二分网络中的所有药物节点。
其中W是权重矩阵,b是偏置向量,qT为语义级别可训练的权重向量用来衡量多条元路径下的嵌入表示之间的相似性,为药物节点i在元路径m下的特征表示。Vm为第m个二分网络中的药物节点。在获得每个元路径的重要性之后,通过softmax函数对其进行归一化。通过使用softmax函数归一化所有元路径的重要性,可以得到第m条元路径下的权重:
权重可以解释为不同的元路径的贡献。显然,越高,元路径m越重要。以学习到的权重为系数,可以融合这些不同的元路径下药物的不同低维特征表示以获得最终药物节点的低维嵌入表示,如下所示:
为了利用异质信息网络的同源和异构信息进行嵌入,将卷积信号的向量按顺序串接,得到每个节点根据其所属网络的最终输出信号。
对于非网络元素的节点,使用零向量来表示相应的输出信号。设表示Gm中节点的级联卷积信号,定义Grm上的分层卷积如下:
为第一类网络集合中基于第m个二分网络所级联拼接的节点特征矩阵。
具体的拼接过程如图6所示,请参阅图6中C1过程,空白区域为非药物节点之间的邻接矩阵区域,因本方案没有用到非药物节点之间的相互作用关系以及关联关系数据,所以相关的区域用0代替,示例性的,第一行中,H2至HT下方部分为空白区域,第二行中,H1至HT中,除H2外的下方为空白区域。
其中分别表示第l层的输入信号、输出信号和可训练的权矩阵,
然后在经过C2过程对应的卷积处理和C3过程对应的Extract操作后,把第一类网络集合中每一个二分网络中的药物节点提取出来,如图所示,表示为:
最后,拼接Concat每一个二分网络的药物矩阵,经过全连接神经网络FC,得到最后的第一类网络集合中,即对应图5中的C4过程,有关药物的节点矩阵,公式表达如下:
把注意力机制操作获得的第一更新信息和经过级联卷积操作的第二更新信息的每一层的输出相加,得到也就是获得了第二药物嵌入。
本实施例中,可以通过与上述过程类似的方法获得第二疾病嵌入。
在一个实施例中,根据第一疾病嵌入的权重和第一疾病嵌入的融合特征更新所述第一疾病嵌入获得第二疾病嵌入的步骤包括:
确定各所述第一疾病嵌入的权重;
根据各所述第一疾病嵌入的权重获得所述第一疾病嵌入的第三更新信息;
获取各所述第一疾病嵌入之间的融合特征;
根据所述第一疾病嵌入之间的融合特征生成所述第一疾病嵌入的第四更新信息;
叠加所述第三更新信息和所述第四更新信息获得第二疾病嵌入。
具体的,设{Gdn|n=1,2,…,N}是划分后的第一疾病嵌入集合,设第一疾病嵌入中的第n个二分网络的节点数为Sn,其中疾病节点数为Sdn,第二类型节
点数为则
进一步的,表示与{Gdn}对应的二元邻接矩阵,即第一疾病嵌入中疾病节点与第二类型节点之间的关联关系。
如果一个疾病节点与第二类型节点有关联关系,则Adn(i,j)=1,否则,Adn(i,j)=0;设为所有节点之间的邻接矩阵,因没有考虑疾病与疾病之间相似性关系问题和非疾病节点与非疾病节点之间的关系,故用0矩阵填充。
网络Gdn的初始化节点嵌入是表示如下:
所构建的第一疾病嵌入的初始化维度与第一疾病嵌入对应的节点数量相等,Sn既是Gdn中的节点数,也是每个节点的初始化的特征维度。卷积的部分的推导过程与上述第一类网络集合的卷积操作相同,此处不再赘述。
给定网络Gdn一个具有相应邻接矩阵的,Gdn上的卷积只依赖于距离目标节点最多K步的节点。换句话说,卷积操作后的输出信号是由网络上局部谱滤波器的K阶近似定义的。滤波参数可以在整个网络Gdn上共享。推广到一般形式,网络Gdn的卷积操作定义为:
其中,和分别表示第一层的,d是输出节点嵌入维度,σ(·)是激活函数,采用ReLU(·)函数。
其中,和分别是第l+1层的可训练的权重矩阵和节点嵌入,这样,能够实现在第一疾病嵌入的每个单独的网络上分别执行卷积。
与第一药物嵌入处理过程一致,关于本实施例里的第一疾病嵌入,针对疾病与疾病之间的元路径有三种,分别是:疾病-靶点-疾病、疾病-基因-疾病、疾病-GO-疾病三种。
本实施例中,进一步基于以下过程来求得基于注意力机制的N个疾病相关的二分网络的输出。
以从N个二分网络中学习到的N组语义特定的疾病节点嵌入作为输入,每条元路径的学习权重可以表示如下:
这里attsem表示执行语义级别注意力的方法。是疾病节点基于N条不同元路径下根据节点级别注意力级别学习到的特征矩阵。它表明语义级别的注意力可以获得异构网络中各种元路径包含的各种类型的语义信息。为了解每个元路径的重要性,首先进行非线性转换。
Extract为提取中疾病节点的操作过程,为第n个二分网络中的所有疾病节点。
其中W是权重矩阵,b是偏置向量,qT为语义级别可训练的权重向量用来衡量多条元路径下的嵌入表示之间的相似性,为疾病节点i在元路径n下的特征表示。Vn为第n个二分网络中的疾病节点。在获得每个元路径的重要性之后,通过softmax函数对其进行归一化。通过使用softmax函数归一化所有元路径的重要性,可以得到第n条元路径下的权重:
可以解释为不同的元路径的贡献。显然,越高,元路径n越重要。以学习到的权重为系数,可以融合这些不同的元路径下疾病的不
同低维特征表示以获得最终疾病节点的低维嵌入表示,如下所示:
为了利用异质信息网络的同源和异构信息进行嵌入,将卷积信号的向量按顺序串接,得到每个节点根据其所属网络的最终输出信号。对于非网络元素的节点,使用零向量来表示相应的输出信号。
设表示Gdn中节点的级联卷积信号,本实施例中,定义Gdn上的分层卷积如下:
为第一类网络集合中基于第n个二分网络所级联拼接的节点特征矩阵,具体的拼接过程,如图所示,为图中第一个concatenation过程,白色区域为非疾病节点之间的邻接矩阵区域,因本方案没有用到非疾病节点之间的相互作用关系以及关联关系数据,所以相关的区域用0代替。
其中分别表示第l层的输入信号、输出信号和可训练的权矩阵,
然后,经过Extract操作,把第二类网络集合中每一个二分网络中的疾病节点提取出来,如图所示,表示为:
最后,拼接Concat每一个二分网络的疾病矩阵,经过全连接神经网络FC,得到最后的第一类网络集合中,有关疾病的节点矩阵,公式表达如下:
把注意力机制操作获得的第三更新信息和经过级联卷积操作的第四更新信息获得的每一层的输出相加,得到这样,就得到了第二疾病嵌入。
步骤103:根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,以及根据所述预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入。
本实施例中,预设药物与疾病关联关系指的是已知的药物和疾病之间的关联关系,由于已知的药物与疾病的关联已经经过验证的,其可靠性较高,因此,可以基于已知的药物与疾病的关联关系,提高预测结果的准确性。
在其中一些实施例中,根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,包括:
根据所述药物节点和所述疾病节点之间的关联关系生成第五更新信息;
将所述第五更新信息和所述第二药物嵌入叠加获得第三药物嵌入。
根据所述药物节点和所述疾病节点之间的关联关系生成第五更新信息;
将所述第五更新信息和所述第二药物嵌入叠加获得第三药物嵌入。
接下来,需要确定第五更新信息,第五更新信息是根据第一药物嵌入的融合特征确定的,而第一药物嵌入的融合特征是根据第一药物嵌入以及药物节点和所述疾病节点之间的关联信息确定的。
具体的,将药物-疾病关联网络的处记为Grd,这里,药物-疾病关联网络指的是就是上述第三类网络。设药物节点数为u,疾病节点数为v,Ard为药物疾病关联网络的邻接矩阵,如果一个药物节点与疾病节点有关联关系,则Ard(i,j)=1,否则,Ard(i,j)=0,那么,能够得到:
设为所有节点之间的邻接矩阵,因没有考虑疾病与疾病之间相似性关系问题和非疾病节点与非疾病节点之间的关系,故用0矩阵
填充。
网络Grd的初始化节点嵌入是表示如下:
其中,
针对初始化的药物和疾病节点,可以采取多种方式去学习它们的低维节点嵌入,示例性的,可以是矩阵分解、随机游走、神经网络等方法。
本实施例中,以采取GCN来做示例性说明。
其中,和分别表示初始的可训练的权重矩阵以及第一层的节点嵌入,d是输出节点嵌入维度,σ(·)是激活函数,采用ReLU(·)函数。
其中,和分别是第l层的节点嵌入、第l+1层的可训练的权重矩阵以及第l+1层的节点嵌入。这样,就得到了第五更新信息。
接下来,叠加第五更新信息和第二药物嵌入,得到第三药物嵌入。
具体的,将每一层的第一药物嵌入的处理结果与上一层的第一药物嵌入的处理结果以及相应层的药物-疾病关联网络的处理结果三者相互叠加,这样,能够得到:
其中,由于初始状态没有在先信息作为输入,则第一层的结果不包括第
0层的输出结果,由相应层的第一药物嵌入的处理结果和药物-疾病关联网络的处理结果两者叠加得到。
进一步的,由于不同的第一药物嵌入在不同层中的贡献是不同的,实施时,可以通过注意力基质将这些第一药物嵌入叠加,获得第三药物嵌入:
HR∈Ru×d;
HR∈Ru×d;
这里,αl通过自动学习得到,可以初始化为1/(l+1),l=1,2,...,L。
在其中一些实施例中,根据所述预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入,包括:
根据所述药物节点和所述疾病节点之间的关联关系生成第六更新信息;
将所述第六更新信息和所述第二疾病嵌入叠加获得第三疾病嵌入。
在一些实施例中,第六更新信息的获取方式和上述第五更新信息的获取方式是类似的,通过上述类似的方法,能够确定第三疾病嵌入,具体如下:
类似的,βl通过自动学习得到,也初始化为1/(l+1),l=1,2,...,L。
步骤104:根据所述第三药物嵌入和所述第三疾病嵌入生成所述药物节点对应的目标药物针对所述疾病节点对应的目标疾病的关联预测结果。
在一些实施例中,该步骤104具体包括:
根据所述第三药物嵌入和所述第三疾病嵌入生成所述目标药物和所述目标疾病之间的关联参数;
在所述关联参数大于或等于预设参数阈值的情况下,生成所述目标药物
对所述目标疾病有效的预测结果;
在所述关联参数小于预设参数阈值的情况下,生成所述目标药物对所述目标疾病无效的预测结果。
本实施例中,可以通过解码器确定目标药物和目标疾病之间的关联参数。在一些实施例中,可以选择以下解码器:
A′∈Ru×v,是预测概率得分矩阵。目标药物ri和目标疾病dj之间关联的预测得分由相应的A′ij项给出。
示例性的,在一些实施例中,预设参数阈值为1,如果目标药物和所述目标疾病之间的关联参数等于1,则认为目标药物对目标疾病有效,如果目标药物和所述目标疾病之间的关联参数小于1,则认为目标药物对目标疾病无效。
示例性的,在一些实施例中,预设参数阈值为0.8,如果目标药物和所述目标疾病之间的关联参数大于或等于0.8,则认为目标药物对目标疾病有效,如果目标药物和所述目标疾病之间的关联参数小于0.8,则认为目标药物对目标疾病无效。
在一些实施例中,还包括对于预测结果进行优化的步骤。
由于已知的药物与疾病的关联已经经过验证的,其可靠性相对较高,对提高预测性能非常重要。然而,已知药物疾病关联的数量远远少于未知或未观察到的药物疾病对的数量。因此,本实施例中通过最小化加权二元交叉熵损失来学习参数,如下所示:
式中(i,j)表示药物ri和疾病dj对,S+表示所有已知药物疾病关联对的集合,S-表示所有未知或未观察到的药物疾病关联对的集合。平衡因子用于降低数据不平衡的影响,其中|S+|和|S-||分别为S+和S-中的对数。通过
Adam优化器对模型进行优化。
本公开实施例通过基于级联卷积操作作用于图神经网络在药物重定位领域的运用,通过级联卷积可以学习到多条元路径下的特征,便于运用多种信息来处理结果,避免了因单信息的局限性及特殊性造成的结果泛化能力下降。可以整合不同类型节点之间的交互信息和节点间隐藏的语义信息。
进一步的,本公开实施例通过采取多路信息融合的策略,避免了计算相似度的过程,减少了计算相似度的时间。
本实施例还提供了一种药物疾病关联预测装置。
如图7所示,在一个实施例中,该药物疾病关联预测装置700包括:
获取模块701,用于获取各第一类型节点与药物节点之间的第一药物嵌入,以及获取各第二类型节点与疾病节点之间的第一疾病嵌入,其中,所述第一类型节点均为所述药物节点和所述疾病节点之外的节点,所述第一类型节点和所述第二类型节点中的至少部分节点相同;
第一更新模块702,用于根据第一药物嵌入的权重和第一药物嵌入的融合特征更新所述第一药物嵌入获得第二药物嵌入,以及根据第一疾病嵌入的权重和第一疾病嵌入的融合特征更新所述第一疾病嵌入获得第二疾病嵌入,其中,所述第一药物嵌入的融合特征是根据所述第一药物嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的,所述第一疾病嵌入的融合特征是根据所述第一疾病嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的;
第二更新模块703,用于根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,以及根据所述预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入;
预测模块704,用于根据所述第三药物嵌入和所述第三疾病嵌入生成所述药物节点对应的目标药物针对所述疾病节点对应的目标疾病的关联预测结果。
在一些实施例中,所述第一更新模块702具体用于:
确定各所述第一药物嵌入的权重;
根据各所述第一药物嵌入的权重获得所述第一药物嵌入的第一更新信息;
获取各所述第一药物嵌入之间的融合特征;
根据所述第一药物嵌入之间的融合特征生成所述第一药物嵌入的第二更新信息;
叠加所述第一更新信息和所述第二更新信息获得第二药物嵌入。
在一些实施例中,所述第一更新模块702具体用于:
确定各所述第一疾病嵌入的权重;
根据各所述第一疾病嵌入的权重获得所述第一疾病嵌入的第三更新信息;
获取各所述第一疾病嵌入之间的融合特征;
根据所述第一疾病嵌入之间的融合特征生成所述第一疾病嵌入的第四更新信息;
叠加所述第三更新信息和所述第四更新信息获得第二疾病嵌入。
在一些实施例中,所述第二更新模块703具体用于:
根据所述药物节点和所述疾病节点之间的关联关系生成第五更新信息;
将所述第五更新信息和所述第二药物嵌入叠加获得第三药物嵌入。
在一些实施例中,所述第二更新模块703具体用于:
根据所述药物节点和所述疾病节点之间的关联关系生成第六更新信息;
将所述第六更新信息和所述第二疾病嵌入叠加获得第三疾病嵌入。
在一些实施例中,所述预测模块704,具体用于:
根据所述第三药物嵌入和所述第三疾病嵌入生成所述目标药物和所述目标疾病之间的关联参数;
在所述关联参数大于或等于预设参数阈值的情况下,生成所述目标药物对所述目标疾病有效的预测结果;
在所述关联参数小于预设参数阈值的情况下,生成所述目标药物对所述
目标疾病无效的预测结果。
在一些实施例中,所述第一药物嵌入的初始化维度与所述第一药物嵌入对应的节点数量相等,其中,所述第一药物嵌入对应的节点包括所述药物节点和所述第一类型节点;和/或
所述第一疾病嵌入的初始化维度与所述第一疾病节点对应的节点数量相等,其中,所述第一疾病节点对应的节点包括所述疾病节点和所述第一类型节点。
在一些实施例中,所述第一类型节点包括基因节点、靶点节点、基因本体论节点和副作用节点中的一项或多项。
在一些实施例中,所述第二类型节点包括基因节点、靶点节点和基因本体论节点中的一项或多项。
本实施例的药物疾病关联预测装置700能够实现上述方法实施例的各个步骤,并能实现基本相同的技术效果,此处不再赘述。
本公开实施例还提供一种电子设备。请参见图8,电子设备可以包括处理器801、存储器802及存储在存储器802上并可在处理器801上运行的程序8021。
程序8021被处理器801执行时可实现上述方法实施例中的任意步骤及达到相同的有益效果,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成,所述的程序可以存储于一可读取介质中。
本公开实施例还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时可实现上述上述方法实施例中的任意步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
所述的存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要说明的是,应理解以上各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,确定模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,各个模块、单元、子单元或子模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
以上所述是本公开实施例的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本公开的保护范围。
Claims (12)
- 一种药物疾病关联预测方法,其特征在于,包括以下步骤:获取各第一类型节点与药物节点之间的第一药物嵌入,以及获取各第二类型节点与疾病节点之间的第一疾病嵌入,其中,所述第一类型节点均为所述药物节点和所述疾病节点之外的节点,所述第一类型节点和所述第二类型节点中的至少部分节点相同;根据第一药物嵌入的权重和第一药物嵌入的融合特征更新所述第一药物嵌入获得第二药物嵌入,以及根据第一疾病嵌入的权重和第一疾病嵌入的融合特征更新所述第一疾病嵌入获得第二疾病嵌入,其中,所述第一药物嵌入的融合特征是根据所述第一药物嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的,所述第一疾病嵌入的融合特征是根据所述第一疾病嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的;根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,以及根据所述预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入;根据所述第三药物嵌入和所述第三疾病嵌入生成所述药物节点对应的目标药物针对所述疾病节点对应的目标疾病的关联预测结果。
- 如权利要求1所述的方法,其特征在于,所述根据第一药物嵌入的权重和第一药物嵌入的融合特征更新所述第一药物嵌入获得第二药物嵌入,包括:确定各所述第一药物嵌入的权重;根据各所述第一药物嵌入的权重获得所述第一药物嵌入的第一更新信息;获取各所述第一药物嵌入之间的融合特征;根据所述第一药物嵌入之间的融合特征生成所述第一药物嵌入的第二更新信息;叠加所述第一更新信息和所述第二更新信息获得第二药物嵌入。
- 如权利要求1或2所述的方法,其特征在于,所述根据第一疾病嵌入的权重和第一疾病嵌入的融合特征更新所述第一疾病嵌入获得第二疾病嵌 入,包括:确定各所述第一疾病嵌入的权重;根据各所述第一疾病嵌入的权重获得所述第一疾病嵌入的第三更新信息;获取各所述第一疾病嵌入之间的融合特征;根据所述第一疾病嵌入之间的融合特征生成所述第一疾病嵌入的第四更新信息;叠加所述第三更新信息和所述第四更新信息获得第二疾病嵌入。
- 如权利要求1所述的方法,其特征在于,所述根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,包括:根据所述药物节点和所述疾病节点之间的关联关系生成第五更新信息;将所述第五更新信息和所述第二药物嵌入叠加获得第三药物嵌入。
- 如权利要求1或4所述的方法,其特征在于,所述根据预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入,包括:根据所述药物节点和所述疾病节点之间的关联关系生成第六更新信息;将所述第六更新信息和所述第二疾病嵌入叠加获得第三疾病嵌入。
- 如权利要求1所述的方法,其特征在于,所述根据所述第三药物嵌入和所述第三疾病嵌入生成所述药物节点对应的目标药物针对所述疾病节点对应的目标疾病的关联预测结果,包括:根据所述第三药物嵌入和所述第三疾病嵌入生成所述目标药物和所述目标疾病之间的关联参数;在所述关联参数大于或等于预设参数阈值的情况下,生成所述目标药物对所述目标疾病有效的预测结果;在所述关联参数小于预设参数阈值的情况下,生成所述目标药物对所述目标疾病无效的预测结果。
- 如权利要求1所述的方法,其特征在于,所述第一药物嵌入的初始化维度与所述第一药物嵌入对应的节点数量相等,其中,所述第一药物嵌入对应的节点包括所述药物节点和所述第一类型节点;和/或所述第一疾病嵌入的初始化维度与所述第一疾病节点对应的节点数量相 等,其中,所述第一疾病节点对应的节点包括所述疾病节点和所述第一类型节点。
- 如权利要求1所述的方法,其特征在于,所述第一类型节点包括基因节点、靶点节点、基因本体论节点和副作用节点中的一项或多项。
- 如权利要求1或7所述的方法,其特征在于,所述第二类型节点包括基因节点、靶点节点和基因本体论节点中的一项或多项。
- 一种药物疾病关联预测装置,其特征在于,包括:获取模块,用于获取各第一类型节点与药物节点之间的第一药物嵌入,以及获取各第二类型节点与疾病节点之间的第一疾病嵌入,其中,所述第一类型节点均为所述药物节点和所述疾病节点之外的节点,所述第一类型节点和所述第二类型节点中的至少部分节点相同;第一更新模块,用于根据第一药物嵌入的权重和第一药物嵌入的融合特征更新所述第一药物嵌入获得第二药物嵌入,以及根据第一疾病嵌入的权重和第一疾病嵌入的融合特征更新所述第一疾病嵌入获得第二疾病嵌入,其中,所述第一药物嵌入的融合特征是根据所述第一药物嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的,所述第一疾病嵌入的融合特征是根据所述第一疾病嵌入以及所述药物节点和所述疾病节点之间的关联信息确定的;第二更新模块,用于根据预设药物与疾病关联关系更新所述第二药物嵌入获得第三药物嵌入,以及根据所述预设药物与疾病关联关系更新所述第二疾病嵌入获得第三疾病嵌入;预测模块,用于根据所述第三药物嵌入和所述第三疾病嵌入生成所述药物节点对应的目标药物针对所述疾病节点对应的目标疾病的关联预测结果。
- 一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现如权利要求1至9中任一项所述的药物疾病关联预测方法中的步骤。
- 一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至9中任一项所述的药物疾病关联预测方法中的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210615417.3 | 2022-05-31 | ||
CN202210615417.3A CN114882960A (zh) | 2022-05-31 | 2022-05-31 | 药物疾病关联预测方法、装置、电子设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2023231720A1 true WO2023231720A1 (zh) | 2023-12-07 |
WO2023231720A9 WO2023231720A9 (zh) | 2024-05-30 |
Family
ID=82679002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2023/093025 WO2023231720A1 (zh) | 2022-05-31 | 2023-05-09 | 药物疾病关联预测方法、装置、电子设备和可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114882960A (zh) |
WO (1) | WO2023231720A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882960A (zh) * | 2022-05-31 | 2022-08-09 | 京东方科技集团股份有限公司 | 药物疾病关联预测方法、装置、电子设备和可读存储介质 |
CN117334246B (zh) * | 2023-09-28 | 2024-06-18 | 之江实验室 | 一种基于计算的药物重定位的方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391927A (zh) * | 2017-07-20 | 2017-11-24 | 京东方科技集团股份有限公司 | 一种预测药物和疾病对应关系的方法和电子设备 |
CN114334038A (zh) * | 2021-12-31 | 2022-04-12 | 杭州师范大学 | 一种基于异质网络嵌入模型的疾病药物预测方法 |
US20220165352A1 (en) * | 2020-11-25 | 2022-05-26 | Northeastern Univesity | Network Medicine Framework for Identifying Drug Repurposing Opportunities |
CN114882960A (zh) * | 2022-05-31 | 2022-08-09 | 京东方科技集团股份有限公司 | 药物疾病关联预测方法、装置、电子设备和可读存储介质 |
-
2022
- 2022-05-31 CN CN202210615417.3A patent/CN114882960A/zh active Pending
-
2023
- 2023-05-09 WO PCT/CN2023/093025 patent/WO2023231720A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391927A (zh) * | 2017-07-20 | 2017-11-24 | 京东方科技集团股份有限公司 | 一种预测药物和疾病对应关系的方法和电子设备 |
US20220165352A1 (en) * | 2020-11-25 | 2022-05-26 | Northeastern Univesity | Network Medicine Framework for Identifying Drug Repurposing Opportunities |
CN114334038A (zh) * | 2021-12-31 | 2022-04-12 | 杭州师范大学 | 一种基于异质网络嵌入模型的疾病药物预测方法 |
CN114882960A (zh) * | 2022-05-31 | 2022-08-09 | 京东方科技集团股份有限公司 | 药物疾病关联预测方法、装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023231720A9 (zh) | 2024-05-30 |
CN114882960A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023231720A1 (zh) | 药物疾病关联预测方法、装置、电子设备和可读存储介质 | |
Bulat et al. | Bats: Binary architecture search | |
WO2018099084A1 (zh) | 一种神经网络模型训练方法、装置、芯片和系统 | |
Li et al. | ReRAM-based accelerator for deep learning | |
JP7539971B2 (ja) | コンピュートインメモリアレイの列しきい値を調整することによってxnor等価演算を実施すること | |
US11960573B1 (en) | Neural network categorization accuracy with categorical graph neural networks | |
Sajadi et al. | AutoDTI++: deep unsupervised learning for DTI prediction by autoencoders | |
CN113299338B (zh) | 基于知识图谱的合成致死基因对预测方法、系统、终端及介质 | |
CN109767817B (zh) | 一种基于神经网络语言模型的药物潜在不良反应发现方法 | |
JP7527488B2 (ja) | モデル訓練方法、データ強化方法、装置、電子機器及び記憶媒体 | |
WO2022166125A1 (en) | Recommendation system with adaptive weighted baysian personalized ranking loss | |
Ma et al. | AEGCN: An autoencoder-constrained graph convolutional network | |
Jiang et al. | An improved advertising CTR prediction approach based on the fuzzy deep neural network | |
CN113826117A (zh) | 来自神经网络的高效二元表示 | |
Bi et al. | GNEA: a graph neural network with ELM aggregator for brain network classification | |
Coluccio et al. | Logic-in-memory computation: Is it worth it? a binary neural network case study | |
Lin et al. | Computing the diffusion state distance on graphs via algebraic multigrid and random projections | |
Hasibi et al. | A Graph Feature Auto-Encoder for the prediction of unobserved node features on biological networks | |
Song et al. | AC-caps: attention based capsule network for predicting RBP binding sites of LncRNA | |
Rassil et al. | Augmented graph neural network with hierarchical global-based residual connections | |
He et al. | Evolutionary multi-objective architecture search framework: Application to covid-19 3d ct classification | |
Zhang et al. | PDA-PRGCN: identification of Piwi-interacting RNA-disease associations through subgraph projection and residual scaling-based feature augmentation | |
CN112216353B (zh) | 一种用于预测药物-靶标相互作用关系的方法和设备 | |
Bordoni et al. | Convolutional neural network based decoders for surface codes | |
Wang et al. | Adversarial dense graph convolutional networks for single-cell classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23814906 Country of ref document: EP Kind code of ref document: A1 |