WO2023168810A1 - 药物分子的性质预测方法、装置、存储介质及计算机设备 - Google Patents

药物分子的性质预测方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
WO2023168810A1
WO2023168810A1 PCT/CN2022/089687 CN2022089687W WO2023168810A1 WO 2023168810 A1 WO2023168810 A1 WO 2023168810A1 CN 2022089687 W CN2022089687 W CN 2022089687W WO 2023168810 A1 WO2023168810 A1 WO 2023168810A1
Authority
WO
WIPO (PCT)
Prior art keywords
drug molecule
modal
feature vector
drug
sample
Prior art date
Application number
PCT/CN2022/089687
Other languages
English (en)
French (fr)
Inventor
王俊
高鹏
孙宁
谢国彤
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2023168810A1 publication Critical patent/WO2023168810A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • This application relates to the fields of artificial intelligence and digital medical technology, and in particular to a method, device, storage medium and computer equipment for predicting the properties of drug molecules.
  • Drug discovery is a process of identifying new candidate compounds with potential therapeutic effects. Prediction of various properties of drug molecules is an essential step in the drug discovery process. Unfavorable pharmacokinetic properties (absorption, distribution, metabolism and excretion, ADME) and toxicity (T) are one of the main reasons for drug development failure. Therefore, in the early stages of drug research, the ADMET properties of candidate drug molecules are very important. It is crucial to take stock.
  • this application provides a method, device, storage medium and computer equipment for predicting the properties of drug molecules, with the main purpose of solving the technical problem of inaccurate prediction of drug molecule properties.
  • a method for predicting properties of drug molecules includes:
  • the multi-modal drug molecule structure includes a drug molecule sequence, a drug molecule diagram, a drug molecule image, and at least two of the drug’s molecular fingerprints;
  • a device for predicting properties of drug molecules which device includes:
  • the mode conversion module is used to obtain the drug molecules to be predicted and perform mode conversion on the molecular structure of the drug molecules to obtain a multi-modal drug molecule structure.
  • the multi-modal drug molecule structure includes drug molecule sequence, drug At least two of molecular graphs, drug molecule images, and drug molecule fingerprints;
  • the feature extraction module is used to extract features of multi-modal drug molecule structures through pre-trained multi-modal feature extraction models to obtain multi-modal drug molecule feature vectors;
  • the feature fusion module is used to convert multi-modal drug molecule feature vectors into multi-modal high-dimensional feature vectors, and perform feature fusion on the multi-modal high-dimensional feature vectors to obtain fusion feature vectors of drug molecules;
  • the property prediction module is used to input the fusion feature vector of the drug molecule into the pre-trained drug molecule property prediction model to obtain the property prediction results of the drug molecule.
  • a computer-readable storage medium with computer-readable instructions stored thereon.
  • the computer-readable instructions are executed by a processor, a method for predicting the properties of drug molecules is implemented.
  • the method include:
  • the drug molecule to be predicted, and perform mode conversion on the molecular structure of the drug molecule to obtain a multi-modal drug molecule structure, where the multi-modal drug molecule structure includes a drug molecule sequence, a drug molecule diagram, At least two of drug molecule images and drug molecule fingerprints;
  • the fusion feature vector of the drug molecule is input into the pre-trained drug molecule property prediction model to obtain the property prediction result of the drug molecule.
  • a computer device including a storage medium, a processor, and computer-readable instructions stored on the storage medium and executable on the processor.
  • the processor executes the computer-readable instructions.
  • a method for predicting the properties of drug molecules is implemented when reading instructions. The method includes:
  • the drug molecule to be predicted, and perform mode conversion on the molecular structure of the drug molecule to obtain a multi-modal drug molecule structure, where the multi-modal drug molecule structure includes a drug molecule sequence, a drug molecule diagram, At least two of drug molecule images and drug molecule fingerprints;
  • the fusion feature vector of the drug molecule is input into the pre-trained drug molecule property prediction model to obtain the property prediction result of the drug molecule.
  • This application provides a method, device, storage medium and computer equipment for predicting the properties of drug molecules.
  • the molecular structure of the drug molecule is converted into a multi-modal drug molecule structure, and then the pre-trained multi-modal feature extraction model is used to predict the properties of the drug molecule.
  • Features are extracted from the drug molecule structures of each mode of the drug molecule, and then feature fusion is performed on the drug molecule feature vectors of each mode.
  • the property prediction results of the drug molecule are obtained based on the fused feature vectors of the drug molecules.
  • the above method can obtain a more comprehensive representation of the characteristics of drug molecules, thereby predicting the properties of drug molecules more accurately and effectively, effectively speeding up the speed and success rate of drug development, and reducing the cost of predicting the properties of drug molecules.
  • Figure 1 shows a schematic flow chart of a method for predicting the properties of drug molecules provided by the embodiment of the present application
  • Figure 2 shows a schematic operational flow diagram of a method for predicting the properties of drug molecules provided by an embodiment of the present application
  • Figure 3 shows a schematic structural diagram of a drug molecule property prediction device provided by an embodiment of the present application
  • FIG. 4 shows a schematic diagram of the internal structure of a computer device provided by an embodiment of the present application.
  • a method for predicting the properties of drug molecules is provided.
  • the application of this method to computer equipment is used as an example to illustrate, including the following steps:
  • the multi-modal drug molecule structure includes at least two of drug molecule sequences, drug molecule diagrams, drug molecule images and drug molecule fingerprints.
  • the drug molecule sequence refers to the drug molecule structure represented by a string, such as a SMILES expression, which is similar to a language sequence
  • the drug molecule diagram refers to the drug molecule structure represented by a data structure diagram
  • the image refers to the drug molecule structure represented by a flat picture
  • the drug molecule fingerprint refers to the drug molecule structure represented by a series of bit strings.
  • the computer equipment can obtain the drug molecules to be predicted through data interfaces or networks, etc., and then conduct multiple rounds of the molecular structure of the drug molecules through the mode conversion method corresponding to the drug molecule structure of each mode. Modal conversion processing to obtain multi-modal drug molecule structures.
  • the feature extraction method corresponding to the mode can be used to extract the features of the drug molecule structure of each mode, thereby obtaining a multi-modal drug molecule feature vector.
  • the feature extraction method corresponding to the mode can be used to extract the features of the drug molecule structure of each mode, thereby obtaining a multi-modal drug molecule feature vector.
  • at least two feature vectors of the feature vector of the drug molecule sequence, the feature vector of the drug molecule map, the feature vector of the drug molecule image, and the feature vector of the drug molecule fingerprint can be obtained.
  • the drug molecule feature vectors of different modes can be converted into high-dimensional feature expressions first, and then fused in the middle layer of the model.
  • intermediate fusion can use neural networks to convert multi-modal drug molecule feature vectors into high-dimensional feature expressions (for example, 768 dimensions), and then obtain the commonalities of different modal data in the high-dimensional space, thereby analyzing multiple modalities.
  • the fusion feature vector of the drug molecule can be input into a pre-trained drug molecule property prediction model to obtain the property prediction result of the drug molecule.
  • the drug molecule property prediction model can be trained by a machine learning model such as a neural network, which is not specifically limited in this embodiment.
  • the method for predicting the properties of drug molecules first converts the molecular structure of the drug molecule into a multi-modal drug molecule structure, and then uses a pre-trained multi-modal feature extraction model to predict the drug molecules in each mode of the drug molecule. Feature extraction is performed on the structure, and then feature fusion is performed on the drug molecule feature vectors of each mode. Finally, the property prediction results of the drug molecules are obtained based on the fused feature vectors of the drug molecules.
  • the above method can obtain a more comprehensive representation of the characteristics of drug molecules, thereby predicting the properties of drug molecules more accurately and effectively, effectively speeding up the speed and success rate of drug development, and reducing the cost of predicting the properties of drug molecules.
  • the method for mode conversion of the molecular structure of the drug molecule in step 101 can be implemented by the following method: first, convert the molecular structure of the drug molecule into a string format according to the predetermined molecular structure conversion rules, and obtain Drug molecule sequence, for example, the molecular structure of the drug molecule can be converted into a SMILES expression according to the conversion rules of SMILES. Secondly, the atoms of the molecular structure of the drug molecule are converted into nodes of the drug molecule graph, and the chemical bonds of the molecular structure of the drug molecule are converted into edges of the drug molecule graph to obtain the drug molecule graph.
  • the drug molecule graph you can also add Various attribute information or characteristic information of atoms or chemical bonds to enrich the characteristic information of drug molecular diagrams.
  • the molecular structure of the drug molecule can be converted into a two-dimensional image by taking photos, screenshots, image conversion, etc. to obtain the drug molecule image.
  • the image conversion method is relatively simple and will not be described in detail here.
  • the structural features in the molecular structure of the drug molecule can be extracted and encoded into bit vectors to obtain the drug molecule fingerprint.
  • the drug molecule fingerprint is an abstract representation of the molecule, which can transform the drug molecule (encoding ) is a series of bit strings (i.e. bit vectors), which can then be easily compared between drug molecules.
  • the more common method is to extract the structural characteristics of the drug molecules, and then hash (Hashing) to generate a bit vector, and This serves as the molecular fingerprint of the drug. It is understandable that there are various modes of modal conversion. Therefore, the conversion methods are not limited to the above ones and can be selected according to the actual situation.
  • the drug molecule fingerprint can be an extended connectivity fingerprint.
  • the extraction method of the drug molecule fingerprint can include the following steps: first, label each atom in the molecular structure of the drug molecule with an identifier. , and store the hash value of each atom's identifier in a pre-built set of identifiers, then create a key list for each atom, and store the keys of the atom's neighboring atoms in each atom's key list level and identifier, and then use the hash value of the key list of each atom as the updated identifier of the atom, store the updated identifier of each atom in the identifier set, and finally store all the identifiers in the identifier set.
  • the identifier is extracted to obtain the drug molecular fingerprint.
  • the extended connectivity fingerprint is a circular fingerprint. Its definition requires setting the radius n (i.e., the number of iterations), and then calculating each atom identifier (identifier), which is similar to the Morgan fingerprint.
  • the connectivity in is ultimately determined by the environment with radius n.
  • the algorithm of extended connectivity fingerprint is as follows: first create a set S to store the identifiers of all atoms, and then use a 32-bit integer to mark each atom. For example, you can use the Morgan algorithm or the CANGEN algorithm, and then hash them and add them to In S, further, for each atom, a "bond list" is created to store information about the atoms surrounding the atom.
  • the list can be sorted first according to the bond level (such as single bond, double bond, triple bond, etc.), and then according to the surrounding atoms. Sort the identifiers by size, and then fill the above list with the following information: the content is [n,identifier,bo1,aid1,bo2,aid2,...], where n is the number of iterations, starting with 0, and bo1 is the key of the first key Level, aid1 is the identifier of the atom connected to the first bond, and so on. Then calculate the hash value of the feature list as the new identifier of the atom. If the newly calculated identifier is structurally the same as in S If there is no repetition, add it to S, and continue to iterate until the end of the loop.
  • the drug molecule fingerprint can be a good complement to the drug molecule structures of the other three modes, more fully exploring and complementing the advantages of each mode, thereby more effectively and accurately realizing the properties of small molecule drugs. predict.
  • the method for feature extraction of the drug molecule structure of each modality in step 102 can be implemented by the following method: using the language model in the multi-modal feature extraction model, the language structure features in the drug molecule sequence are extracted. Extract to obtain the feature vector of the drug molecule sequence; through the graph neural network in the multimodal feature extraction model, extract the atomic features and chemical bond features in the drug molecule graph to obtain the feature vector of the drug molecule graph; through the multimodal feature
  • the convolutional neural network in the extraction model extracts the image features in the drug molecule image to obtain the feature vector of the drug molecule image; through the deep neural network in the multi-modal feature extraction model, the identifier features in the drug molecule fingerprint are obtained Extraction is performed to obtain the feature vector of the drug molecular fingerprint.
  • the language model can extract the structural information hidden in the drug molecule sequence and the correlation information between the sequences. By splicing the extracted information together and then passing through a fully connected layer for dimensionality reduction, the drug molecule can be obtained Low-dimensional dense feature vector representation of sequences.
  • the graph neural network can extract the characteristics of the atomic nodes of the drug molecule graph and the edge chemical bond information between atoms, thereby extracting the molecular-level features of the entire molecular compound.
  • the convolutional neural network can extract image features at different levels in the drug molecule image, and can proceed layer by layer to extract all image features of the entire drug molecule image. Deep neural networks can extract deep-level features in drug molecular fingerprints. This feature can be a good complement to the other three modal features, thereby realizing the complementary advantages between the modal features and ultimately helping to improve the prediction of drug molecular properties. accuracy.
  • the method for performing feature fusion on the drug molecule feature vectors of each modality in step 103 can be implemented by the following method: first, convert the multi-modal drug molecule feature vectors into multi-modal high-dimensional features of the same dimension. Feature vector, then input the multi-modal high-dimensional feature vector into the pre-trained feature enhancement model to obtain the attention coefficient of the multi-modal high-dimensional feature vector, and finally based on the attention coefficient of the multi-modal high-dimensional feature vector Coefficients, weighted summation of multi-modal high-dimensional feature vectors is performed to obtain the fusion feature vector of drug molecules.
  • the feature vectors of different modes can be integrated through conventional operations, such as splicing and weighted summation.
  • conventional integration operations will result in no connection between parameters. Therefore, this embodiment automatically performs an adaptive operation on the fusion operation of feature vectors through the network layer, and determines the contribution of each modality through a pre-trained feature enhancement model. degree.
  • the attention mechanism can be used to obtain the attention coefficients of the feature vectors of each modality, and thereby realize the fusion of multi-modal information.
  • the high-dimensional feature vector F i of each modality can be input into the trained attention network, and the attention weight occupied by modality i is ⁇ i . Through weighted accumulation, the final value for the drug can be obtained.
  • the fusion total feature F all for molecular property prediction is calculated as:
  • Pi is the hidden unit state, and are the weight and bias respectively
  • ⁇ i is the normalized weight vector.
  • the multimodal feature extraction model and drug molecule property prediction model can be trained by the following method:
  • the mode conversion method of the molecular structure of the drug molecule sample is as described above, and will not be described again here.
  • the multimodal drug molecule structure includes drug molecule sequences, drug molecule diagrams, drug molecule images, and drug molecule fingerprints.
  • Each drug molecule sample contains a classification label with a predetermined property, that is, if the drug molecule property is predicted If the model needs to predict the toxicity of drug molecules, the predetermined property is toxicity, and the classification labels are toxic and non-toxic.
  • the language model is used to extract the characteristics of the drug molecule sequence
  • the graph neural network is used to extract the characteristics of the drug molecule map
  • the convolutional neural network is used to extract the characteristics of the drug molecule image
  • the deep neural network is used to extract the characteristics of the drug molecule fingerprint.
  • the attention network is used to fuse high-dimensional features of each modality, and the neural network is used to classify the fused multi-modal features, that is, to predict the properties of drug molecules.
  • the above model training process may also include the following steps: construct an attention network, and then input the multi-modal high-dimensional feature vector of each drug molecule sample into the attention network to obtain each drug molecule
  • the attention coefficient of the multi-modal high-dimensional feature vector of the sample is then used to calculate the multi-modal high-dimensional feature of each drug molecule sample based on the attention coefficient of the multi-modal high-dimensional feature vector of each drug molecule sample.
  • the vectors are weighted and summed to obtain the fusion feature vector of each drug molecule sample.
  • the fusion feature vector of each drug molecule sample is used as input, and the classification label of each drug molecule sample is used as the output to iteratively train the attention network. , obtain the feature enhancement model.
  • the multimodal feature extraction model and the drug molecule property prediction model combine the advantages of multiple models such as language models, graph neural networks, convolutional neural networks, deep neural networks, attention networks, and neural networks, and can It can accurately extract the characteristic information of each mode of drug molecules, and can accurately fuse and predict the feature vectors of each mode, thus effectively improving the accuracy and generalization of drug molecule property prediction, and improving drug research and development.
  • the speed and success rate reduce the cost of predicting drug molecular properties.
  • this embodiment provides a device for predicting the properties of drug molecules, as shown in Figure 3.
  • the device includes: a modal conversion module 31 and a feature extraction module 32. , feature fusion module 33 and property prediction module 34, where:
  • the mode conversion module 31 can be used to obtain the drug molecules to be predicted, and perform mode conversion on the molecular structure of the drug molecules to obtain a multi-modal drug molecule structure, where the multi-modal drug molecule structure includes a drug molecule sequence, At least two of drug molecule diagrams, drug molecule images, and drug molecule fingerprints;
  • the feature extraction module 32 can be used to extract features of multi-modal drug molecule structures through a pre-trained multi-modal feature extraction model to obtain multi-modal drug molecule feature vectors;
  • the feature fusion module 33 can be used to convert multi-modal drug molecule feature vectors into multi-modal high-dimensional feature vectors, and perform feature fusion on the multi-modal high-dimensional feature vectors to obtain fusion feature vectors of drug molecules;
  • the property prediction module 34 can be used to input the fusion feature vector of the drug molecule into the pre-trained drug molecule property prediction model to obtain the property prediction result of the drug molecule.
  • the modal conversion module 31 can be used to convert the molecular structure of the drug molecule into a string format according to predetermined molecular structure conversion rules to obtain the drug molecule sequence; convert the atoms of the molecular structure of the drug molecule into As the node of the drug molecule graph, convert the chemical bonds of the molecular structure of the drug molecule into the edges of the drug molecule graph to obtain the drug molecule graph; convert the molecular structure of the drug molecule into a two-dimensional image to obtain the drug molecule image; extract the drug molecule Structural features in the molecular structure are encoded into bit vectors to obtain drug molecule fingerprints.
  • the drug molecule fingerprint is an extended connectivity fingerprint
  • the modal conversion module 31 can also be used to mark each atom in the molecular structure of the drug molecule with an identifier, and assign the identifier of each atom to
  • the hash value of is stored in a pre-built identifier set; a key list is created for each atom, and the key levels and identifiers of the atom's neighboring atoms are stored in each atom's key list; each atom's The hash value of the key list is used as the updated identifier of the atom, and the updated identifier of each atom is stored in the identifier set; all identifiers in the identifier set are extracted to obtain the drug molecule fingerprint.
  • the feature extraction module 32 can be used to extract the language structure features in the drug molecule sequence through the language model in the multi-modal feature extraction model to obtain the feature vector of the drug molecule sequence; through the multi-modal feature extraction model, The graph neural network in the multi-modal feature extraction model extracts the atomic features and chemical bond features in the drug molecule graph to obtain the feature vector of the drug molecule graph; through the convolutional neural network in the multi-modal feature extraction model, the drug molecule image is extracted Extract the image features in the drug molecule image to obtain the feature vector of the drug molecule image; through the deep neural network in the multi-modal feature extraction model, extract the identifier features in the drug molecule fingerprint to obtain the feature vector of the drug molecule fingerprint.
  • the feature fusion module 33 can be used to convert multi-modal drug molecule feature vectors into multi-modal high-dimensional feature vectors of the same dimension; input the multi-modal high-dimensional feature vectors into the predetermined In the trained feature enhancement model, the attention coefficient of the multi-modal high-dimensional feature vector is obtained; according to the attention coefficient of the multi-modal high-dimensional feature vector, the multi-modal high-dimensional feature vector is weighted and summed to obtain Fusion eigenvectors of drug molecules.
  • the device also includes a model training module 35.
  • the model training module 35 can be used to obtain multiple drug molecule samples, and perform modal conversion on the molecular structure of each drug molecule sample to obtain each drug molecule.
  • the multi-modal drug molecule structure of the sample, where each drug molecule sample contains a classification label with predetermined properties; based on the multi-modal drug molecule structure of multiple drug molecule samples, a language model, a graph neural network, and a volume are constructed respectively.
  • Convolutional neural network deep neural network and neural network; input the multi-modal drug molecule structures of multiple drug molecule samples into the language model, graph neural network, convolutional neural network and deep neural network respectively to obtain each drug molecule
  • the multi-modal drug molecule feature vector of the sample convert the multi-modal drug molecule feature vector of each drug molecule sample into a multi-modal high-dimensional feature vector, and calculate the multi-modal high-dimensional feature vector of each drug molecule sample.
  • Dimensional feature vectors are used for feature fusion to obtain the fusion feature vector of each drug molecule sample; using the fusion feature vector of each drug molecule sample as input and the classification label of each drug molecule sample as output, the language model and graph neural network are , convolutional neural network, deep neural network and neural network are trained simultaneously and iteratively to obtain a multi-modal feature extraction model and a drug molecular property prediction model.
  • the model training module 35 can also be used to construct an attention network; input the multi-modal high-dimensional feature vector of each drug molecule sample into the attention network to obtain the The attention coefficient of the multi-modal high-dimensional feature vector; weight the multi-modal high-dimensional feature vector of each drug molecule sample according to the attention coefficient of the multi-modal high-dimensional feature vector of each drug molecule sample Sum up to obtain the fusion feature vector of each drug molecule sample; take the fusion feature vector of each drug molecule sample as input, and use the classification label of each drug molecule sample as output, iteratively train the attention network to obtain feature enhancement Model.
  • this embodiment also provides a computer-readable storage medium.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the computer-readable storage medium stores computer-readable instructions. When the computer-readable instructions are executed by the processor, the above-mentioned method for predicting the properties of drug molecules as shown in Figures 1 and 2 is implemented.
  • the technical solution of this application can be embodied in the form of a software product.
  • the software product to be identified can be stored in a non-volatile storage medium (which can be a CD-ROM, U disk, mobile hard disk, etc.) or
  • the volatile storage medium includes several instructions to cause a computer device (which may be a personal computer, a server, or a network device, etc.) to execute the method described in each implementation scenario of this application.
  • Computer equipment for property prediction can specifically be a personal computer, server, smartphone, tablet computer, smart watch, or other network equipment.
  • the computer equipment includes: a processor, a memory, and a device that is stored in the memory and can run on the processor.
  • Computer-readable instructions wherein the memory and the processor are both arranged on the bus, and when the processor executes the computer-readable instructions, the above-mentioned method for predicting the properties of drug molecules as shown in Figures 1 and 2 is implemented.
  • the computer device may also include an internal memory, a communication interface, a network interface, a camera, a radio frequency (RF) circuit, a sensor, an audio circuit, a WI-FI module, a display (Display), and an input device such as a keyboard. (Keyboard), etc.
  • the communication interface can also include a USB interface, a card reader interface, etc.
  • Optional network interfaces may include standard wired interfaces, wireless interfaces (such as WI-FI interfaces), etc.
  • a computer device for identifying operational actions does not constitute a limitation on the computer device, and may include more or less components, or combine certain components, or different components. component layout.
  • the storage medium may also include an operating system and a network communication module.
  • the operating system is a program that manages the above-mentioned computer equipment hardware and software resources to be identified, and supports the operation of information processing programs and other software and/or programs to be identified.
  • the network communication module is used to realize communication between components within the storage medium, as well as communication with other hardware and software in the information processing computer equipment.
  • the present application can be implemented by means of software plus a necessary general hardware platform, or can also be implemented by hardware.
  • the molecular structure of the drug molecule is first converted into a multi-modal drug molecule structure, and then feature extraction is performed on the drug molecule structure of each mode of the drug molecule through a pre-trained multi-modal feature extraction model. , and then perform feature fusion on the drug molecule feature vectors of each mode, and finally obtain the property prediction results of the drug molecules based on the fused feature vectors of the drug molecules.
  • the above method can obtain a more comprehensive representation of the characteristics of drug molecules, thereby predicting the properties of drug molecules more accurately and effectively, effectively speeding up the speed and success rate of drug development, and reducing the cost of drug development.
  • the cost of molecular property prediction can obtain a more comprehensive representation of the characteristics of drug molecules, thereby predicting the properties of drug molecules more accurately and effectively, effectively speeding up the speed and success rate of drug development, and reducing the cost of drug development.
  • the cost of molecular property prediction is a more comprehensive representation of the characteristics of drug molecules, thereby predicting the properties of drug molecules more accurately and effectively, effectively speeding up the speed and success rate of drug development, and reducing the cost of drug development.
  • the accompanying drawing is only a schematic diagram of a preferred implementation scenario, and the modules or processes in the accompanying drawing are not necessarily necessary for implementing the present application.
  • the modules in the devices in the implementation scenario can be distributed in the devices in the implementation scenario according to the description of the implementation scenario, or can be correspondingly changed and located in one or more devices different from the implementation scenario.
  • the modules of the above implementation scenarios can be combined into one module or further split into multiple sub-modules.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种药物分子的性质预测方法、装置、存储介质及计算机设备,涉及人工智能及数字医疗技术领域。其中方法包括:获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹;通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。

Description

药物分子的性质预测方法、装置、存储介质及计算机设备
本申请要求于2022年03月09日提交中国专利局、申请号为202210231663.9,发明名称为“药物分子的性质预测方法、装置、存储介质及计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能及数字医疗技术领域,尤其是涉及一种药物分子的性质预测方法、装置、存储介质及计算机设备。
背景技术
药物发现是一种确定具有潜在治疗作用的新候选化合物的过程,其中,对药物分子的各类性质的预测,是药物发现过程中必不可少的一步。不良的药代动力学性质(吸收、分布、代谢和排泄,ADME)和毒性(T)是导致药物开发失败的主要原因之一,因此,在药物研究的早期阶段,对候选药物分子的ADMET性质进行评估是至关重要的。
以往,都是通过实验验证药物分子的性质,但是,这种验证方式耗时长、耗费大,而且特难以做到全面、准确的预测。目前,较为常用的是基于机器学习的方式来学习药物分子的数据分布表征,再使其应用在未知数据上,实现药物分子的性质预测。但是,发明人发现,现有的药物预测模型难以全面的表达药物分子的特征,因此预测的准确性较低。
发明内容
有鉴于此,本申请提供了一种药物分子的性质预测方法、装置、存储介质及计算机设备,主要目的在于解决药物分子性质预测不准确的技术问题。
根据本申请的第一个方面,提供了一种药物分子的性质预测方法,该方法包括:
获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
根据本申请的第二个方面,提供了一种药物分子的性质预测装置,该装置包括:
模态转换模块,用于获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
特征提取模块,用于通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
特征融合模块,用于将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
性质预测模块,用于将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
根据本申请的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机可读 指令,所述计算机可读指令被处理器执行时实现药物分子的性质预测方法,所述方法包括:
获取待预测的药物分子,并对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,所述多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
将所述药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
根据本申请的第四个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现药物分子的性质预测方法,所述方法包括:
获取待预测的药物分子,并对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,所述多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
将所述药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
本申请提供的一种药物分子的性质预测方法、装置、存储介质及计算机设备,首先将药物分子的分子结构转换为多模态的药物分子结构,然后通过预训练的多模态特征提取模型对药物分子的各个模态的药物分子结构进行特征提取,进而对各个模态的药物分子特征向量进行特征融合,最后基于药物分子的融合特征向量得到药物分子的性质预测结果。上述方法可以获得更全面的药物分子特征表示,从而可以更准确、更有效地预测出药物分子的性质,有效的加快了药物研发的速度和成功率,并降低了药物分子性质预测的成本。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种药物分子的性质预测方法的流程示意图;
图2示出了本申请实施例提供的一种药物分子的性质预测方法的操作流程示意图;
图3示出了本申请实施例提供的一种药物分子的性质预测装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在一个实施例中,如图1和图2所示,提供了一种药物分子的性质预测方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
101、获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构。
其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种。在本实施例中,药物分子序列指的是通过字符串表示的药物分子结构,如SMILES表达式等,类似于语言序列;药物分子图指的是通过数据结构图表示的药物分子结构;药物分子图像指的是通过平面图片表示的药物分子结构;药物分子指纹指的是通过一系列比特串表示的药物分子结构。
具体的,计算机设备可以通过数据接口或网络等途径获取到待预测的药物分子,然后通过与每个模态的药物分子结构相对应的模态转换方式,对药物分子的分子结构进行多轮次的模态转换处理,得到多模态的药物分子结构。
102、通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量。
其中,针对每个模态的药物分子结构,可以采用与该模态对应的特征提取方式,对每个模态的药物分子结构的进行特征提取,从而得到多模态的药物分子特征向量。在本实施例中,经过特征提取后,可以得到药物分子序列的特征向量、药物分子图的特征向量、药物分子图像的特征向量和药物分子指纹的特征向量中的至少两种特征向量。
103、将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量。
具体的,在得到多模态的药物分子特征向量之后,可以先将不同模态的药物分子特征向量先转化为高维特征表达,再于模型的中间层进行融合。其中,中间融合可以利用神经网络将多模态的药物分子特征向量转化成高维特征表达(例如768维),然后再获取不同模态数据在高维空间上的共性,从而对多个模态的高维特征向量进行融合操作,以得到更加完备、充分的药物分子的融合特征向量。
104、将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
具体的,在得到药物分子的融合特征向量之后,可以将药物分子的融合特征向量输入到预先训练好的药物分子性质预测模型中,以得到药物分子的性质预测结果。其中,药物分子性质预测模型可以通过神经网络等机器学习模型训练得到,本实施例在此不做具体限定。
本实施例提供的药物分子的性质预测方法,首先将药物分子的分子结构转换为多模态的药物分子结构,然后通过预训练的多模态特征提取模型对药物分子的各个模态的药物分子结构进行特征提取,进而对各个模态的药物分子特征向量进行特征融合,最后基于药物分子的融合特征向量得到药物分子的性质预测结果。上述方法可以获得更全面的药物分子特征表示,从而可以更准确、更有效地预测出药物分子的性质,有效的加快了药物研发的速度和成功率,并降低了药物分子性质预测的成本。
在一个实施例中,步骤101中对药物分子的分子结构进行模态转换的方法可以通过以下方法实现:首先,按照预定的分子结构转换规则,将药物分子的分子结构转换为字符串格式,得到药物分子序列,例如,可以按照SMILES的转换规则将药物分子的分子结构转换为SMILES表达式。其次,将药物分子的分子结构的原子转换为药物分子图的节点,将药物分子的分子结构的化学键转换为药物分子图的边,得到药物分子图,其中,在药物分子图中,还可以添加原子或化学键的多种属性信息或特征信息,以丰富药物药物分子图的特征信息。进一步的,可以通过拍照、截图、图像转换等方式将药物分子的分子结构转换为二维图像,得到药物分子图像,图像转换的方式较为简单,这里不做过多赘述。最后,可以提取出药物分子的分子结构中的结构特征,并将结构特征编码为比特向量,得到药物分子指纹,其中,药物分子指纹是一种分子的抽象表征,它可以将药物分子转化(编码) 为一系列比特串(即比特向量),然后可以很容易地在药物分子之间进行比较,较为常用的方法是将提取出药物分子的结构特征,然后哈希(Hashing)生成比特向量,并以此作为药物分子指纹。可以理解的是,模态转换的方式较为多样,因此,转换的方式可以不限于以上几种,可以根据实际情况进行选择。
在一个实施例中,药物分子指纹具体可以为扩展连通性指纹,在这种情形下,药物分子指纹的提取方法可以包括以下步骤:首先为药物分子的分子结构中的每个原子标记一个标识符,并将每个原子的标识符的哈希值存储在预先建立的标识符集合中,然后为每个原子创建一个键列表,并在每个原子的键列表中存储原子的相邻原子的键级和标识符,进而将每个原子的键列表的哈希值作为原子更新后的标识符,并将每个原子更新后的标识符存储在标识符集合中,最后对标识符集合中的所有标识符进行提取,得到药物分子指纹。
在上述实施例中,扩展连通性指纹是一种环形指纹(Circular fingerprint),其定义需要设定半径n(即迭代次数),然后计算每个原子识别符(identifier),该识别符类似Morgan指纹中的连通性,最终由半径为n的环境决定。其中,扩展连通性指纹的算法如下:首先创建集合S储存所有原子的识别符,然后使用32位的整数标记每个原子,比如可以使用Morgan算法或者CANGEN算法,然后将他们哈希化后加入到S中,进一步的,对于每个原子,创建一个“键列表”储存该原子周边原子的信息,该列表可以先根据键级(如单键、双键、三建等)排序,再根据周边原子识别符大小排序,然后用如下信息填充上述列表:内容为[n,identifier,bo1,aid1,bo2,aid2,…],其中,n为迭代次数,开始为0,bo1为第1根键的键级,aid1是第1根键所连原子的识别符,后面的以此类推,然后计算特征列表的哈希值,作为该原子新的识别符,如果新算出的识别符在结构上与S中的不重复,则加入到S中,如此不断迭代直至循环结束。在本实施例中,药物分子指纹可以作为其他三种模态的药物分子结构的良好补充,更加充分地挖掘和让各个模态之间优势互补,从而更加有效且精准地实现小分子药物性质的预测。
在一个实施例中,步骤102中对各模态的药物分子结构进行特征提取的方法可以通过以下方法实现:通过多模态特征提取模型中的语言模型,对药物分子序列中的语言结构特征进行提取,得到药物分子序列的特征向量;通过多模态特征提取模型中的图神经网络,对药物分子图中的原子特征和化学键特征进行提取,得到药物分子图的特征向量;通过多模态特征提取模型中的卷积神经网络,对药物分子图像中的图像特征进行提取,得到药物分子图像的特征向量;通过多模态特征提取模型中的深度神经网络,对药物分子指纹中的识别符特征进行提取,得到药物分子指纹的特征向量。
在上述实施例中,语言模型能够提取出药物分子序列中隐藏的结构信息和序列间的关联信息,通过将提取出信息拼接在一起再经过一个全连接层后进行降维,即可得到药物分子序列的低维稠密特征向量表达。图神经网络能够提取出药物分子图的原子节点的特征和原子之间的连边化学键信息,从而抽取出整个分子化合物的分子级别的特征。卷积神经网络能够提取出药物分子图像中不同层级的图像特征,并能够逐层递进,并提取出整个药物分子图像的全部图像特征。深度神经网能够提取出药物分子指纹中深层次的特征,该特征可以作为其他三种模态特征的良好补充,从而实现各模态特征之间的优势互补,最终有助于提升药物分子性质预测的准确性。
在一个实施例中,步骤103中对各模态的药物分子特征向量进行特征融合的方法可以通过以下方法实现:首先将多模态的药物分子特征向量转换为相同维度的多模态的高维特征向量,然后将多模态的高维特征向量输入到预训练的特征增强模型中,得到多模态的高维特征向量的注意力系数,最后根据多模态的高维特征向量的注意力系数,对多模态的高维特征向量进行加权求和,得到药物分子的融合特征向量。
在上述实施例中,在得到多种不同模态的药物分子特征向量之后,可以将不同的模态的特征向量通过常规的操作进行整合,例如通过拼接和加权求和的方式进行整合。但是, 常规的整合操作会使得参数之间没有任何联系,因此,本实施例通过网络层自动对特征向量的融合操作进行自适应操作,并通过预训练的特征增强模型来确定各模态的贡献程度。在本实施例中,可以使用注意力机制得到各模态的特征向量的注意力系数,并以此实现多模态信息的融合。具体的,可以将各模态的高维特征向量F i输入到训练好的注意力网络中,且模态i所占的注意力权重为β i,通过加权累加,即可以得到最后用于药物分子性质预测的融合总特征F all,其计算的表达式为:
Figure PCTCN2022089687-appb-000001
β i=softmax(P i)
Figure PCTCN2022089687-appb-000002
其中:P i为隐藏单元状态,
Figure PCTCN2022089687-appb-000003
Figure PCTCN2022089687-appb-000004
分别是权重和偏置,β i是经归一化后的权重向量。通过这种方式,可以有效的提成融合特征向量的特征表达准确度,从而提升药物分子性质预测的准确性。
在一个实施例中,多模态特征提取模型和药物分子性质预测模型可以通过以下方法训练得到:
201、获取多个药物分子样本,并对每个药物分子样本的分子结构进行模态转换,得到每个药物分子样本的多模态的药物分子结构。
其中,对药物分子样本的分子结构进行模态转换的方式如上文所述,这里不再赘述。在本实施例中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹,每个药物分子样本均包含一个预定性质的分类标签,即如果药物分子性质预测模型需要预测药物分子的毒性,则预定性质就是毒性,分类标签则为有毒和无毒两种。
202、根据多个药物分子样本的多模态的药物分子结构,分别构建语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络。
其中,语言模型用于提取药物分子序列的特征,图神经网络用于提取药物分子图的特征,卷积神经网络用于提取药物分子图像的特征,深度神经网络用于提取药物分子指纹的特征,注意力网络用于融合各个模态的高维度特征,神经网络用于对融合后的多模态特征进行分类,即对药物分子的性质进行预测。
203、将多个药物分子样本的多模态的药物分子结构分别输入到语言模型、图神经网络、卷积神经网络和深度神经网络中,得到每个药物分子样本的多模态的药物分子特征向量。
204、将每个药物分子样本的多模态的药物分子特征向量转换为多模态的高维特征向量,并对每个药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量。
205、以每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络进行同步迭代训练,得到多模态特征提取模型和药物分子性质预测模型。
在一个实施例中,上述模型训练过程还可以包括以下步骤:构建一个注意力网络,然后将每个药物分子样本的多模态的高维特征向量输入到注意力网络中,得到每个药物分子样本的多模态的高维特征向量的注意力系数,进而根据每个药物分子样本的多模态的高维特征向量的注意力系数,对每个药物分子样本的多模态的高维特征向量进行加权求和,得到每个药物分子样本的融合特征向量,最后以每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对注意力网络进行迭代训练,得到特征增强模型。
在上述实施例中,多模态特征提取模型和药物分子性质预测模型结合了语言模型、图神经网络、卷积神经网络、深度神经网络、注意力网络和神经网络等多种模型的优势,可以准确的提取出药物分子各模态的特征信息,并可以对各模态的特征向量进行准确的融合 和预测,从而有效的提升了药物分子性质预测的准确性和泛化性,提高了药物研发的速度和成功率,降低了药物分子性质预测的成本。
进一步的,作为图1、图2所示方法的具体实现,本实施例提供了一种药物分子的性质预测装置,如图3所示,该装置包括:模态转换模块31、特征提取模块32、特征融合模块33和性质预测模块34,其中:
模态转换模块31,可用于获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
特征提取模块32,可用于通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
特征融合模块33,可用于将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
性质预测模块34,可用于将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
在具体的应用场景中,模态转换模块31,具体可用于按照预定的分子结构转换规则,将药物分子的分子结构转换为字符串格式,得到药物分子序列;将药物分子的分子结构的原子转换为药物分子图的节点,将药物分子的分子结构的化学键转换为药物分子图的边,得到药物分子图;将药物分子的分子结构转换为二维图像,得到药物分子图像;提取出药物分子的分子结构中的结构特征,并将结构特征编码为比特向量,得到药物分子指纹。
在具体的应用场景中,药物分子指纹为扩展连通性指纹;模态转换模块31,具体还可用于为药物分子的分子结构中的每个原子标记一个标识符,并将每个原子的标识符的哈希值存储在预先建立的标识符集合中;为每个原子创建一个键列表,并在每个原子的键列表中存储原子的相邻原子的键级和标识符;将每个原子的键列表的哈希值作为原子更新后的标识符,并将每个原子更新后的标识符存储在标识符集合中;对标识符集合中的所有标识符进行提取,得到药物分子指纹。
在具体的应用场景中,特征提取模块32,具体可用于通过多模态特征提取模型中的语言模型,对药物分子序列中的语言结构特征进行提取,得到药物分子序列的特征向量;通过多模态特征提取模型中的图神经网络,对药物分子图中的原子特征和化学键特征进行提取,得到药物分子图的特征向量;通过多模态特征提取模型中的卷积神经网络,对药物分子图像中的图像特征进行提取,得到药物分子图像的特征向量;通过多模态特征提取模型中的深度神经网络,对药物分子指纹中的识别符特征进行提取,得到药物分子指纹的特征向量。
在具体的应用场景中,特征融合模块33,具体可用于将多模态的药物分子特征向量转换为相同维度的多模态的高维特征向量;将多模态的高维特征向量输入到预训练的特征增强模型中,得到多模态的高维特征向量的注意力系数;根据多模态的高维特征向量的注意力系数,对多模态的高维特征向量进行加权求和,得到药物分子的融合特征向量。
在具体的应用场景中,本装置还包括模型训练模块35,模型训练模块35具体可用于获取多个药物分子样本,并对每个药物分子样本的分子结构进行模态转换,得到每个药物分子样本的多模态的药物分子结构,其中,每个药物分子样本包含一个预定性质的分类标签;根据多个药物分子样本的多模态的药物分子结构,分别构建语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络;将多个药物分子样本的多模态的药物分子结构分别输入到语言模型、图神经网络、卷积神经网络和深度神经网络中,得到每个药物分子样本的多模态的药物分子特征向量;将每个药物分子样本的多模态的药物分子特征向量转换为多模态的高维特征向量,并对每个药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量;以每个药物分子样本的融合特征向量为输入, 以每个药物分子样本的分类标签为输出,对语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络进行同步迭代训练,得到多模态特征提取模型和药物分子性质预测模型。
在具体的应用场景中,模型训练模块35具体还可用于构建一个注意力网络;将每个药物分子样本的多模态的高维特征向量输入到注意力网络中,得到每个药物分子样本的多模态的高维特征向量的注意力系数;根据每个药物分子样本的多模态的高维特征向量的注意力系数,对每个药物分子样本的多模态的高维特征向量进行加权求和,得到每个药物分子样本的融合特征向量;以每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对注意力网络进行迭代训练,得到特征增强模型。
需要说明的是,本实施例提供的一种药物分子的性质预测装置所涉及各功能单元的其它相应描述,可以参考图1、图2中的对应描述,在此不再赘述。
基于上述如图1、图2所示方法,相应的,本实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性。所述计算机可读存储介质上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述如图1、图2所示的药物分子的性质预测方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或易失性存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3所示的药物分子的性质预测装置实施例,为了实现上述目的,如图4所示,本实施例还提供了一种药物分子的性质预测的计算机设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该计算机设备包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机可读指令,其中存储器和处理器均设置在总线上,所述处理器执行所述计算机可读指令时实现上述上述如图1、图2所示的药物分子的性质预测方法。
可选的,该计算机设备还可以包括内存储器、通信接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块、显示屏(Display)、输入装置比如键盘(Keyboard)等,可选的,通信接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种操作动作的识别的计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理计算机设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,首先将药物分子的分子结构转换为多模态的药物分子结构,然后通过预训练的多模态特征提取模型对药物分子的各个模态的药物分子结构进行特征提取,进而对各个模态的药物分子特征向量进行特征融合,最后基于药物分子的融合特征向量得到药物分子的性质预测结果。与现有技术相比,上述方法可以获得更全面的药物分子特征表示,从而可以更准确、更有效地预测出药物分子的性质,有效的加快了药物研发的速度和成功率,并降低了药物分子性质预测的成本。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (22)

  1. 一种药物分子的性质预测方法,其中,所述方法包括:
    获取待预测的药物分子,并对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,所述多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
    通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
    将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
    将所述药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
  2. 根据权利要求1所述的方法,其中,所述对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,包括:
    按照预定的分子结构转换规则,将所述药物分子的分子结构转换为字符串格式,得到所述药物分子序列;
    将所述药物分子的分子结构的原子转换为药物分子图的节点,将所述药物分子的分子结构的化学键转换为药物分子图的边,得到所述药物分子图;
    将所述药物分子的分子结构转换为二维图像,得到所述药物分子图像;
    提取出所述药物分子的分子结构中的结构特征,并将所述结构特征编码为比特向量,得到所述药物分子指纹。
  3. 根据权利要求2所述的方法,其中,所述药物分子指纹为扩展连通性指纹;则所述提取出所述药物分子的分子结构中的结构特征,并将所述结构特征编码为比特向量,得到所述药物分子指纹,包括:
    为所述药物分子的分子结构中的每个原子标记一个标识符,并将每个所述原子的标识符的哈希值存储在预先建立的标识符集合中;
    为每个所述原子创建一个键列表,并在每个所述原子的键列表中存储所述原子的相邻原子的键级和标识符;
    将每个所述原子的键列表的哈希值作为所述原子更新后的标识符,并将每个所述原子更新后的标识符存储在所述标识符集合中;
    对所述标识符集合中的所有标识符进行提取,得到所述药物分子指纹。
  4. 根据权利要求1所述的方法,其中,所述通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量,包括:
    通过所述多模态特征提取模型中的语言模型,对所述药物分子序列中的语言结构特征进行提取,得到药物分子序列的特征向量;
    通过所述多模态特征提取模型中的图神经网络,对所述药物分子图中的原子特征和化学键特征进行提取,得到药物分子图的特征向量;
    通过多模态特征提取模型中的卷积神经网络,对所述药物分子图像中的图像特征进行提取,得到药物分子图像的特征向量;
    通过多模态特征提取模型中的深度神经网络,对所述药物分子指纹中的识别符特征进行提取,得到药物分子指纹的特征向量。
  5. 根据权利要求1所述的方法,其中,所述将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量,包括:
    将所述多模态的药物分子特征向量转换为相同维度的多模态的高维特征向量;
    将所述多模态的高维特征向量输入到预训练的特征增强模型中,得到所述多模态的高维特征向量的注意力系数;
    根据所述多模态的高维特征向量的注意力系数,对所述多模态的高维特征向量进行加权求和,得到所述药物分子的融合特征向量。
  6. 根据权利要求1-5任一项所述的方法,其中,所述多模态特征提取模型和所述药物分子性质预测模型的训练方法,包括:
    获取多个药物分子样本,并对每个药物分子样本的分子结构进行模态转换,得到每个药物分子样本的多模态的药物分子结构,其中,每个所述药物分子样本包含一个预定性质的分类标签;
    根据所述多个药物分子样本的多模态的药物分子结构,分别构建语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络;
    将所述多个药物分子样本的多模态的药物分子结构分别输入到所述语言模型、所述图神经网络、所述卷积神经网络和所述深度神经网络中,得到每个药物分子样本的多模态的药物分子特征向量;
    将所述每个药物分子样本的多模态的药物分子特征向量转换为多模态的高维特征向量,并对每个所述药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量;
    以所述每个药物分子样本的融合特征向量为输入,以所述每个药物分子样本的分类标签为输出,对所述语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络进行同步迭代训练,得到所述多模态特征提取模型和药物分子性质预测模型。
  7. 根据权利要求6所述的方法,其中,所述对每个所述药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量,包括:
    构建一个注意力网络;
    将每个药物分子样本的多模态的高维特征向量输入到所述注意力网络中,得到每个药物分子样本的多模态的高维特征向量的注意力系数;
    根据所述每个药物分子样本的多模态的高维特征向量的注意力系数,对每个药物分子样本的多模态的高维特征向量进行加权求和,得到每个药物分子样本的融合特征向量;
    所述方法还包括:
    以所述每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对所述注意力网络进行迭代训练,得到特征增强模型。
  8. 一种药物分子的性质预测装置,其中,所述装置包括:
    模态转换模块,用于获取待预测的药物分子,并对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,所述多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
    特征提取模块,用于通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
    特征融合模块,用于将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
    性质预测模块,用于将所述药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
  9. 一种计算机可读存储介质,其上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现药物分子的性质预测方法,所述方法包括:
    获取待预测的药物分子,并对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,所述多模态的药物分子结构包括药物分子序列、药物分子图、药 物分子图像和药物分子指纹中的至少两种;
    通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
    将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
    将所述药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
  10. 根据权利要求9所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,包括:
    按照预定的分子结构转换规则,将所述药物分子的分子结构转换为字符串格式,得到所述药物分子序列;
    将所述药物分子的分子结构的原子转换为药物分子图的节点,将所述药物分子的分子结构的化学键转换为药物分子图的边,得到所述药物分子图;
    将所述药物分子的分子结构转换为二维图像,得到所述药物分子图像;
    提取出所述药物分子的分子结构中的结构特征,并将所述结构特征编码为比特向量,得到所述药物分子指纹。
  11. 根据权利要求10所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述药物分子指纹为扩展连通性指纹;则所述提取出所述药物分子的分子结构中的结构特征,并将所述结构特征编码为比特向量,得到所述药物分子指纹,包括:
    为所述药物分子的分子结构中的每个原子标记一个标识符,并将每个所述原子的标识符的哈希值存储在预先建立的标识符集合中;
    为每个所述原子创建一个键列表,并在每个所述原子的键列表中存储所述原子的相邻原子的键级和标识符;
    将每个所述原子的键列表的哈希值作为所述原子更新后的标识符,并将每个所述原子更新后的标识符存储在所述标识符集合中;
    对所述标识符集合中的所有标识符进行提取,得到所述药物分子指纹。
  12. 根据权利要求9所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量,包括:
    通过所述多模态特征提取模型中的语言模型,对所述药物分子序列中的语言结构特征进行提取,得到药物分子序列的特征向量;
    通过所述多模态特征提取模型中的图神经网络,对所述药物分子图中的原子特征和化学键特征进行提取,得到药物分子图的特征向量;
    通过多模态特征提取模型中的卷积神经网络,对所述药物分子图像中的图像特征进行提取,得到药物分子图像的特征向量;
    通过多模态特征提取模型中的深度神经网络,对所述药物分子指纹中的识别符特征进行提取,得到药物分子指纹的特征向量。
  13. 根据权利要求9所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量,包括:
    将所述多模态的药物分子特征向量转换为相同维度的多模态的高维特征向量;
    将所述多模态的高维特征向量输入到预训练的特征增强模型中,得到所述多模态的高维特征向量的注意力系数;
    根据所述多模态的高维特征向量的注意力系数,对所述多模态的高维特征向量进行 加权求和,得到所述药物分子的融合特征向量。
  14. 根据权利要求9-13任一项所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述多模态特征提取模型和所述药物分子性质预测模型的训练方法,包括:
    获取多个药物分子样本,并对每个药物分子样本的分子结构进行模态转换,得到每个药物分子样本的多模态的药物分子结构,其中,每个所述药物分子样本包含一个预定性质的分类标签;
    根据所述多个药物分子样本的多模态的药物分子结构,分别构建语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络;
    将所述多个药物分子样本的多模态的药物分子结构分别输入到所述语言模型、所述图神经网络、所述卷积神经网络和所述深度神经网络中,得到每个药物分子样本的多模态的药物分子特征向量;
    将所述每个药物分子样本的多模态的药物分子特征向量转换为多模态的高维特征向量,并对每个所述药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量;
    以所述每个药物分子样本的融合特征向量为输入,以所述每个药物分子样本的分类标签为输出,对所述语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络进行同步迭代训练,得到所述多模态特征提取模型和药物分子性质预测模型。
  15. 根据权利要求14所述的计算机可读存储介质,其中,所述计算机可读指令被处理器执行时实现所述对每个所述药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量,包括:
    构建一个注意力网络;
    将每个药物分子样本的多模态的高维特征向量输入到所述注意力网络中,得到每个药物分子样本的多模态的高维特征向量的注意力系数;
    根据所述每个药物分子样本的多模态的高维特征向量的注意力系数,对每个药物分子样本的多模态的高维特征向量进行加权求和,得到每个药物分子样本的融合特征向量;
    所述方法还包括:
    以所述每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对所述注意力网络进行迭代训练,得到特征增强模型。
  16. 一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机可读指令,其中,所述处理器执行所述计算机可读指令时实现药物分子的性质预测方法,所述方法包括:
    获取待预测的药物分子,并对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,所述多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
    通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
    将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
    将所述药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
  17. 根据权利要求16所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,包括:
    按照预定的分子结构转换规则,将所述药物分子的分子结构转换为字符串格式,得 到所述药物分子序列;
    将所述药物分子的分子结构的原子转换为药物分子图的节点,将所述药物分子的分子结构的化学键转换为药物分子图的边,得到所述药物分子图;
    将所述药物分子的分子结构转换为二维图像,得到所述药物分子图像;
    提取出所述药物分子的分子结构中的结构特征,并将所述结构特征编码为比特向量,得到所述药物分子指纹。
  18. 根据权利要求17所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述药物分子指纹为扩展连通性指纹;则所述提取出所述药物分子的分子结构中的结构特征,并将所述结构特征编码为比特向量,得到所述药物分子指纹,包括:
    为所述药物分子的分子结构中的每个原子标记一个标识符,并将每个所述原子的标识符的哈希值存储在预先建立的标识符集合中;
    为每个所述原子创建一个键列表,并在每个所述原子的键列表中存储所述原子的相邻原子的键级和标识符;
    将每个所述原子的键列表的哈希值作为所述原子更新后的标识符,并将每个所述原子更新后的标识符存储在所述标识符集合中;
    对所述标识符集合中的所有标识符进行提取,得到所述药物分子指纹。
  19. 根据权利要求16所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量,包括:
    通过所述多模态特征提取模型中的语言模型,对所述药物分子序列中的语言结构特征进行提取,得到药物分子序列的特征向量;
    通过所述多模态特征提取模型中的图神经网络,对所述药物分子图中的原子特征和化学键特征进行提取,得到药物分子图的特征向量;
    通过多模态特征提取模型中的卷积神经网络,对所述药物分子图像中的图像特征进行提取,得到药物分子图像的特征向量;
    通过多模态特征提取模型中的深度神经网络,对所述药物分子指纹中的识别符特征进行提取,得到药物分子指纹的特征向量。
  20. 根据权利要求16所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量,包括:
    将所述多模态的药物分子特征向量转换为相同维度的多模态的高维特征向量;
    将所述多模态的高维特征向量输入到预训练的特征增强模型中,得到所述多模态的高维特征向量的注意力系数;
    根据所述多模态的高维特征向量的注意力系数,对所述多模态的高维特征向量进行加权求和,得到所述药物分子的融合特征向量。
  21. 根据权利要求16-20任一项所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述多模态特征提取模型和所述药物分子性质预测模型的训练方法,包括:
    获取多个药物分子样本,并对每个药物分子样本的分子结构进行模态转换,得到每个药物分子样本的多模态的药物分子结构,其中,每个所述药物分子样本包含一个预定性质的分类标签;
    根据所述多个药物分子样本的多模态的药物分子结构,分别构建语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络;
    将所述多个药物分子样本的多模态的药物分子结构分别输入到所述语言模型、所述图神经网络、所述卷积神经网络和所述深度神经网络中,得到每个药物分子样本的多模态 的药物分子特征向量;
    将所述每个药物分子样本的多模态的药物分子特征向量转换为多模态的高维特征向量,并对每个所述药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量;
    以所述每个药物分子样本的融合特征向量为输入,以所述每个药物分子样本的分类标签为输出,对所述语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络进行同步迭代训练,得到所述多模态特征提取模型和药物分子性质预测模型。
  22. 根据权利要求21所述的计算机设备,其中,所述处理器执行所述计算机可读指令时实现所述对每个所述药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量,包括:
    构建一个注意力网络;
    将每个药物分子样本的多模态的高维特征向量输入到所述注意力网络中,得到每个药物分子样本的多模态的高维特征向量的注意力系数;
    根据所述每个药物分子样本的多模态的高维特征向量的注意力系数,对每个药物分子样本的多模态的高维特征向量进行加权求和,得到每个药物分子样本的融合特征向量;
    所述方法还包括:
    以所述每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对所述注意力网络进行迭代训练,得到特征增强模型。
PCT/CN2022/089687 2022-03-09 2022-04-27 药物分子的性质预测方法、装置、存储介质及计算机设备 WO2023168810A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210231663.9 2022-03-09
CN202210231663.9A CN114613450A (zh) 2022-03-09 2022-03-09 药物分子的性质预测方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
WO2023168810A1 true WO2023168810A1 (zh) 2023-09-14

Family

ID=81861920

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/089687 WO2023168810A1 (zh) 2022-03-09 2022-04-27 药物分子的性质预测方法、装置、存储介质及计算机设备

Country Status (2)

Country Link
CN (1) CN114613450A (zh)
WO (1) WO2023168810A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497576B (zh) * 2022-11-17 2023-04-07 苏州创腾软件有限公司 基于图神经网络的聚合物性质预测方法和系统
CN116825234B (zh) * 2023-08-30 2023-11-07 江西农业大学 一种多模态信息融合的药物分子活性预测方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019231624A2 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
WO2020243440A1 (en) * 2019-05-31 2020-12-03 D. E. Shaw Research, Llc. Molecular graph generation from structural features using an artificial neural network
WO2022022173A1 (zh) * 2020-07-30 2022-02-03 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN114530211A (zh) * 2022-01-10 2022-05-24 山东师范大学 一种药物分子性质预测分类方法及系统
CN115240781A (zh) * 2021-04-23 2022-10-25 中国科学院深圳先进技术研究院 药物分子特征属性的预测方法及预测装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019231624A2 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
WO2020243440A1 (en) * 2019-05-31 2020-12-03 D. E. Shaw Research, Llc. Molecular graph generation from structural features using an artificial neural network
WO2022022173A1 (zh) * 2020-07-30 2022-02-03 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN115240781A (zh) * 2021-04-23 2022-10-25 中国科学院深圳先进技术研究院 药物分子特征属性的预测方法及预测装置
CN114530211A (zh) * 2022-01-10 2022-05-24 山东师范大学 一种药物分子性质预测分类方法及系统

Also Published As

Publication number Publication date
CN114613450A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
WO2023029351A1 (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN107066464B (zh) 语义自然语言向量空间
JP7112536B2 (ja) テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
CN107004159B (zh) 主动机器学习
WO2023168810A1 (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN106973244A (zh) 使用弱监督为图像配字幕
WO2021238333A1 (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
WO2021179693A1 (zh) 医疗文本翻译方法、装置及存储介质
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
WO2024099037A1 (zh) 数据处理、实体链接方法、装置和计算机设备
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备
CN110851609A (zh) 表示学习方法及装置
CN115409111A (zh) 命名实体识别模型的训练方法和命名实体识别方法
Zou et al. Transductive zero-shot hashing for multilabel image retrieval
CN111814496B (zh) 文本处理方法、装置、设备及存储介质
WO2023207790A1 (zh) 一种分类模型的训练方法及装置
Chatterjee et al. Class-biased sarcasm detection using BiLSTM variational autoencoder-based synthetic oversampling
CN115982363A (zh) 基于提示学习的小样本关系分类方法、系统、介质及电子设备
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22930439

Country of ref document: EP

Kind code of ref document: A1