WO2024016376A1 - 一种清洗小分子化合物的数据预处理系统及其方法 - Google Patents

一种清洗小分子化合物的数据预处理系统及其方法 Download PDF

Info

Publication number
WO2024016376A1
WO2024016376A1 PCT/CN2022/109387 CN2022109387W WO2024016376A1 WO 2024016376 A1 WO2024016376 A1 WO 2024016376A1 CN 2022109387 W CN2022109387 W CN 2022109387W WO 2024016376 A1 WO2024016376 A1 WO 2024016376A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
small molecule
smiles
molecule compound
unit
Prior art date
Application number
PCT/CN2022/109387
Other languages
English (en)
French (fr)
Inventor
金羽童
吴俊峰
潘麓蓉
Original Assignee
慧壹科技(上海)有限公司
香港圆壹智慧有限公司
美国圆壹智慧科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 慧壹科技(上海)有限公司, 香港圆壹智慧有限公司, 美国圆壹智慧科技有限公司 filed Critical 慧壹科技(上海)有限公司
Publication of WO2024016376A1 publication Critical patent/WO2024016376A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the invention belongs to the cross-technical field of medicine and artificial intelligence, and in particular relates to a data preprocessing system and method for cleaning small molecule compounds.
  • the first object of the present invention is to provide an efficient, fast, and accurate end-to-end integrated method for cleaning small molecule compounds.
  • the second purpose of the present invention is to obtain an efficient, fast, and accurate end-to-end integrated system for cleaning small molecule compounds.
  • a first aspect of the present invention provides a data preprocessing method for cleaning small molecule compounds.
  • the data preprocessing method includes:
  • the S1 text preprocessing step includes: preprocessing the original SMILES text of the small molecule compound into a standardized SMILES text of the small molecule compound according to predetermined text processing rules;
  • the S2 chemical map formatting step includes: formatting each text element of the standardized SMILES text of the small molecule compound of S1 according to predetermined text processing rules, Obtain a digital map structure of the chemical information of the small molecule compound.
  • the invention also includes step S3, wherein the digital graph structure of the chemical information of the small molecule compound in S2 is used for the construction of the artificial intelligence model.
  • the predetermined text processing rules include:
  • Step S1-1 Optional structural normalization, in which the data of the small molecule compounds are processed into raw SMILES text;
  • Step S1-2 If the original SMILES text includes heavy metal components and organic compound components, remove the heavy metal components from the original SMILES text and retain the organic compound components;
  • Step S1-3 If the original SMILES text includes a multimer component, remove the multimer component from the original SMILES text and retain the longest component;
  • Step S1-4 If the original SMILES text includes charges, add or subtract hydrogen atoms in the original SMILES text to achieve charge removal;
  • Step S1-5 Remove special SMILES text information
  • Step S1-6 Output the standardized sequence and obtain the standardized SMILES text of the small molecule compound.
  • the predetermined text Processing rules include:
  • Step S2-1 Split the standardized SMILES text of the small molecule compound described in S1 into each core text element to obtain the text elements of the small molecule compound;
  • Step S2-2 Perform text processing and identification of the properties of the text elements of the small molecule compound in the step S2-1, identify and complete the simplified chemical information, and obtain a chemical information map of the small molecule compound;
  • Step S2-3 Based on the chemical information map of the small molecule compound in step S2-2, establish a coordinate system with atomic elements as nodes, and construct a digital coordinate system of the chemical information map of the small molecule compound;
  • Step S2-4 According to the digital coordinate system of the chemical information graph of the small molecule compound in step S2-3, add element attributes of nodes and edges to obtain a digital graph structure of the chemical information of the small molecule compound.
  • step S2-5 if necessary, complete the hydrogen atom information of the digital graph structure of the chemical information.
  • step S2-6 is also included: completely outputting the digital graph structure of the chemical information of the small molecule compound.
  • the second aspect of the present invention provides a data preprocessing system for cleaning small molecule compounds, which is suitable for the data preprocessing method according to any one of claims 1 to 5, and is characterized in that it includes:
  • the S1 text preprocessing unit is configured to include: preprocessing the original SMILES data of the small molecule compound into the standardized SMILES text of the small molecule compound according to predetermined text processing rules;
  • the S2 chemical map formatting unit is configured to include: formatting each text element of the standardized SMILES text of the small molecule compound in S1 according to predetermined text processing rules. points to obtain a digital graph structure of the chemical information of the small molecule compound.
  • the invention also includes an S3 unit, which is configured such that the digital graph structure of the chemical information of the small molecule compound of S2 is used for the construction of the artificial intelligence model.
  • the predetermined text processing rules include:
  • Unit S1-1 is set up as: Optional structural normalization, where the data for the small molecule compounds are processed into raw SMILES text;
  • Unit S1-2 is set as follows: if the original SMILES text includes heavy metal components and organic compound components, remove the heavy metal components and retain the organic compound components in the original SMILES text;
  • Unit S1-3 is set as follows: if the original SMILES text includes a multimer component, remove the multimer component from the original SMILES text and retain the longest component;
  • Unit S1-4 is set as follows: if the original SMILES text includes charges, then add or subtract hydrogen atoms in the original SMILES text to achieve charge removal;
  • Unit S1-5 is set to: remove special SMILES text information
  • Unit S1-6 is set to: output the standardized sequence and obtain the standardized SMILES text of the small molecule compound.
  • the predetermined text Processing rules include:
  • Unit S2-1 is set to: split the standardized SMILES text of the small molecule compound described in S1 into each core text element to obtain the text elements of the small molecule compound;
  • the S2-2 unit is configured to: perform text processing and identify the properties of the text elements of the small molecule compound in the S2-1 unit, identify and complete the simplified chemical information, and obtain a chemical information map of the small molecule compound;
  • Unit S2-3 Based on the chemical information map of the small molecule compound in the S2-2 unit, establish a coordinate system with atomic elements as nodes, and construct a digital coordinate system of the chemical information map of the small molecule compound;
  • Unit S2-4 According to the digital coordinate system of the chemical information diagram of the small molecule compound in the S2-3 unit, add element attributes of nodes and edges to obtain a digital diagram structure of the chemical information of the small molecule compound.
  • unit S2-5 is configured to: complete the hydrogen atom information of the digital graph structure of the chemical information if necessary.
  • unit S2-6 completely outputting the digital graph structure of the chemical information of the small molecule compound.
  • a third aspect of the present invention provides an electronic device, which includes: a memory and a processor; wherein the memory is used to store one or more computer instructions, wherein the one or more computer instructions are processed by the processor When executed, the data preprocessing method for cleaning small molecule compounds as described in any one of the present invention is implemented.
  • the method of the present invention is based on big data and natural language processing technology combined with a part of chemical informatics to implement a new method that can reduce computing costs, ultimately achieving more accurate data preprocessing and more convenient downstream use.
  • Figure 1 is a flow chart of the data processing method in the present invention (having two independent but related parts);
  • Figure 2 is a work flow chart in the present invention
  • Figure 3 is a schematic diagram of data variable conversion in the present invention.
  • the terms “comprises”, “comprises” or “includes” indicate that various ingredients can be used together in the mixture or composition of the present invention.
  • the terms “consisting essentially of” and “consisting of” are encompassed by the terms “contains,” “includes,” or “includes.”
  • connection can be a fixed connection, or it can be connected through an intermediary medium, or it can be two elements. Internal connectivity or interaction between two components.
  • connection can be a fixed connection, or it can be connected through an intermediary medium, or it can be two elements. Internal connectivity or interaction between two components.
  • an element or component
  • the one element can be directly formed on, coupled to, or connected to the other element. Either connected to them, or there can be one or more intervening elements between them.
  • the expressions “directly on,” “directly coupled to,” and “directly connected to” are used, there are no intervening element.
  • Other words used to describe the relationship between elements should be interpreted similarly, such as “between” and “directly between,” “attached” and “directly attached ”, “adjacent” and “directly adjacent” and so on.
  • the inventor has gone through extensive and in-depth experiments and found that the present invention is based on the demand reference of artificial intelligence-assisted drug design, and constructs a new process method to perform end-to-end SMILES sequence cleaning, deduplication, and transformation of small molecule compounds.
  • Mathematical graph standardization provides a more accurate and efficient data preprocessing method for downstream artificial intelligence models.
  • the first aspect of the present invention provides a data preprocessing method for cleaning small molecule compounds.
  • the data preprocessing method includes:
  • the S1 text preprocessing step includes: preprocessing the original SMILES text of the small molecule compound into a standardized SMILES text of the small molecule compound according to predetermined text processing rules;
  • the S2 chemical map formatting step includes: formatting each text element of the standardized SMILES text of the small molecule compound of S1 according to predetermined text processing rules, Obtain a digital map structure of the chemical information of the small molecule compound.
  • the invention also includes step S3, wherein the digital graph structure of the chemical information of the small molecule compound in S2 is used for the construction of the artificial intelligence model.
  • the final display result is in Python list format, which can be saved in Python pickle format for downstream deep learning training.
  • the predetermined text processing rules include:
  • Step S1-1 Optional structural normalization, in which the data of the small molecule compound is processed into original SMILES text;
  • Step S1-2 If the original SMILES text includes heavy metal components and organic compound components, remove the heavy metal components from the original SMILES text and retain the organic compound components;
  • Step S1-3 If the original SMILES text includes a multimer component, remove the multimer component from the original SMILES text and retain the longest component;
  • Step S1-4 If the original SMILES text includes charges, add or subtract hydrogen atoms in the original SMILES text to achieve charge removal;
  • Step S1-5 Remove special SMILES text information
  • Step S1-6 Output the standardized sequence and obtain the standardized SMILES text of the small molecule compound.
  • step S1 is explained as follows with reference to the accompanying drawings.
  • the following description is illustrative rather than restrictive, so those skilled in the art can arbitrarily combine the following steps and all fall within the scope of the present invention.
  • Step S1-1 Optional structural normalization, where the data for the small molecule compounds are processed into raw SMILES text.
  • the original data of the small molecule compound is input, and then the chemical structure is standardized, and finally processed into the original SMILES text (usually in text format).
  • Part S1-1 predetermined text processing rules
  • the predetermined text processing rules include but are not limited to:
  • the reorganization process will use text rules to split the SMILES sequence components and then calculate the longest chain.
  • Text of the S1-1-3 standard for recombination of SMILES sequences by longest chain is, for example, the SMILES sequence shown in Figure 3 .
  • Step S1-2 If the original SMILES text includes heavy metal components and organic compound components, remove the heavy metal components from the original SMILES text and retain the organic compound components.
  • step S1-2 is used to remove the heavy metal part in the SMILES text.
  • this part operates using text processing rules (Part S1-2).
  • the heavy metals to be removed are defined as atoms without covalent bonds.
  • SMILES representation text of some heavy metal atoms is: SMILES text elements of atoms such as "[Li]”, “[Ca]”, “[Na+]”, etc.
  • Step S1-3 If the original SMILES text includes a multimer component, remove the multimer component from the original SMILES text and retain the longest component;
  • steps S1-3 are to remove the multimers in the SMILES article and retain the longest sequence.
  • Step S1-4 If the original SMILES text includes charges, add or subtract hydrogen atoms in the original SMILES text to achieve charge removal;
  • steps S1-4 are to zero out the charge component in the SMILES text. More specifically, this process can be understood as text processing rules (section S1-4).
  • Step S1-5 Remove special SMILES text information
  • This step is to remove special markers or special atoms in the SMILES text.
  • this process can be understood as text processing rules (section S1-5).
  • Step S1-6 Output the standardized sequence and obtain the standardized SMILES text of the small molecule compound.
  • the predetermined text Processing rules include:
  • Step S2-1 Split the standardized SMILES text of the small molecule compound described in S1 into each core text element to obtain the text elements of the small molecule compound;
  • Step S2-2 Perform text processing and identification of the properties of the text elements of the small molecule compound in the step S2-1, identify and complete the simplified chemical information, and obtain a chemical information map of the small molecule compound;
  • Step S2-3 Based on the chemical information map of the small molecule compound in step S2-2, establish a coordinate system with atomic elements as nodes, and construct a digital coordinate system of the chemical information map of the small molecule compound;
  • Step S2-4 According to the digital coordinate system of the chemical information graph of the small molecule compound in step S2-3, add element attributes of nodes and edges to obtain a digital graph structure of the chemical information of the small molecule compound.
  • step S2 is described as follows with reference to the accompanying drawings.
  • the following description is illustrative rather than restrictive, so those skilled in the art can arbitrarily combine the following steps and all fall within the scope of the present invention.
  • Step S2-1 Split the standardized SMILES text of the small molecule compound described in S1 into each core text element to obtain the text elements of the small molecule compound.
  • step S2-1 The purpose of step S2-1 is to split the standardized SMILES sequence into each key text element (tokenization).
  • the text elements include: chemical bond markers, atom markers, chiral markers, organic compound ring markers or combinations thereof.
  • Step S2-2 Perform text processing and identification on the properties of the text elements of the small molecule compound in step S2-1, identify and complete the simplified chemical information, and obtain a chemical information map of the small molecule compound.
  • S2-2 The purpose of S2-2 is to complete the missing elements through text processing rule algorithms. SMILES usually hides some information, this step will restore the hidden information to the default information.
  • the '-' element is used as a marker element for the covalent bond of a single-bond compound.
  • Step S2-3 Based on the chemical information map of the small molecule compound in step S2-2, establish a coordinate system with atomic elements as nodes, and construct a digital coordinate system of the chemical information map of the small molecule compound;
  • step S2-3 is to mark the coordinates of nodes and edges respectively by splitting the order of elements.
  • node elements are atoms and edge elements are bonds.
  • the coordinates of 0,...,N are labeled sequentially through the input standardized SMILES sequence.
  • Step S2-4 According to the digital coordinate system of the chemical information graph of the small molecule compound in step S2-3, add element attributes of nodes and edges to obtain a digital graph structure of the chemical information of the small molecule compound.
  • step S2-4 is to integrate the information of nodes and edges through the coordinate system of step S2-3 as an initial mathematical graph to construct a graph.
  • the graph will be constructed from the coordinates of each node as a node list data structure.
  • markers include but are not limited to: chiral atom markers (@, @@, /, ⁇ ), atom numbers (query through rules), single, double and triple bonds (see information in step 4), Attributes such as aromaticity (identified through rules) and whether it is within the ring of a compound (digital identification through regular expressions).
  • step S2-5 if necessary, complete the hydrogen atom information of the digital graph structure of the chemical information.
  • hydrogen atoms may optionally be added to the mathematical diagram.
  • the completion method is completed based on the rules of atomic attributes and completes related attribute information.
  • step S2-6 is also included: completely outputting the digital graph structure of the chemical information of the small molecule compound.
  • Text preprocessing includes:
  • Text to image conversion includes:
  • Text processing identifies the nature of text elements and identifies and completes simplified chemical information.
  • the S1 process is the first half of the process, and the data output by this process can be saved or converted.
  • the following is a detailed description:
  • SMILES data The data format is text.
  • SMILES sequence is a textual representation of small molecule compounds, as shown in the example in Figure 3.
  • the S2 process in Figure 1 is the second half of the process.
  • the input of this process is the SMILES sequence, and the output is the mathematical graph formatting variable:
  • SMILES Complete the missing elements through the text processing rule algorithm. SMILES usually hides some information, this step will restore the hidden information to the default information. For example: complete the '-' element as a marker element for the covalent bond of a single-bond compound.
  • the graph will be constructed by passing the coordinates of each node as a node list data structure.
  • special markers include but are not limited to: chiral atom markers (@, @@, /, ⁇ ), atom numbers (query through rules), single, double and triple bonds (see information in step 4), aromaticity (through Rule identification), whether it is within the compound ring (number identification through regular expressions) and other attributes.
  • the invention also includes step S3, wherein the digital graph structure of the chemical information of the small molecule compound in S2 is used for the construction of the artificial intelligence model.
  • S3 steps include:
  • the storage method is a SQL database or table format such as csv, excel, etc.
  • the final display result is in Python list format, which can be saved in Python pickle format for downstream deep learning training.
  • this method achieves global data set cleaning, deduplication, and standardization. Unify and normalize conflicting samples and samples with different original data for downstream analysis.
  • this method realizes the conversion of raw data into data that can be used for training, and standardizes the entire workflow from raw data to training data sets to data model training.
  • a second aspect of the present invention provides a data preprocessing system for cleaning small molecule compounds, which is suitable for the data preprocessing method of the present invention, which includes:
  • the S1 text preprocessing unit is configured to include: preprocessing the original SMILES data of the small molecule compound into the standardized SMILES text of the small molecule compound according to predetermined text processing rules;
  • the S2 chemical map formatting unit is configured to include: formatting each text element of the standardized SMILES text of the small molecule compound in S1 according to predetermined text processing rules. points to obtain a digital graph structure of the chemical information of the small molecule compound.
  • the invention also includes an S3 unit, which is configured such that the digital graph structure of the chemical information of the small molecule compound of S2 is used for the construction of the artificial intelligence model.
  • the predetermined text processing rules include:
  • Unit S1-1 is set up as: optional structural normalization, where the data for the small molecule compounds are processed into raw SMILES text;
  • Unit S1-2 is set as follows: if the original SMILES text includes heavy metal components and organic compound components, remove the heavy metal components and retain the organic compound components in the original SMILES text;
  • Unit S1-3 is set as follows: if the original SMILES text includes a multimer component, remove the multimer component from the original SMILES text and retain the longest component;
  • Unit S1-4 is set as follows: if the original SMILES text includes charges, then add or subtract hydrogen atoms in the original SMILES text to achieve charge removal;
  • Unit S1-5 is set to: remove special SMILES text information
  • Unit S1-6 is set to: output the standardized sequence and obtain the standardized SMILES text of the small molecule compound.
  • the predetermined text Processing rules include:
  • Unit S2-1 is set to: split the standardized SMILES text of the small molecule compound described in S1 into each core text element to obtain the text elements of the small molecule compound;
  • the S2-2 unit is configured to: perform text processing and identify the properties of the text elements of the small molecule compound in the S2-1 unit, identify and complete the simplified chemical information, and obtain a chemical information map of the small molecule compound;
  • Unit S2-3 Based on the chemical information map of the small molecule compound in the S2-2 unit, establish a coordinate system with atomic elements as nodes, and construct a digital coordinate system of the chemical information map of the small molecule compound;
  • Unit S2-4 According to the digital coordinate system of the chemical information diagram of the small molecule compound in the S2-3 unit, add element attributes of nodes and edges to obtain a digital diagram structure of the chemical information of the small molecule compound.
  • unit S2-5 is configured to: complete the hydrogen atom information of the digital graph structure of the chemical information if necessary.
  • unit S2-6 completely outputting the digital graph structure of the chemical information of the small molecule compound.
  • a third aspect of the present invention provides an electronic device, which includes: a memory and a processor; wherein the memory is used to store one or more computer instructions, wherein the one or more computer instructions are processed by the processor When executed, the data preprocessing method for cleaning small molecule compounds as described in any one of the present invention is implemented.
  • the system and its various devices, modules, and units provided by the present invention can be completely implemented by logically programming the method steps. , modules, and units implement the same functions in the form of logic gates, switches, application-specific integrated circuits, programmable logic controllers, and embedded microcontrollers. Therefore, the system and its various devices, modules and units provided by the present invention can be regarded as a kind of hardware component, and the devices, modules and units included in it for realizing various functions can also be regarded as hardware components.
  • the structure; the devices, modules, and units used to implement various functions can also be regarded as either software modules for implementing methods or structures within hardware components.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种清洗小分子化合物的数据预处理方法,所述数据预处理方法包括:S1文本预处理步骤,所述S1文本预处理步骤包括:将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本;S2化学图格式化步骤,所述S2化学图格式化步骤包括:将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学图信息。本发明还提供一种清洗小分子化合物的数据预处理系统。本发明实现了全局数据集的清洗、去重、以及标准化,提供一种高效、快速、精准的端到端小分子化合物清洗整合方法。

Description

一种清洗小分子化合物的数据预处理系统及其方法 技术领域
本发明属于医药与人工智能交叉技术领域,尤其涉及一种清洗小分子化合物的数据预处理系统及其方法。
背景技术
传统的方法基于化学信息学的方法来实现化合物标准化,以获得小分子化合物的清洗整合方法。
但是随着大数据时代的到来,提出了高效精准、计算速度快速的要求。传统的基于化学信息学方法的算法效率较低,无法满足大数据时代的这种需求,而且各个开源算法数据标准并不统一。
具体而言,现在SMILES化合物信息来源众多(例如Chembl、PubChem等开源数据库),缺乏统一标准化操作,不能够很好的区分干净和不干净的数据进行查重。
另外,目前基于规则,有部分清洗、去重流程方法。流程中仅针对搭建数据库,没有下游(例如:机器学习、深度学习)的实际应用。在利用该方法仍然能遇到不标准或者重复的结构。
此外,现在SMILES转用于图神经网络的数学图缺乏标准化,从个个开源框架调用的算法缺乏统一的标准。
基于以上,本申请提供了解决以上技术问题的技术方案。
发明内容
本发明的第一目的在于提供一种高效、快速、精准的端到端小分子化合物清洗整合方法。
本发明的第二目的在于获得一种高效、快速、精准的端到端小分子化合物 清洗整合系统。
本发明的第一方面提供一种清洗小分子化合物的数据预处理方法,所述数据预处理方法包括:
S1文本预处理步骤,所述S1文本预处理步骤包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES文本,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化步骤,所述S2化学图格式化步骤包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,还包括S3步骤,其中,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
本发明的一个优选实施方式中,
所述S1文本预处理步骤中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1步骤:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2步骤:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3步骤:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
S1-4步骤:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
S1-5步骤:去除特殊SMILES文本信息;
S1-6步骤:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
本发明的一个优选实施方式中,所述S2化学图格式化步骤中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分 时,所述预定的文本处理规则包括:
S2-1步骤:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2步骤:对所述S2-1步骤的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3步骤:根据所述S2-2步骤的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标系统,构建所述小分子化合物的化学信息图的数字化坐标系统;
S2-4步骤:根据所述S2-3步骤的所述小分子化合物的化学信息图的数字化坐标系统,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,S2-5步骤:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
在一个具体实施方式中,还包括S2-6步骤:完整地输出所述小分子化合物的化学信息的数字化图结构。
本发明的第二方面提供一种清洗小分子化合物的数据预处理系统,适用于如权利要求1-5任意一项所述的数据预处理方法,其特征在于,包括:
S1文本预处理单元,所述S1文本预处理单元设置为包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES数据,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化单元,所述S2化学图格式化单元设置为包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,还包括S3单元,其设置为,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
本发明的一个优选实施方式中,所述S1文本预处理单元中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1单元设置为:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2单元设置为:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3单元设置为:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
S1-4单元设置为:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
S1-5单元设置为:去除特殊SMILES文本信息;
S1-6单元设置为:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
本发明的一个优选实施方式中,所述S2化学图格式化单元中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1单元设置为:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2单元设置为:对所述S2-1单元的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3单元:根据所述S2-2单元的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标系统,构建所述小分子化合物的化学信息图的数字化坐标系统;
S2-4单元:根据所述S2-3单元的所述小分子化合物的化学信息图的数字化坐标系统,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,S2-5单元设置为:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
在一个具体实施方式中,还包括S2-6单元:完整地输出所述小分子化合物的化学信息的数字化图结构。
本发明的第三方面提供一种电子设备,其包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如本发明任意一项所述的清洗小分子化合物的数据预处理方法。
本发明能够带来以下至少一种有益效果:
本发明的方法基于大数据与自然语言处理技术结合一部分化学信息学实现了一种新的方法能够实现降低计算成本,最终实现数据预处理更精准,下游使用更方便。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明中数据处理方法流程图(有两个独立但可关联的部分);
图2是本发明中工作流程图;
图3是本发明中数据变量转换的示意图。
具体实施方式
以下对本发明的各个方面进行进一步详述。
除非另有定义或说明,本文中所使用的所有专业与科学用语与本领域技术熟练人员所熟悉的意义相同。此外任何与所记载内容相似或均等的方法及材料皆可应用于本发明方法中。
以下对术语进行说明。
除非另有明确的规定和限定,本发明中所述的“或”,包含了“和”的关系。所述“和”相当于布尔逻辑运算符“AND”,所述“或”相当于布尔逻辑 运算符“OR”,而“AND”是“OR”的子集。
可以理解到,尽管术语“第一”、“第二”等等可以在此用来说明不同的元件,但是这些元件不应被这些术语限制。这些术语仅仅用来将一个元件与另一个元件区分开。因此,第一元件可以被称为第二元件,而不背离本实用新型构思的教导。
本发明中,术语“含有”、“包含”或“包括”表示各种成分可一起应用于本发明的混合物或组合物中。因此,术语“主要由...组成”和“由...组成”包含在术语“含有”、“包含”或“包括”中。
除非另有明确的规定和限定,本发明的术语“相连”、“连通”、“连接”应作广义理解,例如,可以是固定连接,也可以是通过中介媒介间相连,可以是两个元件内部的连通或者两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
例如,如果一个元件(或部件)被称为在另一个元件上、与另一个元件耦合或者与另一个元件连接,那么所述一个元件可以直接地在所述另一个元件上形成、与之耦合或者与之连接,或者在它们之间可以有一个或多个介于中间的元件。相反,如果在此使用表述“直接在......上”、“直接与......耦合”和“直接与......连接”,那么表示没有介于中间的元件。用来说明元件之间的关系的其他词语应该被类似地解释,例如“在......之间”和“直接在......之间”、“附着”和“直接附着”、“相邻”和“直接相邻”等等。
另外需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向。使用的词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。可以理解到,在此,这些术语用来描述如在附图中所示的一个元件、层或区域相对于另一个元件、层或区域的关系。除了在附图中描述的取向之外,这些术语应该也包含装置的其他取向。
本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而易见的。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。例如,在附图中的元件的厚度可以为了清楚性起见而被夸张。
实施例
本发明中,发明人经过了广泛和深入的试验,发现本发明基于人工智能辅助药物设计的需求参考,构建了新的流程方法,进行端到端的小分子化合物SMILES序列清洗、去重、以及转数学图标准化,为下游的人工智能模型提供更精准,更高效的数据预处理方法。
为了达到上述目的,本发明的第一方面提供一种清洗小分子化合物的数据预处理方法,所述数据预处理方法包括:
S1文本预处理步骤,所述S1文本预处理步骤包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES文本,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化步骤,所述S2化学图格式化步骤包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,还包括S3步骤,其中,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
示例性地而非限制性的,最终展示结果为Python list格式,为下游深度学习训练可保存为Python pickle格式。
本发明的一个优选实施方式中,所述S1文本预处理步骤中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1步骤:可选的结构标准化,其中将所述小分子化合物的数据处理为原 始SMILES文本;
S1-2步骤:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3步骤:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
S1-4步骤:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
S1-5步骤:去除特殊SMILES文本信息;
S1-6步骤:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
更具体的,结合附图说明对S1步骤的各个部分说明如下。以下说明为示例性而非限制性的,因此本领域技术人员可以对以下各个步骤进行任意组合而均属于本发明的发明范围。
S1-1步骤:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本。
在一个具体的实施方式中,输入所述小分子化合物的原始数据,再进行化学结构标准化处理,最后处理为原始SMILES文本(通常为文本格式)。
具体的,在进行化学结构标准化时,利用预定的文本处理规则(S1-1部分)进行文本整理。
具体的,所述预定的文本处理规则(S1-1部分)包括但不限于:
通过数规则将原始数据的文本修改成S1-1-1标准文本。
利用正则法拆分所有SMILES主要成分重组SMILES文本至S1-1-2标准文本。
重组的过程将利用文本规则进行SMILES序列成分拆分再进行计算最长链。通过最长链重组SMILES序列的S1-1-3标准文本。示例性而非限制性的,所述的S1-1-3标准文本例如为如图3所示的SMILES序列。
S1-2步骤:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分。
具体的,S1-2步骤用于将SMILES文本中的重金属部分去除。
更具体的,该部分利用文本处理规则(S1-2部分)进行操作。其中,需要去除的重金属定义为不存在共价键的原子。
示例性地而非限制性的,部分重金属原子的SMILES表示文本为:“[Li]”,“[Ca]”,“[Na+]”等原子的SMILES文本元素。
S1-3步骤:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
具体的,S1-3步骤的目的在于将SMILES本文中的多聚体去除,保留最长的序列。
更具体的,在文本中,将按照“.”分隔符就行分割。
S1-4步骤:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
具体的,S1-4步骤的目的在于将SMILES文本中的电荷成分归零。更具体的,可以将此过程理解为文本处理规则(S1-4部分)。
更具体的,将共价键中的特殊成分进行修改。例如:“[O-]”修改成“O”。
S1-5步骤:去除特殊SMILES文本信息;
该步骤的目的在于将SMILES文本中的特殊标记或特殊原子去除。
更具体的,可以将此过程理解为文本处理规则(S1-5部分)。
示例性而非限制性地,修改的文本例如:”[1*]”,“*”,”[2H]”。
S1-6步骤:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
本发明的一个优选实施方式中,所述S2化学图格式化步骤中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1步骤:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2步骤:对所述S2-1步骤的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信 息图;
S2-3步骤:根据所述S2-2步骤的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标系统,构建所述小分子化合物的化学信息图的数字化坐标系统;
S2-4步骤:根据所述S2-3步骤的所述小分子化合物的化学信息图的数字化坐标系统,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
更具体的,结合附图对S2步骤说明如下。以下说明为示例性而非限制性的,因此本领域技术人员可以对以下各个步骤进行任意组合而均属于本发明的发明范围。
S2-1步骤:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素。
S2-1步骤的目的在于将标准化的SMILES序列拆分至每一个关键的文本元素(tokenization)。
具体的,所述文本元素包括:化学键标记、原子标记、手性标记、有机化合物环标记或其组合。
S2-2步骤:对所述S2-1步骤的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图。
S2-2的目的在于通过文本处理规则算法将缺失的元素补全。SMILES通常隐藏部分信息,该步骤将恢复隐藏的信息到默认信息。
示例性而非限制性地,补全‘—’元素作为单键化合物共价键的标记元素。
S2-3步骤:根据所述S2-2步骤的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标系统,构建所述小分子化合物的化学信息图的数字化坐标系统;
S2-3步骤的目的在于通过拆分元素的顺序分别将节点和边进行坐标标记。
示例性而非限制性地,节点元素为原子,边的元素为键。通过输入的标准化SMILES序列顺序进行0,…,N的坐标标记。
S2-4步骤:根据所述S2-3步骤的所述小分子化合物的化学信息图的数字化坐标系统,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
S2-4步骤的目的在于,通过步骤S2-3的坐标系统整合节点与边的信息作为初始数学图,构建图。
示例性而非限制性地,图的构建将通过每个节点的坐标作为一个节点list数据结构。同时通过步骤2补全过的化合物键信息(-,=,#,:等元素)进行左右节点的匹配创建数学图的边。
可选的,还可以通过其他标记的元素分别给节点或者边进行特殊标记作为数学图里的属性。
示例性而非限制性地,特殊标记包括但不限于:手性原子标记(@,@@,/,\)、原子号(通过规则查询)、单双三键(见步骤4的信息)、芳香性(通过规则识别)、是否在化合物环内(通过正则表达式进行数字识别)等属性。
本发明的一个优选实施方式中,还包括S2-5步骤:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
示例性而非限制性地,可选择给数学图加氢原子。补全方法基于原子属性的规则完成,并且补全相关属性信息。
在一个具体实施方式中,还包括S2-6步骤:完整地输出所述小分子化合物的化学信息的数字化图结构。
示例性而非限制性地,输出如图3所示的化学结构图。
具体的,参见图1,示出了本发明的一个优选的具体实施方式。
该优选的具体实施方式的构思如下:本方法分为两大部分:文本预处理、文本转数学图。
文本预处理包括:
1.结构标准化
2.结构文本去重金属成分,保留有机化合物成分
3.结构文本去多聚体,保留最长成分
4.结构文本加减氢原子,实现去电荷
5.去除特殊SMILES文本信息
6.输出标准化的序列
文本转图包括:
1.拆分SMILES序列至核心元素
2.文本处理识别文本元素性质,识别并补全简化的化学信息
3.创造原子元素为节点的坐标系统,构建数学图
4.添加节点与边的元素属性
5.补全氢原子信息
输出完整化合物图。
更具体的,S1流程为上半部分流程,此流程输出的数据可进行保存或者转换。以下为详细说明:
1.原始SMILES数据。数据格式为文本。SMILES序列为小分子化合物的文本表述方式,如图3所展示的案例。
2.化学结构标准化,利用文本处理规则进行文本整理。通过数规则将原始文本修改成方法中的标准文本。同时,利用正则法拆分所有SMILES主要成分重组SMILES文本至标准文本。重组的过程将利用文本规则进行SMILES序列成分拆分再进行计算最长链。通过最长链重组SMILES序列文本。
3.将SMILES本文中的多聚体去除,保留最长的序列。文本将按照“.”分隔符就行分割。
4.将SMILES文本中的重金属部分去除。该部分利用文本处理规则进行操作。重金属定义为不存在共价键的原子。在实例中部分重金属原子的SMILES表示文本为:“[Li]”,“[Ca]”,“[Na+]”等原子的SMILES文本元素。
5.将SMILES文本中的电荷成分归零。该方法利用文本处理规则进行。将共价键中的特殊成分用规则修改。例如:”[O-]”修改成”O”
6.将SMILES文本中的特殊标记与特殊原子去除,该方法也利用文本处理规则。修改的文本例如:”[1*]”,“*”,”[2H]”。
7.将标准化的SMILES序列输出
图1的S2流程为下半部分流程,此流程输入为SMILES序列,输出的为 数学图格式化变量:
1.拆分标准化的SMILES序列至每一个关键元素(tokenization)。元素包括:化学键标记、原子标记、手性标记、有机化合物环标记
2.通过文本处理规则算法将缺失的元素补全。SMILES通常隐藏部分信息,该步骤将恢复隐藏的信息到默认信息。比如:补全‘—’元素作为单键化合物共价键的标记元素。
3.通过拆分元素的顺序分别将节点和边进行坐标标记。在实例中,节点元素为原子,边的元素为键。通过输入的标准化SMILES序列顺序进行0,…,N的坐标标记。
4.通过步骤三的坐标系统整合节点与边的信息作为初始数学图,构建图。
图的构建将通过每个节点的坐标作为一个节点list数据结构。同时通过步骤2补全过的化合物键信息(-,=,#,:等元素)进行左右节点的匹配创建数学图的边。
5.通过其他标记的元素分别给节点或者边进行特殊标记作为数学图里的属性。在实例中,特殊标记包括但不限于:手性原子标记(@,@@,/,\)、原子号(通过规则查询)、单双三键(见步骤4的信息)、芳香性(通过规则识别)、是否在化合物环内(通过正则表达式进行数字识别)等属性。
6.(可选)补全氢原子信息。在实例中可选择给数学图加氢原子。补全方法基于原子属性的规则完成,并且补全相关属性信息。
7.输出化学结构图,为图三的最终展示。
本发明的一个优选实施方式中,还包括S3步骤,其中,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
参见图2所示,示出了S3步骤的工作流程。S3步骤包括:
S3-1获得原始药物数据集;
S3-2数据预处理(SMILES清洗);
S3-3机器学习、深度学习的工作流程;
S3-4:人工智能模型。
以下对S3步骤进行示例性说明:
示例一:
1.输入SMILES序列数据集
2.分别将每个序列进行图1所示的S1流程。根据参数决定是否标准化部分可选的步骤。
3.通过机器资源调配安排并行计算,提高计算效率。
4.输出清洗SMILES的数据集,并存储用于其他用途。存储方法为SQL类数据库或者csv、excel等表格格式。
示例二:
1.输入SMILES序列数据集
2.分别将每个序列进行图1所示的S1流程。
3.通过机器资源调配安排并行计算,提高计算效率。
4.输出清洗SMILES的数据集
5.分别将每个清洗过的SMILES序列进行图1所示的S2流程。
6.通过机器资源调配安排并行计算,提高计算效率。
7.输出所有化合物图数据变量。整个数据集为python list格式呈现,每个数学图有图3所示的节点list变量与边list变量。
8.如图2所示的最后2个步骤,保存数据用于机器学习、深度学习训练,保存方式为python pickle格式。
以图3为例,在一些实例中的整个流程为:
1.输入原始从某一个来源的SMILES格式数据
2.进行图1所示的S1流程;
3.进行图1所示的S2流程,输出可用于建模的数学图数据变量。
具体的,最终展示结果为Python list格式,为下游深度学习训练可保存为Python pickle格式。
综上所述,相较于原始的SMILES序列文本,本方法实现全局数据集清洗、去重、以及标准化。对有冲突的及原始数据不同的样本统一标准化进行下游分析。
相较于传统的ETL数据处理方法,本方法实现了从原始数据转换成能够用 于训练的数据的方法,标准化了整个从原始数据到训练数据集到数据模型训练的工作流程。
本发明的第二方面提供一种清洗小分子化合物的数据预处理系统,适用于本发明所述的数据预处理方法,其包括:
S1文本预处理单元,所述S1文本预处理单元设置为包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES数据,预处理为所述小分子化合物的标准化SMILES文本;
S2化学图格式化单元,所述S2化学图格式化单元设置为包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,还包括S3单元,其设置为,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
本发明的一个优选实施方式中,所述S1文本预处理单元中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
S1-1单元设置为:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
S1-2单元设置为:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
S1-3单元设置为:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
S1-4单元设置为:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
S1-5单元设置为:去除特殊SMILES文本信息;
S1-6单元设置为:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
本发明的一个优选实施方式中,所述S2化学图格式化单元中将所述S1的 所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
S2-1单元设置为:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
S2-2单元设置为:对所述S2-1单元的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
S2-3单元:根据所述S2-2单元的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标系统,构建所述小分子化合物的化学信息图的数字化坐标系统;
S2-4单元:根据所述S2-3单元的所述小分子化合物的化学信息图的数字化坐标系统,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
本发明的一个优选实施方式中,S2-5单元设置为:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
在一个具体实施方式中,还包括S2-6单元:完整地输出所述小分子化合物的化学信息的数字化图结构。
本发明的第三方面提供一种电子设备,其包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如本发明任意一项所述的清洗小分子化合物的数据预处理方法。
基于本申请,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目和方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编 程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (11)

  1. 一种清洗小分子化合物的数据预处理方法,其特征在于,所述数据预处理方法包括:
    S1文本预处理步骤,所述S1文本预处理步骤包括:根据预定的文本处理规则,将小分子化合物的原始SMILES文本,预处理为小分子化合物的标准化SMILES文本;
    S2化学图格式化步骤,所述S2化学图格式化步骤包括:根据预定的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
  2. 如权利要求1所述的清洗小分子化合物的数据预处理方法,其特征在于,
    还包括S3步骤,其中,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
  3. 如权利要求1所述的清洗小分子化合物的数据预处理方法,其特征在于,
    所述S1文本预处理步骤中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
    S1-1步骤:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
    S1-2步骤:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
    S1-3步骤:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
    S1-4步骤:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
    S1-5步骤:去除特殊SMILES文本信息;
    S1-6步骤:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
  4. 如权利要求1所述的清洗小分子化合物的数据预处理方法,其特征在于,
    所述S2化学图格式化步骤中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规则包括:
    S2-1步骤:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
    S2-2步骤:对所述S2-1步骤的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
    S2-3步骤:根据所述S2-2步骤的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标系统,构建所述小分子化合物的化学信息图的数字化坐标系统;
    S2-4步骤:根据所述S2-3步骤的所述小分子化合物的化学信息图的数字化坐标系统,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
  5. 如权利要求4所述的清洗小分子化合物的数据预处理方法,其特征在于,还包括:
    S2-5步骤:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
  6. 一种清洗小分子化合物的数据预处理系统,适用于如权利要求1-5任意一项所述的数据预处理方法,其特征在于,包括:
    S1文本预处理单元,所述S1文本预处理单元设置为包括:根据预定的文本处理规则,将所述小分子化合物的原始SMILES数据,预处理为所述小分子化合物的标准化SMILES文本;
    S2化学图格式化单元,所述S2化学图格式化单元设置为包括:根据预定 的文本处理规则,将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分,获得所述小分子化合物的化学信息的数字化图结构。
  7. 如权利要求6所述的清洗小分子化合物的数据预处理系统,其特征在于,
    还包括S3单元,其设置为,所述S2的小分子化合物的化学信息的数字化图结构用于人工智能模型的构建。
  8. 如权利要求6所述的清洗小分子化合物的数据预处理系统,其特征在于,
    所述S1文本预处理单元中将所述小分子化合物的原始SMILES文本预处理为所述小分子化合物的标准化SMILES文本时,所述预定的文本处理规则包括:
    S1-1单元设置为:可选的结构标准化,其中将所述小分子化合物的数据处理为原始SMILES文本;
    S1-2单元设置为:若所述原始SMILES文本包括重金属成分和有机化合物成分,则在所述原始SMILES文本中去除重金属成分,保留有机化合物成分;
    S1-3单元设置为:若所述原始SMILES文本包括多聚体成分,则在所述原始SMILES文本中去除多聚体成分,保留最长成分;
    S1-4单元设置为:若所述原始SMILES文本包括电荷,则在所述原始SMILES文本中加减氢原子,实现去电荷;
    S1-5单元设置为:去除特殊SMILES文本信息;
    S1-6单元设置为:输出标准化的序列,得到所述小分子化合物的标准化SMILES文本。
  9. 如权利要求6所述的清洗小分子化合物的数据预处理系统,其特征在于,
    所述S2化学图格式化单元中将所述S1的所述小分子化合物的所述标准化的SMILES文本的各个文本元素进行格式拆分时,所述预定的文本处理规 则包括:
    S2-1单元设置为:将S1所述小分子化合物的所述标准化的SMILES文本拆分为各个核心的文本元素,得到所述小分子化合物的文本元素;
    S2-2单元设置为:对所述S2-1单元的所述小分子化合物的文本元素的性质进行文本处理识别,识别并补全简化的化学信息,得到所述小分子化合物的化学信息图;
    S2-3单元:根据所述S2-2单元的所述小分子化合物的化学信息图,建立以原子元素为节点的坐标系统,构建所述小分子化合物的化学信息图的数字化坐标系统;
    S2-4单元:根据所述S2-3单元的所述小分子化合物的化学信息图的数字化坐标系统,添加节点与边的元素属性,得到所述小分子化合物的化学信息的数字化图结构。
  10. 如权利要求9所述的清洗小分子化合物的数据预处理系统,其特征在于,还包括:
    S2-5单元设置为:如有需要,对所述化学信息的数字化图结构的氢原子信息进行补全。
  11. 一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-5中任意一项所述的清洗小分子化合物的数据预处理方法。
PCT/CN2022/109387 2022-07-18 2022-08-01 一种清洗小分子化合物的数据预处理系统及其方法 WO2024016376A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210844053.6A CN115171814A (zh) 2022-07-18 2022-07-18 一种清洗小分子化合物的数据预处理系统及其方法
CN202210844053.6 2022-07-18

Publications (1)

Publication Number Publication Date
WO2024016376A1 true WO2024016376A1 (zh) 2024-01-25

Family

ID=83495947

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/109387 WO2024016376A1 (zh) 2022-07-18 2022-08-01 一种清洗小分子化合物的数据预处理系统及其方法

Country Status (3)

Country Link
US (1) US20240021276A1 (zh)
CN (1) CN115171814A (zh)
WO (1) WO2024016376A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017125950A2 (en) * 2016-01-22 2017-07-27 Council Of Scientific & Industrial Research A method for harvesting 3d chemical structures from file formats
CN111640470A (zh) * 2020-05-27 2020-09-08 牛张明 基于句法模式识别的药物小分子毒性预测的方法
CN111755078A (zh) * 2020-07-30 2020-10-09 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN112151127A (zh) * 2020-09-04 2020-12-29 牛张明 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
CN112309509A (zh) * 2019-10-15 2021-02-02 腾讯科技(深圳)有限公司 化合物性质预测方法、装置、计算机设备及可读存储介质
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017125950A2 (en) * 2016-01-22 2017-07-27 Council Of Scientific & Industrial Research A method for harvesting 3d chemical structures from file formats
CN112309509A (zh) * 2019-10-15 2021-02-02 腾讯科技(深圳)有限公司 化合物性质预测方法、装置、计算机设备及可读存储介质
CN111640470A (zh) * 2020-05-27 2020-09-08 牛张明 基于句法模式识别的药物小分子毒性预测的方法
CN111755078A (zh) * 2020-07-30 2020-10-09 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN112151127A (zh) * 2020-09-04 2020-12-29 牛张明 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
CN113936735A (zh) * 2021-11-02 2022-01-14 上海交通大学 一种药物分子与靶标蛋白的结合亲和力预测方法

Also Published As

Publication number Publication date
US20240021276A1 (en) 2024-01-18
CN115171814A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
WO2021226809A1 (zh) 一种基于制造领域的知识图谱构建方法及系统
Gong et al. Neo4j graph database realizes efficient storage performance of oilfield ontology
CN104572895B (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
EP1222569A1 (en) Method and systems for making olap hierarchies summarisable
TWI706260B (zh) 基於行動端NoSQL資料庫的索引建立方法及裝置
WO2022252061A1 (zh) 基于知识的装配工艺规划方法、装置和系统
Lin et al. OWL Ontology Extraction from Relational Databases via Database Reverse Engineering.
WO2023227012A1 (zh) 产品数据处理方法、装置及存储介质
Sheng et al. CEPV: A tree structure information extraction and visualization tool for big knowledge graph
WO2024016376A1 (zh) 一种清洗小分子化合物的数据预处理系统及其方法
Sen et al. Toward developing data warehousing process standards: An ontology-based review of existing methodologies
CN115934969A (zh) 一种不可移动文物风险评估知识图谱构建方法
Syuntyurenko et al. The conceptual form of an advanced technology package for the information support of knowledge-intensive production
Chen et al. Accurate Summary-based Cardinality Estimation Through the Lens of Cardinality Estimation Graphs
Zhang et al. Uncertainty modeling of object-oriented biomedical information in HBase
Zdepski et al. An Approach for Modeling Polyglot Persistence.
CN115600556B (zh) 一种文档的目录信息推荐方法及系统
Rehman et al. A demonstration of relic: a system for retrospective lineage inference of data workflows
Alami et al. Entity resolution in nosql data warehouse
WO2024026929A1 (zh) 一种用于药物-靶点相互作用数据的清洗方法和装置
Zong et al. Minimizing explanations of why-not questions
Sokolov et al. Hybrid approach to building object-oriented programs with databases
US20110016158A1 (en) Generation of dimensional metadata based on rdbms data
CN109582698B (zh) 多个连续top-k关键词查询结果更新方法、系统、存储介质及终端
Qinyi et al. A REUSE METHOD OF MECHANICAL PRODUCT DEVELOPMENT KNOWLEDGE BASED ON CAD MODEL SEMANTIC MARKUP AND RETRIEVAL.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22951644

Country of ref document: EP

Kind code of ref document: A1