WO2020138588A1 - 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법 - Google Patents

신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법 Download PDF

Info

Publication number
WO2020138588A1
WO2020138588A1 PCT/KR2019/002918 KR2019002918W WO2020138588A1 WO 2020138588 A1 WO2020138588 A1 WO 2020138588A1 KR 2019002918 W KR2019002918 W KR 2019002918W WO 2020138588 A1 WO2020138588 A1 WO 2020138588A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
nodes
knowledge network
biological entity
predetermined search
Prior art date
Application number
PCT/KR2019/002918
Other languages
English (en)
French (fr)
Inventor
배영우
진승현
Original Assignee
주식회사 메디리타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 메디리타 filed Critical 주식회사 메디리타
Priority to US17/288,905 priority Critical patent/US20210397978A1/en
Priority to KR1020190163398A priority patent/KR102181058B1/ko
Priority to US17/428,619 priority patent/US20220020454A1/en
Priority to PCT/KR2019/017793 priority patent/WO2020184816A1/ko
Publication of WO2020138588A1 publication Critical patent/WO2020138588A1/ko
Priority to KR1020200139362A priority patent/KR102379214B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration

Definitions

  • the present invention relates to a data processing apparatus and method for discovering new drug candidate substances, and more particularly, to a data processing apparatus and method for generating a knowledge network from big data for discovering new drug candidate substances.
  • the technical problem to be solved by the present invention is to provide a data processing apparatus and method for discovering new drug candidate substances.
  • Another technical problem to be solved by the present invention relates to an apparatus and method for generating a refined knowledge network from a big data DB.
  • a data processing method for discovering new drug candidate substances in a data processing apparatus includes receiving a predetermined search word; Extracting at least one biological entity related to the predetermined search term from a big data database (database); Extracting a correlation between the predetermined search word and the at least one biological entity; Generating a first knowledge network connecting a plurality of nodes including the predetermined search word and the at least one biological entity according to the correlation degree; Calculating a graph theory index of the first knowledge network; And generating a second knowledge network using some of the plurality of nodes in which the graph theory index is greater than or equal to a threshold value.
  • the predetermined search word may include at least one of a gene name, a protein name, a metabolic name, a symptom name, a disease name, a compound name, and a drug name.
  • the biological entity may include at least one of genes, proteins, metabolites, symptoms, diseases, compounds, and drugs.
  • the biological entity and the first correlation may be extracted using at least one of a natural language processing algorithm and a deep neural network algorithm.
  • the big data DB may include at least one of a language-based DB for each biological entity type and an image-based DB for each biological entity type.
  • the graph theory index may include at least one of a shortest path between nodes for a plurality of nodes constituting the first knowledge network, a clustering coefficient for each node, a centrality coefficient for each node, and a hub for each node.
  • the shortest path between the nodes, the clustering coefficient for each node, the centrality coefficient for each node, and the node for the plurality of nodes constituting the first knowledge network among the plurality of nodes may be calculated using at least one of the characteristics of the star hub, a node whose standard score is below a threshold value, and a connection associated with the deleted node may be deleted.
  • the standard score is a standard error of a difference between an index value of a predetermined graph theory index for each node constituting the first knowledge network and an average index value of a predetermined graph theory index for a plurality of nodes constituting the first knowledge network. Divided by, and the threshold may be a significance of 95%.
  • a data processing apparatus for discovering new drug candidate substances includes a search word receiving unit receiving a predetermined search word; A data extracting unit extracting at least one biological entity related to the predetermined search term from a big data database (DB), and extracting a correlation between the predetermined search term and the at least one biological entity; A data generation unit generating a first knowledge network in which a plurality of nodes including the predetermined search term and the at least one biological entity are connected according to the correlation degree; A data processing unit calculating a graph theory index of the first knowledge network; A data refining unit generating a second knowledge network using some of the plurality of nodes in which the graph theory index is equal to or greater than a threshold value; And an output unit exposing the second knowledge network.
  • DB big data database
  • a recording medium comprises the steps of: receiving a predetermined search word; Extracting at least one biological entity related to the predetermined search term from a big data database (database); Extracting a correlation between the predetermined search word and the at least one biological entity; Generating a first knowledge network connecting a plurality of nodes including the predetermined search word and the at least one biological entity according to the correlation degree; Calculating a graph theory index of the first knowledge network;
  • a computer-readable program is recorded in order to execute a data processing method including generating a second knowledge network using some of the plurality of nodes in which the graph theory index is greater than or equal to a threshold value.
  • refined information on biological entities related to a predetermined search word and their correlations can be extracted in a short time without having to search for huge amounts of information individually for discovering new drug candidate substances. Accordingly, it is possible to significantly reduce the cost and duration required to discover a new drug candidate substance or a target for a new drug candidate substance.
  • FIG. 1 is a block diagram of a data processing apparatus for discovering new drug candidate substances according to an embodiment of the present invention.
  • FIG. 2 is a flowchart of a data processing method for discovering new drug candidate substances in a data processing apparatus according to an embodiment of the present invention.
  • 3 shows an example in which a predetermined search word is input.
  • FIG. 4 is a part of an example of a matrix showing biological entities extracted in steps S110 and S120 and correlations therebetween.
  • FIG. 5 is a part of an example of a category of correlation diagrams for extracting the matrix of FIG. 4.
  • FIG. 6 is an example of a first knowledge network generated according to an embodiment of the present invention.
  • FIG. 8 is an example of a second knowledge network generated using “epilepsy syndrome” as a search word according to an embodiment of the present invention.
  • first and second may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from other components.
  • the second component may be referred to as the first component without departing from the scope of the present invention, and similarly, the first component may also be referred to as the second component.
  • the term and/or includes a combination of a plurality of related described items or any one of a plurality of related described items.
  • FIG. 1 is a block diagram of a data processing apparatus for discovering new drug candidate substances according to an embodiment of the present invention
  • FIG. 2 is a data processing method for discovering new drug candidate substances of data processing apparatus according to an embodiment of the present invention It is a flowchart.
  • the data processing apparatus 100 for discovering new drug candidate substances includes a search term receiving unit 110, a data extraction unit 120, a data generation unit 130, a data processing unit 140, and a data purification unit 150 ), an output unit 160 and a storage unit 170.
  • the search term receiving unit 110 receives a predetermined search term (S100).
  • the predetermined search term may be a search term that the user wishes to search for information, and may be input through a user interface, and may include at least one of a gene name, a protein name, a metabolic name, a symptom name, a disease name, a compound name, and a drug name. It can contain.
  • 3 shows an example in which a predetermined search word is input. Referring to FIG. 3, a screen for inputting a predetermined search word may be exposed through the output unit 160, and a predetermined search term may be input through a user interface.
  • FIG. 3 shows an example in which the disease name is selected as a category, and epilepsy syndrome is input as a predetermined search term.
  • the data extraction unit 120 extracts at least one biological entity related to the predetermined search word received in step S100 (S110), and extracts a correlation between the predetermined search term and the extracted biological entity ( S120).
  • the biological entity may include at least one of genes, proteins, metabolites, symptoms, diseases, compounds, and drugs, and the level to which a given search term belongs may be the same as or different from the level to which the biological entity belongs. have. For example, as illustrated in FIG.
  • biological entities extracted in step S110 include genes associated with epilepsy syndrome, proteins associated with epilepsy syndrome, and metabolites associated with epilepsy syndrome , symptoms associated with epilepsy syndrome, diseases associated with epilepsy syndrome, compounds associated with epilepsy syndrome, and drugs associated with epilepsy syndrome.
  • the biological entity extracted in step S110 may include a plurality of biological entities for each level. For example, as illustrated in FIG. 3, when a predetermined search term is epilepsy syndrome, which is a disease name, biological entities extracted in step S110 include multiple genes associated with epilepsy syndrome, multiple proteins associated with epilepsy syndrome, and epilepsy syndrome.
  • It may also include at least one of a plurality of metabolites associated, a plurality of symptoms associated with epilepsy syndrome, a plurality of diseases associated with epilepsy syndrome, a plurality of compounds associated with epilepsy syndrome, and a plurality of drugs associated with epilepsy syndrome.
  • the big data DB 200 may be a DB external to the data processing apparatus 100 according to an embodiment of the present invention, or may be a global public DB accessible to anyone or an authorized person under certain conditions.
  • the big data DB 200 may store information on biological entities and correlations between biological entities in advance.
  • the big data DB 200 may include a DB for each biological entity type and a DB for a correlation between biological entities.
  • the biological entity type DB may include a gene DB, a protein DB, a metabolic DB, a symptom DB, a disease DB, a compound DB, and a drug DB. These DBs can be integrated and managed as one big data DB, or distributed and managed and operated.
  • the big data DB 200 may be mixed with an omics DB.
  • the data extraction unit 120 is based on artificial intelligence technology including machine learning, Natural language processing algorithms can be used.
  • natural language processing refers to various techniques that mechanically analyze language phenomena spoken by humans to make them understandable by computers, and express the forms understandable by computers in languages understandable by humans.
  • the big data DB 200 may be a language-based DB for each biological entity type, and may include information reflecting machine-learned results and feedback results.
  • the data extraction unit 120 is based on artificial intelligence technology including machine learning, and further You can also use neural network algorithms.
  • the deep neural network is an artificial neural network composed of several hidden layers between an input layer and an output layer, and refers to various technologies used for classification, prediction, image recognition, and character recognition.
  • the big data DB 200 may be an image-based DB for each biological entity type, and may include information reflecting machine-learned results and feedback results.
  • FIG. 4 is a part of an example of a matrix showing the biological entities extracted in steps S110 and S120 and the correlation between them
  • FIG. 5 is a part of an example of a category of the correlations for extracting the matrix of FIG. 4.
  • the categories of the correlation between biological entities are “interact”, “participate”, “covariate”, “regulate”, “associate” )", “bind”, “upregulate”, “cause”, “resemble”, “treat”, “downregulates”, “ It may include “palliate”, “present”, “localize”, “include”, “express”, etc., and identification numbers may be randomly assigned to each category. .
  • the identification number for each category may be set by the user or may be set automatically.
  • step S100 when the drug name bupropion is received as a predetermined search term, the data extraction unit 120 extracts "acamprosate”, “vigabatrin”, “rufinamide”, etc. as a compound related to bupropion, "Epilepsy syndrome” is extracted as a disease, and "ethanol”, "gamma-amine”, “glycine”, and “L-glutamic acid” can be extracted as metabolites, and the degree of correlation between a given search term and biological entities
  • a category or category of correlations between biological entities may generate a matrix indicated by an identification number.
  • the first column represents the category of biological entities
  • the second column represents the biological entities extracted by category
  • the numbers in the lower column represent categories of correlation.
  • the form of the matrix is exemplary, and is not limited thereto, and may be modified in various forms.
  • the data generation unit 130 generates a first knowledge network using the results extracted in steps S110 and S120 (S130).
  • 6 is an example of a first knowledge network generated according to an embodiment of the present invention.
  • the first knowledge network has each of the predetermined search word received in step S100 and at least one biological entity extracted in step S110 as nodes, and the correlation or biological entities between the predetermined search word extracted in step S120 and the biological entity
  • a plurality of nodes may be connected using a connection line according to the degree of correlation between them.
  • the connecting line may connect nodes in the same ohmic level or nodes in different ohmic levels.
  • the path from node A, which is one of the nodes in the first knowledge network, to node B, which is the other, may vary, and all possible paths may be connected by a connection line.
  • the knowledge network is a network composed of correlations between biological entities and can be mixed with biological networks.
  • the data processing unit 140 calculates a graph theory index of the first knowledge network generated in step S130 (S140).
  • the graph theory index may include at least one of a shortest path between nodes for a plurality of nodes constituting the first knowledge network, a clustering coefficient for each node, a centrality coefficient for each node, and a hub characteristic for each node.
  • the shortest path between nodes may mean the shortest path among a number of paths from Node A to Node B in the first knowledge network.
  • a method of calculating a shortest path between a node A, which is one of biological entities, and a node B, which is another one of biological entities, will be described.
  • Node A There are various paths from Node A to Node B, and Node A and Node B may be directly connected, or at least one intermediate node may exist on each path between Node A and Node B.
  • the shortest path between node A and node B can be obtained by using the number of intermediate nodes per path. For example, among the various paths between the nodes A and B, the smaller the number of intermediate nodes, the shorter the path.
  • the shortest path between node A and node B is obtained by using the number of intermediate nodes for each path, but may reflect the type of interrelationship for each connection line. That is, the weights are set differently for each category of correlation, and weights can be applied to the correlations that exist for each route.
  • the type of correlation is as illustrated in FIG. 5, and may have different weight values for each type of correlation.
  • Equation 1 is an example of an equation for calculating the shortest path between nodes.
  • f is a weight transformation function
  • the value of Equation 1 is obtained for each path, and a path having the lowest value or the highest value may be selected as the shortest path.
  • the clustering coefficient for each node may be calculated by Equation 2 and Equation 3.
  • the clustering coefficient may be referred to as a grouping coefficient, and may mean a probability that a specific node and neighboring nodes are connected to each other or a connection density between a specific node and neighboring nodes.
  • I is each node in the knowledge network
  • N is the total set of nodes in the knowledge network
  • Means clustering coefficient, I is each node in the knowledge network
  • the centrality index for each node is an index of whether a specific node has a hub function, (nodal degree) value, BC (betweenness centrality) value, (nodal efficiency) value.
  • the value is a degree of connectivity in the knowledge network of each node, that is, an index indicating how strong or weak connectivity i is in the knowledge network
  • the value is the degree of efficiency in the knowledge network of node i, that is, the value expressed as the reciprocal of the shortest path in Equation 1, and the shorter the path, the higher the efficiency. It is an index indicating the number of times it becomes.
  • Equation 4 The value can be calculated by Equation 4.
  • I a correlation index between two nodes i and j
  • N is the entire set of nodes in the knowledge network.
  • Equation 5 The value can be calculated by Equation 5.
  • N is the entire set of nodes in the knowledge network
  • I is a value representing the shortest path calculated in equation (1).
  • the node h Wow j Means the shortest distance between, The node h passing i Wow j It means the shortest distance between.
  • the kinless hub means the hub having the highest influence, that is, a hub connected to nodes in many modules
  • the connector hub means a hub having the nature of connecting modules in the knowledge network
  • the civil hub is mainly a high influence within the module It means having a herb.
  • the module (module) may be a structural configuration group that subdivides the entire knowledge network.
  • the modularity index in the knowledge network can be calculated as shown in Equation (7).
  • the modularity refers to the number of module types of the entire knowledge network.
  • the participation coefficient (PC) of the knowledge network module may be calculated as in Equation 8.
  • M means a set of modules, Denotes the number of connections between node i and all other nodes in module m, and module m denotes a structural configuration group that subdivides the entire knowledge network.
  • Equation (9) the z-score (within-module degree) of the knowledge network module may be calculated as shown in Equation (9).
  • the node i means the connection degree in module m, , Denotes the mean and standard deviation of the degree distribution of connections within each module m.
  • each node is a hub or not within a module. For example, it may be determined as a hub when the Z score of the knowledge network module is 2.5 or more, as follows.
  • the hub type when it is determined that the node is a hub in the module, the hub type may be classified as follows through the index calculation of Equation 8, and FIG. 7 shows an example of classifying the hub type according to the PC.
  • Connector hub 0.3 ⁇ PC ⁇ 0.75
  • the data purification unit 150 when the data processing unit 140 calculates the graph theory index by step S140, the data purification unit 150 generates the second knowledge network refined from the first knowledge network using the graph theory index (S150).
  • the second knowledge network is a simplified network than the first knowledge network, and among the plurality of nodes constituting the first knowledge network, only a few nodes having high correlation in terms of graph theory.
  • the node constituting the second knowledge network is an index value for a shortest path between nodes, an index value for a clustering coefficient for each node, and a node among graph theory indicators calculated in step S140.
  • At least some of the index values for the star centrality coefficients may be some nodes having a threshold value or higher. That is, at least a part of the index value for the shortest path between nodes, the index value for the clustering coefficient for each node, and the index value for the centrality coefficient for each node among the plurality of nodes constituting the first knowledge network is critical. It can be created by deleting a node that is less than the value and deleting the connection associated with the deleted node.
  • the graph theoretical index to be compared with the threshold value may be an index value for a shortest path between nodes, an index value for a clustering coefficient for each node, and an index value for a centrality coefficient for each node.
  • the graph theoretical index compared to the threshold value may be a value calculated by combining at least two of an index value for a shortest path between nodes, an index value for a clustering coefficient for each node, and an index value for a centrality coefficient for each node. .
  • At this time, at least one of an index value for the shortest path between nodes, an index value for a clustering coefficient for each node, and an index value for a centrality coefficient for each node may be calculated as a standard score for each node, and the calculated standard score is a threshold value. Can be compared with.
  • the standard score may be a z score
  • a threshold value may mean significance of 95%.
  • the Z score can be calculated as in Equation 10.
  • z is a z score
  • X is an index value of a predetermined graph theory index for a specific node in the first knowledge network
  • mean(x) is a graph of a predetermined graph theory index for a plurality of nodes in the first knowledge network.
  • the average index value, SE(x) is the standard error of the index value of a given graph theory index in the first knowledge network.
  • is the standard deviation
  • n is the number of a plurality of nodes constituting the first knowledge network.
  • the z-score standardizes a difference between an index value of a predetermined graph theory index for each node constituting the first knowledge network and an average index value of a predetermined graph theory index for a plurality of nodes constituting the first knowledge network. It can be the value divided by the error.
  • the z score can be calculated through a permutation test.
  • the permutation test may be performed by randomly mixing the entire connecting lines constituting the first knowledge network, and then calculating a z score for each node.
  • the number of random mixing may be 1000 or more.
  • the node constituting the second knowledge network may be a part of the plurality of nodes constituting the first knowledge network extracted from the graph theory index calculated in step S140 by using an index value for a hub characteristic of each node. That is, the node constituting the second knowledge network is a node determined to be a hub in the module through index calculation of Equation (9), preferably a node classified as one of a kinless hub, a connector hub, and a provincial hub, more preferably kinless A node classified as one of a hub and a connector hub, and more preferably a node classified as a kinless hub.
  • the output unit 160 outputs the second knowledge network generated in step S150 (S160).
  • the output unit 160 may be, for example, a display.
  • 8 is an example of a second knowledge network generated using “epilepsy syndrome” as a search word according to an embodiment of the present invention. Referring to FIG. 8, it can be seen that a second knowledge network that is significantly simplified and refined compared to the first knowledge network of FIG. 6 can be obtained. In addition, referring to FIG. 8, it can be seen that it is possible to intuitively obtain biological entities in different ohmic levels associated with "epilepsy syndrome" and correlations therebetween.
  • a second knowledge network consisting only of refined nodes may be obtained in connection with a predetermined search term, and thus a target of a new drug candidate substance or a target of a new drug candidate may be easily determined.
  • the data processing apparatus 100 may include a data storage unit 170.
  • the data storage unit 170 may be connected to the data extraction unit 120, the data generation unit 130, the data processing unit 140, and the data purification unit 150, and the data extraction unit 120 and the data generation unit 130 ), the results calculated by the data processing unit 140 and the data purification unit 150 may be stored.
  • the data storage unit 170 may be wirelessly or wiredly connected to an external learning server, or may transmit the stored data to an external learning server.
  • the term' ⁇ unit' used in this embodiment means a software or hardware component such as a field-programmable gate array (FPGA) or an ASIC, and the' ⁇ unit' performs certain roles.
  • FPGA field-programmable gate array
  • ASIC application-specific integrated circuit
  • components and' ⁇ units' may be combined into a smaller number of components and' ⁇ units', or further separated into additional components and' ⁇ units'.
  • the components and' ⁇ unit' may be implemented to play one or more CPUs in the device or secure multimedia card.

Abstract

본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법은 소정의 검색어를 수신하는 단계; 빅데이터 DB(database)로부터 상기 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하는 단계; 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티 간 상호 연관도를 추출하는 단계; 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티를 포함하는 복수의 노드를 상기 상호 연관도에 따라 연결한 제1 지식 네트워크를 생성하는 단계; 상기 제1 지식 네트워크의 그래프 이론 지표를 계산하는 단계; 그리고 상기 복수의 노드 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 제2 지식 네트워크를 생성하는 단계를 포함한다.

Description

신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법
본 발명은 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법에 관한 것으로, 보다 상세하게는 신약 후보 물질 발굴을 위하여 빅데이터로부터 지식 네트워크를 생성하는 데이터 처리 장치 및 방법에 관한 것이다.
하나의 신약을 개발하기 위하여 평균적으로 총 15년의 기간이 소요되며, 2 내지 3조원의 비용이 발생하는 것으로 알려져 있다. 이 중에서도 전임상(preclinical trial) 이전의 신약 후보 물질을 발굴하기 위하여 약 6년의 기간이 소요되는 것으로 알려져 있다.
일반적으로, 신약을 개발하기 위한 파이프라인의 첫 단계인 신약 후보 물질을 발굴하기 위하여, 다수의 전문 연구 인력들이 막대한 양의 정보를 일일이 탐색하고, 이로부터 주요한 생물학적 엔티티(entity) 간의 연관성을 추론하는 과정을 거치고 있다.
한편, 최근 일본에서 출범된 라이프 인텔리전스 컨소시엄(Life Intelligence Consortium, 2017)에 따르면, 신약 개발에 인공지능 기술을 활용할 경우, 신약을 개발하기 위하여 소요되는 기간은 약 40% 수준으로 단축될 수 있고, 비용은 약 50% 수준으로 절감될 수 있는 것으로 예측되고 있다.
그러나, 아직까지 이를 위한 구체적인 방법은 개발되지 않은 실정이다.
본 발명이 해결하고자 하는 기술적 과제는 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는 빅데이터 DB로부터 정제된 지식 네트워크를 생성하는 장치 및 방법에 관한 것이다.
본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법은 소정의 검색어를 수신하는 단계; 빅데이터 DB(database)로부터 상기 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하는 단계; 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티 간 상호 연관도를 추출하는 단계; 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티를 포함하는 복수의 노드를 상기 상호 연관도에 따라 연결한 제1 지식 네트워크를 생성하는 단계; 상기 제1 지식 네트워크의 그래프 이론 지표를 계산하는 단계; 그리고 상기 복수의 노드 중 상기 그래프 이론 지표가 임계 값 이상인 일부 노드를 이용하여 제2 지식 네트워크를 생성하는 단계를 포함한다.
상기 소정의 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함할 수 있다.
상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함할 수 있다.
상기 생물학적 엔티티 및 상기 제1 상호 연관도는 자연어 처리 알고리즘 및 심층 신경망 알고리즘 중 적어도 하나를 이용하여 추출될 수 있다.
상기 빅데이터 DB는 생물학적 엔티티 종류 별 언어 기반 DB 및 생물학적 엔티티 종류 별 이미지 기반 DB 중 적어도 하나를 포함할 수 있다.
상기 그래프 이론 지표는 상기 제1 지식 네트워크를 구성하는 복수의 노드에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수 및 노드 별 허브의 성격 중 적어도 하나를 포함할 수 있다.
상기 제2 지식 네트워크를 생성하는 단계에서는, 상기 복수의 노드 중 상기 제1 지식 네트워크를 구성하는 복수의 노드에 대한 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수, 상기 노드 별 센트럴리티 계수 및 상기 노드 별 허브의 성격 중 적어도 하나를 이용하여 노드 별 표준 점수를 계산하고, 상기 표준 점수가 임계 값 미만인 노드를 삭제하며, 삭제된 노드에 연관된 연결을 삭제할 수 있다.
상기 표준 점수는 제1 지식 네트워크를 구성하는 각 노드에 대한 소정의 그래프 이론 지표의 지표값과 제1 지식 네트워크를 구성하는 복수의 노드에 대한 소정의 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값이고, 상기 임계 값은 95%의 유의성일 수 있다.
본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치는 소정의 검색어를 수신하는 검색어 수신부; 빅데이터 DB(database)로부터 상기 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하고, 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티 간 상호 연관도를 추출하는 데이터 추출부; 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티를 포함하는 복수의 노드를 상기 상호 연관도에 따라 연결한 제1 지식 네트워크를 생성하는 데이터 생성부; 상기 제1 지식 네트워크의 그래프 이론 지표를 계산하는 데이터 처리부; 상기 복수의 노드 중 상기 그래프 이론 지표가 임계 값 이상인 일부 노드를 이용하여 제2 지식 네트워크를 생성하는 데이터 정제부; 그리고 상기 제2 지식 네트워크를 노출하는 출력부를 포함한다.
본 발명의 한 실시예에 따른 기록매체는 소정의 검색어를 수신하는 단계; 빅데이터 DB(database)로부터 상기 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하는 단계; 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티 간 상호 연관도를 추출하는 단계; 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티를 포함하는 복수의 노드를 상기 상호 연관도에 따라 연결한 제1 지식 네트워크를 생성하는 단계; 상기 제1 지식 네트워크의 그래프 이론 지표를 계산하는 단계; 그리고 상기 복수의 노드 중 상기 그래프 이론 지표가 임계 값 이상인 일부 노드를 이용하여 제2 지식 네트워크를 생성하는 단계를 포함하는 데이터 처리 방법을 실행시키기 위하여 컴퓨터로 읽을 수 있는 프로그램이 기록된 기록 매체이다.
본 발명의 실시예에 따르면, 신약 후보 물질 발굴을 위하여 막대한 양의 정보를 일일이 탐색하지 않고도, 소정의 검색어와 관련된 생물학적 엔티티 및 이들의 상호 연관도에 관한 정제된 정보를 단시간 내에 추출할 수 있다. 이에 따라, 신약 후보 물질 또는 신약 후보 물질의 타겟을 발굴하는데 소요되는 비용 및 기간을 현저히 줄일 수 있다.
도 1은 본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치의 블록도이다.
도 2는 본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 순서도이다.
도 3은 소정의 검색어가 입력되는 예를 나타낸다.
도 4는 단계 S110 및 단계 S120에서 추출된 생물학적 엔티티 및 이들 간 상호 연관도를 나타내는 매트릭스의 일 예의 일부이다.
도 5는 도 4의 매트릭스를 추출하기 위한 상호 연관도의 범주의 일 예의 일부이다.
도 6은 본 발명의 실시예에 따라 생성된 제1 지식 네트워크의 일 예이다.
도 7은 Participation coefficient (PC)에 따라 허브의 종류를 구분하는 일례를 나타낸다.
도 8은 본 발명의 실시예에 따라 "epilepsy syndrome"를 검색어로 하여 생성된 제2 지식 네트워크의 일 예이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제2, 제1 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 한 실시예에 따른 신약 후보 물질 발굴을 위한 데이터 처리 장치의 블록도이고, 도 2는 본 발명의 한 실시예에 따른 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법의 순서도이다.
도 1을 참조하면, 신약 후보 물질 발굴을 위한 데이터 처리 장치(100)는 검색어 수신부(110), 데이터 추출부(120), 데이터 생성부(130), 데이터 처리부(140), 데이터 정제부(150), 출력부(160) 및 저장부(170)를 포함한다.
도 1 내지 2를 참조하면, 검색어 수신부(110)는 소정의 검색어를 수신한다(S100). 소정의 검색어는 사용자가 정보 탐색하기를 윈하는 검색어일 수 있고, 사용자 인터페이스를 통하여 입력될 수 있으며, 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함할 수 있다. 도 3은 소정의 검색어가 입력되는 예를 나타낸다. 도 3을 참조하면, 출력부(160)를 통하여 소정의 검색어를 입력하기 위한 화면이 노출될 수 있으며, 사용자 인터페이스를 통하여 소정의 검색어가 입력될 수 있다. 도 3에서는 질환명을 범주로 선택하며, 소정의 검색어로 epilepsy syndrome를 입력하는 예를 나타낸다.
다음으로, 데이터 추출부(120)는 단계 S100에서 수신된 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티(entity)를 추출하며(S110), 소정의 검색어와 추출한 생물학적 엔티티 간 상호 연관도를 추출한다(S120). 여기서, 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함할 수 있으며, 소정의 검색어가 속한 레벨은 생물학적 엔티티가 속한 레벨과 동일할 수도 있고, 상이할 수도 있다. 예를 들어, 도 3에서 예시한 바와 같이, 소정의 검색어가 질환명인 epilepsy syndrome인 경우, 단계 S110에서 추출되는 생물학적 엔티티는 epilepsy syndrome과 연관된 유전자, epilepsy syndrome과 연관된 단백질, epilepsy syndrome과 연관된 신진대사체, epilepsy syndrome과 연관된 증상, epilepsy syndrome과 연관된 질환, epilepsy syndrome과 연관된 화합물 및 epilepsy syndrome과 연관된 약품 중 적어도 하나를 포함할 수 있다. 그리고, 단계 S110에서 추출되는 생물학적 엔티티는 레벨 별로 복수의 생물학적 엔티티를 포함할 수도 있다. 예를 들어, 도 3에서 예시한 바와 같이, 소정의 검색어가 질환명인 epilepsy syndrome인 경우, 단계 S110에서 추출되는 생물학적 엔티티는 epilepsy syndrome과 연관된 복수의 유전자, epilepsy syndrome과 연관된 복수의 단백질, epilepsy syndrome과 연관된 복수의 신진대사체, epilepsy syndrome과 연관된 복수의 증상, epilepsy syndrome과 연관된 복수의 질환, epilepsy syndrome과 연관된 복수의 화합물 및 epilepsy syndrome과 연관된 복수의 약품 중 적어도 하나를 포함할 수도 있다.
이를 위하여, 데이터 추출부(120)는 빅데이터 DB(200)를 이용할 수 있다. 빅데이터 DB(200)는 본 발명의 실시예에 따른 데이터 처리 장치(100) 외부의 DB일 수 있으며, 누구나 접근 가능하거나 소정의 조건 하에 인증 받은 자가 접근 가능한 글로벌 공공 DB일 수 있다. 빅데이터 DB(200)는 생물학적 엔티티에 관한 정보 및 생물학적 엔티티 간 상호 연관도를 미리 저장할 수 있다. 예를 들어, 빅데이터 DB(200)는 생물학적 엔티티 종류 별 DB 및 생물학적 엔티티 간 상호 연관도에 관한 DB를 포함할 수 있다. 생물학적 엔티티 종류 별 DB는 유전자 DB, 단백질 DB, 신진대사체 DB, 증상 DB, 질환 DB, 화합물 DB 및 약품 DB를 포함할 수 있다. 이들 DB는 하나의 빅데이터 DB로 통합하여 관리 및 운영되거나, 분산되어 관리 및 운용될 수 있다. 본 명세서에서, 빅데이터 DB(200)는 오믹스(omics) DB와 혼용될 수 있다.
이때, 데이터 추출부(120)가 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티 및 생물학적 엔티티 간 상호 연관도를 추출하기 위하여, 데이터 추출부(120)는 기계 학습을 포함하는 인공지능 기술에 기반하며, 자연어 처리 알고리즘을 이용할 수 있다. 여기서, 자연어 처리는 인간이 발화하는 언어 현상을 기계적으로 분석하여 컴퓨터가 이해할 수 있는 형태로 만들고, 컴퓨터가 이해할 수 있는 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다. 이를 위하여, 빅데이터 DB(200)는 생물학적 엔티티 종류 별 언어 기반 DB일 수 있으며, 기계 학습된 결과 및 피드백 결과를 반영한 정보를 포함할 수 있다.
또는 데이터 추출부(120)가 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티 및 생물학적 엔티티 간 상호 연관도를 추출하기 위하여, 데이터 추출부(120)는 기계 학습을 포함하는 인공지능 기술에 기반하며, 심층 신경망 알고리즘을 이용할 수도 있다. 여기서, 심층 신경망은 입력층과 출력층 사이의 여러 개의 은닉층들로 이루어진 인공 신경망(artificial neural network)으로, 분류, 예측, 이미지 인식, 문자 인식 등에 사용되는 제반 기술을 의미한다. 이를 위하여, 빅데이터 DB(200)는 생물학적 엔티티 종류 별 이미지 기반 DB일 수 있으며, 기계 학습된 결과 및 피드백 결과를 반영한 정보를 포함할 수 있다.
도 4는 단계 S110 및 단계 S120에서 추출된 생물학적 엔티티 및 이들 간 상호 연관도를 나타내는 매트릭스의 일 예의 일부이고, 도 5는 도 4의 매트릭스를 추출하기 위한 상호 연관도의 범주의 일 예의 일부이다.
도 4 내지 5를 참조하면, 생물학적 엔티티 간 상호 연관도의 범주는 "상호작용(interact)", "참여(participate)", "공변(covariate)", "조절(regulate)", "연관(associate)", "결합(bind)", "업레귤레이트(upregulate)", "원인(cause)", "유사(resemble)", "치료(treat)", "다운레귤레이트(downregulates)", "완화(palliate)", "발현(present)", "위치(localize)", "포함(include)", "표출(express)"등을 포함할 수 있으며, 범주 별로 식별 번호가 임의로 부여될 수 있다. 범주 별 식별 번호는 사용자에 의하여 설정되거나, 자동으로 설정될 수 있다.
예를 들어, 단계 S100에서 약품명인 부프로피온(bupropion)이 소정의 검색어로 수신된 경우, 데이터 추출부(120)는 부프로피온과 관련된 화합물로 "acamprosate", "vigabatrin", "rufinamide" 등을 추출하고, 질환으로 "epilepsy syndrome"을 추출하며, 신진대사체로 "ethanol", "gamma-amine", "glycine", "L-glutamic acid" 등을 추출할 수 있으며, 소정의 검색어와 생물학적 엔티티 간 상호 연관도의 범주 또는 생물학적 엔티티들 간 상호 연관도의 범주가 식별 번호로 표시된 매트릭스를 생성할 수 있다. 도 4의 매트릭스에서 제1열은 생물학적 엔티티의 범주를 나타내고, 제2 열은 범주 별로 추출된 생물학적 엔티티를 나타내며, 아래 열의 숫자는 상호 연관도의 범주를 나타낸다. 이러한 매트릭스의 형태는 예시적인 것으로, 이로 제한되는 것은 아니며, 다양한 형태로 변형될 수 있다.
다음으로, 데이터 생성부(130)는 단계 S110과 단계 S120에서 추출한 결과를 이용하여 제1 지식 네트워크를 생성한다(S130). 도 6은 본 발명의 실시예에 따라 생성된 제1 지식 네트워크의 일 예이다. 여기서, 제1 지식 네트워크는 단계 S100에서 수신된 소정의 검색어와 단계 S110에서 추출된 적어도 하나의 생물학적 엔티티 각각을 노드로 하며, 단계 S120에서 추출한 소정의 검색어와 생물학적 엔티티 간의 상호 연관도 또는 생물학적 엔티티들 간의 상호 연관도에 따라 연결선을 이용하여 복수의 노드를 연결한 형태일 수 있다. 연결선은 동일한 오믹스 레벨 내 노드들을 연결할 수도 있고, 서로 다른 오믹스 레벨 내 노드들을 연결할 수도 있다. 제1 지식 네트워크 내 노드 중 하나인 노드 A로부터 다른 하나인 노드 B로 가는 경로는 다양할 수 있으며, 가능한 모든 경로가 연결선에 의하여 연결될 수 있다. 여기서, 지식 네트워크는 생물학적 엔티티 간의 상호 연관도로 이루어진 네트워크로, 생물학적 네트워크와 혼용될 수 있다.
다음으로, 데이터 처리부(140)는 단계 S130에서 생성한 제1 지식 네트워크의 그래프 이론 지표를 계산한다(S140). 여기서, 그래프 이론 지표는 제1 지식 네트워크를 구성하는 복수의 노드에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수 및 노드 별 허브 성격 중 적어도 하나를 포함할 수 있다.
노드 간 최단 경로는 제1 지식 네트워크에서 노드 A로부터 노드 B로 가는 수 많은 경로 중 가장 짧은 경로를 의미할 수 있다. 이하, 생물학적 엔티티 중 하나인 노드 A와 생물학적 엔티티 중 다른 하나인 노드 B 간 최단 경로를 산출하는 방법을 설명하고자 한다.
노드 A로부터 노드 B로 가는 경로는 다양하며, 노드 A와 노드 B가 직접 연결되거나, 노드 A와 노드 B 간 각 경로 상에 적어도 하나의 중간 노드가 존재할 수도 있다.
노드 A와 노드 B 간 최단 경로는 경로 별 중간 노드의 개수를 이용하여 얻을 수 있다. 예를 들어, 노드 A와 노드 B 간 다양한 경로 중 중간 노드의 개수가 적을수록 짧은 경로인 것으로 판단할 수 있다.
또는, 노드 A와 노드 B 간 최단 경로는 경로 별 중간 노드의 개수를 이용하여 얻되, 연결선 별 상호 연관성의 종류를 반영할 수도 있다. 즉, 상호 연관성의 범주 별로 가중치를 다르게 설정하며, 경로 별로 존재하는 상호 연관성에 가중치를 적용할 수도 있다. 상호 연관성의 종류는 도 5에 예시된 바와 같으며, 상호 연관성의 종류 별로 다른 가중치 값을 가질 수 있다.
수학식 1은 노드 간 최단 경로를 산출하는 식의 한 예이다.
Figure PCTKR2019002918-appb-M000001
여기서,
Figure PCTKR2019002918-appb-I000001
는 두 노드 s와 t간의 상호 연관성 지표이며, f는 가중치 변환 함수이고,
Figure PCTKR2019002918-appb-I000002
는 두 노드 i와 j 사이의 최단 경로이다. 경로 별로 수학식 1의 값을 구하며, 가장 낮은 값 또는 가장 높은 값을 가지는 경로가 최단 경로로 선택될 수 있다.
다음으로, 노드 별 클러스터링 계수(clustering coefficient)는 수학식 2 및 수학식 3에 의하여 계산될 수 있다. 여기서, 클러스터링 계수는 집단화 계수라고 지칭될 수도 있으며, 특정 노드와 이웃한 노드들이 서로 연결되어 있을 확률 또는 특정 노드와 이웃한 노드들 간의 연결 밀도를 의미할 수 있다.
Figure PCTKR2019002918-appb-M000002
여기서,
Figure PCTKR2019002918-appb-I000003
는 지식 네트워크의 각 노드 i 주변에 만들어지는 그래프 내의 삼각형의 개수를 의미하며, N은 지식 네트워크의 전체 노드 집합이며,
Figure PCTKR2019002918-appb-I000004
는 두 노드 i와 j간 상호 연관성 지표이고,
Figure PCTKR2019002918-appb-I000005
는 두 노드 i와 h간 상호 연관성 지표이며,
Figure PCTKR2019002918-appb-I000006
는 두 노드 j와 h간 상호 연관성 지표이다.
Figure PCTKR2019002918-appb-M000003
여기서,
Figure PCTKR2019002918-appb-I000007
는 클러스터링 계수를 의미하며,
Figure PCTKR2019002918-appb-I000008
는 지식 네트워크의 각 노드 i 주변에 만들어지는 그래프 내의 삼각형의 개수고,
Figure PCTKR2019002918-appb-I000009
는 노드 i의 degree, 즉 노드 i의 지식 네트워크 내 연결성 정도 값을 의미한다.
다음으로, 노드 별 센트렐리티(centrality) 지표는 특정 노드가 허브의 기능을 가지는지에 대한 지표이며,
Figure PCTKR2019002918-appb-I000010
(nodal degree)값, BC(betweenness centrality)값,
Figure PCTKR2019002918-appb-I000011
(nodal efficiency) 값 등에 의하여 나타낼 수 있다. 여기서,
Figure PCTKR2019002918-appb-I000012
값은 각 노드의 지식 네트워크 내 연결성 정도 값, 즉, 지식 네트워크 내에서 노드 i가 얼마나 강한 또는 약한 연결성을 가지고 있는지를 나타내는 지표이고,
Figure PCTKR2019002918-appb-I000013
값은 노드 i의 지식 네트워크 내 효율성 정도 값, 즉 수학식 1의 최단 경로의 역수로 표현된 값으로, 경로가 짧을수록 높은 효율성을 가지고, BC 값은 지식 네트워크 내 노드 간 경로에서 노드 i가 지름길이 되는 횟수를 나타내는 지표이다.
먼저,
Figure PCTKR2019002918-appb-I000014
값은 수학식 4에 의하여 계산될 수 있다.
Figure PCTKR2019002918-appb-M000004
여기서,
Figure PCTKR2019002918-appb-I000015
는 두 노드 i와 j간 상호 연관성 지표이고, N은 지식 네트워크의 전체 노드 집합이다.
그리고,
Figure PCTKR2019002918-appb-I000016
값은 수학식 5에 의하여 계산될 수 있다.
Figure PCTKR2019002918-appb-M000005
여기서, N은 지식 네트워크의 전체 노드 집합이고,
Figure PCTKR2019002918-appb-I000017
는 수학식 1에서 계산한 최단 경로를 나타내는 값이다.
다음으로, Betweenness centrality(BC)는 수학식 6에 의하여 계산될 수 있다.
Figure PCTKR2019002918-appb-M000006
여기서,
Figure PCTKR2019002918-appb-I000018
는 노드 h j 사이의 최단 거리를 의미하고,
Figure PCTKR2019002918-appb-I000019
는 노드 i를 통과하는 h j 사이의 최단 거리를 의미한다.
다음으로, 소정의 노드가 허브의 기능을 가지는 것으로 판단되는 경우, 허브의 성격을 분류한다. 이때, 허브의 성격은 kinless 허브, connector 허브, provincial 허브 등으로 분류될 수 있다. 여기서, kinless 허브는 영향력이 가장 높은 허브, 즉 많은 모듈 내 노드들과 연결된 허브를 의미하고, connector 허브는 지식 네트워크 내 모듈을 연결하는 성격의 허브를 의미하며, provincial 허브는 주로 모듈 내에서 높은 영향력을 가지는 허브를 의미한다. 여기서, 모듈(module)은 전체 지식 네트워크를 세분화한 구조적 구성 그룹일 수 있다.
이를 위하여, 지식 네트워크 내의 모듈 지수(Modularity)는 수학식 7과 같이 계산될 수 있다. 모듈 지수(modularity)는 전체 지식 네트워크의 구성 모듈 종류 수를 의미한다.
Figure PCTKR2019002918-appb-M000007
여기서,
Figure PCTKR2019002918-appb-I000020
는 노드 i에서의 가중치 합을 의미하고,
Figure PCTKR2019002918-appb-I000021
는 가중치 합을 의미한다.
Figure PCTKR2019002918-appb-I000022
는 크로네커의 델타(kronecker delta)이고, mi=mj인 경우 1이고, 나머지인 경우 0이다.
다음으로, 지식 네트워크 모듈의 참여지수(participation coefficient, PC)는 수학식 8과 같이 계산될 수 있다.
Figure PCTKR2019002918-appb-M000008
여기서, M은 모듈의 집합을 의미하고,
Figure PCTKR2019002918-appb-I000023
는 모듈 m 내에서 노드 i와 나머지 모든 노드 간의 연결 수를 의미하고, 모듈 m은 전체 지식 네트워크를 세분화한 구조적 구성 그룹을 의미한다.
그리고, 지식 네트워크 모듈의 z스코어(within-module degree)는 수학식 9와 같이 계산될 수 있다.
Figure PCTKR2019002918-appb-M000009
여기서,
Figure PCTKR2019002918-appb-I000024
는 모듈 m 내의 노드 i를 의미하고,
Figure PCTKR2019002918-appb-I000025
는 노드 i의 모듈 m 내에서의 연결 정도(degree)를 의미하며,
Figure PCTKR2019002918-appb-I000026
,
Figure PCTKR2019002918-appb-I000027
는 각각 모듈 m내의 연결 정도 분포(degree distribution)의 평균과 표준 편차를 의미한다.
이상의 수학식 9의 지표 계산을 통해 각 노드가 모듈 내에서 허브인지 아닌지를 구분할 수 있다. 예를 들어, 다음과 같이, 지식 네트워크 모듈의 Z 스코어가 2.5 이상인 경우 허브인 것으로 판정될 수 있다.
1.within-module z-score ≥ 2.5: 허브
2. within-module z-score < 2.5: 허브 아님
또한, 노드가 모듈 내 허브인 것으로 판정될 경우, 수학식 8의 지표 계산을 통해 다음과 같이 허브의 종류를 분류할 수 있으며, 도 7은 PC에 따라 허브의 종류를 구분하는 일례를 나타낸다.
1. Provincial 허브: PC ≤0.30
2. Connector 허브: 0.3 < PC ≤0.75
3. Kinless 허브: PC > 0.75
이와 같이, 데이터 처리부(140)가 단계 S140에 의하여 그래프 이론 지표를 계산한 경우, 데이터 정제부(150)는 그래프 이론 지표를 이용하여 제1 지식 네트워크로부터 정제된 제2 지식 네트워크를 생성한다(S150). 여기서, 제2 지식 네트워크는 제1 지식 네트워크보다 단순화된 네트워크로, 제1 지식 네트워크를 구성하는 복수의 노드 중 그래프 이론 측면에서 상관성이 높은 일부 노드만으로 구성될 수 있다.
이때, 제2 지식 네트워크를 구성하는 노드는 제1 지식 네트워크를 구성하는 복수의 노드 중 단계 S140에서 계산한 그래프 이론 지표 중 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 일부가 임계 값 이상인 일부 노드일 수 있다. 즉, 제2 지식 네트워크는 제1 지식 네트워크를 구성하는 복수의 노드 중에서 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 일부가 임계 값 미만인 노드를 삭제하고, 삭제된 노드에 연관된 연결을 삭제하는 방법으로 생성될 수 있다.
여기서, 임계 값과 비교되는 그래프 이론 지표는 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값, 노드 별 센트럴리티 계수에 대한 지표값 각각일 수 있다. 또는, 임계 값과 비교되는 그래프 이론 지표는 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값, 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 두 개를 통합하여 산출된 값일 수 있다.
이때, 노드 간 최단 경로에 대한 지표값, 노드 별 클러스터링 계수에 대한 지표값 및 노드 별 센트럴리티 계수에 대한 지표값 중 적어도 하나는 노드 별 표준 점수로 계산될 수 있으며, 계산된 표준 점수가 임계 값과 비교될 수 있다.
여기서, 표준 점수는 z 스코어일 수 있으며, 임계 값은 95%의 유의성을 의미할 수 있다.
Z 스코어는 수학식 10과 같이 계산될 수 있다.
Figure PCTKR2019002918-appb-M000010
여기서, z는 z 스코어이고, X는 제1 지식 네트워크 내 특정 노드에 대한 소정의 그래프 이론 지표의 지표값이며, mean(x)는 제1 지식 네트워크 내 복수의 노드에 대한 소정의 그래프 이론 지표의 평균 지표값이고, SE(x)는 제1 지식 네트워크 내 소정의 그래프 이론 지표의 지표값의 표준 에러이다. 여기서,
Figure PCTKR2019002918-appb-I000028
로 나타낼 수 있으며, σ는 표준 편차이고, n은 제1 지식 네트워크를 구성하는 복수의 노드의 개수이다.
즉, z 스코어는 제1 지식 네트워크를 구성하는 각 노드에 대한 소정의 그래프 이론 지표의 지표값과 제1 지식 네트워크를 구성하는 복수의 노드에 대한 소정의 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값일 수 있다.
이때, z 스코어는 퍼뮤테이션 테스트(permutation test)를 통하여 계산될 수 있다. 퍼뮤테이션 테스트는 제1 지식 네트워크를 구성하는 전체 연결선을 임의로 섞은 다음, 각 노드에 대해 z 스코어를 계산하는 방법으로 행해질 수 있다. 이때, 임의로 섞는 횟수는 1000회 이상일 수 있다.
또는, 제2 지식 네트워크를 구성하는 노드는 제1 지식 네트워크를 구성하는 복수의 노드 중에서 단계 S140에서 계산한 그래프 이론 지표 중 노드 별 허브 성격에 대한 지표 값을 이용하여 추출한 일부 노드일 수도 있다. 즉, 제2 지식 네트워크를 구성하는 노드는 수학식 9의 지표 계산을 통해 모듈 내 허브인 것으로 판정된 노드, 바람직하게는 kinless 허브, connector 허브 및 provincial 허브 중 하나로 분류된 노드, 더욱 바람직하게는 kinless 허브 및 connector 허브 중 하나로 분류된 노드, 더욱 바람직하게는 kinless 허브로 분류된 노드일 수 있다.
다음으로, 출력부(160)는 단계 S150에서 생성된 제2 지식 네트워크를 출력한다(S160). 출력부(160)는, 예를 들어 디스플레이일 수 있다. 도 8은 본 발명의 실시예에 따라 "epilepsy syndrome"를 검색어로 하여 생성된 제2 지식 네트워크의 일 예이다. 도 8을 참조하면, 도 6의 제1 지식 네트워크에 비하여 현저히 단순화되고 정제된 제2 지식 네트워크를 얻을 수 있음을 알 수 있다. 또한, 도 8을 참조하면, "epilepsy syndrome"와 연관된 서로 다른 오믹스 레벨 내 생물학적 엔티티 및 이들 간 상호 연관성을 직관적으로 얻을 수 있음을 알 수 있다.
이와 같이, 본 발명의 실시예에 따르면, 소정의 검색어와 관련하여 정제된 노드만으로 구성된 제2 지식 네트워크를 얻을 수 있으며, 이에 따라 신약 후보 물질 또는 신약 후보 물질의 타겟을 용이하게 결정할 수 있다.
한편, 본 발명의 실시예에 따른 데이터 처리 장치(100)는 데이터 저장부(170)를 포함할 수도 있다. 데이터 저장부(170)는 데이터 추출부(120), 데이터 생성부(130), 데이터 처리부(140) 및 데이터 정제부(150)와 연결될 수 있으며, 데이터 추출부(120), 데이터 생성부(130), 데이터 처리부(140) 및 데이터 정제부(150)로부터 산출된 결과를 저장할 수 있다. 이러한 데이터 저장부(170)는 외부의 학습 서버와 무선 또는 유선으로 연결될 수 있으며, 저장된 데이터를 외부의 학습 서버에 전달할 수도 있다.
본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (17)

  1. 데이터 처리 장치의 신약 후보 물질 발굴을 위한 데이터 처리 방법에 있어서,
    소정의 검색어를 수신하는 단계;
    빅데이터 DB(database)로부터 상기 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하는 단계;
    상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티 간 상호 연관도를 추출하는 단계;
    상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티를 포함하는 복수의 노드를 상기 상호 연관도에 따라 연결한 제1 지식 네트워크를 생성하는 단계;
    상기 제1 지식 네트워크의 그래프 이론 지표를 계산하는 단계; 그리고
    상기 복수의 노드 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 제2 지식 네트워크를 생성하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 소정의 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함하는 방법.
  3. 제1항에 있어서,
    상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함하는 방법.
  4. 제1항에 있어서,
    상기 생물학적 엔티티 및 상기 제1 상호 연관도는 자연어 처리 알고리즘 및 심층 신경망 알고리즘 중 적어도 하나를 이용하여 추출되는 방법.
  5. 제1항에 있어서,
    상기 빅데이터 DB는 생물학적 엔티티 종류 별 언어 기반 DB 및 생물학적 엔티티 종류 별 이미지 기반 DB 중 적어도 하나를 포함하는 방법.
  6. 제1항에 있어서,
    상기 그래프 이론 지표는 상기 제1 지식 네트워크를 구성하는 복수의 노드에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수 및 노드 별 허브의 성격 중 적어도 하나를 포함하는 방법.
  7. 제6항에 있어서,
    상기 제2 지식 네트워크를 생성하는 단계에서는,
    상기 복수의 노드 중 상기 제1 지식 네트워크를 구성하는 복수의 노드에 대한 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수 및 상기 노드 별 센트럴리티 계수 중 적어도 하나를 이용하여 노드 별 표준 점수를 계산하고, 상기 표준 점수가 임계 값 미만인 노드를 삭제하며, 삭제된 노드에 연관된 연결을 삭제하는 방법.
  8. 제7항에 있어서,
    상기 표준 점수는 제1 지식 네트워크를 구성하는 각 노드에 대한 소정의 그래프 이론 지표의 지표값과 제1 지식 네트워크를 구성하는 복수의 노드에 대한 소정의 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값이고, 상기 임계 값은 95%의 유의성인 방법.
  9. 신약 후보 물질 발굴을 위한 데이터 처리 장치에 있어서,
    소정의 검색어를 수신하는 검색어 수신부;
    빅데이터 DB(database)로부터 상기 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하고, 상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티 간 상호 연관도를 추출하는 데이터 추출부;
    상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티를 포함하는 복수의 노드를 상기 상호 연관도에 따라 연결한 제1 지식 네트워크를 생성하는 데이터 생성부;
    상기 제1 지식 네트워크의 그래프 이론 지표를 계산하는 데이터 처리부;
    상기 복수의 노드 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 제2 지식 네트워크를 생성하는 데이터 정제부; 그리고
    상기 제2 지식 네트워크를 노출하는 출력부
    를 포함하는 데이터 처리 장치.
  10. 제9항에 있어서,
    상기 소정의 검색어는 유전자명, 단백질명, 신진대사체명, 증상명, 질환명, 화합물명 및 약품명 중 적어도 하나를 포함하는 데이터 처리 장치.
  11. 제9항에 있어서,
    상기 생물학적 엔티티는 유전자, 단백질, 신진대사체, 증상, 질환, 화합물 및 약품 중 적어도 하나를 포함하는 데이터 처리 장치.
  12. 제9항에 있어서,
    상기 데이터 추출부는 자연어 처리 알고리즘 및 심층 신경망 알고리즘 중 적어도 하나를 이용하여 상기 생물학적 엔티티 및 상기 제1 상호 연관도를 추출하는 데이터 처리 장치.
  13. 제9항에 있어서,
    상기 빅데이터 DB는 생물학적 엔티티 종류 별 언어 기반 DB 및 생물학적 엔티티 종류 별 이미지 기반 DB 중 적어도 하나를 포함하는 데이터 처리 장치.
  14. 제9항에 있어서,
    상기 그래프 이론 지표는 상기 제1 지식 네트워크를 구성하는 복수의 노드에 대한 노드 간 최단 경로, 노드 별 클러스터링 계수, 노드 별 센트럴리티 계수 및 노드 별 허브 성격 중 적어도 하나를 포함하는 데이터 처리 장치.
  15. 제14항에 있어서,
    상기 데이터 정제부는 상기 복수의 노드 중 상기 제1 지식 네트워크를 구성하는 복수의 노드에 대한 상기 노드 간 최단 경로, 상기 노드 별 클러스터링 계수 및 상기 노드 별 센트럴리티 계수 중 적어도 하나를 이용하여 노드 별 표준 점수를 계산하고, 상기 표준 점수가 임계 값 미만인 노드를 삭제하며, 삭제된 노드에 연관된 연결을 삭제하는 데이터 처리 장치.
  16. 제14항에 있어서,
    상기 표준 점수는 제1 지식 네트워크를 구성하는 각 노드에 대한 소정의 그래프 이론 지표의 지표값과 제1 지식 네트워크를 구성하는 복수의 노드에 대한 소정의 그래프 이론 지표의 평균 지표값 간의 차를 표준 에러로 나눈 값이고, 상기 임계 값은 95%의 유의성인 데이터 처리 장치.
  17. 소정의 검색어를 수신하는 단계;
    빅데이터 DB(database)로부터 상기 소정의 검색어와 관련된 적어도 하나의 생물학적 엔티티를 추출하는 단계;
    상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티 간 상호 연관도를 추출하는 단계;
    상기 소정의 검색어와 상기 적어도 하나의 생물학적 엔티티를 포함하는 복수의 노드를 상기 상호 연관도에 따라 연결한 제1 지식 네트워크를 생성하는 단계;
    상기 제1 지식 네트워크의 그래프 이론 지표를 계산하는 단계; 그리고
    상기 복수의 노드 중 상기 그래프 이론 지표를 이용하여 추출된 일부 노드를 이용하여 제2 지식 네트워크를 생성하는 단계를 포함하는 데이터 처리 방법을 실행시키기 위하여 컴퓨터로 읽을 수 있는 프로그램이 기록된 기록 매체.
PCT/KR2019/002918 2018-12-24 2019-03-13 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법 WO2020138588A1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US17/288,905 US20210397978A1 (en) 2018-12-24 2019-03-13 Apparatus and method for processing data discovering new drug candidate substance
KR1020190163398A KR102181058B1 (ko) 2019-03-13 2019-12-10 신약 후보 물질 도출을 위한 데이터 처리 방법
US17/428,619 US20220020454A1 (en) 2019-03-13 2019-12-16 Method for data processing to derive new drug candidate substance
PCT/KR2019/017793 WO2020184816A1 (ko) 2019-03-13 2019-12-16 신약 후보 물질 도출을 위한 데이터 처리 방법
KR1020200139362A KR102379214B1 (ko) 2019-03-13 2020-10-26 멀티오믹스 네트워크 기반 신약 후보 물질 탐색 방법

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2018-0168653 2018-12-24
KR20180168653 2018-12-24
KR1020190028788 2019-03-13
KR10-2019-0028788 2019-03-13

Publications (1)

Publication Number Publication Date
WO2020138588A1 true WO2020138588A1 (ko) 2020-07-02

Family

ID=71129604

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/002918 WO2020138588A1 (ko) 2018-12-24 2019-03-13 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법

Country Status (2)

Country Link
US (1) US20210397978A1 (ko)
WO (1) WO2020138588A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781194B (zh) * 2022-06-20 2022-09-09 航天晨光股份有限公司 基于金属软管的数据库的构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146380A (ja) * 2004-11-17 2006-06-08 Hitachi Ltd 化合物の機能予測方法及び機能予測システム
JP2017102910A (ja) * 2015-11-19 2017-06-08 公益財団法人かずさDna研究所 相関ネットワーク解析プログラム
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060305A1 (en) * 2003-09-16 2005-03-17 Pfizer Inc. System and method for the computer-assisted identification of drugs and indications
US20060053175A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and utilizing one or more rules for multi-relational ontology creation and maintenance
US20160342750A1 (en) * 2015-05-18 2016-11-24 PokitDok, Inc. Dynamic topological system and method for efficient claims processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146380A (ja) * 2004-11-17 2006-06-08 Hitachi Ltd 化合物の機能予測方法及び機能予測システム
JP2017102910A (ja) * 2015-11-19 2017-06-08 公益財団法人かずさDna研究所 相関ネットワーク解析プログラム
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARRELL, D. K. ET AL.: "Network systems biology for drug discovery", CLINICAL PHARMACOLOGY & THERAPEUTICS, vol. 88, no. 1, July 2010 (2010-07-01), pages 120 - 125 *
YU , Y. ET AL.: "PreMedKB: an integrated precision medicine knowledgebase for interpreting relationships between diseases, genes, variants and drugs", NUCLEIC ACIDS RESEARCH, vol. 47, no. D1, 8 November 2018 (2018-11-08), pages D1090 - D1101, XP055723297 *

Also Published As

Publication number Publication date
US20210397978A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
Dubchak et al. Recognition of a protein fold in the context of the SCOP classification
WO2017057921A1 (ko) 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
WO2020138590A1 (ko) 신약 후보 물질의 효과 및 안전성 예측을 위한 데이터 처리 장치 및 방법
WO2021096009A1 (ko) 릴레이션 네트워크에 기반한 지식 보완 방법 및 장치
WO2021095987A1 (ko) 다중타입 엔티티에 기반한 지식 보완 방법 및 장치
KR102181058B1 (ko) 신약 후보 물질 도출을 위한 데이터 처리 방법
CN113140254B (zh) 元学习药物-靶点相互作用预测系统及预测方法
CN113470741B (zh) 药物靶标关系预测方法、装置、计算机设备及存储介质
WO2018212396A1 (ko) 데이터를 분석하는 방법, 장치 및 컴퓨터 프로그램
WO2021149913A1 (ko) Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
Celebi et al. Evaluation of knowledge graph embedding approaches for drug-drug interaction prediction using linked open data
WO2022265480A1 (ko) 약물들 간 상호작용을 분석하기 위한 방법 및 장치
CN114141361B (zh) 基于症状术语映射与深度学习的中医处方推荐方法
WO2020138588A1 (ko) 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법
WO2020138589A1 (ko) 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법
WO2020184816A1 (ko) 신약 후보 물질 도출을 위한 데이터 처리 방법
WO2022245062A1 (ko) 인공 지능 기반의 유전체 분석 및 의약 물질 개발 방법 및 시스템
WO2022108206A1 (ko) 설명 가능한 지식그래프 완성 방법 및 장치
WO2022163996A1 (ko) 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
KR102187586B1 (ko) 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법
KR102187594B1 (ko) 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법
WO2022154586A1 (ko) 화합물의 타겟 단백질을 결정하는 방법 및 상기 방법을 수행하는 타겟 단백질 결정 장치
US9536193B1 (en) Mining biological networks to explain and rank hypotheses
WO2023229142A1 (ko) 전사체 데이터 기반의 합성치사 예측 장치, 합성치사 예측 방법 및 컴퓨터 프로그램
WO2023013867A1 (ko) 헬스 스페이스 모델을 이용한 건강 상태 정보 시각화 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19902523

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19902523

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC