WO2020204586A1 - 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램 - Google Patents

신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램 Download PDF

Info

Publication number
WO2020204586A1
WO2020204586A1 PCT/KR2020/004431 KR2020004431W WO2020204586A1 WO 2020204586 A1 WO2020204586 A1 WO 2020204586A1 KR 2020004431 W KR2020004431 W KR 2020004431W WO 2020204586 A1 WO2020204586 A1 WO 2020204586A1
Authority
WO
WIPO (PCT)
Prior art keywords
drug
disease
information
score
value
Prior art date
Application number
PCT/KR2020/004431
Other languages
English (en)
French (fr)
Inventor
백효정
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to US17/440,625 priority Critical patent/US20220165435A1/en
Publication of WO2020204586A1 publication Critical patent/WO2020204586A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients

Definitions

  • the present invention relates to a technique for recommending a new drug re-creation candidate.
  • Drug repositioning is a method of finding new drug efficacy by reevaluating drugs on the market or in clinical practice, and it can be seen that the possibility of success in developing drugs with a certain degree of safety has been verified.
  • genome information As the production of large amounts of gene expression data (hereinafter, genome information) has become generalized, and it becomes possible to discover gene association (reaction) data between various diseases (diseases) and drugs, gene association (reaction) between diseases and drugs ) The possibility of inferring new drug re-creation candidates through data mining has been attempted through recent studies.
  • the object to be reached in the present invention is to use limited data such as physiological information collected from human body derivatives of actual patients or personal medical information or symptom information protected by the Personal Information Act, and drugs whose safety has been verified. It is to predict new indications for and recommend candidates for new drug re-creation according to the predicted results.
  • the system for recommending candidates for re-creation of new drugs for achieving the above object extracts drug and disease trait information based on published literature information, and extracts drug and disease trait information based on genomic signatures.
  • Drug-disease edge score (P_t) based on document information is calculated according to the similarity matrix configured in the first matrix configuration unit, and genome information-based drug according to the similarity matrix configured in the second matrix configuration unit -A calculation unit that calculates a disease edge score (P_g);
  • a computer program combined with the hardware according to the second aspect of the present invention to achieve the above object and stored in the medium to execute the following steps, extracts drug and disease trait information based on published literature information, and An information extraction step of extracting gene-related information of drugs and diseases based on genomic signatures;
  • Drug-disease edge score (P_t) based on document information is calculated according to the similarity matrix configured in the first matrix construction step, and genome information-based drug according to the similarity matrix configured in the second matrix configuration step -A calculation step of calculating a disease edge score (P_g); According to a value determined using at least one of the calculated score P_t and score P_g, a recommendation step of recommending candidates for new drug re-creation is executed
  • the recommendation step includes a final calculation step of calculating a final prediction score f (e_ij) of a drug-disease edge using the calculated score (P_t) and score (P_g), and the final prediction According to the value determined based on the score f(e_ij), a recommendation step of recommending a candidate for re-creation of a new drug may be included.
  • the literature information includes a description of disease symptoms and medication information, drug response traits, drug indications, or drug side effects, academic papers, medical/pharmaceutical books, drugs based on computational technology, and disease-related traits. It may include at least one of a database that collects and discloses information, and descriptive information related to diseases and drugs.
  • a related word vector representing the frequency of occurrence of each related trait word for each drug is constructed as an information value, and Based on the associated word vector, a drug-drug similarity matrix can be constructed by calculating the cosine similarity between the associated word vectors of each drug.
  • a related word vector representing the frequency of occurrence of each related trait word for each disease is constructed as an information value, and Based on the associated word vector, a disease-disease similarity matrix can be constructed by calculating the cosine similarity between the associated word vectors of each disease.
  • the information value in the associated word vector of the drug or the information value in the associated word vector of the disease is defined as t_ij representing the frequency of occurrence of the i-th associated trait word of the j-th drug or the j-th disease
  • the information value (t_ij) may be a value normalized to the frequency (T_ij) in which the i-th associated trait word appears in one document, as the frequency (n_i) in the entire document information.
  • a drug-disease edge score (P_t) based on literature information is calculated using the similarity matrix configured in the first matrix configuration step and the configured drug-disease dichotomy network, and For (s_i, i-th drug) and specific disease (t_j, j-th disease) pair, the specific drug (s_i) identified from the drug-drug similarity matrix constructed in the first matrix construction step and the criteria selected for calculation
  • the similarity value between drugs (s_p), the similarity value between the specific disease (t_j) identified from the disease-disease similarity matrix configured in the first matrix construction step and the reference disease (t_q) selected for calculation, the reference drug (s_p ) And the edge between the reference disease (t_q), and the degree of the reference drug (s_p) identified in the drug-disease bipartite network a drug-disease edge score (P_t) based on literature information is calculated using the similarity matrix configured in the first matrix configuration step and the configured drug-disease dichoto
  • the reference drug (s_p) is selected based on the proven similarity with the specific drug (s_i), and the edge label with the reference drug (s_p) from the proven drug-disease association is a true value ( True), the reference disease (t_q) is selected, or the reference disease (t_q) is selected on the basis of a previously proven similarity with the specific disease (t_j), and the standard from the proven drug-disease association
  • the reference drug s_p, whose edge label with the disease t_q is a true value (True) may be selected.
  • the heritability of a specific drug (s_i) and a specific disease (t_j) pair used when calculating the score (P_t) and score (P_g) is checked, and the drug-disease edge When calculating the final prediction score f(e_ij) of (edge), it can be calculated in a different manner according to the heritability.
  • the drug-disease edge based on genome information rather than the score (P_t) when calculating the final prediction score f(e_ij) of the drug-disease edge.
  • (edge) score (P_g) is weighted and calculated. If the heritability is less than the reference value, the drug-disease edge's final predicted score f(e_ij) is calculated based on literature information rather than the score (P_g). -It can be calculated by placing weight on the disease edge score (P_t).
  • the final prediction score f(e_ij) is determined as a True/False value according to a reference value (cut-off), and if the value is True, the final prediction
  • the specific drug (s_i) can be recommended as a new drug for the specific disease (t_j) by identifying a pair of a specific drug (s_i) and a specific disease (t_j) used when calculating the score f(e_ij).
  • limited data such as physiological information collected from human body derivatives of a patient, or personal medical information or symptom information protected by the Personal Information Act is not used, It is possible to implement a new drug re-creation candidate recommendation technique (technology) that can predict new indications for drugs whose safety has been verified and recommend new drug re-creation candidates according to the predicted results.
  • FIG. 1 is a block diagram showing the configuration of a system for recommending candidates for re-creation of a new drug according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing a process of configuring a drug-disease bipartite network according to the present invention.
  • FIG. 3 is a flowchart illustrating a method of recommending a candidate for re-creation of a new drug performed by a computer program according to an embodiment of the present invention.
  • the present invention relates to the field of drug repositioning technology.
  • Drug repositioning is a method of finding new drug efficacy by reevaluating drugs on the market or in clinical practice, and it can be seen that the possibility of success in developing drugs with a certain degree of safety has been verified.
  • genome information As the production of large amounts of gene expression data (hereinafter, genome information) has become generalized, and it becomes possible to discover gene association (reaction) data between various diseases (diseases) and drugs, gene association (reaction) between diseases and drugs ) The possibility of inferring new drug re-creation candidates through data mining has been attempted through recent studies.
  • FIG. 1 shows a configuration of a new drug re-creation candidate recommendation system that realizes a new drug re-creation candidate recommendation technique (technology) proposed in the present invention.
  • the system 100 for recommending a candidate for re-creation of a new drug of the present invention includes an extraction unit 120, a first metrics construction unit 130, a second metrics construction unit 140, and a calculation unit 150. ), consisting of a configuration including a recommendation unit 170.
  • the new drug re-creation candidate recommendation system 100 of the present invention may further include a network configuration unit 110 and a final calculation unit 170.
  • All or at least a part of the configuration of the new drug re-creation candidate recommendation system 100 may be implemented in the form of a hardware module or a software module, or a combination of a hardware module and a software module.
  • the software module may be understood as, for example, an instruction executed by a processor that controls an operation in the new drug re-creation candidate recommendation system 100, and such instructions are stored in the memory in the new drug re-creation candidate recommendation system 100. It could have a mounted form.
  • the system 100 for recommending candidates for re-creation of a new drug uses the technology proposed in the present invention, that is, physiological information or personal information collected from the human body of a patient through the above-described configuration.
  • a new drug re-creation candidate capable of predicting a new indication of a drug whose safety has been verified, and recommending a new drug re-creation candidate based on the predicted results, without using limited data such as protected personal medical information or symptom information.
  • Recommendation techniques kills
  • the network configuration unit 110 performs a function of configuring a drug-disease bipartite network based on drug indication information.
  • the network configuration unit 110 may construct a drug-disease bipartite network by modeling the known/proven drug indication information, that is, a drug-disease relationship as a bipartite network.
  • FIG. 2 is an exemplary diagram conceptually showing a process of constructing a drug-disease bipartite network in the present invention.
  • a bipartite network of defined drug-diseases can be constructed.
  • the drug-disease bipartite network configured in the network configuration unit 110 can be expressed through the following concept.
  • N_s ⁇ s1,s2,...,sm ⁇
  • N_s denotes the entire known drug set.
  • N_t ⁇ t1,t2,...,tn ⁇
  • N_t is the set of all known diseases.
  • e_ij is the edge connecting the drug s_i and the disease t_j.
  • the information of W(e_ij) can be configured through document information, and the application of W(e_ij) weight is not essential.
  • the extraction unit 120 performs a function of extracting drug and disease trait information based on published literature information, and extracting drug and disease gene-related information based on genomic signatures.
  • the extraction unit 120 extracts drug and disease trait information from large-capacity big data, document information, based on the linkage with the document information DB 200.
  • the literature information includes information on disease symptoms and medications, drug response traits, drug indications, or drug side effects, academic papers, medical/pharmaceutical books, and drug and disease-related trait information based on computational technology. It may include at least one of a database that has been collected and published, and descriptive information related to diseases and drugs.
  • the extraction unit 120 extracts information on traits (indications or side effects, clinical phenotypes) of drugs and diseases from large-scale literature and bibliographic data such as academic papers, medical/pharmaceutical books, disease and drug-related narrative information, etc. I can.
  • the extraction unit 120 may extract gene-related information of drugs and diseases from genome information, which is a large amount of big data, based on interworking with the genome information DB 300.
  • the extraction unit 120 is, from a variety of large-scale genome information (eg, DrugBank, STITCH.., OMIM.., etc.) related to drugs and diseases, drug and disease gene-related information (omics genome information). Can be collected and extracted.
  • large-scale genome information eg, DrugBank, STITCH.., OMIM.., etc.
  • OMIM.., etc. drug and disease gene-related information
  • the first matrix construction unit 130 performs a function of constructing a drug-drug/disease-disease similarity matrix based on information extracted from document information.
  • the first matrix construction unit 130 constructs a drug-drug/disease-disease similarity matrix based on the drug and disease trait information extracted from the document information by the extraction unit 120.
  • the first metrics constructing unit 130 constructs a related word vector representing the frequency of occurrence of each related trait word for each drug as an information value, based on the trait information of the drug extracted from the document information.
  • the first metrics construction unit 130 may construct a drug-drug similarity matrix by calculating a cosine similarity between the associated word vectors of each drug based on the associated word vector for each drug.
  • the first matrix construction unit 130 constructs an association word vector for each drug based on the trait information of the drug extracted from the document information, for example, the association of the j-th drug (dj).
  • the word vector T_dj can be expressed as follows.
  • T_dj ⁇ t_1j, t_2j, ... t_ij...t_nj ⁇
  • the value of t_ij is an information value in the associated word vector of the drug (dj), and is defined to indicate the frequency of occurrence of the i-th associated trait word in relation to the drug (dj).
  • the information value (t_ij) in the associated word vector is the frequency number (T_ij) at which the i-th associated trait word of the drug (dj) is used (appeared) in one document, and the i-th associated trait word is used in the entire document information. It is defined as a value normalized by the (appeared) frequency of appearance (n_i), and can be expressed according to Equation 1 below.
  • each information value (e.g. t_ij) in the associated word vector for each drug is the frequency of occurrence of the associated trait word (e.g., the i-th associated trait group) of the drug (e.g., dj) based on large amounts of literature information. It can be defined as the donation frequency (value).
  • D_k represents the k-th document information DB.
  • FIG. 1 although one document information DB 200 is illustrated for convenience of explanation, there may be a plurality of document information DB 200.
  • the first metrics construction unit 130 constructs a drug-drug similarity matrix by calculating cosine similarity between the associated word vectors of each drug based on the associated word vector for each drug configured as described above.
  • the first metrics constructing unit 130 may, according to Equation 2 below, the associated word vector T_dx of the x-th drug and the associated word of the y-th drug based on the information collected from the k-th document information DB After calculating the cosine similarity between vectors T_dy, a drug-drug similarity matrix indicating a drug-drug similarity ranking may be constructed based on this.
  • the drug-drug similarity ranking is generated for each k-th document information DB (200), and the final drug-drug similarity matrix is an arithmetic average of the drug-drug similarity ranking generated for each k-th document information DB (200). Can be constructed using values.
  • the first metrics construction unit 130 constructs a related word vector representing the frequency of occurrence of each related trait word for each disease as an information value based on the trait information of a disease extracted from the document information.
  • the first metrics construction unit 130 may construct a disease-disease similarity matrix by calculating a cosine similarity between the associated word vectors of each disease based on the associated word vector for each disease.
  • the first matrix constructing unit 130 constructs an association word vector for each disease based on the disease trait information extracted from the document information, for example, the association of the j-th disease (dj).
  • the word vector T_dj can be expressed as follows.
  • T_dj ⁇ t_1j, t_2j, ... t_ij...t_nj ⁇
  • the value of t_ij is an information value in the associated word vector of the disease (dj), and is defined to indicate the frequency of occurrence of the i-th associated trait word in relation to the disease (dj).
  • the information value (t_ij) in the associated word vector is the frequency (T_ij) at which the i-th associated trait word of disease (dj) is used (appeared) in one document, and the i-th associated trait word is used in the entire document information. It is defined as a value normalized by the (appearance) frequency of appearance (n_i), and may be expressed according to Equation 1 above.
  • each information value (e.g. t_ij) in the associated word vector for each disease is normalized to the frequency of occurrence of the associated trait word (e.g., the i-th associated trait group) of the disease (e.g., dj) based on large amounts of literature information. It can be defined as the donation frequency (value).
  • D_k represents the k-th document information DB.
  • the first metrics construction unit 130 constructs a disease-disease similarity matrix by calculating a cosine similarity between the associated word vectors of each disease based on the associated word vector for each disease configured as described above.
  • the first metrics constructing unit 130 may, according to Equation 2 above, the associated word vector T_dx of the x-th disease and the associated word of the y-th disease based on the information collected from the k-th document information DB. After calculating the cosine similarity between vectors T_dy, a disease-disease similarity matrix indicating a disease-disease similarity ranking may be constructed based on this.
  • the disease-disease similarity ranking is generated for each k-th document information DB (200), and the final disease-disease similarity matrix is an arithmetic average of the disease-disease similarity ranking created for each k-th document information DB (200). Can be constructed using values.
  • the first matrix configuration unit 130 may configure a drug-drug/disease-disease similarity matrix.
  • the second matrix construction unit 140 performs a function of constructing a drug-drug/disease-disease similarity matrix based on information extracted from the genome information.
  • the second matrix constructing unit 140 constructs a drug-drug/disease-disease similarity matrix based on the drug-drug/disease-disease similarity matrix extracted from the genome information of the extracting unit 120.
  • the algorithm for constructing the drug-drug/disease-disease similarity matrix based on the gene association information of the drug and the disease in the second matrix construction unit 140 is Any algorithm developed or used to infer new drug re-creation candidates through mining can be adopted and used.
  • each value in the drug-drug or disease-disease similarity matrix configured by the second matrix construction unit 140 that is, a semantic similarity score between drug or disease-related genes (Similarity value) can be quantified according to a semantic similarity meaure measurement method such as Resnik et al (1999), and accordingly, the similarity score (similarity value) is in the range of [0, 1] to rank normalization.
  • a semantic similarity meaure measurement method such as Resnik et al (1999)
  • the calculation unit 150 may calculate a drug-disease edge score P_t based on document information according to the similarity matrix configured by the first matrix construction unit 130.
  • calculation unit 150 may calculate a drug-disease edge score P_g based on genome information according to the similarity matrix configured in the second matrix construction unit 140.
  • the calculation unit 150 includes the similarity matrix configured in the first matrix configuration unit 130 and the drug configured in the network configuration unit 110-
  • a drug-disease edge score (P_t) based on literature information can be calculated using the disease dichotomy network.
  • the calculation unit 150 for a specific drug (s_i, i-th drug) and a specific disease (t_j, j-th disease) pair, the drug configured in the first matrix configuration unit 130-
  • Drug-disease edge score (P_t) can be calculated.
  • a specific drug (s_i, i-th drug) and a specific disease (t_j, j-th disease) pair is a query pair (drug-disease pair for which you want to know the edge score), and is specific (e.g., information Input) drug-disease pair.
  • a pair of a specific drug (s_i, i-th drug) and a specific disease (t_j, j-th disease) is automatically combined with each of all known diseases for each known drug in order to check whether it is recommended for all known drugs. It may be each of all matched drug-disease pairs.
  • the calculation unit 150 may calculate a drug-disease edge score P_t according to Equation 3 below for a specific drug (s_i) and a specific disease (t_j) pair.
  • the specific drug (s_i) must belong to the full set of known drugs (N_s) (si ⁇ Ns)
  • the specific disease (t_j) must belong to the total set of known diseases (N_t) (tj ⁇ Nt)
  • the reference drug (s_p) and reference disease (t_q) must also belong to N_s and N_t, respectively (sp ⁇ Ns, tq ⁇ Nt).
  • SimLAB_s(s_i, s_p) is a similarity value (similarity ranking) between a specific drug (s_i) node and a reference drug (s_p) node identified from the drug-drug similarity matrix configured in the first matrix configuration unit 130
  • SimLAB_t (t_i, t_q) is a similarity value (similarity ranking) between a specific disease (t_j) node and a reference disease (t_q) node identified from the disease-disease similarity matrix configured in the first matrix construction unit 130.
  • L(e_pq) means the attribute (value) of the edge that connects the reference drug (s_p) and the reference disease (t_j), and can be obtained by using a database representing a known/proven drug-disease relationship. .
  • w(s_p) refers to the degree of the reference drug s_p identified in the drug-disease bipartite network configured in the network configuration unit 110.
  • the degree value w(s_p) of the drug (s_p) node is of the first neighbor nodes of diseases connected from the drug (s_p) node to the edge in the drug-disease dichotomy network. It is determined by the number (D(s_p)).
  • the reference drug (s_p) used to calculate the drug-disease edge score (P_t) for a specific drug (s_i) is the proven similarity (eg, the best similarity ranking) with the specific drug (s_i).
  • Drug-disease edge for a specific drug (s_i) by selecting a reference disease (t_q) whose edge label is true (True) with the reference drug (s_p) selected as a criterion, and from the proven drug-disease association It can be used for calculating the (edge) score (P_t).
  • the reference disease (t_q) used to calculate the drug-disease edge score (P_t) for a specific drug (s_i) is a proven similarity between a specific drug (s_i) and a specific disease (t_j) which is a query pair.
  • the drug-disease edge score (P_g) calculation process will be described in detail, the calculation unit 150, the similarity matrix configured in the second matrix configuration unit 140 and the network configuration unit 110 Using the drug-disease dichotomy network, a drug-disease edge score (P_g) based on genomic information can be calculated.
  • the calculation unit 150 includes, for a specific drug (s_i) and a specific disease (t_j) pair, a drug-drug similarity matrix configured in the second matrix configuration unit 140
  • the similarity value between (s_i) and the reference drug (s_p) selected for calculation, the specific disease (t_j) identified from the disease-disease similarity matrix configured in the second matrix construction unit 140, and the reference disease selected for calculation (t_q ) Using the liver similarity value, the edge between the reference drug (s_p) and the reference disease (t_q), and the degree of the reference drug (s_p) identified in the bipartite network of drug-diseases, the drug-disease edge
  • the score (P_g) can be calculated.
  • the specific drug (s_i) and the specific disease (t_j) pair is the same as the target query pair for which the drug-disease edge score P_t based on the literature information was previously calculated.
  • the calculation unit 150 may calculate a drug-disease edge score P_g according to Equation 4 below for a specific drug (s_i) and a specific disease (t_j) pair.
  • the specific drug (s_i) must belong to the full set of known drugs (N_s) (si ⁇ Ns)
  • the specific disease (t_j) must belong to the total set of known diseases (N_t) (tj ⁇ Nt)
  • the reference drug (s_p) and reference disease (t_q) must also belong to N_s and N_t, respectively (sp ⁇ Ns, tq ⁇ Nt).
  • SimLAB_s(s_i, s_p) is a similarity value (similarity ranking) between a specific drug (s_i) node and a reference drug (s_p) node identified from the drug-drug similarity matrix configured in the second matrix configuration unit 140
  • SimLAB_t (t_i, t_q) is a similarity value (similarity ranking) between a specific disease (t_j) node and a reference disease (t_q) node identified from the disease-disease similarity matrix configured in the second matrix construction unit 140.
  • L(e_pq) means the attribute (value) of the edge that connects the reference drug (s_p) and the reference disease (t_j), and can be obtained by using a database representing a known/proven drug-disease relationship. .
  • w(s_p) refers to the degree of the reference drug s_p identified in the drug-disease bipartite network configured in the network configuration unit 110.
  • the degree value w(s_p) of the drug (s_p) node is of the first neighbor nodes of diseases connected from the drug (s_p) node to the edge in the drug-disease dichotomy network. It is determined by the number (D(s_p)).
  • the reference drug (s_p) and the reference disease (t_q) used to calculate the drug-disease edge score (P_g) for a specific drug (s_i) are previously referred to as the drug-disease edge based on literature information. It is the same as the drug-disease pair selected/used when calculating the score (P_t).
  • the final calculation unit 160 uses the score (P_t) and the score (P_g) calculated by the calculation unit 150, and the drug-disease for a specific drug (s_i) and a specific disease (t_j) pair, that is, this query pair.
  • the final prediction score f(e_ij) of an edge can be calculated.
  • the final calculation unit 160 a specific drug (s_i) and a specific disease (t_j) pair, that is, this query pair used when calculating the score (P_t) and score (P_g) calculated by the calculation unit 150 Heritability (H ⁇ 2 or h ⁇ 2) can be checked.
  • the final calculation unit 160 is a drug-disease edge using the score (P_t) and score (P_g) calculated by the calculation unit 150 for this query pair (drug (s_i) and disease (t_j)).
  • the final prediction score f(e_ij) may be calculated in a different manner according to the confirmed heritability.
  • the final calculation unit 160 is based on literature information when calculating the final prediction score f(e_ij) of the drug-disease edge if the confirmed heritability is greater than or equal to a predefined reference value (eg, heritability k). It can be calculated by putting more weight on the drug-disease edge score (P_g) based on genome information rather than the drug-disease edge score (P_t) of.
  • a predefined reference value eg, heritability k
  • the final calculation unit 160 is a drug-disease edge for this query pair (drug (s_i) and disease (t_j)) according to the following equation (5).
  • the final predicted score f(e_ij) of can be calculated.
  • the final calculation unit 160 if the confirmed heritability is less than a predefined reference value (eg, heritability k), when calculating the final prediction score f(e_ij) of the drug-disease edge, the drug-disease based on genome information It can be calculated by placing weight on the drug-disease edge score (P_t) based on literature information rather than the edge score (P_g).
  • a predefined reference value eg, heritability k
  • the final calculation unit 160 if the heritability is less than the reference value (k), according to the following equation (6) for this query pair (drug (s_i) and disease (t_j)) drug-disease edge (edge)
  • the final prediction score f(e_ij) of can be calculated.
  • the recommendation unit 170 may recommend a candidate for re-creation of a new drug according to a value determined based on the final prediction score f(e_ij) calculated by the final calculation unit 160.
  • the relationship between drug-adaptation is expressed in a graph network model, and the similarity matrix of drug-drug and disease-disease is each large-capacity big data document.
  • New drug re-creation candidate recommendation technique (technology) in which new drug re-creation candidates are recommended according to the new indication prediction result of the drug by quantifying/composing it based on information and genomic information, and predicting a new indication of the drug based on this. Can be implemented.
  • the technique (technique) for recommending a candidate for re-creation of a new drug of the present invention is performed by a computer program according to an embodiment of the present invention stored in a medium to execute each of the following steps.
  • the system 100 for recommending candidates for re-creation of a new drug will be referred to as a subject.
  • the system 100 for recommending a candidate for re-creation of a new drug constructs a drug-disease bipartite network based on drug indication information (S100).
  • the system 100 for recommending candidates for re-creation of new drugs extracts drug and disease trait information based on published literature information, and based on genomic signatures. Gene-related information of drugs and diseases may be extracted (S110).
  • the new drug re-creation candidate recommendation system 100 extracts drug and disease trait information from large-capacity big data, document information, based on linkage with the document information DB 200.
  • the literature information includes information on disease symptoms and medications, drug response traits, drug indications, or drug side effects, academic papers, medical/pharmaceutical books, and drug and disease-related trait information based on computational technology. It may include at least one of a database that has been collected and published, and descriptive information related to diseases and drugs.
  • the new drug re-creation candidate recommendation system 100 from large-scale literature and bibliographic data such as academic papers, medical/pharmaceutical books, disease and drug-related narrative information, and traits of drugs and diseases (indications or side effects, clinical phenotypes) Information can be extracted.
  • the new drug re-creation candidate recommendation system 100 may extract gene-related information of drugs and diseases from genome information, which is a large amount of big data, based on interworking with the genome information DB 300.
  • the new drug re-creation candidate recommendation system 100 is derived from various large-scale genomic information (eg, DrugBank, STITCH.., etc., OMIM.., etc.) related to drugs and diseases, and gene-related information of drugs and diseases (Oh. Mix genome information) can be collected and extracted.
  • genomic information eg, DrugBank, STITCH.., etc., OMIM.., etc.
  • the new drug re-creation candidate recommendation system 100 constructs a drug-drug/disease-disease similarity matrix based on drug and disease trait information extracted from document information ( S120).
  • the system 100 for recommending a candidate for re-creation of a new drug may construct an association word vector T_dj for each drug based on the trait information of the drug extracted from the document information.
  • the new drug re-creation candidate recommendation system 100 calculates the cosine similarity between the associated word vectors of each drug based on the associated word vector (T_dj) for each drug configured as described above to calculate a drug-drug similarity matrix. Make up.
  • the new drug re-creation candidate recommendation system 100 relates the x-th drug association word vector (T_dx) and the y-th drug based on information collected from the k-th document information DB. After calculating the cosine similarity between word vectors T_dy, a drug-drug similarity matrix indicating a drug-drug similarity ranking may be constructed based on this.
  • the drug-drug similarity ranking is generated for each k-th document information DB (200), and the final drug-drug similarity matrix is an arithmetic average of the drug-drug similarity ranking generated for each k-th document information DB (200). Can be constructed using values.
  • the new drug re-creation candidate recommendation system 100 constructs a related word vector (T_dj) representing the frequency of occurrence of each related trait word for each disease as an information value, based on the trait information of a disease extracted from document information.
  • T_dj a related word vector representing the frequency of occurrence of each related trait word for each disease as an information value, based on the trait information of a disease extracted from document information.
  • the new drug re-creation candidate recommendation system 100 constructs a disease-disease similarity matrix by calculating a cosine similarity between the associated word vectors of each disease based on the associated word vector for each disease configured as described above.
  • the new drug re-creation candidate recommendation system 100 relates the x-th disease association word vector (T_dx) and the y-th disease based on information collected from the k-th document information DB. After calculating the cosine similarity between word vectors T_dy, a disease-disease similarity matrix indicating a disease-disease similarity ranking may be constructed based on this.
  • the disease-disease similarity ranking is generated for each k-th document information DB (200), and the final disease-disease similarity matrix is an arithmetic average of the disease-disease similarity ranking created for each k-th document information DB (200). Can be constructed using values.
  • the new drug re-creation candidate recommendation system 100 is based on drug-drug/disease-disease similarity, based on gene association information of drugs and diseases extracted from genomic information. Configure the matrix (S130).
  • the algorithm for constructing a drug-drug/disease-disease similarity matrix based on drug-disease-disease similarity metrics in step S130 is a new drug discovery through mining of gene association (reaction) data between existing diseases and drugs. Any algorithm developed or used to infer creation candidates can be adopted and used.
  • each value in the drug-drug or disease-disease similarity matrix constructed by step S130 that is, a semantic similarity score (similarity value) between drugs or disease-related genes, is, It can be quantified according to a semantic similarity meaure measurement method such as Resnik et al (1999), and accordingly, the similarity score (similarity value) can be modified by rank normalization in the range of [0, 1].
  • the system 100 for recommending a candidate for re-creation of a new drug may calculate a drug-disease edge score (P_t) based on document information according to the similarity matrix configured in step S120. (S140).
  • P_t drug-disease edge score
  • the new drug re-creation candidate recommendation system 100 uses the similarity matrix configured in step S120 and the drug-disease bipartite network configured in step S100, based on literature information, and the drug-disease edge score (P_t ) Can be calculated.
  • the new drug re-creation candidate recommendation system 100 performs calculations and a specific drug (s_i) identified from the drug-drug similarity matrix configured in step S120 for a specific drug (s_i) and a specific disease (t_j) pair.
  • the drug-disease edge score (P_t) can be calculated according to Equation 3 above. I can.
  • a specific drug (s_i, i-th drug) and a specific disease (t_j, j-th disease) pair is a query pair (drug-disease pair for which you want to know the edge score), and is specific (e.g., information Input) drug-disease pair.
  • a pair of a specific drug (s_i, i-th drug) and a specific disease (t_j, j-th disease) is automatically combined with each of all known diseases for each known drug in order to check whether it is recommended for all known drugs. It may be each of all matched drug-disease pairs.
  • the reference drug (s_p) used to calculate the drug-disease edge score (P_t) for a specific drug (s_i) is the proven similarity (eg, the best similarity ranking) with the specific drug (s_i).
  • Drug-disease edge for a specific drug (s_i) by selecting a reference disease (t_q) whose edge label is true (True) with the reference drug (s_p) selected as a criterion, and from the proven drug-disease association It can be used for calculating the (edge) score (P_t).
  • the reference disease (t_q) used to calculate the drug-disease edge score (P_t) for a specific drug (s_i) is a proven similarity between a specific drug (s_i) and a specific disease (t_j) which is a query pair.
  • the new drug re-creation candidate recommendation system 100 calculates a drug-disease edge score (P_g) based on genome information according to the similarity matrix configured in step S130. It can be calculated (S150).
  • P_g drug-disease edge score
  • the new drug re-creation candidate recommendation system 100 uses the similarity matrix configured in step S130 and the drug-disease dichotomy network configured in step S100, based on genome information, and the drug-disease edge score (P_g ) Can be calculated.
  • the new drug re-creation candidate recommendation system 100 for a specific drug (s_i) and a specific disease (t_j) pair, a specific drug (s_i) identified from the drug-drug similarity matrix configured in step S130 and calculation
  • the drug-disease edge score (P_g) Can be calculated.
  • the specific drug (s_i) and the specific disease (t_j) pair is the same as the target query pair for which the drug-disease edge score P_t based on the literature information was previously calculated.
  • the reference drug (s_p) and the reference disease (t_q) used to calculate the drug-disease edge score (P_g) for a specific drug (s_i) are previously referred to as the drug-disease edge based on literature information. It is the same as the drug-disease pair selected/used when calculating the score (P_t).
  • the new drug re-creation candidate recommendation system 100 uses the score (P_t) and the score (P_g) calculated in steps S140 and S150, and the specific drug (s_i) And a final prediction score f(e_ij) of a drug-disease edge for a specific disease (t_j) pair, that is, this query pair (S160).
  • the new drug re-creation candidate recommendation system 100 for a specific drug (s_i) and a specific disease (t_j) pair used in calculating the score (P_t) and the score (P_g), that is, the current query pair. H ⁇ 2 or h ⁇ 2) can be identified.
  • the new drug re-creation candidate recommendation system 100 uses the score (P_t) and score (P_g) calculated for the current query pair (drug (s_i) and disease (t_j)) to predict the drug-disease edge.
  • the score f(e_ij) may be calculated in a different manner according to the confirmed heritability (S160).
  • the new drug re-creation candidate recommendation system 100 when the confirmed heritability is greater than or equal to a predefined reference value (eg, heritability k), when calculating the final prediction score f(e_ij) of the drug-disease edge It can be calculated by placing weight on the drug-disease edge score (P_g) based on genome information rather than the drug-disease edge score (P_t) based on literature information.
  • a predefined reference value eg, heritability k
  • the new drug re-creation candidate recommendation system 100 if the heritability is greater than or equal to the reference value k, the drug-disease for this query pair (drug (s_i) and disease (t_j)) according to Equation 5 above.
  • a final prediction score f(e_ij) of an edge may be calculated (S160).
  • the new drug re-creation candidate recommendation system 100 is based on genome information when calculating the final prediction score f(e_ij) of the drug-disease edge. It can be calculated by placing weight on the drug-disease edge score (P_t) based on literature information rather than the drug-disease edge score (P_g).
  • the new drug re-creation candidate recommendation system 100 is a drug-disease for this query pair (drug (s_i) and disease (t_j)) according to Equation 6 above.
  • a final prediction score f(e_ij) of an edge may be calculated (S160).
  • the new drug re-creation candidate recommendation system 100 recommends a new drug re-creation candidate according to a value determined based on the final prediction score f(e_ij) calculated in step S160. It can be done (S170).
  • true true
  • f e.g. 1
  • a threshold value
  • the drug (s_i) of this query pair can be recommended as a candidate for re-creation of a new drug for disease (t_j).
  • the relationship between drug-adaptation is expressed in a graph network model, and drug-drug and disease-disease similarity metrics are each large-capacity big.
  • a new drug re-creation candidate recommendation technique that recommends new drug re-creation candidates according to the results of predicting new indications by quantifying/composing data based on literature information and genome information, and predicting a new indication of a drug based on this (Technology) can be implemented.
  • the new drug re-creation candidate recommendation technique (technology) may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination.
  • the program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and usable to those skilled in computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • Examples of the program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the above-described hardware device may be configured to operate as one or more software modules to perform the operation of the present invention, and vice versa.

Abstract

본 발명은, 대용량의 빅데이터인 문헌정보 및 유전체 정보를 활용하여, 안전성이 검증된 약물의 신규 적응증을 예측 및 예측 결과에 따라 신약 재창출 후보를 추천할 수 있는 기술에 관한 것이다.

Description

신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
본 발명은, 새로운 신약 재창출 후보를 추천하는 기술에 관한 것이다.
본 발명은, 2019년 04월 01일자로 출원된 한국 출원 제10-2019-0037940호의 우선권을 주장하고, 이러한 출원의 내용 전체가 모든 목적들을 위해서 참조로서 본원에 포함된다.
최근 다국적 제약 회사들은 신약 개발비용의 증가에 따른 수익성 악화로 큰 위기를 맞고 있다.
이러한 위기를 극복하기 위해 저비용/고효율의 신약 개발 방안이 요구되는데, 신약 재창출(drug repositioning)이 그 요구를 충족시킬 수 있는 새로운 방법으로 주목 받고 있다.
신약 재창출(drug repositioning)이란, 임상에서 또는 시판되고 있는 의약을 다시 평가하여 새로운 약효를 찾아가는 방법으로, 안전성이 어느 정도 검증된 약물을 개발하기에 성공 가능성이 그 만큼 높다고 볼 수 있다.
임상 분야의 신약재창출 성공 사례의 경우, 전임상 시험 또는 치료 과정에서 우연히 새로운 적응증을 발견한 경우가 대부분이다. 그러나 최근 다양한 신약 스크리닝 및 신약 평가 기술이 개발되고 있고, 질병 연관 표적 유전자의 동정이 이루어짐에 따라 보다 체계적인 신약 재창출이 가능해 졌다.
특히 대용량의 유전자 발현 데이터(이하, 유전체 정보)의 생산이 일반화 되고, 그에 따른 다양한 질병(질환) 및 약물 간 유전자 연관(반응) 데이터의 발굴이 가능해 짐에 따라, 질병 및 약물 간 유전자 연관(반응) 데이터의 마이닝을 통하여 새로운 신약 재창출 후보를 추론할 수 있다는 가능성이 최근 연구를 통해 시도되고 있다.
DNA 마이크로어레이, 생물학 데이터베이스 마이닝과 같은 다양한 연구 기법에 기초한 신약 재창출 후보 탐색을 위한 연구가 생물 정보학 분야에서 주요 연구 이슈로 인식 되고는 있으나, 생물학 데이터 통합 분석 분야 연구 인력의 부족과 충분한 약물 및 질병 연관의 임상 데이터 부재에 따른 어려움으로 실현되지 못하는 문제점이 있었다.
본 발명에서 도달하고자 하는 목적은, 실제 환자의 인체 유래물에서 수집된 생리적 정보 또는 개인정보법에 의해 보호되는 개인의료정보 또는 증상 정보 등 제한적일 수 밖에 없는 데이터를 활용하지 않고, 안전성이 검증된 약물의 신규 적응증을 예측 및 예측 결과에 따라 신약 재창출 후보를 추천하는데 있다.
상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 신약 재창출 후보 추천 시스템은, 공개된 문헌정보에 기초하여 약물 및 질병의 형질 정보를 추출하고, 유전체 정보(genomic signatures)에 기초하여 약물 및 질병의 유전자 연관 정보를 추출하는 추출부; 상기 문헌정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 제1메트릭스구성부; 상기 유전체 정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 제2메트릭스구성부; 상기 제1메트릭스구성부에서 구성되는 유사도 메트릭스에 따라 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산하고, 상기 제2메트릭스구성부에서 구성되는 유사도 메트릭스에 따라 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)를 계산하는 계산부; 상기 계산한 점수(P_t) 및 점수(P_g) 중 적어도 하나를 사용하여 결정되는 값에 따라, 신약 재창출 후보를 추천하는 추천부를 포함한다.
상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 하드웨어와 결합되어 다음의 단계를 실행시키기 위해 매체에 저장된 컴퓨터 프로그램은, 공개된 문헌정보에 기초하여 약물 및 질병의 형질 정보를 추출하고, 유전체 정보(genomic signatures)에 기초하여 약물 및 질병의 유전자 연관 정보를 추출하는 정보추출단계; 상기 문헌정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 제1메트릭스구성단계; 상기 유전체 정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 제2메트릭스구성단계; 상기 제1메트릭스구성단계에서 구성되는 유사도 메트릭스에 따라 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산하고, 상기 제2메트릭스구성단계에서 구성되는 유사도 메트릭스에 따라 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)를 계산하는 계산단계; 상기 계산한 점수(P_t) 및 점수(P_g) 중 적어도 하나를 사용하여 결정되는 값에 따라, 신약 재창출 후보를 추천하는 추천단계를 실행시킨다.
구체적으로, 상기 추천단계는, 상기 계산한 점수(P_t) 및 점수(P_g)를 사용하여, 약물-질병 엣지(edge)의 최종 예측 점수f(e_ij)를 계산하는 최종계산단계와, 상기 최종 예측 점수 f(e_ij)를 기준으로 결정되는 값에 따라, 신약 재창출 후보를 추천하는 추천단계를 포함할 수 있다.
구체적으로, 상기 문헌정보는, 질병 증상 서술 및 투약 정보와, 약물 반응 형질 또는 약물 적응증 또는 약물 부작용 설명이 포함되어 있는, 학술 논문, 의/약학 전문 서적, 전산적 기술에 기초한 약물, 질병 연관 형질정보를 수집하고 공개한 데이터베이스, 질병 및 약물 연관 서술 정보 중 적어도 하나를 포함할 수 있다.
구체적으로, 상기 제1메트릭스구성단계는, 상기 문헌정보로부터 추출한 약물의 형질 정보에 기초하여, 각 약물 별로 각 연관 형질 단어의 출현빈도를 정보값으로 나타내는 연관단어벡터를 구성하고, 상기 각 약물 별 연관단어벡터를 근거로, 각 약물의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 약물-약물 유사도 메트릭스를 구성할 수 있다.
구체적으로, 상기 제1메트릭스구성단계는, 상기 문헌정보로부터 추출한 질병의 형질 정보에 기초하여, 각 질병 별로 각 연관 형질 단어의 출현빈도를 정보값으로 나타내는 연관단어벡터를 구성하고, 상기 각 질병 별 연관단어벡터를 근거로, 각 질병의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 질병-질병 유사도 메트릭스를 구성할 수 있다.
구체적으로, 상기 약물의 연관단어벡터 내 정보값 또는 상기 질병의 연관단어벡터 내 정보값은, j 번째 약물 또는 j 번째 질병의 i번째 연관 형질 단어의 출현빈도를 나타내는 t_ij로 정의되며, 상기 정보값(t_ij)은, i번째 연관 형질 단어가 문헌 1건에서 출현한 빈도수(T_ij)를 상기 문헌정보 전체에서의 출현 빈도수(n_i)로 정규화된 값일 수 있다.
구체적으로, 약물 적응증 정보에 기초하여 약물-질병의 이분 네트워크를 구성하는 네트워크구성단계를 더 포함하며; 상기 계산단계는, 상기 제1메트릭스구성단계에서 구성되는 유사도 메트릭스 및 상기 구성한 약물-질병의 이분 네트워크를 이용하여, 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산하며, 특정 약물(s_i, i번째 약물) 및 특정 질병(t_j, j번째 질병) 쌍에 대하여, 상기 제1메트릭스구성단계에서 구성되는 약물-약물 유사도 메트릭스로부터 확인되는 상기 특정 약물(s_i) 및 계산을 위해 선택된 기준 약물(s_p) 간 유사도 값, 상기 제1메트릭스구성단계에서 구성되는 질병-질병 유사도 메트릭스로부터 확인되는 상기 특정 질병(t_j) 및 계산을 위해 선택된 기준 질병(t_q) 간 유사도 값, 상기 기준 약물(s_p) 및 상기 기준 질병(t_q) 간의 엣지, 상기 약물-질병의 이분 네트워크에서 확인되는 상기 기준 약물(s_p)의 디그리값(degree)을 이용하여, 약물-질병 엣지(edge) 점수(P_t)를 계산할 수 있다.
구체적으로, 상기 기준 약물(s_p)은 상기 특정 약물(s_i)과의 기 증명된 유사도를 기준으로 선택되고, 기 증명된 약물-질병 연관관계로부터 상기 기준 약물(s_p)과의 엣지 라벨이 참값(True)인 상기 기준 질병(t_q)이 선택되거나, 또는 상기 기준 질병(t_q)은 상기 특정 질병(t_j)과의 기 증명된 유사도를 기준으로 선택되고, 기 증명된 약물-질병 연관관계로부터 상기 기준 질병(t_q)과의 엣지 라벨이 참값(True)인 상기 기준 약물(s_p)이 선택될 수 있다.
구체적으로, 상기 최종계산단계는, 상기 점수(P_t) 및 점수(P_g) 계산 시 사용된 특정 약물(s_i) 및 특정 질병(t_j) 쌍에 대한 유전력(Heritability)을 확인하고, 상기 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시, 상기 유전력에 따라 상이한 방식으로 계산할 수 있다.
구체적으로, 상기 최종계산단계는, 상기 유전력이 기 정의된 기준값 이상이면, 상기 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시 점수(P_t) 보다 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)에 비중을 두어 계산하며, 상기 유전력이 상기 기준값 미만이면, 상기 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시 점수(P_g) 보다 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)에 비중을 두어 계산할 수 있다.
구체적으로, 상기 추천단계는, 상기 최종 예측 점수 f(e_ij)를 기준값(cut-off)에 따라 참/거짓(True/False) 값으로 결정하고, 상기 값이 참(True)이면, 상기 최종 예측 점수 f(e_ij) 계산 시 사용된 특정 약물(s_i) 및 특정 질병(t_j) 쌍을 확인하여, 상기 특정 질병(t_j)에 대한 신약으로서 상기 특정 약물(s_i)을 추천할 수 있다.
이에, 본 발명의 실시예들에 의하면, 인력 부족 및 실제 환자의 인체 유래물에서 수집된 생리적 정보 또는 개인정보법에 의해 보호되는 개인의료정보 또는 증상 정보 등 제한적일 수 밖에 없는 데이터를 활용하지 않고, 안전성이 검증된 약물의 신규 적응증을 예측 및 예측 결과에 따라 신약 재창출 후보를 추천할 수 있는 새로운 방식의 신약 재창출 후보 추천 기법(기술)을 구현할 수 있다.
이로 인해, 본 발명에 따르면, 현재까지 축적된 다양한 약물 및 질병연관 논문/문헌 정보 및 유전체 정보를 통해서 안전성이 검증된 약물의 신규 적응증 예측/추천이 가능해 짐에 따라, 신약 개발 기간 및 비용 면에서 획기적인 절감 효과를 기대할 수 있다.
도 1은 본 발명의 일 실시예에 따른 신약 재창출 후보 추천 시스템의 구성을 보여주는 구성도이다.
도 2는 본 발명에 따른 약물-질병의 이분 네트워크를 구성하는 과정을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 컴퓨터 프로그램에 의해 진행되는 신약 재창출 후보 추천 기법을 보여주는 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들에 대하여 설명한다.
본 발명은, 신약 재창출(drug repositioning) 기술 분야에 관한 것이다.
신약 재창출(drug repositioning)이란, 임상에서 또는 시판되고 있는 의약을 다시 평가하여 새로운 약효를 찾아가는 방법으로, 안전성이 어느 정도 검증된 약물을 개발하기에 성공 가능성이 그 만큼 높다고 볼 수 있다.
임상 분야의 신약재창출 성공 사례의 경우, 전임상 시험 또는 치료 과정에서 우연히 새로운 적응증을 발견한 경우가 대부분이다. 그러나 최근 다양한 신약 스크리닝 및 신약 평가 기술이 개발되고 있고, 질병 연관 표적 유전자의 동정이 이루어짐에 따라 보다 체계적인 신약 재창출이 가능해 졌다.
특히 대용량의 유전자 발현 데이터(이하, 유전체 정보)의 생산이 일반화 되고, 그에 따른 다양한 질병(질환) 및 약물 간 유전자 연관(반응) 데이터의 발굴이 가능해 짐에 따라, 질병 및 약물 간 유전자 연관(반응) 데이터의 마이닝을 통하여 새로운 신약 재창출 후보를 추론할 수 있다는 가능성이 최근 연구를 통해 시도되고 있다.
DNA 마이크로어레이, 생물학 데이터베이스 마이닝과 같은 다양한 연구 기법에 기초한 신약 재창출 후보 탐색을 위한 연구가 생물 정보학 분야에서 주요 연구 이슈로 인식 되고는 있으나, 생물학 데이터 통합 분석 분야 연구 인력의 부족과 충분한 약물 및 질병 연관의 임상 데이터 부재에 따른 어려움으로 실현되지 못하는 문제점이 있었다.
이에, 본 발명에서는, 실제 환자의 인체 유래물에서 수집된 생리적 정보 또는 개인정보법에 의해 보호되는 개인의료정보 또는 증상 정보 등 제한적일 수 밖에 없는 데이터를 활용하지 않고, 안전성이 검증된 약물의 신규 적응증을 예측 및 예측 결과에 따라 신약 재창출 후보를 추천할 수 있는 새로운 방식의 신약 재창출 후보 추천 기법(기술)을 제안하고자 한다.
도 1은 본 발명에서 제안하고자 하는 신약 재창출 후보 추천 기법(기술)을 실현하는 신약 재창출 후보 추천 시스템의 구성을 보여주고 있다.
도 1에 도시된 바와 같이, 본 발명의 신약 재창출 후보 추천 시스템(100)은, 추출부(120), 제1메트릭스구성부(130), 제2메트릭스구성부(140), 계산부(150), 추천부(170)을 포함하는 구성으로 이루어진다.
더 나아가, 본 발명의 신약 재창출 후보 추천 시스템(100)은, 네트워크구성부(110) 및 최종계산부(170)을 더 포함할 수 있다.
이러한 신약 재창출 후보 추천 시스템(100)의 구성 전체 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.
여기서, 소프트웨어 모듈이란, 예컨대, 신약 재창출 후보 추천 시스템(100) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 신약 재창출 후보 추천 시스템(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.
결국, 본 발명의 일 실시예에 따른 신약 재창출 후보 추천 시스템(100)은 전술한 구성을 통해, 본 발명에서 제안하는 기술 즉 실제 환자의 인체 유래물에서 수집된 생리적 정보 또는 개인정보법에 의해 보호되는 개인의료정보 또는 증상 정보 등 제한적일 수 밖에 없는 데이터를 활용하지 않고, 안전성이 검증된 약물의 신규 적응증을 예측 및 예측 결과에 따라 신약 재창출 후보를 추천할 수 있는 새로운 방식의 신약 재창출 후보 추천 기법(기술)을 실현할 수 있다.
이하에서는, 본 발명에서 제안하는 새로운 방식의 신약 재창출 후보 추천 기법(기술)을 실현하기 위한 신약 재창출 후보 추천 시스템(100) 내 각 기술 구성에 대해 보다 구체적으로 설명하기로 한다.
네트워크구성부(110)는, 약물 적응증 정보에 기초하여 약물-질병의 이분 네트워크를 구성하는 기능을 수행한다.
구체적으로, 네트워크구성부(110)는, 이미 알려진/증명된 약물 적응증 정보 다시 말해 약물-질병의 연관관계를 이분 네트워크로 모델링하여, 약물-질병의 이분 네트워크를 구성할 수 있다.
도 2는 본 발명에서 약물-질병의 이분 네트워크를 구성하는 과정을 개념적으로 보여주는 예시도이다.
즉, 네트워크구성부(110)는, 약물-질병의 연관관계를 이분 네트워크로 모델링하여, N_s와, N_t와, e_ij의 집합 E={e_11,...,e_ij,...,e_mn}로 정의되는 약물-질병의 이분 네트워크를 구성할 수 있다.
도 2에 도시된 바와 같이, 네트워크구성부(110)에서 구성되는 약물-질병의 이분 네트워크는 다음 개념을 통해 표현될 수 있다.
N_s={s1,s2,...,sm}
여기서, 알려진 약물 중 i 번째 약물 s_i 일 때, N_s 는 알려진 전체 약물 집합을 의미한다.
N_t={t1,t2,...,tn}
여기서, 알려진 질병 중 j 번째 질병을 t_j 라고 할 때, N_t 는 알려진 전체 질병 집합이다.
e_ij는 약물(drug) s_i와 질병(disease) t_j를 연결하는 엣지(edge)이다.
e_ij는 라벨 속성에 따라 참(True), 거짓(False)으로 정의되며, e_ij의 값은 L(e_ij)(0=False 또는 1=True)로 정의 될 수 있으며, s_i 와 t_j 의 연관관계의 신뢰도에 따라 0<=W(e_ij)<=1 값을 가지는 가중치 값을 추가 할 수 있다. W(e_ij) 의 정보는 문헌정보를 통해 구성될 수 있으며 W(e_ij) 가중치의 적용은 필수 요소는 아니다.
이상과 같이, 네트워크구성부(110)는, 이미 알려진/증명된 약물-질병의 연관관계에 기초하여(이분 네트워크 모델링), N_s와, N_t와, e_ij의 집합 E={e_11,...,e_ij,...,e_mn}로 정의되는 약물-질병의 이분 네트워크를 구성할 수 있다.
추출부(120)는, 공개된 문헌정보에 기초하여 약물 및 질병의 형질 정보를 추출하고, 유전체 정보(genomic signatures)에 기초하여 약물 및 질병의 유전자 연관 정보를 추출하는 기능을 수행한다.
구체적으로 설명하면, 추출부(120)는, 문헌정보DB(200)와의 연동을 기반으로 대용량의 빅데이터인 문헌정보로부터 약물 및 질병의 형질 정보를 추출한다.
여기서, 문헌정보는, 질병 증상 서술 및 투약 정보와, 약물 반응 형질 또는 약물 적응증 또는 약물 부작용 설명이 포함되어 있는, 학술 논문, 의/약학 전문 서적, 전산적 기술에 기초한 약물, 질병 연관 형질정보를 수집하고 공개한 데이터베이스, 질병 및 약물 연관 서술 정보 중 적어도 하나를 포함할 수 있다.
이처럼, 추출부(120)는, 학술 논문, 의/약학 전문 서적, 질병 및 약물 연관 서술 정보 등의 대규모 문헌 및 서지데이터로부터, 약물 및 질병의 형질(적응증 또는 부작용, 임상표현형) 정보를 추출할 수 있다.
그리고, 추출부(120)는, 유전체 정보DB(300)와의 연동을 기반으로 대용량의 빅데이터인 유전체 정보로부터 약물 및 질병의 유전자 연관 정보를 추출할 수 있다.
이처럼, 추출부(120)는, 약물 및 질환과 관련하여 다양한 대규모의 유전체 정보(예: DrugBank, STITCH..등, OMIM.. 등)로부터, 약물 및 질병의 유전자 연관 정보(오믹스 유전체 정보)를 수집 및 추출할 수 있다.
제1메트릭스구성부(130)는, 문헌정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 기능을 수행한다.
즉, 제1메트릭스구성부(130)는, 추출부(120)에서 문헌정보로부터 추출한 약물 및 질병의 형질 정보에 기초하여, 약물-약물/질병-질병 유사도 메트릭스를 구성하는 것이다.
구체적으로, 제1메트릭스구성부(130)는, 문헌정보로부터 추출한 약물의 형질 정보에 기초하여, 각 약물 별로 각 연관 형질 단어의 출현빈도를 정보값으로 나타내는 연관단어벡터를 구성한다.
그리고, 제1메트릭스구성부(130)는, 각 약물 별 연관단어벡터를 근거로, 각 약물의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 약물-약물 유사도 메트릭스를 구성할 수 있다.
실시예를 구체적으로 설명하면, 제1메트릭스구성부(130)는, 문헌정보로부터 추출한 약물의 형질 정보에 기초하여 각 약물 별로 연관단어벡터를 구성하며, 예를 들면 j번째 약물(dj)의 연관단어벡터(T_dj)는 다음과 같이 표현될 수 있다.
T_dj= {t_1j, t_2j, ... t_ij...t_nj}
여기서, t_ij의 값은, 약물(dj)의 연관단어벡터 내 정보값으로서, 약물(dj)와 관련하여 i번째 연관 형질 단어의 출현빈도를 나타내도록 정의된다.
이때, 연관단어벡터 내 정보값(t_ij)은, 약물(dj)의 i번째 연관 형질 단어가 문헌 1건에서 사용(출현)된 빈도 수(T_ij)를 i번째 연관 형질 단어가 문헌정보 전체에서 사용(출현)된 출현 빈도수(n_i)로 정규화된 값으로 정의되며, 다음의 수학식1에 따라 표현될 수 있다.
Figure PCTKR2020004431-appb-M000001
즉, 각 약물 별 연관단어벡터 내 각 정보값(예: t_ij)은, 약물(예: dj)의 연관 형질 단어(예: i번째 연관 형질 단아)의 출현빈도를 대용량의 문헌정보를 기준으로 정규화시킨 출연빈도(값)으로 정의될 수 있다.
여기서, D_k는, k번째 문헌정보DB를 나타낸다.
즉, 도 1에서는, 설명의 편의 상 문헌정보DB(200)를 하나로 도시하였지만, 문헌정보DB(200)가 복수 개일 수 있다.
제1메트릭스구성부(130)는, 전술과 같이 구성한 각 약물 별 연관단어벡터를 근거로, 각 약물의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 약물-약물 유사도 메트릭스를 구성한다.
예를 들면, 제1메트릭스구성부(130)는, 다음의 수학식2에 따라, k번째 문헌정보DB로부터 수집한 정보에 기초한 x번째 약물의 연관단어벡터(T_dx)와 y번째 약물의 연관단어벡터(T_dy) 간의 코사인 유사도를 계산한 뒤, 이에 기초하여 약물-약물 간의 유사도 랭킹을 나타내는 약물-약물 유사도 메트릭스를 구성할 수 있다.
이러한 약물-약물 간의 유사도 랭킹은 각 k번째 문헌정보DB(200) 마다 생성되며, 최종 약물-약물 유사도 메트릭스는 각 k번째 문헌정보DB(200) 마다 생성된 약물-약물 간의 유사도 랭킹을 산술평균한 값을 사용하여 구성될 수 있다.
Figure PCTKR2020004431-appb-M000002
한편, 제1메트릭스구성부(130)는, 문헌정보로부터 추출한 질병의 형질 정보에 기초하여, 각 질병 별로 각 연관 형질 단어의 출현빈도를 정보값으로 나타내는 연관단어벡터를 구성한다.
그리고, 제1메트릭스구성부(130)는, 각 질병 별 연관단어벡터를 근거로, 각 질병의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 질병-질병 유사도 메트릭스를 구성할 수 있다.
실시예를 구체적으로 설명하면, 제1메트릭스구성부(130)는, 문헌정보로부터 추출한 질병의 형질 정보에 기초하여 각 질병 별로 연관단어벡터를 구성하며, 예를 들면 j번째 질병(dj)의 연관단어벡터(T_dj)는 다음과 같이 표현될 수 있다.
T_dj= {t_1j, t_2j, ... t_ij...t_nj}
여기서, t_ij의 값은, 질병(dj)의 연관단어벡터 내 정보값으로서, 질병(dj)와 관련하여 i번째 연관 형질 단어의 출현빈도를 나타내도록 정의된다.
이때, 연관단어벡터 내 정보값(t_ij)은, 질병(dj)의 i번째 연관 형질 단어가 문헌 1건에서 사용(출현)된 빈도 수(T_ij)를 i번째 연관 형질 단어가 문헌정보 전체에서 사용(출현)된 출현 빈도수(n_i)로 정규화된 값으로 정의되며, 전술의 수학식1에 따라 표현될 수 있다.
즉, 각 질병 별 연관단어벡터 내 각 정보값(예: t_ij)은, 질병(예: dj)의 연관 형질 단어(예: i번째 연관 형질 단아)의 출현빈도를 대용량의 문헌정보를 기준으로 정규화시킨 출연빈도(값)으로 정의될 수 있다.
여기서, D_k는, k번째 문헌정보DB를 나타낸다.
제1메트릭스구성부(130)는, 전술과 같이 구성한 각 질병 별 연관단어벡터를 근거로, 각 질병의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 질병-질병 유사도 메트릭스를 구성한다.
예를 들면, 제1메트릭스구성부(130)는, 전술의 수학식2에 따라, k번째 문헌정보DB로부터 수집한 정보에 기초한 x번째 질병의 연관단어벡터(T_dx)와 y번째 질병의 연관단어벡터(T_dy) 간의 코사인 유사도를 계산한 뒤, 이에 기초하여 질병-질병 간의 유사도 랭킹을 나타내는 질병-질병 유사도 메트릭스를 구성할 수 있다.
이러한 질병-질병 간의 유사도 랭킹은 각 k번째 문헌정보DB(200) 마다 생성되며, 최종 질병-질병 유사도 메트릭스는 각 k번째 문헌정보DB(200) 마다 생성된 질병-질병 간의 유사도 랭킹을 산술평균한 값을 사용하여 구성될 수 있다.
이상 설명과 같이, 제1메트릭스구성부(130)는, 약물-약물/질병-질병 유사도 메트릭스를 구성할 수 있다.
제2메트릭스구성부(140)는, 유전체 정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 기능을 수행한다.
즉, 제2메트릭스구성부(140)는, 추출부(120)에서 유전체 정보로부터 추출한 약물 및 질병의 유전자 연관 정보에 기초하여, 약물-약물/질병-질병 유사도 메트릭스를 구성하는 것이다.
이와 같이, 제2메트릭스구성부(140)에서 약물 및 질병의 유전자 연관 정보를 기초로 약물-약물/질병-질병 유사도 메트릭스를 구성하는 알고리즘은, 기존의 질병 및 약물 간 유전자 연관(반응) 데이터의 마이닝을 통하여 새로운 신약 재창출 후보를 추론하기 위해 개발 또는 사용되는 어떠한 알고리즘라도 채택하여 사용할 수 있다.
다만, 본 발명의 이해를 돕기 위해 일 실시예를 설명하면, 제2메트릭스구성부(140)에 의해 구성된 약물-약물 또는 질병-질병 유사도 메트릭스 내 각 값 즉 약물 또는 질병 관련 유전자 간의 의미 상 유사성 점수(유사도 값)는, Resnik et al (1999) 등의 의미론적 유사성 (semantic similarity meaure)측정법에 따라 계량화될 수 있고, 이에 따라 유사성 점수(유사도 값)는 [0, 1]의 범위로 랭크 정규화에 의해 변형될 수 있다.
계산부(150)는, 제1메트릭스구성부(130)에서 구성된 유사도 메트릭스에 따라 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산할 수 있다.
또한, 계산부(150)는, 제2메트릭스구성부(140)에서 구성되는 유사도 메트릭스에 따라 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)를 계산할 수 있다.
약물-질병 엣지(edge) 점수(P_t) 계산과정을 구체적으로 설명하면, 계산부(150)는, 제1메트릭스구성부(130)에서 구성되는 유사도 메트릭스 및 네트워크구성부(110)에서 구성한 약물-질병의 이분 네트워크를 이용하여, 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산할 수 있다.
구체적인 실시예를 설명하면, 계산부(150)는, 특정 약물(s_i, i번째 약물) 및 특정 질병(t_j, j번째 질병) 쌍에 대하여, 제1메트릭스구성부(130)에서 구성되는 약물-약물 유사도 메트릭스로부터 확인되는 특정 약물(s_i) 및 계산을 위해 선택된 기준 약물(s_p) 간 유사도 값, 제1메트릭스구성부(130)에서 구성되는 질병-질병 유사도 메트릭스로부터 확인되는 특정 질병(t_j) 및 계산을 위해 선택된 기준 질병(t_q) 간 유사도 값, 기준 약물(s_p) 및 기준 질병(t_q) 간의 엣지, 약물-질병의 이분 네트워크에서 확인되는 기준 약물(s_p)의 디그리값(degree)을 이용하여, 약물-질병 엣지(edge) 점수(P_t)를 계산할 수 있다.
여기서, 특정 약물(s_i, i번째 약물) 및 특정 질병(t_j, j번째 질병) 쌍은, 쿼리 쌍(엣지 점수를 알고자 하는 약물-질병 쌍)으로서, 추천 여부를 확인하고자 특정(예: 정보 입력)된 약물-질병 쌍일 수 있다.
또는, 특정 약물(s_i, i번째 약물) 및 특정 질병(t_j, j번째 질병) 쌍은, 알려진 약물 전체를 대상으로 추천 여부를 확인하기 위해, 알려진 약물 각각에 대하여 알려진 전체 질병 각각을 자동 조합하여 매칭시킨 모든 약물-질병 쌍 각각일 수도 있다.
다시 설명하면, 계산부(150)는, 특정 약물(s_i) 및 특정 질병(t_j) 쌍에 대하여, 다음의 수학식3에 따라 약물-질병 엣지(edge) 점수(P_t)를 계산할 수 있다.
Figure PCTKR2020004431-appb-M000003
Figure PCTKR2020004431-appb-I000001
여기서, 특정 약물(s_i)은 알려진 전체 약물 집합(N_s)에 속해야 하며(si ∈ Ns), 특정 질병(t_j)는 알려진 전체 질병 집합(N_t)에 속해야 하며(tj∈ Nt), 이와 마찬가지로 기준 약물(s_p) 및 기준 질병(t_q)도 각각 N_s 및 N_t에 속해야 한다(sp ∈ Ns, tq ∈ Nt).
SimLAB_s(s_i, s_p)는, 제1메트릭스구성부(130)에서 구성되는 약물-약물 유사도 메트릭스로부터 확인되는 특정 약물(s_i) 노드 및 기준 약물(s_p) 노드 간 유사도 값(유사도 랭킹)이며, SimLAB_t(t_i, t_q)는 제1메트릭스구성부(130)에서 구성되는 질병-질병 유사도 메트릭스로부터 확인되는 특정 질병(t_j) 노드 및 기준 질병(t_q) 노드 간 유사도 값(유사도 랭킹)이다.
L(e_pq)는 기준 약물(s_p) 및 기준 질병(t_j)을 연결하는 엣지의 속성(값)을 의미하며, 기 알려진/증명된 약물-질병의 연관관계를 대표하는 데이터베이스를 활용하여 얻을 수 있다.
w(s_p)는, 네트워크구성부(110)에서 구성한 약물-질병의 이분 네트워크에서 확인되는 기준 약물(s_p)의 디그리값(degree)을 의미한다.
수학식3에서 알 수 있듯이, 약물(s_p) 노드의 디그리값 w(s_p)은, 약물-질병 이분 네트워크에서 약물(s_p) 노드에서 엣지로 연결된 첫 번째 이웃 질병 노드(first neighbor nodes of diseases)의 갯수(D(s_p))에 의해 결정된다.
여기서, 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_t) 계산을 위해 이용되는 기준 약물(s_p)은 특정 약물(s_i)과의 기 증명된 유사도(예: 유사도 랭킹 최상)를 기준으로 선택되고, 기 증명된 약물-질병 연관관계로부터 앞서 선택된 기준 약물(s_p)과의 엣지 라벨이 참값(True)인 기준 질병(t_q)이 선택되어 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_t) 계산을 위해 이용될 수 있다.
또는, 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_t) 계산을 위해 이용되는 기준 질병(t_q)은 특정 약물(s_i)과 쿼리 쌍인 특정 질병(t_j)과의 기 증명된 유사도(예: 유사도 랭킹 최상)를 기준으로 선택되고, 기 증명된 약물-질병 연관관계로부터 앞서 선택된 기준 질병(t_q)과의 엣지 라벨이 참값(True)인 기준 약물(s_p)이 선택되어 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_t) 계산을 위해 이용될 수 있다.
다음, 약물-질병 엣지(edge) 점수(P_g) 계산과정을 구체적으로 설명하면, 계산부(150)는, 제2메트릭스구성부(140)에서 구성되는 유사도 메트릭스 및 네트워크구성부(110)에서 구성한 약물-질병의 이분 네트워크를 이용하여, 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)를 계산할 수 있다.
구체적인 실시예를 설명하면, 계산부(150)는, 특정 약물(s_i) 및 특정 질병(t_j) 쌍에 대하여, 제2메트릭스구성부(140)에서 구성되는 약물-약물 유사도 메트릭스로부터 확인되는 특정 약물(s_i) 및 계산을 위해 선택된 기준 약물(s_p) 간 유사도 값, 제2메트릭스구성부(140)에서 구성되는 질병-질병 유사도 메트릭스로부터 확인되는 특정 질병(t_j) 및 계산을 위해 선택된 기준 질병(t_q) 간 유사도 값, 기준 약물(s_p) 및 기준 질병(t_q) 간의 엣지, 약물-질병의 이분 네트워크에서 확인되는 기준 약물(s_p)의 디그리값(degree)을 이용하여, 약물-질병 엣지(edge) 점수(P_g)를 계산할 수 있다.
여기서, 특정 약물(s_i) 및 특정 질병(t_j) 쌍은, 앞서 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산한 대상 쿼리 쌍과 동일하다.
이에, 계산부(150)는, 특정 약물(s_i) 및 특정 질병(t_j) 쌍에 대하여, 다음의 수학식4에 따라 약물-질병 엣지(edge) 점수(P_g)를 계산할 수 있다.
Figure PCTKR2020004431-appb-M000004
Figure PCTKR2020004431-appb-I000002
여기서, 특정 약물(s_i)은 알려진 전체 약물 집합(N_s)에 속해야 하며(si ∈ Ns), 특정 질병(t_j)는 알려진 전체 질병 집합(N_t)에 속해야 하며(tj∈ Nt), 이와 마찬가지로 기준 약물(s_p) 및 기준 질병(t_q)도 각각 N_s 및 N_t에 속해야 한다(sp ∈ Ns, tq ∈ Nt).
SimLAB_s(s_i, s_p)는, 제2메트릭스구성부(140)에서 구성되는 약물-약물 유사도 메트릭스로부터 확인되는 특정 약물(s_i) 노드 및 기준 약물(s_p) 노드 간 유사도 값(유사도 랭킹)이며, SimLAB_t(t_i, t_q)는 제2메트릭스구성부(140)에서 구성되는 질병-질병 유사도 메트릭스로부터 확인되는 특정 질병(t_j) 노드 및 기준 질병(t_q) 노드 간 유사도 값(유사도 랭킹)이다.
L(e_pq)는 기준 약물(s_p) 및 기준 질병(t_j)을 연결하는 엣지의 속성(값)을 의미하며, 기 알려진/증명된 약물-질병의 연관관계를 대표하는 데이터베이스를 활용하여 얻을 수 있다.
w(s_p)는, 네트워크구성부(110)에서 구성한 약물-질병의 이분 네트워크에서 확인되는 기준 약물(s_p)의 디그리값(degree)을 의미한다.
수학식4에서 알 수 있듯이, 약물(s_p) 노드의 디그리값 w(s_p)은, 약물-질병 이분 네트워크에서 약물(s_p) 노드에서 엣지로 연결된 첫 번째 이웃 질병 노드(first neighbor nodes of diseases)의 갯수(D(s_p))에 의해 결정된다.
여기서, 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_g) 계산을 위해 이용되는 기준 약물(s_p) 및 기준 질병(t_q)은, 앞서 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산할 때 선택/이용한 약물-질병 쌍과 동일하다.
최종계산부(160)은, 계산부(150)에서 계산한 점수(P_t) 및 점수(P_g)를 사용하여, 특정 약물(s_i) 및 특정 질병(t_j) 쌍 즉 금번 쿼리 쌍에 대한 약물-질병 엣지(edge)의 최종 예측 점수f(e_ij)를 계산할 수 있다.
구체적으로, 최종계산부(160)은, 계산부(150)에서 계산한 점수(P_t) 및 점수(P_g) 계산 시 사용된 특정 약물(s_i) 및 특정 질병(t_j) 쌍, 즉 금번 쿼리 쌍에 대하여 유전력(Heritability, H^2 또는 h^2)을 확인할 수 있다.
최종계산부(160)은, 금번 쿼리 쌍(약물(s_i) 및 질병(t_j))에 대하여 계산부(150)에서 계산한 점수(P_t) 및 점수(P_g)를 사용한 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시, 확인한 유전력에 따라 상이한 방식으로 최종 예측 점수 f(e_ij)를 계산할 수 있다.
일 실시예에 따르면, 최종계산부(160)은, 확인한 유전력이 기 정의된 기준값(예: 유전력 k) 이상이면, 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t) 보다 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)에 비중을 두어 계산할 수 있다.
예를 들면, 최종계산부(160)은, 유전력이 기준값(k) 이상이면, 다음 수학식5에 따라 금번 쿼리 쌍(약물(s_i) 및 질병(t_j))에 대한 약물-질병 엣지(edge)의 최종 예측 점수f(e_ij)를 계산할 수 있다.
Figure PCTKR2020004431-appb-M000005
한편, 최종계산부(160)은, 확인한 유전력이 기 정의된 기준값(예: 유전력 k) 미만이면, 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g) 보다 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)에 비중을 두어 계산할 수 있다.
예를 들면, 최종계산부(160)은, 유전력이 기준값(k) 미만이면, 다음 수학식6에 따라 금번 쿼리 쌍(약물(s_i) 및 질병(t_j))에 대한 약물-질병 엣지(edge)의 최종 예측 점수f(e_ij)를 계산할 수 있다.
Figure PCTKR2020004431-appb-M000006
추천부(170)은, 최종계산부(160)에서 계산한 최종 예측 점수 f(e_ij)를 기준으로 결정되는 값에 따라, 신약 재창출 후보를 추천할 수 있다.
구체적으로, 추천부(170)은, 금번 쿼리 쌍(약물(s_i) 및 질병(t_j))에 대하여 최종계산부(160)에서 계산한 최종 예측 점수 f(e_ij)가, 기 정의된 임계값(θ) 보다 크면 값을 참(True=1)로 결정하고, 임계값(θ) 보다 크지 않으면 값을 거질(False=0)로 결정할 수 있다.
이에 추천부(170)은, 최종계산부(160)에서 계산한 최종 예측 점수 f(e_ij)과 임계값(θ)을 기준으로 결정되는 값(참 또는 거짓)에 따라, 값이 참(True=1)인 경우 금번 쿼리 쌍의 약물(s_i)을 질병(t_j)에 대한 신약 재창출 후보로서 추천할 수 있다.
이상에서 설명한 바와 같이, 본 발명의 신약 재창출 후보 추천 시스템에 따르면, 약물-적응증의 관계성을 그래프 네트워크 모델로 표현하고, 약물-약물 그리고 질병-질병의 유사도 메트릭스를 각각 대용량의 빅데이터인 문헌정보와 유전체 정보 기반으로 정량화/구성 한 뒤, 이를 기초로 약물의 신규 적응증을 예측함으로써, 약물의 신규 적응증 예측 결과에 따라 신약 재창출 후보를 추천하는 새로운 방식의 신약 재창출 후보 추천 기법(기술)을 구현할 수 있다.
이에, 본 발명에 따르면, 인력 부족 및 실제 환자의 인체 유래물에서 수집된 생리적 정보 또는 개인정보법에 의해 보호되는 개인의료정보 또는 증상 정보 등 제한적일 수 밖에 없는 데이터를 활용하지 않고, 현재까지 축적된 다양한 약물 및 질병연관 논문/문헌 정보 및 유전체 정보를 통해서 안전성이 검증된 약물의 신규 적응증 예측/추천이 가능해 짐에 따라, 신약 개발 기간 및 비용 면에서 획기적인 절감 효과를 기대할 수 있다.
이하에서는, 도 3을 참조하여, 본 발명의 실시예에 따른 신약 재창출 후보 추천 기법(기술)을 설명하겠다.
이와 같은, 본 발명의 신약 재창출 후보 추천 기법(기술)은, 다음의 각 단계를 실행시키기 위해 매체에 저장된 본 발명의 실시예에 따른 컴퓨터 프로그램에 의해 진행된다.
다만 이하에서는 설명의 편의를 위해, 신약 재창출 후보 추천 시스템(100)을 진행 주체로 언급하여 설명하겠다.
본 발명의 신약 재창출 후보 추천 기법에 따르면, 신약 재창출 후보 추천 시스템(100)은, 약물 적응증 정보에 기초하여 약물-질병의 이분 네트워크를 구성한다(S100).
구체적으로, 신약 재창출 후보 추천 시스템(100)은, 이미 알려진/증명된 약물 적응증 정보 다시 말해 약물-질병의 연관관계를 이분 네트워크로 모델링하여, N_s와, N_t와, e_ij의 집합 E={e_11,...,e_ij,...,e_mn}로 정의되는 약물-질병의 이분 네트워크를 구성할 수 있다.
그리고 본 발명의 신약 재창출 후보 추천 기법에 따르면, 신약 재창출 후보 추천 시스템(100)은, 공개된 문헌정보에 기초하여 약물 및 질병의 형질 정보를 추출하고, 유전체 정보(genomic signatures)에 기초하여 약물 및 질병의 유전자 연관 정보를 추출할 수 있다(S110).
구체적으로 설명하면, 신약 재창출 후보 추천 시스템(100)은, 문헌정보DB(200)와의 연동을 기반으로 대용량의 빅데이터인 문헌정보로부터 약물 및 질병의 형질 정보를 추출한다.
여기서, 문헌정보는, 질병 증상 서술 및 투약 정보와, 약물 반응 형질 또는 약물 적응증 또는 약물 부작용 설명이 포함되어 있는, 학술 논문, 의/약학 전문 서적, 전산적 기술에 기초한 약물, 질병 연관 형질정보를 수집하고 공개한 데이터베이스, 질병 및 약물 연관 서술 정보 중 적어도 하나를 포함할 수 있다.
이처럼, 신약 재창출 후보 추천 시스템(100)은, 학술 논문, 의/약학 전문 서적, 질병 및 약물 연관 서술 정보 등의 대규모 문헌 및 서지데이터로부터, 약물 및 질병의 형질(적응증 또는 부작용, 임상표현형) 정보를 추출할 수 있다.
그리고, 신약 재창출 후보 추천 시스템(100)은, 유전체 정보DB(300)와의 연동을 기반으로 대용량의 빅데이터인 유전체 정보로부터 약물 및 질병의 유전자 연관 정보를 추출할 수 있다.
이처럼, 신약 재창출 후보 추천 시스템(100)은, 약물 및 질환과 관련하여 다양한 대규모의 유전체 정보(예: DrugBank, STITCH..등, OMIM.. 등)로부터, 약물 및 질병의 유전자 연관 정보(오믹스 유전체 정보)를 수집 및 추출할 수 있다.
본 발명의 신약 재창출 후보 추천 기법에 따르면, 신약 재창출 후보 추천 시스템(100)은, 문헌정보로부터 추출한 약물 및 질병의 형질 정보에 기초하여, 약물-약물/질병-질병 유사도 메트릭스를 구성한다(S120).
구체적으로, 신약 재창출 후보 추천 시스템(100)은, 문헌정보로부터 추출한 약물의 형질 정보에 기초하여 각 약물 별로 연관단어벡터(T_dj)를 구성할 수 있다.
신약 재창출 후보 추천 시스템(100)은, 전술과 같이 구성한 각 약물 별 연관단어벡터(T_dj)를 근거로, 각 약물의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 약물-약물 유사도 메트릭스를 구성한다.
예를 들면, 신약 재창출 후보 추천 시스템(100)은, 전술의 수학식2에 따라, k번째 문헌정보DB로부터 수집한 정보에 기초한 x번째 약물의 연관단어벡터(T_dx)와 y번째 약물의 연관단어벡터(T_dy) 간의 코사인 유사도를 계산한 뒤, 이에 기초하여 약물-약물 간의 유사도 랭킹을 나타내는 약물-약물 유사도 메트릭스를 구성할 수 있다.
이러한 약물-약물 간의 유사도 랭킹은 각 k번째 문헌정보DB(200) 마다 생성되며, 최종 약물-약물 유사도 메트릭스는 각 k번째 문헌정보DB(200) 마다 생성된 약물-약물 간의 유사도 랭킹을 산술평균한 값을 사용하여 구성될 수 있다.
한편, 신약 재창출 후보 추천 시스템(100)은, 문헌정보로부터 추출한 질병의 형질 정보에 기초하여, 각 질병 별로 각 연관 형질 단어의 출현빈도를 정보값으로 나타내는 연관단어벡터(T_dj)를 구성한다.
신약 재창출 후보 추천 시스템(100)은, 전술과 같이 구성한 각 질병 별 연관단어벡터를 근거로, 각 질병의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 질병-질병 유사도 메트릭스를 구성한다.
예를 들면, 신약 재창출 후보 추천 시스템(100)은, 전술의 수학식2에 따라, k번째 문헌정보DB로부터 수집한 정보에 기초한 x번째 질병의 연관단어벡터(T_dx)와 y번째 질병의 연관단어벡터(T_dy) 간의 코사인 유사도를 계산한 뒤, 이에 기초하여 질병-질병 간의 유사도 랭킹을 나타내는 질병-질병 유사도 메트릭스를 구성할 수 있다.
이러한 질병-질병 간의 유사도 랭킹은 각 k번째 문헌정보DB(200) 마다 생성되며, 최종 질병-질병 유사도 메트릭스는 각 k번째 문헌정보DB(200) 마다 생성된 질병-질병 간의 유사도 랭킹을 산술평균한 값을 사용하여 구성될 수 있다.
이와 별개로, 본 발명의 신약 재창출 후보 추천 기법에 따르면, 신약 재창출 후보 추천 시스템(100)은, 유전체 정보로부터 추출한 약물 및 질병의 유전자 연관 정보에 기초하여, 약물-약물/질병-질병 유사도 메트릭스를 구성한다(S130).
이와 같이, S130단계에서 약물 및 질병의 유전자 연관 정보를 기초로 약물-약물/질병-질병 유사도 메트릭스를 구성하는 알고리즘은, 기존의 질병 및 약물 간 유전자 연관(반응) 데이터의 마이닝을 통하여 새로운 신약 재창출 후보를 추론하기 위해 개발 또는 사용되는 어떠한 알고리즘라도 채택하여 사용할 수 있다.
다만, 본 발명의 이해를 돕기 위해 일 실시예를 설명하면, S130단계에 의해 구성된 약물-약물 또는 질병-질병 유사도 메트릭스 내 각 값 즉 약물 또는 질병 관련 유전자 간의 의미 상 유사성 점수(유사도 값)는, Resnik et al (1999) 등의 의미론적 유사성 (semantic similarity meaure)측정법에 따라 계량화될 수 있고, 이에 따라 유사성 점수(유사도 값)는 [0, 1]의 범위로 랭크 정규화에 의해 변형될 수 있다.
본 발명의 신약 재창출 후보 추천 기법에 따르면, 신약 재창출 후보 추천 시스템(100)은, S120단계에서 구성된 유사도 메트릭스에 따라 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산할 수 있다(S140).
구체적으로, 신약 재창출 후보 추천 시스템(100)은, S120단계에서 구성되는 유사도 메트릭스 및 S100단계에서 구성한 약물-질병의 이분 네트워크를 이용하여, 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산할 수 있다.
예를 들면, 신약 재창출 후보 추천 시스템(100)은, 특정 약물(s_i) 및 특정 질병(t_j) 쌍에 대하여, S120단계 구성되는 약물-약물 유사도 메트릭스로부터 확인되는 특정 약물(s_i) 및 계산을 위해 선택된 기준 약물(s_p) 간 유사도 값, S120단계 구성되는 질병-질병 유사도 메트릭스로부터 확인되는 특정 질병(t_j) 및 계산을 위해 선택된 기준 질병(t_q) 간 유사도 값, 기준 약물(s_p) 및 기준 질병(t_q) 간의 엣지, 약물-질병의 이분 네트워크에서 확인되는 기준 약물(s_p)의 디그리값(degree)을 이용하여, 전술의 수학식3에 따라 약물-질병 엣지(edge) 점수(P_t)를 계산할 수 있다.
여기서, 특정 약물(s_i, i번째 약물) 및 특정 질병(t_j, j번째 질병) 쌍은, 쿼리 쌍(엣지 점수를 알고자 하는 약물-질병 쌍)으로서, 추천 여부를 확인하고자 특정(예: 정보 입력)된 약물-질병 쌍일 수 있다.
또는, 특정 약물(s_i, i번째 약물) 및 특정 질병(t_j, j번째 질병) 쌍은, 알려진 약물 전체를 대상으로 추천 여부를 확인하기 위해, 알려진 약물 각각에 대하여 알려진 전체 질병 각각을 자동 조합하여 매칭시킨 모든 약물-질병 쌍 각각일 수도 있다.
여기서, 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_t) 계산을 위해 이용되는 기준 약물(s_p)은 특정 약물(s_i)과의 기 증명된 유사도(예: 유사도 랭킹 최상)를 기준으로 선택되고, 기 증명된 약물-질병 연관관계로부터 앞서 선택된 기준 약물(s_p)과의 엣지 라벨이 참값(True)인 기준 질병(t_q)이 선택되어 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_t) 계산을 위해 이용될 수 있다.
또는, 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_t) 계산을 위해 이용되는 기준 질병(t_q)은 특정 약물(s_i)과 쿼리 쌍인 특정 질병(t_j)과의 기 증명된 유사도(예: 유사도 랭킹 최상)를 기준으로 선택되고, 기 증명된 약물-질병 연관관계로부터 앞서 선택된 기준 질병(t_q)과의 엣지 라벨이 참값(True)인 기준 약물(s_p)이 선택되어 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_t) 계산을 위해 이용될 수 있다.
또한, 본 발명의 신약 재창출 후보 추천 기법에 따르면, 신약 재창출 후보 추천 시스템(100)은, S130단계에서 구성되는 유사도 메트릭스에 따라 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)를 계산할 수 있다(S150).
구체적으로, 신약 재창출 후보 추천 시스템(100)은, S130단계에서 구성되는 유사도 메트릭스 및 S100단계에서 구성한 약물-질병의 이분 네트워크를 이용하여, 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)를 계산할 수 있다.
예를 들면, 신약 재창출 후보 추천 시스템(100)은, 특정 약물(s_i) 및 특정 질병(t_j) 쌍에 대하여, S130단계에서 구성되는 약물-약물 유사도 메트릭스로부터 확인되는 특정 약물(s_i) 및 계산을 위해 선택된 기준 약물(s_p) 간 유사도 값, S130단계에서 구성되는 질병-질병 유사도 메트릭스로부터 확인되는 특정 질병(t_j) 및 계산을 위해 선택된 기준 질병(t_q) 간 유사도 값, 기준 약물(s_p) 및 기준 질병(t_q) 간의 엣지, 약물-질병의 이분 네트워크에서 확인되는 기준 약물(s_p)의 디그리값(degree)을 이용하여, 전술의 수학식4에 따라 약물-질병 엣지(edge) 점수(P_g)를 계산할 수 있다.
여기서, 특정 약물(s_i) 및 특정 질병(t_j) 쌍은, 앞서 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산한 대상 쿼리 쌍과 동일하다.
여기서, 특정 약물(s_i)에 대한 약물-질병 엣지(edge) 점수(P_g) 계산을 위해 이용되는 기준 약물(s_p) 및 기준 질병(t_q)은, 앞서 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산할 때 선택/이용한 약물-질병 쌍과 동일하다.
그리고, 본 발명의 신약 재창출 후보 추천 기법에 따르면, 신약 재창출 후보 추천 시스템(100)은, S140, S150단계에서 계산한 점수(P_t) 및 점수(P_g)를 사용하여, 특정 약물(s_i) 및 특정 질병(t_j) 쌍 즉 금번 쿼리 쌍에 대한 약물-질병 엣지(edge)의 최종 예측 점수f(e_ij)를 계산할 수 있다(S160).
구체적으로, 신약 재창출 후보 추천 시스템(100)은, 점수(P_t) 및 점수(P_g) 계산 시 사용된 특정 약물(s_i) 및 특정 질병(t_j) 쌍, 즉 금번 쿼리 쌍에 대하여 유전력(Heritability, H^2 또는 h^2)을 확인할 수 있다.
신약 재창출 후보 추천 시스템(100)은, 금번 쿼리 쌍(약물(s_i) 및 질병(t_j))에 대하여 계산한 점수(P_t) 및 점수(P_g)를 사용한 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시, 확인한 유전력에 따라 상이한 방식으로 최종 예측 점수 f(e_ij)를 계산할 수 있다(S160).
일 실시예에 따르면, 신약 재창출 후보 추천 시스템(100)은, 확인한 유전력이 기 정의된 기준값(예: 유전력 k) 이상이면, 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t) 보다 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)에 비중을 두어 계산할 수 있다.
예를 들면, 신약 재창출 후보 추천 시스템(100)은, 유전력이 기준값(k) 이상이면, 전술의 수학식5에 따라 금번 쿼리 쌍(약물(s_i) 및 질병(t_j))에 대한 약물-질병 엣지(edge)의 최종 예측 점수f(e_ij)를 계산할 수 있다(S160).
한편, 신약 재창출 후보 추천 시스템(100)은, 확인한 유전력이 기 정의된 기준값(예: 유전력 k) 미만이면, 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g) 보다 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)에 비중을 두어 계산할 수 있다.
예를 들면, 신약 재창출 후보 추천 시스템(100)은, 유전력이 기준값(k) 미만이면, 전술의 수학식6에 따라 금번 쿼리 쌍(약물(s_i) 및 질병(t_j))에 대한 약물-질병 엣지(edge)의 최종 예측 점수f(e_ij)를 계산할 수 있다(S160).
본 발명의 신약 재창출 후보 추천 기법에 따르면, 신약 재창출 후보 추천 시스템(100)은, S160단계에서 계산한 최종 예측 점수 f(e_ij)를 기준으로 결정되는 값에 따라, 신약 재창출 후보를 추천할 수 있다(S170).
구체적으로, 신약 재창출 후보 추천 시스템(100)은, 금번 쿼리 쌍(약물(s_i) 및 질병(t_j))에 대하여 계산한 최종 예측 점수 f(e_ij)가, 기 정의된 임계값(θ) 보다 크면 값을 참(True=1)로 결정하고, 임계값(θ) 보다 크지 않으면 값을 거질(False=0)로 결정할 수 있다.
이에 신약 재창출 후보 추천 시스템(100)은, 계산한 최종 예측 점수 f(e_ij)과 임계값(θ)을 기준으로 결정되는 값(참 또는 거짓)에 따라, 값이 참(True=1)인 경우 금번 쿼리 쌍의 약물(s_i)을 질병(t_j)에 대한 신약 재창출 후보로서 추천할 수 있다.
이상에서 설명한 바와 같이, 본 발명의 신약 재창출 후보 추천 기법(기술)에 따르면, 약물-적응증의 관계성을 그래프 네트워크 모델로 표현하고, 약물-약물 그리고 질병-질병의 유사도 메트릭스를 각각 대용량의 빅데이터인 문헌정보와 유전체 정보 기반으로 정량화/구성 한 뒤, 이를 기초로 약물의 신규 적응증을 예측함으로써, 약물의 신규 적응증 예측 결과에 따라 신약 재창출 후보를 추천하는 새로운 방식의 신약 재창출 후보 추천 기법(기술)을 구현할 수 있다.
이에, 본 발명에 따르면, 인력 부족 및 실제 환자의 인체 유래물에서 수집된 생리적 정보 또는 개인정보법에 의해 보호되는 개인의료정보 또는 증상 정보 등 제한적일 수 밖에 없는 데이터를 활용하지 않고, 현재까지 축적된 다양한 약물 및 질병연관 논문/문헌 정보 및 유전체 정보를 통해서 안전성이 검증된 약물의 신규 적응증 예측/추천이 가능해 짐에 따라, 신약 개발 기간 및 비용 면에서 획기적인 절감 효과를 기대할 수 있다.
본 발명의 실시예들에 따른 신약 재창출 후보 추천 기법(기술)은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명을 다양한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

Claims (13)

  1. 공개된 문헌정보에 기초하여 약물 및 질병의 형질 정보를 추출하고, 유전체 정보(genomic signatures)에 기초하여 약물 및 질병의 유전자 연관 정보를 추출하는 추출부;
    상기 문헌정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 제1메트릭스구성부;
    상기 유전체 정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 제2메트릭스구성부;
    상기 제1메트릭스구성부에서 구성되는 유사도 메트릭스에 따라 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산하고, 상기 제2메트릭스구성부에서 구성되는 유사도 메트릭스에 따라 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)를 계산하는 계산부;
    상기 계산한 점수(P_t) 및 점수(P_g) 중 적어도 하나를 사용하여 결정되는 값에 따라, 신약 재창출 후보를 추천하는 추천부를 포함하는 것을 특징으로 하는 신약 재창출 후보 추천 시스템.
  2. 하드웨어와 결합되어, 공개된 문헌정보에 기초하여 약물 및 질병의 형질 정보를 추출하고, 유전체 정보(genomic signatures)에 기초하여 약물 및 질병의 유전자 연관 정보를 추출하는 정보추출단계;
    상기 문헌정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 제1메트릭스구성단계;
    상기 유전체 정보로부터 추출한 정보에 기초하여 약물-약물/질병-질병 유사도 메트릭스를 구성하는 제2메트릭스구성단계;
    상기 제1메트릭스구성단계에서 구성되는 유사도 메트릭스에 따라 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산하고, 상기 제2메트릭스구성단계에서 구성되는 유사도 메트릭스에 따라 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)를 계산하는 계산단계;
    상기 계산한 점수(P_t) 및 점수(P_g) 중 적어도 하나를 사용하여 결정되는 값에 따라, 신약 재창출 후보를 추천하는 추천단계를 실행시키기 위해 매체에 저장된 컴퓨터 프로그램.
  3. 제 2 항에 있어서,
    상기 추천단계는,
    상기 계산한 점수(P_t) 및 점수(P_g)를 사용하여, 약물-질병 엣지(edge)의 최종 예측 점수f(e_ij)를 계산하는 최종계산단계와,
    상기 최종 예측 점수 f(e_ij)를 기준으로 결정되는 값에 따라, 신약 재창출 후보를 추천하는 추천단계를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
  4. 제 2 항에 있어서,
    상기 문헌정보는, 질병 증상 서술 및 투약 정보와, 약물 반응 형질 또는 약물 적응증 또는 약물 부작용 설명이 포함되어 있는, 학술 논문, 의/약학 전문 서적, 전산적 기술에 기초한 약물, 질병 연관 형질정보를 수집하고 공개한 데이터베이스, 질병 및 약물 연관 서술 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
  5. 제 2 항에 있어서,
    상기 제1메트릭스구성단계는,
    상기 문헌정보로부터 추출한 약물의 형질 정보에 기초하여, 각 약물 별로 각 연관 형질 단어의 출현빈도를 정보값으로 나타내는 연관단어벡터를 구성하고,
    상기 각 약물 별 연관단어벡터를 근거로, 각 약물의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 약물-약물 유사도 메트릭스를 구성하는 것을 특징으로 하는 컴퓨터 프로그램.
  6. 제 2 항에 있어서,
    상기 제1메트릭스구성단계는,
    상기 문헌정보로부터 추출한 질병의 형질 정보에 기초하여, 각 질병 별로 각 연관 형질 단어의 출현빈도를 정보값으로 나타내는 연관단어벡터를 구성하고,
    상기 각 질병 별 연관단어벡터를 근거로, 각 질병의 연관단어벡터 간 코사인 유사도(cosine similarity)를 계산하여 질병-질병 유사도 메트릭스를 구성하는 것을 특징으로 하는 컴퓨터 프로그램.
  7. 제 5 항에 있어서,
    상기 약물의 연관단어벡터 내 정보값 또는 상기 질병의 연관단어벡터 내 정보값은, j 번째 약물 또는 j 번째 질병의 i번째 연관 형질 단어의 출현빈도를 나타내는 t_ij로 정의되며,
    상기 정보값(t_ij)은, i번째 연관 형질 단어가 문헌 1건에서 출현한 빈도수(T_ij)를 상기 문헌정보 전체에서의 출현 빈도수(n_i)로 정규화된 값인 것을 특징으로 하는 컴퓨터 프로그램.
  8. 제 6 항에 있어서,
    상기 약물의 연관단어벡터 내 정보값 또는 상기 질병의 연관단어벡터 내 정보값은, j 번째 약물 또는 j 번째 질병의 i번째 연관 형질 단어의 출현빈도를 나타내는 t_ij로 정의되며,
    상기 정보값(t_ij)은, i번째 연관 형질 단어가 문헌 1건에서 출현한 빈도수(T_ij)를 상기 문헌정보 전체에서의 출현 빈도수(n_i)로 정규화된 값인 것을 특징으로 하는 컴퓨터 프로그램.
  9. 제 2 항에 있어서,
    약물 적응증 정보에 기초하여 약물-질병의 이분 네트워크를 구성하는 네트워크구성단계를 더 포함하며;
    상기 계산단계는,
    상기 제1메트릭스구성단계에서 구성되는 유사도 메트릭스 및 상기 구성한 약물-질병의 이분 네트워크를 이용하여, 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)를 계산하며,
    특정 약물(s_i, i번째 약물) 및 특정 질병(t_j, j번째 질병) 쌍에 대하여,
    상기 제1메트릭스구성단계에서 구성되는 약물-약물 유사도 메트릭스로부터 확인되는 상기 특정 약물(s_i) 및 계산을 위해 선택된 기준 약물(s_p) 간 유사도 값, 상기 제1메트릭스구성단계에서 구성되는 질병-질병 유사도 메트릭스로부터 확인되는 상기 특정 질병(t_j) 및 계산을 위해 선택된 기준 질병(t_q) 간 유사도 값, 상기 기준 약물(s_p) 및 상기 기준 질병(t_q) 간의 엣지, 상기 약물-질병의 이분 네트워크에서 확인되는 상기 기준 약물(s_p)의 디그리값(degree)을 이용하여, 약물-질병 엣지(edge) 점수(P_t)를 계산하는 것을 특징으로 하는 컴퓨터 프로그램.
  10. 제 9 항에 있어서,
    상기 기준 약물(s_p)은 상기 특정 약물(s_i)과의 기 증명된 유사도를 기준으로 선택되고, 기 증명된 약물-질병 연관관계로부터 상기 기준 약물(s_p)과의 엣지 라벨이 참값(True)인 상기 기준 질병(t_q)이 선택되거나, 또는
    상기 기준 질병(t_q)은 상기 특정 질병(t_j)과의 기 증명된 유사도를 기준으로 선택되고, 기 증명된 약물-질병 연관관계로부터 상기 기준 질병(t_q)과의 엣지 라벨이 참값(True)인 상기 기준 약물(s_p)이 선택되는 것을 특징으로 하는 컴퓨터 프로그램.
  11. 제 3 항에 있어서,
    상기 최종계산단계는,
    상기 점수(P_t) 및 점수(P_g) 계산 시 사용된 특정 약물(s_i) 및 특정 질병(t_j) 쌍에 대한 유전력(Heritability)을 확인하고,
    상기 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시, 상기 유전력에 따라 상이한 방식으로 계산하는 것을 특징으로 하는 컴퓨터 프로그램.
  12. 제 11 항에 있어서,
    상기 최종계산단계는,
    상기 유전력이 기 정의된 기준값 이상이면, 상기 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시 점수(P_t) 보다 유전체 정보 기반의 약물-질병 엣지(edge) 점수(P_g)에 비중을 두어 계산하며,
    상기 유전력이 상기 기준값 미만이면, 상기 약물-질병 엣지(edge)의 최종 예측 점수 f(e_ij) 계산 시 점수(P_g) 보다 문헌정보 기반의 약물-질병 엣지(edge) 점수(P_t)에 비중을 두어 계산하는 것을 특징으로 하는 컴퓨터 프로그램.
  13. 제 3 항에 있어서,
    상기 추천단계는,
    상기 최종 예측 점수 f(e_ij)를 기준값(cut-off)에 따라 참/거짓(True/False) 값으로 결정하고,
    상기 값이 참(True)이면, 상기 최종 예측 점수 f(e_ij) 계산 시 사용된 특정 약물(s_i) 및 특정 질병(t_j) 쌍을 확인하여, 상기 특정 질병(t_j)에 대한 신약으로서 상기 특정 약물(s_i)을 추천하는 것을 특징으로 하는 컴퓨터 프로그램.
PCT/KR2020/004431 2019-04-01 2020-03-31 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램 WO2020204586A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/440,625 US20220165435A1 (en) 2019-04-01 2020-03-31 Drug repositioning candidate recommendation system, and computer program stored in medium in order to execute each function of system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0037940 2019-04-01
KR1020190037940A KR102035658B1 (ko) 2019-04-01 2019-04-01 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
WO2020204586A1 true WO2020204586A1 (ko) 2020-10-08

Family

ID=68460988

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/004431 WO2020204586A1 (ko) 2019-04-01 2020-03-31 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램

Country Status (3)

Country Link
US (1) US20220165435A1 (ko)
KR (1) KR102035658B1 (ko)
WO (1) WO2020204586A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114242186A (zh) * 2021-12-30 2022-03-25 湖南大学 融合ghp与gcn的中西药物重定位方法及系统与存储介质
WO2023040150A1 (zh) * 2021-09-16 2023-03-23 平安科技(深圳)有限公司 药物重定向模型生成方法及装置、存储介质、计算机设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102035658B1 (ko) * 2019-04-01 2019-10-23 한국과학기술정보연구원 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
CN110245217B (zh) * 2019-06-17 2022-07-22 京东方科技集团股份有限公司 一种药品推荐方法、装置及电子设备
KR102439625B1 (ko) * 2019-11-07 2022-09-05 울산대학교 산학협력단 신약 재창출 후보 선정 방법 및 시스템
KR20210084909A (ko) * 2019-12-30 2021-07-08 (주)메디아이플러스 임상시험 데이터 매칭 방법 및 장치
KR102225278B1 (ko) 2020-01-31 2021-03-10 주식회사 스탠다임 질의되는 개체와 관련되는 질병, 유전자 또는 단백질을 예측하는 방법 및 이를 이용하여 구축되는 예측 시스템
KR102221098B1 (ko) * 2020-09-08 2021-02-26 한국과학기술정보연구원 기업 맞춤형 신약개발추천장치 및 그 동작 방법
KR102394304B1 (ko) * 2021-05-14 2022-05-04 다윈그룹(주) 신약에 대한 임상시험의 설계를 지원하는 방법, 시스템 및 컴퓨터-판독가능 매체
KR102452433B1 (ko) 2022-03-07 2022-10-11 주식회사 스탠다임 시계열적 정보를 인코딩하는 모델을 사용하여 질의되는 개체-쌍 사이의 연관성 관련 정보를 예측하는 방법 및 이를 이용하여 구축되는 예측 시스템
CN115938609A (zh) * 2022-12-12 2023-04-07 北京交通大学 融合疗效对比信息的药物重定位方法及系统
CN116230077B (zh) * 2023-02-20 2024-01-26 中国人民解放军总医院 基于重启超图双随机游走的抗病毒药物筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101450784B1 (ko) * 2013-07-02 2014-10-23 아주대학교산학협력단 전자의무기록과 약물/질환 네트워크 정보 기반의 신약 재창출 후보 예측 방법
KR20170134203A (ko) * 2016-05-27 2017-12-06 (주) 메디젠휴먼케어 Snp를 이용한 질병 관련 유전체 분석 시스템 및 장치
KR20180062321A (ko) * 2016-11-29 2018-06-08 (주)아크릴 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램
KR20190012396A (ko) * 2017-07-27 2019-02-11 가천대학교 산학협력단 의생명 문헌데이터 기반 약효능 도출 방법, 장치 및 컴퓨터-판독가능 매체
KR102035658B1 (ko) * 2019-04-01 2019-10-23 한국과학기술정보연구원 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112014032104A2 (pt) * 2012-06-21 2017-08-01 Univ Georgetown método para identificar interações proteína-droga, e, produto de computador.

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101450784B1 (ko) * 2013-07-02 2014-10-23 아주대학교산학협력단 전자의무기록과 약물/질환 네트워크 정보 기반의 신약 재창출 후보 예측 방법
KR20170134203A (ko) * 2016-05-27 2017-12-06 (주) 메디젠휴먼케어 Snp를 이용한 질병 관련 유전체 분석 시스템 및 장치
KR20180062321A (ko) * 2016-11-29 2018-06-08 (주)아크릴 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램
KR20190012396A (ko) * 2017-07-27 2019-02-11 가천대학교 산학협력단 의생명 문헌데이터 기반 약효능 도출 방법, 장치 및 컴퓨터-판독가능 매체
KR102035658B1 (ko) * 2019-04-01 2019-10-23 한국과학기술정보연구원 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG, PING ET AL.: "Towards drug repositioning: a unified computational framework for integrating multiple aspects of drug similarity and disease similarity", AMIA ANNUAL SYMPOSIUM PROCEEDINGS ARCHIVE, vol. 20, no. 4, 2014, pages 1258 - 1267, XP055746335 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023040150A1 (zh) * 2021-09-16 2023-03-23 平安科技(深圳)有限公司 药物重定向模型生成方法及装置、存储介质、计算机设备
CN114242186A (zh) * 2021-12-30 2022-03-25 湖南大学 融合ghp与gcn的中西药物重定位方法及系统与存储介质
CN114242186B (zh) * 2021-12-30 2022-08-12 湖南大学 融合ghp与gcn的中西药物重定位方法及系统与存储介质

Also Published As

Publication number Publication date
KR102035658B1 (ko) 2019-10-23
US20220165435A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
WO2020204586A1 (ko) 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
WO2021154060A1 (en) Method of predicting disease, gene or protein related to queried entity and prediction system built by using the same
WO2017014469A1 (ko) 질병 위험도 예측 방법 및 이를 수행하는 장치
WO2020096098A1 (ko) 어노테이션 작업 관리 방법, 이를 지원하는 장치 및 시스템
WO2021060899A1 (ko) 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치
WO2016125949A1 (ko) 문서 자동 요약 방법 및 서버
WO2020045848A1 (ko) 세그멘테이션을 수행하는 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
WO2017007084A1 (ko) 토픽 추출 장치 및 방법
WO2010120101A2 (ko) 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
WO2020078058A1 (zh) 医疗数据异常识别方法、装置、终端及存储介质
WO2017116123A1 (ko) 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
WO2016099019A1 (ko) 특허문서 분류 시스템 및 방법
WO2021125744A1 (en) Method and system for providing interpretation information on pathomics data
WO2021101105A2 (ko) 의료 전문 자료의 과목 분류 시스템 및 방법
WO2016068391A1 (ko) 환자 개인 특성에 대한 분석 방법 및 그 장치
WO2021010671A9 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
WO2022124725A1 (ko) 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
WO2022050719A1 (ko) 사용자의 치매 정도 결정 방법 및 장치
WO2014209005A1 (ko) 라이프 스타일 분석 시스템 및 방법
WO2017116139A1 (ko) 개인 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
WO2013032198A1 (ko) 높은 연관성을 가지는 아이템을 추천하는 아이템 기반의 추천 엔진
WO2010095807A2 (ko) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
WO2020085745A1 (ko) 의료 데이터 관리 시스템 및 그 방법
WO2014069767A1 (ko) 염기 서열 정렬 시스템 및 방법
WO2021172780A1 (ko) 유전자 선별 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20784799

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20784799

Country of ref document: EP

Kind code of ref document: A1