WO2020111451A1 - 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템 및 방법 - Google Patents

신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템 및 방법 Download PDF

Info

Publication number
WO2020111451A1
WO2020111451A1 PCT/KR2019/010563 KR2019010563W WO2020111451A1 WO 2020111451 A1 WO2020111451 A1 WO 2020111451A1 KR 2019010563 W KR2019010563 W KR 2019010563W WO 2020111451 A1 WO2020111451 A1 WO 2020111451A1
Authority
WO
WIPO (PCT)
Prior art keywords
patient group
expression
target protein
prognostic
value
Prior art date
Application number
PCT/KR2019/010563
Other languages
English (en)
French (fr)
Inventor
이정설
Original Assignee
주식회사 쓰리빌리언
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 쓰리빌리언 filed Critical 주식회사 쓰리빌리언
Priority to US17/309,478 priority Critical patent/US20220056525A1/en
Priority to JP2021530300A priority patent/JP7223455B2/ja
Priority to EP19888541.0A priority patent/EP3893242A4/en
Publication of WO2020111451A1 publication Critical patent/WO2020111451A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6893Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis

Definitions

  • the present invention relates to a system and method for discovering a novel target protein and its companion diagnostic biomarker using prognostic data.
  • Precise diagnostic medicine is a concept that precisely presents a patient's treatment according to a patient's characteristics.
  • the patient group is divided into a small number of subgroups, such as gender and age group, to explore the difference in the effect on treatment. If the treatment effect is different according to these characteristics, the patient is subgrouped into such characteristics and the appropriate treatment is suggested. Has been done.
  • a treatment method that can expect the maximum therapeutic effect in a small group of patients who share the same or similar genetic characteristics. Therefore, it is an important problem to explore and discover genetic features for selecting a patient group that can expect the maximum therapeutic effect.
  • the technical problem to be achieved by the present invention is to provide a biomarker for dividing a patient group that is expected to have similar treatment responsiveness, and a system and method for searching for a novel target protein that is effective in treating the patient group.
  • a novel target protein and a companion diagnostic biomarker discovery system identify a single gene and divide the high-expression patient group and the low-expression patient group according to the expression level of the single gene.
  • a new target protein selection unit for selecting a new target protein as the prognostic association value in the high-expression patient group or the low-expression patient group based on the biomarker may be further included.
  • the prognostic association value may be calculated by the patient's prognostic data, gene expression amount, disease recurrence period, and disease recurrence.
  • the reference expression value for dividing the high-expression patient group and the low-expression patient group may be performed by an average value of the patient group or a stepminer algorithm.
  • the prognostic association value may be generated by any one of a log-rank test, a Cox hazard ratio, or a log-rank ranking method by a patient listing method.
  • the prognosis association value of the high-expression patient group and the prognosis association value of the low-expression patient group are Pearson's correlation coefficient, Eucledian distance, Mahalanobis distance, and Tanimoto coefficient. (Tanimoto coefficient).
  • the present invention can simultaneously discover an effective target protein in a group of patients who share genetic characteristics similar to biomarkers for predicting responsiveness to treatment.
  • the present invention can discover new target proteins and companion diagnostic biomarkers for them without data prescribed for drugs that inhibit proteins expected to be new targets.
  • FIG. 1 is a block diagram of a novel target protein and a biomarker discovery system therefor according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing some of the actual results calculated using a novel target protein and a companion diagnostic biomarker discovery system according to an embodiment of the present invention.
  • 3 is an experimental diagram showing the prognostic association value of PAK1 in the NFKBIE low-expression group.
  • 4 is an experimental diagram showing the prognostic association value of PAK1 in the NFKBIE high-expression group.
  • 5 is an experimental diagram showing the prognostic association value of PAK1 in all patients.
  • FIG. 6 is a flow chart of a novel target protein and a companion diagnostic biomarker discovery method according to an embodiment of the present invention.
  • FIG. 1 is a block diagram of a novel target protein and a biomarker discovery system therefor according to an embodiment of the present invention.
  • a new target protein and a companion diagnostic biomarker discovery system 1000 include a patient group classification unit 100, a prognosis association calculation unit 200, and a prognosis association comparison unit ( 300), a biomarker selection unit 400, a new target protein selection unit 500, and a database 600.
  • the database 600 may store patient prognosis data.
  • the prognostic data are information on the gene expression amount for a total of about 20,000 genes, the patient's death (or recurrence), and the period until the patient dies (or recurrence period).
  • the patient group classification unit 100 may specify any single gene using the prognosis data, and then divide the high-expression patient group and the low-expression patient group according to the specific expression amount of the single gene.
  • the reference expression value for dividing the high-expression patient group and the low-expression patient group is a method that is generally widely used when the average value of the patient group or the expression values of the two patient groups are sorted in ascending order based on the expression amount (step function). It can be found by using a stepminer algorithm that can statistically find out where a change in value is prominent in the form of (stepminer literature: Extracting binary signals from microarray time-course data).
  • the reference expression value for dividing the high-expression patient group and the low-expression patient group is limited to using the average value of the patient group or the stepminer algorithm, but all common ones used to find the reference expression value in the art can be used. have.
  • the prognosis association calculator 200 may calculate a prognosis association value for all genes in each of the high-expression patient group and the low-expression patient group.
  • the prognostic association value can be calculated by the patient's prognostic data, gene expression amount, duration of disease recurrence, and disease recurrence.
  • the prognosis association value may be generated by any one of a log-rank test, a commonly used log-rank test, a Cox hazard ratio, or a log-rank ranking method by a patient listing method.
  • the prognosis association comparison unit 300 may compare the prognosis association values in the high-expression patient group and the prognosis association values in the low-expression patient group for all genes.
  • the patient group classification unit 100 identifies gene m and divides it into a high-expression patient group (mH) and a low-expression patient group (mL) according to the expression amount of gene m. .
  • the prognosis association calculating unit 200 calculates the prognosis association of all genes 1 to N genes.
  • the prognosis association comparison unit 300 compares mLi and mHi values for all genes i (Nos. 1 to N).
  • mL1 is the prognostic association value of gene 1 in the low-expression patient group (mL).
  • the prognosis correlation comparison unit 300 confirms that the comparison of the mLi and mHi values is sufficiently different from each other.
  • the degree of similarity between the mLi and mHi values is Pearson's correlation coefficient, Euclidian distance, and Mahal. It can be performed by any one of the Lanohbis distance (Mahalanobis distance), Tanimoto coefficient (Tanimoto coefficient).
  • Pearson's correlation coefficient can confirm whether corresponding samples have been changed through a similar linear transformation.
  • Euclidian distance is a method of calculating the distance by extending the distance of two points on a plane into a multi-dimensional space
  • Mahalanobis distance is not the same density of coordinate axes in space, but one It is a method to measure the distance considering the axis is severely compressed or expanded.
  • the Tanimoto coefficient is a value obtained by dividing the size of the intersection by the size of the union of the two sets to determine how similar the two sets are. When comparing the prognostic association of genes in two patient groups using the Tanimoto coefficient, it is calculated for a set of genes with statistically significant values among mHi or mLi values.
  • gene set B is obtained from the mH patient group. For these two sets, the value obtained by dividing the number of elements in the intersection of A and B by the number of elements in the union of A and B can be used as a value indicating the similarity between the two sets.
  • the biomarker selection unit 400 may select a biomarker that divides a patient group from a comparison value of a prognostic association value (mHi) of a high-expression patient group and a prognostic association value (mLi) of a low-expression patient group.
  • the biomarker selection unit 400 compares the prognostic association similarity value of the gene between two patient groups with a preset value.
  • the biomarker selection unit 400 is (mL1 and mH1), (mL2 and mH2),... , Depending on whether the calculated similarity value is greater than or equal to a predetermined value through comparison of all genes (mLN and mHN), it can be determined whether a specific gene m is selected as a myomarker.
  • the biomarker selection unit 400 may instruct the patient group classification unit 100 to proceed with the next single gene.
  • a new target protein and a companion diagnostic biomarker discovery system 1000 may further include a new target protein selection unit 500.
  • the new target protein selection unit 500 may select a new target protein as the prognostic association value in the high-expression patient group or the low-expression patient group based on the biomarker.
  • a larger prognostic association value may mean that a patient's prognosis is adversely affected.
  • gene 2 is the new target for the low-expression patient group with low expression of single gene m It becomes a protein, and gene 34 becomes a new target protein for the high-expression patient group with high expression of a single gene m.
  • the biomarker for screening the patient becomes a single gene m.
  • the novel target protein and companion diagnostic biomarker discovery system 1000 is effective in targeting a target protein in a patient group that shares similar genetic characteristics to a biomarker for predicting responsiveness to treatment. It can be excavated at the same time.
  • the development period and development cost can be reduced depending on the presence or absence of a companion diagnostic biomarker.
  • a new target protein cannot be discovered because a patient group that has already been prescribed a therapeutic agent that already knows a target is divided into a patient group with or without mutation of a specific protein, and thus a new target protein cannot be discovered. It is only possible to confirm whether it will become a companion diagnostic biomarker.
  • novel target protein and companion diagnostic biomarker discovery system 1000 is a novel target protein and companion diagnostic bio for the new target protein even without prescribed data for a drug that inhibits the protein expected to be a new target. Markers can be unearthed.
  • FIG. 2 is a diagram showing some of the actual results calculated using a novel target protein and a companion diagnostic biomarker discovery system according to an embodiment of the present invention.
  • the prognosis association value is calculated by a log test ranking method using a patient listing method, and when it is negative, it indicates that a gene has a high expression level and a patient's death or metastasis occurs rapidly, resulting in poor prognosis.
  • GSE17891 UK data published in April 2011, including 27 patient samples. References: Collisson EA, Sadanandam A, Olson P, Gibb WJ et al. Subtypes of pancreatic ductal adenocarcinoma and their differing responses to therapy. Nat Med 2011 Apr;17(4):500-3
  • GSE21501 U.S. data published in July 2010, including 130 patient samples. References: Stratford JK, Bentrem DJ, Anderson JM, Fan C et al. A six-gene signature predicts survival of patients with localized pancreatic ductal adenocarcinoma.
  • GSE57495 U.S. data published in August 2015, including 63 patient samples. References: Chen DT, Davis-Yadley AH, Huang PY, Husain K et al. Prognostic Fifteen-Gene Signature for Early Stage Pancreatic Ductal Adenocarcinoma. PLoS One 2015;10(8):e0133562.
  • GSE62452 U.S. data released in July 2016, including 130 patient samples. References: Yang S, He P, Wang J, Schetter A et al. A Novel MIF Signaling Pathway Drives the Malignant Character of Pancreatic Cancer by Targeting NR3C2. Cancer Res 2016 Jul 1;76(13):3838-50.
  • GSE71729 US data published in September 2015, including 145 patient samples. References: Moffitt RA, Marayati R, Flate EL, Volmar KE et al. Virtual microdissection identifies distinct tumor- and stroma-specific subtypes of pancreatic ductal adenocarcinoma. Nat Genet 2015 Oct;47(10):1168-78
  • GSE79668 US data released in June 2016, including 51 patient samples. References: Kirby MK, Ramaker RC, Gertz J, Davis NS et al. RNA sequencing of pancreatic adenocarcinoma tumors yields novel expression patterns associated with long-term survival and reveals a role for ANGPTL4. Mol Oncol 2016 Oct;10(8):1169-82
  • PAAD-US US data published at the International Cancer Research Consortium ICGC, including a total of 185 patient data. Data address: https://dcc.icgc.org/releases/release_27/Projects/PAAD-US
  • PACA-AU Australian data published at the International Cancer Research Consortium ICGC, including a total of 461 patient data. Data Address: https://dcc.icgc.org/releases/release_27/Projects/PACA-AU
  • the prognostic association values of PAK1 in each of the NFKBIE non-expressing group and the NFKBIE expressing group were calculated by the log test ranking method according to the patient list method in each data set.
  • the period (days) until death of each patient, whether death occurred, whether NFKBIE was expressed, or the amount of expression of PAK1 was given, PAK1 in the NFKBIE non-expressing group The prognosis association score of is calculated by the patient listing method, and the calculation method is as follows.
  • GSE62452 has a total of 130 samples, as shown in Table 1 below, of which 66 are cancerous tissues. Since the average expression level of NFKBIE in 66 cancer tissues is 0.13574, only patients whose expression level of NFKBIE is less than 0.13574 are selected.
  • NFKBIE low-expression patients For selected NFKBIE low-expression patients, patients are sorted according to Table 2 according to the expression level of PAK1.
  • the chi-square value is 2.106.
  • PAK1 is poor in the prognosis in multiple data sets ( ⁇ -1.64).
  • a negative z value means that the higher the gene expression, the worse the prognosis of the patient, and a positive z value means that the higher the gene expression, the better the prognosis of the patient.
  • PAK1 may be a new target protein in pancreatic cancer, where NFKBIE is a companion diagnostic biomarker for screening patients who can expect the effect of a PAK1 inhibitor.
  • PAK1 can be found as a target protein.
  • FIG. 3 is an experimental diagram showing the prognostic association value of PAK1 in the NFKBIE low-expression group
  • FIG. 4 is an experimental diagram showing the prognostic association value of PAK1 in the NFKBIE high-expression group
  • FIG. 5 is the prognostic association value of PAK1 in all patients It is an experimental diagram showing.
  • the mortality rate of the patient group with high expression of PAK1 is higher than that of the patient group with low expression of PAK1.
  • PAK1 can be a new target protein
  • NFKBIE can be a companion diagnostic biomarker for screening patients who can expect the effect of a PAK1 inhibitor.
  • FIG. 6 is a flow chart of a novel target protein and a companion diagnostic biomarker discovery method according to an embodiment of the present invention.
  • a method for discovering a new target protein and a companion diagnostic biomarker includes a first step (S100) of classifying a patient group, a second step of calculating a prognostic association value (S200), and each patient group And a third step (S300) of comparing prognostic association values, a fourth step of selecting biomarkers (S400), and a fifth step of selecting new target proteins (S500).
  • a single gene is specified in the patient group classification unit 100, and the high-expression patient group and the low-expression patient group can be divided according to the expression level of the single gene.
  • the prognostic association values of all genes in the high-expression patient group and the low-expression patient group may be calculated by the prognosis association calculator 200.
  • the prognosis association value of the high-expression patient group and the prognosis association value of the low-expression patient group may be compared for all genes in the prognosis association comparison unit 300.
  • the biomarker that divides the patient group from the comparison of the prognostic association value of the high-expression patient group and the prognostic association value of the low-expression patient group may be selected in the biomarker selection unit 400.
  • a new target protein may be selected from the high-expression patient group or the low-expression patient group based on the biomarker in the new target protein selection unit.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 단일 유전자를 특정하고, 상기 단일 유전자의 발현양에 따라 고발현 환자군과 저발현 환자군을 나누는 환자군 분류부; 상기 고발현 환자군과 상기 저발현 환자군에서 모든 유전자의 예후 연관성 값을 계산하는 예후 연관성 산출부; 모든 유전자에 대해 상기 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값을 비교하는 예후 연관성 비교부; 및 상기 비교값으로부터 환자군을 나누는 바이오마커를 선정하는 바이오마커 선정부를 포함하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템을 제공한다.

Description

신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템 및 방법
본 발명은 예후 데이터를 이용하여 신규 표적 단백질과 그에 대한 동반진단 바이오마커를 발굴하는 시스템 및 방법에 관한 것이다.
정밀 진단 의학은 환자의 특성에 따라 환자의 치료법을 정밀하게 제시하는 개념이다.
고전적으로는 성별, 연령대 등과 같이 환자군을 소수의 하위군으로 나누어 치료에 대한 효과의 차이를 탐색하고, 만약 이러한 특성에 따라 치료 효과가 다를 경우 환자를 그러한 특성으로 하위 군집화 한 후 그에 적절한 치료법을 제시하여 왔다. 그러나 개인의 유전정보를 대량으로 획득하는 것이 기술적으로 가능해짐에 따라 동일 혹은 유사한 유전적 특징을 공유하는 소수의 환자군에서 최대의 치료 효과를 기대할 수 있는 치료법을 제시하려는 노력이 진행 중에 있다. 따라서, 최대의 치료 효과를 기대할 수 있는 환자군을 선별하기 위한 유전적 특징을 탐색 및 발굴하는 것이 중요한 문제이다.
최근에는 암세포의 유전적 특징을 대량으로 측정할 수 있는 기술이 개발됨에 따라 1)유전자의 발현양, 2)유전자의 프로모터 메틸레이션 정도, 3)유전자의 복제수 변이 등의 특성값을 수만개의 유전자에 대하여 동시에 측정하여 이러한 대량의 특성을 이용하여 환자군을 하위 군집화하려는 시도가 진행되었다.
그러나 종래의 군집화 작업은 다양한 클러스터링 기법을 이용하여 수행되어 다소 기계적으로 군집화가 이루어지기 때문에, 이렇게 찾아진 하위 군집이 공유하는 생물학적 특징을 다시 찾아야 하는 문제가 있으며, 너무 대용량의 특성값으로 환자군을 하위 군집화 하려다 보니 어느 특성값이 환자군의 하위 군집화에 중요한 것인지가 명확해지지 않는 문제가 있다.
본 발명이 이루고자 하는 기술적 과제는 치료 반응성이 유사할 것으로 기대되는 환자군을 나누기 위한 바이오마커와 그 환자군의 치료에 효과적인 신규 표적 단백직을 탐색하기 위한 시스템 및 방법을 제공하고자 한다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템은 단일 유전자를 특정하고, 상기 단일 유전자의 발현양에 따라 고발현 환자군과 저발현 환자군을 나누는 환자군 분류부; 상기 고발현 환자군과 상기 저발현 환자군에서 모든 유전자의 예후 연관성 값을 계산하는 예후 연관성 산출부; 모든 유전자에 대해 상기 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값을 비교하는 예후 연관성 비교부; 및 상기 비교값으로부터 최초에 환자군을 나누었던 상기 단일 유전자를 환자군을 나누는 바이오마커로 선정하는 바이오마커 선정부를 포함한다.
상기 바이오마커를 기준으로 고발현 환자군 또는 저발현 환자군에서 상기 예후 연관성 값으로 신규 표적 단백질을 선정하는 신규 표적 단백질 선정부를 더 포함할 수 있다.
상기 예후 연관성 값은 환자의 예후 데이터인 유전자 발현양, 질병 재발 기간, 질병 재발 여부에 의해 계산될 수 있다.
상기 고발현 환자군과 상기 저발현 환자군을 나누는 기준 발현값은 환자군의 평균값 또는 스텝마이너 알고리즘에 의해 수행될 수 있다.
상기 예후 연관성 값은 로그검정 순위법(log-rank test), 콕스 해저드 비율(Cox hazard ratio), 또는 환자 나열법에 의한 로그검정 순위법 중 어느 하나에 의해 생성될 수 있다.
상기 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값의 비교는 피어슨 상관 계수(Pearson's correlation coefficient), 유클리디언 거리(Eucledian distance), 마할라노비스 거리(Mahalanobis distance), 타니모토 계수(Tanimoto coefficient) 중 어느 하나에 의해 수행될 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.
본 발명은 치료에 대한 반응성을 예측하기 위한 바이오마커와 유사한 유전적 특징을 공유하는 환자군에 있어 효과적인 표적 단백질을 동시에 발굴 할 수 있다.
본 발명은 신규 표적일 것이라 예상되는 단백질을 억제하는 약물을 처방 받은 데이터 없이도 신규 표적 단백질과 그에 대한 동반진단 바이오마커를 발굴할 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 신규 표적 단백질과 그에 대한 바이오마커 발굴 시스템의 구성도이다.
도 2는 본 발명의 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템을 이용하여 계산한 실제 결과 중 일부를 나타내는 도면이다.
도 3은 NFKBIE 저발현군에서의 PAK1의 예후 연관성 값을 나타내는 실험도이다.
도 4는 NFKBIE 고발현군에서의 PAK1의 예후 연관성 값을 나타내는 실험도이다.
도 5는 전체 환자의 PAK1의 예후 연관성 값을 나타내는 실험도이다.
도 6은 본 발명의 일 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법의 순서도이다.
본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.
한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 신규 표적 단백질과 그에 대한 바이오마커 발굴 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템(1000)은 환자군 분류부(100), 예후 연관성 산출부(200), 예후 연관성 비교부(300), 바이오마커 선정부(400), 신규 표적 단백질 선정부(500), 및 데이터베이스(600)를 포함한다.
데이터베이스(600)는 환자의 예후 데이터를 저장할 수 있다. 여기서 예후 데이터는 환자들에 대해서 전체 2만여 개의 유전자에 대한 유전자 발현양, 환자의 사망 여부( 또는 재발 여부), 및 환자가 사망하기까지의 기간( 또는 재발 기간)에 관한 정보이다.
환자군 분류부(100)는 상기 예후 데이터를 이용하여 임의의 단일 유전자를 특정한 후, 상기 단일 유전자의 특정 발현양에 따라 고발현 환자군과 저발현 환자군을 나눌 수 있다.
이때 고발현 환자군과 저발현 환자군을 나누는 기준 발현값은 일반적으로 널리 이용되는 방법인 환자군의 평균값, 혹은 두 환자군의 발현값이 발현양을 기준으로 오름 차순으로 정렬할 경우 단일 계산 함수(step function)와 같은 형태일 때 어느 부분에서 값의 변화가 두드러지게 나타나는지를 통계적으로 찾아 낼 수 있는 스텝마이너 알고리즘(stepminer algorithm)을 이용하여 찾을 수 있다(stepminer 문헌: Extracting binary signals from microarray time-course data). 본 발명의 실시예에서는 고발현 환자군과 저발현 환자군을 나누는 기준 발현값을 환자군의 평균값 또는 stepminer 알고리즘을 이용하는 것으로 한정하여 설명하나, 당업계에서 기준 발현값을 찾기 위해 사용되는 통상의 것이 모두 사용될 수 있다.
예후 연관성 산출부(200)는 고발현 환자군과 저발현 환자군 각각에서 모든 유전자에 대한 예후 연관성 값을 계산할 수 있다.
예후 연관성 값은 환자의 예후 데이터인 유전자 발현양, 질병 재발 기간, 질병 재발 여부에 의해 계산될 수 있다.
이때, 예후 연관성 값은 일반적으로 많이 사용되는 로그검정 순위법(log-rank test), 콕스 해저드 비율(Cox hazard ratio) 또는 환자 나열법에 의한 로그검정 순위법 중 어느 하나에 의해 생성될 수 있다.
로그검정 순위법(log-rank test) 또는 콕스 해저드 비율(Cox hazard ratio)은 당업자에게 공지의 기술이므로 상세한 설명은 생략하기로 한다.
환자 나열법에 의한 로그검정 순위법에 대한 내용은 Robust method for identification of prognostic gene signatures from gene expression profiles, Woogwang Sim, Jungsul Lee & Chulhee Choi, Scientific Reports, volume 7, Article number: 16926 (2017)를 참조할 수 있다.
예후 연관성 비교부(300)는 모든 유전자에 대해 고발현 환자군에서의 예후 연관성 값과 저발현 환자군에서의 예후 연관성 값을 비교할 수 있다.
예를 들어, 모든 유전자 1번부터 N번까지에 대해서, 환자군 분류부(100)는 유전자 m을 특정하고, 유전자 m의 발현양에 따라 고발현 환자군(mH)과 저발현 환자군(mL)으로 나눈다.
그리고, 예후 연관성 산출부(200)는 유전자 1번부터 N번까지의 모든 유전자의 예후 연관성을 계산한다.
그리고, 예후 연관성 비교부(300)는 모든 유전자 i(1 내지 N번)에 대하여 mLi와 mHi 값을 비교한다. mL1은 유전자 m이 저발현 환자군(mL)에서의 유전자 1번의 예후 연관성 값이다.
즉, 예후 연관성 비교부(300)는 mLi와 mHi 값의 비교는 서로 충분히 다른지 확인하는데, mLi와 mHi 값의 유사성 정도는 피어슨 상관 계수(Pearson's correlation coefficient), 유클리디언 거리(Eucledian distance), 마할라노비스 거리(Mahalanobis distance), 타니모토 계수(Tanimoto coefficient) 중 어느 하나에 의해 수행될 수 있다.
피어슨 상관 계수(Pearson's correlation coefficient)는 대응 표본들이 유사한 선형 변환을 통하여 변화된 것인지를 확인할 수 있다. 유클리디언 거리(Eucledian distance)는 평면 상의 두 점의 거리를 계산하는 방식을 다차원 공간으로 확장시켜 거리를 재는 방식이고, 마할라노비스 거리(Mahalanobis distance)는 공간 상의 좌표축이 동일한 밀도가 아니라 어느 한 축이 심하게 압축되거나 팽창된 것을 고려하여 거리를 재는 방식이다. 타니모토 계수(Tanimoto coefficient)는 두 집합이 얼마나 유사한지를 확인하기 위하여 두 집합의 합집합의 크기로 교집합의 크기를 나눈 값이다. 타니모토 계수를 이용하여 두 환자군에서의 유전자의 예후 연관성 정도를 비교할 때는 mHi 혹은 mLi 값 중 통계적으로 유의미한 값을 갖는 유전자 집합에 대하여 계산한다. 예를 들면, mL 환자군에서 로그검정 순위법을 이용하여 각 유전자의 예후 연관성을 계산하였을 경우, 통계적으로 유의미하다고 할 수 있는 1.64 이상의 chi-square 값을 갖는 유전자로 이루어진 집합 A를 구한다. 동일한 방법으로 mH 환자군에서 유전자 집합 B를 구한다. 이 두 집합에 대하여 A와 B의 교집합의 원소 수를 A와 B의 합집합의 원소 수로 나눈 값을 두 집합의 유사성을 나타내는 값으로 사용할 수 있다.
바이오마커 선정부(400)는 고발현 환자군의 예후 연관성 값(mHi)과 저발현 환자군의 예후 연관성 값(mLi)의 비교값으로부터 환자군을 나누는 바이오마커를 선정할 수 있다.
바이오마커 선정부(400)는 바이오마커를 선정하기 위해서 두 환자 그룹간 유전자의 예후 연관성 유사도 값을 기 설정된 값과 비교한다.
예를 들어, 바이오마커 선정부(400)는 (mL1과 mH1), (mL2와 mH2), … , (mLN과 mHN)의 전체 유전자의 비교를 통하여 계산한 유사도 값이 기 설정된 값 이상인지에 따라 특정 유전자 m을 마이오마커로 선정할 지 결정할 수 있다.
이때, 바이오마커 선정부(400)는 특정 유전자 m을 바이오마커로 선정하지 않으면 다시 환자군 분류부(100)에 다음 단일 유전자에 대해 작업을 진행하라고 지시할 수 있다.
본 발명의 다른 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템(1000) 신규 표적 단백질 선정부(500)를 더 포함할 수 있다.
신규 표적 단백질 선정부(500)는 바이오마커를 기준으로 고발현 환자군 또는 저발현 환자군에서 상기 예후 연관성 값으로 신규 표적 단백질을 선정할 수 있다.
일 예로, 예후 연관성 값이 클수록 환자의 예후에 나쁘게 영향을 준다는 것을 의미할 수 있다.
예를 들면, 단일 유전자 m의 발현양에 따른 저발현 환자군에서는 유전자 2번의 발현이 높을수록 사망 또는 전이 시간이 짧아 예후에 나쁘게 영향을 주는 예후 연관성 값이 가장 크게 나왔고, 단일 유전자 m의 발현양에 따른 고발현 환자군에서는 유전자 34번의 발현이 높을수록 사망 또는 전이 시간이 짧아 예후에 나쁘게 영향을 주는 예후 연관성 값이 가장 크게 나왔다면, 유전자 2번은 단일 유전자 m의 발현이 낮은 저발현 환자군에 대한 신규 표적 단백질이 되며, 유전자 34번은 단일 유전자 m의 발현이 높은 고발현 환자군에 대한 신규 표적 단백질이 된다.
이때, 이렇게 탐색된 신규 표적 단백질을 억제하는 약물의 효과를 극대화하기 위해 환자를 선별하기 위한 바이오마커는 단일 유전자 m이 된다.
이와 같이 본 발명의 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템(1000)은 치료에 대한 반응성을 예측하기 위한 바이오마커와 유사한 유전적 특징을 공유하는 환자군에 있어 효과적인 표적 단백질을 동시에 발굴 할 수 있다.
신약 개발 회사의 경우 자사의 약물의 효과를 극대화 할 수 있는 환자군을 선별하는 바이오마커의 발굴에 큰 관심을 가지고 있다.
신약의 경우, 동반진단 바이오마커의 유무에 따라 개발 기간 및 개발 비용을 절감할 수 있다.
종래에는 이미 표적을 알고 있는 치료제를 처방 받은 환자군을 특정 단백질의 돌연 변이 유무로 환자군을 나눈 후 치료제에 대한 반응성을 확인하는 것이기 때문에 새로운 표적 단백질을 발굴할 수 없고, 단지 그러한 특정 돌연변이가 치료에 대한 동반진단 바이오마커가 될 것인가를 확인할 수 있을 뿐이다.
그러나, 본 발명의 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템(1000)은 신규 표적일 것이라 예상되는 단백질을 억제하는 약물을 처방 받은 데이터 없이도 신규 표적 단백질과 그에 대한 동반진단 바이오마커를 발굴할 수 있다.
도 2는 본 발명의 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템을 이용하여 계산한 실제 결과 중 일부를 나타내는 도면이다.
도 2를 참조하면, 예후 연관성 값은 환자 나열법에 의한 로그검정 순위법으로 계산한 것으로, 음수일 경우 유전자의 발현양이 높으며 환자의 사망이나 전이가 빨리 발생하여 예후가 나쁜 것을 의미한다.
총 8개의 데이터 셋이 이용 가능하였으며 전체 651명의 환자 데이터가 사용되었다.
아래는 위의 계산에 사용된 데이터 셋 각각에 대한 간략한 설명이다.
GSE17891: 2011년 4월에 공개된 영국 데이터로 27명의 환자 시료를 포함. 참고 문헌: Collisson EA, Sadanandam A, Olson P, Gibb WJ et al. Subtypes of pancreatic ductal adenocarcinoma and their differing responses to therapy. Nat Med 2011 Apr;17(4):500-3
GSE21501: 2010년 7월에 공개된 미국 데이터로 130명의 환자 시료를 포함. 참고 문헌: Stratford JK, Bentrem DJ, Anderson JM, Fan C et al. A six-gene signature predicts survival of patients with localized pancreatic ductal adenocarcinoma. PLoS Med 2010 Jul 13;7(7):e1000307
GSE57495: 2015년 8월에 공개된 미국 데이터로 63명의 환자 시료를 포함. 참고 문헌: Chen DT, Davis-Yadley AH, Huang PY, Husain K et al. Prognostic Fifteen-Gene Signature for Early Stage Pancreatic Ductal Adenocarcinoma. PLoS One 2015;10(8):e0133562.
GSE62452: 2016년 7월에 공개된 미국 데이터로 130명의 환자 시료를 포함. 참고 문헌: Yang S, He P, Wang J, Schetter A et al. A Novel MIF Signaling Pathway Drives the Malignant Character of Pancreatic Cancer by Targeting NR3C2. Cancer Res 2016 Jul 1;76(13):3838-50.
GSE71729: 2015년 9월에 공개된 미국 데이터로 145명의 환자 시료를 포함. 참고 문헌: Moffitt RA, Marayati R, Flate EL, Volmar KE et al. Virtual microdissection identifies distinct tumor- and stroma-specific subtypes of pancreatic ductal adenocarcinoma. Nat Genet 2015 Oct;47(10):1168-78
GSE79668: 2016년 6월에 공개된 미국 데이터로 51명의 환자 시료를 포함. 참고 문헌: Kirby MK, Ramaker RC, Gertz J, Davis NS et al. RNA sequencing of pancreatic adenocarcinoma tumors yields novel expression patterns associated with long-term survival and reveals a role for ANGPTL4. Mol Oncol 2016 Oct;10(8):1169-82
PAAD-US: 국제 암 연구 컨소시엄 ICGC에 공개된 미국 데이터, 총 185명의 환자 데이터를 포함. 데이터 주소: https://dcc.icgc.org/releases/release_27/Projects/PAAD-US
PACA-AU: 국제 암 연구 컨소시엄 ICGC에 공개된 호주 데이터, 총 461명의 환자 데이터를 포함 데이터 주소: https://dcc.icgc.org/releases/release_27/Projects/PACA-AU
NFKBIE 미발현군과 NFKBIE 발현군 각각에서 PAK1의 예후 연관성 값을 각각의 데이터 셋에서 환자 나열법에 의한 로그검정 순위법으로 계산하였다.
그 구체적인 계산법을 살펴보면, 데이터 셋 GSE62452에 대하여, 각 환자의 사망까지의 기간(일), 사망 발생 여부, NFKBIE의 발현 여부, PAK1의 발현양에 대한 정보가 주어졌을 경우, NFKBIE 미발현군에서의 PAK1의 예후 연관성 점수를 환자 나열법으로 계산하며, 그 계산법은 다음과 같다.
GSE62452에는 아래 표1과 같이 총 130개의 시료가 존재하며, 이 중 암조직은 66개이다. 66개의 암조직에서의 NFKBIE의 평균 발현양은 0.13574이므로, NFKBIE의 발현양이 0.13574 미만인 환자들만 선별한다.
시료 ID NFKBIE PAK1 T.OS(사망기간일수) E.OS( 사망여부 , 1=사망, 0=추적조사 중단)
GSM1527199 0.0924361 0.725367 27.375 1
GSM1527139 0.0719572 0.697039 36.5 1
GSM1527117 0.107975 0.83112 73 1
GSM1527109 0.136983 0.943646 82.125 1
GSM1527131 0.160193 0.779189 85.16666667 1
GSM1527234 0.0648599 0.506486 97.33333333 1
GSM1527183 0.198108 0.751111 127.75 1
GSM1527191 0.0983756 0.756738 136.875 1
GSM1527179 0.198062 0.927857 139.9166667 1
GSM1527204 0.0834156 0.741575 161.2083333 1
GSM1527200 0.169306 0.645679 179.4583333 1
GSM1527198 0.182152 0.84668 191.625 1
GSM1527175 0.2918 0.881733 194.6666667 1
GSM1527155 0.112032 0.93257 206.8333333 1
GSM1527107 0.149199 0.915945 209.875 1
GSM1527163 0.217211 0.898843 234.2083333 1
GSM1527171 0.170377 0.882882 270.7083333 1
GSM1527223 0.116616 0.728521 282.875 1
GSM1527196 0.0680492 0.738668 288.9583333 1
GSM1527187 0.238311 0.934063 295.0416667 0
GSM1527159 0.306631 0.906395 298.0833333 1
GSM1527202 0.0998357 0.815202 298.0833333 1
GSM1527185 0.0517133 0.505602 313.2916667 1
GSM1527181 0.147486 0.920583 322.4166667 0
GSM1527145 0.178356 0.900167 328.5 1
GSM1527219 0.0715149 0.532571 331.5416667 1
GSM1527133 0.103622 0.892387 352.8333333 1
GSM1527125 0.115917 0.975128 383.25 1
GSM1527193 0.107316 0.827322 392.375 1
GSM1527141 0.218086 0.863629 401.5 1
GSM1527218 0.0809268 0.764934 416.7083333 1
GSM1527154 0.0623943 0.778882 419.75 1
GSM1527207 0.0710075 0.619538 431.9166667 1
GSM1527189 0.16918 0.91218 453.2083333 1
GSM1527127 0.0836313 0.885285 486.6666667 1
GSM1527177 0.142566 0.948263 498.8333333 0
GSM1527173 0.16959 0.909593 526.2083333 0
GSM1527123 0.198963 0.874086 593.125 1
GSM1527225 0.0844458 0.676123 605.2916667 1
GSM1527169 0.142231 0.914037 641.7916667 0
GSM1527167 0.180534 0.877268 644.8333333 0
GSM1527220 0.17064 0.883689 647.875 1
GSM1527205 0.0867355 0.70674 653.9583333 1
GSM1527165 0.160634 0.918809 663.0833333 0
GSM1527213 0.15267 0.895445 666.125 1
GSM1527210 0.178495 0.986706 696.5416667 1
GSM1527143 0.180668 0.945885 705.6666667 1
GSM1527161 0.174789 0.816583 717.8333333 0
GSM1527135 0.235951 0.906498 751.2916667 1
GSM1527151 0.192333 0.893421 839.5 0
GSM1527149 0.195641 0.886273 842.5416667 1
GSM1527157 0.138786 0.945639 857.75 0
GSM1527147 0.168687 0.776631 882.0833333 1
GSM1527209 0.0661931 0.624513 973.3333333 1
GSM1527115 0.131654 0.907478 1091.958333 1
GSM1527216 0.0616188 0.446232 1164.958333 0
GSM1527137 0.0726089 0.676894 1216.666667 0
GSM1527129 0.108316 0.902027 1244.041667 1
GSM1527111 0.0866626 0.710018 1265.333333 1
GSM1527215 0.0941973 0.573358 1277.5 0
GSM1527212 0.0940205 0.567199 1396.125 1
GSM1527232 0.128075 0.781619 1511.708333 1
GSM1527105 0.144634 0.928392 1554.291667 1
GSM1527230 0.075911 0.4696 2059.208333 0
GSM1527228 0.100905 0.602254 2068.333333 0
GSM1527227 0.0447046 0.338783 2153.5 0
선별된 NFKBIE 저발현군 환자들에 대하여, PAK1의 발현양에 따라 환자를 표 2와 같이 정렬한다.
시료 ID NFKBIE PAK1 T.OS(사망기간일수) E.OS( 사망여부 , 1=사망, 0=추적조사 중단)
GSM1527227 0.0447046 0.338783 2153.5 0
GSM1527216 0.0616188 0.446232 1164.958333 0
GSM1527230 0.075911 0.4696 2059.208333 0
GSM1527185 0.0517133 0.505602 313.2916667 1
GSM1527234 0.0648599 0.506486 97.33333333 1
GSM1527219 0.0715149 0.532571 331.5416667 1
GSM1527212 0.0940205 0.567199 1396.125 1
GSM1527215 0.0941973 0.573358 1277.5 0
GSM1527228 0.100905 0.602254 2068.333333 0
GSM1527207 0.0710075 0.619538 431.9166667 1
GSM1527209 0.0661931 0.624513 973.3333333 1
GSM1527225 0.0844458 0.676123 605.2916667 1
GSM1527137 0.0726089 0.676894 1216.666667 0
GSM1527139 0.0719572 0.697039 36.5 1
GSM1527205 0.0867355 0.70674 653.9583333 1
GSM1527111 0.0866626 0.710018 1265.333333 1
GSM1527199 0.0924361 0.725367 27.375 1
GSM1527223 0.116616 0.728521 282.875 1
GSM1527196 0.0680492 0.738668 288.9583333 1
GSM1527204 0.0834156 0.741575 161.2083333 1
GSM1527191 0.0983756 0.756738 136.875 1
GSM1527218 0.0809268 0.764934 416.7083333 1
GSM1527154 0.0623943 0.778882 419.75 1
GSM1527232 0.128075 0.781619 1511.708333 1
GSM1527202 0.0998357 0.815202 298.0833333 1
GSM1527193 0.107316 0.827322 392.375 1
GSM1527117 0.107975 0.83112 73 1
GSM1527127 0.0836313 0.885285 486.6666667 1
GSM1527133 0.103622 0.892387 352.8333333 1
GSM1527129 0.108316 0.902027 1244.041667 1
GSM1527115 0.131654 0.907478 1091.958333 1
GSM1527155 0.112032 0.93257 206.8333333 1
GSM1527125 0.115917 0.975128 383.25 1
그 다음, PAK1의 발현이 가장 낮은 환자(GSM1527227)을 low PAK1 group, 나머지 환자들을 high PAK1 group 으로 하여 로그검정 분석을 하면 chi-square 값이 2.106 이 나온다.
다음으로, PAK1의 발현 순위가 2번째인 환자를 제외하고, 3번째 순위의 환자부터 나머지 전체 환자만을 high PAK1 group으로 하여 로그검정 분석을 하여 chi-square 값 2.186을 기록한다.
이와 같이, PAK1의 발현 순서로 정렬되어 있는 환자군 P(1), 쪋, P(n)에 대하여, i<j 를 만족하는 모든 i<j 쌍에 대하여, {P(1), … , P(i)}는 PAK1저발현 환자군, {P(j), … , P(n)}은 PAK1 고발현 환자군으로 하여 각 경우에 대한 로그검정값을 구하여 나오는 n*(n-1)/2 개의 chi-square 값의 평균값이 환자 나열법에 의한 로그검정 순위법으로 구한 PAK1의 예후 연관성 점수이다(참고: Robust method for identification of prognostic gene signatures from gene expression profiles, Scientific Reportsvolume 7, Article number: 16926 (2017)).
그 후, NFKBIE 고발현군(0.13574 이상 발현되었던 환자군)에 대하여 동일한 작업을 하여 NFKBIE 고발현군에서의 PAK1의 예후 연관성 점수를 계산한다. 이와 같은 작업을 사용 가능한 모든 데이터 셋에 대하여 수행한다.
그 후, 각 데이터 셋에서 나온 통계적 유의미도를 알 수 있는 z-값을 취합하여 단일 수치인 최종 예후 점수를 계산하였다. 이때 취합에는 통계 수치(z-값 혹은 p-값)과 그에 사용된 환자 수를 모두 고려하여 취합하는 Liptak's z-value 계산법(J Evol Biol. 2011 Aug;24(8):1836-41. doi: 10.1111/j.1420-9101.2011.02297.x. Epub 2011 May 23. Optimally weighted Z-test is a powerful method for combining probabilities in meta-analysis. Zaykin)을 이용하였다. Liptak's z-value는 표준정규분포를 따르는 것으로 알려져 있으며, 따라서 유의수준 0.05 에서 유의미한 z-값의 절대값은 대략 1.64이며, 이 이상의 z-값을 갖는 유전자를 유의미한 것으로 간주할 수 있다.
NFKBIE 미발현군에서는 다수의 데이터 셋에서 PAK1이 예후에 나쁜 것을 확인할 수 있다(<-1.64). 이때, z값이 음수인 것은 유전자의 발현이 높을수록 환자의 예후가 나쁜 것을 의미하며, z값이 양수인 것은 유전자의 발현이 높을수록 환자의 예후가 좋은 것을 의미한다.
따라서, PAK1은 췌장암에서 신규 표적 단백질이 될 수 있으며, 이때 NFKBIE는 PAK1 억제제의 효과를 기대할 수 있는 환자를 선별하기 위한 동반진단 바이오마커이다.
만약 환자를 환자를 NFKBIE의 발현으로 구분하지 않고 전체 환자를 대상으로 하여 PAK1의 예후 연관성 점수를 계산하면 통계적으로 유의미하지 않은 값(-1.1280)으로 이것은 곧 NFKBIE의 발현양을 기준으로 환자를 군집화 해야만 PAK1을 표적 단백질로 찾아낼 수 있음을 방증한다.
도 3은 NFKBIE 저발현군에서의 PAK1의 예후 연관성 값을 나타내는 실험도이고, 도 4는 NFKBIE 고발현군에서의 PAK1의 예후 연관성 값을 나타내는 실험도이고, 도 5는 전체 환자의 PAK1의 예후 연관성 값을 나타내는 실험도이다.
도 3을 참조하면, NFKBIE 저발현군 내에서는 PAK1의 발현이 높은 환자군의 사망률이 PAK1의 발현이 낮은 환자군의 사망률보다 높음을 알 수 있다.
도 4을 참조하면, NFKBIE 고발현군 내에서는 PAK1의 발현이 높은 환자군의 사망률과 PAK1의 발현이 낮은 환자군의 사망률이 차이가 크지 않음을 알 수 있다.
도 5를 참조하면, NFKBIE의 발현양으로 환자군을 나누지 않고 전체 환자를 대상으로 할 경우 PAK1의 발현에 따른 사망률이 차이가 없음을 알 수 있다.
이와 같이, PAK1은 신규 표적 단백질이 될 수 있으며, 이때 NFKBIE는 PAK1 억제제의 효과를 기대할 수 있는 환자를 선별하기 위한 동반진단 바이오마커가 될 수 있다.
이하에서는, 본 발명의 일 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법을 설명한다. 이하에서는 설명의 편의를 위해 전술의 도 1에서 언급한 참조번호를 언급하여 설명하고, 앞서 설명한 내용과 중복된 내용은 생략한다.
도 6은 본 발명의 일 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법의 순서도이다.
도 6을 참조하면, 일 실시예에 따른 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법은 환자군을 분류하는 제1 단계(S100), 예후 연관성 값을 계산하는 제2 단계(S200), 각 환자군의 예후 연관성 값을 비교하는 제3 단계(S300), 바이오마커를 선정하는 제4 단계(S400), 및 신규 표적 단백질을 선정하는 제5 단계(S500)를 포함한다.
제1 단계(S100)는 환자군 분류부(100)에서 단일 유전자를 특정하고, 상기 단일 유전자의 발현양에 따라 고발현 환자군과 저발현 환자군을 나눌 수 있다.
제2 단계(S200)는 예후 연관성 산출부(200)에서 상기 고발현 환자군과 상기 저발현 환자군에서 모든 유전자의 예후 연관성 값을 계산할 수 있다.
제3 단계(S300)는 예후 연관성 비교부(300)에서 모든 유전자에 대해 상기 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값을 비교할 수 있다.
이때, 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값을 비교하여 특정 단일 유전자를 바이오마커로 선정하지 않으면 다시 환자군 분류부(100)에 다음 단일 유전자에 대해 작업을 진행하게 된다.
제4 단계(S400)는 바이오마커 선정부(400)에서 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값의 비교로부터 환자군을 나누는 바이오마커를 선정할 수 있다.
제5 단계(S500)는 신규 표적 단백질 선정부에서 상기 바이오마커를 기준으로 고발현 환자군 또는 저발현 환자군에서 상기 예후 연관성 값으로 신규 표적 단백질을 선정할 수 있다.
이상에서 설명한 본 발명이 전술한 실시예 및 첨부된 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

Claims (12)

  1. 단일 유전자를 특정하고, 상기 단일 유전자의 발현양에 따라 고발현 환자군과 저발현 환자군을 나누는 환자군 분류부;
    상기 고발현 환자군과 상기 저발현 환자군에서 모든 유전자의 예후 연관성 값을 계산하는 예후 연관성 산출부;
    모든 유전자에 대해 상기 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값을 비교하는 예후 연관성 비교부; 및
    상기 비교값으로부터 환자군을 나누는 바이오마커를 선정하는 바이오마커 선정부를 포함하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템.
  2. 제1항에 있어서,
    상기 바이오마커를 기준으로 고발현 환자군 또는 저발현 환자군에서 상기 예후 연관성 값으로 신규 표적 단백질을 선정하는 신규 표적 단백질 선정부를 더 포함하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템.
  3. 제1항에 있어서,
    상기 예후 연관성 값은 환자의 예후 데이터인 유전자 발현양, 질병 재발 기간, 질병 재발 여부에 의해 계산되는 것을 특징으로 하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템.
  4. 제1항에 있어서,
    상기 고발현 환자군과 상기 저발현 환자군을 나누는 기준 발현값은 환자군의 평균값 또는 스텝마이너 알고리즘에 의해 수행되는 것을 특징으로 하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템.
  5. 제1항에 있어서,
    상기 예후 연관성 값은 로그검정 순위법(log-rank test), 콕스 해저드 비율(Cox hazard ratio), 또는 환자 나열법에 의한 로그검정 순위법 중 어느 하나에 의해 생성되는 것을 특징으로 하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템.
  6. 제1항에 있어서,
    상기 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값의 비교는 피어슨 상관 계수(Pearson's correlation coefficient), 유클리디언 거리(Eucledian distance), 마할라노비스 거리(Mahalanobis distance), 타니모토 계수(Tanimoto coefficient) 중 어느 하나에 의해 수행되는 것을 특징으로 하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템.
  7. 환자군 분류부에서 단일 유전자를 특정하고, 상기 단일 유전자의 발현양에 따라 고발현 환자군과 저발현 환자군을 나누는 제1 단계;
    예후 연관성 산출부에서 상기 고발현 환자군과 상기 저발현 환자군에서 모든 유전자의 예후 연관성 값을 계산하는 제2 단계;
    예후 연관성 비교부에서 모든 유전자에 대해 상기 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값을 비교하는 제3 단계; 및
    바이오마커 선정부에서 상기 예후 연관성 값의 비교로부터 환자군을 나누는 바이오마커를 선정하는 제4 단계를 포함하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법.
  8. 제7항에 있어서,
    신규 표적 단백질 선정부에서 상기 바이오마커를 기준으로 고발현 환자군 또는 저발현 환자군에서 상기 예후 연관성 값으로 신규 표적 단백질을 선정하는 제5단계를 더 포함하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법.
  9. 제7항에 있어서,
    상기 예후 연관성 값은 환자의 예후 데이터인 유전자 발현양, 질병 재발 기간, 질병 재발 여부에 의해 계산되는 것을 특징으로 하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법.
  10. 제7항에 있어서,
    상기 고발현 환자군과 상기 저발현 환자군을 나누는 기준 발현값은 환자군의 평균값 또는 스텝마이너 알고리즘에 의해 수행되는 것을 특징으로 하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법.
  11. 제7항에 있어서,
    상기 예후 연관성 값은 로그검정 순위법(log-rank test), Cox hazard ratio, 또는 환자 나열법에 의한 로그검정 순위법 중 어느 하나에 의해 생성되는 것을 특징으로 하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법.
  12. 제7항에 있어서,
    상기 고발현 환자군의 예후 연관성 값과 상기 저발현 환자군의 예후 연관성 값의 비교는 피어슨 상관 계수(Pearson's correlation coefficient), 유클리디언 거리(Eucledian distance), 마할라노비스 거리(Mahalanobis distance), 타니모토 계수(Tanimoto coefficient) 중 어느 하나에 의해 수행되는 것을 특징으로 하는 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 방법.
PCT/KR2019/010563 2018-11-30 2019-08-20 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템 및 방법 WO2020111451A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/309,478 US20220056525A1 (en) 2018-11-30 2019-08-20 Systen and method for discoverig novel target protein and companion diagnostic biomarker therefor
JP2021530300A JP7223455B2 (ja) 2018-11-30 2019-08-20 新規の標的タンパク質と、それに関する同伴診断バイオマーカーの発掘システム及び方法
EP19888541.0A EP3893242A4 (en) 2018-11-30 2019-08-20 NOVEL TARGET PROTEIN AND COMPANION DIAGNOSTIC BIOMARKER DISCOVERY SYSTEM AND METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0151779 2018-11-30
KR1020180151779A KR102234904B1 (ko) 2018-11-30 2018-11-30 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2020111451A1 true WO2020111451A1 (ko) 2020-06-04

Family

ID=70852835

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/010563 WO2020111451A1 (ko) 2018-11-30 2019-08-20 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템 및 방법

Country Status (5)

Country Link
US (1) US20220056525A1 (ko)
EP (1) EP3893242A4 (ko)
JP (1) JP7223455B2 (ko)
KR (1) KR102234904B1 (ko)
WO (1) WO2020111451A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240006270A (ko) * 2022-07-06 2024-01-15 울산과학기술원 지방간 질환 진단을 위한 바이오마커 발굴 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005270093A (ja) * 2004-02-24 2005-10-06 Nippon Medical School 乳癌の術後予後予測に関与する遺伝子
KR20120079295A (ko) * 2011-01-04 2012-07-12 주식회사 젠큐릭스 초기유방암의 예후 예측용 유전자 및 이를 이용한 초기유방암의 예후예측 방법
KR20160086145A (ko) * 2015-01-09 2016-07-19 순천대학교 산학협력단 유방암의 예후 예측용 유전자 선별방법
KR20170047037A (ko) * 2015-10-22 2017-05-04 한국과학기술원 임상 및 바이오 정보 통합 질병 예후예측 시스템 및 방법
KR20180038346A (ko) * 2016-10-06 2018-04-16 광주과학기술원 유전자 발현 데이터를 통한 유방암 환자 예후 판단 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101403804B1 (ko) 2012-08-08 2014-06-03 한양대학교 산학협력단 편광민감 광간섭성 단층 촬영 시스템
KR20170032892A (ko) * 2017-03-13 2017-03-23 순천대학교 산학협력단 난소암의 예후 예측용 유전자 선별방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005270093A (ja) * 2004-02-24 2005-10-06 Nippon Medical School 乳癌の術後予後予測に関与する遺伝子
KR20120079295A (ko) * 2011-01-04 2012-07-12 주식회사 젠큐릭스 초기유방암의 예후 예측용 유전자 및 이를 이용한 초기유방암의 예후예측 방법
KR20160086145A (ko) * 2015-01-09 2016-07-19 순천대학교 산학협력단 유방암의 예후 예측용 유전자 선별방법
KR20170047037A (ko) * 2015-10-22 2017-05-04 한국과학기술원 임상 및 바이오 정보 통합 질병 예후예측 시스템 및 방법
KR20180038346A (ko) * 2016-10-06 2018-04-16 광주과학기술원 유전자 발현 데이터를 통한 유방암 환자 예후 판단 방법

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
CHEN DTDAVIS-YADLEY AHHUANG PYHUSAIN K ET AL.: "Prognostic Fifteen-Gene Signature for Early Stage Pancreatic Ductal Adenocarcinoma", PLOS ONE, vol. 10, no. 8, 2015, pages e0133562
COLLISSON EASADANANDAM AOLSON PGIBB WJ ET AL.: "Subtypes of pancreatic ductal adenocarcinoma and their differing responses to therapy", NAT MED, vol. 17, no. 4, April 2011 (2011-04-01), pages 500 - 3, XP055089296, DOI: 10.1038/nm.2344
J EVOL BIOL, vol. 24, no. 8, 23 May 2011 (2011-05-23), pages 1836 - 41
KIRBY MKRAMAKER RCGERTZ JDAVIS NS ET AL.: "RNA sequencing of pancreatic adenocarcinoma tumors yields novel expression patterns associated with long-term survival and reveals a role for ANGPTL4", MOL ONCOL, vol. 10, no. 8, October 2016 (2016-10-01), pages 1169 - 82, XP029727541, DOI: 10.1016/j.molonc.2016.05.004
MOFFITT RAMARAYATI RFLATE ELVOLMAR KE ET AL.: "Virtual microdissection identifies distinct tumor- and stroma-specific subtypes of pancreatic ductal adenocarcinoma", NAT GENET, vol. 47, no. 10, October 2015 (2015-10-01), pages 1168 - 78
See also references of EP3893242A4
STRATFORD JKBENTREM DJANDERSON JMFAN C ET AL.: "A six-gene signature predicts survival of patients with localized pancreatic ductal adenocarcinoma", PLOS MED, vol. 7, no. 7, 13 July 2010 (2010-07-13), pages eI000307, XP055048507, DOI: 10.1371/journal.pmed.1000307
WOOGWANG SIMJUNGSUL LEECHULHEE CHOI: "Scientific Reports", vol. 7, 2017
YANG SHE PWANG JSCHETTER A ET AL.: "A Novel MIF Signaling Pathway Drives the Malignant Character of Pancreatic Cancer by Targeting NR3C2", CANCER RES, vol. 76, no. 13, 1 July 2016 (2016-07-01), pages 3838 - 50

Also Published As

Publication number Publication date
EP3893242A4 (en) 2022-08-24
EP3893242A1 (en) 2021-10-13
US20220056525A1 (en) 2022-02-24
KR102234904B1 (ko) 2021-04-01
JP2022518660A (ja) 2022-03-16
JP7223455B2 (ja) 2023-02-16
KR20200065385A (ko) 2020-06-09

Similar Documents

Publication Publication Date Title
Martini et al. African ancestry–associated gene expression profiles in triple-negative breast cancer underlie altered tumor biology and clinical outcome in women of African descent
Miroshnychenko et al. Spontaneous cell fusions as a mechanism of parasexual recombination in tumour cell populations
Zhu et al. Immune gene expression profiling reveals heterogeneity in luminal breast tumors
Hall et al. Bivalent chromatin domains in glioblastoma reveal a subtype-specific signature of glioma stem cells
Baudot et al. Mutated genes, pathways and processes in tumours
Yang et al. Identification of hub genes and outcome in colon cancer based on bioinformatics analysis
Du et al. Next‐generation sequencing unravels extensive genetic alteration in recurrent ovarian cancer and unique genetic changes in drug‐resistant recurrent ovarian cancer
Zheng et al. Integrated multi-omics analysis of genomics, epigenomics, and transcriptomics in ovarian carcinoma
Zhao et al. Identification of differentially expressed metastatic genes and their signatures to predict the overall survival of uveal melanoma patients by bioinformatics analysis
Thu et al. A comprehensively characterized cell line panel highly representative of clinical ovarian high-grade serous carcinomas
Lyskjær et al. H3K27me3 expression and methylation status in histological variants of malignant peripheral nerve sheath tumours
Salari et al. Inference of tumor phylogenies with improved somatic mutation discovery
Han et al. A novel defined hypoxia-related gene signature to predict the prognosis of oral squamous cell carcinoma
WO2020111451A1 (ko) 신규 표적 단백질과 그에 대한 동반진단 바이오마커 발굴 시스템 및 방법
Chen et al. DNA microarray-based screening of differentially expressed genes related to acute lung injury and functional analysis.
Karlsson et al. Experimental evolution in TP53 deficient human gastric organoids recapitulates tumorigenesis
Jia et al. Subclones of bone marrow CD34+ cells in acute myeloid leukemia at diagnosis confer responses of patients to induction chemotherapy
Zhang et al. Identification of five cytotoxicity-related genes involved in the progression of triple-negative breast cancer
Mansur et al. The genomic landscape of teenage and young adult T‐cell acute lymphoblastic leukemia
Yan et al. Specific MiRNAs in naïve T cells associated with hepatitis C virus-induced hepatocellular carcinoma
Fuzo et al. The turning point of COVID‐19 severity is associated with a unique circulating neutrophil gene signature
Wu et al. Identification of subtype specific biomarkers of clear cell renal cell carcinoma using random forest and greedy algorithm
Avagyan et al. Subtyping or not subtyping—Quo vadis for precision medicine of colorectal cancer
WO2018199627A1 (ko) 암 유전체 염기서열 변이, 전사체 발현 및 환자 생존 정보를 이용한 맞춤형 항암 치료 방법 및 시스템
Firoozbakht et al. An integrative approach for identifying network biomarkers of breast cancer subtypes using genomic, interactomic, and transcriptomic data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19888541

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021530300

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019888541

Country of ref document: EP

Effective date: 20210630