KR20220060198A - 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법 - Google Patents

유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법 Download PDF

Info

Publication number
KR20220060198A
KR20220060198A KR1020200145902A KR20200145902A KR20220060198A KR 20220060198 A KR20220060198 A KR 20220060198A KR 1020200145902 A KR1020200145902 A KR 1020200145902A KR 20200145902 A KR20200145902 A KR 20200145902A KR 20220060198 A KR20220060198 A KR 20220060198A
Authority
KR
South Korea
Prior art keywords
gene
copy number
pancreatic cancer
survival prognosis
value
Prior art date
Application number
KR1020200145902A
Other languages
English (en)
Inventor
공선영
한성식
우상명
김민경
기창석
조은해
이태림
Original Assignee
국립암센터
주식회사 지씨지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국립암센터, 주식회사 지씨지놈 filed Critical 국립암센터
Priority to KR1020200145902A priority Critical patent/KR20220060198A/ko
Priority to PCT/KR2021/001162 priority patent/WO2022097844A1/ko
Publication of KR20220060198A publication Critical patent/KR20220060198A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2531/00Reactions of nucleic acids characterised by
    • C12Q2531/10Reactions of nucleic acids characterised by the purpose being amplify/increase the copy number of target nucleic acid
    • C12Q2531/107Probe or oligonucleotide ligation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/16Assays for determining copy number or wherein the copy number is of special importance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/159Microreactors, e.g. emulsion PCR or sequencing, droplet PCR, microcapsules, i.e. non-liquid containers with a range of different permeability's for different reaction components
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development

Abstract

본 발명은 췌장암 환자의 생존 예후를 예측하기 위한 정보제공 방법에 관한 것으로, 구체적으로는 췌장암에 특이적인 유전자 변이, 특히 유전자의 복제수 변이(CNV: copy number variation)를 이용하는 것을 특징으로 하는 췌장암 환자의 생존 예후를 예측하기 위한 정보제공 방법 및 그 용도에 관한 것이다. 본 발명에 따른 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법은 췌장암 생존 예후 특이적 유전자에 대한 복제수 변이를 기반으로 생존 예후를 예측하기 때문에 정확도가 높아 치료효과 및 생존 예후 예측과 관련된 활용도를 높일 수 있을 뿐만 아니라, 전장 유전체 시퀀싱이 필요 없으므로 속도가 빨라 유용하다.

Description

유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법 {Method for Predicting Survival Prognosis of Pancreatic Cancer Patients Using Gene Copy Number Variation Profile}
본 발명은 췌장암 환자의 생존 예후를 예측하기 위한 정보제공 방법에 관한 것으로, 구체적으로는 췌장암에 특이적인 유전자 변이, 특히 유전자의 복제수 변이(CNV: copy number variation)를 이용하는 것을 특징으로 하는 췌장암 환자의 생존 예후를 예측하기 위한 정보제공 방법 및 그 용도에 관한 것이다.
췌장은 위장의 뒤쪽, 몸의 가운데에 있으며 길이가 20cm 정도로 길다. 위, 십이지장, 소장, 대장, 간, 담낭, 비장 등의 장기에 둘러싸여 있다. 전체 길이는 약 15 내지 20 cm, 무게는 100g 정도이고, 두부(頭部), 체부(體部), 미부(尾部)로 구분된다. 췌장은 섭취한 음식물 중의 탄수화물, 지방, 단백질을 분해하는 소화 효소를 분비하는 외분비 기능과 혈당을 조절하는 인슐린과 글루카곤 등의 호르몬을 분비하는 내분비 기능을 갖는다.
췌장암(pancreatic cancer)이란 췌장에 생긴 암세포로 이루어진 종괴(종양덩어리)이다. 췌장암에는 여러 가지 종류가 있는데 췌관세포에서 발생한 췌관 선암종이 90% 정도를 차지하고 있어 일반적으로 췌장암이라고 하면 췌관 선암종을 말한다. 그 외에 낭종성암(낭선암), 내분비종양 등이 있다.
췌장암은 특별한 초기 증상이 없기 때문에, 조기발견하기 어렵다. 식욕이 떨어지거나, 체중감소 등이 나타나지만 췌장암의 특징적인 증상이 아니라 다른 질환에서도 충분히 나타날 수 있다.
또한 췌장은 두께가 2 cm 정도로 얇으며 피막만으로 싸여 있는데다가 소장에 산소를 공급하는 상장간막 동맥과 장에서 흡수한 영양분을 간으로 운반하는 간문맥 등과 밀착되어 있어 암의 침윤이 쉽게 일어난다. 또한 췌장 후면의 신경 다발과 임파선에도 조기에 전이가 발생하는 특징이 있다. 특히 췌장 암세포는 성장 속도가 빠르다.
췌장암(Pancreatic cancer)은 세계에서 14번째로 다발하는 암으로서, 그 발병 빈도가 현저히 증가하고 있으며, 미국에서는 암으로 인한 사망의 주요 원인 중 4위에 해당한다. 췌장암은 초기 증상이 특이적이지 않으며, 이미 전신 전이가 일어난 후에 쇠약, 식욕감퇴, 체중감소 등의 임상증상이 발생하므로 정기적인 진단이 필요하다.
췌장암은 1 내지 4%의 환자만이 수술 후 5년의 생존율을 보이며, 중앙 생존기간이 5개월에 이를 정도로 예후가 불량하다. 80 내지 90%의 환자가 진단 시 완치를 기대하는 근치적 절제가 불가능한 상태에서 발견되기 때문에, 치료는 주로 항암 요법에 의존하고 있다. 현재까지 췌장암에 효과가 있다고 알려진 항암제는 5-플루오로유라실, 젬시타빈(gemcitabine), 타르세바(tarceva) 등이 있으나 효과가 지극히 저조하여 반응율이 15% 내외에 불과하다. 따라서 췌장암 환자의 예후를 향상시키기 위해 보다 효과적인 조기 진단법 및 치료법의 개발이 절실하다.
한편, 염색체의 일부가 결핍 또는 중복되어 나타나는 DNA 복제수 변이(CNVs)를 포함한 염색체 이상을 확인하기 위해 핵형분석, 형광동소보합법, 염색체 마이크로어레이, NGS기반의 스크리닝 검사와 같이 다양한 검사가 이루어지고 있다(Capalbo A, et al., Hum Reprod. Vol. 32(3), pp. 492-498, 2017). 핵형분석은 다른 검사들에 비해 5Mb 정도의 낮은 해상도를 보이며 그보다 작은 크기의 염색체 결실/중복은 검출이 불가능하다. 5Mb 미만의 작은 크기의 염색체 결실 및 중복을 미세결실/중복이라고 하며, 단일유전자에 의한 질환 중 미세결실/중복에 의한 비율이 전체 변이의 15%에 해당한다(Vissers LE, et al., Hum Mol Genet. Vol. 15;14 Spec No. 2:R215-23., 2005).
이러한 미세결실/중복을 검출하기 위하여 특정 염기서열에 상보적인 탐침자를 활용한 형광동소보합법(FISH)과 염색체 마이크로어레이 검사가 이루어지고 있다. 형광동소보합법은 확인하려는 염기서열에 상보적인 탐침자에 형광라벨을 붙여 염색체 내에 특정 염기서열의 여부를 확인하는 검사법이다. 100kb-1Mb의 해상도를 보이기 때문에 미세결실/중복의 검출이 가능하지만 탐침자 서열에 상보적인 부분만 확인이 가능하기 때문에 기존에 알려진 변이에 대해서만 검출이 가능하다는 단점이 있다.
현재 염색체 미세결실/중복을 확인하는 가장 일반적인 검사법으로 마이크로어레이를 기반으로 하는 비교유전체혼성화법(aCGH)이 활용되고 있다(Russo CD, et al., Cancer Discov. Vol. 4(1), pp. 19-21, 2014). 마이크로어레이를 통해 검출 가능한 CNV의 크기는 탐침자의 밀도에 의해 결정되며 대략 50kb 크기의 CNV까지 검출이 가능하다. 하지만 전좌 또는 역위와 같이 염색체 재배열에 의한 염색체 이상은 검출이 불가능하다.
차세대염기서열분석법(NGS)은 염색체를 작은 조각으로 나누고 각 조각의 유전정보를 병렬적으로 분석하는 염기서열분석법이다. NGS는 유전자분석 기술이 발전하면서 상대적으로 검사의 소요시간과 비용이 적고 단일염기 다형성(SNP), 삽입-결실(INDELs)까지 검출 가능한 높은 해상도 때문에 신생아의 유전성 질환 선별검사로 활용되고 있다. 그러나 염색체를 작게 나누어 분석하는 NGS의 원리적 특성상 큰 규모의 염색체의 구조적 변이나 CNVs을 검출하는데 기술적 한계가 있다(Yohe S, Thyagarajan B., Arch Pathol Lab Med. Vol. 141(11), pp. 1544-1557, 2017.).
하지만 NGS는 탐침자를 기반으로 하는 마이크로어레이에서 검출할 수 없는 염색체 재배열에 의한 염색체 이상과 기존에 알려지지 않은 새로운 CNV의 검출이 가능하다(Talkowski ME, et al., Am J Hum Genet. Vol. 88(4), pp. 469-81, 2011). 또한 염색체를 작게 조각 내어 염기서열을 분석하는 특성으로 마이크로어레이 보다 더 높은 coverage와 해상도를 보이고 염색체 이상이 시작되는 구획점(breakpoint) 검출이 가능하다는 장점이 있다(Zhao M, et al., BMC Bioinformatics. Vol. 14, Suppl 11:S1, 2013).
한편, 핵산 복제수 변이(DNA Copy Number Variation, CNV)는 게놈의 특정 영역이 삭제(Deletion)되거나 증폭(Amplification)되는 현상을 의미하는데, 예를 들어, A-B-C-D-E-F-G 형태를 갖는 게놈이 있을 때 이 게놈에서의 복제 수 변이의 모습은 아래와 같을 수 있다.
1. A-B-E-F-G (-C-D- 영역 Deletion)
2. A-B-C-D-D-D-D-D-E-F-G (-D- 영역 Amplification)
Deletion 변이를 갖는 사람의 핵산 단편 데이터를 휴먼 참조 염색체에 정렬할 경우, 해당 변이 영역에서 변이가 없는 사람 대비 적은 양의 핵산 단편이 획득되고(복제수 감소), 같은 논리로 Amplification 변이를 갖는 사람의 핵산 단편 데이터를 참조 염색체에 정렬할 경우, 해당 변이 영역에서 변이가 없는 사람 대비 많은 양의 핵산 단편이 획득된다(복제수 증가).
이러한 핵산 복제수 변이는 다양한 방법으로 췌장암 예후에 영향을 미칠 수 있는데, 예를 들어 암 유발 유전자(oncogene), 원암 유전자(proto-oncogene) 등의 복제수 증가로 인한 유전자 발현양 증가, 암 억제 유전자(tumor suppressor gene)에서의 복제수 감소로 인한 유전자 발현양 감소 또는 기타 유전자들의 복제수 변이로 인한 유전자 발현양 변화 등에 따라 췌장암의 예후에 좋거나 나쁜 영향을 미치는 것으로 알려져 있다.
최근에는 LYRM1, KNTC1, IGF2BP2 및 CDC6 유전자의 발현 양상이 췌장암의 생존 예후와 관련이 있다는 사실이 보고되었다(Xiaokai Yan et al., Cancer Manag Res., Vol. 11, pp. 273-283, 2019).
하지만 아직까지 췌장암 특이적인 유전자 변이, 특히 유전자 복제수 변이를 기반으로 하는 높은 정확도와 민감도로 췌장암 환자의 생존 예후를 예측하는 방법은 알려져 있지 않은 상황으로, 이러한 기술에 대한 수요가 절실한 상황이다.
이러한 기술배경 하에, 본 발명자들은 복제수 변이 기반의 췌장암 환자의 생존 예후 예측 방법을 개발하기 위해 예의 노력한 결과, 특정 유전자에서의 복제수 변이 유무가 췌장암 환자의 생존 예후와 밀접하게 관련된다는 사실을 규명하고, 이를 이용함으로써 췌장암 환자의 예후, 특히 생존 예후를 정확히 예측할 수 있음을 확인하고, 본 발명을 완성하였다.
본 발명의 목적은 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법을 제공하는 것이다.
본 발명의 다른 목적은 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법으로 췌장암 환자의 생존 예후 예측을 위한 정보를 제공하며, 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 기록매체를 제공하는 것이다.
본 발명의 또 다른 목적은 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법에 이용되는 표적 핵산 증폭용 키트를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 ABHD6, ACVR2B, ADCY8, ARHGEF10, ATF6, ATP13A4, BCAT1, BCL2, BMP1, C8orf12, C9orf92, CASC1, CCBE1, CDCP1, CDKN2A, CSGALNACT1, DLGAP2, DMRT1, DOCK5, DPYSL2, ERICH1-AS1, FAM135B, FAM49B, FER1L6, FLNB, GATA4, GLDC, GLIS3, GSDMC, IFLTD1, ISPD-AS1, ITPR2, KANK1, KCNMB2, KHDRBS3, KIAA0196, KRAS, LARS2-AS1, LINC00477, LINC00578, LINC00639, LMLN, LOC100128993, LINC02052, LRMP, LRRC6, LTF, MAP4, MCPH1, MFHAS1, NAALADL2, NIN, NXPH1, OPA1, PEBP4, PHF20L1, PHLPP1, PSD3, RASSF8, RPA3-AS1, SERPINB5, SFMBT1, SGK223, SLC38A3, SMARCA2, SOX5, SQLE, TATDN1, TBL1XR1, THSD7A, TMEM110, TMEM110-MUSTN1, TMEM196, TMEM65, TMEM71, ZFP30, ZNF569, ZNF577 및 ZNF583로 구성된 군에서 선택되는 1종 이상의 유전자의 복제수 변이(CNV : copy number variation) 정보를 이용, 구체적으로는 상기 유전자의 복제수 변이를 검출하는 단계를 포함하는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보제공 방법을 제공한다.
또한 본 발명은 상기 췌장암 환자의 생존 예후 예측을 위한 정보제공 방법에 이용되는 정보제공 장치 및 상기 정보제공 방법을 수행하기 위한 명령을 포함하는 컴퓨터 판독 가능한 기록매체를 제공한다.
또한 본 발명은 상기 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법에 이용되는 표적 핵산 증폭용 키트로서, 상기 키트는 상기 유전자에 특이적으로 결합하는 프로브; 또는 상기 유전자를 증폭하는 프라이머를 포함하는 것을 특징으로 하는 표적 핵산 증폭용 키트를 제공한다.
본 발명에 따른 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법은 췌장암 생존 예후 특이적 유전자에 대한 복제수 변이를 기반으로 생존 예후를 예측하기 때문에 정확도가 높아 치료효과 및 생존 예후 예측과 관련된 활용도를 높일 수 있을 뿐만 아니라, 전장 유전체 시퀀싱이 필요 없으므로 속도가 빨라 유용하다.
도 1은 본 발명의 췌장암 환자의 생존 예후를 예측하기 위한 정보 제공 방법의 전체 흐름도이다.
도 2는 본 발명에 따른 CBS 알고리즘을 적용하여 복제수 변이를 검출한 결과의 예시로서, A로 표기된 부분은 Amplification segment의 예시이고, B로 표기된 부분은 Deletion segment의 예시이며, 이어져 있는 붉은 선은 하나의 segment를 의미한다.
도 3은 본 발명에 따른 GISTIC 분석에 의해 도출한 Amplification segment를 나타낸 결과로서, 아래쪽 X 축 값은 False Discovery Rate (FDR) - adjusted p value (Q value) 값을 나타내고, 위쪽 X 축은 GISTIC 분석에서 계산된 G-score 값(췌장암 환자 315명에서 관찰되는 CNV의 빈도 및 세기를 계산한 값)을 나타내며, y 축은 염색체 번호를 의미한다.
도 4는 본 발명에 따른 GISTIC 분석에 의해 도출한 Deletion segment를 나타낸 결과로서, 아래쪽 X 축 값은 False Discovery Rate (FDR) - adjusted p value (Q value) 값을 나타내고, 위쪽 X 축은 GISTIC 분석에서 계산된 G-score 값(췌장암 환자 315명에서 관찰되는 CNV의 빈도 및 세기를 계산한 값)을 나타내며, y 축은 염색체 번호를 의미한다.
도 5는 본 발명에 따른 GISTIC 분석에 의해 유전자를 그룹핑하는 방법의 일예시로서, (A)는 각 샘플 별 유전자의 Z값을 나타낸 것이며, (B)는 본 발명의 기준에 따라 각 샘플 별로 유전자를 그룹핑한 결과이다.
도 6은 본 발명의 일 실시예에 따른 Kaplan-Meier(K-M) 분석에 의해 도출된 유전자의 개수를 나타낸 그래프이다.
도 7은 본 발명의 일 실시예에 따른 각 세트별 GSS_All 또는 GSS_TopN의 K-M 생존분석에서 도출한 p-value 값을 비교한 그래프이다.
도 8은 본 발명의 일 실시예에 따른 각 세트별 TopN 유전자의 벤다이어 그램이다.
도 9는 본 발명의 일 실시예에 따라 선별한 79개의 유전자를 사용하여 TCGA 데이터베이스에서 수득한 췌장암 환자 183명의 생존 예후를 GSS_79로 분석한 결과이다.
도 10은 본 발명의 일 실시예에 따른 TCGA 데이터베이스의 췌장암 환자데이터에서 GSS_10의 생존 예후 예측 성능을 분석한 결과이다.
도 11은 본 발명의 일 실시예에 따른 TCGA 데이터베이스의 췌장암 환자데이터에서 GSS_8의 생존 예후 예측 성능을 분석한 결과이다.
도 12는 본 발명의 일 실시예에 따른 TCGA 데이터베이스의 췌장암 환자 데이터에서 분석한 GSS_79, GSS_10 및 GSS_8의 예후 예측 성능을 정리한 것이다.
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
또한 본 발명에 따른 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 췌장암에 특이적인 유전자 변이, 특히 유전자의 복제수 변이(CNV: copy number variation)를 이용하는 것을 특징으로 하는 췌장암 환자의 예후, 특히 생존 예후를 예측하기 위한 정보제공 방법 및 그 용도에 대한 것이다.
구체적으로 본 발명은 ABHD6, ACVR2B, ADCY8, ARHGEF10, ATF6, ATP13A4, BCAT1, BCL2, BMP1, C8orf12, C9orf92, CASC1, CCBE1, CDCP1, CDKN2A, CSGALNACT1, DLGAP2, DMRT1, DOCK5, DPYSL2, ERICH1-AS1, FAM135B, FAM49B, FER1L6, FLNB, GATA4, GLDC, GLIS3, GSDMC, IFLTD1, ISPD-AS1, ITPR2, KANK1, KCNMB2, KHDRBS3, KIAA0196, KRAS, LARS2-AS1, LINC00477, LINC00578, LINC00639, LMLN, LOC100128993, LINC02052, LRMP, LRRC6, LTF, MAP4, MCPH1, MFHAS1, NAALADL2, NIN, NXPH1, OPA1, PEBP4, PHF20L1, PHLPP1, PSD3, RASSF8, RPA3-AS1, SERPINB5, SFMBT1, SGK223, SLC38A3, SMARCA2, SOX5, SQLE, TATDN1, TBL1XR1, THSD7A, TMEM110, TMEM110-MUSTN1, TMEM196, TMEM65, TMEM71, ZFP30, ZNF569, ZNF577 및 ZNF5833로 구성된 군에서 선택되는 1종 이상, 바람직하게는 2종 이상, 더욱 바람직하게는 5종 이상, 가장 바람직하게는 8종 이상의 유전자의 복제수 변이를 검출하는 단계를 포함하는 것을 특징으로 하는 췌장암 환자의 예후, 특히 생존 예후 예측을 위한 정보제공 방법에 대한 것이다.
본 발명에 따른 유전자 복제수 변이를 통한 췌장암 환자의 예후, 특히 생존 예후 예측을 위한 정보제공 방법에 이용되는 유전자들의 구체적인 정보는 표 1에 기재된 바와 같다.
췌장암 환자 예후 예측을 위한 유전자들의 구체적인 정보
Genes Chromosome & position type
KANK1 chr9_470293_746106 Del
ABHD6 chr3_58223258_58280461 Del
CASC1 chr12_25261222_25348094 Amp
TATDN1 chr8_125500734_125551329 Amp
SOX5 chr12_23685230_24715383 Amp
FAM49B chr8_130851838_131028897 Amp
LINC00477 chr12_24719897_24737102 Amp
MCPH1 chr8_6264112_6501140 Del
LRMP chr12_25205180_25261269 Amp
BCAT1 chr12_24962957_25102393 Amp
RPA3-AS1 chr7_7680341_7918851 Amp
LINC00578 chr3_177159708_177470492 Amp
KRAS chr12_25358179_25403854 Amp
DMRT1 chr9_841689_969090 Del
PHF20L1 chr8_133787603_133861052 Amp
TMEM65 chr8_125323158_125384940 Amp
RASSF8 chr12_26111963_26232825 Amp
ITPR2 chr12_26488284_26986131 Amp
NXPH1 chr7_8473584_8792593 Amp
GLIS3 chr9_3824127_4300035 Del
MAP4 chr3_47892179_48130769 Del
BCL2 chr18_60790578_60986613 Del
GSDMC chr8_130760441_130799134 Amp
PSD3 chr8_18384812_18871196 Del
ERICH1-AS1 chr8_687586_1087777 Del
CCBE1 chr18_57098170_57364644 Del
KCNMB2 chr3_178254085_178562217 Amp
NIN chr14_51186480_51297839 Amp
KIAA0196 chr8_126036502_126104061 Amp
ARHGEF10 chr8_1772148_1906807 Del
ACVR2B chr3_38495789_38534633 Del
PEBP4 chr8_22570764_22785421 Del
SFMBT1 chr3_52937582_53080089 Del
SERPINB5 chr18_61144143_61172318 Del
ATF6 chr1_161736033_161933860 Amp
ZNF577 chr19_52359055_52391229 Amp
GATA4 chr8_11561716_11617509 Del
BMP1 chr8_22022652_22069840 Del
LTF chr3_46477495_46506598 Del
IFLTD1 chr12_25629015_25801496 Amp
LRRC6 chr8_133584200_133687863 Amp
ATP13A4 chr3_193119865_193272696 Amp
CDCP1 chr3_45123765_45187914 Del
TBL1XR1 chr3_176738541_176915048 Amp
ISPD-AS1 chr7_16250110_16310229 Amp
NAALADL2 chr3_174577110_175523428 Amp
THSD7A chr7_11410061_11871824 Amp
KHDRBS3 chr8_136469715_136659848 Amp
DPYSL2 chr8_26371708_26515693 Del
CSGALNACT1 chr8_19261671_19540261 Del
TMEM196 chr7_19758937_19812404 Amp
LINC02052 chr3_186172769_186211450 Amp
LOC100128993 chr8_19041185_19103032 Del
ZFP30 chr19_38123388_38146313 Amp
TMEM71 chr8_133722191_133772914 Amp
SMARCA2 chr9_2015341_2193623 Del
FER1L6 chr8_124864226_125132302 Amp
PHLPP1 chr18_60382671_60647676 Del
OPA1 chr3_193310932_193415600 Amp
TMEM110-MUSTN1 chr3_52867130_52931597 Del
GLDC chr9_6532463_6645692 Del
DOCK5 chr8_25042286_25270619 Del
TMEM110 chr3_52870771_52931597 Del
ZNF569 chr19_37902059_37958339 Amp
ADCY8 chr8_131792546_132052835 Amp
DLGAP2 chr8_1449531_1656642 Del
C8orf12 chr8_11225910_11296166 Del
FAM135B chr8_139142265_139509065 Amp
C9orf92 chr9_16203932_16276311 Del
LMLN chr3_197687070_197770591 Amp
SLC38A3 chr3_50242691_50258406 Del
LARS2-AS1 chr3_45524186_45551037 Del
SQLE chr8_126010719_126034525 Amp
CDKN2A chr9_21967750_21994490 Del
MFHAS1 chr8_8641998_8751131 Del
LINC00639 chr14_39218542_39386086 Amp
ZNF583 chr19_56915382_56936400 Amp
FLNB chr3_57994126_58157982 Del
SGK223 chr8_8175257_8239257 Del
바람직하게는 본 발명에 따른 유전자 복제수 변이 검출을 통한 췌장암 환자의 예후, 특히 생존 예후 예측을 위한 정보제공 방법에 있어, 상기 유전자 복제수 변이 검출을 위한 유전자는 ABHD6, CASC1, FAM49B, KANK1, LINC00477, MCPH1, SOX5 및 TATDN1으로 구성된 군에서 선택되는 1종 이상, 바람직하게는 2종 이상, 더욱 바람직하게는 5종 이상, 가장 바람직하게는 8종 모두를 포함하는 것을 특징으로 하며,
추가적으로 ACVR2B, ADCY8, ARHGEF10, ATF6, ATP13A4, BCAT1, BCL2, BMP1, C8orf12, C9orf92, CCBE1, CDCP1, CDKN2A, CSGALNACT1, DLGAP2, DMRT1, DOCK5, DPYSL2, ERICH1-AS1, FAM135B, FER1L6, FLNB, GATA4, GLDC, GLIS3, GSDMC, IFLTD1, ISPD-AS1, ITPR2, KCNMB2, KHDRBS3, KIAA0196, KRAS, LARS2-AS1, LINC00578, LINC00639, LMLN, LOC100128993, LINC02052, LRMP, LRRC6, LTF, MAP4, MFHAS1, NAALADL2, NIN, NXPH1, OPA1, PEBP4, PHF20L1, PHLPP1, PSD3, RASSF8, RPA3-AS1, SERPINB5, SFMBT1, SGK223, SLC38A3, SMARCA2, SQLE, TBL1XR1, THSD7A, TMEM110, TMEM110-MUSTN1, TMEM196, TMEM65, TMEM71, ZFP30, ZNF569, ZNF577 및 ZNF583으로 구성된 군에서 선택되는 1종 이상을 포함하는 것을 특징으로 한다.
가장 바람직하게는 ABHD6, CASC1, FAM49B, KANK1, LINC00477, MCPH1, SOX5 및 TATDN1의 8종의 유전자와, KRAS 및 CDKN2A를 포함할 수 있지만, 이에 한정되는 것은 아니다.
본 발명은 일 관점에서,
(1) ABHD6, ACVR2B, ADCY8, ARHGEF10, ATF6, ATP13A4, BCAT1, BCL2, BMP1, C8orf12, C9orf92, CASC1, CCBE1, CDCP1, CDKN2A, CSGALNACT1, DLGAP2, DMRT1, DOCK5, DPYSL2, ERICH1-AS1, FAM135B, FAM49B, FER1L6, FLNB, GATA4, GLDC, GLIS3, GSDMC, IFLTD1, ISPD-AS1, ITPR2, KANK1, KCNMB2, KHDRBS3, KIAA0196, KRAS, LARS2-AS1, LINC00477, LINC00578, LINC00639, LMLN, LOC100128993, LINC02052, LRMP, LRRC6, LTF, MAP4, MCPH1, MFHAS1, NAALADL2, NIN, NXPH1, OPA1, PEBP4, PHF20L1, PHLPP1, PSD3, RASSF8, RPA3-AS1, SERPINB5, SFMBT1, SGK223, SLC38A3, SMARCA2, SOX5, SQLE, TATDN1, TBL1XR1, THSD7A, TMEM110, TMEM110-MUSTN1, TMEM196, TMEM65, TMEM71, ZFP30, ZNF569, ZNF577 및 ZNF583로 구성된 군에서 선택되는 1종 이상의 유전자의 복제수 변이(CNV: copy number variation)를 검출하고, 검출된 유전자의 복제수 변이 정도를 계량화하는 단계; 및
(2) 상기 (1) 단계에서 계량화된 유전자의 복제수 변이 정도가 정상범위(normal range)를 벗어나는 유전자의 개수가 기준값(cut-off)을 초과할 경우 췌장암 환자의 생존 예후가 나쁜 것으로 판정하는 단계;
를 포함하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법에 관한 것이다.
바람직하게는 상기 (1) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있지만, 이에 한정되는 것은 아니다.
(1-1) 생체시료에서 수득된 대상 샘플의 DNA 서열정보(reads)를 획득하는 단계;
(1-2) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스 (reference genome database)에 정렬(alignment)하는 단계;
(1-3) 상기 정렬된 서열정보(reads)의 퀄리티를 확인하는 단계; 및
(1-4) 상기 유전자의 복제수 변이를 검출하고, 복제수 변이의 정도를 계량화하는 단계
예를 들어, 상기 (1) 단계는 ddPCR (Digital Droplet Polymerase Chain Reaction) 또는 MLPA (Multiplex Ligation-dependent Probe Amplification) 방법을 이용하여 복제 수 변이를 검출할 수 있다.
ddPCR은 (약 20μl의) PCR 반응 용액을 (약 20,000 개의) 미세 방울로 (droplet) 분리시켜 타겟 DNA를 증폭시키고 그 양을 정량 하는 실험 방법으로, 실험 과정 중 droplet 안에서 타겟 DNA의 증폭 여부를 1(증폭됨), 0(증폭 안됨) 의 디지털 신호로 인식하여 계수하고, 푸아송 분포를 통해 타겟 DNA의 복제 수를 계산할 수 있다.
예를 들어 바람직하게는 상기 (1) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있지만, 이에 한정되는 것은 아니다.
(1-1) 생체시료에서 수득된 대상 샘플의 DNA를 ddPCR로 증폭하는 단계;
(1-2) 상기 유전자의 증폭 여부를 계수하는 단계; 및
(1-3) 푸아송 분포를 통해, 상기 유전자의 복제수 변이를 검출하고, 복제수 변이의 정도를 계량화하는 단계.
또한, MLPA(multiplex ligation-dependent probe Amplification)는 탐침자를 표적지에 교잡시킨 후, ligation 시키고, 그 산물을 PCR로 증폭시킴으로써 표적지의 존재 여부 또는 농도를 확인할 수 있는 방법으로, 여러 유전자들에 대한 결실 및 중복 돌연변이에 대한 탐색에 이용될 수 있다.
예를 들어 상기 (1) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있지만, 이에 한정되는 것은 아니다.
(1-1) 생체시료에서 수득된 대상 샘플의 DNA에 상기 유전자에 특이적으로 결합할 수 있는 탐침자를 처리하여 ligation 시키는 단계;
(1-2) 상기 유전자와 탐침자의 ligation 산물을 PCR로 증폭하는 단계; 및
(1-3) 증폭산물을 분석하여, 상기 유전자의 복제수 변이를 검출하고, 복제수 변이의 정도를 계량화하는 단계.
또한, 상기 (1-4) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있지만, 이에 한정되는 것은 아니다.
(a) 유전자 복제수 변이가 없는 참조 샘플의 각 유전자 구간별 리드 개수(read count)를 계수(counting)한 후, 각 유전자 구간에 정렬된 리드 개수 값을 샘플의 전체 리드 개수로 나누고, GC 함량(contents)에 의한 뎁스 바이어스(depth bias)를 보정하는 단계를 수행하여, 각 유전자 구간별 참조 샘플의 뎁스 평균(Reference_Mean_Depthgene)과 표준편차 값(Reference_SDgene)을 계산하는 단계;
(b) 상기 (1-3) 단계에서 얻어진 정렬된 대상 샘플의 각 유전자 구간별 리드 개수(read count)를 계수(counting)한 후, 각 유전자 구간에 정렬된 리드 개수 값을 샘플의 전체 리드 개수로 나누고, GC 함량(contents)에 의한 뎁스 바이어스(depth bias)를 보정하는 단계를 수행하여, 각 유전자 구간별 대상 샘플의 표준화된 뎁스(normalized depth) 값을 계산하는 단계; 및
(c) 상기 (a) 단계에서 수득된 참조 샘플의 뎁스 평균(Reference_Mean_Depthgene)과 표준편차 값(Reference_SDgene)과 (b) 단계에서 수득된 대상 샘플의 표준화된 뎁스 값(normalized depth)에 기반하여 하기 수식 1을 사용하여 정렬된 서열정보의 정규화된 유전자 구간별 Z(Zgene)값을 계산하는 단계;
수식 1:
Zgene = (Normalized_Depthgene - Reference_Mean_Depthgene) / Reference_SDgene
본 발명에서 상기 GC 양에 의한 depth bias를 보정하는 방법은 통상의 기술자에게 알려진 모든 방법을 사용할 수 있다.
본 발명에서 GC 양은 특정 영역 (gene, bin 등)을 구성하고 있는 염기 서열 A, T, G, C 중에서 G와 C 의 비율을 나타내는 값을 의미한다. 예를 들어, ATTCGCACATCCCGCACACT 라는 서열이 있을 때, 이 서열을 구성하는 전체 20 개의 염기 서열 중 A, T, G, C 염기의 개수는 각각 5, 4, 2, 9개이고, 이 중 G와 C 염기의 비율인 (2+9) / 20 = 55% 값을 이 서열의 GC양이다.
일반적으로 Bin 단위의 read depth 분석을 할 때 bin의 GC양에 따라 read depth 가 종속적으로 변하는 현상이 나타난다고 알려져 있다. 즉, GC 양이 증가함에 따라 Depth 값이 특정한 경향성을 나타내게 되는 것이다.
이러한 GC 양에 따른 depth bias를 보정하기 위해 아래와 같은 방법을 적용할 수 있다.
먼저, 분석 대상인 모든 bin들의 GC 양을 소수점 1자리까지 반올림하여 계산할 경우, 하나의 GC 양 값을 갖는 bin이 여러 개 존재하게 되는데, 이런 bin들의 median depth 값을 이 GC 양의 대표 depth 값으로 결정한다.
예를 들어, Bin1, Bin2, Bin3, Bin4, Bin5의 Depth 값이 각각 10, 20, 30, 40, 50 이고, GC양이 각각 31.5, 31.5, 31.5, 28.4, 28.4 였다면, 이 샘플에서 GC양이 31.5일 때의 대표 depth 값은 median(10, 20, 30) = 20 이 되고, GC양이 28.4 일 때의 대표 depth 값은 median(40, 50) = 45이다.
상기 방법으로 한 샘플에서 나올 수 있는 모든 GC양 값의 대표 depth 값을 계산한 다음, LOESS (Locally Estimated Scatterplot Smoothing) 알고리즘을 이용해 GC 양을 인풋으로 받아(독립변수), 대표 Depth를 예측하는(종속변수) 회귀 모델을 구축한다.
구축한 회귀 모델을 통해 예측된 depth 값을 GC 양에 따른 Depth bias라 생각할 수 있고, Bin별로 계산된 depth 값에서 이 depth bias 값을 빼주는 방법으로 GC 양에 따른 depth를 보정한다(수식 2)
수식 2: GC-corrected Depth = Depthbin - LOESS Predicted Depthbin
본 발명에 있어서 용어 "리드(reads)"는, 당업계에 알려진 다양한 방법을 이용하여 서열정보를 분석한 핵산 단편을 의미한다. 따라서, 본 명세서에서 용어 “서열정보” 및 “리드”는 시퀀싱 과정을 통해 서열정보를 수득한 결과물이라는 점에서 동일한 의미를 가진다.
본 발명에서 용어 “bin”은, 일정구간 또는 구간과 같은 의미로 사용되며, 특정 크기를 가지는 염색체 전체 서열의 일부를 의미한다.
본 발명에서의 일정 구간(bin)의 크기는 10 내지 100,000 kbp, 바람직하게는 50 내지 50,000 kbp, 더욱 바람직하게는 100 내지 10,000 kbp, 가장 바람직하게는 500 내지 5,000 kbp인 것을 특징으로 할 수 있지만 이에 한정되는 것은 아니다.
본 발명에서 용어 ”참조샘플”은 표준 염기서열 데이터베이스와 같이 비교할 수 있는 기준(reference) 집단의 샘플로서, 현재 특정 질환 또는 병증이 없는 사람의 집단에서 수득된 샘플을 의미한다. 본 발명에 있어서, 상기 참조샘플의 표준 염색체 서열 데이터베이스에서 표준 염기서열은 NCBI 등의 공공보건기관에 등록되어 있는 참조 염색체일 수 있다.
본 발명에서 용어 “생체시료”는 인간 등의 동물의 생체에서 수득된 시료를 의미하며, 바람직하게는 혈액, 복강액, 조직, 타액, 소변, 모발, 배변물, 척수액, 뇌수액 및 담액에서 선택된 1종 이상인 것을 특징으로 할 수 있지만 이에 한정되는 것은 아니다.
본 발명에서 상기 생체시료에서 수득된 대상 샘플의 DNA는 생체시료에서 추출한 핵산의 조각이면 제한없이 이용할 수 있으며, 바람직하게는 세포 유리 핵산(cell-free DNA), exosomal DNA, 또는 세포 내 핵산의 조각일 수 있으나, 이에 한정되는 것은 아니다.
상기 계량화된 유전자의 복제수 변이 정도가 정상범위(normal range)를 벗어나는 유전자의 개수가 기준값(cut-off)을 초과할 경우 췌장암 환자의 생존 예후가 나쁜 것으로 판정하는 단계에 있어서, 유전자의 복제수 변이 정도는 상기 Z(Zgene)값을 기준으로 계량화되어 판정될 수 있으며, 상기 Z 값의 정상범위는 -1 내지 1, 바람직하게는 -1.5 내지 1.5, 더욱 바람직하게는 -2 내지 2일 수 있지만, 이에 한정되는 것은 아니며, 그 진단의 목적이나 정확도 등에 따라 유연하게 설정될 수 있다.
또한, 상기 기준값(cut-off)은 전체 대상 유전자의 10% 이상, 바람직하게는 20% 이상, 더욱 바람직하게는 30% 이상, 가장 바람직하게는 40%의 값으로 설정될 수 있는데, 예를 들어 40개의 유전자를 대상으로 유전자 복제수 변이 정도를 검출할 경우에는 기준값(cut-off)은 10%인 4개, 바람직하게는 20%인 8개, 더욱 바람직하게는 30% 인 12개로 설정될 수 있지만 이에 한정되는 것은 아니다.
특히, ABHD6, CASC1, FAM49B, KANK1, LINC00477, MCPH1, SOX5 및 TATDN1, KRAS 및 CDKN2A의 10개 유전자가 사용될 경우, 기준값(cut-off)은 10%인 1개, 바람직하게는 20%인 2개, 더욱 바람직하게는 30%인 3개로 설정될 수 있지만 이에 한정되는 것은 아니다
본 발명에 있어서, 리드(reads)는 대규모 병렬 서열분석 방법으로 수득될 수 있지만 이에 한정되는 것은 아니다. 대규모 병렬 서열분석 방법은 차세대 유전자 서열검사(next-generation sequencing: NGS) 방법으로 수행되는 것이 바람직하지만 이에 한정되는 것은 아니다.
본 발명에서 차세대 유전자 서열검사(next-generation sequencing) 방법은 차세대 유전자서열검사기(next-generation sequencer)를 이용하여 당업계에 공지된 임의의 방법으로 수행될 수 있다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 리드를 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-리드 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
본 발명에 있어서, 상기 정렬단계는 이에 제한되지는 않으나, BWA 알고리즘 및 Hg19 서열을 이용하여 수행되는 것일 수 있다. 본 발명에 있어서, 상기 BWA 알고리즘은 BWA-mem, BWA-ALN, BWA-SW 또는 Bowtie2 등이 포함될 수 있으나 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (1-1) 단계에 따른 생체시료에서 수득된 대상 샘플의 DNA 서열정보(reads)를 획득하는 단계는
(i) 분리된 DNA에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(ii) 상기 정제된 핵산에 대하여, 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(iii) 상기 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(ⅳ) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계;
를 포함하여 수행될 수 있지만 이에 한정되는 것은 아니다.
또한, 본 발명에 있어서, 상기 (1-3) 단계에 따른 상기 정렬된 서열정보(reads)의 퀄리티를 확인하는 단계는, 정렬 퀄리티 점수(mapping quality score)의 퀄리티 기준값을 만족하는 서열을 선별하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있지만 이에 한정되는 것은 아니다.
또한, 본 발명에서 상기 퀄리티 기준값은, 원하는 기준에 따라 달라질 수 있으나, 바람직하게는 15-70점, 더욱 바람직하게는 50~70점 일 수 있고, 가장 바람직하게는 60점일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 따른 췌장암 환자의 생존 예후 예측을 위한 정보제공 방법은 하나의 구체화된 형태로 다음과 같은 단계를 포함하여 이루어질 수 있지만 이에 한정되는 것은 아니다(도 1 참조).
(1) 말초혈액의 혈장에서 세포유리핵산 (cell-free DNA, cfDNA) 추출
(2) 대규모병렬서열분석(massive parallel sequencing) 방법으로 핵산 단편(reads) 데이터 확보
(3) 상기 핵산 단편 데이터를 휴먼 참조 유전체에 정렬
(4) 상기 정렬된 데이터에서 퀄리티를 확인
(5) 췌장암 관련 유전자 복제 수 변이 검출
(6) 변이 점수 도출
(7) 변이 점수가 정상범위 이상인 유전자 개수 계수(counting)
(8) 췌장암 환자의 생존 예후 예측
본 발명은 다른 관점에서, 본 발명에 따른 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법에 이용되는 정보제공 장치로서, 상기 장치는
(1) 표 1 등에 기재된 본 발명에 따른 췌장암 특이적 유전자 복제수 변이가 일어나는 유전자의 복제수 변이를 검출하는 유전자 복제수 변이 검출부;
(2) 검출된 유전자 복제수 변이 정보를 기반으로 복제수 변이 정도를 계량화하고, 계량화된 유전자 복제수 변이 정도가 정상범위(normal range)를 벗어나는 유전자의 개수를 계산하는 계산부; 및
(3) 유전자 복제수 변이 정도가 정상범위를 벗어나는 유전자의 개수가 기준값을 초과할 경우, 생존 예후가 나쁜 것으로 판정하는 생존 예후 판정부;
를 포함하는 것을 특징으로 하는 정보 제공 장치에 관한 것이다.
본 발명은 또 다른 관점에서 본 발명에 따른 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법에 이용되는 컴퓨터 판독 가능한 매체로서, 상기 매체는 췌장암 환자의 생존 예후 예측을 위한 정보를 제공하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
(1) 표 1 등에 기재된 본 발명에 따른 췌장암 특이적 유전자 복제수 변이가 일어나는 유전자의 복제수 변이를 검출하는 단계;
(2) 검출된 유전자 복제수 변이 정보를 기반으로 복제수 변이 정도를 계량화하고, 계량화된 유전자 복제수 변이 정도가 정상범위(normal range)를 벗어나는 유전자의 개수를 계산하는 단계; 및
(3) 유전자 복제수 변이 정도가 정상범위를 벗어나는 유전자의 개수가 기준값을 초과할 경우, 생존 예후가 나쁜 것으로 판정하는 단계;
를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체에 관한 것이다.
본 발명은 또 다른 관점에서, 본 발명에 따른 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법에 이용되는 표적 핵산 증폭용 키트로서, 상기 키트는 표 1 등에 기재된 본 발명에 따른 췌장암 특이적 유전자에 특이적으로 결합하는 프로브; 또는 표 1 등에 기재된 본 발명에 따른 췌장암 특이적 유전자를 증폭하는 프라이머를 포함하는 것을 특징으로 하는 표적 핵산 증폭용 키트에 관한 것이다.
본 발명에 있어서, 상기 키트는 버퍼(buffer), DNA 중합효소(DNA polymerase), DNA 중합효소 조인자(DNA polymerase cofactor) 및 데옥시리보뉴클레오티드-5-트리포스페이트(dNTP)와 같은 핵산 증폭 반응(예컨대, 중합효소연쇄반응)을 실시하는데 필요한 시약을 선택적으로 포함할 수 있다. 선택적으로, 본 발명의 키트는 또한 다양한 올리고뉴클레오티드(oligonucleotide) 분자, 역전사효소(reverse transcriptase), 다양한 버퍼 및 시약, 및 DNA 중합효소 활성을 억제하는 항체를 포함할 수 있다. 또한, 상기 키트의 특정 반응에서 사용되는 시약의 최적량은, 본 명세서의 기재사항을 습득한 당업자에 의해서 용이하게 결정될 수 있다. 전형적으로, 본 발명의 장비는 앞서 언급된 구성 성분들을 포함하는 별도의 포장 또는 컴파트먼트(compartment)로 제작될 수 있다.
하나의 실시예에서, 상기 키트는 샘플을 담는 구획된 캐리어 수단, 시약을 포함하는 용기 및 프라이머 또는 프로브를 포함하는 용기를 포함할 수 있다.
상기 캐리어 수단은 병, 튜브와 같은 하나 이상의 용기를 함유하기에 적합하고, 각 용기는 본 발명의 방법에 사용되는 독립적 구성요소들을 함유한다. 본 발명의 명세서에서, 당해 분야의 통상의 지식을 가진 자는 용기 중의 필요한 제제를 손쉽게 분배할 수 있다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. 췌장암 환자에서의 복제수 변이 검출
315명의 췌장암 환자의 DNA를 추출하고 전장 염색체에 대한 라이브러리를 제조하였다. 완성된 라이브러리는 NextSeq 장비에서(illumina, USA) 염기서열 분석을 수행하였으며, 샘플당 평균 18.4 million read의 서열정보 데이터를 생산하였다.
차세대염기서열분석(NGS) 장비에서 Bcl 파일(염기서열정보 포함)을 fastq 형식으로 변환한 다음, fastq 파일을 BWA-mem 알고리즘을 사용하여 참조염색체 Hg19서열 기준으로 라이브러리 서열을 정렬하였다. 시퀀싱 데이터는 Q30이 80% 이상, Mapping quality가 60을 만족하는 것을 확인하였다.
염색체를 일정구간(1,000,000bp, bin)으로 나눈 다음, bin에 정렬되는 read 수를 카운트 한 뒤, 각 bin에 정렬된 read count 값을 샘플의 전체 read 수로 나눠 주고, GC contents에 의한 depth bias를 R language의 기본 통계 패키지인 stat package에 내장되어있는 loess 함수를 사용하여 보정하였다.
상기 과정을 복제수 변이(CNV)가 없는 정상 샘플 군에서 진행하여 각 bin별 평균과 표준편차 값을 계산하고, 췌장암 환자의 샘플 군에서 상기 과정을 수행하여 bin별 normalized depth 값을 계산한 다음, 하기 수식 3을 이용하여 표준화된 Zbin 값을 수득하였다.
수식 3:
Zbin = (Normalized_Depthbin - Reference_Mean_Depthbin) / Reference_SDbin
계산한 bin별 Z 값에 Circular Binary Segmentation (CBS) 알고리즘을 적용하여 전체 게놈 영역 중 주변과 카피 수가 다른 영역을 검출(segmentation)하였다(도 2 참조). 도 2에 기재된 바와 같이, A는 주변보다 카피 수가 증가한, Amplification segment의 예이고, B는 주변보다 카피 수가 감소한, Deletion segment의 예이며, 이어져 있는 붉은 선은 하나의 segment를 나타낸다.
실시예 2. 췌장암 특이적 유전자 영역 선별
2-1. 췌장암 특이적 게놈 영역 1차 선별
췌장암 환자 315 명에서 얻어진 DNA 샘플일 이용하여, 상기 segment 분석을 수행하고,
실시예 1에서 수득한 복제수 변이 영역에 대하여, Genomic Identification of Significant Targets in Cancer (GISTIC) 알고리즘을 이용하여 315 명의 췌장암 환자에서 공통적으로 빈번하게 발생하는 Amplification, Deletion 영역을 1차 선별하였다.
그 결과, 도 3 및 도 4에 기재된 바와 같이, 총 9개의 Amplification 영역과 6개의 Deletion 영역을 선별하였다.
도 3 및 도 4의 왼쪽의 붉은색 그림이 췌장암 환자 315 명에서 반복적으로 관찰되는 Amplification segment 영역을 나타내고, 오른쪽의 파란 그림은 Deletion segment 영역을 나타낸다. 또한, 도 3 및 도 4의 아래쪽 x 축 값은 False Discovery Rate (FDR) - adjusted p value (Q value) 값을 나타내고, 위쪽 X 축은 GISTIC 분석에서 계산된 G-score 값(췌장암 환자 315명에서 관찰되는 CNV의 빈도 및 세기를 계산한 값)이며, y 축은 염색체 번호이다.
도출된 각 영역의 좌표는 표 2와 같다.
췌장암 특이적 CNV 영역 좌표
Unique Name Cytoband Peak Region
Amplification Peak 1 1q22 chr1:151000002-162000000
Amplification Peak 2 3q28 chr3:174000002-198022430
Amplification Peak 3 5p13.3 chr5:31000002-33000000
Amplification Peak 4 6p22.1 chr6:23000002-37000000
Amplification Peak 5 7p21.2 chr7:1-23000000
Amplification Peak 6 8q24.23 chr8:125000002-146364022
Amplification Peak 7 12p12.1 chr12:24000002-27000000
Amplification Peak 8 14q21.1 chr14:32000002-52000000
Amplification Peak 9 19q13.2 chr19:31000002-59128983
Deletion Peak 1 1p36.11 chr1:24000002-26000000
Deletion Peak 2 3p21.31 chr3:34000002-61000000
Deletion Peak 3 7q36.1 chr7:137000002-159138663
Deletion Peak 4 8p22 chr8:1-27000000
Deletion Peak 5 9p22.1 chr9:1-27000000
Deletion Peak 6 18q21.33 chr18:57000002-65000000
2-2. 췌장암 생존 예후와 관련이 있는 유전자 영역 2차 선별
GISTIC 분석을 통해 선별된 췌장암 특이적 CNV 영역 중 췌장암 생존 예후와 관련 있는 영역을 유전자 단위로 2차 선별하였다.
구체적으로 상기 2-1 과정에서 1차 선별된 좌표 영역에 포함되는 유전자 2,272 개를 대상으로 유전자 단위의 Z 값을 계산하였다. 즉, 유전자 복제수 변이가 없는 참조 샘플의 각 유전자 구간별 리드 개수(read count)를 계수(counting)한 후, 각 유전자 구간에 정렬된 리드 개수 값을 샘플의 전체 리드 개수로 나누고, GC 함량(contents)에 의한 뎁스 바이어스(depth bias)를 보정하여, 각 유전자 구간별 참조 샘플의 뎁스 평균(Reference_Mean_Depthgene)과 표준편차 값(Reference_SDgene)을 계산한 다음, 정렬된 대상 샘플의 각 유전자 구간별 리드 개수(read count)를 계수(counting)한 후, 각 유전자 구간에 정렬된 리드 개수 값을 샘플의 전체 리드 개수로 나누고, GC 함량(contents)에 의한 뎁스 바이어스(depth bias)를 보정하여, 2,272개 유전자 구간별 대상 샘플의 표준화된 뎁스(normalized depth) 값을 계산한 다음, 하기 수식 1을 사용하여 정렬된 서열정보의 정규화된 유전자 구간별 Z(Zgene)값을 계산하였다:
수식 1:
Zgene = (Normalized_Depthgene - Reference_Mean_Depthgene) / Reference_SDgene
그 뒤 도 5에 기재된 바와 같이, 각 샘플에서 계산된 유전자 단위의 Z 값이 GISTIC Amplification 영역에서 Z > 2를 만족할 때, 해당 샘플의 해당 유전자 값을 그룹 1로 지정하고(예후 나쁨 그룹), 또는, 각 샘플에서 계산된 유전자 단위의 Z 값이 GISTIC Deletion 영역에서 Z < -2를 만족할 때, 해당 샘플의 해당 유전자 값을 그룹 1로 지정하였으며(예후 나쁨 그룹), 상기 두 조건을 만족하지 않을 때 해당 샘플의 해당 유전자 값을 그룹 0으로 지정하였다(예후 좋음 그룹).
즉, 도 5에 기재된 바와 같이 GISTIC Deletion 영역에 포함되는 유전자 Gene1의 Z 값을 기준으로 Sample 1 ~ 315를 1과 0 그룹으로 나누어 보면, Z < -2 를 만족하는 Sample_2와 Sample_4가 그룹 1로 지정되고, 나머지 샘플들은 그룹 0으로 지정할 수 있으며, GISTIC Amplification 영역에 포함되는 유전자 Gene3의 Z 값을 기준으로 Sample 1 ~ 315의 그룹을 나누어 보면, Z > 2 를 만족하는 Sample_1 과 Sample_4 가 그룹 1로 지정되고, 나머지 샘플들은 그룹 0으로 지정할 수 있다.
그 뒤, GISTIC Peak Region에 포함되어 있는 전체 2,272개 유전자에서 췌장암 예후 나쁨 그룹 (그룹 1)과 췌장암 예후 좋음 그룹 (그룹 0) 사이의 생존 예후 차이를 비교하였다. 이 때, Overfitting을 방지하기 위하여, 둘 중 한 그룹에 포함되는 샘플의 숫자가 20명 미만일 경우 해당 유전자는 분석 대상에서 제외하였다. 아울러, 한정된 데이터에서 과적합 (Overfitting) 문제를 피하면서 유전자를 선별하고 GSS의 예후 예측 성능을 검증하기 위해 전체 315명 데이터를 5등분하여 Five Fold Cross Validation (5-F CV) 방법을 사용하였다.
Kaplan-Meier 생존분석으로 두 그룹 사이에 생존 기간의 차이가 있는지 (그룹 1의 생존 기간이 그룹 0 의 생존 기간보다 짧은지) 통계적 유의성을 Log-rank test를 이용하여 확인하였다. 즉, log-rank test 결과로 계산되는 raw p-value 값을 기준으로 p-value < 0.05 조건을 만족하는 전체 유전자, 또는 그 중 상위 N 개의 유전자를 선별하였다.
예를 들어, CV_1 에서는 2,272개 유전자 중 K-M 분석 raw p-value < 0.05 를 만족하는 유전자가 229개 확인하였고, 이 229개 유전자들에서 계산된 K-M p-value 값이 가장 작은 유전자부터 순서대로 2개, 3개, 4개 … 50개를 선별해 GSS_2부터 GSS_50을 모두 계산하고 (N = 2~50 모두 테스트), 예후 예측 성능을 확인해본 결과, Top 36개 유전자를 사용하여 GSS를 계산했을 때 (best N=36) 0, 1 그룹 사이의 생존 차이가 가장 크게 나뉘는 것을 확인하여, CV_1의 상위 N 값은 36인 것을 확인하였다.
다섯 번의 CV(Cross Validation)에서 K-M 분석을 진행한 결과, raw p-value < 0.05 기준을 만족하는 유전자가 CV_1에서 229개, CV_2에서 269개, CV_3에서 301개, CV_4에서 213개, CV_5에서 246개 도출되는 것을 확인하였다(도 6).
또한, 각 CV 마다 raw p-value < 0.05 를 만족하는 모든 유전자들의 Z 값을 더해 GSS_All을 계산하고 췌장암 예후 나쁨 그룹과 췌장암 예후 좋은 그룹을 구분할 최적의 cutoff 값을 찾아본 결과, CV_1에서 45, CV_2에서 40, CV_3에서 45, CV_4에서 38, CV_5에서 47인 것을 확인하였고, 각 CV마다 raw p-value 값이 작은 순서대로 N 개 유전자들의 값을 더해 GSS_TopN을 계산하고 최적의 cutoff 값을 찾아본 결과, CV_1에서 N=36, cutoff=6, CV_2에서 N=35, cutoff=7, CV_3에서 N=15, cutoff=2, CV_4에서 N=43, cutoff=7, CV_5에서 N=33, cutoff=4 인 것을 확인하였다(표 3).
최적의 cut-off는 예를 들어, CV_1에서는 GSS_TopN이 36인 것을 확인하였으므로, cut-off 값으로 1~35(N-1=36-1) 사이의 모든 정수 값을 설정해보며 0, 1 그룹 사이의 생존 차이 성능을 확인하고, 가장 큰 차이를 보이게 하는 cutoff 값을 선택하였다. 즉, GSS_Top36의 경우에 cutoff =1, 2, 3, …35 이렇게 총 35개의 cut-off를 모두 적용해본 결과, cutoff = 6 으로 선택하여 GSS_Top36 값이 0~6 사이의 값을 갖는 환자들을 예후 좋음(0) 그룹으로, 7~36 사이의 값을 갖는 환자들을 예후 나쁨(1) 그룹으로 구분하였을 때, 두 그룹 간 생존 기간의 차이가 가장 크게 나타나는 것을 확인하고, cut-off를 6으로 결정하였다.
CV별 GSS 범위 및 최적 cut-off
GSS_All GSS_TopN
CV Range Cut-off CV Range Cut-off
CV_1 0~229 45 CV_1 0~36 6
CV_2 0~269 40 CV_2 0~35 7
CV_3 0~301 45 CV_3 0~15 2
CV_4 0~213 38 CV_4 0~43 7
CV_5 0~246 47 CV_5 0~33 4
실시예 3. 췌장암 특이적 유전자 영역과 생존 예후 예측 성능 확인
3-1. GSS 기반 췌장암 생존 예후 예측
실시예 2에서 도출한 GSS 값을 표 3의 cutoff 기준으로 췌장암 생존 예후 좋음, 나쁨 그룹으로 나누어 두 그룹 간 비교한 K-M 생존분석 결과, 도 7에 기재된 바와 같이 Training 데이터에서는 GSS_All, GSS_TopN 모두 5번의 CV 전체에서 두 그룹 간 통계적으로 유의미한 생존 예후 차이가 나타났으며(raw p-value <0.05), GSS_All 보다 GSS_TopN 에서 더 좋은 p-value 값을 확인할 수 있었다.
또한, Test 데이터에서는 GSS_All은 5번의 CV 중 4번, GSS_TopN은 3번에서 두 그룹 간 통계적으로 유의미한 생존 예후 차이를 보였다. Test 데이터에서도 대부분의 경우 GSS_All보다 GSS_TopN 에서 더 좋은 p-value 값을 확인할 수 있었다.
도 8에 기재된 바와 같이, 다섯 번의 CV 과정에서 각각 선별된 Top N 유전자들의 포함 관계에서, 다섯 번의 CV에서 적어도 한번 이상 선별되었던(합집합) 유전자는 총 79개가 있었고(표 4 참조), 그 중 다섯 번의 CV 전체에서 공통적으로 선별되었던(교집합) 유전자는 KANK1, ABHD6, CASC1, TATDN1, SOX5, FAM49B, LINC00477 및 MCPH1로 총 8개인 것을 확인하였다.
췌장암 환자 예후 예측을 위한 유전자들의 구체적인 정보
Genes Chromosome & position Type
KANK1 chr9_470293_746106 Del
ABHD6 chr3_58223258_58280461 Del
CASC1 chr12_25261222_25348094 Amp
TATDN1 chr8_125500734_125551329 Amp
SOX5 chr12_23685230_24715383 Amp
FAM49B chr8_130851838_131028897 Amp
LINC00477 chr12_24719897_24737102 Amp
MCPH1 chr8_6264112_6501140 Del
LRMP chr12_25205180_25261269 Amp
BCAT1 chr12_24962957_25102393 Amp
RPA3-AS1 chr7_7680341_7918851 Amp
LINC00578 chr3_177159708_177470492 Amp
KRAS chr12_25358179_25403854 Amp
DMRT1 chr9_841689_969090 Del
PHF20L1 chr8_133787603_133861052 Amp
TMEM65 chr8_125323158_125384940 Amp
RASSF8 chr12_26111963_26232825 Amp
ITPR2 chr12_26488284_26986131 Amp
NXPH1 chr7_8473584_8792593 Amp
GLIS3 chr9_3824127_4300035 Del
MAP4 chr3_47892179_48130769 Del
BCL2 chr18_60790578_60986613 Del
GSDMC chr8_130760441_130799134 Amp
PSD3 chr8_18384812_18871196 Del
ERICH1-AS1 chr8_687586_1087777 Del
CCBE1 chr18_57098170_57364644 Del
KCNMB2 chr3_178254085_178562217 Amp
NIN chr14_51186480_51297839 Amp
KIAA0196 chr8_126036502_126104061 Amp
ARHGEF10 chr8_1772148_1906807 Del
ACVR2B chr3_38495789_38534633 Del
PEBP4 chr8_22570764_22785421 Del
SFMBT1 chr3_52937582_53080089 Del
SERPINB5 chr18_61144143_61172318 Del
ATF6 chr1_161736033_161933860 Amp
ZNF577 chr19_52359055_52391229 Amp
GATA4 chr8_11561716_11617509 Del
BMP1 chr8_22022652_22069840 Del
LTF chr3_46477495_46506598 Del
IFLTD1 chr12_25629015_25801496 Amp
LRRC6 chr8_133584200_133687863 Amp
ATP13A4 chr3_193119865_193272696 Amp
CDCP1 chr3_45123765_45187914 Del
TBL1XR1 chr3_176738541_176915048 Amp
ISPD-AS1 chr7_16250110_16310229 Amp
NAALADL2 chr3_174577110_175523428 Amp
THSD7A chr7_11410061_11871824 Amp
KHDRBS3 chr8_136469715_136659848 Amp
DPYSL2 chr8_26371708_26515693 Del
CSGALNACT1 chr8_19261671_19540261 Del
TMEM196 chr7_19758937_19812404 Amp
LINC02052 chr3_186172769_186211450 Amp
LOC100128993 chr8_19041185_19103032 Del
ZFP30 chr19_38123388_38146313 Amp
TMEM71 chr8_133722191_133772914 Amp
SMARCA2 chr9_2015341_2193623 Del
FER1L6 chr8_124864226_125132302 Amp
PHLPP1 chr18_60382671_60647676 Del
OPA1 chr3_193310932_193415600 Amp
TMEM110-MUSTN1 chr3_52867130_52931597 Del
GLDC chr9_6532463_6645692 Del
DOCK5 chr8_25042286_25270619 Del
TMEM110 chr3_52870771_52931597 Del
ZNF569 chr19_37902059_37958339 Amp
ADCY8 chr8_131792546_132052835 Amp
DLGAP2 chr8_1449531_1656642 Del
C8orf12 chr8_11225910_11296166 Del
FAM135B chr8_139142265_139509065 Amp
C9orf92 chr9_16203932_16276311 Del
LMLN chr3_197687070_197770591 Amp
SLC38A3 chr3_50242691_50258406 Del
LARS2-AS1 chr3_45524186_45551037 Del
SQLE chr8_126010719_126034525 Amp
CDKN2A chr9_21967750_21994490 Del
MFHAS1 chr8_8641998_8751131 Del
LINC00639 chr14_39218542_39386086 Amp
ZNF583 chr19_56915382_56936400 Amp
FLNB chr3_57994126_58157982 Del
SGK223 chr8_8175257_8239257 Del
3-2. GSS_79 기반 췌장암 생존 예후 예측 성능 검증
미국 국립 암 연구소 (National Cancer Institute, NCI) 에서 주도하는 The Cancer Genome Atlas (TCGA) Research Network에서 일반에 공개하고 있는 췌장암 환자 183명의 유전자 단위 복제 수 변이 및 생존 예후 데이터(https://www.cbioportal.org/study/summary?id=paad_tcga_pan_can_atlas_2018)를 외부 검증 (external validation) 데이터로 활용하여, 실시예 3-1에서 선별한 79개 유전자를 사용하여 GSS_79 값을 계산하고, cutoff 기준을 8로 하였을 때 예후 예측 성능을 확인한 결과, 도 9에 기재된 바와 같이, GSS_79 값은 통계적으로 유의미한 생존 예후 차이를 나타내는 것을 확인하였다.
3-3. GSS_8+KRAS+CDKN2A 기반 췌장암 생존 예후 예측 성능 검증
기존 Bin 단위 분석에서 의미 있다고 판단된 KRAS와 CDKN2A는 Gene 단위 분석에서 일부 CV 에서만 통계적 기준을 통과하였다(KRAS: 3번, CDKN2A: 2번). 비록 일부 CV에서만 유의했던 유전자이지만, 기존 Bin 단위 분석에서 중요했던 유전자들이었기 때문에 위의 8개 유전자에 KRAS와 CDKN2A를 더해 10개 유전자로 GSS_10을 계산하고 cutoff 기준을 1로 하여 예후 예측 성능을 확인한 결과, 도 10에 기재된 바와 같이, GSS_10은 p-value = 0.059인 것을 확인하였다.
3-4. GSS_8 기반 췌장암 생존 예후 예측
실시예 3-1에서 다섯 번의 CV 전체에서 공통적으로 선별되었던(교집합) 유전자는 8개를 사용하여 GSS_8 값을 계산하고, cutoff 기준을 1로 하였을 때 예후 예측 성능을 확인한 결과, 도 11에 기재된 바와 같이, GSS_8 값은 통계적으로 유의미한 생존 예후 차이를 나타내었다. 도 12는 TCGA 데이터에서 GSS_79, GSS_10, GS_8의 예후 예측 성능을 정리한 것입니다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.

Claims (17)

  1. ABHD6, ACVR2B, ADCY8, ARHGEF10, ATF6, ATP13A4, BCAT1, BCL2, BMP1, C8orf12, C9orf92, CASC1, CCBE1, CDCP1, CDKN2A, CSGALNACT1, DLGAP2, DMRT1, DOCK5, DPYSL2, ERICH1-AS1, FAM135B, FAM49B, FER1L6, FLNB, GATA4, GLDC, GLIS3, GSDMC, IFLTD1, ISPD-AS1, ITPR2, KANK1, KCNMB2, KHDRBS3, KIAA0196, KRAS, LARS2-AS1, LINC00477, LINC00578, LINC00639, LMLN, LOC100128993, LINC02052, LRMP, LRRC6, LTF, MAP4, MCPH1, MFHAS1, NAALADL2, NIN, NXPH1, OPA1, PEBP4, PHF20L1, PHLPP1, PSD3, RASSF8, RPA3-AS1, SERPINB5, SFMBT1, SGK223, SLC38A3, SMARCA2, SOX5, SQLE, TATDN1, TBL1XR1, THSD7A, TMEM110, TMEM110-MUSTN1, TMEM196, TMEM65, TMEM71, ZFP30, ZNF569, ZNF577 및 ZNF583로 구성된 군에서 선택되는 1종 이상의 유전자의 복제수 변이(CNV : copy number variation)를 검출하는 단계를 포함하는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보제공 방법.
  2. 제1항에 있어서, 상기 유전자는 ABHD6, CASC1, FAM49B, KANK1, LINC00477, MCPH1, SOX5 및 TATDN1으로 구성된 군에서 선택되는 1종 이상인 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보제공 방법.
  3. 제2항에 있어서, 상기 유전자는 ABHD6, CASC1, FAM49B, KANK1, LINC00477, MCPH1, SOX5, TATDN1, KRAS 및 CDKN2A인 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보제공 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 다음 단계를 포함하는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보제공 방법:
    (1) 상기 유전자의 복제수 변이를 검출하고, 검출된 유전자의 복제수 변이 정도를 계량화하는 단계; 및
    (2) 상기 (1) 단계에서 계량화된 유전자의 복제수 변이 정도가 정상범위(normal range)를 벗어나는 유전자의 개수가 기준값(cut-off)을 초과할 경우 췌장암 환자의 생존 예후가 나쁜 것으로 판정하는 단계.
  5. 제4항에 있어서, 상기 (1) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법:
    (1-1) 생체시료에서 수득된 대상 샘플의 DNA 서열정보(reads)를 획득하는 단계;
    (1-2) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스 (reference genome database)에 정렬(alignment)하는 단계;
    (1-3) 상기 정렬된 서열정보(reads)의 퀄리티를 확인하는 단계; 및
    (1-4) 상기 유전자의 복제수 변이를 검출하고, 복제수 변이의 정도를 계량화하는 단계
  6. 제5항에 있어서, 상기 (1-4) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보 제공 방법:;
    (a) 유전자 복제수 변이가 없는 참조 샘플의 각 구간별 리드 개수(read count)를 계수(counting)한 후, 각 유전자 구간에 정렬된 리드 개수 값을 샘플의 전체 리드 개수로 나누고, GC 함량(contents)에 의한 뎁스 바이어스(depth bias)를 보정하는 단계를 수행하여, 각 유전자 구간별 참조 샘플의 뎁스 평균(Reference_Mean_Depthgene)과 표준편차 값(Reference_SDgene)을 계산하는 단계;
    (b) 상기 (1-3) 단계에서 얻어진 정렬된 대상 샘플의 각 구간별 리드 개수(read count)를 계수(counting)한 후, 각 유전자 구간에 정렬된 리드 개수 값을 샘플의 전체 리드 개수로 나누고, GC 함량(contents)에 의한 뎁스 바이어스(depth bias)를 보정하는 단계를 수행하여, 각 유전자 구간별 대상 샘플의 표준화된 뎁스(normalized depth) 값을 계산하는 단계; 및
    (c) 상기 (b) 단계에서 수득된 참조 샘플의 뎁스 평균(Reference_Mean_Depthgene)과 표준편차 값(Reference_SDgene)과 (c) 단계에서 수득된 대상 샘플의 표준화된 뎁스 값(normalized depth)에 기반하여 하기 수식 1을 사용하여 정렬된 서열정보의 정규화된 구간별 Z(Zgene)값을 계산하는 단계;
    수식 1:
    Zgene = (Normalized_Depthgene - Reference_Mean_Depthgene) / Reference_SDgene

  7. 제6항에 있어서, 상기 Z 값의 정상범위는 -2 내지 2인 것을 특징으로 하는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보 제공 방법.
  8. 제7항에 있어서, 상기 Z 값의 정상범위를 벗어나는 유전자의 개수의 기준값(cut-off)은 전체 유전자 개수의 10% 이상인 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법.
  9. 제4항에 있어서, 상기 (1) 단계는 ddPCR (Digital Droplet Polymerase Chain Reaction) 또는 MLPA (Multiplex Ligation-dependent Probe Amplification) 방법을 이용하여 복제 수 변이를 검출하는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법.
  10. 제5항에 있어서, 상기 생체시료는 혈액, 복강액, 조직, 타액, 소변, 모발, 배변물, 척수액, 뇌수액 및 담액에서 선택된 1종 이상인 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법.
  11. 제5항에 있어서, 상기 생체시료에서 수득된 대상 샘플의 DNA는 세포유리 핵산(cell-free DNA) 또는 엑소좀 핵산(exosomal DNA)인 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법.
  12. 제5항에 있어서, 상기 (1-1) 단계는 다음의 단계를 포함하는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공 방법:
    (i) 분리된 DNA에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
    (ii) 상기 정제된 핵산에 대하여, 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
    (iii) 상기 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
    (ⅳ) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
  13. 제5항에 있어서, 상기 (1-3) 단계는 정렬 퀄리티 점수(mapping quality score)의 퀄리티 기준값을 만족하는 서열을 선별하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법.
  14. 제13항에 있어서, 상기 퀄리티 기준값은, 상기 정렬 퀄리티 점수가 15 내지 70인 것을 특징으로 하는 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법.
  15. 제1항 내지 제14항 중 어느 한 항에 따른 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법에 이용되는 정보제공 장치로서, 상기 장치는
    (1) 상기 유전자의 복제수 변이를 검출하는 복제수 변이 검출부;
    (2) 검출된 유전자 복제수 변이 정보를 기반으로 복제수 변이 정도를 계량화하고, 계량화된 유전자 복제수 변이 정도가 정상범위(normal range)를 벗어나는 유전자의 개수를 계산하는 계산부; 및
    (3) 유전자 복제수 변이 정도가 정상범위를 벗어나는 유전자의 개수가 기준값을 초과할 경우, 생존 예후가 나쁜 것으로 판정하는 생존 예후 판정부;
    를 포함하는 것을 특징으로 하는 정보 제공 장치.
  16. 제1항 내지 제14항 중 어느 한 항에 따른 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법에 이용되는 컴퓨터 판독 가능한 기록매체로서, 상기 매체는 췌장암 환자의 생존 예후 예측을 위한 정보를 제공하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
    (1) 상기 유전자의 복제수 변이를 검출하는 단계;
    (2) 검출된 유전자 복제수 변이 정보를 기반으로 복제수 변이 정도를 계량화하고, 계량화된 유전자 복제수 변이 정도가 정상범위(normal range)를 벗어나는 유전자의 개수를 계산하는 단계; 및
    (3) 유전자 복제수 변이 정도가 정상범위를 벗어나는 유전자의 개수가 기준값을 초과할 경우, 생존 예후가 나쁜 것으로 판정하는 단계;
    를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 기록매체.
  17. 제1항 내지 제14항 중 어느 한 항에 따른 췌장암 환자의 생존 예후 예측을 위한 정보의 제공방법에 이용되는 표적 핵산 증폭용 키트로서, 상기 키트는
    상기 유전자에 특이적으로 결합하는 프로브; 또는 상기 유전자를 증폭하는 프라이머를 포함하는 것을 특징으로 하는 표적 핵산 증폭용 키트.
KR1020200145902A 2020-11-04 2020-11-04 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법 KR20220060198A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200145902A KR20220060198A (ko) 2020-11-04 2020-11-04 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
PCT/KR2021/001162 WO2022097844A1 (ko) 2020-11-04 2021-01-28 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200145902A KR20220060198A (ko) 2020-11-04 2020-11-04 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법

Publications (1)

Publication Number Publication Date
KR20220060198A true KR20220060198A (ko) 2022-05-11

Family

ID=81457979

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200145902A KR20220060198A (ko) 2020-11-04 2020-11-04 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법

Country Status (2)

Country Link
KR (1) KR20220060198A (ko)
WO (1) WO2022097844A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116344A (zh) * 2023-10-25 2023-11-24 北京大学第三医院(北京大学第三临床医学院) 一种单细胞水平pmp22重复变异的检测系统和方法
CN117153249A (zh) * 2023-10-26 2023-12-01 北京华宇亿康生物工程技术有限公司 用于检测smn基因拷贝数变异的方法、设备和介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2494071A1 (en) * 2009-10-26 2012-09-05 Abbott Laboratories Diagnostic methods for determining prognosis of non-small cell lung cancer
KR101686146B1 (ko) * 2015-12-04 2016-12-13 주식회사 녹십자지놈 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116344A (zh) * 2023-10-25 2023-11-24 北京大学第三医院(北京大学第三临床医学院) 一种单细胞水平pmp22重复变异的检测系统和方法
CN117153249A (zh) * 2023-10-26 2023-12-01 北京华宇亿康生物工程技术有限公司 用于检测smn基因拷贝数变异的方法、设备和介质
CN117153249B (zh) * 2023-10-26 2024-02-02 北京华宇亿康生物工程技术有限公司 用于检测smn基因拷贝数变异的方法、设备和介质

Also Published As

Publication number Publication date
WO2022097844A1 (ko) 2022-05-12

Similar Documents

Publication Publication Date Title
US11697846B2 (en) Detecting and classifying copy number variation
US11875899B2 (en) Analyzing copy number variation in the detection of cancer
US20210371907A1 (en) Using cell-free dna fragment size to determine copy number variations
AU2019203491B2 (en) Using cell-free DNA fragment size to determine copy number variations
US9411937B2 (en) Detecting and classifying copy number variation
US9323888B2 (en) Detecting and classifying copy number variation
EP2875149B1 (en) Detecting and classifying copy number variation in a cancer genome
JP7421474B2 (ja) 腫瘍遺伝子変異量の正規化
JP2014521334A (ja) サンプルにおける異なる異数性の有無を決定する方法
KR20220060198A (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
AU2019200163A1 (en) Detecting and classifying copy number variation
JP2022512848A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
CN111542616A (zh) 脱氨引起的序列错误的纠正