KR20200130165A

KR20200130165A - Top3b 유전자 변이 기반 치매 진단방법

Info

Publication number: KR20200130165A
Application number: KR1020200054390A
Authority: KR
Inventors: 이왕준; 정영희
Original assignee: 주식회사 엠제이브레인바이오
Priority date: 2019-05-10
Filing date: 2020-05-07
Publication date: 2020-11-18
Also published as: WO2020231081A1

Abstract

본 발명은 TOP3B 유전자 변이에 기반한 치매 진단방법에 관한 것으로, 더욱 상세하게는, TOP3B(DNA topoisomerase III beta) 유전자에 존재하는 SNV(Single Nucleotide Variant)의 개수 및 위치를 기반으로 치매를 진단하는 방법에 관한 것이다. 본 발명에서는 NGS 데이터 및 빅데이터 분석을 통하여, 치매 환자군에서 TOP3B 유전자의 특이적으로 발견되는 SNV의 위치들을 확인하였으며, SNV 발생 빈도에 있어서, 정상군에 비하여 치매 환자군에서 높은 빈도의 SNV가 존재함을 확인하였다. 이를 통해 치매의 병인(etiology)과 병리(pathology)를 이해할 수 있고, 상기 유전자 및 SNV를 이용하여 치매 위험도를 보다 정확하게 진단할 수 있으며, 따라서 치매 치료제 개발에 유용하게 활용될 수 있다.

Description

TOP3B 유전자 변이 기반 치매 진단방법{Method for Diagnosing Dementia Based on TOP3B Gene Variants}

본 발명은 TOP3B 유전자 변이에 기반한 치매 진단방법에 관한 것으로, 더욱 상세하게는, TOP3B(DNA topoisomerase III beta) 유전자에 존재하는 SNV(Single Nucleotide Variant)의 개수 및 위치를 기반으로 치매를 진단하는 방법에 관한 것이다.

‘치매(dementia)’란, 뇌 질환으로 초래된 일련의 증세를 의미한다. 치매가 진행되면, 사고력, 행동 및 일상 생활 수행에 영향을 미치게 된다. 치매의 특징은 인식 능력의 저하로 일상적인 활동 능력 결여 상태가 되는 것이다. 의사들은 두 개 이상의 인식 기능이 현저하게 손상될 경우 치매로 진단한다. 그러한 인식 기능은 기억력, 언어 기능, 정보 이해, 공간 기능, 판단력 및 주의력을 포함한다. 치매 환자는 문제를 해결하고 감정을 통제하는데 어려움이 있을 수 있으며, 인격 변화를 겪을 수도 있다. 치매 환자가 겪는 정확한 증세는 치매를 일으킨 질환에 의해 손상된 뇌가 어떤 부위인가에 달려 있다. 치매의 여러 유형에서는 뇌의 신경 세포 일부가 기능을 멈추고 다른 세포들과의 연결이 사라져 죽게 된다. 치매는 대개 꾸준히 진행된다. 즉, 치매는 점차적으로 뇌로 퍼지며 환자의 증세는 시간이 지나면서 악화된다.

치매는 나이와 관련된 대표적인 신경퇴행성 뇌 질환으로, 전 세계적으로 65세 이상 노인에서 약 5~10%의 유병률을 보이며, 대부분의 치매 환자는 진행성 인지기능장애, 환각, 망상, 생활능력상실의 증상을 나타낸다. 치매의 원인 중 가장 대표적인 알츠하이머의 경우, 뇌 피질의 신경 세포 내에서 신경섬유다발(neurofibrillary tangle)과 뇌 세포 주변에 아밀로이드 베타(Amyloid β)라는 단백질이 엉긴 덩어리(plaque)가 관찰되며(Hardy, J. et al., (1998) Nat Neurosci, 1, 355-8), 이 노폐물이 신경 세포의 괴사를 일으키는 것으로 추정되고 있다. 이 외에도 타우(τ) 단백질의 과인산화, 염증, 산화적 손상 등도 발병과 관련이 있는 것으로 보인다. 신경반(혹은 노인반)은 아밀로이드 베타 단백질의 침착과 관련되며, 신경섬유다발은 타우 단백질 과인산화와 연관이 있는 것으로 알려져 있다. 특히 유전되는 타우 기인성 치매(tau only dementia)인 전두측두엽 치매 환자에서 외부신경세포에서 아밀로이드 베타의 축적 없이 내부신경세포에서 타우 과인산화와 응집만으로도 치매가 유도되는 점이 확인된 바 있다(John van Swieten, Maria Grazia Spillantini, (2007) Brain Pathol, 17 (1), 63-73).

치매 진단은 증상에 대한 자세한 병력청취 및 평가를 통해 인지기능의 장애로 인한 일상생활 및 사회활동의 장애를 확인하고, 뇌 영상진단을 활용해 뇌혈관 질환 여부 및 뇌위축(brain atrophy)등을 조사하여 치매를 확진하게 된다. 치매의 초기 단계에는 노인성 건망증과의 구분이 힘들기 때문에 기억력뿐 아니라, 언어능력, 계산능력, 시공간 지각능력, 판단력 등을 종합적으로 평가하는 신경심리검사를 시행하게 된다. 치매를 진단하기 위해서는 환자/보호자와의 면담과 선별검사로 얻은 여러 정보를 바탕으로 추가적인 정밀검사를 거쳐야 한다. 추가적인 검사로는 신경심리검사(SNSB), 혈액검사나 다양한 종류의 뇌 영상검사(CT, MRI, PET) 등이 있다.

MRI(magnetic resonance imaging, 자기 공명 영상) 촬영은 치매의 종류를 구분하는 데 중요한 역할을 할 수 있다. 알츠하이머병 치매에 가까운지, 혈관성 치매에 가까운지의 여부를 이 검사로 알 수 있으며, 또 다른 질환에 의한 치매인지를 판별하는 데에도 일부 도움을 줄 수 있다. 알츠하이머병 치매를 조기에 진단할 수 있는 방법 중의 하나로 아밀로이드 양전자방출단층촬영(PET)이 있는데, 이 검사는 알츠하이머병 환자에게서 나타나는 뇌 속의 아밀로이드판을 영상으로 확인하여 진단하는 검사로, 증상이 심하지 않거나 치매 증상이 없는 경우에도 확인이 가능하다(대한치매학회).

다만, MRI 검사법은 뇌위축이 상당히 진행된 상태에서만 확인이 가능하기 때문에 치매의 조기진단 목적으로 사용하기는 힘들며, 조기진단을 위해 임상증상을 대변하거나(surrogate marker), 증상이 나타나기 이전 상태를 측정할 수 있는 새로운 진단 마커가 필요한 상황이다.

한편, 전체 인간 유전체 상에서 81~93%의 유전자는 적어도 1개 이상의 단일염기변이(Single Nucleotide Variant, SNV)를 포함하고 있다. 많은 숫자의 단일염기변이로부터 특정 질환과의 연관성이 있는 단일염기변이를 발굴하는 것은 매우 의미 있는 작업이다(Benjamin Lehne, et al., (2011) PLoS One, 6 (6), e20133).

최근 유전자 염기서열 분석기술의 발달로 대용량(high-throughput) GWAS(genome-wide association studies)가 가능해짐에 따라, 수 종의 유전자 다양성(단일염기다형성, Single Nucleotide Polymorphism, SNP)이 치매 발병과 관련 있음이 보고되고 있다. 치매와 연관된 유전자로는 ApoE 유전자 외에 SOL1, CLU, PICALM, CR1, BIN1 등이 있으며, 이러한 유전자의 기능과 치매와의 연관성을 규명하는 연구가 현재 진행되고 있다(J C Lambert, et al., (2013) Nat Genet, 45 (12), 1452-8).

치매 중 가장 대표적인 알츠하이머 치매는 65세 이전에 증상을 나타내는 조발성 치매(early-oneset AD)과 이후에 발병하는 후발성 치매(late-oneset AD)로 나누어지며, 후발성 치매가 치매 환자의 대부분(>95%)을 차지한다. 현재까지 알려진 유전적 위험인자는 ApoE 유전자 타입이다. ApoE는 ApoEε2, ApoEε3, ApoEε4 세가지 동형질체(isoforms)를 가지는 지질결합단백질(lipid-binding protein)로 ApoEε4 type을 가진 사람은 그 외 경우에 비하여 heterozygote는 2~3배, homozygote는 5배 이상 치매 발병률이 높은 것으로 알려져 있다(Christiane Reitz, Richard Mayeux, (2014) Biochem Pharmacol, 88 (4), 640-51).

이에 본 발명자들은 52세 이상의 정상인과 치매 환자들의 혈액에서 genomic DNA를 추출한 후, NGS(Next Generation Sequencing, 차세대 염기서열 분석) 및 빅데이터 분석을 이용하여 두 그룹간의 SNVs를 조사한 결과, 두 그룹간에 TOP3B(DNA topoisomerase III beta) 유전자에 분포하는 SNVs의 수 및 위치의 확연한 차이를 확인하고 본 발명을 완성하였다.

본 배경기술 부분에 기재된 상기 정보는 오직 본 발명의 배경에 대한 이해를 향상시키기 위한 것이며, 이에 본 발명이 속하는 기술분야에서 통상의 지식을 가지는 자에게 있어 이미 알려진 선행기술을 형성하는 정보를 포함하지 않을 수 있다.

본 발명의 목적은 TOP3B(DNA topoisomerase III beta) 유전자에 존재하는 SNV(Single Nucleotide Variant)의 개수 및 위치를 기반으로 치매를 진단하는 방법을 제공하는 데 있다.

본 발명의 다른 목적은 TOP3B 유전자의 SNV를 검출할 수 있는 제제를 포함하는 치매의 진단 또는 예측을 위한 조성물 및 키트를 제공하는 데 있다.

상기 목적을 달성하기 위하여, 본 발명은 분리된 생물학적 시료에서 TOP3B(DNA topoisomerase III beta) 유전자의 SNV(Single Nucleotide Variant)를 검출하는 단계를 포함하는 치매의 진단 또는 예측을 위한 정보제공방법을 제공한다.

본 발명은 또한, 분리된 생물학적 시료에서 TOP3B 유전자의 SNV를 검출하는 단계를 포함하는 치매의 진단방법을 제공한다.

본 발명은 또한, TOP3B 유전자의 SNV를 검출할 수 있는 제제를 포함하는 치매 진단용 조성물 및 키트를 제공한다.

본 발명에서는 NGS 데이터 및 빅데이터 분석을 통하여, 치매 환자군에서 TOP3B 유전자에 특이적으로 발견되는 SNV의 위치들을 확인하였으며, SNV 발생 빈도에 있어서, 정상군에 비하여 치매 환자군에서 높은 빈도의 SNV가 존재함을 확인하였다. 이를 통해 치매의 병인(etiology)과 병리(pathology)를 이해할 수 있고, 상기 유전자 및 SNV를 이용하여 치매 위험도를 보다 정확하게 진단할 수 있으며, 따라서 치매 치료제 개발에 유용하게 활용될 수 있다.

도 1은 선별된 132개의 후보 유전자에서 정상인과 치매 환자군에서 SNVs 발생 빈도를 나타낸 그래프이다.
도 2는 정상인과 치매 환자군의 TOP3B 유전자에 존재하는 SNVs 발생 빈도를 나타낸 그래프이다.
도 3은 R의 pROC 패키지를 적용하여 개발한 분석 프로그램에서 TOP3B의 SNVs 개수에 대한 ROC 분석 결과이다.

다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법은 본 기술분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.

알츠하이머병과 연관성이 밝혀진 유전자로는, APOE에서 e4 대립유전자(allele)가 산발적 알츠하이머병의 후발성 발병에 대한 강력한 위험요인인 것으로 밝혀진 바 있다(Guojun Bu, (2009) Nat Rev Neurosci, 10 (5), 333-44; E H Corder, et al., (1993) Science, 261 (5123), 921-3; Yadong Huang, Lennart Mucke, (2012) Cell, 148 (6), 1204-22). APOE 유전자는 세계적으로 각각 8.4%, 77.9%, 및 13.7%의 빈도를 갖는 3개의 다형성, e2, e3 및 e4를 갖는다. APOE e4는 통상 알츠하이머병 환자의 50% 이상에서 발견되나, 인지력이 정상인 대조군에서는 15% 미만으로 발견된다(Alex Ward, et al., (2012) Neuroepidemiology, 38 (1), 1-17). 그러나, APOE e4를 기반으로 하는 예측의 경우도, 치매에 대한 유전적 영향도의 20% 이내에서만 설명 가능하다. 이처럼, 알츠하이머병에 대한 e4-매개 위험도 및 가능성 있는 유발 인자에 대해서는 여전히 명확하게 밝혀지지 않고 있다.

NGS는 in vitro 및 in vivo 상에서 쉽게 유전적 서열을 확인할 수 있는 기술로서, 최근 몇 년 동안 유전학 연구는 sequencing 기술의 출현으로 인해 상당한 진보를 보였다. NGS 기술을 통하여 점점 더 많은 수의 유전자를 조사할 수 있게 되었고, 이러한 기술의 발달로 질병 진단과 치료를 위해 유전적 돌연변이 발견이 용이해졌다. 최근 확인된 치매와 연관된 대다수의 유전자는 Aβ42 생성 및 제거에 영향을 주거나 알츠하이머병 병인에 있어서 중요한 경로에 영향을 주는 것으로 알려졌다(Celeste M Karch, Alison M Goate, (2015) Biol Psychiatry, 77 (1), 43-51; Bin Zhang, et al., (2013) Cell, 153 (3), 707-20). 하지만 어떠한 돌연변이 유전자가 어떤 질병과 연관성이 있는지 규명되지 않은 부분이 상당히 많다. 특히 다양한 퇴행성 뇌 질환의 경우 복잡한 상호연관성을 가지고 있기 때문에(Lars Bertram, Rudolph E Tanzi, (2005) J Clin Invest, 115 (6), 1449-57) 한 가지 유전자로 해당 질병을 진단하거나 치료에 적용하기에 문제점이 있었다.

치매는 현재 효과적인 치료 방법이 없어서 조기진단이 매우 중요하므로, 본 발명자들은 치매의 조기진단을 위해 치매와 관련된 특정 유전자 및 해당 유전자의 SNV를 확인하고자 하였다. NGS 기술을 이용하여 해당 유전자의 SNV를 검출하고, SNV의 발생 빈도 차이 또는 SNV의 위치 등을 통해 치매의 조기진단이 가능함을 확인하고자 하였다.

본 발명의 일 실시예에서는 가장 대표적인 치매인 알츠하이머 치매 환자들의 혈액 샘플로부터 genomic DNA를 추출한 후, NGS 분석을 통한 치매 관련 바이오 마커를 탐색하기 위하여 TOP3B를 포함한 132개의 신경계 유전질환 관련 후보 유전자를 선정하여, 이에 대한 타겟 시퀀싱(sequencing)을 수행하였다. R을 이용한 빅데이터 분석을 통해 치매 관련 유전자로 TOP3B(DNA topoisomerase III beta)를 선택하였다. R 패키지 pROC(Xavier Robin, et al., (2011) BMC Bioinformatics, 12, 77)를 적용한 분석 프로그램을 이용하여 ROC(Receiver Operating Characteristics) 분석을 수행하였다. 결과적으로, 치매 환자들의 TOP3B 유전자의 특정 SNV의 분포를 확인하였으며, 상기 SNV의 개수 또는 위치 비교를 통해 치매를 조기진단할 수 있음을 확인하였다.

따라서, 본 발명은 일 관점에서, 분리된 생물학적 시료에서 TOP3B(DNA topoisomerase III beta) 유전자의 SNV(Single Nucleotide Variant)를 검출하는 단계를 포함하는 치매의 진단 또는 예측을 위한 정보제공방법에 관한 것이다.

본 발명은 다른 관점에서, 분리된 생물학적 시료에서 TOP3B(DNA topoisomerase III beta) 유전자의 SNV(Single Nucleotide Variant)를 검출하는 단계를 포함하는 치매의 진단방법에 관한 것이다.

본 발명에 있어서, 상기 치매의 진단 또는 예측은 치매 환자로 진단하는 것뿐만 아니라, 치매 고위험군으로 선별하는 것을 포함하는 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

대부분의 치매는 60대 이상이 되어서 발생하며, 나이가 들면서 발병 위험이 증가한다. 30대, 40대, 50대에서도 발병 가능하고, 드물게 발생하는 65세 미만의 치매의 경우, ‘조기 발병 치매’라고 한다. 65세 이후에 발생하는 경우에 비해 유전적 경향이 강하다. 나이가 들어감에 따라 이 병에 걸릴 가능성이 점차 증가하기 때문에 나이가 들면 발병하는 병으로 인식되었던 적도 있었지만, 치매는 노환의 정상적인 과정이 아니며, 병적인 퇴행성 뇌신경 변화로 인해 발생하는 것으로 알려져 있다.

유전이 되는 치매 형태는 매우 일부이며, 특정 유전자 돌연변이가 발병 원인으로 알려져 있다. 하지만 대부분의 경우에 이들 유전자가 관여되지 않다 하더라도 가족 치매 병력을 가진 사람들에게 치매 발병 위험이 더 높다. 또한, 특정한 건강 및 생활양식도 치매에 걸리는 위험 요인이 될 수 있다. 고혈압 등 치료하지 않은 혈관 요인을 가진 사람들이 위험이 높으며, 신체적 정신적 활동이 적은 사람들도 마찬가지이다. 치매를 일으키는 질환은 다양하다. 대부분의 경우, 왜 그러한 질환들이 진전되는지에 대해서는 알려진 바가 없다.

본 발명에 있어서, 상기 치매는 알츠하이머병(Alzheimer’s disease), 노인성 치매(senile dementia), 혈관성 치매(vascular dementia), 전두측두엽 치매(frontotemporal dementia), 루이소체 치매(dementia with Lewy Bodies) 또는 파킨슨병(Parkinson’s disease) 치매인 것을 특징으로 할 수 있다. 바람직하게는 알츠하이머병(Alzheimer’s disease)인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

‘알츠하이머병(Alzheimer’s disease, AD)’은 가장 흔한 형태의 치매이며, 치매 환자의 약 3분의 2 정도의 치매가 여기에 속한다. 본 발명에서는, 알츠하이머 질환, 알츠하이머성 치매와 동일한 의미로 사용된다. 이는 인식 능력을 점차적으로 저하시키며 종종 기억력 상실이 시작된다. 알츠하이머 질환은 아밀로이드반 및 신경섬유매듭이라고 하는 뇌의 두 이상 증세로 특징 짓는다. 아밀로이드반은 베타 아밀로이드라는 비정상적인 단백질 덩어리들이다. 신경섬유매듭은 타우라는 단백질로 구성된 꼬인 필라멘트 매듭들이다. 아밀로이드반과 신경섬유매듭은 신경세포들과의 커뮤니케이션을 막아 이들 세포들을 죽인다.

치매의 가장 일반적인 형태인 알츠하이머 질환은 진행성 뇌 질환으로, 1906년에 독일인 의사인 알로이스 알츠하이머에 의해서 처음 기술되었다. 알츠하이머 질환으로 사망한 환자의 두뇌에서 관찰되는 노인성 플라크(senile plaque)와 신경섬유다발(neurofibrillary tangles)이 알츠하이머 질환의 병리학적 특성으로 나타난다. 이중 노인성 플라크는 세포 외부에 단백질과 죽은 세포 등이 축적되어 형성되는 것으로, 주 구성 성분은 아밀로이드 베타(Amyloid β, Aβ)라는 펩타이드이다. AD 환자의 주요 특징인 인지 작용의 점진적 상실은 비정상적으로 축적된 Aβ에 의해 유발되는 것으로 보이며, Aβ는 아밀로이드 전구 단백질(amyloidprecursor protein, APP)로부터 단백질분해(proteolysis) 과정을 통해 생성된다. 전구 물질인 APP가 β-세크레타제(BSCE) 및 γ-세크라타제에 의해 분해되어 Aβ가 생성되게 된다(D H Small, et al., (2001) Nat Rev Neurosci, 2 (8), 595-8; B A Yankner, (1996) Neuron, 16 (5), 921-32; D J Selkoe, (1999) Nature, 399 (6738 Suppl), A23-31).

‘노인성 치매(senile dementia)’는 정상적으로 생활해오던 사람이 65세 이후 다양한 원인에 인해 뇌기능이 손상되면서 이전에 비해 인지 기능이 지속적이고 전반적으로 저하되어 일상생활에 상당한 지장이 나타나고 있는 상태를 가리킨다. 즉, 노인성 치매란 65세 이후 노년기에 발병한 치매를 총칭한다. 과거에는 노인성 치매를 노인이면 당연히 겪게 되는 노화 현상이라고 생각했으나 최근 많은 연구를 통해 분명한 뇌질환으로 인식되고 있다. 노년기에 치매를 일으킬 수 있는 원인들은 매우 다양한데, 이들 중 가장 많은 것은 ‘알츠하이머병’과 ‘혈관성 치매’이며, 상대적으로 빈도는 낮으나 루이소체 치매, 전측두엽 퇴행, 파킨슨병 등의 다른 퇴행성 뇌질환들과 정상압 뇌수두증, 두부 외상, 뇌종양, 대사성 질환, 결핍성질환, 중독성 질환, 감염성 질환 등도 원인이 될 수 있다.

‘혈관성 치매(vascular dementia)’는 뇌의 혈관 손상이 초래한 인식 장애이다. 이는 한 번의 뇌졸중이나 여러 번의 뇌졸중이 시간을 두고 발생하여 초래될 수 있다. 혈관성 치매는 뇌에 혈관 질환의 증거 및 일상 생활을 방해하는 인식 기능 장애가 있을 때 진단된다. 혈관성 치매의 징후는 뇌졸중 이후에 갑자기 시작하거나 혈관 질환이 악화되면서 점차적으로 시작될 수도 있다. 증세는 뇌 손상의 위치 및 크기에 따라 다르다. 이는 하나 혹은 몇 개의 특정한 인식 기능에 영향을 미칠 수도 있다. 혈관성 치매는 알츠하이머 질환과 유사하게 나타날 수도 있으며, 알츠하이머 질환과 혈관성 치매가 함께 발생하는 경우가 매우 흔하다.

‘루이소체 치매(dementia with Lewy Bodies)’ 또는 ‘루이소체 질환(Lewy body disease)’은 뇌의 루이소체 형성으로 특징 짓는다. 루이소체는 신경 세포 내에서 진전되는 단백질 알파-시누클레인의 비정상적인 덩어리들로, 이들은 뇌의 특정 부위에 발생하여 움직임과 사고 및 행동의 변화를 초래한다. 루이소체 질환자들은 주의력과 사고력에 많은 변동을 겪을 수도 있다. 이들은 거의 정상적인 수행에서 단기간 내에 심각한 혼란까지 갈 수 있으며, 시각적 환영도 흔한 증세이다. 루이소체 치매, 파킨슨 병 또는 파킨슨 병 치매의 겹치는 장애가 루이소체 질환에 포함될 수 있다. 움직임 증세가 먼저 나타날 때 흔히 파킨슨 병으로 진단되며, 파킨슨 병이 진전될 때 대부분의 사람들의 경우 치매가 진전된다. 인식적 증세가 먼저 나타날 때 이는 루이소체 치매로 진단된다. 루이소체 질환은 가끔 알츠하이머 질환 및/혹은 혈관성 치매와 함께 나타난다.

‘전두측두엽 치매(frontotemporal dementia, FTD)’는 뇌의 전두엽 및/혹은 측두엽에 점진적인 손상이 있을 때 발생한다. 증세는 50대나 60대 혹은 그보다 더 일찍 시작된다. 전두측두엽 치매에는 두 가지 주요 유형이 있으며, 전두엽(행동 증세 및 인격 변화와 연관)과 측두엽(언어 장애)이다. 하지만 이 두 가지는 종종 병행되기도 한다. 뇌의 측두엽은 판단과 사회적 행동을 통제하기 때문에 전두측두엽 치매 환자는 종종 사회적으로 적절한 행동을 유지하는데 문제가 발생한다. 이들은 무례한 행동을 하거나 정상적인 책임을 간과하거나 통제가 어렵거나 반복적이거나 공격적이거나 억제력이 결여되거나 충동적으로 행동한다. 전두측두엽 치매의 측두엽 혹은 언어 변종에는 두 가지 주요 형태가 있다. 의미 치매(semantic dementia)는 단어 의미의 점진적인 상실, 단어 찾기의 어려움 및 언어 이해의 어려움이 연관된다. 진행성 비유창성 실어증(progressive non-fluent aphasia)은 덜 흔하지만 유창하게 말하는 능력에 영향을 미친다. 전측두엽성 치매는 전두측두엽 퇴화(frontotemporal lobar degeneration, FTLD) 또는 픽병(Pick’s disease)으로도 불린다.

‘파킨슨병(Parkinson’s disease)’은 대표적인 퇴행성 뇌 질환으로, 중뇌에 위치한 흑질이라는 뇌의 특정부위에서 도파민을 분비하는 신경세포가 원인 모르게 서서히 소실되어 가는 질환이다. 도파민은 뇌 속에 존재하는 신경전달물질 중 운동에 필요한 물질로서, 파킨슨 환자들에게서는 서동증(운동 느림), 안정 시 떨림, 근육 강직, 자세 불안정 등의 증상이 발생한다.

현재까지, 치매를 초기에 진단하기 위해 많은 연구가 이루어지고 있지만, 아직까지 진단에 유효한 마커는 존재하지 않는다. 현재 치매의 진단검사에는 MMSE(Mini Mental State Examination)와 같은 정신상태학적 검사 및 CDR(clinical dementia rating)과 같은 신경심리학적 검사 등이 이용되고 있다.

간이정신상태검사인 MMSE는 치매 또는 알코올 중독 등의 병으로 인한 인지능력의 저하 여부를 확인하는 테스트로, 방향감, 회상, 단기기억, 집중력, 구성행동 및 언어능력 등을 측정하는 도구로써, 30점이 만점이고, 보통 18점 이하이면 확정적 치매(분명한 인지기능 장애)로 판단하고, 19~23점이면 치매를 의심(경도의 인지기능 장애)하며, 24점 이상이면 정상(인지기능 장애의 인지적 손상 없음)으로 판정한다. 아주 간단하고 시간도 많이 걸리지 않아 편한 반면, 어느 기능이 저하되었는지 정확한 정보를 얻기 위해서는 다른 테스트를 병행해야 하므로, MMSE 검사만으로 치매를 확진하거나 치매 유형을 구별할 수는 없다. 치매 임상 평가 척도인 CDR은 6가지 지표(기억, 지남력, 판단력 및 문제해결능력, 사회활동, 집안 생활과 취미 및 위생 및 몸치장)로 치매의 단계를 나누는 방법으로, 각 점수에서 0은 치매가 아니고, 0.5는 약간의 인지장애, 1은 경증의 치매, 2는 중증도의 치매, 3은 중증 치매, 4는 심화된 치매 및 5는 말기 치매로 판정한다.

상기 진단 기준을 통해 알츠하이머 치매 환자는 경도인지장애(Mild Cognitive Impairment), 경증 치매(MILD AD), 중간 치매 및 중증 치매(severe AD)로 나눌 수 있다. 정상인들도 나이가 들면 어느 정도의 기억장애를 겪게 되지만, 알츠하이머 환자들에게 특이적으로 나타나는 성격변화 등의 증상은 나타나지 않게 되는데, 이를 경도인지장애(MCI)라 한다. 경도인지장애는 알츠하이머 질환의 전구증상으로 여겨지고, 단기기억상실, 공간기억상실 및 감정적 불균형으로 특징지어지는데, 이는 다시 몇 단계로 분류가 이루어지게 된다. 이중 기억손실과 관련된 MCI를 망각성 MCI(amnestic MCI)라 하는데, 65세 정상인이 특정 기간 안에 알츠하이머성 환자로 변환된 확률이 1 내지 3% 인데 반해, 망각성 MCI를 가진 그룹은 10명 중 8명이 알츠하이머성 환자로 전환되는 것으로 나타나, 망각성 경도인지장애를 가진 경우 알츠하이머성 치매로 발전할 가능성이 높은 것으로 여겨지고 있다.

치매의 증세가 처음 나타나는 초기 단계에 의학적 진단을 받아서 환자가 올바른 진단과 치료를 받도록 하는 것이 필수적이다. 다만, 치매의 초기 징후는 명백하지 않을 수도 있으며, 몇 가지 흔한 증세에는 점진적이고 자주 발생하는 기억 상실, 혼란, 인격 변화, 실어증 및 금단증상, 일상적인 과제 수행 능력 상실 등이 있다. 현재, 일부 약품이 몇 가지 치매의 증세 완화를 위해 사용될 수 있으나, 효과적인 치료 방법이 존재하지 않는다. 치매 치료의 궁극적인 목표는 병 자체를 되돌려서 완치시키고 치매에 의하여 나타나는 인지장애, 정신장애 및 이상 행동증 등을 줄이고 없애는 것이다.

현재 많은 약물들이 알츠하이머 질환 치료에 사용될 수 있는 것으로 보고되고 있으나, 대부분은 그 약효와 관련하여 아직 심사과정에 있으며, 더욱이 현존하는 대부분의 약물들은 알츠하이머병의 진행을 약간 늦출 수 있거나 알츠하이머병에 의해 나타나는 증상에 대한 치료를 위하여 만들어진 것일 뿐, 알츠하이머병 자체를 근본적으로 치료할 수 있도록 고안되고 만들어진 약은 없는 실정이다.

따라서, 다른 질병 분야와 비교하여 치매 분야에서 조기진단은 더욱 중요하다. 치매 환자를 조기에 구별할 수 있는 간단한 진단 기술이 제공된다면, 질병의 초기 단계에 약물의 투여 등을 통한 빠르고 적절한 치료를 통해, 증상을 완화시키고 발병의 정도를 약화시킬 수 있기 때문이다. 치매를 조기에 진단할 수 있다면, 의료진과 환자, 보호자들이 향후 발생할 문제들에 대해 미리 대처할 수 있으며, 약물이나 비약물적 치료를 조기에 시행함으로써 병의 진행 속도를 느리게 하여 삶의 질 향상에 훨씬 많은 도움을 줄 수 있다.

본 발명에 있어서, 상기 정보제공방법 또는 진단방법은 뇌 영상을 수득하여 대뇌피질 두께가 감소하고 뇌위축(brain atrophy)된 경우 치매 환자 또는 치매 고위험군으로 확인하는 단계를 추가로 포함하는 것을 특징으로 할 수 있다. 상기 뇌 영상은 MRI 뇌 영상인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

본 발명에 있어서, 상기 정보제공방법 또는 진단방법은 신경심리검사, 뇌척수액(CSF) 검사 및 아밀로이드-PET 검사로 구성된 검사 중 하나 이상을 추가로 수행하는 것을 특징으로 할 수 있다.

본 발명의 일 실시예에서, TOP3B의 SNVs 분석은 피험자의 증상에 대한 자세한 병력청취 및 뇌 영상 평가와 병행하여 치매의 위험도를 평가하였다.

알츠하이머 치매 진단 기술로는 신경심리검사, MRI 뇌영상 검사, 전문의 소견에 의한 임상진단, 및 뇌척수액과 플로베타벤(florbetaben) 기반의 아밀로이드-PET을 통한 병리학적 검사 등이 있다.

임상진단의 경우 치매발병 또는 경도인지장애를 진단할 수 있으나, 다른 뇌 질환과의 구분이 어려운 경우가 있고, 증상이 시작된 후에 비로소 진단이 가능하므로 조기진단의 목적에는 적합하지 않다. 뇌척수액 검사의 경우, 아밀로이드 베타 단백질과 타우 단백질 분석 등 정량적 분석을 통해 수행되어 신뢰도 높은 치매진단 척도이나, 침습적 뇌척수액 채취로 인해 피험자의 거부감이 매우 높은 수준이다. 아밀로이드-PET을 통한 병리학적 검사의 경우, 신뢰도는 높으나 비용이 고가이다. MRI 뇌영상의 경우, 대뇌피질 위축, 해마 위축 등 치매와 동반되는 뇌손상을 규명하고 조기진단을 위한 기술이 개발 중이나, 현재는 그 진단 시점이 빠르지 않은 것으로 알려져 있다. 또한, 혈액을 통한 치매 진단기술개발이 활발히 진행 중이나, 실험대상 집단의 규모와 정확성에 한계점이 있어 임상적 활용을 위해서는 신뢰도 검증이 요구되고 있다.

아직까지 알츠하이머 질환의 초기 진단에 유효한 마커는 존재하지 않는다. 혈장 내 Aβ-40 또는 Aβ-42의 레벨과 다양한 신호조절 단백질이 대조군으로부터 알츠하이머성 치매를 구별하기 위해 사용될 수 있다는 연구 결과가 있었다(Dietmar R Thal, et al., (2002) Neurology, 58 (12), 1791-800). 몇 가지 프로테옴(proteome)에 기초한 연구에서, 대조군과 비교하여 알츠하이머병 혈장 내에서 α2-매크로글로불린(α2M), 컴플리멘트 팩터 H(CFH) 및 α1-안티트립신(AIAT) 등이 높은 레벨로 존재함이 밝혀져, 이를 이용하여 알츠하이머병의 진단에 응용 가능한 마커로의 활용이 기대되었다(Liu Shi, et al., (2018) J Alzheimers Dis, 62 (3), 1181-1198). 하지만, 개별 단백질이나 그들의 조합을 이용한 단백질의 민감도 및 특이도가 MCI 및 알츠하이머 질환의 초기 진단에는 매우 불충분하여, MCI 및 알츠하이머 질환의 초기 진단을 위한 임상학적으로 유용한 새로운 바이오 마커의 개발이 필요한 상황이다.

유전적 요인에 있어, 아밀로이드 전구체 단백질, 프레세닐린-1(presenilin-1) 및 프레세닐린-2(presenilin-2)가 가족력에 의한 알츠하이머병의 조기 발병에 대한 일차적인 요인으로 알려져 있으며(Kaj Blennow, et al., (2006) Lancet, 368 (9533), 387-403; John Hardy, Dennis J Selkoe, (2002) Science, 297 (5580), 353-6), APOE에서 e4 대립유전자(allele)가 산발적 알츠하이머병의 후발성 발병에 대한 가장 강력한 위험요인인 것으로 밝혀진 바 있다. APOE 유전자는 세계적으로 각각 8.4%, 77.9%, 및 13.7%의 빈도를 갖는 3개의 다형성, e2, e3 및 e4를 갖는다. 알츠하이머병에서 e4 빈도는 ~40%까지 극적으로 증가한다(L A Farrer, et al., (1997) JAMA, 278 (16), 1349-56). APOE는 19번 염색체 장완(19 q13.2)에 위치하고, 112번(Cys/Arg)과 158번(Arg/Cys) 아미노산이 달라짐으로 인해 형성되는 3가지 대립유전자(allele) e2, e3 및 e4의 조합에 의해 6개의 유전자형(E2/E2, E2/E3, E3/E3, E2/E4, E3/E4, E4/E4) 다형성(polymorphism)이 존재한다. 이들 중 APOE e4는 통상 알츠하이머병 환자의 50% 이상에서 발견되나, 인지력이 정상인 대조군에서는 15% 미만으로 발견된다. 종래 연구는 APOE e4가 AD 발병 시기를 5~15년 앞당길 수 있다고 보고한 바 있다(E H Corder, et al., (1993) Science, 261 (5123), 921-3; Estrella Gomez-Tortosa, et al., (2007) Arch Neurol, 64 (12), 1743-8). 또한, 인지력 감퇴에 대한 APOE e4의 영향이 보고된 바 있으나, 일부는 APOE e4에 의한 인지력 감소를 보고한 반면에, 다른 연구는 인지력 감소에 아무런 영향이 없음을 보고하였고, 또 다른 연구 결과는 APOE e4에 의해 인지력이 천천히 감소되는 것을 제시하였다(K Anstey, H Christensen, (2000) Gerontology, 46 (3), 163-77; Sherry A Beaudreau, et al., (2013) J Anxiety Disord, 27 (6), 559-66; Richard J Caselli, et al., (2009) N Engl J Med, 361 (3), 255-63).

이처럼 논의가 필요한 결과에도 불구하고, APOE e4 동형접합체(homozygotes)를 갖는 건강한 개체가 감소된 해마 부피를 나타낸 반면에, e4 이형접합체(heterozygotes)는 건강한 노년층 그룹에서 e4를 보유하지 않은 피험자와 차이를 보이지 않았다(Fabrice Crivello, et al., (2010) Neuroimage, 53 (3), 1064-9; Herve Lemaitre, et al., (2005) Neuroimage, 24 (4), 1205-13). 또한, APOE e4는 건강한 노년층 및 경도인지장애가 알츠하이머병으로 전환되는데 관여하는 것으로 나타났다(Wang et al., 2011). e4 대립유전자의 위험성은 인종 그룹(ethnic group) 간 차이가 있는 것으로 보고되었다(C J Brainerd, et al., (2013) Neuropsychology, 27 (1), 86-94; R Heun, et al., (2010) Eur Psychiatry, 25 (1), 15-8). 그러나, APOE e4를 기반으로 하는 예측의 경우도, 치매에 대한 유전적 영향도의 20% 이내에서만 설명 가능하다. 이처럼, 알츠하이머병에 대한 e4-매개 위험도 및 가능성 있는 유발 인자에 대해서는 여전히 명확하게 밝혀지지 않고 있다.

한편, 대한민국 등록특허 10-1335021은 알츠하이머병 또는 경도인지장애(mild cognitive impairment)가 있는 환자와 APOE rs405509의 T/G 이형접합의 관련성에 대해 기술하였다. 대한민국 등록특허 10-1250464는 APOE 프로모터에 위치하는 유전자 단일염기변이가 APOE E4/E4 동형접합체(homozygote)의 인종별 위험도 차이를 설명할 수 있고, 그 대립형질 또는 대립유전자에 따라서 대뇌피질 두께의 차이를 나타내는 것을 확인하였다.

TOP3B(DNA topoisomerase III beta) 유전자는 전사 중에 DNA의 위상 상태를 조절하고 변경시키는 효소인 DNA 토포이소머라제(DNA topoisomerase)를 코딩하는 유전자를 의미한다. DNA topoisomerase는 가닥이 서로 통과할 수 있도록 DNA의 단일가닥을 일시적으로 절단하고 재결합하여 슈퍼코일(supercoil)을 완화시키고 DNA의 위상을 변경시킨다. 세포 내에서 DNA 복제 또는 전사가 수행될 때 염색체의 초꼬임 상태(superhelicity)를 이완 또는 복원시켜 적절한 DNA 슈퍼코일을 유지시키는 것이다. 이 효소는 DNA helicase SGS1과 상호작용하며 DNA 재조합, 세포 노화 및 게놈 안정성 유지에 중요한 역할을 한다. 이 유전자의 C-말단의 다른 스플라이싱은 뚜렷한 조직 특이성을 갖는 3개의 전사 변이체를 생성한다.

진핵세포의 토포이소머라아제 III는 반복된 염기서열간의 hyper-recombination을 유발하는 돌연변이에 의하여 출아형 효모에서 그 유전자가 처음 확인되었고, 이 후 포유동물 DNA 토포이소머라아제 III 유전자 역시 클론 되었는데, 효모의 DNA 토포이소머라아제 III와 달리 고등생물체로 진화됨에 따라 알파와 베타 아이소자임(isozyme)으로 분화되어 있는 것으로 밝혀졌다.

본 발명에 있어서, TOP3B 유전자는 총 길이가 25,823nt이며, 사람의 22번 염색체 내에 존재한다. 염색체 내 TOP3B 유전자의 위치는 GRCh37.p13(Genome Reference Consortium Human Build 37 patch release 13)을 기준으로 22,311,397-22,337,219이다.

본 발명에 있어서, TOP3B 유전자는 이를 포함하는 유전체상에 존재하는 exon, intron, 5’과 3‘ 말단 비전사지역(5’ and 3’ untranslated region; UTR)을 모두 포함한다. 바람직하게는, 상기 TOP3B 유전자는 서열번호 47로 표시되는 염기서열을 포함하는 것을 특징으로 할 수 있다.

이러한 TOP3B 유전자의 치매와의 관련성을 밝힌 문헌은 존재하지 않으며, 본 발명에서 최초로 확인하였다.

본 발명에 따른 치매의 진단 또는 예측을 위한 정보제공방법 또는 진단방법은 상기 TOP3B 유전자에 존재하는 SNV(Single Nucleotide Variant)를 검출하고 그 개수 및 위치를 통해 치매 발병 고위험군 선별법을 제공한다.

따라서, 본 발명에 있어서, 상기 정보제공방법 또는 진단방법은 TOP3B 유전자의 SNV가 3개 이상인 경우 치매 환자 또는 치매 고위험군으로 확인하는 단계를 추가로 포함하는 것을 특징으로 할 수 있다. 바람직하게는 TOP3B 유전자의 SNV가 4개 이상인 경우 치매 환자 또는 치매 고위험군으로 확인하는 단계를 추가로 포함하는 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

본 발명의 일 실시예에서, R 패키지 pROC를 적용한 분석 프로그램을 개발하여 ROC(Receiver Operating Characteristics) 분석을 수행하였으며, TOP3B 유전자내의 SNVs 개수 2.5 기준으로 0.6061의 특이도와 0.9245의 민감도를 확인하였다(도 3). 이에 따라, 2개 이하의 경우 정상인으로 선별할 수 있고, 3 이상이면 치매 환자 또는 치매 발병 고위험군으로 선별이 가능하다.

ROC 분석은 주로 임상 화학, 약리학, 생리학 진단 검사에 사용되는 것으로서, sensitivity(= true positive/(true positive + false positive), 민감도)와 specificity(= true negative/(true negative + false positive), 특이도)를 동시에 나타내는 그래프이다. 이때, x축은 false positive rate(= 1 - true negative rate), y축은 true positive rate가 된다. ROC curve는 그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수하다고 보는데, 이는 ROC 곡선 면적이 1에 가까울수록 성능이 좋다는 것을 의미한다. 진단 검사에 있어서, sensitivity가 specificity보다 중요한 역할을 하는데, sensitivity가 낮다는 것은 false negative, 즉, 질병 위험군이 위험군으로 예측되지 않는다는 것을 의미하기 때문이다. 따라서, 1에 매우 가까운 0.9245의 민감도를 나타낸 본 발명의 정보제공방법 또는 진단방법은 질병의 진단에 있어서 매우 높은 정확도를 나타냄을 시사한다.

또한, 본 발명에 있어서, 상기 정보제공방법 또는 진단방법은 TOP3B 유전자에서 GRCh37.p13(Genome Reference Consortium Human Build 37 patch release 13)을 기준으로 22,311,659; 22,311,776; 22,312,061; 22,312,502; 22,312,378; 22,312,589; 22,312,970; 22,313,743; 22,318,365; 22,312,555; 22,312,531; 22,316,792; 22,311,882; 22,313,733; 22,311,516; 22,312,292; 22,313,669; 22,312,383; 22,330,107; 22,312,568; 22,312,476; 22,318,671; 22,312,668; 22,312,790; 22,318,538; 22,312,484; 22,312,351; 22,312,350; 22,312,315; 22,313,829; 및 22,330,082;로 구성된 군에서 선택되는 위치에 SNV가 검출되는 경우 치매 환자 또는 치매 고위험군으로 확인하는 단계를 추가로 포함하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 위치들은 서열번호 47로 표시되는 염기서열에서 각각 263, 380, 665, 1106, 982, 1193, 1574, 2347, 6969, 1159, 1135, 5396, 486, 2337, 120, 896, 2273, 987, 18711, 1172, 1080, 7275, 1272, 1394, 7142, 1088, 955, 954, 919, 2433, 18686번째 뉴클레오타이드의 위치를 의미한다.

본 발명에 있어서, 상기 TOP3B 유전자의 SNV가 하기 표 1의 SNV에서 선택되는 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

본 발명에 있어서, 보다 정확도 높은 치매 환자군의 선별을 위해 추가적으로 다른 연관 유전자의 SNVs를 첨가하거나 제외할 수 있다.

치매의 진단 또는 예측을 위하여, 본 발명에 따른 TOP3B 유전자 외에 다른 유전자로 APOE, SOL1, CLU, PICALM, CR1, BIN1 등의 유전자의 SNV 검출을 추가로 수행할 수 있다.

차세대 염기서열 분석기술의 발전으로 개인의 유전체를 저렴한 비용에 신속하게 밝히는 단계에 진입하였다. 특정 질환 집단의 전체 유전체 염기서열을 분석하여 염기서열의 변이를 발굴하고 이 변이와 특정 질환의 표현형과의 연관성을 밝히기 위한 연구가 진행되고 있다.

“단일염기변이(Single Nucleotide Variant, SNV)”는 유전체상의 변이 중 단일염기서열이 다른 차이를 보이는 변이를 의미하며, 단일염기다형성(single nucleotide polymorphism, SNP)과 점돌연변이(point mutation)가 여기에 포함된다. 빈도에 제한이 없으며 체세포에서 발생할 수 있다. 체세포의 단일 뉴클레오타이드 변이(예: 암에 의한)는 단일-뉴클레오타이드 변이(single-nucleotide alteration)라고도 한다. 단일염기다형성은 여러 사람의 유전체의 같은 위치에서 특정 염기서열 하나가 다른 염기로 변화되어 다른 형질로 표현되는 것을 의미하며, 인간 유전체 상에 가장 많이 존재하는 형태의 유전자 변이이다. 단일염기다형성은 일반적으로 집단의 1% 이상의 빈도로 나타나며, 1% 이하일 경우는 돌연변이라고 분류한다. 점돌연변이는 하나의 염기서열이 치환, 삽입 또는 결실되어 나타나며 특정 단백질의 생성을 막거나 변형시킬 수 있다.

단일염기변이는 유전체 상에 존재하는 위치와 기능에 따라 분류된다. 또한, 아미노산 서열 변이의 유무에 따라 아미노산의 서열 변이를 일으키지 않는 synonymous SNV(sSNV)와 아미노산의 서열 변이를 일으키는 nonsynonymous SNV(nsSNV)로 분류된다.

3개의 염기서열에 의해 하나의 아미노산이 인식되기 때문에 하나의 염기서열의 치환, 삽입-결실(insertion-deletion, indel)로 생기는 SNV는 경우에 따라서 아미노산의 서열을 바꾸어 생성된 단백질의 기능에 영향을 줄 수 있다. 하나의 염기서열의 치환에 의해 단일염기변이가 일어난 후 아미노산의 염기서열이 바뀌지 않은 경우를 synonymous SNV 혹은 silent SNV라고 한다. 예를 들어 GAC 염기서열이 GAG로 C가 G로 치환된 경우, mRNA의 코돈은 CUG에서 CUC로 바뀌게 되지만 치환 전후 모두 동일한 leucine을 암호화한다. 반면, 하나의 염기서열의 치환에 의해 단일염기변이가 일어난 후 아미노산의 염기서열이 바뀌는 경우가 있는데 이것을 nonsynonymous SNV라고 한다. 예를 들어 GUA 코돈 염기서열이 GUU로 A가 U로 치환된 경우, aspartic acid가 valine으로 바뀌어 암호화되는데, 두 아미노산은 화학적 특성이 매우 다르므로 생성된 단백질의 구조와 기능에 큰 영향을 줄 수 있다. 이렇게 SNV에 의해 다른 아미노산이 암호화된 것을 세분하여 missense SNV라 하고, SNV가 일어난 후 다른 아미노산으로 바뀌는 것이 아니라 종결코돈(stop codon)이 암호화되어 실제보다 짧은 단백질을 생성하게 되는 것을 nonsense SNV라 한다. missense SNV의 대표적인 예로 겸상적혈구 빈혈증을 들 수 있다. β-헤모글로빈 6번째 코돈이 GAG에서 GTG로 치환되어 산성인 글루탐산이 비극성 아미노산인 발린으로 암호화되는데 헤모글로빈의 산소 운반력이 약화되어 빈혈을 유발하고, 적혈구가 긴 낫 모양으로 서로 달라붙어 혈관폐색으로 인한 통증 및 조직 손상이 유발될 수 있다. 단일염기변이 중 indel의 경우 치환보다 더 심각한 변이를 유발할 수 있다. indel의 경우 아미노산 염기서열 배열의 격자이동(frame shift)이 유발되어 SNV 뒤에 번역되는 아미노산이 바뀌게 된다.

유전체상에 존재하는 위치에 따라 암호화하는 exon 부위에 존재하는 SNV를 coding SNV(cSNV)라 하고, intron, 5’과 3‘ 말단 비전사지역(5’ and 3’ untranslated region; UTR)과 같은 비암호화 부위에 존재하는 SNV를 non-coding SNV(ncSNV)라 한다.

서로 다른 두 사람의 전체 유전체를 분석하면 4백만 개 이상의 염기서열 변이가 발견되며(M W Nachman, S L Crowell, (2000) Genetics, 156 (1), 297-304), 이 중 80% 정도는 단일염기변이이다(Pauline C Ng, et al., (2008) PLoS Genet, 4 (8), e1000160). 전체 인간 유전체 상에서 81~93%의 유전자는 적어도 1개 이상의 단일염기변이를 포함하고 있다(Benjamin Lehne, et al., (2011) PLoS One, 6 (6), e20133). 이렇게 엄청난 숫자의 단일염기변이로부터 특정 질환과의 연관성이 있는 의미 있는 단일염기서열 변이를 발굴하는 작업은 매우 큰 도전이다. 그러므로, 먼저 질환과 연관성이 높은 단일염기변이를 선별하는 과정이 선행되어야 한다.

nsSNV는 단백질의 folding, 결합력(binding affinity), 발현정도(expression), 번역 후 변형(post-translational modification) 그리고 기타 단백질의 특성(protein features)에 영향을 줄 수 있고 알려진 유전적 질환의 염기서열변이 중 85% 이상을 차지하고 있으므로 단일염기변이 중 가장 관심이 집중되고 있다. 그러나, synonymous SNV 또한 특정 질환과 연관성이 있다고 보고되고 있으며(Siyuan Zheng, et al., (2014) Cell, 156(6), 1129-1131), ncSNV에 의해 생성된 비번역 RNA나 promoter 등이 전사인자의 결합, gene splicing, mRNA 분해 등에 영향을 줄 수 있으므로, 이로 인한 특정 질환과의 연관성도 간과할 수 없다(Yanyun Ma, et al., (2014) Genet Test Mol Biomarkers, 18 (7), 516-24; Isabel De Castro-Oros, et al., (2014) BMC Med Genomics, 7, 17).

대한민국 등록특허 10-1933847에 의하면, APOE 유전자 및 프로모터의 SNP는 알츠하이머병에서 나타나는 유전적 변이이다. APOE는 APOEε2, APOEε3, APOEε4 세가지 동형질체(isoforms)를 가지는 지질결합단백질(lipid-binding protein)로, APOE 유전자는 세계적으로 각각 8.4%, 77.9%, 및 13.7% 빈도를 갖는 3개의 다형성, e2, e3 및 e4를 갖는다. 이중에서 e4 대립유전자가 산발적 알츠하이머병의 후발성 발병에 대한 가장 강력한 위험요인이다. APOE e4가 내후각피질(entorhinal cortex), 해마곁피질(parahippocampal cortex) 및 설전부(precuneus) 내의 피질 두께를 감소시키는 것을 촉진하는 것이 보고된 바 있다(Markus Donix, et al., (2010) Neuroimage, 53 (1), 37-43). 인지력이 정상인 피험자에 대한 다른 연구는 e4를 지닌 개체가 또한 감소된 피질 두께를 갖는 것을 제시하였다(Baptiste Fauvel, et al., (2014) Neuroimage, 90, 179-88). 또한, e4 대립유전자를 갖는 개체가, 기억 기능에서 중요한 역할을 하는 해마의 심각한 위축과 기억 손상을 나타냈다(Panagiotis Alexopoulos, et al., (2011) J Alzheimers Dis, 26 (2), 207-10). 알츠하이머병에서 e4 빈도는 ~40%까지 극적으로 증가한다. APOE는 19번 염색체 장완(19 q13.2)에 위치하고, 112번(Cys/Arg)과 158번(Arg/Cys) 아미노산이 달라짐으로 인해 형성되는 3가지 대립유전자 e2, e3 및 e4의 조합에 의해 6개의 유전자형(E2/E2, E2/E3, E3/E3, E2/E4, E3/E4, E4/E4) 다형성(polymorphism)이 존재한다. APOE e4 동형접합체(homozygotes)를 갖는 건강한 개체가 감소된 해마 부피를 나타낸 반면에, e4 이형접합체(heterozygotes)는 건강한 노년층 그룹에서 e4를 보유하지 않은 피험자와 차이를 보이지 않았다(M R Farlow, et al., (2004) Neurology, 63 (10), 1898-901). 또한, APOE e4는 건강한 노년층 및 경도인지장애가 알츠하이머병으로 전환되는데 관여하는 것으로 나타났다. 그러나 APOE e4를 기반으로 하는 예측의 경우도, 치매에 대한 유전적 영향도의 20% 이내에서만 설명 가능하다. 이처럼, 알츠하이머병에 대한 e4-매개 위험도 및 가능성 있는 유발 인자에 대해서는 여전히 명확하게 밝혀지지 않고 있다.

한편, 대한민국 등록특허 10-1933847은 APOE E4 유전자 변이뿐만 아니라, APOE 유전자 주변인 APOE 프로모터의 rs405509 T 대립유전자에서 APOE E4의 치매 위험도에 영향을 줄 수 있는 유전변이들을 기술하였다. 상기 SNP는 인간 유전자 지도 GRCh38.p7 버전을 기준으로 할 때, 염색체 19번 44905579에 위치한다. APOE 프로모터 및 인트론 영역내의 다형성이 AD 발병에서 APOE e4의 영향을 조절하는 것이 보고된 바 있다(Lars Bertram, et al., (2007) Neurobiol Aging, 28 (1), 18.e1-4; J-C Lambert, et al., (2002) Neurology, 59 (1), 59-66; Francesco Lescai, et al., (2011) J Alzheimers Dis, 24 (2), 235-45). 프로모터 내의 2개의 SNPs(rs449647 및 rs405509) 및 인트론 내의 하나의 SNP(rs440446)가 알츠하이머병에 대한 APOE 엡실론 변이의 영향을 조절하는 것으로 평가되었다. -491AA 유전자형 및 -219TT 유전자형이 APOE 엡실론 유전자형과 독립적으로 AD 위험도를 높이는 것으로 보고된 바 있다(Anna Limon-Sztencel, et al., (2016) Alzheimers Res Ther, 8 (1), 19). 또한, rs405509가 인지력에 대한 영향에 있어 APOE e4와 시너지 작용을 하는 것이 보고되었다(C Ma, et al., (2016) Eur J Neurol, 23 (9), 1415-25). APOE e4와 함께 rs405509-TT를 지닌 개체가 rs405509 G-대립유전자를 지닌 개체와 비교하여 연령 의존적으로 피질 두께의 위축을 나타내는 것이 발견되었다(Ni Shu, et al., (2015) Hum Brain Mapp, 36 (12), 4847-58). rs405509-TT 유전자형의 개체가 알츠하이머병과 고도로 연관되고, e4 동형접합체 중에서 G-대립유전자를 지닌 개체와 비교하여 피질 두께 및 해마부피에서 보다 더 강한 위축을 초래하는 것을 밝혔다. 특히, 이러한 피질두께 감소 패턴은 중막측두피질(medial temporal cortex)(내후각 및 해마곁 영역) 및 설전부(precuneus)에서 관찰되었으며, 해마곁 영역에서의 위축은 이전 연구(Ni Shu, et al., (2015) Hum Brain Mapp, 36 (12), 4847-58)와 유사하다. 또한, rs405509-TT는 사람 뇌 및 혈청에서 감소된 APOE 발현을 유도한다.

한편, 치매의 유전적 요인과 관련하여, 연령, 가족성이 있는 경우, apolipoprotein E(APOE)의 ε4 대립유전자가 확인되었을 뿐 다른 요인에 대해서는 아직은 확실한 연관성이 제시되지 못하고 있다. 상염색체 우성(autosomal dominant)으로 유전되는 가족성 AD의 유전적 연구에서, 65세 이전 질병을 일으키는(early-onset AD, EOAD) 원인유전자로 amyloid precursor protein(APP), presenilin 1(PS1), presenilin 2(PS2)의 돌연변인 유전자들이 있고, 65세 이후 AD 발현(late-onset AD, LOAD)과 관련이 되는 감수성 유전자(susceptible gene)로 APOE의 다형성(polymorphism)이 있다(Seung Hwan Lee, Kun Woo Park, (2008) J Korean Geriatr Soc, 12(1):5-10).

APP 유전자는 770개의 아미노산을 코딩하는 유전자로, 인간의 제21번 염색체(chromosome) 21q21.1에 위치하고 있다. 아밀로이드 가설(amyloid cascade theory)에 따르면, β-아밀로이드의 생성과 관련된 APP 대사의 이상으로 뇌조직과 뇌혈관에 아밀로이드 침착이 일어나고, 이것이 알츠하이머병의 발병에 중요한 역할을 하는 것으로 생각되고 있다(D J Selkoe, (1991) Neuron, 6 (4), 487-98). APP는 3가지 종류의 단백질 대사효소(α-, β-, γ-secretase)에 의해 분해가 되며, nonamyloidogenic product인 Aβ40은 용해되기 쉬운 반면, amyloidogenic product인 Aβ42는 β-아밀로이드 침착을 일으키려는 경향이 커 섬유다발 형성을 잘한다. 현재까지 18개의 돌연변이 유전자가 발견되었으며, 이것들은 효소의 활성에 영향을 끼쳐, Aβ42의 생성을 증가시키며, 조직내에 노인성 플라크(senile plaque)와 신경섬유다발(neurofibrillary tangle)을 만드는 것으로 알려졌다.

Presenilin 1(PS1) 및 Presenilin 2(PS2) 유전자 또한 알츠하이머와 관련이 있는 것으로 보고되었다. PS1의 유전자는 제14번 염색체 14q24.3에 위치하고 있으며, PS2는 제1번 염색체 1q31-q42에 존재한다. Presenilin(PSI)은 핵막(nuclear membrane), endoplasmic reticulum, 그리고 Gogi에 존재하며, 8개의 transmembrane domains이 있다. PS1과 PS2유전자는 67%의 아미노산 순서가 일치하며, transmembrane domain은 84%가 일치한다. 현재까지 142개의 PS1의 돌연변이와 10개의 PS2 돌연변이가 발견되었으며, 이들 돌연변이는 APP 대사과정에 영향을 미쳐, Aβ42의 생성을 증가시키는 것으로 알려졌다. APP의 대사 과정 중 정확한 PS의 역할은 아직은 알려져 있지 않지만, γ-secretase의 효소 활성에 관련된 단백질 복합체의 구성 물질로, 유전자변이에 의해 복합체의 구조적인 변형이 나타나고, 이로 인해 단백질간의 상호작용에 이상을 초래하는 것으로 추측되고 있다.

조발성 치매의 원인이 되는 APP, PS1, PS2 유전자 돌연변이의 경우는 알츠하이머병의 발병에 약 5% 미만을 설명할 수 있다. 대부분의 65세 이후에 질병을 일으키는 후발성 치매, 혹은 산발성(sporadic) 알츠하이머병의 경우는 유전자 돌연변이 보다는 APOE 대립유전자의 다형성이 최근 유전적인 요인으로 주목 받고 있다. APOE는 제19번 염색체에 유전자가 위치하고 있으며, 콜레스테롤 수송에 관여되는 단백질로 ε2, ε3, ε4의 세 가지 종류의 대립유전자가 존재한다. APOEε4 동형접합 혹은 이형접합 유전자를 가지는 경우 85세까지 AD가 나타날 확률이 90% 이상이고, ε2나 ε3의 유전자를 가진 사람보다 10년 빨리 AD로 발전할 수 있다는 보고가 있고, ε4의 유전자 발현은 일반인에게 약 15%로 AD의 유전적 위험 요인의 약 50%와 관련된다고 밝혀진 바 있다. 또한 AD 환자의 뇌조직이나, 뇌혈관 내에 존재하는 노인반 혹은 신경섬유 다발과 APOE와의 immunoreactivity 연구에서도 ε4가 다른 ε2나 ε3보다 연관성이 있는 것으로 알려졌다. 또한, APOE는 APP에 대한 γ-secretase 작용을 감소시킨다는 연구 결과도 있다(J Poirier, (1994) Trends Neurosci, 17 (12), 525-30). APOE의 유전자는 결정인자(determinant)라기 보다는 감수성인자(susceptibility)로 이해하여야 한다.

현재까지 후발성 치매와 관련되어 염색체 9, 10, 12번에 존재하는 유전자의 연구가 보고되고 있다. 예로 β-아밀로이드의 침착에 영향을 미치는 것으로 추정되는 ubiquilin 1(Mikko Hiltunen, et al., (2006) J Biol Chem, 281 (43), 32240-53), β-아밀로이드의 분해에 관여되는 것으로 추측되는 insulinedegrading enzyme(W Q Qiu, et al., (1998) J Biol Chem, 273 (49), 32730-8) 등 100여개 이상의 유전자가 연구되고 있다. 그러나 여러 연구에서 이들 유전자와 후발성 치매의 관계에 상반되는 보고들로, APOE와 같이 연관성이 확립되지는 않은 상태이다(Alessandro Serretti, et al., (2007) J Alzheimers Dis, 12 (1), 73-92).

한편, 성장 인자 수용체 결합 단백질 2(growth factor receptor-bound protein-associated binding protein 2, GAB2)는 APOE 엡실론 4 캐리어에서 LOAD 위험을 수정하고 알츠하이머병의 신경 병리학에 영향을 미친다. 포스파티딜 이노시톨 결합성 Clathrin 조립 단백질(phosphatidylinositol binding clathrin assembly protein, PICALM) 및 sortilin 관련 수용체(sortilin-related receptor, SORL1) 변이종이 AD와 관련이 있는지를 보다 정확하게 평가하기 위해 메타 분석이 수행되었다. 이에 따르면, PICALM에서 rs3851179의 대립유전자 T는 AD의 위험이 13% 증가한 것과 관련이 있었다. 또한, SORL1의 7가지 SNP는 AD와 유의한 관련이 있었다. rs1010159^*T, rs641120^*A, rs668387^*T 및 rs689021^*A를 포함한 4개의 SNP는 AD의 위험 감소와 관련이 있는 반면, rs12285364^*T, rs2070045^*G 및 rs2282649^*T를 포함한 3개의 SNP는, 모두 AD의 위험 증가와 관련이 있었다. 상기 연구의 결과는 여러 유전자 변이가 AD와 연관되어 있음을 시사한다(Ziran Wang, et al., (2016) Mol Neurobiol, 53 (9), 6501-6510). rs3851179(PICALM), rs12285364(SORL1), rs2070045(SORL1) 및 rs2282649(SORL1)의 SNP는 AD의 위험 증가와 관련이 있는 반면, SORL1 rs1010159, rs641120, rs668387 및 rs689021은 AD의 위험 감소와 관련이 있는 것을 알 수 있다.

“단일염기다형성(Single Nucleotide Polymorphism, SNP)”이란 게놈(genome)에서 단일염기(A, T, C 또는 G)가 종의 멤버들 간 또는 한 개체(individual)의 쌍 염색체 간에 다른 경우에 발생하는 DNA 서열의 다양성을 의미한다. 예를 들어, 서로 다른 개체의 DNA 단편들(예: TGTG[G/T]AAAG, G/T는 상보적인 염기)처럼 단일염기에서 차이를 포함하는 경우, 두 개의 대립유전자(G 또는 T)라고 부르며, 일반적으로 거의 모든 SNP는 두 개의 대립유전자를 가진다. 한 집단(population)내에서, SNP는 소수 대립인자 빈도(minor allele frequency, MAF; 특정 집단에서 발견되는 유전자좌(locus)에서 가장 낮은 대립인자 빈도)로 할당될 수 있다. 인간 집단 내에서 변이(variations)가 존재하며, 지질학적 또는 민족적 군에서 공통적인 하나의 SNP 대립유전자는 매우 희귀하다. 단일염기는 폴리뉴클레오타이드 서열에 변화(대체), 제거(결실) 또는 첨가(삽입)될 수 있다. SNP는 번역 프레임의 변화(inframe shift)를 유발할 수 있다.

SNP는 유전체상에 존재하는 위치와 기능적 측면에서 여러 종류로 나눠 볼 수 있다. 유전체 상에 존재하는 위치에 따라 분류해보면 regulatory SNP(rSNP)는 유전자의 프로모터 부위에 위치하여 유전자의 발현을 조절하는 기능을 지닌 SNP를 말한다. 또한 SNP는 유전자의 코딩 서열, 유전자의 비 코딩 영역 또는 유전자 간 영역(유전자 사이의 영역)에 속할 수 있다. Coding SNP(cSNP)는 유전자를 코딩하는 엑손(exon)부위에 존재하는 SNP를 지칭하고, intron SNP(iSNP)는 인트론(intron)에 위치하는 SNP를 지칭하며, genomic SNP(gSNP)는 유전자와 유전자 사이의 intergenic region에 존재하는 SNP를 말한다.

이 가운데 유전자의 기능 변화에 직접적으로 관여하며 발현을 조절할 수 있는 exon 앞에 위치하는 rSNP와 cSNP가 표현형의 변화를 초래할 수 있는 기능적 SNP일 가능성이 매우 높은데, 이는 rSNP와 cSNP에서의 변화는 기능적 아미노산 서열에 변화를 초래할 가능성이 높기 때문이다. 그러나 유전암호의 중복성(codon degeneracy)으로 인해 유전자의 코딩 서열 내의 SNP가 반드시 타겟 단백질의 아미노산 서열 상에 변화를 일으키는 것은 아니다.

인간 DNA 서열의 다양성은 인간이 어떻게 질병을 일으키고 병원균, 화학 물질, 약물, 백신 및 기타 매개체에 반응하는지에 영향을 미칠 수 있다. SNP는 맞춤형 의약의 개념을 실현하기 위한 중요한 도구(keyenabler)로 생각되고 있다. 무엇보다도, 최근에 마커로서 활발하게 개발되고 있는 SNP는 질병을 가지거나 또는 가지지 않는 군들 간에 게놈 부위를 비교함으로써 질병을 진단하는 생의학적 연구에서 매우 중요하다.

모든 유형의 SNP는 관찰 가능한 표현형을 가질 수 있거나 질병을 유발할 수 있다. 비 암호화 영역의 SNP는 암 위험이 더 높을 수 있으며, mRNA 구조와 질병 감수성에 영향을 줄 수 있다. 비 암호화 SNP는 eQTL(expression quantitative trait locus)과 같이 유전자의 발현 수준을 변경할 수도 있다. 암호화 지역의 SNP의 경우, 동의적 치환(synonymous substitutions)은 단백질 내의 아미노산을 변화시키지는 않지만 여전히 다른 방식으로 그의 기능에 영향을 미칠 수 있다. 예를 들어, 다제내성유전자 1(multiple drug resistant gene 1, MDR1)에서 침묵 돌연변이가 있을 수 있는데, 이는 세포로부터 약물을 방출하는 세포막 펌프를 암호화하고, 번역 속도를 늦추고 펩타이드 사슬을 비정상적인 형태로 접히도록 허용한다. MDR1 단백질에서 C1236T 다형성은 폴리펩티드의 아미노산 위치 412에서 GGC 코돈을 GGT로 변화시키고(둘 다 글리신을 코딩한다)(G Gumus-Akay, et al., (2008) Genet Mol Res, 7 (4), 1193-9), C3435T 다형성은 1145 위치에서 ATC를 ATT로 변화시킨다(둘 다 이소루신을 코딩한다)(Ji Woong Sohn, et al., Tuberc Respir Dis 2005; 58:135-141). 비동의적 치환의 예로는 LMNA 유전자의 c1580 G>T SNP로, DNA 서열(CGT 코돈)의 1580 위치(nt)로 인해 구아닌이 대체될 수 있는 단백질의 아미노산 및 그 오작동의 원인이 된다. DNA 서열에서 CTT 코돈을 생성하는 티민과 함께, 아르기닌이 527 위치의 루신에 의해 치환되는 단백질 수준을 나타내며, 표현형 수준에서 이것은 중첩하는 mandibuloacral dysplasia 및 progeria 증후군에서 나타난다.

SNP와 질병 관련 유전자에 관한 연관성 연구가 활발히 진행 중에 있다. SNP 발굴을 위한 사업이 진행되어 총 180만 개의 SNP를 발굴하였다. 유전변이형 정보를 체계적으로 수집하고 일반 연구자에게 전달하기 위해서 만들어진 NCBI의 dbSNP에 의하면 현재 dbSNP에 등록된 수가 무려 2,365만개 이상으로 조사되었고(dbSNP build 131; 2010년5월기준), 향후 지속적인 발굴로 그 수는 더욱 늘어날 것으로 예측된다.

SNP genotyping(SNP 유전형분석)은 한 종의 구성원간 단일염기다형성(SNP)의 유전적 변이를 측정하는 것이다. 이는 보다 일반적인 유전적 변이를 측정하는 유전형 분석의 한 형태이다. SNP는 많은 인간 질병의 병인에 관여하는 것으로 밝혀졌으며, 약리 유전학과 관련하여 특히 관심이 높아지고 있다. SNP는 진화 과정에서 보존되기 때문에, quantitative trait loci(QTL) 분석 및 microsatellites 대신 연구에 사용하기 위한 마커로 제안되었다. HapMap 프로젝트에서 SNP의 사용이 확대되고 있는데, 이 프로젝트는 인간 게놈의 유전형 분석에 필요한 최소한의 SNP 세트를 제공하는 것을 목표로 한다. SNP는 또한 신원 확인에 사용하기 위해 유전자 지문(genetic fingerprint)을 제공할 수 있다(Harbron S; Rapley R (2004). Molecular analysis and genome discovery. London: John Wiley & Sons Ltd.). SNP에 대한 관심의 증가는 다양한 SNP 유전형분석 방법의 발전으로 반영되었다.

SNP 분석에는 다양한 방법이 이용되고 있다. 지금까지 개발되고 이용중인 대부분의 방법은 PCR 방법에 기초하여 여러 시료에 대한 한정된 수의 SNP 분석이 주를 이루고 있으나, DNA array를 이용해 동시에 많은 수의 SNP를 분석하거나 MALDI-TOF와 같은 초정밀 분석장비를 이용한 분석방법도 많이 이용되고 있다. SNP genotyping의 원리에는 시료의 준비방법과 검색방법의 차이에 따라 Allele-Specific Hybridization, Primer Extension, Allele-Specific Oligonucleotide Ligation, Cleavage 등 4가지가 있다(이종극/질병유전체분석법3(Genetic Variation and Disease)).

PCR을 기초로 한 주요 SNP 분석법은 SSCP(Single Strand Conformation Polymorphism), AFLP(Amplified Fragment Length Polymorphism), RFLP(Restriction Fragment Length Polymorphism), RAPD(Random Amplified Polymorphic DNA), AS-PCR(Allele-Specific PCR) 등이 있다.

SSCP(single-strand conformation polymorphism 또는 single-strand chain polymorphism)는 SNP genotyping에 많이 이용되는 방법으로, 특정 실험 조건 하에서 서열의 차이에 의해 유도된 동일 길이의 단일가닥 염기서열의 형태적 차이로 정의된다. 이 특성은 서로 다른 형태에 따라 단편을 분리하는 겔 전기영동에 의해 서열을 구별할 수 있게 한다(M Orita, et al., (1989) Proc Natl Acad Sci U S A, 86 (8), 2766-70). PCR로 해당 부위를 증폭한 뒤 이중나선 DNA를 높은 온도 조건(94℃)에서 변성(denature)시켜 단일가닥(single strand)으로 만든 뒤 빠르게 냉각시켜 단일가닥 서열 특유의 입체구조를 형성하게 한다. 이를 denaturing polyacrylamide gel에서 전기영동 하면 서열 상의 차이가 존재하는 각각의 단일가닥은 서로 다른 이동상을 가지게 된다. 길이가 같더라도 그 안에 서로 다른 염기구조를 가지게 되면 이동상에서 구별이 되므로 샘플 사이의 이동속도를 비교하여 변이를 확인할 수 있다.

AFLP(amplified fragment length polymorphism)는 1990년대 초 Keygene에 의해 개발되었으며(“Keygene.com”. Retrieved 10 February 2013), 결과 데이터는 길이 다형성(length polymorphisms)으로 기록되지 않고, 존재-부존재 다형성(presence-absence polymorphisms)으로 기록된다(P Vos, et al, (1995) Nucleic Acids Res, 23 (21), 4407-14). 게놈 DNA를 분해하기 위해 제한효소(restriction enzyme)를 사용하며, restriction fragment의 sticky end에 adaptor를 연결한다. 이어서, restriction fragment의 subset가 증폭되도록 선택된다. 인식부위가 많지 않은 특정 제한효소로 절단된 DNA의 단편들에 adaptor를 붙인 다음, adaptor의 염기서열을 바탕으로 제작된 primer를 사용하여 각 단편들을 증폭시켜 얻어지는 band pattern의 차이를 비교하는 것이다. AFLP는 randomly amplified polymorphic DNA(RAPD), restriction fragment length polymorphism(RFLP) 및 microsatellites와 같은 다른 마커 기술과 비교할 때 많은 장점이 있다. AFLP는 다른 기술에 비해 전체 게놈 수준에서 더 높은 재현성, 분해능 및 민감도를 가질 뿐만 아니라(UG Mueller, LL Wolfenbarger, (1999) Trends Ecol Evol, 14 (10), 389-394), 한 번에 50 내지 100개의 단편을 증폭할 수 있는 능력을 가지고 있다. 또한, 증폭을 위해서 이전의 서열 정보가 필요하지 않다(Heidi M Meudt, Andrew C Clarke, (2007) Trends Plant Sci, 12 (3), 106-17). 다형성이 드문 계통에 적용할 수 있을 뿐 아니라 양 말단의 DNA 염기서열을 알지 못하는 제한효소 단편을 증폭시킬 수 있다는 장점이 있다.

RFLP(restriction fragment length polymorphism)는 제한효소(restriction endonuclease) 처리에 의한 DNA fragment 길이 차이를 확인하여 SNP를 typing하는 방법이다. PCR을 통해 증폭된 DNA fragment 상에 존재하는 SNP 부위가 특정 제한효소에 의하여 구별될 수 있는 경우에 이용된다. 증폭된 fragment의 SNP에 의하여 특정 제한효소에 대한 restriction site의 sequence가 달라져 두 SNP allele의 fragment 길이의 차이가 발생하여 agarose gel 상에서 쉽게 확인할 수 있다. 많은 종류의 제한효소가 시판되고 있고 원하는 sequence에 작용하는 인식부위를 찾아주는 software가 web 상에서 무료로 제공되고 있어 손쉽게 이용할 수 있다. 그러나 30~40%의 SNP는 restriction site를 가지고 있지 않은데, 이를 해결하기 위해서 primer 상에 1~2bp의 변화를 주어 실재하지 않는 restriction site를 만들어 typing에 이용하기도 한다(primer mutagenesis).

RAPD(Random Amplified Polymorphic DNA)는 PCR의 일종이지만, 증폭되는 DNA 부분은 random이다. 임의의 짧은 프라이머(8~12bp)를 이용하여 상보적인 염기서열에 의해 match되는 부위만을 증폭시키게 된다. 이 방법은 agarose gel에서 나타나는 DNA 절편의 패턴을 조사하면 되기 때문에 매우 간단하다. 하지만 아주 작은 primer 단편들은 DNA에 대해 대략 70%의 상동성만 지니고 있으면 증폭이 가능하기 때문에 극도의 세심한 실험 조건을 필요로 한다. 이런 단점을 극복하기 위해 증폭된 부위의 말단 염기서열을 분석한 다음 특이적인 primer로 재합성하여 사용한다면 재현성에 전혀 문제가 없기 때문에 연관분석 연구에는 충분히 사용할 수 있는 방법이다.

AS-PCR(allele-specific polymerase chain reaction)은 ethidium bromide로 염색된 agarose 또는 polyacrylamide gel에서 PCR 산물을 분석함으로써 DNA의 임의의 점 돌연변이를 직접 검출할 수 있는 PCR의 응용 방법이다(Luis Ugozzoli, R. Bruce Wallace, Allele-specific polymerase chain reaction, Methods, Volume 2, Issue 1, February 1991, Pages 42-48). PCR 증폭에서 primer의 3’ 말단(end)이 반드시 DNA template와 상보적이어야 한다는 것에 기초하고 있다. A(adenine)과 C(cytosine)의 SNP가 있을 경우 3’ 말단이 A로 끝나는 primer와 C로 끝나는 primer를 제작하여 증폭하게 되면 각각의 primer와 상보적인 DNA만 증폭되므로 SNP typing이 가능해진다.

이 외에도 형광 dye를 이용하여 Real-time PCR을 통해 분석하는 방법도 이용되고 있다.

본 발명의 일 실시예에서, TOP3B를 포함한 132개의 신경계 유전질환 관련 후보 유전자를 선정하여 이에 대한 타겟 시퀀싱을 수행하였다. 시퀀싱 라이브러리는 Illumina 社(San Diego, CA, USA)의 TruSeq Nano DNA Library Prep Kits를 이용하였고 132개의 유전자에 대한 타겟 농축(targeted enrichment)을 위하여 IDT 社(Coralville, IA, USA)의 xGen 잠금 프로브(lockdown probes)를 사용하였다. Beckman Coulter 社의 Agencourt AMPure protocol을 따라 정제한 후, Illumina p5와 p7 프라이머를 이용하여 증폭시켰으며, qPCR 및 KAPA Library Quantification kit(KAPA Biosystems, Boston, MA, USA)로 정제 및 정량을 하였다. 최종적으로 Post-enriched 라이브러리 NGS 분석은 Illumina 社의 NextSeq 550을 이용하였다.

본 발명에 있어서, 상기 TOP3B 유전자의 SNV를 검출하는 단계는 상기 유전자를 증폭하고, 상기 증폭된 산물의 시퀀싱(sequencing) 데이터를 이용하여 유전자 돌연변이를 분석하는 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

본 발명에 있어서, 상기 시퀀싱은 생어 염기서열 분석(Sanger sequencing) 또는 차세대 염기서열 분석(next generation sequencing; NGS)인 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 TOP3B 유전자의 SNV를 검출하는 단계는 TOP3B 유전자에 대한 프라이머를 이용할 수 있으며, 한 쌍(pair) 이상의 프라이머 세트를 이용할 수도 있다. 상기 프라이머는 TOP3B 유전자를 증폭시킬 수 있는 서열이면 제한 없이 이용가능하나, 바람직하게는 상기 표 1에 기재된 TOP3B 유전자의 SNV 중 어느 하나 이상을 증폭할 수 있는 프라이머 세트인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

본 발명에 있어서, 상기 TOP3B 유전자의 SNV를 검출하는 단계는 TOP3B 유전자에 대한 프로브를 이용할 수 있으며, 상기 프로브는 상기 표 1에 기재된 TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다. 본 발명에 있어서, 상기 프로브의 5' 말단에는 리포터(reporter)가 부착될 수 있으며, 형광을 나타내는 다른 형광 물질이 부착될 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 상기 리포터는 FAM, JOE, BHQ1, VIC, TAMRA, ROX, NED, HEX, TET, 플루오레신(fluorescein), 플루오레신 클로로트리아지닐(fluorescein chlorotriazinyl), 로다민 그린(rhodamine green), 로다민 레드(rhodamine red), 테트라메틸로다민(tetramethylrhodamine), FITC, 오레곤 그린(Oregon green), 알렉사 플루오로(Alexa Fluor), 텍사스 레드(Texas Red), 시아닌(Cyanine) 계열 염료 및 씨아디카르보시아닌(thiadicarbocyanine) 염료로 구성된 군에서 선택된 하나 이상일 수 있다. 또한, 상기 프로브의 3’ 말단에는 퀀쳐(quencher)로서 블랙홀 퀀쳐-1(Black Hole Quencher-1, BHQ-1)이 부착되어 있을 수 있고, 퀀쳐로서 사용될 수 있는 다른 물질이 부착될 수 있으며, 이에 한정되지 아니한다. 예를 들면, 상기 퀀쳐는 답실(Dabcyl), TAMRA, Eclipse, DDQ, QSY, 블랙베리 퀀쳐(Blackberry Quencher), Qxl, 아이오와 블랙(Iowa black) FQ, 아이오와 블랙 RQ 및 IRDye QC-1로 이루어지는 군으로부터 선택된 하나 이상일 수 있다.

상기 표 1에 기재된 SNV 위치를 특이적으로 증폭할 수 있는 프라이머 세트 및 상기 표 1에 기재된 TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브를 디자인하는 것은 본 발명이 속하는 기술분야의 통상의 기술자라면 쉽게 도출할 수 있으며, 상기 프라이머 세트 및 프로브는 실시간 PCR(real time polymerase chain reaction)에 사용할 수 있고, 더욱 바람직하게는 동시다중(multiplex) 실시간 PCR에 사용할 수 있다.

본 발명에 있어서, 상기 TOP3B 유전자의 SNV를 검출하는 단계는 중합효소연쇄반응(polymerase chain reaction), 핵산 분해(nuclease digestion), 혼성화(hybridization), 서던 블로팅(Southern blotting), 제한효소 단편다형성(restriction enzyme fragment polymorphism), 프라이머 확장(primer extension), 단일가닥 형태 다형성(single stranded conformation polymorphism) 또는 상기 방법들을 함께 사용하여 분석하는 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다. 이미 알려진 분자생물학적인 방법을 함께 사용하여 분석할 수 있다.

본 발명에 있어서, 상기 “동시다중(multiplex) PCR”이란 PCR에 사용되는 프라이머 두 세트 이상이 하나의 증폭 반응에 사용되는 것을 의미한다.

본 발명에 있어서, 상기 생물학적 시료는 혈액, 모발, 타액, 소변, 정액, 질 세포, 구강세포, 태반세포 또는 태아세포를 포함하는 양수 및 이의 혼합물로 구성된 군에서 선택되는 시료로부터 분리된 핵산 시료인 것을 특징으로 할 수 있다. 상기 핵산은 게놈 DNA, cfDNA(cell free DNA), RNA 또는 micro RNA인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

상기 핵산은 당업계에 공지된 통상적인 방법을 통해 수득할 수 있다. 예컨대, 상기 조직에 DNA 용해 완충액(예컨대, tris-HCl, EDTA, EGTA, SDS, 디옥시콜레이트(deoxycholate), 및 트리톤X(tritonX) 및/또는 NP-40을 포함)을 처리하여 DNA를 분리할 수 있으나, 이에 한정되지 않는다.

본 발명의 일 실시예에서, 게놈 DNA 단편은 (i) 상기 시험 샘플로부터 세포 DNA를 단리하는 단계; 및 (ii) 상기 세포 DNA를 단편화하여 상기 게놈 DNA 단편을 수득하는 단계를 포함하는 단계에 의해 수득될 수 있다.

본 명세서에 기재된 용어 “증폭”은 핵산 분자를 증폭하는 반응을 의미한다. 다양한 증폭 반응들이 당업계에 보고되어 있으며, 이는 중합효소 연쇄반응(PCR)(US 4,683,195, 4,683,202, 및 4,800,159), 역전사-중합효소 연쇄반응(RT-PCR) (Sambrook et al., Molecular Cloning. A Laboratory Manual, 3rd ed. Cold Spring Harbor Press(2001); WO 89/06700; 및 EP 329,822의 방법, 리가아제 연쇄 반응(ligase chain reaction; LCR) Gap-LCR(WO 90/01069), 복구 연쇄 반응(repair chain reaction; EP 439,182), 전사-매개 증폭(transcriptionmediated amplification; TMA, WO 88/10315), 자가 유지 염기서열 복제(self sustained sequence replication, WO 90/06995), 타깃 폴리뉴클레오티드 염기서열의 선택적 증폭(selective amplification of target polynucleotide sequences, 미국특허 6,410,276), 컨센서스 서열 프라이밍 중합효소 연쇄 반응(consensus sequence primed polymerase chain reaction(CP-PCR), US 4,437,975), 임의적 프라이밍 중합효소연쇄 반응(arbitrarily primed polymerase chain reaction(AP-PCR), US 5,413,909 및 5,861,245), 핵산 염기서열 기반 증폭(nucleic acid sequence based amplification(NASBA), US 5,130,238, 5,409,818, 5,554,517 및 6,063,603), 가닥 치환 증폭(strand displacement amplification)(21, 22) 및 고리-중재 항온성 증폭(loopmediated isothermalamplification; LAMP)(23)를 포함하나, 이에 한정되는 것은 아니다. 사용 가능한 다른 증폭 방법들은 US 5,242,794, 5,494,810, 4,988,617에 기술되어 있다.

사용 가능한 다른 증폭 방법들은 미국특허 제5,242,794, 5,494,810, 4,988,617호 및 미국 특허 제09/854,317호에 기술되어 있다.

PCR은 가장 잘 알려진 핵산 증폭 방법으로, 그의 많은 변형과 응용들이 개발되어 있다. 예를 들어, PCR의 특이성 또는 민감성을 증진시키기 위해 전통적인 PCR 절차를 변형시켜 터치다운(touchdown) PCR, 핫 스타트(hot start) PCR, 네스티드(nested) PCR 및 부스터(booster) PCR이 개발되었다. 또한, 실시간(real-time) PCR, 분별 디스플레이 PCR(differential display PCR: DD-PCR), cDNA 말단의 신속 증폭(rapid amplification of cDNA ends: RACE), 멀티플렉스 PCR, 인버스 중합효소 연쇄반응(inverse polymerase chain reaction: IPCR), 벡토레트(vectorette) PCR 및 TAIL-PCR(thermal asymmetric interlaced PCR)이 특정한 응용을 위해 개발되었다.

PCR에 대한 자세한 내용은 McPherson, M.J., 및 Moller, S.G. PCR. BIOS Scientific Publishers, Springer-Verlag New York Berlin Heidelberg, N.Y. (2000)에 기재되어 있으며, 그의 교시사항은 본 명세서에 참조로 삽입된다.

SNV 또는 SNP 분석은 DNA sequencing을 통해 수행될 수 있다. DNA 염기서열 분석(DNA sequencing)이란 DNA를 이루고 있는 뉴클레오타이드의 핵염기서열 순서를 분석하는 것을 의미한다. DNA는 이중나선 구조로 이루어져 있으며 각각의 단일가닥은 5`-말단과 3`-말단으로 이루어져 있다. 일반적으로 DNA는 DNA 중합효소(DNA polymerase)에 의하여 5`-말단에서 3`-말단 방향으로 합성된다. 이러한 특성을 이용하여 과거로부터 DNA 염기서열을 분석하려는 시도가 계속되어 왔고, DNA 염기서열 분석은 1977년에 거의 동시에 개발된 두 가지 방법에 의해 가능하게 되었다. 첫째는 디디옥시뉴클레오타이드 트리포스페이트(ddNTP)를 이용하여 DNA 사슬 종결(DNA chain termination)을 통해 염기서열을 분석하는 Sanger 방법이며, 다른 하나는 화학제를 이용하여 DNA 내의 특정 염기부위를 절단하여 그 조각을 분석하는 Maxam-Gilbert 방법이다.

생어 염기서열 분석법(Sanger sequencing)은 매우 간편하고 독성이 적어서 비슷한 시기에 개발된 Maxam-Gilbert 법(Maxam and Gilbert, 1977)에 비해 빠르게 보급되었으며, 차후의 다른 방법들도 이 방법에서 변형 및 발전되었다. 이 기술은 DNA 중합 반응(DNA polymerization)에 기초한 것으로서, 서열 분석 대상인 DNA의 단일가닥 부위가 주형(template)으로 사용되며, 이 주형에 상보적인 짧은 올리고뉴클레오타이드가 합성을 개시하기 위한 프라이머(primer)로 사용된다. DNA 중합반응에서 디디옥시뉴클레오타이드 트리포스페이트(dideoxy nucleotide triphosphate, ddNTP)가 사용되면 DNA 사슬의 연장이 종료된다. 디디옥시뉴클레오타이드(dd-nucleotide)는 정상적인 뉴클레오타이드의 ribose의 3` 위치에 -OH기가 H기로 치환되어 있다. 정상적인 DNA 합성과정에서 ddNTPs도 DNA 사슬에 결합할 수 있다. 그러나 DNA 사슬로 들어가고 나면 ddNTPs는 3` 위치에 -OH기가 없으므로 더 이상 다음 뉴클레오타이드가 결합하지 못하여 신장반응이 종결된다.

반응에서는 4가지의 각기 다른 시험관을 사용한다. 각 시험관에는 DNA의 구성성분이 되는 dNTP(dATP, dTTP, dGTP, dCTP)가 공통적으로 들어있다. 각각의 시험관에는 서로 다른 ddNTP 사슬 종결자(chain terminator)가 들어있어서 한 시험관에는 ddATP, 다음 시험관에는 ddTTP, 다음 시험관에는 ddGTP, 다음 시험관에는 ddCTP가 소량씩 들어있다. 나중에 검출을 용이하게 하기 위하여 dNTP 중의 한가지나 또는 primer는 방사능(³²P)으로 표지가 되어야 한다. 예를 들면, ddGTP는 무작위적으로 G자리에 들어가므로 모든 G자리에 이론적으로 ddGTP가 들어갈 수 있다. 이 반응에서 합성되는 각각의 DNA 사슬은 모든 G지점에서 끝나게 되므로 합성된 사슬의 길이를 보면 G가 존재하는 위치를 알 수 있다. 이와 마찬가지로 A시험관에서는 사슬의 중합은 모든 A지점에서 끝날 수 있으며, T시험관에서는 모든 T지점에서, C시험관에서는 모든 C지점에서 끝나게 되어, 각 시험관마다 일련의 서로 길이가 다른 DNA가 만들어진다. 반응 후 각 시험관에서 DNA를 변성시켜 새로 합성된 다양한 가닥이 주형으로부터 떨어져 나오게 한다. A, T, G, C 각 염기 반응시험관마다 다른 lane에서 전기영동 후, 길이에 따라 분리된 DNA 조각들을 자기방사법(autoradiography)으로 관찰한다. 인접한 A, C, G, T 각 lane에서 위치에 따라 이동한 DNA 조각인 band를 차례로 읽으면 DNA 염기서열을 결정할 수 있다.

초기의 Sanger 방식은 생성된 DNA 조각을 polyacrylamide slab gel에서 전기영동으로 분리하고 방사능으로 읽어내는 과정을 따로 수행해야 하기 때문에 조작이 길고 복잡하며 시간과 노동력이 많이 소요되었다(Sun-Il Kwon, (2012) Korean J Clin Lab Sci, 44(4): 167-177; F Sanger, et al., (1977) Proc Natl Acad Sci U S A, 74 (12), 5463-7).

이러한 초기 Sanger 방식의 문제점을 개선하기 위하여, 형광라벨을 도입하고 모세관 전기영동을 결합시켜 반응과 탐색을 부분적으로 자동화시켰다(자동화 염기서열 분석기술 - 1세대 염기서열 분석법). 형광라벨을 각각의 ddNTPs를 구분할 수 있는 표지자로 이용함으로써 하나의 시험관에서 염기서열 분석을 진행할 수 있으며, 모세관 전기영동은 전기영동에 필요한 모세관수를 획기적으로 늘림으로써 분석의 효율을 높였다. 또한 염기서열 분석기뿐만 아니라 주변기기도 자동화되게 되어서 사람의 손으로 하던 클로닝과 염기서열 결정 작업이 상당부분 자동화되었다.

하지만 이러한 자동화에도 불구하고, 기본적으로는 Sanger의 사슬 종결(chain termination)을 이용한 염기서열 분석방법을 그대로 이용하는 것이었기 때문에 인간의 방대한 양의 유전체를 밝히기 위해서는 막대한 시간과 비용이 소요되는 문제점을 여전히 가지고 있었다. 개인의 염기서열을 분석하고 이를 의학을 비롯한 산업에 연계하기 위해서는 적은 시간 및 저렴한 비용을 들여 염기서열을 분석할 수 있는 획기적인 기술 개발의 필요성이 대두되었다. 이러한 문제를 해결하기 위하여 병목이 되고 있는 복잡한 과정을 과감히 없애거나, 시간이 많이 소요되는 과정을 한꺼번에 대량으로 처리할 수 있는 방법이 시도되었다.

현재 가장 많이 이용되고 있는 Illumina 社의 차세대 염기서열 분석법은 검체로부터 DNA를 추출한 이후 기계적으로 조각화(fragmentation) 시킨 이후 특정 크기를 가지는 라이브러리(library)를 제작하여 시퀀싱에 사용한다. 대용량 시퀀싱 장비를 사용하여 한 개의 염기단위로 4가지 종류의 상보적 뉴클레오타이드 결합 및 분리 반응을 반복하면서 초기 시퀀싱 데이터를 생산하게 되고, 이후에 초기 데이터의 가공(Trimming), 매핑(Mapping), 유전체 변이의 동정 및 변이 정보의 해석(Annotation) 등 생물적보학(Bioinformatics)을 이용한 분석 단계를 수행하여 이루어진다.

이러한 차세대 염기서열 분석법은 질병 및 다양한 생물학적 형태(phenotype)에 영향을 미치거나 가능성이 높은 유전체 변이를 발굴하여 혁신적인 치료제 개발 및 산업화를 통한 새로운 부가가치 창출에 기여하고 있다. 차세대 염기서열 분석법은 DNA 뿐만 아니라 RNA 및 메틸화(Methylation) 해독에도 응용될 수 있으며, 단백질을 코딩하는 엑솜(Exome) 영역만을 포획(Capture)하여 시퀀싱하는 전장 엑솜 시퀸싱(Whole-exome sequencing, WES)도 가능하다.

한편, NGS에서 라이브러리 제작(Library preparation)은 시료의 무작위적인 DNA 또는 cDNA 조각에서 5’에서 3’방향의 어댑터(adapter)를 접합하여 서열 분석에 필요한 라이브러리를 준비하는 과정이다. 초기 NGS 라이브러리 제작은 DNA 또는 RNA 시료의 무작위 절단, 3’ 및 5’ 말단 수리(repair), 어댑터 연결(ligation), PCR 증폭 및 정제 과정 등의 복잡한 과정과 하루 내지 이틀의 긴 시간이 필요하였다. Illumina 社에서는 이를 개선하여, “Nextera XT DNA library Preparation”과 같은 tagmentation 방법을 개발하였다. 이는, transposome에 tag(기존의 어댑터)를 결합시킨 복합체를 샘플 DNA에 처리하여, 절단과 어댑터 연결을 동시에 수행한 다음, PCR로 증폭하는 방법으로서, 8개의 샘플에서 라이브러리를 제작할 때 걸리는 시간을 3시간으로 줄이는 성과를 얻었다.

본래 차세대 염기서열 분석(Next Generation Sequencing, NGS)으로 지칭되는 기술은 자동화로는 제2세대 기술에 해당된다. NGS는 이전의 첫 자동화 기기와 구분하고, 이후에 탄생한 Next NGS 기기(차차세대, 혹은 제3세대 NGS라고도 지칭됨)와 따로 구분하기 위하여 불리는 이름이다. 그러나, 효율적인 염기서열 분석기술의 개발경쟁이 가속화되고 새로운 기술의 도입 및 플랫폼의 사용 목적에 기초한 염기서열 분석기술이 지속적으로 개발됨에 따라, 각 세대의 염기서열 분석기술은 그 구분이 모호해지고, NGS는 자동화된 생어 염기서열 분석기술 이후의 염기서열 분석기술을 모두 아우르는 광의의 의미로 사용되고 있다.

NGS에 도입된 기술은 크게 클론 증폭(clonal amplification), 대량병렬법(massively parallel), 바로 읽을 수 있는 새로운 염기서열결정법(비 Sanger법)(base/color calling) 등 3가지로 나눌 수 있다. 클론 증폭은 라이브러리(library) 구축과정을 제거하여 클로닝 과정이 제거되는 효과를 가지며, 대량병렬법은 동시에 수십만 개의 클론을 취급하므로 효율이 향상된다. 바로 읽을 수 있는 새로운 염기서열결정법은 모세관 전기영동 과정이 제거된 효과를 나타낸다.

클론 증폭(clonal amplification)에 의해 주형 clone을 얻는 과정이 단순화되었다. Sanger법으로 시퀀싱을 하려면 약 500염기쌍의 길이를 가진 주형 DNA가 필요하다. BAC library를 구축한 후 subcloning을 통해서 짧은 단편을 cloning한 다음 bacteria에서 증폭해야 한다. 새로운 방법은 번거로운 library 구축과 cloning 과정을 모두 없애고 DNA를 바로 적절히 짧은 단편으로 자른 다음 프라이머를 이용하여 PCR로 바로 증폭하여 주형 clone을 얻을 수 있게 한다. 클론 증폭에는 비드 기반(bead-based), 솔리드-스테이트(solid-satate), DNA 나노볼 생성(DNA nanoball generation)과 같은 전략들이 사용된다.

비드 기반의 클론 증폭의 경우, 에멀젼 PCR을 이용한다. 에멀전 PCR은 게놈 DNA를 단편화(fragmentation)하여 얻은 집합체인 DNA 라이브러리(DNA library)를 기름 속에서 작은 수용액 방울로 공간적으로 분리(separation)한 다음 한쪽 PCR primer가 표면에 수식된 미세비드와 함께 유탁액(emulsion)안에서 증폭한다. 이렇게 만들어진 한 개의 비드에 하나의 단일 DNA 단편에서 유래한 100만개 이상의 클론 DNA 조각이 고정되어 있게 하는 방법이다. 솔리드 스테이트 방법에는 대표적으로 브릿지-증폭방법(Bridge-amplification)이 있다. 브릿지-증폭방법은 단편화한 DNA의 양 말단에 아답터 올리고뉴크레오타이드(adaptor oligonucleotide)를 연결시킨 후, 이를 glass flow cell의 표면에 흘려주면 표면에 고정된 아답터와 상보적인 primer에 무작위로 결합된다. 이 상태에서 PCR을 행하면 주변에 존재하는 free primer에 고정된 DNA의 자유 말단이 결합되어 브릿지 형태를 이루고 증폭이 진행된다. 이렇게 증폭이 진행을 하면 상기 비드와 동일한 역할을 하는 클러스터(cluster)가 형성된다.

NGS는 대량병렬(massively parallel) 방식을 도입하여 상기 클론들을 판상으로 배치하여 염기서열 분석을 진행한다. 주형 clone은 숫자가 매우 많아서 이를 따로 준비하면 시간이 많이 소요된다. 주형에서 염기서열신호를 읽어내는 과정도 효율을 떨어뜨리는 심각한 제한요인이 된다. 수십만 개의 다른 clone을 대량병렬 방식으로 처리하면 시간을 획기적으로 단축할 수 있다.

번거로운 전기영동 과정을 없애기 위해서 주형에 반응을 일으킨 다음, 반응에서 나오는 시그널로 각 주형의 서열정보를 바로 읽는 Sanger법을 탈피한 새로운 방법이 개발되었다. Sanger법을 대체하는 염기서열 결정법은 크게 DNA 결찰(ligation)을 통한 서열 분석 방법(Sequencing By Ligation, SBL)과 중합을 통한 서열 분석 방법(Sequencing By Synthesis, SBS)으로 나뉜다.

SBL 방식은 DNA단편의 반복적인 결찰(ligation)을 이용하는 것으로 주형 DNA에 n개의 염기를 갖는 앵커가 상보적으로 결합되며, 형광라벨로 표지 되는 2개의 무작위적으로 인코딩된 염기(encoded base)와 그 뒤에 따라오는 퇴화염기 또는 범용염기(degenerate or universial bases)를 갖는 프로브가 상기한 비드 나 클러스터가 침전된 DNA 라이브러리 슬라이드에 추가된다. 앵커의 바로 뒤에 따라오는 주형 DNA 단편과 상보적인 2개의 엔코딩된 서열을 가지는 프로브가 앵커에 라이게이션되고, 슬라이드의 형광라벨 이미징을 통해 2개의 인코딩된 염기서열을 분석한다. 2개의 서열이 분석되면 퇴화염기서열과 형광입자는 제거 된 후 프로브를 추가하는 상기 과정을 반복한다. 상기한 n의 앵커 외에 n+2, n+4의 염기를 갖는 앵커를 이용 및 반복적으로 분석하여 전체 주형 DNA단편의 서열을 분석하는 방법이다.

SBS는 다시 사이클릭 리버서블 터미네이션 방식(Cyclic Reversible Termination, CRT)과 단일 뉴클레오타이드 추가 방식(Single Nucleotide Addition, SNA)으로 구분된다.

CRT 방식은 자동화된 Sanger 방식과 유사한 과정을 이용하는데, 솔리드 스테이트 방법을 이용해 증폭된 DNA 클러스터를 갖는 슬라이드에 프라이머, DNA 중합효소, 변형 뉴클레오타이드 혼합물을 추가한다. 상기 변형 뉴클레오타이드는 추가적인 중합과정이 일어날 수 없도록 3`-O-아지도메틸(3`-O-azidomethyl)로 차단되며 각 베이스 특유적인 그리고 추후 제거가능한 형광라벨로 표지 된다. 중합 후 중합되지 않은 베이스는 씻어내고 총 내부 반사형 형광체(total internal reflection fluorescence, TIRF) 현미경을 이용하여 이미징을 통해 염기를 식별한다. 염기가 식별되면, 형광라벨은 분해되고 3′-OH는 환원제 Tris 2-Carboxyethyl)phosphine(TCEP)으로 재생된다. 이러한 과정을 반복하여 전기영동 없이 주형 DNA의 서열을 분석하는 방식이다.

SNA 방식은 DNA 중합효소가 단일 뉴클레오타이드를 붙일 때 생성되는 이온등을 빛으로 전환하여 염기서열을 분석하는 방식이다. SNA방식은 Roche사의 454기기가 이용하는 파이로시퀀싱 방법으로 대표되는데, 이는 뉴클레오타이드가 결합할 때 방출되는 이인산(pyrophosphate)을 빛으로 읽어내는 방식이다. 4가지의 dNTP(A, G, T, C)를 순차적으로 넣어서 반응시키고 씻어내기를 반복하면 중합반응이 될 때마다 빛을 발산하므로 이를 통해 염기서열을 알아내는 방식이다.

SBL을 이용한 대표적인 분석기기로는 구 Life Technologies사의 SOLiD 시리즈가 있으며, SBS를 이용한 대표적 분석기기로는 Illumina사의 Hiseq 시리즈(CRT 방식), Roche사의 454 시리즈(SNA 방식)가 있다.

상기 언급한 NGS 기술들은 공통적으로 복잡한 library 구축과 클로닝 과정을 과감히 버리고 클론증폭기술을 채택하였고, 한꺼번에 대량으로 처리할 수 있는 대량병렬방식(massively parallel sequencing) 기술을 택하였으며, 기존의 Sanger 방식을 탈피한 방법으로 염기서열을 결정하여 번잡한 전기영동과정을 제거하였다. 이렇게 얻어진 DNA 단편 조각의 서열정보를 샷건분석방식(shotgun sequencing)을 사용하여 읽혀진 짧은 read를 컴퓨터로 배열하여 중복된 부분을 찾아 전체를 완성하는 알고리즘을 사용한다.

샷건분석방식(shotgun sequencing)은 커다란 유전자의 DNA 서열의 염기서열을 효율적으로 분석하기 위해 1Gb 이하의 짧은 리드(short-read)를 가진 DNA 단편의 라이브러리를 제작하고 이러한 짧은 리드의 서열 분석 결과를 토대로 각 리드에 중복되는 서열부분을 맵핑하고 배열하는 알고리즘을 통하여 분석하고자 하는 전체 DNA의 서열을 획득하는 방법이다. 짧은 리드를 이용하기 때문에 빠른 시간 내에 DNA 단편의 염기서열을 얻을 수 있지만 고성능의 컴퓨터가 필요하며, 전체 유전자의 크기가 클 경우에 신뢰도가 매우 낮아지는 단점이 있다. 또한 반복적이고 복잡한 영역은 샷건방법을 사용하여 조립하고 해결하는 것이 어려웠다.

NGS 기기들이 기능과 속도가 많이 향상되었지만 맞춤의학시대를 열 수 있는 실질적인 게놈 염기서열 결정 비용 목표인 일인당 1000달러에는 많이 못 미친다. 미국국립인간게놈연구소(National Human Genome Research Institute, NHGRI)의 연구지원과 여러 기관의 경쟁적인 노력으로 NGS를 뛰어넘는 새로운 원리와 개념의 NGS 기기가 개발되고 있다(3세대 이상의 NGS).

상기 기술한 NGS 기술들의 단점을 극복하기 위해 1Gb 이상 또는 1Tb의 긴 리드를 읽는 기술들이 등장하고 있으며, 이로 인한 염기서열 분석의 시간연장을 단축하기 위해 클론 증폭과정 없이 단일 DNA분자 주형(Single DNA template)를 이용하는 방식이 연구되었다. Next NGS 기기에 도입된 기술로는 클론 증폭을 없애는 효과를 갖는 단일 DNA분자 주형사용 기술과 검출감도를 증대시킨 염기검출반응으로 합성이나 분해 시 생성되는 다양한 신호 사용(전류, 빛, 수소이온 등) 기술 등이 있다.

첫째로, 새로운 NGS 기술에서는 상기 기술한 NGS 기술들의 한계를 극복하여 증폭이 없이 단일 DNA 분자로부터 바로 염기서열 분석을 하게 된다. 상기 기재된 짧은 리드를 이용한 NGS에서는 시퀀싱 반응에서 고속 촬영카메라로 충분히 잡힐 수준의 광신호를 생성하기 위하여 주형의 수를 충분히 늘려야 하기 때문에 단일 DNA 단편으로 먼저 클론증폭을 하였다. 그러나 새로운 NGS 기술은 단일 DNA 분자로부터 염기서열을 읽어낸다. 즉, DNA를 1분자 상태로 반응시켜 실시간으로 서열을 읽어낸다. 그리하여 PCR로 하는 클론증폭과정에서 나타날 수 있는 오류와 불균형 증폭 문제를 피하여 정확도를 높이고, 전체 과정을 1단계 줄여 염기서열 결정 속도를 더욱 높이게 되었다. 또한 반응에 관여하는 DNA 분자가 1개이기 때문에 DNA 중합효소, dNTP 등 염기서열을 분석하는데 필요한 시약의 양이 대폭 줄어들게 되었고, 이로 인해 비용의 절감에도 큰 영향을 미칠 수 있다.

둘째로, 염기탐색을 위한 반응의 종류도 다양화되었다. 예를 들면 Pacific Biosciences의 SMRT(Single molecule real-time) 기술은 DNA 1분자를 주형으로 삼고 DNA 합성효소로 합성하여 1염기마다 발생하는 반응을 형광의 파장 변화로 검출하여 실시간으로 염기서열을 결정한다. Oxford Nanopore 시퀀서는 외핵산분해효소(exonuclease)에 의해 잘려진 하나의 염기가 pore를 통과할 때 발생하는 전위변화로 염기를 읽어낸다.

Pacific Biosciences에서는 단일 DNA 분자 서열 분석을 개발하였으며 SMRT(single molecule, real-time) 기술로 불린다. 분석용 칩의 바닥에 한 분자의 DNA 중합효소가 결합되어있고 이곳에서 주형 DNA와 중합 반응을 일으키고 실시간으로 반응을 탐지하여 염기서열을 읽는다. 뉴클레오타이드의 인산기 끝에 형광라벨이 부착되어 염기결합반응이 일어나면 형광라벨이 탈락하여 형광파장이 중단되는데 이를 실시간으로 탐지하여 서열을 분석한다.

옥스포드 나노포어 염기서열 분석기(Oxford Nanopore sequencer)의 염기 결정 방식은 주형에서 DNA를 합성하는 신호를 받는 대신 주형의 뉴클레오타이드를 절단하여 유리된 뉴클레오타이드의 종류를 읽어내는 exonuclease sequencing 방식이다. 나노포어는 전류가 흐르는 통로로서 유리된 뉴클레오타이드가 나노포어를 통과하면 A, T, G, C의 각 염기에 따라 다른 전류가 발생하는데, 이러한 전위의 변화를 감지하는 방식이다. 옥스포드 나노포어 염기서열 분석기는 PCR 증폭과정과 형광이미지 처리과정 모두를 없앤 혁신적인 초소형의 기기이다. 이러한 나노포어는 단백질로 막에 걸쳐서 만드는데 예로서 알파-헤모라이신(α-hemolysin)이 있다. 알파-헤모라이신은 헵타머(heptamer)로 된 단백질 포어로 내경이 DNA 단일 분자와 같다. 이러한 단백질 나노포어 외에도 더욱 정교하고 특이적인 나노포어를 만들기 위해 그래핀(grapheme) 등의 가공을 통한 고체상태의 나노포어도 개발되고 있다.

과거에는 긴 시간과 노력이 필요했던 유전체 전체의 염기서열 분석(Whole Genome Sequencing, WGS) 또는 재염기서열 분석(Resequencing)을 NGS를 이용해 적은 자원으로도 효과적으로 진행할 수 있게 되었다. 뿐만 아니라 그 효율성으로 인해 유전체의 구조, 유전변이, 차별적인 유전자의 발현, 전사 조절에 관한 연구 등 다양한 부분에서 사용되고 있다.

현재까지 SNP 기반 유전형 측정을 위한 다양한 방법들이 보고되어 왔다. 이들 중 NGS를 이용한 SNP 분석방법으로는 제한 효소 기반의 RAD-seq(Restriction site Associated DNA sequencing)가 먼저 개발되었다. 대표적인 분석 프로그램으로는 Julian M. Catchen 등이 발표한 Stacks이 있으며, 이를 이용하여 개체 및 집단에서 SNP를 식별하였다. 다만, RAD-seq 방법은 실험방법이 복잡할 뿐만 아니라, 양질의 결과를 얻기 위해서는 많은 양의 유전체 염기서열 결정을 해야 하기 때문에 상대적으로 효율이 낮다.

이러한 단점을 극복하기 위해 나온 방법이 GBS로 상대적으로 적은 양의 염기서열결정 만으로도 RAD-seq와 동일한 수준의 결과를 얻을 수 있다. GBS는 다양한 작물의 종과 개체들의 SNP 유전형을 탐지하기 위한 목적으로 만들어진 NGS 기술의 최신 방법 중 하나이다. 다른 유전형 분석 기술과는 달리, GBS는 저렴한 비용으로 높은 수준의 SNP 마커들을 참조 유전체에 맵핑할 수 있다. GBS 분석의 첫 번째 단계는 반복적인 지역의 유전체 서열을 피하고 동시에 유전체의 주요 지역이 선택될 수 있도록 하기 위해 유전체 분석을 통해 가장 효과적인 제한효소를 선택하는 것이다. 다음으로 유전체를 제한효소로 처리한 후 서열의 양쪽 모두가 제한효소로 단편들 모두를 시퀀싱한다. 이러한 방법은 유전체 전체를 분석하지 않고도 넓은 유전체 범위에 대해 일정한 부분을 높은 비율로 분석할 수 있게 됨으로써 비용 및 시간을 감소시킨다. GBS는 Reduced Representation Library(RRL), RAD-seq 등과 같이 제한 효소를 이용하는 기본원리는 동일하지만 제한 효소로 자른 후 사이즈 크기를 상관하지 않는 점에서 라이브러리 제작이 더 간단하다.

다양한 분석 파이프라인 중 가장 많이 사용되고 있는 GBS 분석 파이프라인은 코넬대학교 Buckler lab에서 개발한 TASSEL(Trait Analysis by aSSociation, Evolution and Linkage)로 현재 가장 안정적이고 우수한 결과를 보여주고 있다. TASSEL은 코넬대학교 Buckler lab에서 개발한 GBS 등 유전체와 제한 효소 정보를 이용한 유전형 분석을 위한 자바 기반의 분석 프로그램으로 개체군과 양적 유전학 도구로서 유전형과 특성 연관을 평가하는 소프트웨어이다. TASSEL은 Discovery와 Production의 2개의 커다란 파이프라인으로 이루어져 있다. Discovery 파이프라인은 바코드와 제한 효소로 처리가 되어 FASTQ 형식의 서열 정보를 이용하여 일정한 길이의 유전체 조각인 Tag들을 추출하고 이를 참조 유전체에 맵핑을 시킨 후 맵핑이 완료된 데이터로부터 SNP를 탐지하는 역할을 한다. Production 파이프라인은 FASTQ 형식의 유전체 파일과 Discovery를 통해 맵핑된 데이터를 가지고 최종적으로 다수의 시료에 대한 Hatmap 데이터 포맷의 유전형 정보를 생성한다(Jeong-Ho Baek, et al., (2015) 한국정보통신학회논문지(J. Korea Inst. Inf. Commun. Eng.) Vol. 19, No. 10: 2491-2499).

현재 유전체(염기다형성칩 혹은 차세대 염기서열 분석 기술) 데이터 기반 바이오마커 검색 및 발굴은 단일염기다형성(SNP) 방법을 사용한다. 그리고, 이러한 단일염기다형성을 계산하는 방법을 단일염기다형성 정의(SNP calling)라고 부른다.

단일염기다형성 계산은 대립형 유전자에 기반하여 통계를 적용하고 SNP calling을 수행하여 SNP를 계산한다.

따라서, 바이오마커 발굴 및 검출 기술들은 정상군 및 환자군들의 염기다형성 정보를 이용한 질병연관성연구(association study) 및 질병 링키지연구(linkage study)에 사용된다.

한편, NGS 및 SNP 칩 데이터의 이미지 정보를 가공하면, 대립유전자 차이, 시그널강도(signal intensity), 대립유전자불균형(imbalance) 및 질점수(quality score) 등의 정보가 산출된다. 이러한 연속변수 데이터에 기반하여 다양한 변이에 대한 정의(variant calling)를 수행한 후 분류한 정보(SNV, CNV, 대립유전자방향성 및 INDEL)를 가지고 정상과 질병 사이의 차이를 주는 마커를 선별한다.

여기서, 유전자형(genotype) 등으로 분류된 데이터는 비연속 변수인 범주형 변수에 해당한다. 이러한 범주형 변수는 연속변수에 비하여 많은 정보가 손실이 되기 때문에, 암, 희귀질환 및 만성질환과 같은 대립유전자(rare allele)에 기인한 질병연관성(disease association) 및 링키지(linkage study) 연구를 수행할 때 바이오마커 검출 및 발굴 파워가 감소되는 경향이 있다.

일반적으로 염기다형성 정의(SNV calling)를 하려면 차세대시퀀싱(NGS) 혹은 염기다형성-칩(Chip)데이터의 경우, 올리고(oligo nucleotide: 작은 염기서열조각) chip에 대량으로 화학적 방법에 의해 적치하고, 시퀀싱이나 지노타이핑을 수행할 때 잘게 쪼개진 DNA조각을 Chip에 붙어 있는 DNA조각과 반응결합(hybridization)이 생기게 한 후 서로 잘 결합하고 있는지 여부를 나타내는 시그널 강도 값을 정량화하는 방법이 일반적이다. 염기다형성칩(SNPChip)데이터의 경우 정량화된 시그널강도 값은 염기 당 수백 내지 수천 개의 수치로 표현된다.

현재 일반적으로 사용하는 illumina 및 affymetrix 사의 SNP chip의 경우, 1백만 SNP를 한 번에 집적하도록 되어있다. 따라서, 1백만 개 대립유전자 위치에서 시그널 값(약 1천개)를 생산한다면 1M * 1,000값, 즉, 1명의 게놈 당 10억 개의 수치가 생기고 이러한 방법으로 10,000명을 처리하면 100조개의 수치가 생긴다. 그러므로 데이터 크기로 약 5-10TB 정도가 된다.

바이오마커를 발굴하는 과학자들은 단일염기변이 정의(SNV calling) 방법을 사용하여 프로세싱을 한 후에 계산된 단일염기변이(SNV)만을 사용한다(약 10GB).

한편, 대한민국 특허등록 제10-0996443호에는 고집적 유전자 데이터베이스를 처리하는 방법이 개시되어 있다.

NGS 데이터로부터의 SNV calling은 차세대 염기서열 분석(NGS) 실험의 결과로부터 단일염기변이(SNV)의 존재를 확인하는 방법에 관한 것이다. 이는 계산 기술로서, 알려진 집단 전체의 뉴클레오타이드 다형성에 기초한 특정한 실험 방법과는 차이가 있다. NGS 데이터가 풍부해짐에 따라 이러한 기술은 특정 실험 설계 및 응용 프로그램용으로 설계된 다양한 알고리즘을 사용하여 SNP genotyping을 수행하는 데 점점 더 널리 사용되고 있다(Rasmus Nielsen, et al., (2011) Nat Rev Genet, 12 (6), 443-51). SNP genotyping의 일반적인 응용 영역 외에도 집단 내의 희귀한 SNP를 확인하고 여러 조직 표본을 사용하여 개체 내에서 체세포 SNV를 탐지하는 데 성공적으로 적용되었다(Vikas Bansal, (2010) Bioinformatics, 26 (12), i318-24; Andrew Roth, et al., (2012) Bioinformatics, 28 (7), 907-13).

NGS 데이터로부터의 SNV calling은 생식세포 변이 검출에 이용될 수 있다. SNV 검출을 위한 대부분의 NGS 기반 방법은 개인의 게놈에서 생식세포 변이를 검출하도록 설계되었다. 이들은 개인이 부모로부터 생물학적으로 물려받은 돌연변이이며, 체세포 돌연변이가 필요한 특정한 적용을 제외하면 분석을 수행할 때 검색되는 변종의 일반적인 유형이다. 대부분 검색된 변이는 모집단 전체에 걸쳐 낮은 빈도로 발생하며, 이 경우 단일염기다형성(SNP)이라고 할 수 있다. 기술적으로 SNP라는 용어는 이러한 종류의 변이만을 의미하지만 실제로는 변형 calling에 관한 문헌에서 SNV와 동의어로 사용된다. 또한, 생식세포 SNV의 검출은 각각의 유전자좌에서 개체의 유전자형을 결정할 필요가 있기 때문에, “SNP genotyping”이 이 과정을 언급하는데 사용될 수도 있다. 또는 알려진 SNP 위치 집합에서 유전자형을 분류하기 위한 wet-lab 실험 절차를 나타낼 수도 있다.

일반적인 프로세스는 NGS read를 필터링하여 오류/바이어스의 원인을 제거; reference 게놈에 대한 read 정렬; 통계 모델 또는 일부 heuristics에 기초한 알고리즘을 사용하여, 각 유전자좌에서의 정렬 가능성에 대한 질적 점수 및 대립유전자 수에 기초하여 각 유전자좌에서의 변이 가능성을 예측; 응용 프로그램과 관련된 metrics를 기반으로 예측된 결과를 필터링; 및 각 변이의 기능적 효과를 예측하는 SNP 주석에 기초한다(Rasmus Nielsen, et al., (2011) Nat Rev Genet, 12 (6), 443-51). 이러한 절차의 일반적인 결과물은 VCF 파일이다.

NGS 데이터로부터의 SNV calling에는 확률론적 방법이 있다. 높은 판독 범위를 갖는 이상적인 오류가 없는 경우, NGS 데이터 정렬 결과로부터 변이 calling의 작업은 간단하다. 각 유전자좌(게놈상의 위치)에서 그 위치에 정렬된 read들 사이의 각각의 개별적인 뉴클레오타이드의 발생 수를 셀 수 있어, 진정한 유전자형은 명백할 것이다. 예를 들어, 모든 뉴클레오타이드가 allele A와 일치하면 AA, allele B와 일치하면 BB, 혼합물이 존재하면 AB가 된다. 다만, 실제 NGS 데이터로 작업할 때 입력 데이터의 노이즈를 고려할 수 없기 때문에 이런 종류의 단순한 접근법은 사용되지 않는다(E R Martin, et al., (2010) Bioinformatics, 26 (22), 2803-10). 염기 calling에 사용되는 뉴클레오타이드 카운팅은 시퀀싱된 read 자체 및 정렬 프로세스에 기인한 오류 및 바이어스를 모두 포함한다. 이 문제는 read 범위가 더 넓어지도록 시퀀싱함으로써 어느 정도 완화될 수 있지만, 비용이 많이 들고, 실제 연구에서는 낮은 커버리지 데이터에서의 추론을 필요로 한다.

확률론적 방법은 노이즈를 고려하여 추정 가능한 유전자형 각각의 확률에 대한 견고한 추정치뿐만 아니라, 추정치를 개선하는 데 사용할 수 있는 기타 가능한 사전 정보를 제공함으로써 문제를 극복하는 것을 목표로 한다. 때때로 MAP(Maximum a posteriori estimation) 추정치에 따라 확률을 기반으로 유전자형을 예측할 수 있다. 변이 calling에 대한 확률론적 방법은 Bayes’ theorem을 기반으로 한다. 변이 calling의 맥락에서 Bayes’ theorem은 각 가능한 유전자형의 사전 확률 및 각 가능한 유전자형에 대한 데이터의 확률 분포와 관련하여, 관측된 데이터가 주어진 각 유전자형이 true genotype이 될 확률을 정의한다. 공식은 다음과 같다:

상기 방정식에서, D는 관찰된 데이터, 즉, 정렬된 read를 의미하며, G는 확률이 계산되는 genotype이며, G _i 는 n개의 가능성 중에서 i번째 가능한 genotype을 의미한다.

상기 구조를 고려할 때, SNV를 검출하기 위한 다양한 소프트웨어의 해결책은 사전 확률 P(G)를 계산하는 방법, 확률 P(D|G)를 모델링하는 데 사용된 오류 모델 및 전체 genotype을 sub-genotype으로 세분화하는 것에 따라 상이하다(Na You, et al., (2012) Bioinformatics, 28 (5), 643-50).

예비 확률의 계산은 연구 중인 게놈의 사용 가능한 데이터와 수행되는 분석의 유형에 달려 있다. 알려진 돌연변이의 빈도를 포함하는 좋은 참조 데이터를 이용할 수 있는 연구(예를 들어, 인간 게놈 데이터 연구)에서는 모집단의 유전자형 빈도가 예비 확률 추정에 사용될 수 있다. 모집단의 allele 빈도가 주어지면, 예비 유전자형 확률은 Hardy Weinberg Equilibrium에 따라 각 유전자좌에서 계산될 수 있다(Ruiqiang Li, et al., (2009) Genome Res, 19 (6), 1124-32). 이러한 데이터가 없는 경우, 유전자좌와 독립적으로 상수(constant)도 사용할 수 있다. 이 값들은 경험적으로 선택된 값을 사용하여 설정할 수 있다.

변이 calling에 대한 확률론적 방법을 생성하는 데 사용되는 오류(error) 모델은 Bayes' theorem에 사용된 P(D|G) 항을 계산하기 위한 기초가 된다. 데이터에 오류가 없다고 가정하면, 각 유전자좌에서 관찰된 뉴클레오타이드 카운트의 분포는 AA 및 BB case에서 각각 A 또는 B allele과 100% 일치하는 뉴클레오타이드 및 AB case에서 A 또는 B와 50%의 확률로 일치하는 각 뉴클레오타이드의 Binomial Distribution을 따를 것이다. 그러나, 판독 데이터에 노이즈가 존재하는 경우 이러한 가정은 성립할 수 없으며, P(D|G) 값은 잘못된 뉴클레오타이드가 각 유전자좌에서 정렬된 read에 존재할 가능성에 대해 설명될 필요가 있다.

간단한 오차 모델은 homozygous 경우에서 데이터 확률 항에 작은 오차를 도입하여 A allele과 일치하지 않는 뉴클레오타이드가 AA case에서 관찰되는 작은 일정한 확률 및 BB case에서 B allele과 일치하지 않는 뉴클레오타이드가 관찰되는 작은 일정한 확률을 허용한다. 그러나 조건부 데이터 확률을 계산할 때, 실제 데이터에서 관찰된 실제 오류 패턴을 보다 더 사실적으로 복제하려고 시도하는 매우 복잡한 절차가 유효할 수 있다. 예를 들어, 판독 품질의 평가(Phred quality scores로서 측정된)가 유전자좌에 각각의 개별 read에서 예상된 오류율을 고려하여 이들 계산에 통합되었다(Heng Li, et al., (2008) Genome Res, 18 (11), 1851-8). 오류 모델에 성공적으로 통합된 또 다른 기술은 염기 품질 재교정(base quality recalibration)으로, 오류 패턴에 대한 이전의 알려진 정보를 바탕으로 각 가능한 뉴클레오타이드 치환에 대해 별도의 오류율이 계산된다. 각각의 가능한 뉴클레오타이드 치환은 시퀀싱 데이터에서 오류로 나타날 가능성이 동일하지 않으므로 오류 확률 추정을 향상시키기 위해 염기 품질 재보정이 적용되었다.

상기 논의들에서, 각 유전자좌에서의 유전자형 확률은 독립적으로 계산된다고 가정되었다. 즉, 전체 유전자형이 각 유전자좌에서 독립적인 유전자형으로 분할되며, 그 확률은 독립적으로 계산된다. 그러나 결합 불균형 때문에 인근 유전자좌의 유전자형은 일반적으로 독립적이지 않다. 결과적으로 전반적인 유전자형을 overlapping haplotype의 서열로 분배(partitioning)하는 것은 이러한 상관 관계를 모델링할 수 있게 하여, 이전에 모집단 전체의 haplotype 빈도의 통합을 통해 보다 정확한 확률 추정을 가능하게 한다. 변이형 검출 정확도를 높이기 위한 haplotype의 이용은 예를 들어 1000 Genomes Project에서 성공적으로 적용되었다(Goncalo R Abecasis, et al., (2010) Nature, 467 (7319), 1061-73).

NGS 데이터에 대한 변이 calling을 수행하기 위한 방법에 있어서, 확률론적 방법의 대안으로 heuristic 방법이 존재한다. 관측된 데이터의 분포를 모델링하고 Bayesian 통계를 사용하여 유전자형 확률을 계산하는 대신, 최소 대립유전자 수, read 품질 컷오프(cut-offs), read 깊이의 경계(bounds) 등과 같은 다양한 경험적 요인을 바탕으로 변이 calling을 진행한다. 실제로 확률론적 방법에 비해 상대적으로 적게 사용되나, 경계와 컷오프를 사용하기 때문에 확률론적 모델의 가정을 깨뜨리는 외부 데이터에 의한 영향이 적다(Daniel C Koboldt, et al., (2012) Genome Res, 22 (3), 568-76).

NGS 데이터를 사용하는 변이 calling 방법의 설계에서 중요한 부분은 NGS read를 정렬시키는 것에 있어 reference로 사용되는 DNA 서열이다. 인간 유전학 연구에서, HapMap 프로젝트와 같은 출처로부터 고품질의 references를 사용할 수 있는데(International HapMap Consortium (2003) Nature, 426 (6968), 789-96), 이는 변이 calling 알고리즘에 의해 만들어진 변이 calls의 정확성을 크게 향상시킬 수 있다. 이러한 reference는 Bayesian 기반 분석을 위한 이전의 유전자형 확률의 원천이 될 수 있다. 그러한 고품질의 reference가 존재하지 않는 경우, 실험을 통해 얻은 read를 먼저 조립하여 정렬을 위한 reference 서열을 만들 수 있다.

변이 calling 실험에서 오류/바이어스의 원인을 제거하기 위해 데이터를 필터링하는 다양한 방법이 있다. 변이 calling 알고리즘에 의해 반환된 면이 리스트를 정렬 및/또는 필터링하기 전에 의심스러운 read를 제거하는 작업이 포함될 수 있다.

사용된 시퀀싱 플랫폼에 따라, 시퀀싱된 read 세트 내에 다양한 바이어스가 존재할 수 있다. 예를 들어 스트랜드 바이어스(strand bias)가 발생할 수 있는데, 이웃에 정렬된 reads에서 forward와 reverse로 매우 불균등한 분포가 존재한다. 또한 때때로 예를 들어 PCR에서의 bias 때문에 일부 reads의 비정상적으로 높은 복제가 발생할 수 있다. 그러한 bias는 모호한 변이 calls를 초래할 수 있다. 예를 들면, 어떤 유전자좌의 PCR 오류를 포함하는 단편이 PCR bias로 인해 증폭되는 경우, 그 유전자좌는 많은 수의 거짓(false) 대립유전자를 가질 것이고, SNV로 불릴 수도 있다. 따라서 분석 파이프 라인은 이러한 bias들을 기반으로 calls를 필터링한다(Rasmus Nielsen, et al., (2011) Nat Rev Genet, 12 (6), 443-51).

NGS 데이터로부터의 SNV calling은 체세포 변이 검출에도 이용될 수 있다. 생식세포의 유전적 변이를 검출하기 위해 개별 샘플들로부터 reference 게놈으로 read를 정렬하는 방법에 더하여, 단일 개체 내의 다수의 조직 샘플로부터 reads를 정렬하고 비교하여 체세포 변이를 검출할 수 있다. 이러한 변이들은 개체 내의 체세포 그룹 내에서 새롭게 발생하는 돌연변이에 해당한다(즉, 개체의 생식세포 내에 존재하지 않는다). 이러한 형태의 분석은 암의 연구에 적용되어 왔으며, 특히 암 조직 내에서 체세포 돌연변이의 프로필을 조사하도록 설계된 많은 암 연구에 적용되었다. 이러한 연구들은 임상 적용되는 진단 도구로 이어졌으며, 예를 들어 새로운 암 관련 유전자의 발견, 관련된 유전자 조절 네트워크 및 대사 경로의 확인과 종양의 성장 및 진화와 관련된 모델에 대한 확인에 의해 질병에 대한 과학적 이해를 향상시키는 데 사용된다(Derek Shyr, Qi Liu, (2013) Biol Proced Online, 15 (1), 4).

NGS 데이터로부터의 SNV calling을 이용하여 체세포 변이를 검출하는 분석을 수행하기 위한 소프트웨어들이 많이 개발되지 않았으며, 생식세포 변이 검출에 사용된 것과 동일한 알고리즘을 기반으로 해왔다. 그러한 절차들은 동일한 개체의 여러 조직 표본에 존재하는 유전자형 간의 통계적 상관 관계를 적절히 모델링하지 않기 때문에, 체세포 변이 검출에 최적화되지 않았다(Andrew Roth, et al., (2012) Bioinformatics, 28 (7), 907-13). 최근에서야 여러 조직 표본에서 체세포 돌연변이를 검출하기 위해 특별히 최적화된 소프트웨어 도구들이 개발되었다. 각 유전자좌에서의 모든 조직 샘플로부터 얻은 pool allele 수와 모든 조직에 있어서 joint-genotypes의 확률 및 유전자형을 고려한 allele 수의 분포에 대한 통계학적 모델을 이용하는 확률론적 기술이 개발되었으며, 모든 이용 가능한 데이터를 사용하여 각 유전자좌에서 체세포 돌연변이의 확률을 상대적으로 정확하게 계산할 수 있다(David E Larson, et al., (2012) Bioinformatics, 28 (3), 311-7). 이러한 분석을 수행하기 위한 기술에 기반한 machine learning에 대한 연구가 최근 진행되고 있다(Jiarui Ding, et al., (2012) Bioinformatics, 28 (2), 167-75).

NGS 데이터로부터의 SNV calling에 이용 가능한 소프트웨어로는 Freebayes, SOAPsnp, realSFS, SAMtools, GATK, Beagle, IMPUTE2, MaCH, SNVmix, VarScan, DeepVariant, Somaticsniper, JointSNVMix, Big Data Genomics: Avocado, NGSEP, VarDict, Reveel 등이 있다.

본 발명은 또 다른 관점에서, TOP3B(DNA topoisomerase III beta) 유전자의 SNV(Single Nucleotide Variant)를 검출할 수 있는 제제를 포함하는 치매 진단용 조성물에 관한 것이다.

본 발명은 또 다른 관점에서, TOP3B(DNA topoisomerase III beta) 유전자의 SNV(Single Nucleotide Variant)를 검출할 수 있는 제제를 포함하는 치매 진단용 키트에 관한 것이다.

본 발명에 있어서, 상기 제제는 TOP3B 유전자의 SNV 위치를 특이적으로 증폭할 수 있는 프라이머 또는 TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브를 포함하는 것을 특징으로 할 수 있다.

따라서, 본 발명은 TOP3B 유전자의 SNV 위치를 특이적으로 증폭할 수 있는 프라이머 또는 프라이머 세트를 포함하는 치매 진단용 조성물 또는 치매 진단용 키트에 관한 것이다.

본 발명은 또한, TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브를 포함하는 치매 진단용 조성물 또는 치매 진단용 키트에 관한 것이다.

본 발명에 있어서, 상기 프라이머는 상기 표 1에 기재된 TOP3B 유전자의 SNV 중 어느 하나 이상을 증폭할 수 있는 프라이머 세트인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다. 본 발명에 있어서, 상기 프로브는 상기 표 1에 기재된 TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

본 발명의 일 실시예에서, TOP3B 유전자에 대한 타겟 시퀀싱을 수행하였다. 시퀀싱 라이브러리는 TruSeq Nano DNA Library Prep Kits를 이용하였으며, 서열번호 1 내지 서열번호 44의 프로브를 이용하여 TOP3B 유전자에 대한 타겟 농축을 수행하였다. 정제 후, Illumina p5와 p7 프라이머(서열번호 45 및 서열번호 46)를 이용하여 증폭시키고, qPCR 및 KAPA Library Quantification kit로 정제 및 정량하였다. Illumina 社의 NextSeq 550을 이용하여 post-enriched 라이브러리의 NGS 분석을 수행하여, TOP3B 유전자의 SNV를 검출하였다.

본 발명에 있어서, 상기 TOP3B 유전자의 SNV를 검출하는 단계는 TOP3B 유전자에 대한 프로브를 이용할 수 있으며, 상기 프로브는 상기 표 1에 기재된 TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브인 것을 특징으로 할 수 있으나, 이에 제한되는 것은 아니다.

상기 표 1에 기재된 SNV 위치를 특이적으로 증폭할 수 있는 프라이머 세트 및 상기 표 1에 기재된 TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브를 디자인하는 것은 본 발명이 속하는 기술분야의 통상의 기술자라면 쉽게 도출할 수 있으며, 상기 프라이머 세트 및 프로브는 실시간 PCR에 사용할 수 있고, 더욱 바람직하게는 동시다중(multiplex) 실시간 PCR에 사용할 수 있다.

본 발명의 치매 진단용 조성물 및 치매 진단용 키트는 상술한 “치매의 진단 또는 예측을 위한 정보제공방법” 또는 “치매의 진단방법”을 이용하기 때문에, 상술한 본 발명에 따른 정보제공방법과 중복된 내용은 그 기재를 생략한다.

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.

실시예 1: 실험군 및 정상군 선정

명지병원(경기도 고양)에서 수집한 52세 이상의 정상인 99명과 뇌 영상을 통해 치매로 진단된 106명의 말초 혈액의 DNA를 추출하여, 특정 유전자의 SNV 및 이의 발생 빈도를 확인하기 위해 NGS 및 빅데이터 분석을 수행하였다.

실시예 2: 차세대 염기서열 분석(next generation sequencing, NGS)을 이용한 치매 관련 유전자의 SNV 확인

NGS 분석을 통한 치매관련 바이오 마커를 탐색하기 위하여 TOP3B를 포함한 132개의 신경계 유전질환 관련 후보 유전자로 선정하였고, 이에 대한 타겟 시퀀싱을 수행하였다. 시퀀싱 라이브러리는 Illumina 社(San Diego, CA, USA)의 TruSeq Nano DNA Library Prep Kits를 이용하였고, TOP3B 유전자에 대한 타겟 농축(targeted enrichment)을 위하여 IDT 社(Coralville, IA, USA)의 xGen 잠금 프로브(lockdown probes)를 사용하였다(표 2).

TOP3B 유전자에 대한 타겟 농축을 위한 프로브 서열

Sequence Name	Sequence	서열번호
476_451618_8940(TOP3B)_3_1	TCTTCTCTTTAGGAGTCAGCATTGGTAATAGTGCTGTGCTGCGGAAGAGTGGAGTCTAAACTTTTTCATTGCCAGTGCCCCGAAACTGGAGTGTGAAGGACCGAGACAAAATGAAGACTG	1
476_451618_8940(TOP3B)_3_2	TGCTCATGGTTGCTGAAAAGCCGTCCTTGGCACAGTCAATTGCCAAAATCCTCTCTAGAGGTAGGAGAGACCAGCCCTGCTTTGGTCTGTAAGCACGGTCGTTTATGTGTTACAGGACAT	2
476_451619_8940(TOP3B)_4_1	AGGGTCTTCAGCTCAGCTGAAGCAGCCAGTCACTTTGTGCTTCCTCATCCCCAGGGAGCCTGTCCTCACACAAAGGGCTGAACGGGGCCTGCTCAGTCCACGAGTACACTGGGACCTTTG	3
476_451619_8940(TOP3B)_4_2	CTGGCCAGCCAGTGCGCTTCAAGATGACGTCTGTCTGTGGTCACGTGATGACCCTGGATTTCCTGGGTAAGCCCCTCTACCCTCCATCCTACTGAAGGGAGTTCTGCATGGCACTGGCCA	4
476_451620_8940(TOP3B)_5.1_1	TTGTAGGAAAATACAACAAATGGGACAAAGTGGACCCCGCAGAACTGTTCAGCCAAGCTCCCACGGAGAAGAAAGAAGCTAACCCCAAGCTGAACATGGTGAAGTTCCTGCAGGTGCGTG	5
476_451621_8940(TOP3B)_6_1	GTGAACCTGTGCTGTGTGGCAGGTGGAGGGCAGAGGCTGCGACTACATCGTGCTGTGGCTGGACTGCGACAAGGAGGGGGAGAACATCTGCTTTGAGGTGAGTGTGAGGCTCACTTTGTT	6
476_451622_8940(TOP3B)_7_1	TGGGGCTTTCTCCCTTCAGAAATGAAGCCACTTATTCCCAGTAAGGAAGCTGCGTGGCCAGGCTCCGGCGGCGACCCTAGTCCCACTGCACGGCCTTCCTAGTGAGTCTCGGCTCCAGGA	7
476_451623_8940(TOP3B)_8_1	CTGGCCACTCCCCACCCCCAGGTTCTTGATGCTGTTCTGCCCGTCATGAACAAGGCCCATGGTGGCGAGAAGACCGTGTTCCGGGCCAGGTTTAGCTCCATCACGGACACAGACATCTGT	8
476_451623_8940(TOP3B)_8_2	AATGCCATGGCCTGCCTAGGCGAGCCTGACCACAACGAGGCGCTCTCAGTGGATGCTCGCCAGGAGCTGGACCTGCGAATCGGCTGTGCATTCACCAGGTGCTGGCCACACCCGCAGAGT	9
476_451624_8940(TOP3B)_9_1	TGAGTGAATCAGTGACCAAAATATCTTTCCACTCCCTCCAGGTTTCAGACTAAATATTTCCAGGGGAAATACGGTGATTTAGACAGCTCTCTCATCTCCTTTGGGCCGTGTCAGACTCCA	10
476_451624_8940(TOP3B)_9_2	ACCCTGGGATTCTGTGTGGAGAGACATGATAAAATCCAGTCCTTCAAACCAGAGACCTACTGGGTGCTGCAGGCCAAGGTTCCTTGCCTTTCTCTATTCATGCTGGGGCTTTCTGGGTTT	11
476_451625_8940(TOP3B)_10_1	AGGTTAACACTGACAAAGACAGATCTCTCCTTTTGGACTGGGACCGAGTAAGAGTGTTTGACCGGGAGATCGCACAGATGTTTTTAAACATGACAAAGCTGGAGAAGGAAGCCCAGGTGT	12
476_451626_8940(TOP3B)_11_1	GTCCTGTCTTCCAGGTGGAGGCCACAAGCAGGAAAGAAAAGGCCAAGCAGAGGCCCCTGGCCCTGAACACTGTGGAGATGCTGCGTGTGGCCAGCTCTTCTCTGGGTATGTAGGGACATT	13
476_451627_8940(TOP3B)_12_1	CCCCACGTACCTGGCCCTCTGAGAACCTCCTGTCTCTCGCAGGCATGGGGCCGCAGCACGCCATGCAGACGGCTGAGCGGCTCTACACGCAAGGCTACATCAGCTACCCACGGACAGAGA	14
476_451627_8940(TOP3B)_12_2	CCACCCACTACCCTGAGAACTTTGACCTGAAGGGCTCTCTGCGGCAGCAGGCCAACCACCCCTACTGGGCCGACACGGTGAGTGGAGCCGGGCCGGCCTCAGCATGTGTGTGTGTCACTG	15
476_451628_8940(TOP3B)_13_1	CCTCAGGTGAAGCGGTTGTTAGCAGAAGGTATCAACCGCCCGCGGAAAGGCCATGACGCCGGCGACCATCCCCCCATCACCCCCATGAAGTCTGCCACAGAGGCCGAATTAGGTACCGCT	16
476_451629_8940(TOP3B)_14_1	AGAGCCCCCAGCTGGCTCCCAACTGACTAGCCCTGGCCTGTTGCAGGGGGTGACGCGTGGCGGCTCTATGAGTACATCACCAGACACTTCATCGCCACGGTCAGCCATGACTGCAAGTAC	17
476_451629_8940(TOP3B)_14_2	CTGCAGAGCACCATCTCCTTCAGAATTGGGCCCGAGCTCTTCACCTGCTCCGGGAAGACCGTCCTCTCACCAGGTCACACCACGGGCCCAGCCTTCCTCCTCTGTGCCTTCATGGGCAGA	18
476_451630_8940(TOP3B)_15_1	AGGCTTCACGGAGGTCATGCCCTGGCAGAGCGTGCCCCTGGAGGAGAGCCTGCCCACTTGCCAGCGGGGTGATGCCTTCCCTGTGGGCGAGGTGAAGATGCTGGAGAAGCAGACGAACCC	19
476_451630_8940(TOP3B)_15_2	ACCCGACTACCTGACGGAGGCCGAGCTCATCACGCTCATGGAGAAGCATGGCATCGGTGGGTGCGCCTGCCCAGGCCCCAGAGCCGGCTCCGTCTCCAGTACTCAGGCTTCGAGTCTACT	20
476_451630_8940(TOP3B)_15_3	CACAAAGCTGCCCCGCCAGCCCTGTGTGCCCAGCCCAGCACCCCTCCATGGGCTGGTATCTGGAAACTGGTGACCCAGTGTGTGGCCAGCCAGGCAGGTCCACAGCGGGCATCCCCTCCT	21
476_451630_8940(TOP3B)_15_4	GAGGCCTCCATTCAGGACCTGGCCTTCCCTGTGAAGGCCCAGATGTGCCCTCGTGCACTGTGGGGTGTGCACACACCGACTAACGCCCACAAGGCTGAAGATTGGCCCAGATGCCAGGTG	22
476_451631_8940(TOP3B)_16_1	TTCAGTGGGGCATGTCCAAGGCAGGCCAGGAACCCTGGGGCCTTGTACATTGCAGGCACGGATGCCAGCATCCCTGTGCATATCAACAACATCTGCCAGCGCAACTATGTCACGGTGGAG	23
476_451631_8940(TOP3B)_16_2	AGCGGGCGCCGGCTCAAGCCCACCAACCTCGGCATCGTCCTGGTGCACGGCTACTATAAGATTGGTGAGTTCCTCAGTCCTGCCCCCAGGGCCCACCGAGGCTCCCTGGCTTCTCCCTGG	24
476_451632_8940(TOP3B)_17.1_1	CCTGCCTGGGAAGGGGTGGCATGGCCCTGGGTGCGAGTGCTCAGGGCAATATCTGCCCCCTGCCCACTTGCAGATGCAGAGCTGGTGCTCCCCACCATCCGCAGTGCAGTGGAGAAGCAG	25
476_451632_8940(TOP3B)_17.1_2	CTGAACCTGATCGCCCAGGGCAAGGCCGACTACCGCCAGGTCCTGGGCCACACCCTGGACGTGTTCAAGAGGAAGTTCCACTACTTTGTCGACTCCATTGCTGGTAGAGTCTGCCTCTGG	26
476_451632_8940(TOP3B)_17.1_3	CCTGCCCCTCACCAGAGGGGTGTCTCTCTGTCAGCAAGGCCAGTACCTGGGGACCCAGGTCCCCACGTGGGACCAGCTCCCAGATCTGGGCTTCAGGCCTCCGTAGGCCAGGTCAGTGAC	27
476_451632_8940(TOP3B)_17.1_4	ACCTCCTGGCTGGGTTGAAAGAGCAGGTGCATTAACACCACACATGGCCAGGAACACGTGCCTCTGACGCACAGGGCTGCTGCCCTGCCGTGCTGCCAGGACAGTAGAAACCACCGCCTA	28
476_451632_8940(TOP3B)_17.1_5	TAGGGACCCTTTCACACTCAGACCCTTGACCACGTGTTGCGGAGCCTTTTGCTGGGGACTGGGAGGGAGATGACTCCTGCACTCTGCTTGCCCGCAGGCATGGATGAGTTGATGGAGGTG	29
476_451632_8940(TOP3B)_17.1_6	TCTTTCTCGCCCCTGGCGGCCACAGGCAAGCCCCTCTCACGCTGTGGGAAGTGCCACCGCTTCATGAAGTACATCCAGGTAGGTGCAGGGAACACTAGCTCAGGCAAGCTGCCTCACCC	30
476_451633_8940(TOP3B)_18.1_1	GAGCAGGCAGCAGAGGGCAGGTGGGCACAGTGGGCGTGCCTTTACAGGGCTCCCTTCTCCCGCCAGGCATGGGCTGCAACGAGTGTACGCACCCCTCCTGCCAGCACTCGCTGAGCATGC	31
476_451633_8940(TOP3B)_18.1_2	TGGGCATCGGCCAGTGCGTGGAATGTGAGAGCGGGGTGCTGGTGCTGGACCCCACCTCGGGCCCCAAGTGGAAGGTGGCCTGCAACAAGTGCAACGTGGTAGCGCACTGCTTCGAGAACG	32
476_451633_8940(TOP3B)_18.1_3	CCCACCGCGTGCGGGTGTCCGCCGACACCTGCAGTGTCTGTGAGGCCGCCTTGCTTGATGTGGACTTCAACAAGGCCAAGTCCCCACTCCCGGGCGATGAGACGCAGCACATGGGCTGCG	33
476_451633_8940(TOP3B)_18.1_4	TCTTTTGTGACCCCGTCTTCCAGGAGCTGGTGGAGCTGAAGCATGCGGCCTCCTGCCACCCCATGCACCGCGGTGGACCAGGGAGAAGGCAGGGTCGAGGGCGGGGCCGGGCCAGGAGGC	34
476_451633_8940(TOP3B)_18.1_5	CCCCTGGGAAGCCCAACCCCAGACGGCCCAAGGACAAGATGTCAGCCCTGGCCGCCTACTTTGTATGATGACCCTGTCCTCCCTCACCCAGGCTGCAGTGCCATGCAGACACCTCATGGC	35
476_451634_8940(TOP3B)_18.2_1	GGGTGGGTGCCAAGTCGGTGGCCCCAGTGACCCTCACGCCACCTGCCTGGCATTGCCGCAGGCCAAGCCAAGCCGCCTGCACTGCTCCCACTGCGATGAGACCTACACGCTCCCCCAGAA	36
476_451634_8940(TOP3B)_18.2_2	CGGCACCATCAAGCTCTACAAGGAGCTCCGCTGCCCTCTGGATGACTTCGAGCTGGTCCTGTGGTCATCAGGCTCTCGGGGCAAGAGCTACCCGCTGTGCCCCTACTGCTACAACCACCC	37
476_451634_8940(TOP3B)_18.2_3	ACCCTTCCGAGACATGAAGAAAGGTGAGTGCAGCCACTCCCTCCTGTCCACAGGTAGCTGCAGTCTCTTTTCAGTGCCAACCCCTGCCTTGCACCAGGCTGGACTCTGAGGGGACCCCTC	38
476_451634_8940(TOP3B)_18.2_4	ACCCTGGCCTTTCCTGCACTCATTGGCACTGAGACGAGAGACCCTGGATGTAGCTGGGGCACTGCTTAGGCCTCAGCCAGTGGTGCCACCCTCTCTCTGTGTCAGAATCGAGCAGGCAAC	39
476_451634_8940(TOP3B)_18.2_5	CCTAGTCCACCCTCAGGACCTGGGCACAGGTGTGCAGTGCTCCCTCTGGAGCTGAGTGAGCAAGAGGATGCAGCAGTCGGGGGACCCACCCGGTGAGCGGGCACCCCCAGTCAGCGTCCA	40
476_451634_8940(TOP3B)_18.2_6	CCACCGTCCTCCATCCTCATCCTCGTCCTCATTACTGGAGGAGGGAGCGCATGTCCAGGCAGGCAGGACAGAGCACCGAGCCAGACCAGGAATCAGCGGGAGTGAGGCATCTGCCCACAT	41
476_451634_8940(TOP3B)_18.2_7	TCACCGTGTGCTCTGCAGAAAGCTCCCTCAGGCCTCAGTCTGCACCCAGGCTGCCCCGGGAGTGAGACCCCATCCCTGCCCTCCTGCTGCCGCCAGAGTAGCTGACAGGGTGGTTCCATG	42
476_451634_8940(TOP3B)_18.2_8	TGGCCCAGTGACATGAGGGTCATGTGGCATTACCAGTAACAAGCTGGCAGCAAAGCAAAGGGGGGATGGAGTCAGCTGAAACCCACTGGGATGGTGCCAGCGAGGGGCCTTGAAAGTTGA	43
476_451634_8940(TOP3B)_18.2_9	GGAGGTTTCAGGTAAGCAGAAAACAGGGGTAATGGCAGCCAGGAGCCGAAACATGAGCAAGGCTGTCCCCAAGAGCAAGGCCAAGAAGAGTTCCTTCTGCTGGGACGAGGGATCCAGGA	44

Beckman Coulter 社의 Agencourt AMPure protocol을 따라 정제한 후, Illumina p5와 p7 프라이머를 이용하여 증폭시켰다. p5 프라이머는 서열번호 45로 표시되며, p7 프라이머는 서열번호 46으로 표시된다.

서열번호 45: 5’-AATGATACGGCGACCACCGAGATCTACAC-3’

서열번호 46: 5’-CAAGCAGAAGACGGCATACGAGAT-3’

qPCR 및 KAPA Library Quantification kit(KAPA Biosystems, Boston, MA, USA)로 정제 및 정량하였다. 최종적으로 Post-enriched 라이브러리의 NGS 분석은 Illumina 社의 NextSeq 550을 이용하였다.

수정된 매개 변수를 가진 Burrows-Wheeler Aligner(Heng Li, Richard Durbin, (2009) Bioinformatics, 25 (14), 1754-60)를 사용하여 각 시료의 판독을 참조 서열 hg19(인간 게놈 버전 19; GRCh37.p13)에 매핑하였고, SNP/InDels은 게놈 분석 툴킷(Genome Analysis Toolkit, GATK)에서 수정된 Haplotype Caller를 사용하여 확인하였다(Mark A DePristo, et al., (2011) Nat Genet, 43 (5), 491-8). 농축 효율(enrichment efficiency)은 150bp의 패딩을 갖는 표적화된 영역에 매핑되는 판독 비율에 기초하여 결정되었다.

실시예 3: 빅데이터 분석을 이용한 SNV와 치매의 상관성 분석

132개의 후보 유전자의 빅데이터 분석은 R version 3.5.1(2018-07-02)을 이용하였으며, 전처리, 파싱, 필터링 등을 통하여 정상군과 치매 환자군의 전체적인 SNVs 통계 비교에서 나타난 상관성(도 1)을 발견하였다. 염색체별 클러스터링 통계분석을 수행한 후, SNV의 위치 및 개수에 따라 정상인과 치매 환자군의 선별이 가능한 유전자를 탐색하기 위하여 R에서 랜덤 포레스트(Random Forest)를 수행하였고, 치매 연관성이 가장 높은 TOP3B를 선택할 수 있었다. TOP3B 유전자에 존재하는 SNVs 발생 빈도는 도 2에 나타내었다.

실시예 4: TOP3B 유전자의 SNV 위치 분석

정상군 및 치매군에서 TOP3B 유전자의 SNV 위치를 확인하였다(표 3).

	전체		정상군		치매군		각 SNV site에 대한 치매 확률
GRCh37.p13(Genome Reference Consortium Human Build 37 patch release 13)을 기준으로 한 위치	#	%	#	%	#	%	각 SNV site에 대한 치매 확률
22,311,659	1	0.1	0	0.0	1	0.2
22,311,776	1	0.1	0	0.0	1	0.2
22,311,933	1	0.1	1	0.4	0	0.0
22,312,061	1	0.1	0	0.0	1	0.2
22,312,378	1	0.1	0	0.0	1	0.2
22,312,502	1	0.1	0	0.0	1	0.2
22,312,589	1	0.1	0	0.0	1	0.2
22,312,813	1	0.1	1	0.4	0	0.0
22,312,970	1	0.1	0	0.0	1	0.2
22,313,743	1	0.1	0	0.0	1	0.2
22,314,817	1	0.1	1	0.4	0	0.0
22,318,365	1	0.1	0	0.0	1	0.2
22,318,397	1	0.1	1	0.4	0	0.0
22,312,555	2	0.3	1	0.4	1	0.2
22,312,531	3	0.4	0	0.0	3	0.6	100.0
22,316,792	3	0.4	2	0.8	1	0.2
22,311,882	7	0.9	6	2.5	1	0.2
22,313,733	9	1.2	2	0.8	7	1.3	77.8
22,311,516	14	1.8	7	3.0	7	1.3
22,312,292	15	1.9	1	0.4	14	2.6	93.3
22,313,669	17	2.2	2	0.8	15	2.8	88.2
22,312,383	19	2.5	5	2.1	14	2.6	73.7
22,330,107	23	3.0	8	3.4	15	2.8	65.2
22,312,568	25	3.2	10	4.2	15	2.8
22,312,476	26	3.4	11	4.7	15	2.8
22,318,671	26	3.4	11	4.7	15	2.8
22,312,668	27	3.5	12	5.1	15	2.8
22,312,790	27	3.5	12	5.1	15	2.8
22,318,538	27	3.5	11	4.7	16	3.0
22,312,484	40	5.2	14	5.9	26	4.9	65.0
22,312,351	81	10.5	6	2.5	75	14.0	92.6
22,312,350	82	10.6	7	3.0	75	14.0	91.5
22,312,315	83	10.8	8	3.4	75	14.0	90.4
22,313,829	101	13.1	50	21.2	51	9.5
22,330,082	101	13.1	46	19.5	55	10.3
합계	771	100	236	100	535	100

TOP3B 유전자의 SNV site 중에서 22,312,292; 22,313,669; 22,312,315; 22,312,350; 22,312,351은 모두 intron variant이며, 치매군에서 정상군보다 SNV 개수가 약 7배 이상 증가하였다.

22,312,531; 22,313,733; 22,312,383; 22,330,107; 22,312,484의 경우, 치매군에서 정상군보다 SNV 개수가 약 2배 증가했으며, 22,330,107은 5 prime UTR variant이고, 나머지는 모두 intron variant이다.

치매 환자군의 TOP3B 유전자의 SNVs를 하기 표 4에 나타내었다.

GRCh37.p13(Genome Reference Consortium Human Build 37 patch release 13)을 기준으로 한 위치	서열번호 47의 염기서열에서의 위치	SNVs
22,311,659	263	C>T
22,311,776	380	A>G
22,312,061	665	G>A
22,312,502	1106	C>T
22,312,378	982	G>A
22,312,589	1193	C>G
22,312,970	1574	A>G
22,313,743	2347	C>T
22,318,365	6969	C>T
22,312,555	1159	C>T
22,312,531	1135	C>T
22,316,792	5396	C>T
22,311,882	486	G>A
22,313,733	2337	G>A
22,311,516	120	C>T
22,312,292	896	A>G
22,313,669	2273	G>A
22,312,383	987	A>G
22,330,107	18711	T>G
22,312,568	1172	C>T
22,312,476	1080	T>C
22,318,671	7275	G>A
22,312,668	1272	C>G
22,312,790	1394	C>G
22,318,538	7142	C>T
22,312,484	1088	C>T
22,312,351	955	G>C
22,312,350	954	G>C
22,312,315	919	C>T
22,313,829	2433	A>C
22,330,082	18686	T>C

실시예 5: TOP3B 유전자에 존재하는 SNV 개수 분석을 통한 치매 진단

TOP3B의 SNVs를 기준으로 정상인과 치매 환자 또는 치매 고위험군을 선별하기 위한 cut-off를 조사하기 위해, R 패키지 pROC(Xavier Robin, et al., (2011) BMC Bioinformatics, 12, 77)를 적용한 분석 프로그램을 이용하여 ROC(Receiver Operating Characteristics) 분석을 수행하였다. 상기 cut-off 수치는 최대화된 특이도와 민감도를 이루는 지점과 관련해서 결정되었다. TOP3B 유전자내의 SNVs 개수 2.5 기준으로 0.6061의 특이도(specificity)와 0.9245의 민감도(sensitivity)를 나타내었다(도 3). 따라서 2개 이하의 경우 정상인으로 선별할 수 있고, 3 이상이면 치매 환자 또는 치매 발병 고위험군으로 선별이 가능하다.

이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.

<110> MJ Brain Bio Co.,Ltd <120> Method for Diagnosing Dementia Based on TOP3B Gene Variants <130> P20-B078 <150> KR 2019-0054962 <151> 2019-05-10 <160> 47 <170> KoPatentIn 3.0 <210> 1 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451618_8940(TOP3B)_3_1 <400> 1 tcttctcttt aggagtcagc attggtaata gtgctgtgct gcggaagagt ggagtctaaa 60 ctttttcatt gccagtgccc cgaaactgga gtgtgaagga ccgagacaaa atgaagactg 120 120 <210> 2 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451618_8940(TOP3B)_3_2 <400> 2 tgctcatggt tgctgaaaag ccgtccttgg cacagtcaat tgccaaaatc ctctctagag 60 gtaggagaga ccagccctgc tttggtctgt aagcacggtc gtttatgtgt tacaggacat 120 120 <210> 3 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451619_8940(TOP3B)_4_1 <400> 3 agggtcttca gctcagctga agcagccagt cactttgtgc ttcctcatcc ccagggagcc 60 tgtcctcaca caaagggctg aacggggcct gctcagtcca cgagtacact gggacctttg 120 120 <210> 4 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451619_8940(TOP3B)_4_2 <400> 4 ctggccagcc agtgcgcttc aagatgacgt ctgtctgtgg tcacgtgatg accctggatt 60 tcctgggtaa gcccctctac cctccatcct actgaaggga gttctgcatg gcactggcca 120 120 <210> 5 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451620_8940(TOP3B)_5.1_1 <400> 5 ttgtaggaaa atacaacaaa tgggacaaag tggaccccgc agaactgttc agccaagctc 60 ccacggagaa gaaagaagct aaccccaagc tgaacatggt gaagttcctg caggtgcgtg 120 120 <210> 6 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451621_8940(TOP3B)_6_1 <400> 6 gtgaacctgt gctgtgtggc aggtggaggg cagaggctgc gactacatcg tgctgtggct 60 ggactgcgac aaggaggggg agaacatctg ctttgaggtg agtgtgaggc tcactttgtt 120 120 <210> 7 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451622_8940(TOP3B)_7_1 <400> 7 tggggctttc tcccttcaga aatgaagcca cttattccca gtaaggaagc tgcgtggcca 60 ggctccggcg gcgaccctag tcccactgca cggccttcct agtgagtctc ggctccagga 120 120 <210> 8 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451623_8940(TOP3B)_8_1 <400> 8 ctggccactc cccaccccca ggttcttgat gctgttctgc ccgtcatgaa caaggcccat 60 ggtggcgaga agaccgtgtt ccgggccagg tttagctcca tcacggacac agacatctgt 120 120 <210> 9 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451623_8940(TOP3B)_8_2 <400> 9 aatgccatgg cctgcctagg cgagcctgac cacaacgagg cgctctcagt ggatgctcgc 60 caggagctgg acctgcgaat cggctgtgca ttcaccaggt gctggccaca cccgcagagt 120 120 <210> 10 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451624_8940(TOP3B)_9_1 <400> 10 tgagtgaatc agtgaccaaa atatctttcc actccctcca ggtttcagac taaatatttc 60 caggggaaat acggtgattt agacagctct ctcatctcct ttgggccgtg tcagactcca 120 120 <210> 11 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451624_8940(TOP3B)_9_2 <400> 11 accctgggat tctgtgtgga gagacatgat aaaatccagt ccttcaaacc agagacctac 60 tgggtgctgc aggccaaggt tccttgcctt tctctattca tgctggggct ttctgggttt 120 120 <210> 12 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451625_8940(TOP3B)_10_1 <400> 12 aggttaacac tgacaaagac agatctctcc ttttggactg ggaccgagta agagtgtttg 60 accgggagat cgcacagatg tttttaaaca tgacaaagct ggagaaggaa gcccaggtgt 120 120 <210> 13 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451626_8940(TOP3B)_11_1 <400> 13 gtcctgtctt ccaggtggag gccacaagca ggaaagaaaa ggccaagcag aggcccctgg 60 ccctgaacac tgtggagatg ctgcgtgtgg ccagctcttc tctgggtatg tagggacatt 120 120 <210> 14 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451627_8940(TOP3B)_12_1 <400> 14 ccccacgtac ctggccctct gagaacctcc tgtctctcgc aggcatgggg ccgcagcacg 60 ccatgcagac ggctgagcgg ctctacacgc aaggctacat cagctaccca cggacagaga 120 120 <210> 15 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451627_8940(TOP3B)_12_2 <400> 15 ccacccacta ccctgagaac tttgacctga agggctctct gcggcagcag gccaaccacc 60 cctactgggc cgacacggtg agtggagccg ggccggcctc agcatgtgtg tgtgtcactg 120 120 <210> 16 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451628_8940(TOP3B)_13_1 <400> 16 cctcaggtga agcggttgtt agcagaaggt atcaaccgcc cgcggaaagg ccatgacgcc 60 ggcgaccatc cccccatcac ccccatgaag tctgccacag aggccgaatt aggtaccgct 120 120 <210> 17 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451629_8940(TOP3B)_14_1 <400> 17 agagccccca gctggctccc aactgactag ccctggcctg ttgcaggggg tgacgcgtgg 60 cggctctatg agtacatcac cagacacttc atcgccacgg tcagccatga ctgcaagtac 120 120 <210> 18 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451629_8940(TOP3B)_14_2 <400> 18 ctgcagagca ccatctcctt cagaattggg cccgagctct tcacctgctc cgggaagacc 60 gtcctctcac caggtcacac cacgggccca gccttcctcc tctgtgcctt catgggcaga 120 120 <210> 19 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451630_8940(TOP3B)_15_1 <400> 19 aggcttcacg gaggtcatgc cctggcagag cgtgcccctg gaggagagcc tgcccacttg 60 ccagcggggt gatgccttcc ctgtgggcga ggtgaagatg ctggagaagc agacgaaccc 120 120 <210> 20 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451630_8940(TOP3B)_15_2 <400> 20 acccgactac ctgacggagg ccgagctcat cacgctcatg gagaagcatg gcatcggtgg 60 gtgcgcctgc ccaggcccca gagccggctc cgtctccagt actcaggctt cgagtctact 120 120 <210> 21 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451630_8940(TOP3B)_15_3 <400> 21 cacaaagctg ccccgccagc cctgtgtgcc cagcccagca cccctccatg ggctggtatc 60 tggaaactgg tgacccagtg tgtggccagc caggcaggtc cacagcgggc atcccctcct 120 120 <210> 22 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451630_8940(TOP3B)_15_4 <400> 22 gaggcctcca ttcaggacct ggccttccct gtgaaggccc agatgtgccc tcgtgcactg 60 tggggtgtgc acacaccgac taacgcccac aaggctgaag attggcccag atgccaggtg 120 120 <210> 23 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451631_8940(TOP3B)_16_1 <400> 23 ttcagtgggg catgtccaag gcaggccagg aaccctgggg ccttgtacat tgcaggcacg 60 gatgccagca tccctgtgca tatcaacaac atctgccagc gcaactatgt cacggtggag 120 120 <210> 24 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451631_8940(TOP3B)_16_2 <400> 24 agcgggcgcc ggctcaagcc caccaacctc ggcatcgtcc tggtgcacgg ctactataag 60 attggtgagt tcctcagtcc tgcccccagg gcccaccgag gctccctggc ttctccctgg 120 120 <210> 25 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451632_8940(TOP3B)_17.1_1 <400> 25 cctgcctggg aaggggtggc atggccctgg gtgcgagtgc tcagggcaat atctgccccc 60 tgcccacttg cagatgcaga gctggtgctc cccaccatcc gcagtgcagt ggagaagcag 120 120 <210> 26 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451632_8940(TOP3B)_17.1_2 <400> 26 ctgaacctga tcgcccaggg caaggccgac taccgccagg tcctgggcca caccctggac 60 gtgttcaaga ggaagttcca ctactttgtc gactccattg ctggtagagt ctgcctctgg 120 120 <210> 27 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451632_8940(TOP3B)_17.1_3 <400> 27 cctgcccctc accagagggg tgtctctctg tcagcaaggc cagtacctgg ggacccaggt 60 ccccacgtgg gaccagctcc cagatctggg cttcaggcct ccgtaggcca ggtcagtgac 120 120 <210> 28 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451632_8940(TOP3B)_17.1_4 <400> 28 acctcctggc tgggttgaaa gagcaggtgc attaacacca cacatggcca ggaacacgtg 60 cctctgacgc acagggctgc tgccctgccg tgctgccagg acagtagaaa ccaccgccta 120 120 <210> 29 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451632_8940(TOP3B)_17.1_5 <400> 29 tagggaccct ttcacactca gacccttgac cacgtgttgc ggagcctttt gctggggact 60 gggagggaga tgactcctgc actctgcttg cccgcaggca tggatgagtt gatggaggtg 120 120 <210> 30 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> 476_451632_8940(TOP3B)_17.1_6 <400> 30 tctttctcgc ccctggcggc cacaggcaag cccctctcac gctgtgggaa gtgccaccgc 60 ttcatgaagt acatccaggt aggtgcaggg aacactagct caggcaagct gcctcaccc 119 <210> 31 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451633_8940(TOP3B)_18.1_1 <400> 31 gagcaggcag cagagggcag gtgggcacag tgggcgtgcc tttacagggc tcccttctcc 60 cgccaggcat gggctgcaac gagtgtacgc acccctcctg ccagcactcg ctgagcatgc 120 120 <210> 32 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451633_8940(TOP3B)_18.1_2 <400> 32 tgggcatcgg ccagtgcgtg gaatgtgaga gcggggtgct ggtgctggac cccacctcgg 60 gccccaagtg gaaggtggcc tgcaacaagt gcaacgtggt agcgcactgc ttcgagaacg 120 120 <210> 33 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451633_8940(TOP3B)_18.1_3 <400> 33 cccaccgcgt gcgggtgtcc gccgacacct gcagtgtctg tgaggccgcc ttgcttgatg 60 tggacttcaa caaggccaag tccccactcc cgggcgatga gacgcagcac atgggctgcg 120 120 <210> 34 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451633_8940(TOP3B)_18.1_4 <400> 34 tcttttgtga ccccgtcttc caggagctgg tggagctgaa gcatgcggcc tcctgccacc 60 ccatgcaccg cggtggacca gggagaaggc agggtcgagg gcggggccgg gccaggaggc 120 120 <210> 35 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451633_8940(TOP3B)_18.1_5 <400> 35 cccctgggaa gcccaacccc agacggccca aggacaagat gtcagccctg gccgcctact 60 ttgtatgatg accctgtcct ccctcaccca ggctgcagtg ccatgcagac acctcatggc 120 120 <210> 36 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_1 <400> 36 gggtgggtgc caagtcggtg gccccagtga ccctcacgcc acctgcctgg cattgccgca 60 ggccaagcca agccgcctgc actgctccca ctgcgatgag acctacacgc tcccccagaa 120 120 <210> 37 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_2 <400> 37 cggcaccatc aagctctaca aggagctccg ctgccctctg gatgacttcg agctggtcct 60 gtggtcatca ggctctcggg gcaagagcta cccgctgtgc ccctactgct acaaccaccc 120 120 <210> 38 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_3 <400> 38 acccttccga gacatgaaga aaggtgagtg cagccactcc ctcctgtcca caggtagctg 60 cagtctcttt tcagtgccaa cccctgcctt gcaccaggct ggactctgag gggacccctc 120 120 <210> 39 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_4 <400> 39 accctggcct ttcctgcact cattggcact gagacgagag accctggatg tagctggggc 60 actgcttagg cctcagccag tggtgccacc ctctctctgt gtcagaatcg agcaggcaac 120 120 <210> 40 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_5 <400> 40 cctagtccac cctcaggacc tgggcacagg tgtgcagtgc tccctctgga gctgagtgag 60 caagaggatg cagcagtcgg gggacccacc cggtgagcgg gcacccccag tcagcgtcca 120 120 <210> 41 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_6 <400> 41 ccaccgtcct ccatcctcat cctcgtcctc attactggag gagggagcgc atgtccaggc 60 aggcaggaca gagcaccgag ccagaccagg aatcagcggg agtgaggcat ctgcccacat 120 120 <210> 42 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_7 <400> 42 tcaccgtgtg ctctgcagaa agctccctca ggcctcagtc tgcacccagg ctgccccggg 60 agtgagaccc catccctgcc ctcctgctgc cgccagagta gctgacaggg tggttccatg 120 120 <210> 43 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_8 <400> 43 tggcccagtg acatgagggt catgtggcat taccagtaac aagctggcag caaagcaaag 60 gggggatgga gtcagctgaa acccactggg atggtgccag cgaggggcct tgaaagttga 120 120 <210> 44 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> 476_451634_8940(TOP3B)_18.2_9 <400> 44 ggaggtttca ggtaagcaga aaacaggggt aatggcagcc aggagccgaa acatgagcaa 60 ggctgtcccc aagagcaagg ccaagaagag ttccttctgc tgggacgagg gatccagga 119 <210> 45 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> p5 primer <400> 45 aatgatacgg cgaccaccga gatctacac 29 <210> 46 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> p7 primer <400> 46 caagcagaag acggcatacg agat 24 <210> 47 <211> 25823 <212> DNA <213> Artificial Sequence <220> <223> TOP3B <400> 47 tctggataag ataaaatgca ttttaatagt ttgaagtgcc atgaggtgtc tgcatggcac 60 tgcagcctgg gtgagggagg acagggtcat catacaaagt aggcggccag ggctgacatc 120 ttgtccttgg gccgtctggg gttgggcttc ccagggggcc tcctggcccg gccccgccct 180 cgaccctgcc ttctccctgg tccaccgcgg tgcatggggt ggcaggaggc cgcatgcttc 240 agctccacca gctcctggaa gacggggtca caaaagacgc agcccatgtg ctgcgtctca 300 tcgcccggga gtggggactt ggccttgttg aagtccacat caagcaaggc ggcctcacag 360 acactgcagg tgtcggcgga cacccgcacg cggtgggcgt tctcgaagca gtgcgctacc 420 acgttgcact tgttgcaggc caccttccac ttggggcccg aggtggggtc cagcaccagc 480 accccgctct cacattccac gcactggccg atgcccagca tgctcagcga gtgctggcag 540 gaggggtgcg tacactcgtt gcagcccatg cctggcggga gaagggagcc ctgtaaaggc 600 acgcccactg tgcccacctg ccctctgctg cctgctccca atgcctcaag ctcctggatc 660 cctcgtccca gcagaaggaa ctcttcttgg ccttgctctt ggggacagcc ttgctcatgt 720 ttcggctcct ggctgccatt acccctgttt tctgcttacc tgaaacctcc tcaactttca 780 aggcccctcg ctggcaccat cccagtgggt ttcagctgac tccatccccc ctttgctttg 840 ctgccagctt gttactggta atgccacatg accctcatgt cactgggcca catggaacca 900 ccctgtcagc tactctggcg gcagcaggag ggcagggatg gggtctcact cccggggcag 960 cctgggtgca gactgaggcc tgagggagct ttctgcagag cacacggtga atgtgggcag 1020 atgcctcact cccgctgatt cctggtctgg ctcggtgctc tgtcctgcct gcctggacat 1080 gcgctccctc ctccagtaat gaggacgagg atgaggatgg aggacggtgg tggacgctga 1140 ctgggggtgc ccgctcaccg ggtgggtccc ccgactgctg catcctcttg ctcactcagc 1200 tccagaggga gcactgcaca cctgtgccca ggtcctgagg gtggactagg gttgcctgct 1260 cgattctgac acagagagag ggtggcacca ctggctgagg cctaagcagt gccccagcta 1320 catccagggt ctctcgtctc agtgccaatg agtgcaggaa aggccagggt gaggggtccc 1380 ctcagagtcc agcctggtgc aaggcagggg ttggcactga aaagagactg cagctacctg 1440 tggacaggag ggagtggctg cactcacctt tcttcatgtc tcggaagggt gggtggttgt 1500 agcagtaggg gcacagcggg tagctcttgc cccgagagcc tgatgaccac aggaccagct 1560 cgaagtcatc cagagggcag cggagctcct tgtagagctt gatggtgccg ttctggggga 1620 gcgtgtaggt ctcatcgcag tgggagcagt gcaggcggct tggcttggcc tgcggcaatg 1680 ccaggcaggt ggcgtgaggg tcactggggc caccgacttg gcacccaccc ccactcctct 1740 cataatacaa agtatgtaat ctgtcatgca gaacctgtga cacactgcca ggcaaggagc 1800 atgagtctct ggctcttgct ccacgcgtgc agaaaaggca gttctaaaat ctctgtgtgt 1860 acattaatgc ccatgatggc aagtggcatg gtgttaggga aaaatgcacc atgtgtgttt 1920 gcgtggccta atggctgtgt attctagggg acgtggggac actgggtatt ttttggcaag 1980 gcctctttat gttccatcat tcttttgtga caaccaggac aaagaacatg attcctgctg 2040 atcaacgata aagctgaggc ctacaggggt gaggcagctt gcctgagcta gtgttccctg 2100 cacctacctg gatgtacttc atgaagcggt ggcacttccc acagcgtgag aggggcttgc 2160 ctgtggccgc caggggcgag aaagacacct ccatcaactc atccatgcct gcgggcaagc 2220 agagtgcagg agtcatctcc ctcccagtcc ccagcaaaag gctccgcaac acgtggtcaa 2280 gggtctgagt gtgaaagggt ccctataggc ggtggtttct actgtcctgg cagcacggca 2340 gggcagcagc cctgtgcgtc agaggcacgt gttcctggcc atgtgtggtg ttaatgcacc 2400 tgctctttca acccagccag gaggtgtcac tgacctggcc tacggaggcc tgaagcccag 2460 atctgggagc tggtcccacg tggggacctg ggtccccagg tactggcctt gctgacagag 2520 agacacccct ctggtgaggg gcaggccaga ggcagactct accagcaatg gagtcgacaa 2580 agtagtggaa cttcctcttg aacacgtcca gggtgtggcc caggacctgg cggtagtcgg 2640 ccttgccctg ggcgatcagg ttcagctgct tctccactgc actgcggatg gtggggagca 2700 ccagctctgc atctgcaagt gggcaggggg cagatattgc cctgagcact cgcacccagg 2760 gccatgccac cccttcccag gcagggatac tgccctgttc acccctcccg ctctggcccg 2820 tcctcctggc ctctgcccta cccaccagtc cacagcctca gatggtacca ggctggctct 2880 tatgacccca gacctttcct gatttcccac ctggaaatgt caggcagagt ggccagggat 2940 gtcctgtggc tagaaccaca tcacacatga gctccaggcc gcccttgggc cagttttgtg 3000 ctcctccctc tccccttggc ccctggggaa cctccaggga acagggctga ggcaacttcg 3060 cctccctttt tggttccctc acacatctgt tcagccttca aacacactga gctcctgctc 3120 tgggcaggtc ctgggggtcc tggggcagca ccccttcagc gggtgttgag ggagtgtgtg 3180 tggggctggg ggatcactgt agggcagggg cctgtctgga gcgggcagca gagccaacat 3240 ccagggagaa gccagggagc ctcggtgggc cctgggggca ggactgagga actcaccaat 3300 cttatagtag ccgtgcacca ggacgatgcc gaggttggtg ggcttgagcc ggcgcccgct 3360 ctccaccgtg acatagttgc gctggcagat gttgttgata tgcacaggga tgctggcatc 3420 cgtgcctgca atgtacaagg ccccagggtt cctggcctgc cttggacatg ccccactgaa 3480 ccatgtgctg tatcacctgt cacggggccc ctggtgctca ggccctctca ctgctcccgg 3540 tcacaggagg gagggctgtg ccctgagctc cccctgcact gtgctgggca ccaactgcat 3600 gcatttcatg ttctgccttg agaacacaag ggcagccctc cctgtacagg gcgcctactc 3660 ctgctttatg gcagagacaa caggctcgga ggttaaggaa ctctccaagg tcacagtgct 3720 tattctgcgc ctggaaaatg tgacttctat ggcttctcct gcctgggtcc tgtggcaccc 3780 acctgctccc ggagccagag ccccactcca ccagaacacg gaggtgctta caagctcact 3840 gcagagctgc cctcccctaa acctggacaa ttctgtccac ttcctgtctc ccacctcctc 3900 cctctctgca aggcccgtca cgatccccag gggaggctcc cagtccccag gattccactc 3960 tcccacccag aggaagtttc ctggcagagg ggcgcagcgg aggctgaggc gttttgacta 4020 tggcgggtgc cagtcagagg ggcagaaagg aggctggggc tccctgcatg ctcaccagca 4080 tggacaggtg acacacacct tcccaaagta gctcggagag aatctcacat gggaagaaac 4140 tggcctctgg gggctaagga gcctgccgag ggcccatggc tcttggcacg aggccagctc 4200 tgcacccggt gtggcaggct gtgggtggcg tgtgccacta ccaccccgag tctgccgggc 4260 gccatgacgc gtggtgtggg ctcctctgtg gcggctctgg tcaggccctt ttgacacact 4320 cctgggggct cagtcacagg gccaccctga ccactctcct gttcagaagg taacaccaga 4380 gccctcttca ctgtcacaaa cttgtattgg tgattgggtc tggctcactg gctagcatag 4440 ggctgccagg agccagtgtc ccatcaatgc gagagggcag aggacacggg ggagcagagc 4500 ccacactcca cagtgggctg agggctattt caggaccctg gcaggtgccc tggacccctg 4560 agaggagcaa gcccagagct ctgctctcct gccaagatcg ccatggtcac caggacccca 4620 gcctgggaag agacactccc tgagagtcca cctatatgac cactgctgga gcagagcctg 4680 gacacagtgg ctgtgacatc ccacaggtct ccagagcctg tcagccaggg gtagtgcccc 4740 agggaacagg cagtgcccag cggcgcgagt gccacctggg gagaaggctc cggcagtgag 4800 gctggccccc aacatgtgag acatctcaca gctccaggcc tggggacttg tgaggccacc 4860 actcctgtga ggagtgtgca ctggtgacta cacttttgct ttgataaact ccctgggctg 4920 cccatttttg cgtggaaact tcctggtcac cctttgggga gccctgtgcc tgggacaggc 4980 atttctgttc tctcccaggg aagcagctcc tgtgagatct catttccctg tcacctgatt 5040 tcaggacagc ccaggctggc tgtgtggact caggggactg ccaatatgat ttctatgagt 5100 cacctggcat ctgggccaat cttcagcctt gtgggcgtta gtcggtgtgt gcacacccca 5160 cagtgcacga gggcacatct gggccttcac agggaaggcc aggtcctgaa tggaggcctc 5220 aggaggggat gcccgctgtg gacctgcctg gctggccaca cactgggtca ccagtttcca 5280 gataccagcc catggagggg tgctgggctg ggcacacagg gctggcgggg cagctttgtg 5340 agtagactcg aagcctgagt actggagacg gagccggctc tggggcctgg gcaggcgcac 5400 ccaccgatgc catgcttctc catgagcgtg atgagctcgg cctccgtcag gtagtcgggt 5460 gggttcgtct gcttctccag catcttcacc tcgcccacag ggaaggcatc accccgctgg 5520 caagtgggca ggctctcctc caggggcacg ctctgccagg gcatgacctc cgtgaagcct 5580 ggagagatat gcgccgccac tcagggtccc cagcctgggt ggccggggcc tcagaccctg 5640 ggcctcccat ccccagacac gatgtagaat gtttgtctgc ccatgaaggc acagaggagg 5700 aaggctgggc ccgtggtgtg acctggtgag aggacggtct tcccggagca ggtgaagagc 5760 tcgggcccaa ttctgaagga gatggtgctc tgcaggtact tgcagtcatg gctgaccgtg 5820 gcgatgaagt gtctggtgat gtactcatag agccgccacg cgtcaccccc tgcaacaggc 5880 cagggctagt cagttgggag ccagctgggg gctctggccg tgaggagccc ccagtactct 5940 cgctcgagca gcaagctcct gcttacagag ccgctgtgca ggacacactg caaatcctgg 6000 ggaaggagga aagaaaatgt gcaggaaggc cgggcgtggt ggctcatgcc tgtaatccta 6060 gcactctggg aggctaaggt ggatggatca cttgaggtca ggagtttgag accagcctgg 6120 ccaacatggt gaaaccccgt ctctactaaa aatacaaaga aattagctgg gtgtggtggt 6180 gggagcctgt aatcccagct actcgggggg ctgaggcagg gtgaactgct tgaacctggg 6240 aggcagaggt tgcagtgagc cgagatcggg ccactgcact ccagcctggg tgacagaaca 6300 agactctgtc tcaaaaaaag aaaaaaaaaa agcaaatgcg gaggaaggga acacaagcct 6360 ccatgcctca gtggtttctt tctggctgcg gctcccacca tcctgcacaa cctcctgtcc 6420 ctgcttctgg cgggactgct cttcaggcat tggcctgtct ttccattgtc tcgtgacatg 6480 acaccattgc ttcaaactca gactgtccac aggtggctcc tgtctctacc tgcactgctc 6540 tcccttcctc atttgccttc tcctggcact cggaccactg gtaccacctt aggccagctg 6600 ggaggtagga ggtgtgctgc cccctccccc acaccgccac tctctaccct ggtttcattc 6660 atgtcccctg tggcgtctgc ccccttgcct ccctgcaaca gcacctgctg ctacctcttc 6720 actcctgtcc tggtcccata gcaatggagc tcatcttcca ggtggccccc catccccaca 6780 gccagggcag gcagaggctg aaggagcccc cacattgcca acagggcctg caaccttcac 6840 tgtcgcagct cgcccttccc tccctggaag cacaccgggt atgggatgag agcggtacct 6900 aattcggcct ctgtggcaga cttcatgggg gtgatggggg gatggtcgcc ggcgtcatgg 6960 cctttccgcg ggcggttgat accttctgct aacaaccgct tcacctgagg gagagaagac 7020 agagcagagt ctgtggctgg gctcggctgc ctgcctgggt ttggctgacg taccagacct 7080 ggtcccaagg cctcagtgac acacacacat gctgaggccg gcccggctcc actcaccgtg 7140 tcggcccagt aggggtggtt ggcctgctgc cgcagagagc ccttcaggtc aaagttctca 7200 gggtagtggg tggtctctgt ccgtgggtag ctgatgtagc cttgcgtgta gagccgctca 7260 gccgtctgca tggcgtgctg cggccccatg cctgcgagag acaggaggtt ctcagagggc 7320 caggtacgtg gggatggcca gctgcctgcc ctggcctatg cactcaggct cccccattgt 7380 ggccggcccc tcctggaggg tgacggtggc tctgagcagg cacagctgga gtgcaaagct 7440 gctggccggg tgggcaccta tgccacacag tcttgtatga ggctgaatcc cgcacccgta 7500 aggctgaatc ctacacccag gatgggcctg atgggaaacg ccactcactc taccccacgg 7560 tgcatcctca tggggctcat ggccatgggg atgacacatg gccttcagag caccactccc 7620 catgcattgt ccatggagcc ataaccatac ctcggggttg gctgacgaca gagttagcac 7680 gcagccccat tttgagccct tgggtgtttc tgtcctcaca gcactttggg gccactcagg 7740 ggggctcgtc ctgctactcc ctgaccagca gaggcaggcg cttagctagc aaccactccc 7800 agcattgctg ccctctgagg acgctggagc caccactcag tgtccactga gaggacactg 7860 cccatagttc cctgcggggg tggggggcac caatgcctag gggctgacag ctgccagaga 7920 ccaccagctt tccagcccaa ccccctcctc gttactaagg agaaaagact gaggagatga 7980 ggctgagggg cgacgttcac actggttccc tgaaggtgac atctggctgg ggcctctccc 8040 ctcaccaggg atagctgctc agggactcta acatcaggag gtcccctcag gtggtgacca 8100 actttaccac ctttacaacc taaggataag tgaaatcctc ctgaggctca gatccccttg 8160 aagccttggg caccatcctg caaccctggg cactcgctgc tccaggctga acctgcctca 8220 ggaagccttc tggtgacttg agagaaatgt ccctacatac ccagagaaga gctggccaca 8280 cgcagcatct ccacagtgtt cagggccagg ggcctctgct tggccttttc tttcctgctt 8340 gtggcctcca cctggaagac aggacagtca atgatttggg gaaggaggaa gacaccacca 8400 tagagggaat caagatgtgt ggacgaaggg tctggtttca ttcatctggt ctccctgttt 8460 ctccaattca ttcttcccaa cagtctaaag acttgattga atatttattc aggaccagga 8520 aaggaaaaag aatgaaaatt cttttttaaa aaaaaatttt ggctgggtgt ggtggctcac 8580 gcctgtaatc ccagtacttt gggaggctga ggcgggtgga tcacctgagg tcaggagttc 8640 gagaccagct tgaccaagat ggtgaaaccc cgtctctact aaaaatacaa acattagctg 8700 ggcatggtgg aacgtgcctg taatccaagc tactcgtgac gctgaggcag aattgcttga 8760 acctgggagg tgaaggttgc agtgagctga gaccacgcca ttgtaatcca gcctgggtga 8820 cagagcaaga ctccatctca aaacaaacaa acaaacaaac aaaaaaccaa attttgtttt 8880 ttttaagaga cagggtcctg ctctgtcgcc caggctggag tgcagtggca ccatcagagc 8940 ttactgtagc cctgaactcc tgggacaagt gatcctcctg cctcagcctc ctgtgtagct 9000 gaaaccacag gcacacacca tcatgtctga ccaatttttt ttttcaattt cttgtacaga 9060 cagggtcttg ctatgttgcc caggctagtc ttaaatgaac tcctggcctc aagtaatcct 9120 ctcgcctcag cttctcaaag tgctaggatt acaggcacgt gccaccatgc ccgtctactt 9180 tttaaattat ttttttcaga gacagggtct ccctgtgttg tccaggctgg tctcaaactc 9240 ctggcctcaa gtgattgaat attcttttct ggagaatttt ctagggaaag agaaaacctg 9300 gaagattgag gaggagtcag aagggctgca gatggaaatc ctacagaagc cagcatcagc 9360 caagctacag ggatggcaag tggggcccgt cccaggggaa gtaccactcc ttgttgtggg 9420 gagggctgct gcctgcacct gctagtattg ctacctcttc tgatttttca agagaagcta 9480 gaaggcagaa ttttagtatg aaatctcgta atttttaagt gctggtaact attctggaat 9540 ttgtgtaaac accatgcagg ttagtggagt gcatctatga gctgtgcttt gttggggtcc 9600 tgccactctc tacctctgct gaacacttgt cggaagagac aactctttgt tttgcctatg 9660 gcaaaaacaa tccaaacaac tcaaccccag gccctggccc ttgccaatcc cacgtaggct 9720 ggtcagggca gtgccttctg cattccagac agacagatgt gggtgctaac agaggccagt 9780 tgttatgtga agctgggctc cccagcgtga ggcctggagg tggcaacagt gtctctgcag 9840 gaatgtgatc aatgctgaca gcctggagca gctttagaag tttcagatgc ctgagacgat 9900 agcatggcgg gcaacagggc actcaaggaa ggccagagaa ggacaaggag aaggcggcta 9960 aggaggccag gctgtgtctc gacggatctg gtagctgtca tgcctgtagc atgtttactt 10020 caatagccac agatgtgtcc ccaacccatg cagccaggtc acctcaccgt tttcctaaca 10080 gccaagcagc atgtcctttc aattcataga agccctgagt aagaaacata atcccataaa 10140 agcacgcaag ctgattgcaa ttggaatctc aagactttcc cctgctagct gtgaccttgg 10200 gcaagttcat cagtgtgcac caaggtccct ctacagttgt tagtttgaat ctctgtgtga 10260 aatggagtcc tgccacacgg aggtaatgcc tagcgggtca cgtggaaagg ggagagtgga 10320 aggggtccga caaggtcaca ggtgtggaca gtgcctggta tggagcgggc atgcagtaca 10380 ctgtgactat tgcactgggc agaaatatct taggagtata tgagggagta accattcagc 10440 tttccaaaaa gatgtctgtg tttcagaaag ggggagaaag acgtggacta ggatcacagg 10500 ctgttcctcc agcgggaggc atccaagggc caccctcacc caaggcaact gtgatagatg 10560 tgggtggagc aggcacacct gggcttcctt ctccagcttt gtcatgttta aaaacatctg 10620 tgcgatctcc cggtcaaaca ctcttactcg gtcccagtcc aaaaggagag atctgtcttt 10680 gtcagtgtta acctgcagga aaaaggataa agggtgaacg cacaagaaaa agtctccagg 10740 tgagcccaac gccaggaaga accaggacag atgaagctgg tccttgtctg ggagccaaat 10800 agccctggct gtaatggctc acagctgtac ctgttcaggt gggcagatac gcaagctgac 10860 atctggccct ctccaccact tgccccaaaa ccaggcagcc agtctcagga aggtggccca 10920 aagctgaggc tgatgtgtcc ctaagaagca cctgagcccc tacttctcac accacccctg 10980 cctatcccca gtgcctggcc agtggtaggt atggccaccg ccagggtccc aagccccgtg 11040 tcagccacag cagctccaag acagtgtctc actgtgttgc taggctggag tgcagtggca 11100 cgatcgtagc tcactgtagc cttggactcc tggcctcaag caatcctctt gcctcagcct 11160 cccaggttgt tgggattaca gacatcagtc actgtgccta gctgtattaa gtcttacagt 11220 gagcttctgt ggaggctttt atttgaagaa agggttctag gaattttaaa aagtttgaaa 11280 gccaatggtc tcagtccagt gcttggacct gaccactgaa gccactgatt cctgtggggt 11340 gacctcaccc tgcactgcca gagctgaact cattcccact tatccagatt cagcatatac 11400 aggcccagtc tcttcccact gcccccatga aggctggggt ccctcagccc taggcaccac 11460 agaccacttc caggtacagc cgtccacact tctgccctca gcccggggcc tgccggctga 11520 tgatgatgga agactctcag aatccatgcc ccaaacccag aaagccccag catgaataga 11580 gaaaggcaag gaaccttggc ctgcagcacc cagtaggtct ctggtttgaa ggactggatt 11640 ttatcatgtc tctccacaca gaatcccagg gttggagtct gacacggccc aaaggagatg 11700 agagagctgt ctaaatcacc gtatttcccc tggaaatatt tagtctgaaa cctggaggga 11760 gtggaaagat attttggtca ctgattcact caagacacta ttatggccac ccatgtgagt 11820 ccagcccaag gccaggggtg gtgcatgaag gaggtggcat caggtggtgt ccccacttag 11880 aagccagtgg gagcagagtg ggcatagcct tagggaggat tcatgtgtgt acatgggtga 11940 cagagccagt gagagaggag acagaggttt ctactgtctc aggccaggga gccttctatt 12000 ctattccatc tactgcacac tctcctcagg acccccagag cacagacaaa cacactttat 12060 caagcagggc atatgtgatc tctgtcagct aaataaacaa ttttctttag gtctcttttg 12120 tttttgtaga gacagggtct tgctgtattg cccagcagga gtgcattaat ggggattcac 12180 agatcattgc agccttgaac tcctgggctc aagtgatcct cccacctcag cctcccaagt 12240 aactgggact acaggctcac accaccacac ccagctaatt aaaacaaaat gtttggacag 12300 gcacagtggc tcatacctgt aatcccagca ttttgggaag ctgaggtggg cggatcacct 12360 gaggtcagga gttcgagacc agcctggcca acatggtgaa accccgtctc tactaaaagt 12420 ataaaaatta gccgggagtg gtggcaggag cctgtaatcc cagctagttg ggaggctgag 12480 gcatgagaat cacttgaacc caggaggcag aggttgcagt gagctgagat tgtgccactg 12540 cactccagcc tggatgacag agtaagactc tgtctcaaaa aacaaacaaa caaaaaaata 12600 aataaatttt tgtttagcct gggcgcagtg gctcacatgt gtaatcccag cactttggga 12660 agccaaggtg ggcagattgc ttgagctcag gagtttgaga ccagcctggg caatacagta 12720 aaaccctgtc tctacaaaat gcataaaaat tagccaggca tagtggtgca cacctgtagc 12780 acctgtagtg gaaggctcag gtaggaggat ctcttgagcc tgggaggcag aggttgcagt 12840 gagctgagat tgtaccactg cattccagcc taggcaacag aacaagactc tgtctcaaaa 12900 aaataatttt tttttttttt ttttttgtag agatggggtc ttgttatgct gcccaggctg 12960 gtctcaaact gccaacctca agcaatcctc ctatcctggt ctcccaaagt gcagggatta 13020 caggtgttag ccactgtgcc tggccttctt cagggttggt gaaatcccct gttgctcatc 13080 ctggctcgag gaggcctagg ggccccggag ggggaccagt agaggcaggt ctctggctga 13140 gggagagtga gggtgtgccc aggactctgc gggtgtggcc agcacctggt gaatgcacag 13200 ccgattcgca ggtccagctc ctggcgagca tccactgaga gcgcctcgtt gtggtcaggc 13260 tcgcctaggc aggccatggc attacagatg tctgtgtccg tgatggagct aaacctggcc 13320 cggaacacgg tcttctcgcc accatgggcc ttgttcatga cgggcagaac agcatcaaga 13380 acctgggggt ggggagtggc cagctgtgac ccacctccca gatccctgcc acagctcccc 13440 accccactgt gaagcctggt tccttccagg aaagaacacg tgtgctcggc tccctctcct 13500 gcccctgcca gaccctcctc tatccccttt cctgcacctg ccagaccctc ctctatcccc 13560 ctgcctttcc agaagccctg agcactccac aacaccccac cacatggctt cctttactcc 13620 catctagaaa catactcgaa cactcccttc ttactcccgc cctctcttct aatcctctgc 13680 tttcatcccc accaaatcag gaaatgctac tgccaagtac atgagggacc tcttagtccc 13740 caaacccatc ccatgtgaca cgattccctg ccttctagga gggagggttt ggaggggtgg 13800 gtggaaattt taagaggctg aagaaaagac agggaaggaa aaaagaatga aggggaaagg 13860 aaatgggcaa gagcaggaag gccacgggtg gtcctagctt gtggtggggg cagctcgggc 13920 taaagcacag caggggtcct ggagccgaga ctcactagga aggccgtgca gtgggactag 13980 ggtcgccgcc ggagcctggc cacgcagctt ccttactggg aataagtggc ttcatttctg 14040 aagggagaaa gccccatgag ctgcccccat tctccattcc cagatgcaaa ggcccccagg 14100 gaggagccgc cctgcagggg aggagagggt atctgggaag agacagagtg tgatcgcatt 14160 tgctgagggt gctgtactgc aacgccaggt gcctcagctc tgtctcactg accagctctt 14220 gagccacggg tgagagctgg gggtacagga gcacgggggc gacccataga acaacagtct 14280 gaagggcacc aagtgagacc agcagtcatg gccactgtga gggcaccatg gccggggcaa 14340 gcatggggca tggggtgtgc acagggagca gctgccacct gcttctctgc agggctccca 14400 gggttggctg gaggcaggag gcatcctgga tgaggcagga gatgagcaga gcgaggcctg 14460 caaaaggagc tcagtgctga ggtcgggaat caaccagcat caacccaagg tccctgagaa 14520 gtcacgctgg gcacaagatg ctgaacacca agctgcccca agacaatccc attctgaaac 14580 ctgcatccac ccagacaatt tggcccctcc tatgttcact cataccgttg aggcctcagc 14640 aagcggagga acaactgacc acctttaata gagcctatgc agttaaaagt atctgtggag 14700 tttcagaata aagggagggg agaggtgttt ttaaaccggt acagtttact ccctcctttg 14760 gccccaggag tgatgtgact gactgctggt gtcagtttgg ggctggtgtc agaaaggcca 14820 aaagtgagga acaaagtgag cctcacactc acctcaaagc agatgttctc cccctccttg 14880 tcgcagtcca gccacagcac gatgtagtcg cagcctctgc cctccacctg ccacacagca 14940 caggttcaca cgtacctgct gcagacccgg tctgtgccac ccgcccccag tgctcccatc 15000 caggacaggg cttggtccca ggccctgaac ctcagttagg aggactggta cctgggctgg 15060 gtaaggagct ggctgtgttg aggctggctc agccaacaga aaagaattga gtttataatt 15120 gatgtttttt ggaccaaaaa aaaaagtata aatgcaacat gatcttatac cccaaaactg 15180 cccagaagaa gggttaaaat gaaataaccc taaatgataa cagcagtcgt cttgggtaat 15240 atgattatgc ataatttttc tgtctttcta cttatctgca ctttctaatt ttccataatc 15300 tgtatgcatt tgttttaaaa ttaaggagaa aaaccccccg accaaacaag ctattttaaa 15360 agcagaaggc ctgctctcca ggactgaggg ttggcaatgg caactgcctt gtgtgttggg 15420 ggtgcctgca ggtgcctcgt gggccagcag ggggcactca cagaaaaagc tagcaaaggc 15480 ccccctgtcc aagggggatt aggactcaag caagggtggg caaagacatg gcagctgtgg 15540 agggtgggga gccccggtgt gctcatgccc aggccagccc cacgcacctg caggaacttc 15600 accatgttca gcttggggtt agcttctttc ttctccgtgg gagcttggct gaacagttct 15660 gcggggtcca ctttgtccca tttgttgtat tttcctacaa accagtcaca gtgacattga 15720 gtcacaggag ctcagcctcc gagaccatca taaccccagg aggatgttgg cctcatccca 15780 caaatgagga ggggaaagct tggagaacaa tttgcccagg gtcatcctga tgatcagagg 15840 cagagccagg atgtgggttc aggcctttgg taaccccctc ccatccagcc tcctttctgc 15900 tcggctgctg agcggaccca ccacaccccg gccaaccaca ggagccaagc aagctctcgg 15960 ggggctgcca ctctggcctc acttccggga ctttccctgt ggctgggagc accattcctg 16020 ggctgggtct ctttgcctga gcactggacc ccacaatggt gccttcattg acacttccaa 16080 cctgagtttc tggaactttg tccttccacc cagcactctg tgggggcaca catgtgtgca 16140 gtcgttcctg ttaaaggacc atctttttga gcctcatgcc cagcacattc acctactcat 16200 ctacagagac ccggttcttg catgctcagc tgtctggctt tcttttaggc cccatttctt 16260 tttttttctg agacaggggt ctcgctctat cacccaggat gaagtacagt gatacgatca 16320 cggctaactg cagtctcgac ctcccagcct cagtccatct tcccacctca gcctcccaag 16380 actacaggtg cgcaccacca tgccagctga tttaaaaaga attttgtttt tttttttttt 16440 tgtagagaca ggggtctcac tatgttgtcc agactagtct tgaactcctg ggctcaagcg 16500 atcctcccca ggccccattt cttgcatcct gggagaatgg ggtcagacag agccaaattc 16560 aaatcccggc tccccacctg ccagttggag ataaaacttg gggtccaaat gctcagccac 16620 acaactcagt caccatcatt gtcatcactg tcatcaatga gcagcaagaa caagggctga 16680 ggctttgctg tgtgtcgggc cctgtgctga gtgctttgcc ctcactgtca cactgaatcc 16740 ttagccttgg gaagcagatg gcattgctgt gagacccatt tcactatgag aagtgtaaac 16800 tcagaggccg tcattgccca catccccagc cagtgagccg gcagagcagg gggaaaagcc 16860 tggatcagac tcttgccaac cacatggccc caaacctaca cccagcaggt cactaatact 16920 ggcgcttcca aggtaattga taacagtaac aatataggaa tgacaacgac agccaccaaa 16980 tgaccgacag atgacggtca acttggcaac agcagcagcc ttctcttaaa tgcctgcaca 17040 ggtcaagccc ttcctaagat aggtgctgcc actttgtcta cataggaagg cacacaggga 17100 atgcagcgac taaggggtgc cgctatgatg gggacccagg gctgagttcc agagcctggg 17160 ttctgggcac cgcaccaggg accctctcat tgctacttca tgatctgctg gccttatgac 17220 tcatggagtt gggacaaact tccctgccta gaggcatctc ctggcttcaa ctggaccctg 17280 gccagtgcca tgcagaactc ccttcagtag gatggagggt agaggggctt acccaggaaa 17340 tccagggtca tcacgtgacc acagacagac gtcatcttga agcgcactgg ctggccagca 17400 aaggtcccag tgtactcgtg gactgagcag gccccgttca gccctttgtg tgaggacagg 17460 ctccctgggg atgaggaagc acaaagtgac tggctgcttc agctgagctg aagaccctgt 17520 ggagacccca gcccggatgc cacctcccag agggccagag tcctccttcc ccagagtggt 17580 gagtgacgac attccgcaga ctggtgcggg tagttgggca ctgagaggtg ggacggcgct 17640 cagggaaaac agcatctgcc aacaacctag cacagagcac tctcgatgca gagccccagg 17700 ctgccgggag ccaggagcag gcaggggtgg gctctttctc tgtatttatg ttttcactct 17760 tcaattccat ttttgcctca cttcattgaa acgttattca tcgtttacta aaacagactc 17820 cagatctact ctcggttacc agggaccttc taattatcga attctcaccc tctccactga 17880 ccatactcag ctgtactttc tcagcttctg ggcaccgggc accacttttg gggcaccgtc 17940 ccctgcggac catgccttct cagctgaacg agggtctctt cccctctcaa ctgctggacc 18000 aaggggaggc caggtaggtg cctgtcattt ctgggtaccc agcatctaaa actcttccta 18060 tttggaggga attcaaagat agggggaaac agcaccctac caaccacccc agtggccaga 18120 gttgggggtg agtggcagac attccctctc gagctccctg gtgtctcagt agtgcctgtg 18180 gccatagctc agtccattgg ctactctgga gtgacgtgag gtccacagga cagtgggagt 18240 atccaggggt gacaatgcct ggggcatagc ctcatcagac cttgactggg gtgtagtcct 18300 ggctgcgtct ccttccttcc agggctggtt tctactacct gtacctaata gccccaccag 18360 gcccagcata tggataatga ctgtccttca atttcattgt aaattgtgcc ttgtgcctta 18420 tgggaacccc agctttggca cattgccagg agtggaagca aatgcacccc actgtgacat 18480 actgagatgc ttcattacca cctgccgacc cgaaccaaat ctaccccagc cagggtggaa 18540 tcacattagg aaaaaatgtc ctgtaacaca taaacgaccg tgcttacaga ccaaagcagg 18600 gctggtctct cctacctcta gagaggattt tggcaattga ctgtgccaag gacggctttt 18660 cagcaaccat gagcacagtc ttcattttgt ctcggtcctt cacactccag tttcggggca 18720 ctggcaatga aaaagtttag actccactct tccgcagcac agcactatta ccaatgctga 18780 ctcctaaaga gaagaaaaga cactcaggat agcaatgctg tcaatagaac ctacaccact 18840 acaaggaaaa tcactttaac aaagaaaaaa caagaccaac ctgaggcaag aagaagaaaa 18900 attagggaat tagggaaact tgaagacatc tgagattaaa aacaagaaaa aactaccagg 18960 tcagctgaag tggctgagat gatcctggga atgtggctcc atttggggga aggtgaagtg 19020 gccccagtga tctcaggtca attttattcc taaatccatg ctaggaagat gctggggcct 19080 ggggatctgg agtgatgggt caggccaggt ggatgcctgg ccctcctctc tggactggct 19140 cttccaccta caggtggact cacctggaaa gaggaactat cgtggccgag agcagcacct 19200 cccgctcagc aaagcacttg gacgccccag gacactttac aaaatgcaga tgcccaggct 19260 gggcccccca ggtccttctg atccatgatg ggcctgagac cctctggcta gtcggtccag 19320 ccccaagcag acatcaggac tctgtcacat ctatctccca cctattccac tccacctttt 19380 gctttgcagg tcatgctctg gccaaattaa atcaaatatc atcatcgaag caaacacgca 19440 cttgaagcct ctgtgcctgc gcttccctgc ctgagagaaa gctccgccag gcctggagga 19500 tgcagctgga tggcccacag gcccagctca agtctcccaa caccactggc agggtaagtc 19560 agccctcctg tgcccacagc tcttgggcta ggtctccatt ccaacccact cacatcatgc 19620 catcatcagc gactacttca cccccaaaat aggacacgat gggctttgtg tctgaatcac 19680 tgttggtctt tgcaacagct ttctgtgcct gacacatgac attcaatacc tgctagccaa 19740 gtaaaagaaa accacatgaa ccctttttgt tttttcagtc attataaatg tagcactgat 19800 gtttataaac atagcaccgt attaaaaaag aaaaaaaaga ctcgtattga gacaactggg 19860 aaatctgctg tgaaaaaaaa taaagttaga ctcctgcttc ctaaatccca ctaaaaccga 19920 ttccagatct agcaaaggtt tgagtagaaa caatgaaacc agaaaatatt aggaaaaaca 19980 tgtgctttta aaataaatct cacaagccag gtgtggtagc acatgcctat agtgtcagcc 20040 actcaggagg ctgaggcaag aggatcgctt gcttgaggcc aggaattcaa ggctgttgtg 20100 tgccatgact gcacctgtgg atagaacagc cacttcactc cagcctaggt gacagcaaga 20160 ccctgtctca aaaaaagtaa aagcaaaata aaataatctc agcataaaga aaaactacca 20220 cctagatggg cacagtggct cacgcctgta tcccagcact ttgggaggct gaggtgggtg 20280 gaccacttga ggtcaggagt tcaagaccag cctggccaac atggcaaaac cccatctcta 20340 ataaaaatac aaaaattagc tgggtgtggt ggtgggtgcc tataatccca gctgcttggg 20400 aggctgaggc atgagaatcg ctcgaactca ggaagtggag gttgcagtga gccgagatca 20460 tgctattgca ctccagcttg tacaacagag cgagactcca tctcaaacaa aaaaaaaaaa 20520 aaaaaaaaaa gggaaaacca ccacgtaagt acctttgtgg tatcacatca tgtccaacaa 20580 cactcgcaga agaaactcag aactacaatg agcttgtgct tatcacatag ggagagactc 20640 aaagtcgttg cacacacagc agatgagggc atggggaagt taaatgggaa caacctctat 20700 gtgcagcaat tcagggatcc ctctcaaagt ccgagtgcac atcccagcaa ttccactcct 20760 tggaatgaac ttaatagtcc agttatttat tgagtaccta ctgcatgctt ggcctagtcc 20820 aggatgcagg gaatacagca caaagcaaca ccaggtcctg ccctcccaga actcatgctg 20880 tagtatggga gcaggggagg gacagggcag ggctgggtga cacctgggag aagagtccag 20940 gcagaaggag cagggaaggt gaggtccttg gggaggatat ggctgggcag gggggctcat 21000 ggggctgagg gagggagcag gggtgtagaa tgtgggtctg ctctaggggt gctgggaggc 21060 agcagagggt ttgcataggt gtgggataat ctgacttcaa gtgttaaagg gacctctctg 21120 gctgccacat agaagaggat gaatgggccc tgggtagcag tggtggagga tgcgagggaa 21180 gtcagaatcc aggcagacct gggatggcgg gacatgggag ggggagggga aggtgagtca 21240 agaatgacct gaggcagagc tgggcatggg ctcacacctg ccatgggctc acacctataa 21300 tcctagtgct ttgggaggcg aaggcaagag gaccacttga ggccaggagt ttgagaagag 21360 cctgattaac acaatgagac ctcatcttta caaaaaagca aaaggaacaa cccatggctt 21420 tggcttaggc atgacaggaa gggactggca gtctgatgtg ggacttcagg tgtgttaaac 21480 gggacctgcc cattggacag cctgggtggc ctggaggagg tggcagcaat gtggaaggag 21540 cccaggctgg gggtcgggag atgaggagct agcagggtga gtcaggaggg gtaaggtcct 21600 gaaagccaca ggaaagagca cttcagggca gttatcacca tgtgggggac actgacaggc 21660 caggcgagat ggcagctgag acctgactgt agggtctggc aaacagagcc ctgggtaatc 21720 ctgatggggc catgtggtga gtgacagatg aaagctgcat ggggtgagct caacaaaacc 21780 tgggagatgg gagaaggctg gtgcactgtc ccctcttgtt tcaggatggt ggctgtgcca 21840 gcatgttctc cgctgatggg actgctctgg cgagaaggaa aagagaagct gcgtgccgga 21900 ggggaaggaa ctgctgcagt gatggccttg ggagggtgag gggcaagaga ggcagccggt 21960 cagcatccag gcgatgcaga gctgccacaa ggctgcactt ctcttggtgg aggaggaggc 22020 atggtacggc tgtccactga gggaggacag gtggtgatgc tgcgggcagg cccacagcag 22080 aggaagcact ggatttagtt agatgggaga gtccaggtga gtaggaggga gagggagtgg 22140 gtcagggttc gaggggagag attacaagga cagaacctga ctctgagttg ggtgaagagg 22200 gaggtgaggg ttggggaggg tccacagagg gtgtgctctg tggggtccag gaagtgaggc 22260 acaagagcag gaagtgggag tcaaagaagc aactcccaga gggtgggagg ctcaaacagg 22320 aattacagag gggcctgggt ggtggcatgc tgacccaggg agggcaaggg ctgtgagaca 22380 ggtagagagt gaagtcacct ggggagactc acaggagtca gtggtgggcc ctgacaagac 22440 tgtccatgtg gactctgagt ccccaggagg taggacaggg cagcgctgga gtggcctcag 22500 gctgggcacg gtggtgcctg tgatgaacca catcactggg gagttctctg cagcattatc 22560 aatcatgata aaaggttaga aacaagctgg tgtctgtcaa cagggaggtg gttaaataaa 22620 agcatggcat tctctggccg ggcgcggtgg ctcacgcctg taatcccagc actttgggag 22680 gccaaggtgg gcagatcacg aggtcaggag atcaagacca tcctgactaa cgtggtgaaa 22740 ccccgtctct actaaaaata ctaaaaatta gctgggcatg gtggcaggcg cctgtagtcc 22800 cagctactcg ggaggctgag gcaggagaat ggtgtgaacc cgggaagcgg agaatggtgt 22860 gaacccggga agcggagctt gcagtgagcc gagattgcgc cactgcactc cagcctgggc 22920 gacagagtga gactccatct ccaaaaaaaa aaaaaaaaaa aaaaagcatg gcattctcta 22980 cagtagagca cctggcagca ttacaaagga aagcatctgc ttggtacata ctaacgtgga 23040 tcagatcact gaaataaatc atgctaagaa agctgggcat gtaacggtgt gtagagagca 23100 ctgccatctg tgatcacaca tatgtgtgca cacgtgtgca cttgattatg aagaggcgat 23160 atgtctggat ggaacgcaaa acaaacagtc caagcaatca cctggagtgg gtgttagggc 23220 ctggaggtca gggctggggg tgcctcctca ccacattccc ttttgcacct tttacattta 23280 gcgcctggac acaggtgact gagggacaag aactaagaca agggacttta caataaaacc 23340 agaaaaataa aggagggttg taaagggcat tgttcagaaa ggatgccaaa ggaactccct 23400 cactaaaggg gcttctgctg ctcatcatgc tgtgcagggg aagaggtcca aggtcggcct 23460 tgggctgtca accttgttcc ccacttaaga gatcacagga ctacagtgaa atcagtaatc 23520 ttgaccagaa agctgtccca aataaaatga caatttgctt ttttcctcaa aataagtaag 23580 tggatgttcc ccttaaatgt acaaccatcc cacagtgaaa gagccgaggc cttgtggaat 23640 gacgacactg tctgcagatg agctctctgg cccatgacag ctccagctgc atctcccaag 23700 gctctgctgc gcacccacct ttcctccctg tgcgccagca ggcttcggcc taggccactt 23760 ttccccctta gtctacttgc tctgacccct gcccctcccc tcctgaagac tgcatctggc 23820 gtcagcagtc tgtctctccc acaattgtca ggttcattgc catatttctg gcacccagca 23880 tgcactaaat gcctgctgag ggaatgaatg aacaaccaag gtgattatga ctggcctctg 23940 ctctccgttc tggggaagtt ttgattctac caaaatcaga ggcccagaag tgaggtttaa 24000 aagagattta gggactcccc ttctctcacc ctgggaagcc agaggccaaa agggaaaact 24060 cgcagcagag gggcattgtt ctgtgagggt ctgagtttcc catctcttcc aaagtaggaa 24120 attttgtcct aaaatgtttc ctcagatttt ctcatgtcta tgccacagag tagtcagcaa 24180 ttatgtatga cataatgagg acacaccagg gaccaggcag tcctgccagc atcctaggca 24240 gggatgctaa taggtgctgc cattttattg gcctagactg ggactgtggg gtcagagaga 24300 ccagagctcc agtggctgga cttggttgtt ctagaacccg tgccccaagc ctgatcctgt 24360 cctgcctctg tgagcactct gatggaacag cagcccagct ttgcttcctt gtagcactca 24420 tcactacact tggtacagct tccatctact tattcagctc ttgtcttaca gctcctagaa 24480 agtaagtaag cagcaggaga acacgggttt tgctttgtgc attctcacgg taaatagaca 24540 gtgagcaaat actttgcgag gctgaggcag gtggatcacc cgaggtcagc agttcaagac 24600 cagcctggcc aacatggtga agcctggtct ctactaaaaa tacaaaaatt agctgggcgt 24660 ggtggcgcat gcctgtaatc ccagctactc aggaggctga ggcaggagaa tcacttgaac 24720 ccgggggcgg aggttgcagt gagctgagat cgcgccactg cactccagcc tgggtgacag 24780 agtgagactc tgcctgcaac aaaacaaaca aaaaaagaaa caagcagatg tggcctggga 24840 gtaggcctag cagtggtctg aatagcatta aaattcctag gatttaccac ctcagtaact 24900 ttaccaaatg cttctagaat caggaaaaga gggaaacaac catttcttaa gctcctcctt 24960 tgtagtaggc acaccatagc tatcaacact attcaatctc gccagcaacc ccataaggca 25020 ggtgttgtaa ttttttaaaa ctgtgagtaa atggaggttc agaacaagtc acactagtgt 25080 caggtgacct tggcaaaaga atcccaggac tggctggcca tcaagcccaa gttaggctgg 25140 cctctcaggt cctgtttcaa aaggtgagaa gataaaaagg caagactagg aacatcttac 25200 ctttcacttc tgcgagaaat tattgcccct ggattccagc taatttgttc acaaaagtac 25260 cctacttcat ttacagataa caggtcagag aacctgggtg ccctcaaaac ccagccaggg 25320 cctagggggc ggcgagtgga agctgcctgg gtgtgtaccg caccgatctg ggccccggtg 25380 gctgcacagc ttccctgagc ctcagtttcc ctacctgtga gactggtaca gcagatctca 25440 ccctaaagag ctgtgggagg gttcgaagaa gaaaagtatt aaccacagcg cctgctccct 25500 gcaggcacat ggcgggccca tctccacctc cctgaacccc cacagcaagc cccgcgggag 25560 agtatcaccc ccgccaggga agaggcaaca agaatgcaga gcccggcccg ggcgctctcc 25620 cgagctcgcg ggtcctccgc cggccaacgt tcaggaaaca agccagaaaa atgcgtgcgc 25680 ttcccgcctt tctgagccgc cgggcgaggg tcccgcagcc cgccgctcac ccacagccgc 25740 accgcggatc cagctccggt ccttgttccc ggggcggcta ccgacaaccc ctatttccgg 25800 gtccagccgc ttctggcgtc ccc 25823

Claims

분리된 생물학적 시료에서 TOP3B(DNA topoisomerase III beta) 유전자의 SNV(Single Nucleotide Variant)를 검출하는 단계를 포함하는 치매의 진단 또는 예측을 위한 정보제공방법.
제1항에 있어서, 상기 TOP3B 유전자의 SNV를 검출하는 단계는 상기 유전자를 증폭하고, 상기 증폭된 산물의 시퀀싱(sequencing) 데이터를 이용하여 유전자 돌연변이를 분석하는 것을 특징으로 하는 정보제공방법.
제2항에 있어서, 상기 시퀀싱은 생어 염기서열 분석(Sanger sequencing) 또는 차세대 염기서열 분석(next generation sequencing; NGS)인 것을 특징으로 하는 정보제공방법.
제1항에 있어서, 상기 TOP3B 유전자의 SNV를 검출하는 단계는 중합효소연쇄반응(polymerase chain reaction), 핵산 분해(nuclease digestion), 혼성화(hybridization), 서던 블로팅(Southern blotting), 제한효소 단편다형성(restriction enzyme fragment polymorphism), 프라이머 확장(primer extension), 단일가닥 형태 다형성(single stranded conformation polymorphism) 또는 상기 방법들을 함께 사용하여 분석하는 것을 특징으로 하는 정보제공방법.
제1항에 있어서, 상기 생물학적 시료는 혈액, 모발, 타액, 소변, 정액, 질 세포, 구강세포, 태반세포 또는 태아세포를 포함하는 양수 및 이의 혼합물로 구성된 군에서 선택되는 시료로부터 분리된 핵산 시료인 것을 특징으로 하는 정보제공방법.
제5항에 있어서, 상기 핵산은 게놈 DNA, cfDNA(cell free DNA), RNA 또는 micro RNA인 것을 특징으로 하는 정보제공방법.
제1항에 있어서, 상기 TOP3B 유전자의 SNV가 3개 이상인 경우 치매 환자 또는 치매 고위험군으로 확인하는 단계를 추가로 포함하는 것을 특징으로 하는 정보제공방법.
제1항에 있어서, 상기 TOP3B 유전자에서 GRCh37.p13(Genome Reference Consortium Human Build 37 patch release 13)을 기준으로 22,311,659; 22,311,776; 22,312,061; 22,312,502; 22,312,378; 22,312,589; 22,312,970; 22,313,743; 22,318,365; 22,312,555; 22,312,531; 22,316,792; 22,311,882; 22,313,733; 22,311,516; 22,312,292; 22,313,669; 22,312,383; 22,330,107; 22,312,568; 22,312,476; 22,318,671; 22,312,668; 22,312,790; 22,318,538; 22,312,484; 22,312,351; 22,312,350; 22,312,315; 22,313,829; 및 22,330,082;로 구성된 군에서 선택되는 위치에 SNV가 검출되는 경우 치매 환자 또는 치매 고위험군으로 확인하는 단계를 추가로 포함하는 정보제공방법.
제8항에 있어서, 상기 위치 중에서 SNV가 3개 이상 검출되는 경우 치매 환자 또는 치매 고위험군으로 확인하는 단계를 추가로 포함하는 정보제공방법.
제8항에 있어서, 상기 TOP3B 유전자의 SNV가 하기 표의 SNV에서 선택되는 것을 특징으로 하는 정보제공방법:

.
제1항에 있어서, 상기 치매는 알츠하이머병(Alzheimer's disease), 노인성 치매(senile dementia), 혈관성 치매(vascular dementia), 전두측두엽 치매(frontotemporal dementia), 루이소체 치매(dementia with Lewy Bodies) 또는 파킨슨병(Parkinson’s disease) 치매인 것을 특징으로 하는 정보제공방법.
TOP3B(DNA topoisomerase III beta) 유전자의 SNV(Single Nucleotide Variant)를 검출할 수 있는 제제를 포함하는 치매 진단용 조성물.
제12항에 있어서, 상기 제제는 TOP3B 유전자의 SNV 위치를 특이적으로 증폭할 수 있는 프라이머 또는 TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브를 포함하는 것을 특징으로 하는 조성물.
TOP3B(DNA topoisomerase III beta) 유전자의 SNV(Single Nucleotide Variant)를 검출할 수 있는 제제를 포함하는 치매 진단용 키트.
제14항에 있어서, 상기 제제는 TOP3B 유전자의 SNV 위치를 특이적으로 증폭할 수 있는 프라이머 또는 TOP3B 유전자의 SNV 위치를 포함하는 영역에 상보적으로 결합하는 프로브를 포함하는 것을 특징으로 하는 키트.