KR101486877B1

KR101486877B1 - 공복 혈청 혈당과 연관된 단일염기다형성 정보를 제공하는 방법

Info

Publication number: KR101486877B1
Application number: KR20140077985A
Authority: KR
Inventors: 한복기; 김봉조; 황주연
Original assignee: 대한민국
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2015-02-05

Abstract

본 발명은 공복 혈장 혈당과 연관된 단일염기다형성 정보를 제공하는 방법에 관한 것으로, 구체적으로 동아시아인 46,085 명을 대상으로 18 건 연구 결과에 대한 전장유전체 메타분석을 수행하여 공복혈당과 연관된 3개의 단일염기다형성 rs733331, rs10815355 및 rs2018860을 확인함으로써, 상기 신규한 3개의 단일염기다형성 마커를 공복 혈장 혈당과 연관된 질병의 진단 및 예측에 유용하게 이용할 수 있다.

Description

공복 혈청 혈당과 연관된 단일염기다형성 정보를 제공하는 방법{Method of providing the information of single nucleotide polymorphism associated with fasting plasma glucose}

본 발명은 공복 혈청 혈당과 연관된 단일염기다형성 정보를 제공하는 방법에 관한 것으로, 보다 상세하게 개체로부터 수득한 DNA에서 단일염기다형성(single nucleotide polymorphism, SNP) rs733331, rs10815355 또는 rs2018860을 확인하여 공복 혈장 혈당(fasting plasma glucose) 이상과 관련된 질환의 진단 또는 예측에 관한 정보를 제공하는 방법에 관한 것이다.

2003년 인간 유전체 사업(Human genome project)의 완료에 따라 인간 유전체에 대한 정보가 급속히 증가되고 있으며 이를 이용하여 질병의 유전적 요인을 규명하기 위한 질병유전체 연구 분야에 대한 관심과 중요도가 증대되고 있다. 특히 혈장에서 측정될 수 있는 다양한 대사 형질들은 복잡한 질병들을 진단할 수 있는 유용성 때문에 임상 연구의 목적이 되고 있다.

최근 단일염기다형성(SNP, single nucleotide polymorphism) 칩을 이용한 타이핑(typing) 기술의 개발로 인간 유전체에 존재하는 대량의 유전형질을 빠른 속도로 분석 가능하게 되었으며 이를 이용한 대규모 유전형질 질병 관련성 연구가 현실화되었다. 다양항 유전형질들에 대한 유전적 정보는 백인(caucasian)과 일본인 지역사회에서 수행된 대규모의 전체 유전체 연관 연구(genome-wide association (GWA) studies)로부터 얻어졌다(Kamatani, Y et al., Nat Genet. 42, 210-5(2010)).

공복 혈당(fasting plasma glucose)은 대사 항상성(metabolic homeostasis)의 한 부분으로써, 엄격하게 조절된다(Bouatia-Naju N et al., Nat Genet 41:89-94, 2009). 또한, 혈당 조절의 실패는 2형 당뇨병의 독립적인 위험인자 및 심혈관계 질환(cardiovascular disease) 지표에 해당하는 FPG를 높은 수준으로 야기한다(Dupuis J et al., Nat Genet 42:105-116, 2010). 공복 혈당 수준은 약 30% 유전율을 갖는 적당한 유전적 특성으로(Henkin L et al., Ann Epidemiol 13:211-217, 2003), 공복 혈당 수준에 영향을 미치는 유전적 결정 인자의 상당수는 지난 몇 년 동안 다수의 유전자 연구에서 확인되었으나, 공복혈당의 전체 유전율은 아직 완전히 설명되지 않고 있다. 현재까지 FPG와 관련된 39 유전자좌를 포함하는 변이는 유럽인으로부터 실시한 전장유전체연관(genome-wide association, GWA) 및 GWA 메타분석을 통해 확인되었다(Manning AK et al., Nat Genet 44:659-669, 2012). 아시아인으로부터 확인된 FPG와 관련된 단일염기다형성(rs895636, SIX2-SIX3 유전자좌)를 제외하고, 비-유럽인으로부터 혈당 조절에 대한 유전학적 기초는 거의 밝혀 진 게 없다(Kim YJ et al., Nat Genet 43:990-995, 2011).

전장유전체연관(Genome-wide association) 메타-분석은 단일 전장유전체연관(GWA)으로 검출되기 어려운 작은 효과 크기(effect size) 및 낮은 대립유전자 빈도를 갖는 유전학적 변이를 확인하는데 이점이 있다(Panagiotou OA et al., Annu Rev Genomics Hum Genet 14:441-465, 2013). 또한, 대립유전자의 빈도와 민족 간의 연관 불균형(linkage disequilibrium) 구조의 차이를 고려하여, 비-유럽인으로부터 대규모 유전학적 연구는 FPG에 대한 추가적인 새로운 유전자좌를 검출할 수 있는 기회를 증가시킬 수 있다.

이에, 본 발명자들은 동아시아인에서 공복혈당과 연관된 새로운 유전자좌(genomic loci)를 찾기 위해 노력한 결과, 동아시아인 46,085명을 대상으로 하는 13건의 GWAS(genome-side association study); KARE(Korea Association Resource) 프로젝트, HEXA(Health Examinee) 공유 대조 연구, CAVAS(Cardiovascular disease Association Study), 3건의 SP2(Singapore Prospective Study Programs), SBCS(Shanghai Breast Cancer Study), SMHS(Shanghai Men's Health Study), GenSalt(Genetic Epidemiology Network of Salt Sensitivity), CAGE(Cardio-metabolic Genome Epidemiology), CLHNS(Cebu Longitudinal Health and Nutritional Survey), CRC(Cardio metabolic Risk in Chinese) 및 KCPS-II(Korea Cancer Prevention Study-II)으로 구성된 유전체역학 네트워크(Asian Genetic Epidemiology Network, AGEN) 연구 및 5건의 독립 연구: Health2 연구, BioBank Japan 연구, JMGP(Japanese Millenium Genome Project), SJTUDS(Shanghai Jiao Tong University Diabetes Study) 및 CUHKS(Chinese University of Hong Kong Diabetes Study) 연구를 결합하여 전장유전체 메타분석을 수행하여 공복혈당과 연관된 신규한 3개의 단일염기다형성(single nucleotide polymorphism, SNP) rs733331, rs10815355 또는 rs2018860를 확인함으로써, 상기 3개의 SNP를 공복 혈장 혈당 이상과 관련된 질환의 진단 및 예측에 유용하게 이용할 수 있음을 밝힘으로써 본 발명을 완성하였다.

본 발명은 공복 혈장 혈당(fasting plasma glucose)과 연관된 단일염기다형성(single nucleotide polymorphism, SNP) rs733331, rs10815355 및 rs2018860으로 구성된 군으로부터 선택된 어느 하나 이상의 단일염기다형성을 확인하여 공복 혈장 혈당(fasting plasma glucose) 이상과 관련된 질환의 진단 또는 예측에 관한 정보를 제공하는 방법을 제공한다.

본 발명의 목적을 달성하기 위하여, 본 발명은 단일염기다형성(single nucleotide polymorphism, SNP) rs733331, rs10815355 및 rs2018860으로 구성된 군으로부터 선택된 어느 하나 이상의 단일염기다형성에 대하여 상보적인 프라이머 세트를 포함하는, 대사성 질환 진단 또는 예측용 키트를 제공한다.

또한, 본 발명은 개체로부터 수득한 DNA에서 단일염기다형성(single nucleotide polymorphism, SNP) rs733331, rs10815355 및 rs2018860으로 구성된 군으로부터 선택된 어느 하나 이상의 단일염기다형성을 확인하여 대사성 질환 진단 또는 예측에 관한 정보를 제공하는 방법을 제공한다.

본 발명은 동아시아인 46,085명을 대상으로 전장유전체연관(Genome-wide association, GWA) 메타분석을 수행하여 공복혈당과 연관된 신규한 3개의 단일염기다형성 rs733331, rs10815355 및 rs2018860을 확인함으로써, 상기 3개의 SNP를 공복혈당과 관련된 질환의 진단 또는 예측에 유용하게 이용할 수 있다.

도 1은 전장유전체연관(Genome-wide association, GWA) 메타분석의 흐름도를 나타낸 도이다.
도 2는 GWA 메타분석을 위해 이용한 연구 각각의 설계 및 샘플을 나타낸 표이다.
도 3은 GWA 메타분석을 위해 이용한 연구 각각의 특징을 나타낸 표이다.
도 4는 GWA 메타분석을 위해 이용한 연구 각각의 유전자형 판별, 결측치 예측 방법을 나타낸 표이다.
도 5는 동아시아인을 대상으로 공복 혈장 혈당(fasting plasma glucose, FPG)의 GWAS 메타분석 결과에 대한 전장유전체 맨하튼 플롯을 나타낸 도이다:
전체 상염색체 유전자에 분포된 SNP에 대한 실험을 이용한 log₁₀ P 을 나타내었다(NCBI build 37). 각 유전자좌의 붉은 점은 전장유전체 메타분석에서 검증된 P < 10^-6을 가지는 신호를 가리킨다. 대략적으로 적어도 13개의 1 단계 연구에서 나타난 2.4 M SNP를 플롯을 만들기 위해 사용하였다.
도 6은 FPG에 대한 1 단계 GWAS 메타분석의 연관결과를 나타낸 표이다.
도 7은 GWA 분석을 통한 FPG 연관 유전자좌를 나타낸 표이다.
도 8은 FPG에 대한 Q-Q 플롯(quantile-quantile plot)을 나타낸 도이다.
도 9는 전체 메타분석을 통해 전장유전체 유의도 P < 5×10^- ⁸를 보이는 신규한 단일염기다형성(single nucleotide polymorphism, SNP) rs733331의 부위 플롯(regional plot)을 나타낸 도이다.
도 10은 전체 메타분석을 통해 전장유전체 유의도 P < 5×10^- ⁸를 보이는 신규한 SNP rs10815355의 부위 플롯을 나타낸 도이다.
도 11은 전체 메타분석을 통해 전장유전체 유의도 P < 5×10^- ⁸를 보이는 신규한 SNP rs2018860의 부위 플롯을 나타낸 도이다.
도 12는 신규한 3 개의 FPG 연관 SNP의 유럽인에 대한 유의적 연관성을 확인한 결과를 나타낸 표이다.
도 13은 GRAIL 분석에 이용한 GWA 메타분석을 통해 확인된 43 개의 유전자좌가 포함된 부위를 나타낸 표이다.
도 14는 GRAIL 분석을 통한 유전자 간 연관성을 나타낸 표이다.
도 15는 유전자 연관성의 GRAIL- VIZ 플롯을 나타낸 도이다.

이하, 본 발명을 상세히 설명한다.

본 발명은 단일염기다형성(single nucleotide polymorphism, SNP) rs733331, rs10815355 및 rs2018860으로 구성된 군으로부터 선택된 어느 하나 이상의 단일염기다형성에 대하여 상보적인 프라이머 세트를 포함하는, 대사성 질환의 진단 또는 예측용 키트를 제공한다.

상기 SNP는 공복 혈장 혈당(fasting plasma glucose, FPG)과 연관이 있다.

상기 SNP rs733331는 PDK1(pyruvate dehydrogenase kinase isozyme 1) 및 RAPGEF4(Rap guanine nucleotide exchange factor 4) 사이의 염색체 2q31에 위치한다. 미토콘드리아 다효소복합체인 피루베이트 탈수소효소(Pyruvate dehydrogenase)는 당 항상성 조절에 관여하는 중요한 효소 중 하나이며, 피루베이트 탈수소효소 키나아제(pyruvate dehydrogenase kinase, PDK)는 사이클릭 탈인산화 케스케이드에 의한 효소 활성을 조절한다. 쥐에서 간 특이적 Pdk1 결핍은 식후 고혈당(postprandial hyperglycemia)과 관련이 있다고 보고되고 있다(Okamoto Y et al., Diabetes 56:1000-1009, 2007). 뿐만 아니라, PDK1의 잠재적 조절자인 췌장 특이적 miR-375는 당 유도 생물학적 반응의 조절에 직접적으로 개입함이 보고되고 있다(El Ouaamari A et al., Diabetes 57:2708-2717, 2008). RAPGEF4는 인슐린 분비를 개시하고 cAMP-의존적 박동성 인슐린 분비를 매개하는데 중요한 역할을 한다(Idevall-Hagren O et al., J Biol Chem 285:23007-23018, 2010).

상기 SNP rs10815355는 KANK1 (KN motif and ankyrin repeat domains 1)의 인트론(intron) 부위인 염색체 9p24에 위치한다. KANK1는 액틴 중합을 조절함으로써 세포골격의 형성에 중요한 역할을 하며, 액틴 스트레스섬유의 형성 및 Rho-관련 키나아제 활성의 억제를 통한 세포 이동을 조절한다(Kakinuma N et al., J Cell Biol 181:537-549, 2008).

상기 SNP rs2018860은 당 항상성뿐만 아니라, 세포 성장, 분화, 이동 및 대사에 포함된 IGF1R (insulin-like growth factor receptor)의 인트론 부위 염색체 15q26에 위치한다. IGF1R 에 의해 암호화되는 IGF1R 단백질은 다양한 종류의 세포에서 성장을 자극하고 다중 신호경로에서 세포사멸을 막는 타이로신 키나아제 활성을 가진다(Riedemann J et al. Endocr Relat Cancer 13 Suppl 1:S33-43, 2006). 최근 GWQ 분석을 통해 유럽인구에서 IGF1R의 높은 SUA(serum uric acid) 농도와 연관이 있음을 확인하였다(Kottgen A et al., Nat Genet 45:145-154, 2013). 잠재적 바이오마커로서 SUA 수준은 손상된 당 대사와 연관됨이 보고되고 있다(Hairong N et al., Diab Vasc Dis Res 7:40-46, 2010). 뿐만 아니라, 두 단계 연구는 인슐린 저항성 및 폐동맥고혈압에 있어서 IGF1R 변이체의 잠재적 역할을 보고하고 있다(Sookoian S et al., J Hypertens 28:1194-1202, 2010). 또한, 근육에서 우성 음성 IGF1R의 발현은 심각하게 손상된 인슐린 매개 당 흡수를 야기한다(Le Roith D et al., Curr Opin Clin Nutr Metab Care 5:371-375, 2002). IGR1R의 베타 세포 특이적 넉아웃은 고인슐린증 및 손상된 당 내성을 유발한다(Kulkarni RN et al., Nat Genet 31:111-115, 2002). IGF1R은 당 기능에 있어서 GLP-1 증가 및 베타 세포 증식을 매개하는데 포함된다(Cornu M et al., J Biol Chem 285:10538-10545, 2010).

상기 대사성 질환은 비만, 당뇨, 심혈관 질환, 인슐린 저항성 및 이상지질혈증으로 구성된 군으로부터 선택되는 어느 하나 이상인 것이 바람직하나 이에 한정되지 않는다.

상기 진단 또는 예측은 동아시아인을 대상으로 하는 것이 바람직하고, 한국인, 일본인 또는 중국인을 대상으로 하는 것이 더욱 바람직하나 이에 한정되지 않는다.

본 발명자들은 구체적인 실시예에서, 본 발명자들은 도 1의 모식도와 같이 도 2 및 도 3에 나타낸 방법으로 13건의 연구로 구성된 1 단계 GWAS 메타분석 및 5 건의 연구로 구성된 2 단계 신생 복제 분석을 통해 총 46,085 명의 동아시아인을 대상으로 전장유전체연관 메타분석을 수행한 결과, 1 단계 GWAS 메타분석으로 기존에 알려진 공복 혈장 혈당 연관 유전자에 포함된 SNP와 신규한 3 개의 SNP rs733331, rs10815355 및 rs2018860 를 확인하였고, 2 단계 신생 복제 분석을 통해 상기 SNP rs733331은 PCK1-RAPGEF4 유전자좌, SNP rs10815355는 KANK1 유전자좌, 그리고 SNP rs2018860은 IGF1R 유전자좌에 위치함을 확인하였다(도 5 내지 도 8 참조).

또한, 본 발명자들은 신규한 3 개의 공복 혈장 혈당 연관 SNP와 이전 연구들을 통해 잘 알려진 40개의 유전자 간 기능적 관령성을 확인하기 위하여 GRAIL(Gene relationships among implicated loci) 문헌기반 주석 분석을 수행한 결과, 신규한 세 개의 SNP를 포함한 FPG 유전자좌가 잘 알려진 공복시 당 연관 유전자와 관련성이 있으며, 당 대사 조절의 기능적 연관성이 있음을 확인하였다(도 14 및 도 15 참조).

따라서, 본 발명은 동아시아인 46,085 명을 대상으로 18 건 연구 결과에 대한 전장유전체 메타분석을 수행하여 공복 혈장 혈당과 연관된 3 개의 SNP rs733331, rs10815355 및 rs2018860을 확인함으로써, 상기 신규한 3개의 SNP를 대사성 질환의 진단 및 예측에 유용하게 이용할 수 있다.

또한, 본 발명은 개체로부터 수득한 DNA에서 단일염기다형성 rs733331, rs10815355 및 rs2018860으로 구성된 군으로부터 선택된 어느 하나 이상의 단일염기다형성을 확인하는 단계를 포함하는, 대사성 질환의 진단 또는 예측에 관한 정보를 제공하는 방법을 제공한다.

상기 개체는 동아시아인인 것이 바람직하고, 한국인, 일본인 또는 중국인인 것이 더욱 바람직하나 이에 한정되지 않는다.

본 발명은 동아시아인 46,085 명을 대상으로 18 건 연구 결과에 대한 전장유전체 메타분석을 수행하여 공복 혈장 혈당과 연관된 3 개의 SNP rs733331, rs10815355 및 rs2018860을 확인함으로써, 상기 신규한 3개의 SNP를 대사성 질환의 진단 및 예측에 관한 정보를 제공하는 방법에 유용하게 이용할 수 있다.

이하, 본 발명을 실시예에 의하여 상세히 설명한다.

단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.

< 실시예 1> 동아시아인 인구에서 공복 혈장 혈당( fasting plasma glucose , FPG )에 대한 전장유전체 메타분석( GWA meta - analysis )

동아시아인구에서 공복 혈장 혈당(fasting plasma glucose, FPG)에 영향을 미치는 유전자좌(loci)를 확인하기 위하여, 도 1의 모식도와 같이 2 단계로 전장유전체 메타분석(GWA meta analysis)을 수행하였다.

상기 GWA 메타분석을 위한 표현형(phenotype) 측정을 위하여, 공복시 당 수준은 각 코흐트에 대한 혈액, 혈장 또는 혈청을 이용하여 측정하였고, 공복시 전체 혈당 수준은 공복 혈장 혈당 수준으로 변경하기 위해 1.13배 곱셈하였다. BMI은 표준 절차에 따라 획득하였다.

상기 GWA 메타분석을 위한 각각의 연구에서 유전자형 판별(genotyping) 및 QC(quality control)은 도 4에 나타낸 바와 같이 수행하였다. 또한, 전체 게놈 스캔 데이터를 획득하기 위하여 각각의 개별 GWA 분석에 Affymetrix 또는 Illumina에서 나온 다양한 유전자형 판별 플랫폼을 적용하였다. 프로그램 MACH, IMPUTE 또는 BEAGLE을 이용하여 HapMap Phase 2(CHB + JPT, CLHNS; HapMap CHB + JPT + CEU)에서 참조 패널로서 유전자형의 결측치 예측을 수행하였다. 높은 결측치 예측 품질(IMPUTE; properinfo > 0.5, MACH 및 BEAGLE; Rsq > 0.3)을 가지는 결측치 예측된 SNP는 그 다음 연관 분석에 이용하였다. 2단계에서 신생복제에 대한 유전자형 판별은 TaqMan, 다중-PCR-유입자 분석 또는 Sequenom Mass ARRAY 방법으로 수행하였다.

또한, 당뇨 환자, 항당뇨제를 사용하는 사람 및 공복시 당= 7 mmol/L을 가진 사람을 제외한 당뇨를 가지지 않은 사람을 대상으로 FPG를 실험하여 통계분석을 하였다. FPG 분포의 정규성(normality)를 개선하고 이상치(outliers)의 영향을 향상하기 위하여 순위기반 INT(inverse normal transformed) FPG를 연관 분석에 대한 실험을 하였다. 가산 유전체 모드에서 다변수 선형회귀 분석을 보완하기 위하여 성별 및 BMI(KARE 및 NCGM 연구의 플러스 모집 지역)를 가지고 연관 분석을 조절하였다. GenSalt 연구의 가족 설계를 위하여, 패밀리 ID가 랜덤 효과로서 사용된 선형 혼합 모델을 이용하여 가족 관계를 조절하였다. 도 4에 나타낸 바와 같이 프로그램 SNPTEST, MACH2QTL 또는 PLINK 를 이용하여 연관 분석을 수행하였다. 13건의 연구 간 이질성을 평가하기 위하여 코크란 Q 검사(Cochran's Q test)와 함께 고정된 효과로 가정하는 역변량방법을 이용하여 메타분석을 시행하였다. METAL software를 이용하여 모든 메타분석을 수행하였고, 연구 특이적 유전체 대조군 조절을 적용하였다.

<1-1> 1단계: GWAS 메타분석

동아시아인의 FPG에 대한 전장유전체 메타분석의 1 단계는 GWAS 메타분석으로 13건의 GWAS 연구를 포함한 AGEN 연구 결과를 통해 분석을 수행하였다.

구체적으로, 1 단계 연구 참여자는 당뇨, 고혈압 및 비만과 같은 대사 형질의 유전적체연관 연구를 하기 위해 2010년 조직된 아시아 유전체역학 네트워크(Asian Genetic Epidemiology Network, AGEN) 컨소시움에서 참여한 13건의 GWAS(genome-side association study); KARE(Korea Association Resource) 프로젝트, HEXA(Health Examinee) 공유 대조 연구, CAVAS(Cardiovascular disease Association Study), 3건의 SP2(Singapore Prospective Study Programs), SBCS(Shanghai Breast Cancer Study), SMHS(Shanghai Men's Health Study), GenSalt(Genetic Epidemiology Network of Salt Sensitivity), CAGE(Cardio-metabolic Genome Epidemiology), CLHNS(Cebu Longitudinal Health and Nutritional Survey), CRC(Cardio metabolic Risk in Chinese) 및 KCPS-II(Korea Cancer Prevention Study-II) 연구에 포함된 24,740명의 연구 참여자로 구성하였다.

KARE( Korea Association Resource Study )

KARE 프로젝트는 2007년 대규모 GWAS를 착수하기 위해 시작되었다. 구체적으로 KARE 프로젝트 연구를 위하여 대한민국 안성지역(n=5,018) 및 안산지역(n = 5,020)에서 조사한 2 건의 인구 기반 전향적 코호트 연구를 통해 40세 이상 69세 이하의 10,038명의 연구 참가자를 모집하였다. 상기 코흐트 모두 종적 전향적 연구(longitudinal prospective studies)가 가능하도록 설계하였고 두 연구 모두 동일한 조사 전략을 적용하였다. 또한, 역학조사, 신체검사 및 실험실검정을 통해 260가지 이상의 특성을 광범위하게 조사하였고, 항당뇨약물을 투여하고 7 mmol/L 이상의 FPG를 보이는 당뇨병을 가진 참여자는 배제하였다. 따라서, 7,696명의 당뇨병에 걸리지 않은 참여자를 대상으로 FPG 검정을 하였다. 그 다음, 유전자형 판별(genotyping) 및 결측치 예측(imputation)을 위하여, 총 10,004개의 KARE 연구 샘플은 Affymetrix Genome-Wide Human SNP array 5.0을 이용하여 유전자형을 판별하였다. 유전자형은 BRLMM(Bayesian Robust Linear Modeling using the Mahalanobis Distance) 알고리즘을 이용하여 분류하였다. 하기 특징을 나타내는 샘플은 배제하였다: 낮은 유전자형 분류(< 96%), 과도한 이형접합성(heterozygosity), 성 불일치, 불협 민족 멤버쉽(discordant ethnic membership) 또는 잠재 관련성(cryptic relatedness). 높은 결실 유전자 분류율(> 5%), 낮은 MAF (< 0.01), 또는 하디-바인베르크 평형(Hardy-Weinberg equilibrium, HWE) 유의 편차(P < 1×10^-6)를 가지는 마커는 제외하였다. 결측치 예측 분석은 참조 패널로서 모든 HapMap 아시아인(JPT + CHB) 인구(release 22/NCBI, build 36, and dbSNP build 126)에 대비하여 IMPUTE를 이용하여 수행하였다. 결측치 예측 데이터로부터 유전자형을 분류하기 위하여 사후확률을 이용하였고 그 다음 결측치 예측된 데이터에 대한 연관분석을 수행하였다. 이를 통해, 사후확률 점수<　0.90, 높은 유전자형 정보량(info < 0.5), HWE (P < 1×10^-7) 및 MAF < 0.01를 가지는 SNP는 생략하였다.

HEXA( Health Examinee shared control study )

HEXA 코흐트는 2형 당뇨병, 고혈압 및 이상지질혈증(dyslipidemia)과 같은 생활방식과 관련된 복잡한 질병의 위험요인을 확인하기 위한 목적으로 2001년에 시작된 KoGES(Korean Genome and Epidemiology Study) 인구기반 코흐트의 하나이다. HEXA 코흐트에서 40-68세의 1,200,000명 중 대략 3,700명을 한국인 암 및 관상동맥질환(coronary artery disease, CAD) GWAS에 대한 공유 대조군으로서 임의로 선택하였다(Kim YJ et al., Nat Genet 43:990-995, 2011). 그 다음, 유전자형 판별은 2008년에 Affymetrix Genome-Wide Human SNP array 6.0을 이용하여 수행하였다. 유전자형 판별 및 결측치 예측을 위하여, 총 4,302개의 HEXA 연구 샘플을 Affymetrix Genome-Wide Human SNP array 6.0을 이용하여 유전자 판별하였고, 유전자형은 Birdseed 알고리즘을 이용하여 분류하였다. 하기 특징을 나타내는 샘플은 배제하였다: 낮은 유전자형 분류(< 96%), 과도한 이형접합성, 성 불일치, 불협 민족 멤버쉽 또는 잠재 관련성. 높은 결실 유전자 분류율(> 5%), 낮은 MAF (< 0.01), 또는 HWE 유의 편차(P < 1×10^-6)를 가지는 마커는 제외하였다. 결측치 예측 분석은 참조 패널로서 모든 HapMap 아시아인(JPT + CHB) 인구(release 22/NCBI, build 36, 및 dbSNP build 126)에 대비하여 IMPUTE를 이용하여 수행하였다. 본 발명자들은 결측치 예측 데이터로부터 유전자형을 분류하기 위하여 사후확률을 이용하였고 그 다음 결측치 예측된 데이터에 대한 연관분석을 수행하였다. 이를 통해, 사후확률 점수<　0.90, 높은 유전자형 정보량(info < 0.5), HWE (P < 1×10^-7) 및 MAF < 0.01를 가지는 SNP은 생략하였다.

CAVAS( Cardiovascular disease Association Study )

CAVAS 연구 참여자는 진행 중인 인구기반 코흐트인 KoGES(Korean Genome and Epidemiology Study)에서 선별하였다. 상기 연구 참여자는 대한민국 경기도 양평, 경상북도 고령 및 전라북도 남원 세 도시의 40-69세 거주자이며, 2004년부터 2008년까지 총 8,702명의 남성 및 여성을 기준 연구를 위해 모집하였다. 상기 모집한 연구 참여자 중 고혈압, 2형 당뇨, 고지혈증, 심장병, 뇌혈관질환 또는 암 병력이 없는 4,052명의 건강한 참여자를 SNP 유전자형 판별을 위해 선별하였다. 그 다음, 유전자형 판별 및 결측치 예측을 위하여, 총 4,034개의 CAVAS 연구샘플은 Illumina HumanOmni1 Quad v1.0을 이용하여 유전자형 판별을 하였고, 유전자형은 BeadStudio for CAVAS를 이용하여 분류하였다. 하기 특징을 나타내는 샘플은 배제하였다: 낮은 유전자형 분류(< 96%), 과도한 이형접합성, 성 불일치, 불협 인종 멤버쉽 또는 잠재 관련성. 높은 결실 유전자 분류율(> 5%), 낮은 MAF (< 0.01), 또는 HWE 유의 편차(P < 1×10^-6)를 가지는 마커는 제외하였다. 결측치 예측 분석은 참조 패널로서 모든 HapMap 아시아인(JPT + CHB) 인구(release 22/NCBI, build 36, 및 dbSNP build 126)에 대비하여 IMPUTE를 이용하여 수행하였다. 결측치 예측 데이터로부터 유전자형을 분류하기 위하여 사후확률을 이용하였고 그 다음 결측치 예측된 데이터에 대한 연관분석을 수행하였다. 이를 통해, 사후확률 점수<　0.90, 높은 유전자형 정보량(info < 0.5), HWE (P < 1×10^-7) 및 MAF < 0.01를 가지는 SNP은 생략하였다.

SP2 ( Singapore Prospective study Program )

SP2는 24-95세 싱가폴계 중국인, 말레이인 및 아시아-인디언 성인남녀 6,968명을 대상으로 한 횡단면적 연구(cross-sectional study)이다. 이전 횡단면적 연구 Thyroid and Heart Study 1982-1984(Hughes K et al., J Epidemiol Community Health 44:29-35, 1990), National Health Survey 1992(Tan CE et al., Diabetes Care 22:241-247, 1999), National University of Singapore Heart Study 1993-1995(Hughes K et al., J Epidemiol Community Health 51:394-399, 1997) 또는 National Health Survey 1998(Cutter J et al., Bull World Health Organ 79:908-915, 2001) 참여자가 SP2 연구를 위해 참여하였다. 상기 연구는 소수민족(말레이인 및 아시아-인디언)의 수를 높이기 위해 민족성에 의한 불균형 층별 샘플링과 함께 24-95세의 싱가폴 인구에 포함된 사람의 임의 샘플을 포함하였다. 성공적으로 재-접촉하고 동의서에 동의한 사람들은 질문에 대한 받을 하였고 임상실험에 참여하였다. 키(m) 및 몸무게(kg)는 표준 프로토콜을 이용하여 모든 데이터세트에 있어서 유사하게 측정하였고, BMI는 몸무게/키²(kg/m²)으로 계산하였다. 그 다음, 유전자형 판별 및 결측치 예측을 위하여, 원래 2형 당뇨를 가진 싱가폴계 중국인 케이스 대조 연구의 일부인 SDCS 및 SP2를 위한 유전자형 판별 어세이(assay)가 함께 수행되었다. 상기 SP2로부터 총 3,066명의 성인 중국인을 1M duo v3 (n = 1,016), Human Hap 610 Quad (n = 1,467), 및 Hap 550 (n = 583)을 이용하여 유전자형을 판별하였고 , 상기 SDC2로부터 2,210명의 성인 중국인 당뇨병 케이스가 1M duo v3 (n = 1,015) 및 Human Hap 610 Quad (n = 1,195) Beadchips^®(http://www.illumina.com/)을 이용하여 유전자형의 판별이 이루어졌다. SiMES 성인 말레이인(n = 3,072)은 Human Hap 610 Quad 어레이를 이용하여 유전자형 판별을 하였다. 이중 샘플은 SDCS 및 SP2 연구를 위해 이용되었다. SDCS 연구를 위해 총 8개의 중복 샘플을 사용하였고, SP2 연구를 위해 총 198개의 중복 샘플을 사용하였다. 후-QC(quality control) 중복 샘플을 위한 칩 사이의 평균 SNP 일치율은 1M duo v3 및 610 Quad 칩 사이의 531,805개 후-QC 공동 SNP 및 1M duo v3 및 550 칩 사이의 496,653개 후-QC 공동 SNP에 기반하여 계산하였다. 평균 일치율은 > 95%였고, 5개의 불일치하는 SNP(rs10953303, rs11075260, rs1447826, rs274646 및 rs430794)는 제거하였다. 각 코흐트에 있어서 각각의 어레이를 위하여, 클러스터링(clustering)의 첫 번째 라운드는 Illumina (GenCall)의 등록 클러스터 파일을 가지고 수행하였다. 99%의 분류율을 나타내는 샘플은 그 다음 로컬 클러스터 파일(GenTrain)을 만들기 위해 사용하였고, 상기 로컬 클러스터 파일은 유전자형 판별 분류의 마지막 라운드를 위해 사용하였다. 임계값 0.15는 활당된 유전자형의 신뢰도를 결정하기 위한 GenCall 점수에서 시행되었다.

또한, 샘플은 하기 상태에 기반하여 제거되었다: 95% 이하의 샘플 분류율, 과도한 이형접합성, 잠재 관련성, 불협 인종 멤버쉽 또는 성 불일치. 모든 샘플에서 결실 및 이형접합성의 전체 분포를 평가하기 위하여 개 유효 상염색체 유전자형의 이형접합 분류(calls)의 비율로 정의되는 샘플 분류율(call rate) 및 이형접합성의 이변량도(Bivariate plot)를 이용하였다. IBS(Identity-by-state) 측정은 일란성 쌍둥이, 완전 형제자매쌍 및 친자교배쌍과 같은 잠재 관련성을 검정하기 위하여 샘플의 쌍비교에 의해 수행하였다. 각각의 관련성으로부터 획득한 하나의 샘플은 이후 분석에서 배제되었고, 중복 샘플을 다른 SNP 어레이로 유전자형 판별한 경우, 밀도가 높은 어레이에서 얻은 샘플을 유지하였다. 연구 결과의 혼재를 막기 위한 인구구성확인은 연관불평형(linkage disequilibrium, LD)을 줄이기 위한 SNP 세트와 함께 International HapMap Project(http://hapmap.ncbi.nlm.nih.gov) 및 Singapore Genome Variation Project(http://www.nus-cme.org.sg/SGVP)로부터 4개의 패널을 가지고 주성분분성법(principal component analysis, PCA)를 이용하여 수행하였다. 자가보고된 민족성으로부터 불협 민족 멤버쉽을 나타내는 사람들은 분석에서 배제하였다. 혼합도를 암시하는 지속적인 클라우드(cloud)를 보이는 SiMES 말레이인에 대한 처음 두 개의 주성분은 siMES을 대상으로 한 연관 실험의 인구구성의 수정을 위해 사용하였다. BMI 데이터와 함께 총 2,431 SP2 샘플, 1,992 SDCS 샘플 및 2,522 SiMES 샘플을 샘플 QC 절차 후에 이용하였다. 본 발명자들은 HWE 이상치 (P-값< 1×10^-4)를 가지고 성별 및 미토콘드리아 SNP를 배제하였다. 단일형 또는 드문 SNP(대립유전자형빈도(minor allele frequency, MAF) < 1%) 및 낮은 분류율(< 95%)을 갖는 SNP 또한 배제하였다. 하나 이상의 칩이 유전자형 분석을 위해 사용된 경우, 칩 간 SNP의 유전자형빈도의 차이를 확인하기 위하여 만텔 검정(Mantel Extension Test)을 수행하였으며 SP2에서 확인된 62개 SNP 및 SDCS에서 확인된 69개 SNP를 분석에서 제거하였다. 결측치 예측 절차는 IMPUTE v0.5.0(Marchini J et al., Nat Genet 39:906-913, 2007)를 이용하여 수행하였고 유전자형 분류는 모든 중국인 샘플(SP2, SDCS)에 대한 NCBI build 36의 HapMap Phase 1 및 2 동아시아인 샘플(CHB and JPT)에 기반하였다. 말레이인 샘플에 있어서, NCBI build 36 에 있는 모든 HapMap 참조 패널(CEU, YRI 및 JPT + CHB)은 일배체형 변이의 로컬 패널을 더 잘 획득하기 위한 결측치 예측을 위해 사용하였다.

SBCS( Shanghai Breast Cancer Study )

SBCS는 두 단계로 수행되었다. 초기 단계(SBCS-I) 동안, 1,459명의 유방암 참여자 및 1,556명의 대조군을 빠른 케이스-확인 시스템 및 인구기반 상하이 암 등록을 통해 1996년부터 1998년까지 3년 동안 모집하였다. 혈액샘플은 1,193명의(82%) 실험군 및 1,310명의(84%) 대조군으로부터 획득하였다. 두 번째 단계(SBCS-II)는 초기 단계 모집 방법과 유사한 절차를 이용하여 2002년부터 2005년까지 수행하였고, 총 1,989명의 실험군 및 1,918명의 대조군을 모집하였다. 대다수의 실험군(n = 1,932, 97.1%) 및 대조군(n = 1,857, 96.8%)은 혈액샘플 또는 박리된 구강세포를 제공하였으며, 상기 참가자들의 나이는 20-70세로 평균 50세의 나이였다.

SMHS( Shanghai Men's Health Study )

SMHS는 40-74세, 암에 걸리지 않은, 중국 상하이에 거주하는 61,504명 중국인의 인구기반 코흐트 연구이다(Cai H et al., Br J Nutr 98:1006-1013, 2007). SMHS를 위하여 2002년 22월부터 시작하여 2006년 6월까지 연구 참여자를 모집하였고, 상하이에 있는 8개의 공동체 중 총 83,058명의 결혼적령기의 남성 거주자를 대상으로 훈련된 담당자가 직접 질의응답을 통해 연구를 수행하였다: 연구에 등록된 61,504명이 응답에 응하였으며 74.0%의 응답률을 보였다. 나머지 26.0%는 거절 21.1%, 등록 기간 동안 지역 밖에 있는 경우 3.1% 및 건강상 문제 또는 청취 문제를 포함한 다양한 이유에 의한 비참여 1.8%로 나타났다.

상기 연구의 모든 참여자는 유사한 연구 절차를 통해 동일한 기간 동안 상하이에서 모집하였다. 동일한 핵심 질문을 포함하여 구성된 질문은 사회인구학적 요인, 임신력, 생활방식 요인 및 식습관에 대한 수집된 정보에 이용되었다. 또한, 훈련된 담당자가 몸무게, 키, 및 허리 및 엉덩이 둘레를 포함한 신체계측을 수행하였다. 혈액샘플은 연구참여자들이 면담하는 동안 EDTA가 포함된 BD 진공채혈기 튜브를 이용하여 수집하였다. 또한, 지질(lipid) 프로파일은 ACE 임상화학시스템을 이용하여 측정하였다. 금식 상태(Fasting status)는 마지막 식사와 8 시간 또는 그 이상 시간 후 채혈 사이의 간격으로 정의하였다. 총 2,017명의 SBCS 참여자 및 291명의 SMHS 참여자를 SMHS 연구에 포함하였다. 그 다음, 유전자형 판별 및 결측치 예측을 위하여, Qiagen DNA 정제 키트(Valencia, CA) 또는 Puregene DNA 정제 키트(Minneapolis, MN)를 이용하여 제조사의 절차에 따라 게놈 DNA를 연막(buffy coat)으로부터 추출하고 유전자형 판별 어레이에 이용하였다. GWAS 유전자형 판별은 Affymetrix Genome-Wide Human SNP Array 6.0 (Affy 6.0) 플랫폼 또는 Illumina 660을 이용하여 제조사의 절차에 따라 수행하였다. 샘플 QC 후, 중복 QC 샘플 중 MAF < 0.01, 분류율 < 95%, 및 일치율 < 95%을 나타내는 SNP는 제외하였다. 유전자형은 프로그램 MACH (http://www.sph.umich.edu/csg/abecasis/MACH/download/)를 이용하여 결측치 예측을 하였고, 미세규모 재조합 맵을 평가하는 동안 동시에 잘 알려진 일배체형 세트에서 조건적으로 결실된 유전자형의 가능한 분포를 검정하였다. HapMap Phase II 아시아인(release 22)으로부터 단계적인 상염색체 SNP 데이터는 참조로 사용하였다. BMI와 함께 결측치 예측된 SNP 데이터 간 연관을 위한 실험을 위하여, 선형회귀(추가적인 모델)이 사용되었고, 여기서 SNP는 예측되는 유전자형 수, 유전자형 결측치 예측의 불확실성의 정도를 고려하는 접근으로 대표된다(http://www.sph.umich.edu/csg/abecasis/MACH/download/).

GenSalt ( The Genetic Epidemiology Network of Salt - Sensitivity ) 연구

GenSalt 연구 참여자는 2003년 10월부터 2005년 7월까지 북부 중국의 지방 6개 소재지에서 모집하였다(Group GCR, J Hum Hypertens 21:639-646, 2007). 상기 연구 소재지의 선별은 민족성 및 생활방식, 영양요인 및 습관적인 식이섭취를 포함한 환경적 노출에 따라 연구 인구의 동질성에 기반하였다. 상기 지역의 거주자들은 중국의 소수민족인 한족이었다. 연구에 있어서 잠재적 발단자 및 이들의 가족을 확인하기 위하여 연구 지역에 있는 18-60세 인간을 대상으로 공동체 기반 혈압 스크리닝을 수행하였다. 이들의 평균 최고혈압은 130-160 mmHg, 최소혈압은 85-100 mmHg였고, 항고혈압제를 복용하지 않았으며, 이들의 배우자, 형제자매 및 자식은 식생활개선연구를 위한 자원자로서 모집하였다. 일반적으로 2 단계 고혈압, 2차 고혈압, 항고혈압제 복용, 임상적 심혈관 질환, 비만, 만성 신장 질환 병력, 임신 경험 또는 알코올 중독을 보이는 사람은 연구에서 배제하였다. 총 1,906명(1,010명의 남성 및 896명의 여성)이 식이간섭연구를 위한 적법성기준을 충족하였으며, 이들 중 1,843명 (96.7%)은 21일간 식생활 개선을 마쳤고 GWAS에 포함되었다. 연구 질문 데이터, 혈압 및 신체계측 데이터, 및 혈액 및 요소 샘플 수집의 완성도는 거의 100%였다.

인구학 특성, 개인 및 가족 병력 및 흡연, 음주 및 운동을 포함한 생활방식 위험요소에 대한 정보를 수집하기 위하여 기준 시험에서 훈련된 담당자가 표준 질문을 수행하고, 훈련된 관찰자가 임의-제로 혈압계를 이용하여 표준 절차에 따라 3일의 기준 시험 동안 매일 아침 혈압을 측정하였다. 참여자의 몸무게, 키 및 허리 둘레는 신발을 신지 않지 않고 가벼운 실내복을 입은 상태에서 두 번 측정되었다. 허리둘레는 최소호흡 동안 참여자의 배곱 위 1 cm에서 측정하였다. 하루(= 8 시간) 공복 혈액 시료를 이용하여 당 및 지질을 측정하였다. 혈당은 변형된 헥소키나아제 효소 방법(Hitachi automatic clinical analyser, model 7060, Japan)을 이용하여 측정하였다. 림프구 DNA 샘플은 GenSalt 가족 구성원(발단자, 부모, 배우자, 형제자매 및 자손)으로부터 획득하였다. 전장유전체 SNP는 Affymetrix® Genome-Wide Human Array 6.0을 이용하여 유전체형을 판별하였다. 성-연관 SNP, 미토콘드리아 SNP 및 주석이 달린 염색체상 위치를 가지지 않는 '비활당된(unassigned)' SNP를 제거한 후, 871,166개의 SNP가 실험을 위해 선별되었다. 엄격한 절차에 따른 광범위한 QC를 통해 데이터에서 정확한 에러율을 확인하고, 비정보화 데이터를 제거하고 세 단계에서 모든 멘델리안 에러를 제거하였다. 1단계에서는 보고된 성별 및 PLINK에 의해 평가된 성별 사이의 성별 차이를 가지는 참여자 및 GRR에 의해 검증된 바와 같이 잠재적 계통 에러를 가지는 참여자를 제거하였다. 2단계에서는 단일형 SNP, Affymetrix '하우스키핑(housekeeping)' SNP, 결실율>25% 또는 MAF<1%를 가지는 SNP를 제거하였다. 마지막 단계에서는 멘델리안 에러를 확인하고 PLINK(Purcell S et al., Am J Hum Genet 81:559-575, 2007) 및 PedCheck(O'Connell JR et al., Am J Hum Genet 63:259-266, 1998)을 이용하여 제거하였다. QC 과정 후, 1,881명의 참여자로부터 820,015개의 상염색체 SNP가 남았다. JPT 및 CHB 인구 중 90 명의 데이터를 이용하여 추가적인 1,792,556 개의 SNP를 HapMap 참조 패털로부터 결측치 예측하였다. QC 과정으로 R² < 0.3, MAF < 1%, HWE P값 < 10^-6 또는 멘델리안 에러를 가지는 결측치 예측된 SNP를 제거하였다. 마지막으로 2,216,774개의 상염색체 SNP를 GWAS 분석을 위해 사용하였다.

CAGE( Cardio - metabolic Genome Epidemiology )

CAGE는 유전적 및 환경적 요인 그리고 일본인을 포함한 아시안인 사이에서 복합적 특징/질환에 영향을 미치는 상기 요인의 상호작용을 조사하기 위하여 계속 진행하고 있는 공동 연구이다. CAGE 참여자는 구성원 연구 설계에 따라, 인구기반 또는 병원기반 배경으로 모집하였다. 구성원 연구 중 참여율은 대략적으로 공동기반 연구에서는 25%, 일자리기반 연구에서는 80%로 변하였다. 메타분석에서, 당뇨가 없는 참여자를 배제한 후 공복 당 연관의 예비 스크리닝을 위하여 756개의 인구기반 일본인 샘플을 이용하였다. 상기 참여자들은 두 곳의 분리된 소재지인 오사카와 시마네현에서 등록한 참여자들로서 오사카 지역의 참여자(n = 390)는 일본인 일반인구 코흐트 샘플의 일부이고 해마다 건강검진을 받았으며, 시마네현 지역의 참여자(n = 366)는 2003년 7월부터 2007년 3월 사이 건강 검진을 위해 시네마현 IHS(Institute of Health Science)를 방문하였다. 또한, 참여자들로부터 적어도 6시간의 공복 후 혈액샘플을 채취하여 공복 당 연관의 실험을 위한 데이터에 포함시켰다. 유전자형 판별 및 결측치 예측(Genotyping and imputation)을 위하여, Infinium HumanHap550 BeadArray (Illumina, San Diego, CA, USA)를 이용하여 제조사의 절차에 따라 유전자형 판별을 하였고, 이를 통해 550K SNP 정보를 얻었다. 유전자형 분류는 BeadStudio software (Illumina)를 이용하여 수행하였고 GenCall 점수< 0.53를 보이는 유전자형 분류는 분석에서 제외하였다. SNP 및 샘플의 QC를 위하여, 먼저 PLINK software (version 1.06)를 이용하여 데이터 클리닝 및 분석을 수행하였다. 분석된 SNP 중 유전자형 분류율< 0.95, HWE 유의 편차(P < 1×10^-6) 또는 MAF < 0.01를 나타내는 SNP는 배제하였다. 나머지 451,382개의 SNP는 게놈 스캔으로 분석하였다. 451,382개의 QC'd SNP에 대한 평균 분류율은 공복 혈당 수준을 가지는 연관성을 위해 실험된 756개의 샘플에서 99.7%를 나타냈다. HapMap Phase 2(JPT + CHB) 세트에서 유전자형의 결측치 예측은 BEAGLE software (version 3.0.4)을 이용하여 수행하였다.

CLHNS ( Cebu Longitudinal Health and Nutrition Survey )

CLHNS는 1983년 시작된 계속 진행중인 공동체기반 출생 코흐트 연구이다(Adair LS et al., Int J Epidemiol 40:619-625, 2011). 기준 연구를 위하여 1983년부터 1984년까지 필리핀 세부 지역에서 3,327명의 임신한 여성을 임의로 모집하였고 이중 3,080명은 단일 생아 출산을 하였으며 출산한 자식들도 연구에 포함되었다. 훈련된 분야 담당자가 직접 집으로 방문하여 인터뷰를 하였고 방문시 신체계측을 하였다. 바이오마커 측정 및 DNA 추출을 위한 혈액 샘플은 2005년에 획득하였다. CLHNS 연구를 위해 1,779명의 CLHNS 부모의 몸무게, 키 및 측정된 BMI를 2005년 조사를 통해 획득하였다. SNP 유전자형 판별, QC 및 유전자형 결측치 예측을 위하여, 먼저 SNP 유전자형 판별은 Affymetrix Genome-Wide Human SNP Array 5.0을 이용하여 제조사의 절차에 따라 수행하였고, 유전자형 분류는 Birdseed (version 2)를 이용하여 수행하였다. 샘플 분류율은 99.6%였다. 마커 QC를 위하여 좋지 못한 맵핑 분류율< 90% 및/또는 HWE 유의 편차(P < 10^-6)를 나타내는 SNP는 결측치 예측 전에 제거하였다. HapMap (Release 22) JPT + CHB 샘플에 기반한 CLHNS 모계 샘플에서 유전자형을 결측치 예측하기 위하여 MACH에서 수행된 숨겨진 Markov 모델 알코리즘을 적용하였다. MAF = 0.01 및 결측치 예측 질 Rsq > 0.3를 가지는 총 2,206,824개의 SNP는 software mach2qtl를 이용하여 연관성을 실험하였다.

CRC ( Cardiometabolic Risk in Chinese study )

CRC는 2009년 중국 쉬저우의 도시지역에 사는 거주자 중 임의로 선별된 6,431명(18-93세; 53.7% 남성)을 대상으로 한 공동체기반 건강검진 조사이다. 유전자형 판별 및 결측치 예측을 위하여, 상하이에 있는 중국국립인간게놈센터(Chinese National Human Genome Center)에서 Illumina Human660-Quad 비드칩을 이용하여 총 811개의 연구 샘플에 대한 GWAS를 수행하였다. 유전자형 클러스터링은 Illumina BeadStudio 3.3 software을 이용하여 수행하였고, 유전자형 결측치 예측은 각 참여 연구에 의해 수행하였다. 키는 신발을 벗은 상태에서 근접한 0.5 cm에서부터 측정하였다.

KCPS -II( The Korean Cancer Prevention Study - II )

KCPS-II는 2004년 4월부터 2008년 12월까지 대한민국의 건강증진센터 16곳을 방문한 20-77세 266,258명을 대상으로 수행하였다. 노출 데이터를 획득하기 위하여 참여자들을 인터뷰하였다. 또한, 국립 암 등록 및 병원 기록으로 얻은 데이터를 이용하여 2008년 내 암 진단을 확인하였다. 사망 진단서를 검토하여 2009년 내 사망률 결과 정보를 획득하였다. 한국 통계청에서 획득한 사망 진단서 데이터의 컴퓨터화된 검색은 출생과 연관된 UIN(unique identification number)을 이용하여 수행하였다. KCPS-II 연구를 위하여 혈액샘플을 제공한 325명의 CRC 환자를 선별하였다. 암에 걸리지 않은 코흐트 군(n = 977)을 대조군으로서 임의로 선별하였다. 따라서, 총 1,302개를 유전자형 판별하였다. 유전자형 판별 및 결측치 예측을 위하여, DNA Link에서 Affymetrix Genome-wide Human SNP Array 5.0을 이용하여 코흐트 샘플을 유전자형 판별하였다. 상기 칩에서 얻은 데이터는 내부 QC 측정을 위해 사용하였고, QC 분류율(동적 모델 알로지즘)은 항상 86%를 초과하였으며, X 염색체 마커의 이형접합성은 각각의 대상의 성별을 확인하기 위하여 사용하였다. 유전자형 분류는 Birdseed (v2) 알고리즘을 이용하여 수행하였다. 초기 발견 단계에서 상기 플랫폼을 통해 총 1,004개를 유전자형 판별하였다. 그러나, 낮은 유전자형 판별 분류율(< 95%) 때문에 상기 1,004개 중 10개를 제외하였다. 모든 SNP에 대한 IBS(identity by state )를 평가하기 위하여 PLINK (v1.07)를 이용하였고, 4개는 생물학적 관련성을 보였으며, 따라서 각 쌍 중 하나를 제외하였다. 11개 또한 성별 불일치 결과로서 제외되었다. 그러므로, 979개를 GWA 분석을 위하여 이용하였다. 400,794개 SNP의 디폴트 세트는 이후 분석을 위하여 이용하였다. QA(quality assurance) 스크리닝을 위하여 본 발명자들은 유전자형 분류율 < 95%, MAF < 0.01을 나타내는 SNP 및 HWE 유의 편차(P < 0.0001)를 나타내는 SNP를 표지하였다. 수용 가능한 마커의 최종 세트에는 317,859개의 상염색체 SNP가 포함되었다.

그 결과, 도 5에 나타낸 바와 같이, 24,740 AGEN 연구 참여자에 대한 1단계 메타분석을 수행한 결과 FPG 연관의 관련된 시그널을 확인하였고 상기 시그널의 대부분은 잘 알려진 FPG 유전자좌임을 확인하였다(도 5).

또한, 도 6 및 도 7에 나타낸 바와 같이, 유럽인구에서 가장 많이 확인된 40개의 FPG 유전자좌 중 23개는 1단계 메타분석에서 복제되는 것을 확인하였고(도 6), 상기 23개 중 11개(GCKR , SIX2 - SIX3 , G6PC2 - ABCC11 , CDKAL1 , TMEM195 , GCK, SLC30A8 , GLIS3 , CDKN2A /B, MTNR1B 및 FOXA2)는 전장유전체 유사도와 일치함을 확인하였다(도 7).

또한, 도 8에 나타낸 바와 같이, 상기 확인된 FPG 유전자좌 내에 신호를 제거한 후, Q-Q 플롯(quantile-quantile plot)에서 관찰된 P값과 예측된 P값의 분포 간 편차를 보이는 SNP가 여전히 존재하는 것을 확인하였고, 이들 시그널은 추가적인 조사에서 검증(validation)을 요구하는 새로운 FPG 유전자좌임을 확인하였다(도 8). 또한, 이후 2 단계 신생 복제 분석을 위하여 1단계 GWAS 메타분석에 포함된 적어도 10개의 연구에 기반하여 임의 포함 임계값(P < 5×10^-7), 이질성 P값 > 0.01로 3개의 독립된 시그널을 선별하였다(쌍 연관비평형(linkage disequilibrium, LD) 통계 r ² < 0.2, 500 kb 유전자 부위 내 MAF = 0.05).

<1-2> 2 단계: 신생 복제( de novo replication )

상기 실시예 <1-2>에 기재된 방법으로 획득한 FPG와 연관 가능성이 있는 3개의 새로운 변이체에 대한 유전체 연관을 통합하기 위하여, 동아시아인의 FPG에 대한 전장유전체 메타분석의 2 단계로서 신생 복제(de novo replication) 분석을 수행하였다.

구체적으로, 전장유전체 메타분석의 2 단계 신생 복제 분석은 5건의 독립된 연구 결과의 분석을 통해 수행하였다. 2단계 연구 참여자는 5건의 독립 연구: Health2 연구, BioBank Japan 연구, JMGP(Japanese Millenium Genome Project), SJTUDS(Shanghai Jiao Tong University Diabetes Study) 및 CUHKS(Chinese University of Hong Kong Diabetes Study) 연구에 포함된 21,345명의 연구 참여자로 구성하였다.

Health2 연구

Health2 연구에 의해 제공된 공동체기반 코흐트로부터 샘플을 선별하였다. 8,500명의 참여자로부터 선별된 7,861명을 대상으로 실험하였고, 참여자의 연련은 40-69세였다. Health2 코흐트의 임상시험을 위한 연구 대상 및 전략은 발견 단계 참여자를 대상으로 한 경우와 유사하다. Health2 데이터에 대한 유전자형 판별은 TaqMan (Applied Biosystems Co., Ltd., Foster City, CA)을 이용하여 수행하였다.

BioBank Japan 연구

DNA 샘플은 히로시마 원자폭탄위원회, 건강관리센터, 글로벌 보건의료국립센터(National Center for Global Health and Medicine), 게이오기주쿠대학 또는 히로누마 클리닉(Hiranuma Clinic)에서 수행된 연간 건강검진에 등록된 사람의 말초혈액에서 획득하였다. 유전자형 판별은 다중 PCR-유입자 어세이를 이용하여 수행하였다. 유전자형 판별 성공률은 > 95 %이었고 선별된 188개의 이중 샘플에 대한 일치율은 100%였다.

JMGP ( Japanese Millenium Genome Project )

JMPG는 심장혈관계 질환 및 관련된 위험요소의 연구에 대한 7건의 독립적 연구 코흐트로 구성되었다. 도호쿠 대학교의 '오사마(Ohasama)' 연구, 시가의과대학의 '시가라키와 타카시마(Shigarakiand Takashima)' 연구 및 에히메 대학의 노무라(Nomura) 연구 및 도온(Toon) 건강연구는 공동체 거주자를 대상으로 한 의료검진 과정을 통해 모집된 대상의 일반적인 인구기반 유전역학적 연구이다. 요쿠하마(요쿠하마시립대학) 및 마쓰야마(에히메 대학) 코흐트는 에히메 현(일본 서부)의 가나가와 및 마쓰야마시에 위치한 큰 가공업 직원에서 유래하였다. 모든 코흐트에서 임상 파라미터는 연간 또는 2년마다 의료검진 과정 동안 개인의 건강 기록으로부터 획득하였다. 유전자형 판별을 위하여, 샘플은 TaqMan assay (Applied Biosystems by Life Technologies, Carlsbad, CA)를 이용하여 유전자형 판별을 하였고, 공복혈당 데이터 및 유전자형판별 결과를 이용할 수 있는 총 10,299명의 참여자는 복제분석에 포함되었다.

SJTUDS( Shanghai Jiao Tong University Diabetes Study )

당뇨 및 관련된 대사 질환의 공동체기반 무작위 샘플 역학적 연구인 Shanghai Diabetes Study I 및 II를 위한 대상을 선별하였고, 상기 모든 대상(n = 3,412)은 표준 75 g OGTTs(oral glucose tolerant tests)에 의해 평가된 정상적인 당내성 및 당뇨에 대한 음성 가족병력을 가진 중국 한족이었다. 당대사와 관련된 인체 측정학적 및 생화학적 특징에 대한 표현형을 측정하였다. OGTTs는 하루 동안 금식 후 아침에 수행하였고, 혈액샘플은 금식 및 OGTTs 2 시간 동안 획득되었다. 혈당 및 혈청 인슐린을 측정하였고, 기초 인슐린 민감도 및 베타 세포 기능은 HOMA를 이용하여 공복혈당 및 인슐린을 통해 계산하였다. Mass ARRAY Compact Analyzer (Sequenom, San Diego, CA, USA)를 이용하여 MALDI-TOF 질량분석에 의한 검증과 함께 다중산물의 프라이머신장법을 이용하여 SNP를 유전자형 판별을 하였다. QC 후, 3,300명이 최종 분석에 포함되었다.

CUHKS( Chinese University of Hong Kong Diabetes Study )

홍콩에 거주하는 남부 중국한족 집안을 대상으로 하였고, CUHKS 코흐트는 병원직원 및 공동체 기반 건강검진 프로그램의 자원자를 대상으로 모집한 FPG < 6.1 mmol/l 가진 474명의 성인(44.9% 남성, 평균 연령 41.8±8.9세, 평균 BMI 23.1±3.4세)으로 구성되었다. 유전자형 판별은 Sequenom MassARRAY 플랫폼(San Diego, CA, USA)에 있는 MALDI-TOF 질량분석기에 의한 검증과 함께 다중산물의 프라이머신장법을 이용하여 수행하였다.

그 결과, 도 9 내지 도 11에 나타낸 바와 같이, 2단계 복제 분석(5건의 연구, 21,345명 이상의 대상자)을 통해 FPG에 대한 3개의 고유한 SNP: rs733331, rs10815355 및 rs2018860를 확인하였다. 상기 FPG 연관 SNP는 PDK1 - RAPGEF4 (rs733331, P _overall = 6.98×10^-11), KANK1 (rs10815355, P _overall = 1.26×10^-9) 및 IGF1R (rs2018860, P _overall = 2.99×10^-8)과 근접한 곳에 위치함을 확인하였다(도 9 내지 도 11).

또한, 도 7에 나타낸 바와 같이, 상기 3개의 SNP는 FPG와 통계학적으로 유의적 연관을 나타냄을 확인하였고 이는 1 단계 분석 결과에서와 동일함을 확인하였다(도 7).

또한, 도 12에 나타낸 바와 같이, 신규한 상기 3개의 SNP는 MAGIC 컨소시움에서 연구된 유럽 혈통 대상자에 대한 유의적 연관은 거의 없으며, 이 중 2개의 SNP(PDK1 - RAPGEF4 및 KANK1 근처)는 유럽인에게서 매우 낮은 MAF < 0.01를 나타냄을 확인하였다(도 12).

< 실시예 2> 신규한 공복혈당 연관 SNP 의 기능적 관련성 확인

상기 <실시예 1>에 기재된 방법으로 획득한 신규한 3 개의 공복혈당 연관 SNP와 이전 연구들을 통해 잘 알려진 40개의 유전자 간 기능적 관령성을 확인하기 위하여 GRAIL(Gene relationships among implicated loci) 문헌기반 주석 분석을 수행하였다.

구체적으로, 도 6에 나타낸 이전 연구를 통해 잘 알려진 40개 유전자 및 상기 <실시예 1>에 기재된 방법으로 획득한 신규한 3 개의 SNP가 포함된 유전자로 구성된 총 43개의 FPG 유전자를 이용하여 GRAIL 분석을 수행하였다. 이 때, 2006년 10월 이후 공개된 PubMed 초록은 FPG GWAS로부터 도출된 결과에 의한 혼재를 줄이기 위하여 분석에 포함하지 않았다. 상기 43 개의 유전자좌가 포함된 부위는 도 13에 나타내었다. GRAIL P_region값은 적어도 하나의 유전자를 갖는 유전자좌 내 다중 비료를 통해 조절된 유의적 P_Gene 값이다. 오른쪽 패널은 기능적으로 가장 관련된 유전자의 특징을 기재한 PubMed 초록의 키워드이다.

그 결과, 도 14 및 도 15에 나타낸 바와 같이, 신규한 세 개의 SNP를 포함한 FPG 유전자좌가 잘 알려진 공복시 당 연관 유전자와 관련성이 있으며, 인슐린 분비, 일주기 리듬 및 탄수화물 소화와 같은 생물학적 경로에서 강한 관련성이 있음을 확인함으로써, 상기 세 개의 FPG 유전자좌의 당 대사 조절의 연관성을 확인하였다(도 14 및 도 15).

Claims

단일염기다형성(single nucleotide polymorphism, SNP) rs733331, rs10815355 및 rs2018860으로 구성된 군으로부터 선택된 어느 하나 이상의 단일염기다형성에 대하여 상보적인 프라이머 세트를 포함하는, 동아시아인을 대상으로 하는 당뇨 또는 인슐린 저항성의 진단 또는 예측용 키트.
제 1항에 있어서, 상기 SNP는 공복 혈장 혈당(fasting plasma glucose)과 연관된 것을 특징으로 하는 진단 또는 예측용 키트.
삭제
삭제
제 1항에 있어서, 상기 동아시아인은 한국인, 일본인 또는 중국인을 대상으로 하는 것을 특징으로 하는 진단 또는 예측용 키트.
개체로부터 수득한 DNA에서 단일염기다형성 rs733331, rs10815355 및 rs2018860으로 구성된 군으로부터 선택된 어느 하나 이상의 단일염기다형성을 확인하는 단계를 포함하는, 동아시아인을 대상으로 하는 당뇨 또는 인슐린 저항성의 진단 또는 예측에 관한 정보를 제공하는 방법.
삭제
제 6항에 있어서, 상기 동아시아인은 한국인, 일본인 또는 중국인인 것을 특징으로 하는 정보를 제공하는 방법.