KR20110074527A - 복수의 환경 및 유전 위험 인자를 통합하기 위한 방법 및 시스템 - Google Patents
복수의 환경 및 유전 위험 인자를 통합하기 위한 방법 및 시스템 Download PDFInfo
- Publication number
- KR20110074527A KR20110074527A KR1020117008292A KR20117008292A KR20110074527A KR 20110074527 A KR20110074527 A KR 20110074527A KR 1020117008292 A KR1020117008292 A KR 1020117008292A KR 20117008292 A KR20117008292 A KR 20117008292A KR 20110074527 A KR20110074527 A KR 20110074527A
- Authority
- KR
- South Korea
- Prior art keywords
- individual
- risk
- disease
- genetic
- less
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
본 발명은 복수의 환경 및 유전 위험 인자를 개체의 게놈 프로파일에 통합시키기 위한 방법 및 시스템을 제공한다. 이 방법은 복수의 유전 위험 인자, 환경 위험 인자, 또는 이 둘의 조합을 통합시켜 1 이상의 질환 또는 병태와 개체의 유전자형 간 연관성을 평가하는 것을 포함한다.
Description
본 출원은 2008년 9월 12일 출원된 미국 가출원 제61/096,758호에 대한 우선권을 청구하며, 이를 전체로 참조하여 본원에 포함시킨다.
통상의 질환 및 병태의 병인은 대체로 유전 및 환경 인자 둘 모두에 그 원인이 있다. 유전자형분석 기술에서의 최근의 진보로 이러한 질환에 대한 유전적 기여도의 이해가 상당히 향상되었다. 게놈 전반에서 공통 유전자 변이체 및 공통 질환 간 새로운 연관성을 발견하려는 것을 목표로 삼은, 수많은 전체 게놈 연관성 연구가 최근에 완료되었다. 이들 연구들은 유전자 조성을 기초로, 개체 생애 동안 질환이 발병될 개체의 위험율 및 질환의 기전을 밝혀 주었다. 생애 초기에 임상적 의사 결정 프로세스에 선천적 유전자 위험 정보를 통합시키는 것은 질환 증상 또는 병태를 완화 또는 더욱 예방하는데 중요한 효과를 준다.
통상의 만성적인 비전염성 질환의 유병률은 대체로 단성 및 전염성 질환 둘 모두의 조합된 유병률을 무색하게 한다. 통상의 SNP 변이체는 통상의 질병에 대한, 모두는 아니더라도 유의한 수의 생식선 유전자 위험성의 일부를 차지하며 이러한 면에서 사용시 개체에 대해 보다 나은 개인화 및 집중적인 노출 경감, 초기 검출, 및 초기 중재 패러다임을 허용한다.
게놈 내 유전자 변이, 예컨대 단일 뉴클레오티드 다형성(SNP), 돌연변이, 결실, 삽입, 반복, 미소부수체 등은 다양한 표현형, 예컨대 질환 또는 병태와 상관관계가 있다. 개체의 유전 변이를 동정하고 상관관계 지어서 상이한 표현형에 대한 개체의 소인 또는 위험성을 결정하여, 개인별 표현형 프로파일을 생성시킬 수 있다.
낮은 효과 크기 공통 SNP 변이체, 희귀한 개인 변이체, DNA 카피수 변이체, 및 후성 변형이 대체로 선천적 위험성의 대부분을 차지한다. 병태가 발병할 개체의 위험율을 정확하게 추정하는 것은 쉽지 않은 작업이다. 이러한 위험율은 유전자 위험 인자 부하량, 환경 인자, 성별 및 연령을 포함한, 수많은 인자들에 의해 결정된다. 따라서, 대부분의 병태의 경우, 가장 정확한 위험율 평가는 확률적인 위험율 추정치로만 제공할 수 있다. 인자들은 상이한 연관 변이체, 그들의 효과 크기, 개체군에서 그들의 빈도, 개체에 영향을 주는 환경 인자 예컨대, 식이, 연령, 가족력, 및 인종적 배경과 그들 상호작용을 포함할 수 있다. 한번에 이들 인자 모두를 조사하는 대규모 연구들은 수행하기에는 과중하게 고가이고, 우리가 알기로는, 수행된 적이 없다.
따라서, 유전자 변이 효과를 고려하지만 복수의 위험 인자를 동시에 평가하는 대규모 연구 결과를 필요로 하지 않는 위험율 추정치를 이용한 개인별 표현형 프로파일을 생성하기 위한 방법이 요구된다. 또한, 질환에 따라 다를 뿐만 아니라, 환경 데이타와 조합할 수 있는, 예컨대 임상적 분류자로서 예측력을 갖는, 임상적 의사 결정을 위한 부가의 도구를 제공하는, 위험율 추정치 생성에 대한 요구가 존재한다. 본 발명의 개시 내용 및 본원에 개시된 구체예들은 이러한 요구들을 만족하고 또한 관련된 장점을 제공한다.
본 발명은 개체에 대해 질환 또는 병태에 대한 환경 유전 복합 지수(EGCI: Environmental Genetic Composite Index) 스코어를 생성하기 위한 방법을 제공한다. 이 방법은 개체의 유전자 샘플로부터 게놈 프로파일을 생성하는 단계; 개체로부터 1 이상의 환경 인자를 획득하는 단계; 게놈 프로파일 및 1 이상의 환경 인자로부터 EGCI 스코어를 생성하는 단계; 및 EGCI 스코어를 개체 또는 개체의 건강 관리자에게 보고하는 단계를 포함한다. 이 방법은 부가되거나 또는 변형된 환경 인자로 EGCI 스코어를 업데이트하는 단계를 더 포함할 수 있다. 일부 구체예에서, 상기 방법은 컴퓨터로 수행된다. 예를 들어, EGCI 스코어는 컴퓨터에 의해 산출되고 그 결과가 컴퓨터에 의해 획득되어 출력될 수 있다.
질환 또는 병태에 대한 환경 인자의 상대 위험율은 적어도 대략 1일 수 있다. 일부 구체예에서, 질환 또는 병태에 대한 상대 위험율은 적어도 대략 1.1, 1.2, 1.3, 1.4, 또는 1.5이다. 상대 위험율은 적어도 대략 2, 3, 4, 5, 10, 12, 15, 20, 25, 30, 25, 40, 45, 또는 50일 수 있다. 일부 구체예에서, 환경 인자는 승산비(OR; odds ratio)가 적어도 대략 1이다. 또 다른 구체예에서, OR은 적어도 대략 1.1, 1.2, 1.3, 1.4, 또는 1.5이다. OR은 적어도 대략 1.5, 2, 3, 4, 5, 10, 12, 15, 20, 25, 30, 25, 40, 45, 또는 50일 수 있다.
다른 측면에서, 환경 인자는 개체의 출생지, 거주지, 생활방식 상태; 식이, 운동 습관, 대인 관계로 이루어진 군에서 선택될 수 있다. 예를 들어, 생활방식 상태는 흡연 또는 알콜 섭취일 수 있다. 일부 구체예에서, 환경 인자는 개체의 신체 측정치, 예컨대 체질량 지수, 혈압, 심박수, 포도당 수치, 대사산물 수치, 이온 수치, 체중, 콜레스테롤 수치, 비타민 수치, 혈액 세포 계측수, 단백질 수치, 또는 전사체 수치 등이다.
EGCI 스코어는 2 이상의 환경 인자를 이용해 생성시킬 수 있고 EGI 스코어 생성은 환경 인자의 적어도 1, 또는 그 이상이 상기 질환 또는 병태에 대해 독립적인 위험 인자라고 가정할 수 있다.
일부 구체예에서, EGCI 스코어는 유전율이 대략 95% 미만인 질환 또는 병태에 대해 생성된다. 일부 구체예에서, 질환 또는 병태는 유전율이 대략 5% 미만, 10% 미만, 15% 미만, 20% 미만, 25% 미만, 30% 미만, 35% 미만, 40% 미만, 45% 미만, 50% 미만, 55% 미만, 60% 미만, 65% 미만, 70% 미만, 75% 미만, 80% 미만, 85% 미만, 또는 90% 미만이다.
다른 측면에서, 본원에 개시된 방법은 개체의 유전자 샘플을 획득하거나, 또는 개체의 게놈 프로파일을 생성하는 제3자를 포함할 수 있다. 유전자 샘플은 DNA 또는 RNA일 수 있고, 생물학적 샘플 예컨대 혈액, 모발, 피부, 타액, 정액, 소변, 배설물, 땀 또는 구강 샘플로부터 획득할 수 있다.
이 방법은 또한 네트워크 상에서 EGCI 스코어의 전송, 온라인 포털을 통한 EGCI의 보고, 문선 또는 이메일에 의한 보고, 컴퓨터를 사용한 보고를 포함한다. 보고는 보안 또는 비보안 방식에 의할 수 있다. 개체의 게놈 프로파일은 보안 데이타베이스 또는 보관소에 기탁될 수 있고, 단일 뉴클레오티드 다형성 프로파일이거나, 또는 절단, 삽입, 결실 또는 반복을 포함하는 게놈 프로파일일 수 있다. 게놈 프로파일은 고밀도 DNA 마이크로어레이, RT-PCR, 또는 DNA 서열분석법을 이용해 생성될 수 있다. 일부 구체예에서, 게놈 프로파일은 피험체 또는 개체 유래의 유전자 샘플을 증폭하여 생성된다. 다르게, 게놈 프로파일은 유전자 샘플을 증폭하지 않고 생성될 수 있다.
참조문헌 편입
본 명세서에 언급된 모든 출판물, 특허 및 특허 출원은 각각의 개별 출판물, 특허 또는 특허 출원을 구체적으로 그리고 개별적으로 참조문헌으로 포함시킨다고 나타낸 바와 동일한 정도로 참조하여 본원에 포함시킨다.
본원에 개시된 구체예의 신규 특징들은 첨부된 청구항에 상세하게 기재한다. 본원의 특징 및 장점에 대한 보나 나은 이해를 위해 본원의 원리를 활용하는, 예시적인 구체예를 설명한 이하의 구체적인 설명, 및 첨부된 도면을 참조하여 설명한다.
도 1은 A) 크론병, B) 2형 당뇨병 및 C) 류마티스성 관절염에 대한 ROC 그래프를 나타낸 도면이다. 각 그래프에서, 검은색 선은 무작위 예상치에 상응하고, 보라색 및 파란색 선은 유전자 변이가 알려진 경우의 이론적 예상치(2 질환 모델에 대해, 이하에 추가 기술함)에 해당되며, 노란색 선은 GCI에 해당하고, 녹색 선은 로지스틱 회귀분석에 해당된다.
도 2는 A) 크론병, B) 류마티스성 관절염, 및 C) 2형 당뇨병에 대한 단순 승법 모델 및 상호작용이 있는 모델에 대한 ROC 그래프를 나타낸 도면이다. 각 도면에서, 6,400 한계치 지점을 사용한다.
도 3은 A) 생애 위험율이 25%이고 유전율이 64%인 2형 당뇨병에 대한 상대 위험율 및 승산비의 비교, B) 생애 위험율이 42%이고 유전율이 57%인 심근경색에 대한 상대 위험율 및 승산비의 비교, 및 C) 2형 당뇨병에 대한 질병 획득 확률 대비 평균 제곱 제곱 오차를 나타낸 도면이다.
도 4는 기지 유전자 위험율에 대한 기지 가족력을 나타낸 도면이다. 유전 위험율이 A) 2형 당뇨병, B) 크론병, 및 C) 류마티스성 관절염에 대해 완전히 알려진 경우 이론적 ROC 그래프에 대한 가족력을 나타낸다. 붉은색 곡선은 가족력 단독을 기준으로 하는 분류 검사에 대해서 b의 상이한 값에 대한 참 및 거짓 양성 분율을 보여준다.
도 5는 A) 크론병, B) 2형 당뇨병, 및 C) 류마티스성 관절염에 대한, 기지 유전 인자 단독에 대한, 기지 유전 및 환경 인자의 영향을 나타낸 도면이다. 크론병의 경우, 2 곡선의 AUC는 0.68 및 0.72이다(A). 유전 인자 이외에도, 흡연(상대 위험율 3)이 환경 변수로서 고려되었다. 2형 당뇨병의 경우, 2 곡선의 AUC는 각각 0.57 및 0.79이다(B). 유전 인자 이외에도, 체질량 지수(상대 위험율 42.1), 알콜 섭취(상대 위험율 1.75) 및 흡연 빈도(상대 위험율 1.70)가 2형 당뇨병에 대한 환경 인자로서 고려되었다. 류마티스성 관절염의 경우, 2 곡선의 AUC는 0.685 및 0.688이다(C). 흡연(상대 위험율 1.4)이 유전 인자 이외의 환경 변수이다.
도 6은 A) 2형 당뇨병에서 GCI 계산을 위해 가정된 생애 위험율(LTR')의 함수에 따른 GCI-기반 평균 생애 위험율 및 참 평균 위험율 간 오차(T2D에 대한 참 평균 위험율 = 0.25)와, B) GCI-기반 평균 생애 위험율 및 생애 위험율(LTR') 간 오차는 가정된 LTR' 함수에 따른 GCI 계산을 위해 가정함을 보여준다.
도 1은 A) 크론병, B) 2형 당뇨병 및 C) 류마티스성 관절염에 대한 ROC 그래프를 나타낸 도면이다. 각 그래프에서, 검은색 선은 무작위 예상치에 상응하고, 보라색 및 파란색 선은 유전자 변이가 알려진 경우의 이론적 예상치(2 질환 모델에 대해, 이하에 추가 기술함)에 해당되며, 노란색 선은 GCI에 해당하고, 녹색 선은 로지스틱 회귀분석에 해당된다.
도 2는 A) 크론병, B) 류마티스성 관절염, 및 C) 2형 당뇨병에 대한 단순 승법 모델 및 상호작용이 있는 모델에 대한 ROC 그래프를 나타낸 도면이다. 각 도면에서, 6,400 한계치 지점을 사용한다.
도 3은 A) 생애 위험율이 25%이고 유전율이 64%인 2형 당뇨병에 대한 상대 위험율 및 승산비의 비교, B) 생애 위험율이 42%이고 유전율이 57%인 심근경색에 대한 상대 위험율 및 승산비의 비교, 및 C) 2형 당뇨병에 대한 질병 획득 확률 대비 평균 제곱 제곱 오차를 나타낸 도면이다.
도 4는 기지 유전자 위험율에 대한 기지 가족력을 나타낸 도면이다. 유전 위험율이 A) 2형 당뇨병, B) 크론병, 및 C) 류마티스성 관절염에 대해 완전히 알려진 경우 이론적 ROC 그래프에 대한 가족력을 나타낸다. 붉은색 곡선은 가족력 단독을 기준으로 하는 분류 검사에 대해서 b의 상이한 값에 대한 참 및 거짓 양성 분율을 보여준다.
도 5는 A) 크론병, B) 2형 당뇨병, 및 C) 류마티스성 관절염에 대한, 기지 유전 인자 단독에 대한, 기지 유전 및 환경 인자의 영향을 나타낸 도면이다. 크론병의 경우, 2 곡선의 AUC는 0.68 및 0.72이다(A). 유전 인자 이외에도, 흡연(상대 위험율 3)이 환경 변수로서 고려되었다. 2형 당뇨병의 경우, 2 곡선의 AUC는 각각 0.57 및 0.79이다(B). 유전 인자 이외에도, 체질량 지수(상대 위험율 42.1), 알콜 섭취(상대 위험율 1.75) 및 흡연 빈도(상대 위험율 1.70)가 2형 당뇨병에 대한 환경 인자로서 고려되었다. 류마티스성 관절염의 경우, 2 곡선의 AUC는 0.685 및 0.688이다(C). 흡연(상대 위험율 1.4)이 유전 인자 이외의 환경 변수이다.
도 6은 A) 2형 당뇨병에서 GCI 계산을 위해 가정된 생애 위험율(LTR')의 함수에 따른 GCI-기반 평균 생애 위험율 및 참 평균 위험율 간 오차(T2D에 대한 참 평균 위험율 = 0.25)와, B) GCI-기반 평균 생애 위험율 및 생애 위험율(LTR') 간 오차는 가정된 LTR' 함수에 따른 GCI 계산을 위해 가정함을 보여준다.
본 발명은 개체의 유전자 조성 단독을 기초로 하는, 그들의 게놈 프로파일의 위험율 추정치를 생성하는 방법을 제공한다. 일부 구체예에서, 추정치는 개체의 게놈 프로파일 또는 유전자 조성 단독을 기초로 하고, 모든 다른 인자들은 고정된다. 본원에 기술된, 위험율 추정치 또는 위험율 스코어는 유전자 복합 지수(GCI; Genetic Composite Index)라고 하며, 향후 결정 등과 같은 임상적 결정을 이끌게 되는, 임의 유형의 유전 위험 인자 입력물을 이용한 임상적 셋팅에서 사용할 수 있는 수치가변적(scalable) 계량치이다. GCI는 개체의 유전자형 정보를 평균 생애 위험율, 복수의 위험 유전자좌 전반의 승산비 정보, 및 기준 개체군에서의 유전자형 빈도 분포와 함께, 병태가 발병될 개체의 위험율을 대표하는 하나의 통합 스코어로 조합된다. 보다 높은 GCI 스코어는 병태에 대한 높은 위험율로서 직관적으로 이해될 수 있다. GCI는 이하에 더욱 기술되는, 몇몇 가정들을 기초로 한다. 상이한 조건 하에서 GCI의 강건성을 검사하기 위한 임상 데이타와 실제 유전자형을 비롯한 모의실험 데이타를 또한 본원에서 기술한다. 일부 구체에에서, SNP의 효과는 문헌에서 통계적으로 유의하게 나타낸 공지의 SNP-SNP 상호작용이 존재하지 않는다면 독립적이다. 이러한 독립성 가정은 대체로, 약한 SNP-SNP 상호작용이 유의하게 그 예측가능성에 영향을 주지 않기 때문에, 우리 모델의 일반성에 영향을 주지 않는다.
현행 위험율 평가 방법은 예방 의학 프로그램에서 사용되는 위험율 평가 측정법 개발의 출발점을 제공한다. 그러나, 이들 상이한 방법들의 품질 및 효율은 그들의 편차 및 실행, 그들의 이론적 한계치, 및 그들의 상대적 장점에 의존적이다. 예를 들어, ROC(Receiver Operating Characteristic) 곡선을 이용하여 다양한 위험율 측정법의 효율을 측정한다(예를 들어, [Lu and Elston, Am. J. of Human Genetics, 82:641-651 (2008)]를 참조함).
ROC 곡선은 또한 예를 들어, GCI가 이론적으로 최적 검사일 수 있음을 보여주어, GCI 스코어, 및 다른 위험율 평가법을 평가하는데 사용될 수 있다. 예를 들어, 다양한 질환 모델을 모의실험하여, 모든 유전 인자가 알려진, 이상적인 "최고 환자사례" 시나리오 하에서 이러한 상이한 방법들의 예측력을 계산할 수 있다(예를 들어, GCI 대 다른 모델들). 이러한 이상적인 위험율 평가는 소수 인자들, 그중에서 유전율 및 병태 발병의 평균 생애 위험율 등에 의존적이다. 대체로, 유전율이 높을수록, 유전자형 정보만을 기반으로 하는 위험율 평가가 보다 낫다. 유사하게, 평균 생애 위험율은 대체로 개체군 중 위험 확률의 가변성에 영향을 주므로, 그에 따라 이상적인 위험율 평가 시나리오의 정확도에 영향을 준다. 또한, 본원에 기술된 GCI는 복수 인자, 예컨대 유전 인자 또는 환경 인자가 이용가능하지 않을 경우, 예를 들어, 예컨대 다수의 공통 질환들에 대한 복수 인자들을 동시에 검사하기 위해 설계된 대규모 연구가 이용가능하지 않을 경우 사용될 수 있다.
게놈 프로파일
GCI는 개체의 게놈 프로파일을 기초로 생성된다. 개체의 게놈 프로파일은 유전적 변이 또는 마커를 기초로 개체의 유전자에 대한 정보를 함유한다. 유전적 변이는 게놈 프로파일을 구성하는 유전자형을 형성할 수 있다. 이러한 유전적 변이 또는 마커는 이에 제한되는 것은 아니고, 단일 뉴클레오티드 다형성(SNP), 단일 및/또는 다수 뉴클레오티드 반복부, 단일 및/또는 다수 뉴클레오티드 결실, 미소부수체 반복부(통상 5-1,000 반복 단위를 갖는 소수의 뉴클레오티드 반복부), 2-뉴클레오티드 반복부, 3-뉴클레오티드 반복부, 서열 재배열(전좌 및 중복 포함), 카피수 변이(특정 유전자좌에서 손실 및 획득) 등을 포함한다. 기타 유전적 변이는 염색체 중복 및 전좌를 비롯하여, 센트로머 및 텔로머 반복부를 포함한다.
유전자형은 또한 일배체형과 이배체형을 포함할 수 있다. 일부 구체예에서, 게놈 프로파일은 적어도 100,000, 300,000, 500,000, 또는 1,000,000 유전자형을 가질 수 있다. 일부 구체예에서, 게놈 프로파일은 실질적으로 개체의 완전한 게놈 서열일 수 있다. 다른 구체예에서, 게놈 프로파일은 개체의 완전한 게놈 서열의 적어도 60%, 80%, 또는 95%이다. 게놈 프로파일은 개체의 완전한 게놈 서열의 대략 100%일 수 있다. 표적을 함유하는 유전자 샘플은, 이에 제한되는 것은 아니고, 미증폭된 게놈 DNA 또는 RNA 샘플 또는 증폭된 DNA(또는 cDNA)를 포함한다. 표적은 특히 관심있는 유전자 마커를 함유하는 게놈 DNA의 특정 영역일 수 있다.
게놈 프로파일을 획득하기 위해, 개체의 유전자 샘플은 개체의 생물학적 샘플로부터 단리될 수 있다. 생물학적 샘플은 유전자 물질, 예컨대 RNA 및/또는 DNA를 단리할 수 있는 샘플을 포함한다. 그러한 생물학적 샘플은 이에 제한되지 않지만, 혈액, 모발, 피부, 타액, 정액, 소변, 배설물, 땀, 구강 및 다양한 신체 조직을 포함할 수 있다. 조직 샘플은 개체에 의해 직접 채취할 수 있는데, 예를 들어 구강 샘플은 개체의 볼 안쪽에서 면봉을 사용해 개체로부터 획득될 수 있다. 다른 샘플, 예컨대 타액, 정액, 소변, 배설물, 또는 땀 등은 또한, 개체 스스로가 제공해 줄 수 있다. 다른 생물학적 샘플은 건강 관리 전문가, 예컨대 사혈 전문 의사, 간호사 또는 의사가 채취할 수 있다. 예를 들어, 혈액 샘플은 간호사가 개체로부터 채취할 수 있다. 조직 생검은 건강 관리 전문가가 수행할 수 있고, 시판되는 키트를 쉽게 이용하여 또한 건강 관리 전문가가 효율적으로 샘플을 입수할 수 있다. 피부의 소형 원통부를 분리하거나 또는 바늘을 사용하여 조직 또는 체액의 소량 샘플을 분리할 수 있다.
샘플 채집 키트가 또한 개체에게 제공될 수 있다. 이러한 키트는 개체의 생물학적 샘플용 샘플 채집 용기를 함유할 수 있다. 키트는 또한 개체 자신의 샘플을 직접 채집할 수 있는 개체를 위한 설명서, 예컨대 얼만큼의 양으로 모발, 소변, 땀 또는 타액을 제공하는지에 대한 설명서가 제공된다. 키트는 또한 조직 샘플을 건강 관리 전문가가 채취하도록 요청하는 개체를 위한 설명서를 함유할 수 있다. 키트는 제3자가 샘플을 채취할 수 있는 장소를 포함할 수 있는데, 예를 들어, 키트는 개체로부터 샘플을 차례로 채취할 수 있는 건강 관리 기관에 제공될 수 있다. 키트는 또한 유전 물질을 생물학적 샘플로부터 단리하는, 샘플 처리 기관으로 샘플을 보내기 위한 샘플용 반송 포장부를 제공할 수도 있다.
DNA 또는 RNA의 유전 샘플은 임의의 몇몇 잘 알려진 생화학적 및 분자 생물학적 방법에 따라 생물학적 샘플로부터 단리될 수 있는데, 예를 들어, 문헌 [Sambrook , et al ., Molecular Cloning : A Laboratory Manual ( Cold Spring Harbor Laboratory , New York ) (1989)]을 참조한다. 이에 제한되는 것은 아니고, 예컨대 DNA Genotek, Gentra Systems, Qiagen, Ambion, 및 다른 공급자로부터 입수가능한, 생물학적 샘플로부터 DNA 또는 RNA를 단리하기 위한 몇몇 시판되는 키트 및 시약이 존재한다. 구강 샘플 키트는 용이하기 입수가능한 시판되는, 예컨대 MasterAmp™ 구강 면봉 DNA 추출 키트(Epicentre Biotechnologies), Extract-N-Amp™(Sigma Aldrich) 등과 같은 혈액 샘플로부터 DNA를 추출하기 위한 키트 등이 있다. 다른 조직 유래의 DNA는 프로테아제 및 열로 조직을 분해하고, 샘플을 원심분리한 후, 페놀-클로로포름을 이용해 원치않는 물질을 추출하고, 수층에 DNA를 남겨두어 얻을 수 있다. 다음으로, DNA를 에탄올 침전으로 더욱 단리할 수 있다.
예를 들어, 게놈 DNA는 DNA Genotek에서 판매하는 DNA 셀프 콜렉션 키트를 이용해, 타액으로부터 단리될 수 있다. 개체는 키트를 이용해 임상 처리용 타액 표본을 채집할 수 있고 샘플을 편리하게 실온에서 저장 및 운송할 수 있다. 적절한 처리 실험실에 샘플을 전달한 후, DNA는 1 시간 이상 동안 50℃에서 채취 키트 공급자가 제공하는 시약을 통상적으로 이용하여, 샘플을 열 변성 및 프로테아제 분해하여 단리시킬 수 있다. 다음으로 샘플을 원심분리하고, 상등액을 에탄올 침전시킨다. DNA 펠렛을 후속 분석에 적절한 완충액에 현탁시킨다.
RNA가 유전적 샘플로서 사용될 수 있으며, 예를 들어 발현되는 유전적 변이를 mRNA로부터 확인할 수 있다. mRNA는 이에 제한되는 것은 아니고, 프리-mRNA 전사체(들), 전사 과정 중간체, 유전자 또는 유전자들의 번역 및 전사 준비가 된 성숙한 mRNA(들), 또는 mRNA 전사체(들)에서 유래된 핵산을 포함한다. 전사 과정은 스플라이싱, 에디팅 및 분해를 포함할 수 있다. 본원에서 사용되는, mRNA 전사체로부터 유래된 핵산은, mRNA 전사체 또는 그의 아서열이 궁극적으로 주형으로서 제공되는 그 합성을 위한 핵산을 의미한다. 따라서, mRNA로부터 역전사된 cDNA, cDNA로부터 증폭된 DNA, 증폭된 DNA로부터 전사된 RNA 등은 모두 mRNA 전사체로부터 유래된다. RNA는 당분야에 공지된 방법, 예컨대 PreAnalytiX에서 입수가능한 PAXgene™ 혈액 RNA 시스템을 이용하여 미분획 전혈로부터 RNA를 단리하는 방법 등을 이용해 임의의 몇몇 신체 조직으로부터 단리될 수 있다. 대체로, mRNA를 사용하여 cDNA를 역전사하고, 이후 유전자 변이 분석을 위해 사용하거나 또는 증폭시킨다.
게놈 프로파일은 유전자 샘플의 증폭없이 유전자 샘플로부터 생성시킬 수 있다. 다르게, 게놈 프로파일 분석전에, 유전자 샘플은 RNA로부터 역전사된 cDNA 또는 DNA로부터 증폭될 수 있다. DNA는 대부분 PCR을 적용하는, 다양한 방법을 통해 증폭될 수 있다. 예를 들어, 하기 문헌들을 참조할 수 있으며, 이들 각각은 모든 목적을 위해 전체로 참조하여 본원에 포함된다: PCR Technology : Principles and Applications for DNA Amplification ( Ed . H. A. Erlich , Freeman Press , NY , N.Y., 1992); PCR Protocols : A Guide to Methods and Applications ( Eds . Innis , et al ., Academic Press , San Diego , Calif ., 1990); Mattila et al ., Nucleic Acids Res . 19, 4967 (1991); Eckert et al ., PCR Methods and Applications 1, 17 (1991); PCR ( Eds . McPherson et al ., IRL Press , Oxford ); 및 미국 특허 제4,683,202호, 제4,683,195호, 제4,800,159호, 제4,965,188호 및 제5,333,675호.
다른 적절한 증폭법은 리가제 연쇄 반응법(LCR)(예를 들어, Wu and Wallace, Genomics 4, 560 (1989), Landegren et al., Science 241, 1077 (1988) and Barringer et al. Gene 89:117 (1990)), 전사 증폭법(Kwoh et al ., Proc . Natl . Acad . Sci . USA 86:1173-1177 (1989) 및 WO88/10315), 자가-지속성 서열 복제법(Guatelli et al ., Proc . Nat . Acad . Sci . USA , 87:1874-1878 (1990) and WO90/06995), 표적 폴리뉴클레오티드 서열의 선택적 증폭법(미국 특허 제6,410,276호), 공통 서열 프라임된 중합효소 연쇄 반응법(CP-PCR)(미국 특허 제4,437,975호), 임의 프라임된 중합효소 연쇄 반응법(AP-PCR)(미국 특허 제5,413,909호, 제5,861,245호), 핵산 서열 기반 증폭법(NASBA), 롤링 서클 증폭법(RCA), 복수 치환 증폭법(MDA)(미국 특허 제6,124,120호 및 제6,323,009호) 및 서클-대-서클 증폭법(C2CA)(Dahl et al . Proc . Natl . Acad . Sci 101:4548-4553 (2004)) 등을 포함한다. (미국 특허 제5,409,818호, 제5,554,517호, 및 제6,063,603호를 참조할 수 있으며, 이 각각을 참조하여 본원에 포함시킨다). 사용될 수 있는 다른 증폭법은 미국 특허 제5,242,794호, 제5,494,810호, 제5,409,818호, 제4,988,617호, 제6,063,603호 및 제5,554,517호, 및 미국 특허 출원 제09/854,317호를 참조하며, 이들 각각을 참조하여 본원에 포함시킨다.
게놈 프로파일의 생성은 임의의 몇몇 방법을 이용해 수행할 수 있다. 유전자 변이를 식별하기 위한 몇몇 방법에 당분야에 공지되어 있고, 이에 제한되는 것은 아니나, 임의의 몇몇 방법론에 의한 DNA 서열분석법, PCR 기반 방법, 단편 길이 다형성 분석법(제한 단편 길이 다형성(RFLP), 절단 단편 길이 다형성(CFLP)), 주형으로 대립유전자-특이적 올리고뉴클레오티드를 이용하는 혼성화 방법(예를 들어, 본원에서 추가로 기술된, TaqMan 분석법 및 마이크로어레이), 프라이머 연장 반응을 이용한 방법, 질량 분광분석법(예컨대, MALDI-TOF/MS 방법) 등을 포함하며, 예컨대 문헌 [Kwok , Pharmocogenomics 1:95-100 (2000)]에 기술되어 있다. 다른 방법은 인베이더 방법, 예컨대 모노플렉스 및 바이플렉스 인베이더 분석법(예를 들어, Third Wave Technologies(미국, 위스콘신, 매디슨 소재)에서 입수가능하며, 문헌[Olivier et al ., Nucl . Acids Res . 30: e53 (2002)]에 기재됨)을 포함한다.
예를 들어, 고밀도 DNA 어레이를 사용하여 게놈 프로파일을 생성시킬 수 있다. 이러한 어레이는 Affymetrix 및 Illumina에서 시판된다(Affymetrix GeneChip® 500K 어세이 매뉴얼 참조, Affymetrix(미국, 캘리포니아, 산타클라라 소재)(참조문헌으로 포함시킴); Sentrix® humanHap650Y genotyping beadchip, Illumina(미국, 캘리포니아, 샌디에고 소재). 고밀도 어레이를 사용하여 SNP 등의 유전자 변이를 포함하는 게놈 프로파일을 생성시킬 수 있다 예를 들어, SNP 프로파일은 Affymetrix Genome Wide Human SNP Array 6.0을 이용하여 900,000이 넘는 SNP을 유전자형 분석해서 생성시킬 수 있다. 다르게, 전체 게놈 샘플링 분석을 통해 500,000이 넘는 SNP를 Affymetrix GeneChip Human Mapping 500K Array Set를 이용해서 결정할 수 있다. 이러한 어세이에서, 인간 게놈의 하위세트는 제한효소 분해되고, 어댑터 결찰된 인간 게놈 DNA를 이용하여 단일 프라이머 증폭 분석법을 통해 증폭된다. 대체로, 증폭된 DNA는 이후 단편화되고 샘플의 양을 결정한 후 샘플을 변성 및 표지화하여 코팅된 석영 표면 상의 특정 위치에 DNA 프로브를 갖는 마이크로어레이와 혼성화시킨다. 증폭된 DNA 서열의 함수에 따라 각 프로브에 혼성화되는 표지의 양을 모니터링하여, 서열 정보와 최종 SNP 유전자형을 얻는다.
고밀도 어레이의 이용은 당분야에 잘 알려져 있으며, 상업적으로 구매한 경우, 제조자의 지시에 따라 수행된다. 예를 들어, Affymetrix GeneChip은 NspI 또는 StyI 제한 엔도뉴클레아제를 이용해 단리된 게놈 DNA를 효소분해하는 것을 포함할 수 있다. 효소분해된 DNA를 이후 NspI 또는 StyI 제한된 DNA에 각각 어닐링되는 NspI 또는 StyI 어댑터 올리고뉴클레오티드와 결찰시킨다. 결찰 후 어댑터 함유 DNA를 PCR로 증폭시켜 약 200 내지 1100 염기쌍 길이의 증폭된 DNA 단편을 얻고, 겔 전기영동으로 검증한다. 증폭 표준을 만족하는 PCR 생성물을 정제하고 단편화를 위해 정량한다. PCR 생성물은 최적 DNA 칩 혼성화를 위해 DNase I으로 단편화시킨다. 단편화 이후, DNA 단편은 겔 전기영동으로 검증시, 250 염기쌍보다 작아야 하며, 평균 약 180 염기쌍이어야 한다. 단편화 표준을 만족하는 샘플을 이후 말단 데옥시뉴클레오티딜 트랜스퍼라제를 이용해 비오틴 화합물로 표지화시킨다. 다음으로, 표지된 단편은 변성시킨 후 GeneChip 250K 어레이에 혼성화시킨다. 혼성화 이후, 어레이를 염색하여, 스트렙타비딘 파이코에리틴(SAPE) 염색 단계, 이후 비오틴화된, 항-스트렙타비딘 항체(염소)를 이용한 항체 증폭 단계, 및 스트렙타비딘 파이코에리틴(SAPE)를 이용한 최종 염색 단계로 구성된, 3단계 과정으로 스캐닝한다. 표지화 이후, 어레이를 어레이 홀딩 완충액으로 덮고, 예를 들어 스캐너 예컨대 Affymetrix GeneChip 스캐너 3000을 이용해 스캐닝한다.
고밀도 어레이를 스캐닝한 후 데이타 분석은 제조사의 가이드라인에 따라 수행할 수 있다. 예를 들어, Affymetrix GeneChip을 이용한 경우, 미가공 데이타의 획득은 GeneChip 작동 소프트웨어(GCOS)를 이용한 분석에 의해 또는 Affymetrix GeneChip Command Console™을 이용해 수행될 수 있다. 미가공 데이타의 획득은 이후 GeneChip Genotyping Analysis Software(GTYPE)를 이용한 분석이 후속된다. 일정 비율 이하의 GTYPE 호출 비율을 갖는 샘플은 제외시킬 수 있다. 예를 들어, 호출 비율이 대략 70, 75, 80, 85, 90, 또는 95% 보다 낮은 경우는 제외시킬 수 있다. 다음으로, 샘플은 BRLMM 및/또는 SNiPer 알고리즘 분석법으로 검토된다. 95% 보다 낮은 BRLMM 호출 비율 또는 98% 보다 낮은 SNiPer 호출 비율을 갖는 샘플은 배제한다. 마지막으로, 연관 분석을 수행하고, 0.45 보다 낮은 SNiPer 품질 지수 및/또는 0.00001 보다 낮은 Hardy-Weinberg p-값을 갖는 샘플은 제외시킨다.
DNA 마이크로어레이 분석법에 대한 대안법으로서 또는 이에 더하여, 유전자 변이 예컨대 SNP 및 돌연변이는 다른 혼성화 기반 방법, 예컨대 TaqMan 방법 및 이의 별법을 통해 검출할 수 있다. TaqMan PCR, 반복 TaqMan, 및 실시간 PCR(RT-PCR)의 다른 별법, 예컨대 문헌 [Livak et al ., Nature Genet ., 9 , 341-32 (1995) and Ranade et al . Genome Res ., 11 , 1262-1268 (2001)]에 기술된 방법들을 본원에 개시한 방법에서 사용할 수 있다. 일부 구체예에서, 특정 유전자 변이, 예컨대 SNP용 프로브를 표지화하여 TaqMan 프로브를 형성시킨다. 이러한 프로브는 대체로 길이가 적어도 대략 12, 15, 18 또는 20 염기쌍이다. 이들 프로브는 길이가 대략 10 내지 70, 15 내지 60, 20 내지 60, 또는 18 내지 22 염기쌍이다. 프로브는 리포터 표지, 예컨대 형광단으로 5' 말단이, 그리고 표지의 소광제로 3' 말단이 표지화된다. 리포터 표지는 예컨대 프로브의 길이로, 소광제와 근접하여 위치할 때 그 형광발광이 억제되거나 또는 소광되는 임의의 형광 분자일 수 있다. 예를 들어, 리포터 표지는 형광단, 예컨대 6-카르복시플루오레세인(FAM), 테트라콜로르플루오레세인(TET), 또는 이의 유도체이고, 소광제는 테트라에틸로다민(TAMRA), 디히드로시클로피롤인돌 트리펩티드(MGB), 또는 이의 유도체 등이다.
리포터 형광단과 소광제가 프로브의 길이만큼 떨어져, 근접해 있어서, 형광발광이 소광된다. 프로브를 표적 서열, 예컨대 샘플에 SNP를 포함하는 서열에 어닐링한 경우, 5'에서 3' 엑소뉴클레아제 활성을 갖는 DNA 중합효소, 예컨대 Taq 중합효소가 프라이머를 연장하고, 리포터와 소광제를 떨어지게한, 프로브를 엑소뉴클레아제 활성이 절단하여, 리포터가 형광발광될 수 있다. 이러한 과정을 예컨대 RT-PCR 등으로 반복할 수 있다. TaqMan 프로브는 대체로 서열을 증폭하도록 설계된 2 프라이머 사이에 위치하는 표적 서열과 상보적이다. 그러므로, PCR 생성물의 축적은 방출된 형광단의 축적과 상호관련지을 수 있는데, 각 프로브가 새롭게 생성된 PCR 생성물과 혼성화될 수 있기 때문이다. 방출된 형광단을 측정하여 존재하는 표적 서열의 양을 결정할 수 있다. 고처리량 유전자형 분석을 위한 RT-PCR 방법을, 예컨대 에서 사용할 수 있다.
유전자 변이는 또한 DNA 서열 분석을 통해 식별할 수 있다. DNA 서열 분석은 개체의 게놈 서열의 상당한 부분, 또는 전체를 서열분석하기 위해 사용될 수 있다. 전형적으로, 통상의 DNA 서열분석은 사슬-종결된 단편 모집군을 해리하기 위한 폴리아크릴아미드 겔 단편화법을 기반으로 한다(Sanger et al ., Proc . Natl . Acad . Sci . USA 74:5463-5467 (1977)). 대안법이 계속 개발되어 DNA 서열분석의 속도 및 편리함이 증가되었다. 예를 들어, 고처리량, 단일 분자 서열분석 플랫폼이 시판되거나 또는 54 Life Sciences(미국, 코네티컷주, 브랜포드 소재)( Margulies et al ., Nature 437:376-380 (2005)); Solexa(미국, 캘리포니아, 헤이워드 소재); Helicos BioSciences Corporation(미국, 매사추세츠주, 캠브릿지 소재)(2005년 6월 23일 출원된, 미국 특허 출원 제11/167046호), 및 Li-Cor Biosciences(미국, 네브라스카주, 링컨 소재)(2005년 4월 29일 출원된, 미국 특허 출원 제11/118031호)에서 개발 중이다.
개체의 게놈 프로파일을 생성한 후, 프로파일을 예컨대 컴퓨터 판독가능한 매체 상에 디지탈적으로 저장한다. 프로파일은 보안 방식으로 디지탈 저장될 수 있다. 게놈 프로파일을 컴퓨터 판독 포맷, 예컨대 컴퓨터 판독 매체 상에 코딩하여, 데이타 세트의 일부로서 저장하고 데이타베이스로서 저장할 수 있는데, 여기에 게놈 프로파일이 "축적(banked)"되어질 수 있고, 후에 다시 접속할 수 있다. 데이타 세트는 다수의 데이타 포인트를 포함하고, 여기서 각 데이타 포인트는 개체와 관련된다. 각 데이타 포인트는 다수의 데이타 요소를 가질 수 있다. 한 데이타 요소는 개체의 게놈 프로파일을 식별하는데 사용되는, 고유한 식별자이다. 고유 식별자는 바코드일 수 있다. 다른 데이타 요소는 유전자형 정보, 예컨대 개체 게놈의 뉴클레오티드 서열 또는 SNP이다. 유전자형 정보에 상응하는 데이타 요소는 또한 데이타 포인트에 포함될 수 있다. 예를 들어, 유전자형 정보가 마이크로어레이 분석으로 식별된 SNP를 포함하는 경우, 다른 데이타 요소는 마이크로어레이 SNP 식별 번호를 포함할 수 있다. 다르게, 유전자형 정보를 다른 수단, 예컨대 RT-PCR 방법(예컨대 TaqMan 어세이)으로 식별한 경우, 데이타 요소는 형광발광도, 프라이머 정보, 및 프로브 서열을 포함할 수 있다. 다른 데이타 요소는, 이에 제한되는 것은 아니고, SNP rs 번호, 다형성 뉴클레오티드, 유전자형 정보의 염색체 위치, 데이타의 품질 지표, 미가공 데이타 파일, 데이타의 영상, 및 추출된 강도 스코어를 포함할 수 있다.
개체의 특정 인자, 예컨대 신체 데이타, 의료 데이타, 인종, 혈통, 지리, 성별, 연령, 가족력, 알려진 표현형, 인구학적 데이타, 노출 데이타, 생활 방식 데이타, 행동 데이타, 및 다른 알려진 표현형 등을 또한 데이타 요소로서 포함시킬 수 있다. 예를 들어, 인자들은, 이에 제한되는 것은 아니고, 개체의 탄생지, 부모 및/또는 조부모, 친척 가계, 거주지, 조상의 거주지, 환경 조건, 기지의 건강 상태, 기지의 약물 상호작용, 가족 건강 상태, 생활방식 상태, 식이, 운동 습관, 혼인 여부, 및 신체 측정치, 예컨대 체중, 키, 콜레스테롤 수준, 심박수, 혈압, 당수치 및 다른 당분야에 알려진 측정치 등을 포함할 수 있다. 개체의 친척 또는 조상, 예컨대 부모 및 조부모에 대해 상기 언급한 인자들은 또한 데이타 요소로서 포함되어 표현형 또는 병태에 대한 개체의 위험성을 결정하기 위해 사용될 수 있다.
특정 인자들은 설문지를 통해서 또는 개체의 건강 관리자로부터 얻을 수 있다. "축적된" 프로파일로부터의 정보에 이후 접근하여 필요에 따라 활용할 수 있다. 예를 들어, 개체의 유전자형 상관관계의 초기 평가에서, 개체의 전체 정보(대체로, 전체 게놈으로부터 얻거나, 또는 이의 전반에 걸친 SNP 또는 다른 게놈 서열 등)를 유전자형 상관관계를 위해 분석하게 된다. 후속 분석에서, 필요하거나 또는 적절하면, 저장, 또는 축적된 게놈 프로파일로부터, 전체 정보, 또는 이의 일부를 접속할 수 있다.
상관관계 및 표현형 프로파일
게놈 프로파일을 사용하여 표현형 프로파일을 생성시킨다. 게놈 프로파일은 대체로 디지탈 저장되고, 표현형 프로파일을 생성시키기 위해 임의 시점에서 용이하게 접근한다. 표현형 프로파일은 유전자형을 표현형과 상관짓거나 또는 연관시키는 규칙을 적용하여 생성된다. 대체로 규칙은 컴퓨터를 이용해 적용된다. 유전자형과 표현형간 상관관계를 증명하는 과학 연구를 기초로 규칙을 정할 수 있다. 상관관계는 1 이상의 전문가 위원회에 의해 체계화되거나 또는 입증된다. 개체의 게놈 프로파일에 규칙을 적용하여, 개체의 유전자형과 표현형 사이의 연관성을 결정할 수 있다. 개체의 표현형 프로파일은 이러한 결정안을 가지게 된다. 결정안은 개체의 유전자형과 소정의 표현형간 양성 연관성일 수 있고, 그에 따라 개체는 소정의 표현형을 갖거나, 또는 그 표현형을 발생시킬 수 있다. 다르게, 개체가 소정의 표현형을 가지지 않거나, 또는 그러한 표현형을 발생시키지 않는지를 결정할 수 있다. 다른 구체예에서, 결정안은 위험 인자, 추정치, 또는 개체가 표현형을 갖거나, 또는 발생시킬 가능성일 수 있다.
다수의 규칙을 기초로 결정안을 만들 수 있으며, 예를 들어, 다수의 규칙을 게놈 프로파일에 적용하여 개체의 표현형과 특정 표현형의 연관성을 결정할 수 있다. 또한, 결정안은 개체에 특이적인 인자, 예컨대 인종, 성별, 생활 방식(예를 들어, 식이 및 운동 습관), 연령, 환경(예를 들어, 거주지), 가족 병력, 개인 병력, 및 다른 알려진 표현형 등을 포함할 수 있다. 특정 인자의 포함은 이러한 인자들을 포함시키도록 현행 규칙을 변형시켜서 가능할 수 있다. 다르게, 개별 규칙이 이들 인자에 의해 생성되고 현행 규칙이 적용된 후 개체에 대한 표현형 결정안에 적용될 수 있다.
표현형은 임의의 측정가능한 특성 또는 특징, 예컨대 일정 질병에 대한 감수성 또는 약물 치료에 대한 반응성을 포함할 수 있다. 포함시킬 수 있는 다른 표현형은 신체 및 정신적 특성, 예컨대 키, 체중, 머리색, 눈색, 일과화상 감수성, 크기, 기억력, 지능, 낙천성, 및 전반적인 기질 등이다. 표현형은 또한 다른 개체 또는 유기체와의 유전자 비교를 포함할 수 있다. 예를 들어, 개체는 그들의 게놈 프로파일과 유명인의 게놈 프로파일간 유사성에 관심이 있을 수 있다. 개체는 또한 다른 유기체 예컨대 박테리아, 식물 또는 다른 동물과 비교한 그들의 게놈 프로파일을 가질 수 있다. 이와 함께, 개체에 대해 결정된 상관성있는 표현형 컬렉션은 개체에 대한 표현형 프로파일을 포함한다.
유전자 변이와 표현형간 상관관계는 과학 문헌에서 입수할 수 있다. 유전자 변이에 대한 상관관계는 그들의 유전자형 프로파일 및 목적하는 1 이상의 표현형 특성의 존재 또는 부재에 대해 검사한 개체 모집군의 분석으로 결정된다. 프로파일의 각 유전자 변이 또는 다형성의 대립유전자를 검토하여 특정 대립유전자가 관심 특징과 연관있는지 여부를 결정한다. 상관관계 연구는 표준 통계법으로 수행할 수 있고 유전자 변이와 표현형 특징간 통계적으로 유의한 상관도를 기록한다. 예를 들어, 다형성 A에 대립유전자 A1의 존재는 심장 질환과 관련있다는 것을 확인할 수 있다. 추가 예로서, 다형성 A에 대립유전자 A1 및 다형성 B에 대립유전자 B1의 조합된 존재는 암 위험성 증가와 관련있다는 것을 확인할 수 있다. 분석 결과는 동료 집단이 검토하는 문헌에 공개하여, 다른 연구 집단이 입증하고/하거나 전문가, 예컨대 유전학자, 통계학자, 전염병학자, 및 의사 등의 위원회가 분석할 수 있고, 또한 체계화할 수 있다. 예를 들어, 미국 공개 특허 출원 제20080131887호 및 PCT 공개 출원 제WO/2008/067551호에 개시된 상관관계를 본원에 기술된 구체예에서 사용할 수 있다.
대안적으로, 상관관계는 저장된 게놈 프로파일로부터 생성시킬 수 있다. 예를 들어, 저장된 게놈 프로파일을 갖는 개체는 또한 저장된 기지의 표현형 정보도 가질 수 있다. 저장된 게놈 프로파일 및 기지 표현형의 분석으로 유전자형 상관관계를 생성시킬 수 있다. 예를 들면, 저장된 게놈 프로파일을 갖는 250 개체는 또한 이들이 이전에 당뇨병 진단을 받은 정보가 저장되어 있다. 이들 게놈 프로파일 분석을 수행하고 당뇨병이 없는 개체의 대조군과 비교한다. 다음으로, 이전에 당뇨병 진단을 받은 개체가 대조군과 비교하여 특정한 유전자 변이체를 갖는 비율이 보다 높은지를 결정하고, 그러한 특정 유전자 변이체와 당뇨병간의 유전자형 상관관계를 결정할 수 있다.
규칙은 특정 표현형에 대한 유전자 변이체의 입증된 상관관계를 기초로 만든다. 규칙은 미국 공개 특허 출원 제20080131887호 및 PCT 공개 출원 제WO/2008/067551호에 개시된 바와 같이 상관관계가 있는 표현형 및 유전자형을 기초로 생성시킬 수 있고, 효과 추정치(effects estimate)를 생성시키기 위해 일부 규칙은 다른 인자, 예컨대 성별 또는 인종을 포함할 수 있다. 규칙으로부터 얻어진 다른 측정치는 추정되는 상대적 위험성 증가치일 수 있다. 효과 추정치 및 추정된 상대적 위험성 증가치는 공개된 문헌에서 유래된 것이거나 또는 공개 문헌에서 계산할 수 있다. 다르게, 규칙은 저장된 게놈 프로파일 및 이전에 알려진 표현형에서 생성된 상관관계를 기초로 할 수 있다.
유전자 변이체는 SNP를 포함할 수 있다. SNP가 단일 부위에서 발생하지만, 한 부위에 특정 SNP 대립유전자를 보유하는 개체는 흔히 다른 부위에 특정 SNP 대립유전자를 예상되게 보유한다. 개체를 질환이나 병태에 취약하게 만드는 대립유전자 및 SNP의 상관관계는 연관 불균형을 통해 발생하며, 여기서 2 이상의 유전자좌에서의 대립유전자의 비무작위 연관은 재조합을 통한 무작위 형성으로 기대되는 것보다 개체군에서 더욱 또는 덜 빈번하게 일어난다.
다른 유전자 마커 또는 변이체, 예컨대 뉴클레오티드 반복부 또는 삽입은 또한 특이적 표현형과 연관된 것으로 보이는 유전자 마커와 연관 불균형일 수 있다. 예를 들어, 뉴클레오티드 삽입은 표현형과 상관관계가 있고 SNP는 뉴클레오티드 삽입과 연관 불균형이다. SNP와 표현형간 상관관계를 기초로 규칙을 만든다. 뉴클레오티드 삽입과 표현형간 상관관계를 기초로 하는 규칙을 만들 수도 있다. 이러한 규칙 중 하나 또는 둘 모두를 게놈 프로파일에 적용할 수 있는데, 하나의 SNP 존재가 일정 위험 인자를 제공할 수 있고, 나머지는 다른 위험 인자를 제공할 수 있으며, 조합시 위험성을 증가시킬 수 있기 때문이다.
연관 불균형을 통해서, 질환 소인 대립유전자는 SNP의 특정 대립유전자 또는 SNP의 특정 대립유전자의 조합과 함께 분리된다. 염색체를 따라서 SNP 대립유전자의 특정 조합을 일배체형이라하고, 조합하여 발생되는 DNA 영역은 일배체형 블록이라 할 수 있다. 일배체형 블록은 하나의 SNP로 구성될 수 있지만, 전형적으로 일배체형 블록은 개체에 걸쳐 낮은 일배체형 다양성을 나타내며 일반적으로 재조합 빈도가 낮은 2 또는 그 이상의 SNP의 연속 시리즈를 나타낸다. 일배체형의 동정은 일배체형 블록에 위치하는 1 이상의 SNP를 동정하여 이루어질 수 있다. 따라서, SNP 프로파일은 대체로 주어진 일배체형 블록 내 모든 SNP의 동정을 반드시 필요로 하지 않으면서 일배체형 블록을 동정하는데 사용할 수 있다.
SNP 일배체형 패턴과 질환, 병태 또는 신체 상태 간 유전자형 상관관계는 더욱더 알려지게 되었다. 소정의 질환에 대해, 질환을 갖는 것으로 알려진 개체군의 일배체형 패턴을 질환이 없는 개체군과 비교한다. 많은 개체들을 분석하여, 개체군에서의 다형성 빈도를 결정할 수 있고, 다음으로, 이들 빈도 또는 유전자형을 특정 표현형, 예컨대 질환 또는 병태와 연관시킬 수 있다. 알려진 SNP-질환 상관관계의 예는 나이 관련 황반변성에서 보체 인자 H의 다형성(Klein et al ., Science : 308:385-389, (2005)) 및 비만과 연관된 INSIG2 유전자 근처의 변이체( Herbert et al., Science: 312:279 -283 (2006))를 포함한다. 다른 알려진 SNP 상관관계는 CDKN2 A 및 B를 포함하는 9p21 영역 내 다형성, 예컨대 심근경색과 상관관계가 있는 rs10757274, rs2383206, rs13333040, rs2383207 및 rs10116277을 포함한다( Helgadottir et al ., Science 316:1491-1493 (2007); McPherson et al ., Science 316:1488-1491 (2007)).
SNP는 기능성이거나 또는 비기능성일 수 있다. 예를 들어, 기능성 SNP는 세포 기능에 영향을 주고, 그에 따라 표현형이 유래되는 한편, 비기능성 SNP는 기능하지 않지만, 기능성 SNP와 연관 불균형일 수 있다. SNP는 또한 동의어이거나 또는 비동의어일 수 있다. 동의어인 SNP는 상이한 형태가 동일한 폴리펩티드 서열을 생성시키지만, 비기능성 SNP인 SNP이다. SNP가 상이한 폴리펩티드를 생성시키는 경우, 이러한 SNP는 비동의어이고 기능성이거나 또는 기능성이 아닐 수 있다. 2 또는 그 이상의 일배체형인, 이배체형 중 일배체형을 동정하는데 사용되는 SNP 또는 다른 유전자 마커를 또한 사용하여 이배체형과 연관된 표현형을 상호관련지을 수 있다. 개체의 일배체형, 이배체형 및 SNP 프로파일에 대한 정보는 개체의 게놈 프로파일에 존재할 수 있다.
대체로, 표현형과 상관관계에 있는 다른 유전자 마커와 연관 불균형인 유전자 마커를 기초로 생성되는 규칙에 대해 유전자 마커는 r2 또는 D 스코어(연관 불균형을 결정하기 위해 당분야에서 통용되는 스코어)가 0.5 보다 크다. 이러한 스코어는 대략 0.5, 0.6, 0.7, 0.8, 0.90, 0.95 또는 0.99 보다 클 수 있다. 그 결과, 개체의 게놈 프로파일과 표현형을 상호관련짓는데 사용되는 유전자 마커는 표현형과 상관관계가 있는 기능성이거나 또는 공개된 SNP와 동일하거나, 또는 다를 수 있다. 일부 구체예에서, 테스트 SNP가 아직 동정되지 않았지만, 공개된 SNP 정보를 이용하여, 대립유전자 차이 또는 SNP는 다른 어세이, 예컨대 TaqMan를 기초로 동정될 수 있다. 예를 들어, 공개된 SNP는 rs1061170이지만 테스트 SNP는 동정되지 않았다. 테스트 SNP는 공개된 SNP를 이용하여 LD 분석을 통해 동정될 수 있다. 다르게, 테스트 SNP를 이용할 수 없으면, 대신, TaqMan 또는 다른 비슷한 어세이를 사용하여 테스트 SNP를 갖는 개체의 게놈을 평가한다.
테스트 SNP는 "DIRECT" 또는 "TAG" SNP일 수 있다. Direct SNP는 공개 또는 기능성 SNP와 동일한 테스트 SNP이다. 예를 들어, direct SNP는 유럽인과 아시아인에서 SNP rs1073640를 이용하여 유방암과 FGFR2 상관관계에 대해 사용될 수 있는데, 여기서 소수 대립유전자는 A이고 다른 대립유전자는 G이다(Easton et al ., Nature 447:1087-1093 (2007)). 유방암과 FGFR2 상관관계에 대한 direct SNP일 수 있는 다른 공개 또는 기능성 SNP는 역시 유렵인과 아시아인에서의 rs1219648이다(Hunter et al ., Nat . Genet . 39:870-874 (2007)). Tag SNP는 기능성 또는 공개 SNP와는 다른 테스트 SNP이다. Tag SNP는 다른 유전자 변이체에 대해 사용될 수 있고, 예컨대 CAMTA1(rs4908449), 9p21(rs10757274, rs2383206, rs13333040, rs2383207, rs10116277), COL1A1(rs1800012), FVL(rs6025), HLA-DQA1(rs4988889, rs2588331), eNOS(rs1799983), MTHFR(rs1801133), 및 APC(rs28933380)에 대한 SNP이다.
SNP의 데이타베이스는, 예를 들어 국제 HapMap 프로젝트(www.hapmap.org, The International HapMap Consortium , Nature 426:789-796 (2003), and The International HapMap Consortium , Nature 437:1299-1320 (2005)), 인간 유전자 돌연변이 데이타베이스(HGMD) 공공 데이타베이스(www.hgmd.org), 및 단일 뉴클레오티드 다형성 데이타베이스(dbSNP)(www.ncbi.nlm.nih.gov/SNP/)에서 공개적으로 입수할 수 있다. 이들 데이타베이스는 SNP 일배체형를 제공하거나, 또는 SNP 일배체형 패턴 결정을 가능하게 한다. 따라서, 이들 SNP 데이타베이스는 광범위한 질환 및 병태, 예컨대 암, 염증성 질환, 심혈관 질환, 신경퇴행성 질환, 및 감염성 질환의 근원이 되는 유전적 위험 인자의 검사를 가능하게 한다. 이러한 질환 또는 병태는 실현가능할 수 있고, 치료제 및 치료법이 현재 존재한다. 치료는 생활방식 변경을 포함하여, 증상 및 병태를 완화하는 치료를 비롯하여 예방적 치료를 포함할 수 있다.
많은 다른 표현형 예컨대 신체 특성, 생리적 특성, 정신적 특성, 감정적 특성, 인종, 조성 및 연령을 또한 검사할 수 있다. 신체 특성은 키, 모발색, 눈색, 몸통, 또는 체력, 지구력 및 민첩성 등의 특성을 포함할 수 있다. 정신적 특성은 지능, 기억력 또는 학습력 등을 포함할 수 있다. 인종 및 조상은 조상 또는 인종의 확인, 또는 개체의 조상이 기원한 곳 등을 포함한다. 연령은 개체의 실제 연령, 또는 전체 개체군과 비교하여 개체의 유전적 특징이 놓여지는 연령의 결정값일 수 있다. 예를 들어, 개체의 실제 연령이 38세이지만, 그들의 유전적 특징은 그들의 기억능력 또는 신체 웰빙을 평균 28세로 결정지을 수 있다. 다른 연령 특성은 개체의 예상 수명일 수 있다.
다른 표현형은 또한 비의료적 조건, 예컨대 "흥미로운(fun)" 표현형을 포함할 수 있다. 이러한 표현형은 잘알려진 개체, 예컨대 외국 고관, 정치가, 유명인, 발명가, 운동선수, 음악가, 예술가, 사업인, 및 악명가, 예컨대 범죄자와의 비교결과를 포함할 수 있다. 다른 "흥미로운" 표현형은 다른 유기체, 예컨대 박테리아, 곤충, 식물 또는 인간외 동물과의 비교결과를 포함할 수 있다. 예를 들어, 개체는 그들의 게놈 프로파일이 그들의 애완견, 또는 전직 대통령과 어떻게 비교되는지 알고자 관심을 가질 수 있다.
규칙들을 저장된 게놈 프로파일에 적용하여 표현형 프로파일을 생성시킨다. 예를 들어, 공개된 공급원 유래, 또는 저장된 게놈 프로파일 유래의 상관관계 데이타는 개체의 게놈 프로파일에 적용하기 위한, 규칙 또는 테스트의 기초를 형성시킬 수 있다. 규칙들은 테스트 SNP 및 대립유전자에 대한 정보, 효과 추정치, 예컨대 OR 또는 승산비(95% 신뢰 구간) 또는 평균치를 포함할 수 있다. 효과 추정치는 유전자형 위험치, 예컨대 동형접합체에 대한 위험치(homoz 또는 RR), 이형접합체에 대한 위험치(heteroz 또는 RN), 및 동형접합체에 대한 비위험치(homoz 또는 NN)일 수 있다. 효과 추정치는 또한 RR 또는 RN vs NN인, 보유자 위험치일 수 있다. 효과 추정치는 대립유전자, 예컨대 대립유전자 위험성, 예를 들어 R vs N일 위험성을 기초로할 수 있다. 또한, 2, 3, 4, 또는 그 이상의 유전자좌 유전자형 효과 추정치(예를 들어, 2 유전자좌 효과 추정치에 대한 가능한 9 유전자형 조합에 대해 RRRR, RRNN 등)가 존재할 수 있다.
병태에 대해 추정되는 위험율은 미국 공개특허 출원 제20080131887호 및 PCT 공개 출원 제WO/2008/067551호에 열거된 SNP를 기초로 할 수 있다. 일부 구체예에서, 병태에 대한 위험율은 1 이상의 SNP를 기초로 할 수 있다. 예를 들어, 알츠하이머(AD), 직결장암(CRC), 골관절염(OA) 또는 비늘녹내장(XFG)에 대한 개체 위험율 평가는 1 SNP(예를 들어, AD에 대해 rs4420638, CRC에 대해 rs6983267, OA에 대해 rs4911178, 및 XFG에 대해 rs2165241)를 기초로 할 수 있다. 다른 병태, 예컨대 비만(BMIOB), 그레이브병(GD), 또는 혈색소 침착증(HEM)에 대해, 개체의 추정 위험율은 적어도 1 또는 2 SNP(예를 들어, BMIOB에 대해 rs9939609 및/또는 rs9291171; GD에 대해 DRB1*0301 DQA1*0501 및/또는 rs3087243; HEM에 대해 rs1800562 및/또는 rs129128)를 기초로 할 수 있다. 이에 제한되는 것은 아니고, 예컨대 심근경색(MI), 다발성 경화증(MS), 또는 건선(PS) 등의 병태에 대해, 1, 2 또는 3 SNP를 사용하여 이러한 병태에 대한 개체의 위험율을 평가할 수 있다(예를 들어, MI에 대해 rs1866389, rs1333049 및/또는 rs6922269; MS에 대해 rs6897932, rs12722489 및/또는 DRB1*1501; PS에 대해 rs6859018, rs11209026 및/또는 HLAC*0602). 하지불안 증후군(RLS) 또는 셀리악병(CelD)에 대한 개체 위험율 추정을 위해, 1, 2, 3 또는 4 SNP(예를 들어, RLS에 대해 rs6904723, rs2300478, rs1026732 및/또는 rs9296249; CelD에 대해 rs6840978, rs11571315, rs2187668 및/또는 DQA1*0301 DQB1*0302)를 기초로 할 수 있다. 전립선암(PC) 또는 루푸스(SLE)에 대해, 이러한 PC 또는 SLE에 대한 개체 위험율 추정을 위해 1, 2, 3, 4 또는 5 SNP를 사용할 수 있다(예를 들어, PC에 대해 rs4242384, rs6983267, rs16901979, rs17765344 및/또는 rs4430796; SLE에 대해 rs12531711, rs10954213, rs2004640, DRB1*0301 및/또는 DRB1*1501). 황반변성(AMD) 또는 류마티스성 관절염(RA)에 대한 개체의 생애 위험율을 추정하기 위해, 1, 2, 3, 4, 5 또는 6 SNP를 사용할 수 있다(예를 들어, AMD에 대해 rs10737680, rs10490924, rs541862, rs2230199, rs1061170 및/또는 rs9332739; RA에 대해 rs6679677, rs11203367, rs6457617, DRB*0101, DRB1*0401 및/또는 DRB1*0404). 유방암(BC)에 대한 개체 생애 위험율을 추정하기 위해, 1, 2, 3, 4, 5, 6 또는 7 SNP를 사용할 수 있다(예를 들어, rs3803662, rs2981582, rs4700485, rs3817198, rs17468277, rs6721996 및/또는 rs3803662). 크론병(CD) 또는 2형 당뇨병(T2D)에 대한 개체의 생애 위험율을 추정하기 위해, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 11 SNP를 사용할 수 있다(예를 들어, CD에 대해 rs2066845, rs5743293, rs10883365, rs17234657, rs10210302, rs9858542, rs11805303, rs1000113, rs17221417, rs2542151 및/또는 rs10761659; T2D에 대해 rs13266634, rs4506565, rs10012946, rs7756992, rs10811661, rs12288738, rs8050136, rs1111875, rs4402960, rs5215 및/또는 rs1801282). 일부 구체예에서, 위험율 결정을 위한 기초로 사용되는 SNP는 상기 언급한 SNP, 또는 다른 SNP, 예컨대 US 공개 특허 출원 제20080131887호 및 PCT 공개 출원 제WO/2008/067551호에 언급된 것과 연관 불균형일 수 있다.
개체의 표현형 프로파일은 다수의 표현형을 포함할 수 있다. 구체적으로, 본원에 개시된 방법을 통한, 물질대사, 효능 및/또는 안전성을 포함한 가능한 약물 반응성 등과 같은 질환이나 또는 다른 병태의 환자 위험율 평가는 1 이상의 질환/병태 소인 대립유전자의 보유체를 포함하여, 증상이 있건, 전증상이 있건 또는 무증상이건, 다수의 비관련 질환 및 병태에 대한 감수성의 예후 또는 진단 분석을 가능하게 한다. 따라서, 이러한 방법들은 특정 질환 또는 병태 검사에 대한 임의의 선입견없이 질환 또는 병태에 대한 개체 감수성의 전반적인 평가를 위해 제공된다. 예를 들어, 본원에 개시된 방법은 개체의 게놈 프로파일을 기초로, 미국 공개 특허 출원 제20080131887호 및 PCT 공개 출원 제WO/2008/067551호에 열거된 임의의 몇몇 병태에 대한 개체의 감수성 평가를 가능하게 한다. 또한, 이 방법들은 1 이상의 표현형 또는 병태에 대한 개체의 추정 생애 위험율 또는 관련 위험율 평가를 가능하게 한다.
평가는 이들 병태 중 2 또는 그 이상에 대한 정보를 제공하고, 이들 병태 중 적어도 3, 4, 5, 10, 15, 18, 20, 25, 30, 35, 40, 45, 50, 100 또는 그 이상을 포함할 수 있다. 표현형에 대한 단일 규칙은 단성유전자 표현형에 적용할 수 있다. 1 이상의 규칙을 또한 단일 표현형, 예컨대 다성유전자 표현형 또는 단성유전자 표현형에 적용할 수 있으며, 여기서 단일 유전자 내 다수 유전자 변이체가 그 표현형을 가질 가능성에 영향을 줄 수 있다.
개별 환자의 게놈 프로파일의 초기 스크리닝 이후, 개체 유전자형 상관관계의 업데이트는, 추가 유전자 변이체가 알려진 경우, 그러한 추가 유전자 변이체, 예컨대 SNP를 비교하여 수행할 수 있다(또는 이용할 수 있다). 예를 들어, 업데이트는, 새로운 유전자형 상관관계에 대한 과학 문헌을 살피는 유전학 분야의 1 이상의 숙련가가 주기적으로, 예를 들어 매일, 주마다, 또는 달마다 수행할 수 있다. 새로운 유전자형 상관관계는 이후 당분야의 1 이상의 전문가 위원회에 의해 더욱 입증될 수 있다.
새로운 규칙은 현행 규칙없이 표현형 또는 유전자형을 포함할 수 있다. 예를 들어, 임의의 표현형과 상관관계가 없는 유전자형은 새로운 또는 존재하는 표현형과 상관관계가 있음이 밝혀질 수 있다. 새로운 규칙은 또한 이전에 상관관계인 유전자형이 없었던 표현형 간의 상관관계에 대한 것일 수 있다. 새로운 규칙은 또한 현행 규칙을 갖는 유전자형 및 표현형에 대해 결정될 수 있다. 예를 들어, 유전자형 A 및 표현형 A 간 상관관계를 기초로 하는 규칙이 존재한다. 새로운 조사 결과는 유전자형 B가 표현형 A와 상관관계에 있다는 것을 밝혀주고, 이러한 상관관계를 기초로 하는 새로운 규칙이 만들어진다, 다른 예는 표현형 B가 유전자형 A와 연관되어 있음이 발견되어, 새로운 규칙이 만들어질 수 있다는 것이다.
규칙은 또한 공개된 과학 문헌에서 처음에 확인되지 않은 공지된 상관관계를 기초로 하는 발견들에 대해 만들어질 수도 있다. 예를 들어, 유전자형 C가 표현형 C와 상관관계에 있다는 것이 보고될 수 있다. 다른 공개물은 유전자형 D가 표현형 D와 상관관계가 있음을 보고한다. 표현형 C 및 D는 관련 증상인데, 예를 들어 표현형 C는 숨가쁨이고, 표현형 D는 적은 폐용량이다. 유전자형 C와 표현형 D 간, 또는 유전자형 D와 표현형 C간 상관관계가 발견될 수 있고 유전자형 C 및 D, 그리고 표현형 C 및 D를 갖는 개체의 현행 저장된 게놈 프로파일을 이용한 통계적 수단을 통해서, 또는 후속 연구에 의해 입증될 수 있다. 다음으로, 새로운 규칙은 새롭게 발견되고 입증된 상관관계를 기초로 생성될 수 있다. 다른 구체예에서, 특이적 또는 관련된 표현형을 갖는 다수의 개체에 대한 저장된 게놈 프로파일을 연구하여 개체들에 공통되는 유전자형을 결정하고, 상관관계를 결정할 수 있다. 새로운 규칙은 이러한 상관관계를 기초로 생성시킬 수 있다.
또한, 규칙은 현행 규칙을 변형시킬 수 있다. 예를 들어, 유전자형과 표현형간 상관관계는 기지의 개체 특징, 예컨대 인종, 조상, 지리, 성별, 연령, 가족력, 또는 개체의 임의의 다른 기지 표현형에 의해 부분적으로 결정될 수 있다. 이러한 기지의 개체 특징을 기초로 하는 규칙을 만들고 현행 규칙에 통합시켜, 변형된 규칙을 제공할 수 있다. 적용되는 변형된 규칙의 선택은 개체의 특이적인 개체 인자에 따라 좌우된다. 예를 들어, 규칙은 개체가 유전자형 E를 갖는 경우 표현형 E를 갖는 개체가 35%인 확률을 기초로 할 수 있다. 그러나, 개체가 특정 인종인 경우, 확률은 5%이다. 새로운 규칙은 이러한 결과를 기초로 생성되어 그러한 특정 인종의 개체에게 적용될 수 있다. 다르게, 35%의 결정값을 갖는 현행 규칙을 적용하고, 이후 그 표현형에 대한 인종을 기초로 하는 다른 규칙을 적용한다. 기지의 개체 특징을 기초로 하는 규칙은 과학 문헌으로부터 결정하거나 또는 저장된 게놈 프로파일의 연구결과를 기초로 결정할 수 있다. 새로운 규칙을 개발함에 따라, 게놈 프로파일에 새로운 규칙을 부가하여 적용하거나, 또는 주기적으로 예컨대 1년에 1회 이상 적용할 수 있다.
또한 기술 진보가 보다 뛰어난 해상도 SNP 게놈 프로파일을 가능하게 하기 때문에 질환에 대한 개체의 위험성 정보가 확장될 수도 있다. 상기 나타낸 바와 같이, 초기 SNP 게놈 프로파일은 500,000 SNP를 스캐닝하는 마이크로어레이 기법을 이용해 쉽게 생성시킬 수 있다. 일배수체 블록의 성질이 주어지면, 이러한 숫자는 개체 게놈 내 모든 SNP의 대표적인 프로파일을 감안한 것이다. 그럼에도 불구하고, 인간 게놈에 흔해 존재하는 것으로 추정되는 대략 10백만 SNP가 존재한다(the International HapMap Project; www.hapmap.org). 기술적 진보가 보다 향상된 상세 수준에서, 예컨대 1,000,000, 1,500,000, 2,000,000, 3,000,000 또는 그 이상의 SNP의 마이크로어레이, 또는 전체 게놈 서열분석으로 실용적이고, 비용 효율적인 SNP 해상도를 허용하기 때문에, 보다 상세한 SNP 게놈 프로파일을 생성할 수 있다. 유사하게, 보다 뛰어난 SNP 게놈 프로파일의 비용 효율적 분석, 및 SNP-질환 상관관계에 대한 마스터 데이타베이스의 업데이트는 컴퓨터를 이용한 분석 방법론의 진보로 가능해 진다.
일부 구체예에서, "필드-배치(field-deployed)" 메카니즘을 개체로부터 모으고, 각 개체에 대한 표현형 프로파일에 통합시킬 수 있다. 예를 들어, 개체는 유전자 정보를 기초로 생성된 초기 표현형 프로파일을 가질 수 있다. 생성된 초기 표현형 프로파일은 상이한 표현형에 대한 위험 인자를 비롯하여, 개인 활동 계획에 보고된, 추천 치료법 또는 예방책을 포함한다. 이 프로파일은 일정 병태에 대해 이용가능한 의학 정보, 및/또는 식이 변화 또는 운동 요법에 대한 추천안을 포함할 수 있다. 개체는 그들의 표현형 프로파일을 논의하기 위해, 웹포탈 또는 전화, 의사 또는 유전자 상담사를 통해 접촉하거나, 또는 보는 것을 선택할 수 있다. 개체는 일정한 활동 과정을 선택하기로 결정할 수 있는데, 예를 들어 특정 약물의 복용, 식이 변화, 및 그들의 개인 활동 계획에 추천된 다른 가능한 행동을 선택하기로 결정할 수 있다. 다음으로, 개체는 그들의 신체 상태 변화 및 위험 인자의 가능한 변화를 평가하기 위해 생물학적 샘플을 후속 제출할 수 있다.
개체는 게놈 프로파일 및 표현형 프로파일을 생성하는 시설(또는 관련 시설, 예컨대 유전자 프로파일 및 표현형 프로파일을 생성하는 독립체가 계약한 시설)에 생물학적 샘플을 직접 제출하여 결정된 변화를 가질 수 있다. 다르게, 개체는 "필드-배치" 메카니즘을 이용할 수 있는데, 여기서 개체는 그들의 집에서 검출 장치에 그들의 타액, 혈액 또는 다른 생물학적 샘플을 제출하고, 제3자가 분석하여, 데이타를 전송해 다른 표현형 프로파일에 통합되게 할 수 있다. 예를 들어, 개체는 심근경색(MI)에 대해 높은 생애 위험성을 갖는다고 보고된 그들의 유전자 데이타를 기초로 하는 초기 표현형 보고서를 받았을 수 있다. 이 보고서는 또한 MI 위험성을 감소시키기 위한 예방책에 대한 추천안, 예컨대 콜레스테롤 강하 약 및 식이 변화를 보고할 수 있다. 개체는 유전자 카운셀러나 의사와 접촉하는 것을 선택하여 그 보고서 및 예방책을 논의하고 그들 식이를 변화시키고자 결심할 수 있다. 새로운 식이 기간 이후, 개체는 그들 주치의를 방문하여 콜레스테롤 수치를 측정할 수 있다. 새로운 정보(콜레스테롤 수치)를 게놈 정보를 갖는 독립체에 전송(예를 들어, 인터넷을 통해)하고, 이러한 새로운 정보를 이용하여, 심근경색, 및/또는 다른 병태에 대한 새로운 위험 인자를 갖는, 개체에 대한 새로운 표현형 프로파일을 생성시킨다.
개체는 또한, "필드-배치" 메카니즘, 또는 직접 메카니즘을 이용하여, 특정 약물에 대한 그들의 반응을 측정할 수 있다. 예를 들어, 개체는 약물에 대한 반응을 측정받고, 그 정보를 이용하여 보다 효과적인 치료법을 결정할 수 있다. 측정가능한 정보는, 이에 제한되는 것은 아니고 대사물질 수치, 포도당 수치, 이온 수준(예를 들어, 칼슘, 나트륨, 칼륨, 철), 비타민, 혈액 세포 계측치, 체질량 지수(BMI), 단백질 수치, 전사체 수지, 심박수 등을 포함하고, 용이하게 이용가능한 방법으로 측정할 수 있으며, 알고리즘에 대입하여 초기 게놈 프로파일과 조합해서 변형된 전체 위험성 추정값을 결정할 수 있다. 위험성 추정값이 GCI 스코어일 수 있다.
유전자 복합 지수(
GCI
)
일부 구체예에서, 복수의 유전자 마커 또는 변이체와 1 이상의 질환 또는 질병의 연관성에 대한 정보를 조합하고 분석하여 유전자 복합 지수(Genetic Composite Index)(GCI) 스코어를 생성시킨다. 예를 들어, GCI 스코어는 표현형에 대한 상이한 유전자 변이체의 존재 또는 부재로부터의 1 이상의 승산비 또는 상대 위험율을 통합할 수 있다. GCI 스코어는 다양한 유전자 변이체로부터 적어도 2, 3, 4, 5, 6, 7, 8, 9, 또는 10 승산비 또는 상대 위험율을 통합할 수 있다.
이 스코어는 알려진 위험 인자뿐만 아니라, 다른 정보 및 가정 예컨대 대립유전자 빈도 및 질환 유병률을 통합한다. GCI를 사용하여 일련의 유전자 마커의 조합 효과와 질환 또는 병태의 연관성을 정량적으로 추정할 수 있다. GCI 스코어를 사용하여 유전학에 대한 정규 교육을 받지 않은 사람들에게 그들 개체의 질환 위험성을 현재의 과학 연구를 기초로 관련 개체군과 비교한 신뢰할만한(즉, 견고한), 이해가능하고/하거나 직관적인 센스를 제공할 수 있다.
GCI 스코어를 이용하여 GCI 플러스 스코어를 생성시킬 수 있다. 본원에 개시된 방법은 GCI 스코어를 이용하는 것을 포함하며, 당분야의 숙련가는 본원에 기술된 GCI 스코어 대신, GCI 플러스 스코어 또는 이의 변형어의 사용을 용이하게 인식하게 된다. GCI 플러스 스코어는 위험율(예컨대 생애 위험율), 연령 제한 유병률, 및/또는 연령 제한 병태 발병률을 포함한, 모든 GCI 가정을 포함할 수 있다. 개체에 대한 생애 위험성은 이후 평균 GCI 스코어로 나눈 개체의 GCI 스코어에 비례하는 GCI 플러스 스코어로서 계산할 수 있다. 평균 GCI 스코어는 유사한 조상 배경의 개체군, 예를 들어 코카서스군, 아시아군, 동인도군, 또는 공통의 조상 배경을 갖는 다른 개체군으로부터 결정될 수 있다. 개체군들은 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 또는 60 개체를 포함할 수 있다. 일부 구체예에서, 평균은 적어도 75, 80, 95, 또는 100 개체로부터 결정할 수 있다. GCI 플러스 스코어는 개체에 대한 GCI 스코어를 결정하고, 평균 관련 위험율로 GCI 스코어를 나누고 병태 또는 표현형에 대한 생애 위험율을 곱하여, 결정할 수 있다. 예를 들어, 미국 공개 특허 출원 제20080131887호 및 PCT 공개 출원 제WO/2008/067551호의 데이타를 이용해서, 개체에 대한 GCI 또는 GCI 플러스 스코어를 결정할 수 있다. 이들 스코어를 사용하여 개체의 표현형 프로파일에서 1 이상의 병태에 대한 유전자 위험성, 예컨대 추정 생애 위험성과 관련된 정보를 생성할 수 있다. 방법은 1 이상의 표현형 또는 병태에 대한 추정 생애 위험성 또는 관련 위험성을 산출가능하게 한다. 단일 병태에 대한 위험성은 1 이상의 SNP를 기초로 할 수 있다. 예를 들어, 표현형 또는 병태에 대한 추정 위험성은 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 또는 12 SNP를 기초로 할 수 있고, 여기서 위험성을 추정하기 위한 SNP는 공개된 SNP, 테스트 SNP, 또는 둘 모두일 수 있다.
GCI 스코어는 관심있는 각 질환 또는 병태에 대해 생성시킬 수 있다. 이들 GCI 스코어를 수집하여 개체에 대한 위험성 프로파일을 형성시킬 수 있다. GCI 스코어를 디지탈로 저장하여 임의 시점에 용이하게 접근하여 위험성 프로파일을 생성시킬 수 있다. 위험성 프로파일은 광범위한 질환 부류, 예컨대 암, 심장 질환, 대사 질환, 정신 질환, 골 질환 또는 연령 개시 질환 등으로 분류될 수 있다. 광범위한 질환 부류를 하위카테고리로 더욱 세분화할 수 있다. 예를 들어, 암 등의 광범위한 부류에 대해, 암의 하위카테고리를 유형(육종, 암종 또는 백혈병 등), 또는 조직 특이성(신경, 유방, 난소, 고환, 전립선, 뼈, 림프절, 췌장, 식도, 위, 간, 뇌, 폐, 신장 등) 등에 의해 열거할 수 있다. 또한 위험성 프로파일은 개체 연령 또는 다양한 위험 인자가 조정됨에 따라 어떻게 GCI 스코어가 변화될 것으로 예상되는지에 대한 정보를 보여줄 수 있다. 예를 들어, 특정 질환에 대한 GCI 스코어는 식이 변화 또는 선택된 예방책(금연, 약물 섭취, 양쪽 근원 유방절제술, 자궁절제술 등)의 효과를 고려할 수 있다.
GCI 스코어를 개체에 대해 생성시키고, 개체들에게 1 이상의 질환 또는 병태를 개체가 획득할 위험성 또는 이에 대한 감수성에 관해 쉽게 이해되는 정보를 제공한다. 1 이상의 GCI 스코어는 단일 질환 또는 병태, 또는 다양한 질환 또는 병태에 대해 생성될 수 있다. 이러한 1 이상의 GCI 스코어는 온라인 포탈로 접근할 수 있다. 다르게, 1 이상의 GCI 스코어는 종이 문서 형태로 제공될 수 있고, 이후 업데이트도 문서 형태로 제공될 수 있다. 이러한 문서 형태는 개체에게 또는 그들의 건강 관리자에게 메일로 발송되거나 또는 직접 제공할 수 있다.
상이한 유전자좌의 조합 효과에 대한 견고한 GCI 스코어를 생성하는 방법은 연구된 각 유전자좌에 대해 보고된 개체 위험성을 기초로 할 수 있다. 예를 들어, 관심있는 질환 또는 병태를 확인한 후 이에 제한되는 것은 아니고, 데이타베이스, 공개 특허 및 과학 문헌을 포함하는 정보원을 1 이상의 유전자좌와 질환 상태의 연관성에 대한 정보를 위해 문의한다. 이러한 정보원은 품질 기준을 이용해 체계화되어 평가된다. 일부 구체예에서, 평과 과정은 복수 단계를 포함한다. 다른 구체예에서, 정보원은 복수의 품질 기준에 대해 평가된다. 정보원에서 유래된 정보를 이용해 관심있는 각 질환 또는 병태에 대한 1 이상의 유전자좌에 대한 승산비 또는 관련 위험율을 확인한다.
대안적인 구체예에서, 1 이상의 유전자좌에 대한 승산비(OR) 또는 관련 위험율(RR)은 정보원으로부터 입수가능하지 않거나 또는 접근가능하지 않다. 다음으로 RR은 (1) 동일 유전자좌의 복수 대립유전자에 대해 보고된 OR, (2) 데이타 세트, 예컨대 HapMap 데이타 세트로부터의 대립유전자 빈도, 및/또는 (3) 관심있는 모든 대립유전자의 RR을 유도하기 위한 이용가능한 공급원(예를 들어, CDC, 국립 건강 통계 센터 등)으로부터의 질환/병태 유병률을 이용해 산출된다. 일 구체예에서, 동일 유전자좌의 복수 대립유전자에 대한 OR은 개별적으로 또는 독립적으로 추정한다. 바람직한 구체예에서, 동일 유전자좌의 복수 대립유전자에 대한 OR을 조합하여 상이한 대립유전자의 OR 간 의존도를 산정한다. 일부 구체예에서, 확립된 질환 모델(이에 제한되는 것은 아니고, 예컨대 승법적, 부가적, 하버드-변형 우성 효과 등의 모델을 포함)을 이용해 선택된 모델에 따라 개체의 위험율을 나타내는 중간 스코어를 생성시킨다.
사용할 수 있는 방법은 관심있는 질환 또는 병태에 대한 복수 모델을 분석하고 이러한 상이한 모델로부터 획득된 결과를 상관관계지을 수 있으며; 따라서 특정 질환 모델 선택으로 인해 포함될 수 있는 가능한 오차를 최소화한다. 이 방법은 상대적 위험율의 산출치에 대한 정보원에서 획득된 OR, 대립유전자 빈도, 및 유병률의 추정치에 있어 타당한 오차 영향을 최소화한다. 이론에 제한없이, RR에 대한 유병률 추정치 효과의 "선형성" 또는 단조성때문에, 최종 등급 스코어에 대한 유병률을 부정확하게 추정하는 영향은 거의 없거나 전혀 없으며; 단 보고서가 생성되는 모든 개체에 대해 동일 모델을 일관적으로 적용한다.
본원에 기술된 방법은 또한 부가적인 "유전자좌"로서 환경/행동/인구 데이타를 고려할 수 있다. 관련 방법에서, 이러한 데이타는 정보원, 예컨대 의학 또는 과학 문헌 또는 데이타베이스(예를 들어, 흡연과 페암의 연관성, 또는 보험 업계의 건강 위험 평가 등)으로부터 획득될 수 있다. 또한, 본원은 1 이상의 복합 질환에 대해 생성된 GCI 스코어를 개시한다. 복합 질환은 복수의 유전자, 환경 요인, 및 그들의 상호작용에 의해 영향을 받을 수 있다. 복합 질환을 연구시 상당수의 가능한 상호작용을 분석할 필요가 있을 수 있다. 복수 비교에 대한 보정을 위해 사용되는 절차, 예컨대 본페로니 보정법을 사용하여 GCI 스코어를 생성시킬 수 있다. 다르게, Simes 테스트는 이 테스트가 독립적이거나 또는 특정 유형의 의존도를 나타내는 경우 전반적인 유의도("족별 오차율(familywise error rate)"이라고도 알려짐)를 제어하는데 사용될 수 있다(Sarkar S., Ann Stat 26:494-504 (1998)). Simes 테스트는 모든 K 테스트-특이적 귀무가설이 1,...,K 중 임의의 k에 대해 p (k) ≤αk/K면 참인 대역 귀무가설을 거부한다(Simes , R. J., Biometrika 73:751-754 (1986)).
복수-유전자 및 복수-환경 인자 분석에서 사용할 수 있는 다른 구체예는 거짓-발견률, 즉 거짓으로 거부되어진 거부된 귀무가설의 예상 비율을 제어한다. 이러한 접근법은 마이크로어레이 연구에서처럼, 귀무가설의 일부가 거짓으로 추정될 수 있을 때 특히 유용할 수 있다. 문헌 [Devlin et al. ( Genet . Epidemiol . 25:36-47 (2003))은 복수 유전자좌 연관성 연구에서 많은 수의 가능한 유전자 ×유전자 상호작용을 테스트할 경우 거짓-발견률을 제어하는 Benjamini과 Hochberg(J. R. Stat . Soc . Ser . B 57:289-300 (1995))의 셋업 절차의 별법을 제안하였다. Benjamini과 Hochberg의 절차는 Simes 테스트와 관련되며; p (k) ≤αk/K이도록 k * =maxk를 설정하고, p(1),...,p( k * )에 상응하는 모든 k * 귀무가설을 거부한다. 사실, Benjamini과 Hochberg의 절차는 모든 귀무가설이 참일 때 Simes 테스트로 축소된다(Benjamini and Yekutieli , Ann . Stat . 29:1165-1188 (2001)).
본원에서는 개체의 등급을 제공하고, 여기서 개체는 그들의 중간 스코어를 기초로 개체 모집군과 비교하여 등급이 매겨져 최종 등급 스코어가 산출되는데, 이는 모집군 내 등급으로서 나타내어질 수 있으며, 예컨대 99번째 백분위수 또는 99번째, 98번째, 97번째, 96번째, 95번째, 94번째, 93번째, 92번째, 91번째, 90번째, 89번째, 88번째, 87번째, 86번째, 85번째, 84번째, 83번째, 82번째, 81번째, 80번째, 79번째, 78번째, 77번째, 76번째, 75번째, 74번째, 73번째, 72번째, 71번째, 70번째, 69번째, 65번째, 60번째, 55번째, 50번째, 45번째, 40번째, 40번째, 35번째, 30번째, 25번째, 20번째, 15번째, 10번째, 5번째, 또는 0번째 백분위수로서 나타낼 수 있다. 이러한 등급 스코어는 등급, 예컨대 100번째 내지 95번째 백분위수, 95번째 내지 85번째 백분위수, 85번째 내지 60번째 백분위수, 또는 제100번째 내지 0번째 백분위수 사이의 임의의 하위 등급으로서 나타낼 수 있다. 개체는 또한 사분위수로 등급화될 수 있는데, 예컨대 상위 75번째 사분위수, 또는 최하 25번째 사분위수 등으로 나타낼 수 있다. 개체는 또한 모집군의 평균 또는 평균 스코어와 비교하여 등급화될 수 있다.
일 구체예에서, 개체를 비교하는 모집군은 다양한 지리 및 인종 배경, 예컨대 세계 모집군으로부터의 다수의 사람들을 포함한다. 다르게, 개체를 비교하는 모집군은 특정 지리, 조상, 인종, 성별, 연령(예를 들어, 태아, 신생아, 아동, 청소년, 십대, 성인, 노인), 또는 질병 상태(예를 들어, 증상 있음, 무증상, 보균자, 초기 발병, 후기 발병 등)에 제한적이다. 일부 구체예에서, 개체를 비교하는 모집군은 공공 및/또는 개인 정보원에서 보고된 정보로부터 유래된다.
GCI 스코어는 복수 단계 절차를 이용해 생성시킬 수 있다. 예를 들어, 초기에, 연구하려는 각 병태에 대해, 각 유전자 마커에 대한 승산비로부터의 상대 위험율을 계산한다. 모든 유병률 값 p=0.01,0.02,...,0.5에 대해, HapMap CEU 모집군의 GCI 스코어를 유병률 및 HapMap 대립유전자 빈도를 기초로 계산한다. GCI 스코어가 다양한 유병률 하에서 불변이면, 고려된 유일한 가정은 승법 모델이 존재한다는 것이다. 그렇지 않으면, 이 모델이 유병률에 민감하다는 것을 결정한다. 비호출 값의 임의의 조합에 대해, HapMap 모집군에서의 상대적 위험율 및 스코어 분포도를 얻는다. 각각의 새로운 개체에 대해, 개체의 스코어를 HapMap 분포와 비교하고 최종 스코어가 이 모집군 내 개체의 등급이다. 보고된 스코어의 해상도는 절차 중에 만든 가정으로 인해 낮을 수 있다. 모집군을 사분위수(3-6빈)로 분배하게 되며, 보고된 빈은 개체 등급이 속하는 그 빈일 수 있다. 빈의 갯수는 예컨대 각 질환에 대한 스코어의 해상도 등의 고려사항을 기초로 상이한 질환에 대해 다를 수 있다. 상이한 HapMap 개체의 스코어 간 타이의 경우, 평균 등급이 사용된다.
높은 GCI 스코어는 질환 또는 병태를 획득하거나 또는 진단받을 고위험성 징후로서 해석될 수 있다. 대체로 수학 모델을 사용하여 GCI 스코어를 얻는다. GCI 스코어는 모집군 및/또는 질환 또는 병태에 대한 근원적인 정보의 불완전한 성질을 고려한 수학 모델을 기초로 할 수 있다. 수학 모델은 GCI 스코어를 계산하기 위한 기준의 일부로서 1 이상의 가정을 포함할 수 있으며, 여기서 가정은 이에 제한되는 것은 아니고, 승산비 값이 주어진 가정; 병태의 유병률이 알려진 가정; 모집군 내 유전자형 빈도가 알려진 가정; 및/또는 고객이 연구를 위해 이용되는 모집군 및 HapMaP와 동일한 조상 배경에서 유래한다는 가정; 통합된 위험성이 개별 유전자 마커의 상이한 위험 인자의 산출값이라는 가정을 포함한다. GCI는 또한 유전자의 복수-유전자형 빈도가 개별 유전자 마커 또는 SNP 각각의 대립유전자 빈도의 산출값이라는 가정을 포함한다(예를 들어, 상이한 SNP 또는 유전자 마커는 모집군 전반에서 독립적임).
승법 모델
GCI 스코어는 유전자 마커 세트에 기인한 위험율이 개체 유전자 마커에 기인하는 위험율의 산출값이라는 가정하에 산정될 수 있다. 따라서, 상이한 유전자 마커가 다른 유전자 마커와 독립적으로 질환 의험도에 기여한다. 공식적으로, 위험 대립유전자 및 비위험 대립유전자 가 있는 k 유전자 마커가 존재한다. SNP i에서, 3개의 가능한 유전자형 값은 및 로서 표시한다. 개체의 유전자형 정보는 벡터,로 설명할 수 있는데, 여기서 는 위치 i에서의 위험 대립유전자의 갯수에 따라, 0, 1, 또는 2일 수 있다. 로 표시되는 경우, 위치 i에서의 이형접합 유전자형의 상대적 위험율은 동일 위치에서의 동형접합 비위험 대립유전자와 비교하였다. 다시 말해서, 이다. 유사하게, 유전자형의 상대적 위험율은 로서 표시한다. 승법 모델에서, 유전자형 를 갖는 개체의 위험율은 이라는 가정이다.
상대 위험율 추정
다른 구체예에서, 상이한 유전자 마커에 대한 상대 위험율은 알려져 있고 승법 모델을 위험율 평가를 위해 사용할 수 있다. 그러나, 연관성 연구를 포함하는 일부 구체예에서, 연구 디자인은 관련 위험율의 보고를 막는다. 환자-대조군 연구에서, 상대 위험율은 추가 가정없이 데이타로부터 직접 계산될 수 없다. 관련 위험율을 보고하는 대신, 관례적으로, 유전자형의 승산비(OR)을 보고하는데, 이는 위험 유전자형이 주어진 질환을 보유하지 않을 승산에 비해 위험 유전자형( 또는 )이 주어진 질환을 보유하는 승산이다. 공식적으로, 다음과 같다.
승산비로부터 상대 위험율의 계산은 부가적인 가정을 필요로 할 수 있다. 전체 모집군에서 대립 유전자 빈도 , 및 은 기지이거나 또는 추정(이들은 120 염색체를 포함하는 HapMap 데이타세트 등과 같은 현행 데이타세트로부터 추정할 수 있음)되고/되거나 질환의 유병률 이 기지라는 가정 등이다. 선행하는 3 방정식을 유도할 수 있다:
상대 위험율의 정의에 따라, 이를 나눈 후에, 제1 방정식은 다음과 같이 다시 쓸 수 있다;
그에 따라, 마지막 2 방정식은 다음과 같이 다시 쓸 수 있다:
a=1(비위험 대립유전자 빈도가 1임)일 때, 방정식 시스템 (1)은 문헌 [Zhang and Yu (JAMA , 280:1690-1691 (1998))]의 Zhang 및 Yu의 식과 동등하고, 이 문헌을 전체로 참조하여 포함시킨다. Zhang과 Yu의 식과 대조적으로, 일부 구체예는 상대 위험율에 영향을 줄 수 있는, 모집군내 대립유전자 빈도를 고려한다. 또한, 일부 구체예는 각각의 상대 위험율을 독립적으로 산정하는 것과 대조적으로, 상대 위험율의 상호의존도를 고려한다.
방정식 시스템 (1)은 4개의 가능한 해결안과 함께, 2개의 이차 방정식으로 재작성할 수 있다. 이 방정식을 풀기 위해 기울기 하강 알고리즘을 사용할 수 있고, 여기서 출발점은 승산비, 예를 들어 , 및 이도록 설정한다.
예를 들면;
따라서,
이러한 예에서, 이들 방정식은 a, b, c,p, OR 1 , 및 OR 2 의 상이한 값에 대한 정확한 해법을 제공한다.
상대
위험율
추정치의 견고성
일부 구체예에서, 상대 위험율의 추정치에 대한 상이한 매개변수(유병률, 대립유전자 빈도, 및 승산비 오차)의 영향을 측정한다. 상대 위험율 값에 대한 대립유전자 빈도 및 유병률 추정치의 효과를 측정하기 위해, 상이한 대립유전자 빈도 및 상이한 승산비 값 세트로부터 상대 위험율을 산정하고(HWE 하에), 이들 산정 결과는 0 내지 1 범위의 유병률 값에 대해 그래프를 그린다. 부가적으로, 유병률의 고정값에 대해, 최종적인 상대 위험율은 위험-대립유전자 빈도 함수에 따라 그래프를 그릴 수 있다. p=0이면, λ1 = OR 1 , 및 λ2 = OR 2 이고, p=1이면, λ1=λ2=0이다. 이는 상기 방정식에서 직접 산정할 수 있다. 부가적으로, 일부 구체예에서, 위험 대립유전자 빈도가 높은 경우, 은 선형 함수에 가까워지고, 는 바운딩된 제2 도함수에 따라 오목함수에 가까워진다. 극한에서, c=1면, , 및 이다. 이면, 후자는 역시 선형 함수에 가깝다. 위험 대립유전자 빈도가 낮은 경우, 및 는 함수 1/p의 양태에 다가간다. 극한에서, c=0일때, 이다. 이는 높은 위험 대립유전자 빈도에 대해, 유병률의 부정확한 추정치가 최종적인 상대 위험율에 유의하게 영향을 미치지 않는다는 것을 의미한다. 또한, 낮은 위험 대립유전자 빈도에 대해, 의 유병률 값이 정확한 유병률 p로 치환되면, 최종적인 상대 위험율은 최대로 배 만큼 떨어지게 된다.
GCI
스코어 계산
일 구체예에서, GCI는 관련 모집군을 나타내는 기준 세트를 이용하여 계산한다. 이러한 기준 세트는 HapMap에서의 모집군 중 하나이거나, 또는 다른 유전자형 데이타세트일 수 있다.
이러한 구체예에서, GCI는 다음과 같이 산정된다: k 위험 유전자좌 각각에 대해, 상대 위험율은 방정식 시스템 (1)을 이용하여 승산비로부터 계산하거나 또는 이하에 기술한 바와 같이 계산한다. 다음으로, 모든 유전자좌에 대한 상대 위험율의 값인, 기준 세트 내 각 개체에 대한 승법 스코어를 계산한다. 승법 스코어는 내포적으로 상이한 SNP들이 질환 또는 병태에 대해 독립적인 효과를 가지지만, 이 모델은 일부 상호작용이 기지인 환자사례로 확대할 수 있다고 가정된다. s의 승법 스코어를 갖는 개체의 GCI는 s'≤s의 스코어를 갖는 기준 데이타세트에서의 모든 개체의 분율이다. 예를 들어, 기준 세트에서의 개체 50%가 s 보다 작은 승법 스코어를 가지면, 개체의 최종 GCI 스코어는 0.5이다. GCI는 승산비 또는 상대 위험율이 상이한 유전자형 또는 일배체형 조합(이들은 일부 경우에 있어 문헌에서 확인할 수 있음)에 대해 알려져 있다면 SNP-SNP 상호작용을 설명하기 위해 일반화될 수 있다.
본원에 기술한 바와 같이, 승법 모델을 GCI 스코어에서 사용할 수 있지만, 다른 모델을 GCI 스코어 결정을 위한 목적으로 사용할 수 있다. 다른 적절한 모델은 이에 제한되지 않으나, 다음의 모델들을 포함한다;
하버드 변형 스코어( Harvard Modified Score )( Het ). 이 스코어는 문헌 [Colditz et al.(Cancer Causes and Controls, 11:477-488 (2000))]에서 유도되었고, 이 문헌을 전체로 참조하여 본원에 포함시킨다. 함수 f가 상대 위험율 대신 승산비 값에 대해 운용되지만, Het 스코어는 실질적으로 일반화 가법 스코어이다. 이 스코어는 상대 위험율을 추정하기 어려운 경우에 유용할 수 있다. 함수 f를 정의하기 위해, 중간 함수 g는 하기와 같이 정의된다:
다음으로, 양 을 계산하며, 여기서 는 기준 모집군 전반의 SNP i에서 이종접합성 개체의 빈도이다. 다음으로 함수 f는 f(x)=g(x)/het로 정의하며, 하버드 변형 스코어(Het)는 간단히 로서 정의한다.
하버드 변형 스코어(Harvard Modified Score )( Hom ). 이 스코어는 het 값이 값으로 대체된다는 것을 제외하고는 Het 스코어와 유사하며, 여기서 는 동형접합성 위험 대립유전자를 갖는 개체의 빈도이다.
최대 승산비 . 이 모델에서는, 유전자 마커 중 하나(최대 승산비를 갖는 것)가 전체 패널의 조합 위험율에 대해 보다 낮은 한계를 제공하는 것으로 가정한다. 공식적으로, 유전자형 을 갖는 개체의 스코어는 이다.
스코어 간 비교는 실시예 1에 기술하였고, GCI 스코어 평가는 실시예 2에 기술하였다.
임의
갯수의
변이체로
모델 확대
이 모델은 임의 수의 가능한 변이체가 존재하는 상황으로 확대될 수 있다. 이전의 고려사항은 3종의 가능한 변이체(nn,nr,rr)가 존재하는 상황을 다루었다. 일반적으로, 복수-SNP 연관성이 알려진 경우, 임의 갯수의 변이체가 모집군 중에서 발견될 수 있다. 예를 들어, 2개의 유전자 마커간 상호작용이 병태와 연관된 경우, 9종의 가능한 변이체가 존재한다. 이러한 결과 8가지의 상이한 승산비 값이 생긴다.
초기 식을 일반화하기 위해, k+1 가능한 변이체 , 빈도 , 측정된 승산비 1, , 및 미지의 상대 위험율 값 1, 이 존재한다고 가정할 수 있다. 또한, 모든 상대 위험율 및 승산비는 에 대해 측정되며, 따라서, , 및 이다. 다음을 기초로 한다: ,
이는 다음을 결정한다:
후자는 변수(C)가 하나인 방정식이다. 이 방정식은 수많은 다양한 해법(특히, 최대 k+1 상이한 해법)을 산출할 수 있다. 표준 최적화 도구 예컨대 기울기 하강을 사용하여 에 가장 근접한 해법을 찾을 수 있다.
본원에서는 또한 위험 인자의 정량화를 위한 견고한 등급화 체계를 제공한다. 상이한 유전자 모델이 상이한 스코어를 산출할 수 있지만, 그 결과들은 일반적으로 상호관련있다. 따라서, 위험 인자의 정량화는 일반적으로 사용되는 모델에 의존적이지 않다.
상대 위험율 환자 대조군 연구 추정
환자-대조군 연구에서 복수 대립유전자의 승산비로부터 상대 위험율을 추정하는 방법을 또한 본원에 개시한다. 이전의 접근법과는 대조적으로, 이 방법은 대립유전자 빈도, 질환의 유병률, 및 상이한 대립유전자의 상대 위험율 간 의존도를 고려한다. 모의-대조군 연구에 대한 접근법의 성능을 측정하였고, 매우 정확하다는 것을 확인하였다.
방법
특이적 SNP를 질환 연관성에 대해 테스트하는 경우, D, R 및 N은 이러한 특정 SNP의 위험 및 비위험 대립유전자를 표시한다. P(RR|D), P(RN|D) 및 P(NN|D)는 개체가 각각 위험 대립유전자, 비위험 대립유전자에 대한 이형접합, 또는 동형접합이라면 질환에 의해 영향받게되는 확률을 표시한다. fRR,fRN 및 fNN는 모집군에서 3종 유전자형의 빈도를 표시하는데 사용된다. 이들 정의를 사용하여, 상대 위험율은 다음과 같이 정의된다.
환자-대조군 연구에서, 값 P(RR|D), P(RR|∼D), 즉, 환자와 대조군 간 RR의 빈도를 비롯하여, P(RN|D), P(RN|∼D), P(NN|D), 및 P(NN|∼D), 즉, 환자와 대조군 간 RN 및 NN 빈도를 추정할 수 있다. 상대 위험율을 추정하기 위해, Bayes 법칙을 이용해 다음을 얻을 수 있다:
따라서, 유전자형의 빈도를 알고 있다면, 그것을 사용하여 상대 위험율을 계산할 수 있다. 모집군내 유전자형 빈도는 환자-대조군 연구 자체로부터는 계산할 수 없는데, 모집군 내 질환 유병률에 의존적이기 때문이다. 구체적으로, 질환의 유병률이 p(D)라면, 다음과 같다:
p(D)가 충분히 작은 경우, 유전자형의 빈도는 대조군 모집군에서의 유전자형 빈도에 의해 근사치로 계산할 수 있지만, 유병률이 높을 때는 정확한 추정치가 될 수 없다. 그러나, 기준 데이타세트(예를 들어, HapMap [cite])가 주어지면, 이 기준 데이타세트를 기초로 유전자형 빈도를 추정할 수 있다.
가장 최근의 연구들은 기준 데이타세트를 이용해 상대 위험율을 추정않고, 단지 승산비만 보고한다. 승산비는 다음과 같이 쓸 수 있다:
통상 승산비를 계산하기 위해 필요한 것이 환자와 대조군에서의 유전자형 빈도이지만, 일반적으로 모집군 내의 대립유전자 빈도의 추정치를 가질 필요가 없기 때문에 상기 승산비는 대체로 유리하다.
일부 상황에서, 유전자형 데이타 자체는 이용가능하지 않지만, 요약 데이타, 예컨대 승산비는 이용가능하다. 이는 메타분석이 이전의 환자-대조군 연구 결과를 기초로 수행되는 경우이다. 이러한 경우에서, 승산비로부터 상대 위험율을 어떻게 확인하는지 입증한다. 다음의 방정식이 유지된다는 사실을 이용한다:
이 방정식이 P(D|NN)로 나누어지면, 다음 식이 얻어진다.
이에 따라 승산비는 하기 방식으로 작성가능하다;
유사한 계산으로, 하기 방정식 시스템이 얻어진다;
(방정식 1)
승산비, 모집군에서의 유전자형 빈도, 질환의 유병률을 안다면, 상대 위험율은 이러한 방정식 세트를 풀어 찾을 수 있다.
이들은 2종의 2차 방정식이므로, 최대 4개 해법을 갖는다는 것을 주의한다. 그러나, 이하에 나타낸 바와 같이, 대체로 이 방정식에 대해 하나의 가능한 해법이 존재한다.
fNN = 1일때, 방정식 시스템 (1)은 Zhang과 Yu의 식과 동등하지만; 여기서는 모집군에서의 대립유전자 빈도를 고려한다는 것을 주의한다. 또한, 본원의 방법은 2개의 상대 위험율이 서로 의존적이라는 사실을 고려하는 반면, 이전 방법들은 각각의 상대 위험율을 독립적으로 산정하도록 제안한다.
복수-대립유전자 유전자좌에 대한 상대 위험율. 복수-마커 또는 다른 복수-대립유전자 변이체를 고려한다면, 계산이 약간 복잡하다. 는 가능한 k+1 대립유전자를 표시하는 것이며, 여기서 a0는 비위험 대립유전자이다. k+1의 가능한 대립유전자에 대한 모집군에서의 대립유전자 빈도 를 가정한다. 대립유전자 i에 대해, 상대 위험율 및 승산비는 다음과 같이 정의된다:
하기 방정식이 질환 유병률에 대해 준비된다;
방정식의 양쪽을 p(D|a0)로 나누어 다음 식을 얻는다;
결과적으로 하기 식이 얻어진다:
이 식은 하나의 변수 C를 갖는 다항 방정식이다. C가 결정되면, 상대 위험율이 결정된다. 다항이 k+1 정도이므로, 최대로 k+1 해법을 가질 것으로 예상된다. 그러나, 방정식의 오른쪽이 C 함수에 따라 엄격하게 감소되므로, 대체로 이 방정식에 대해 오직 하나의 해법만이 존재할 수 있다. 다음으로, 2원 검색을 이용해 해법을 찾는데, 이 해법은 C=1 내지 에서 바운딩되기 때문이다.
상대 위험율 추정치의 견고성. 상대 위험율의 추정치에 대해 상이한 매개변수(유병률, 대립유전자 빈도, 및 승산비 오차) 각각의 효과를 측정하였다. 상대 위험율 값에 대한 대립유전자 빈도 및 유병률 추정치의 효과를 측정하기 위해, 상대 위험율은 일련의 상이한 승산비, 상이한 대립유전자 빈도로부터 계산하고(HWE 하에서), 이들 계산 결과를 0 내지 1 범위인 유병률 값에 대해 그래프화한다.
추가적으로, 고정된 유병률 값에 대해, 위험-대립유전자 빈도 함수에 따른 최종적인 상대 위험율을 그래프화한다. 분명하게, 모든 경우에서 p(D) = 0일 때, , 및 이고, p(D) = 1일때, 이다. 이는 방정식 1로부터 직접 산정할 수 있다. 부가적으로, 위험 대립유전자 빈도가 높으면, 는 선형 양태에 접근하고, 는 도출된 제2 도함수를 갖는 오목 함수에 접근한다. 위험-대립유전자 빈도가 낮은 경우, 및 은 함수 1/p(D)의 양태에 접근한다. 이는 높은 위험-대립유전자 빈도에 대해, 유병률의 잘못된 추정치가 대체로 최종 상대 위험율에 상당히 영향을 주지는 않는다는 것을 의미한다.
승산비 대 상대 위험율. 전염병학 문헌에서, 상대 위험율은 흔히 직관적이고 유용한 위험율 측정치로서 여겨진다. 그러나, 상대 위험율은 일반적인 환자-대조군 연구, 및 전체-게놈 연관성 연구와 관련하여 직접적으로 계산할 수 없다. 일반적으로 상대 위험율은 건강한 개체 세트를 장기간 연구하는 예상 연구를 통해 추정할 수 있다. 대조적으로, 승산비는 보통 환자-대조군 연구에서 보고된다. 승산비는 대조군 대비 환자군에서 위험 대립유전자를 보유할 승산간 비율이다. 희귀 질환에 대해, 승산비는 상대 위험율의 양호한 근사치이지만, 흔한 질환에 대해, 승산비는 오해할 만한 위험율 추정치를 산출할 수 있는데, 여기서 승산비는 위험율 증가가 적은편인 경우에도 꽤 높을 수 있다.
상대 생애 위험율 대 상대 위험율. 상대 위험율은 내포적으로, 어떠한 대조군도 현재 질환을 갖지 않는다고 가정한다. 이는 질환을 가질 확률을 추정할 때 관련있다. 그러나, 병태가 발병될 개체의 생애 위험성, 또는 생애 주기 전반에서의 위험율 추정에 관심이 있다면, 대조군 중 일부는 결국 질환이 발병된다는 사실을 고려한다. 상대 생애 위험율은 비위험 대립유전자를 보유하는 개체의 생애 전반에 걸쳐 병태가 발병될 위험율 및 위험 대립유전자 r을 보유하는 개체의 생애 전반에서 병태가 발병될 위험율 간 비율로서 정의된다. 이는 유병률 정보를 기초로 하는, 환자-대조군 연구에서의 상대 위험율의 표준 용도와는 다르다.
가능한 k+1 대립유전자를 로 표시하며, 여기서 a0은 비위험 대립유전자이다. k+1 가능한 대립유전자에 대한 모집군에서의 대립유전자 빈도 를 가정한다. 추가로 연구한 개체는 3 그룹; CA, Y, 및 Z으로 나뉠 수 있다고 가정한다. CA는 환자를 표시한 것이고, 반면 Y 및 Z는 대조군이다. Z로부터의 개체와 반대로, Y의 개체는 결국 병태가 발병되는 것으로 가정한다. 또한, CO는 Y와 Z의 조합을 표시하고, D는 Y와 CA의 조합을 표시한 것이다.|Y|=α|CO|=α(|Y|+|Z|)로 가정하며, 여기서 α는 그들의 생애 동안 병태가 발병될 대조군의 분율이다. α는 평균 생애 위험율에 의해 상방 바운딩된다. 가능하게, α는 대조군의 연량, 질환 개시 연령에 따라, 평균 수명 보다 작을 수 있다.
상대 위험율 및 승산비는 이제 다음과 같이 나타낼 수 있다:
승산비는 다음과 같이 작성될 수 있다:
제1 라인에서 제2 라인으로의 미분은 Bayes 법칙을 기초로 하였고, 반면 제3 라인은 CA 및 Y가 실질적으로 동일 모집군이고, 따라서 P(CA|ai) = P(Y|ai)라는 사실을 기초로 한다. 이제, P(Z|ai) = 1-P(CA|ai)라는 점을 이용해, 다음의 식을 얻는다:
GCI 를 기초로 한 생애 위험율 추정치. GCI는 실질적으로 모든 연관 SNP에 걸쳐 비위험 대립유전자를 갖는 개체와 비교한 개체의 상대 위험율을 제공한다. 개체의 생애 위험율을 계산하기 위해, 평균 생애 위험율을 갖는 개체의 생애 위험율 산출값을 얻을 수 있고, 이 산출값을 모집군 전반의 평균 생애 위험율로 나눈다. 이러한 계산은 상대 위험율 및 평균 생애 위험율의 정의와 일관된다. 평균 생애 위험율을 산정하기 위해, 모든 가능한 유전자형을 나열하고, 단일 SNP 각각에서 그 변이체의 상대 위험율 산출치로서 계산한 그 상대 위험율을 총계한다.
환경 유전 복합 지수(
EGCI
)
일부 구체예예서, 환경 인자를 GCI 스코어에 통합하여 환경 유전 복합 지수(EGCI) 스코어를 생성한다. EGCI 스코어는 컴퓨터를 통해 산출하거나 또는 결정할 수 있다. 환경 인자는 비유전 인자, 예컨대 이에 제한되는 것은 아니고, 식이 인자, 운동 습관에 의한 인자, 및 다른 생활방식 또는 개인적 선택, 예컨대 대인 관계, 작업 및 가정 조건 등을 포함한다. 예를 들어, 흡연(흡연 빈도 및/또는 흡연량, 니코틴 섭취 정도 등), 약물 사용(약물 사용 빈도, 양, 유형 등), 및 알콜 섭취(예를 들어, 섭취량 및 빈도 등)가 EGCI 스코어를 생성하기 위해 GCI 스코어에 통합되는 환경 인자일 수 있다. 다른 환경 인자는 음식 유형, 양 및 섭취 빈도를 포함할 수 있다. 다른 인자는 개체의 운동 계획, 예컨대 일정 유형의 신체 활동 빈도, 시간, 유형, 강도 등을 포함할 수 있다.
또다른 환경 인자는 개체의 생활 환경, 예컨대 지방, 또는 도시 환경, 일정 인구 밀도 또는 공해도의 도시 등을 포함한다. 예를 들어, 개체의 거주지, 예컨대 스모그 정도 또는 개체의 작업 또는 가정 환경의 공기 청정도를 고려할 수 있다. 개체의 수면 습관, 대인 관계(예를 들어, 미혼 또는 기혼, 또는 친밀한 관계, 친구, 가족 친지 수 등), 사회적 지위, 직장(고/저 스트레스, 책임도, 직업 만족도, 동료 및 상사와의 관계 등)을 또한 고려할 수 있다.
따라서, 환경 인자는 이에 제한되지 않고, 개체의 출생지, 거주지, 생활방식 조건; 식이, 운동 습관, 및 대인 관계일 수 있다. 환경 인자는 또한 개체의 신체 측정치, 예컨대 체질량 지수, 혈압, 심박수, 포도당 수치, 대사산물 수치, 이온 수치, 체중, 신장, 콜레스테롤 수치, 비타민 수치, 혈액 세포 계측수, 단백질 수치, 및 전사체 수치 등일 수 있다. EGCI는 또한 1 이상의 환경 인자, 예컨대 적어도 1, 2, 3, 4, 5, 10, 12, 15, 20, 25, 또는 그 이상의 환경 인자를 통합할 수 있다.
환경 인자는 질환 또는 병태의 위험율에 기여하는 1 이상의 유전 인자에 독립적일 수 있다. 환경 인자는 또한 질환 또는 병태의 위험율에 기여하는 1 이상의 다른 환경 인자에 독립적일 수 있다. 일부 구체예에서, 환경 인자는 1 이상의 유전 인자에 독립적이지 않을 수 있다. 또 다른 구체예에서, 환경 인자는 다른 환경 인자에 독립적이지 않을 수 있다. 환경 인자는 다른 유전 또는 환경 인자에 독립적이지 않을 수 있지만, EGCI 스코어에 통합될 경우, 이 환경 인자는 EGCI 스코어를 계산시 독립적인 것으로 가정할 수 있다(예컨대, 실시예 5에 기재됨). 일부 구체예에서, 개체에 대해 통합되는 환경 인자는 개체의 가족(예를 들어, 실시예 4에 도시한 바와 같음) 또는 친구의 환경인자이거나, 또는 가족이나 친구의 행동에 의한 환경 인자일 수 있다. 예를 들어, 개체는 흡연하는 친구 또는 가족 구성원과 함께 생활하여, 흡연에 대한 노출이 개체의 EGCI에 통합되는 환경 인자가 될 수 있다.
EGCI를 생성하기 위해 GCI에 통합되는 환경 인자는 질환 또는 병태에 대한 상대 위험 인자가 대략 1.0 이상일 수 있다. 상대 위험 인자는 대략 1 또는 2 사이이거나, 또는 적어도 대략 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 또는 1.9일 수 있다. 일부 구체예에서, 상대 위험 인자는 적어도 대략 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일 수 있다. 또다른 구체예에서, 환경 인자의 상대 위험 인자는 적어도 대략 12, 15, 20, 25, 30, 25, 40, 45, 또는 50일 수 있다.
일부 구체예에서, EGCI를 생성하기 위해 GCI에 통합되는 환경 인자는 질환 또는 병태에 대한 승산비(OR)가 대략 1.0 이상일 수 있다. 상대 위험 인자는 대략 1 또는 1 사이이거나, 또는 적어도 대략 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 또는 1.9일 수 있다. 일부 구체예에서, OR은 적어도 대략 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일 수 있다. 또 다른 구체예에서, 환경 인자의 OR은 적어도 대략 12, 15, 20, 25, 30, 35, 40, 45, 또는 50일 수 있다.
EGCI는 질환 또는 병태의 유전율이 대략 95% 미만일 수 있는 질환 또는 병태에 대해 생성시킬 수 있다. 일부 구체예에서, EGCI는 유전율이 대략 5% 미만, 10% 미만, 15% 미만, 20% 미만, 25% 미만, 30% 미만, 35% 미만, 40% 미만, 45% 미만, 50% 미만, 55% 미만, 60% 미만, 65% 미만, 70% 미만, 75% 미만, 80% 미만, 85% 미만, 또는 90% 미만인 질환 또는 병태에 대해 산출한다.
개인별 활동 계획(
Personalized
Action
Plans
)
본원에 개시된 개인별 활동 계획은 개체의 게놈 프로파일을 기초로 개체의 건강 또는 웰빙을 개선하도록 의미있고, 행동가능한 정보를 제공한다. 이러한 활동 계획은 특정 유전자형 상관관계 관점에서 개체에게 이로운 행동 방침을 제공하며, 개체의 게놈 프로파일을 기초로 개인화 활동 계획으로 개인화할 수 있는, 치료적 처치의 관리, 가능한 치료 요구 또는 치료 효과에 대한 모니터링, 또는 식이, 운동 및 다른 개인 습관/행동에서의 생활방식 변화를 포함할 수 있다. 다르게, 개체는 그들의 게놈 프로파일을 기초로 하는 특정 등급이 주어질수 있고, 또한, 경우에 따라, 다른 정보, 예컨대 가족력, 현재 생활방식 습관 및 지리, 예컨대 이에 제한되는 것은 아니고, 작업 조건, 작업 환경, 개인 관계, 가정 환경 등을 포함할 수 있다. 포함시킬 수 있는 다른 인자는 인종, 성별 및 연령을 포함한다. 다양한 식이 및 운동 예방전략의 승산비 및 질환 또는 병태의 위험율 감소와 그들의 연관성을 또한 등급 체계에 포함시킬 수 있다.
예를 들어, 개인별 활동 계획은 개체의 GCI 또는 EGCI 스코어를 기초로 생성될 수 있다. 또한, 개인별 활동 계획은 개체에 따라 변형시키거나 또는 업데이트될 수 있는데, 예를 들어, 개체에 대한 환경 인자를 변형시키거나 또는 업데이트하여, 업데이트된 EGCI 스코어를 생성시킬 수 있다. 개인별 활동 계획은 또한, 예컨대 이전에 알려지지 않은 질환 또는 병태와 상관관계가 있는 유전 정보에 대한 새로운 과학 정보로부터 생성된 개정 또는 업데이트된 GCI 스코어로부터, 또는 업데이트된 EGCI 스코어로부터, 개체에 대해 변형되거나 또는 업데이트될 수 있다.
변형 또는 업데이트된 개인별 활동 계획은, 예를 들어, 개체 또는 그들의 건강 관리자가 초기에 사입 계획 등에서 자동 업데이트를 요청했을 경우, 자동적으로 개체 또는 그들의 건강 관리자에게 보내질 수 있다. 다르게, 업데이트된 개인별 활동 계획은 개체 또는 그들의 건강 관리자가 요청시에만 보내질 수 있다. 개인별 활동 계획은 다수의 인자를 기초로 변형되거나 또는 업데이트될 수 있다. 예를 들어, 개체는 분석된 더 많은 유전자 상호관계를 가질수 있고 그 결과를 이용해 현행 권고를 변형하거나, 추가 권고를 부가하거나, 또는 초기 개인별 활동 계획을 기초로 하는 권고를 제거시킬 수 있다. 일부 구체예에서, 개체는 일정 생활방식 습관/환경을 변화시키거나, 또는 가족력, 현재의 생활방식 습관 및 지리, 예컨대 이에 제한되는 것은 아니고, 작업 조건, 작업 환경, 인간 관계, 가정 환경 등에 대한 더 많은 정보를 가지거나, 또는 이들 변화를 포함시킨 개인별 활동 계획을 얻고자 그들의 업데이트된 연령을 포함시키기를 원할 수 있다. 예를 들어, 개체는 그들의 초기 개인별 활동 계획, 예컨대 식이 또는 약물 치료에서 콜레스테롤 감소 등을 따를 수 있고 따라서, 그들의 개인별 활동 계획 권고는 변형되거나 또는 심장 질환에 대한 그들의 위험율 또는 소인이 감소될 수 있다.
개인별 활동 계획은 또한 개인별 활동 계획에 대한 권고 또는 개체가 그들에게 일어나도록 하거나 또는 그들에게 일어난 다른 변화 이후에 개체를 기준으로 예상되는 향후 권고를 예측할 수 있다. 예를 들어, 개체의 연령 증가는 골다공증에 대한 위험율 증가를 초래할 수있지만, 칼슘량 또는 다른 생활방식 습관, 예컨대 개인별 활동에 있어서의 습관등에 따라, 위험율이 감소될 수 있다.
개인별 활동 계획은 개체의 표현형 프로파일 및/또는 게놈 프로파일과 함께 단일 보고서로, 개체, 또는 그들의 건강 관리자에게 보고될 수 있다. 다르게, 개인별 활동 계획을 개별적으로 보고할 수 있다. 개체는 다음으로, 그들의 개인별 활동 계획 상에서 권고받은 활동을 따를 수 있다. 개체는 그들 계획상의 임의의 활동을 따르기에 앞서 그들의 건강 관리자와 상담하는 것을 선택할 수 있다.
제공된 개인별 활동 계획은 또한, 통합된 활동 단계 세트에 다수의 병태 특이적 정보를 통합시킬 수 있다. 개인별 활동 계획은 이에 제한되는 것은 아니고, 각 병태의 유병률, 각 병태와 연관된 상대적 통증량, 및 각 병태에 대한 치료 유형을 포함하는, 인자들을 통합할 수 있다. 예를 들어, 개체가 심근 경색에 대한 높은 위험율(예를 들어, 높은 GCI 또는 GCI 플러스 스코어로 표현됨)를 가지면, 개체는 과일, 야채, 및 곡물 섭취 증가를 포함하는 개인별 활동 계획을 가질 수 있다. 그러나, 개체는 또한 셀리악 질환에 대한 소인을 가질 수 있으므로, 밀 글루텐 알레르기가 있을 수 있다. 그 결과, 밀 섭취량 증가는 금지사유가 될 수 있고, 개인별 활동 계획에 표시된다.
개인별 활동 계획은 약물 권고, 비약물 권고 또는 둘 모두를 제공할 수 있다. 예를 들어, 개인별 활동 계획은 예컨대 심근경색에 대한 소인이 있는 개체를 위한 콜레스테롤 강하약 등, 예방약으로서 제안된 약물을 포함할 수 있고, 의사와 상담하는 것을 포함한다. 개인별 활동 계획은 또한 비약물 권고, 예컨대 개체의 게놈 프로파일을 기초로 하는 식이 계획 및 운동 요법을 포함하여, 개인별 생활방식 계획을 따르는 것을 제공한다.
개인별 활동 계획 권고는 특정 등급, 라벨 또는 분류 체계일 수 있다. 각각의 권고는 숫자, 색상, 및/또는 문자 구성 또는 값으로 등급화되거나 또는 분류될 수 있다. 권고는 분류되고, 더욱 등급화될 수 있다. 다양한 변동, 예컨대 상이한 등급 구성(문자, 숫자 또는 색상 사용; 문자, 숫자, 및/또는 색상의 조합; 1 이상의 등급 구성에서 다양한 유형의 권고 사용 등)을 이용할 수 있다.
예를 들어, 개체의 게놈 프로파일을 결정하고 그들의 게놈 프로파일을 기초로 개인별 활동 계획 상의 개체에 대한 권고를 3가지 그룹으로 분류한다; "A"는 악영향 또는 부정적 영향을 나타내고; "N"은 중성적 영향 또는 유의한 영향 없음을 나타내며, "B"는 이롭거나 또는 긍정적인 영향을 나타낸다. 예로서 이러한 체계를 이용해서, 개체에 대해 A로서 분류된 치료법은 개체가 거부반응을 가지는 약물을 포함할 수 있고, N으로 분류된 것은 개체에 대해 임의의 유의한 긍정적이거나 또는 부정적인 영향이 없으며, B로서 분류된 것은 개체 건강에 이로운 것일 수 있다. 동일한 분류 체계를 이용해서, 식이 계획도 A, B, N으로 분류할 수 있다. 예를 들어, 개체가 알레르기 반응을 보이거나, 또는 특히 피해야하는 음식(예를 들어, 당뇨병이나 충치에 대한 소인이 있으므로 당류 등)은 A로서 분류할 수 있다. 개체 건강에 유의한 영향이 없는 음식은 N으로 분류할 수 있다. 개체에 특히 유익한 음식은 B로 분류할 수 있는데, 예를 들어 개체가 콜레스테롤이 높으면, 저콜레스테롤 음식이 B로 분류된다. 개체에 대한 운동 요법도 또한 동일한 체계를 기초로 할 수 있다. 예를 들어, 개체가 심장 문제에 대한 소인이 있어 강도높은 운동을 피해야 하면, 달리기는 A 활동일 수 있는 반면, 일정 속도의 걷기 또는 조깅은 B로 분류될 수 있다. 일정 기간 동안 서있기는 어떤 개체에게는 N일 수 있지만, 정맥류성 정맥 소인이 있는 다른 개체에 대해서는 A일 수 있다.
또한, A, N 또는 B의 각 카테고리 내에, 추가 수준의 카테고리가 존재할 수 있는데, 예컨대 1 내지 5, 최저 내지 최고 영향 등의 수준이 존재할 수 있다. 예를 들어, 치료제를 A1으로 분류할 수 있는데, 이는 약간 부정적인 영향, 예컨대 약간의 메스꺼움을 나타내는 반면, A2는 치료제가 구토를 일으킬 수 있음을 표시하며, 한편 A5 치료제가 심각한 부작용, 예컨대 아나필락시스 쇼크를 야기할 수 있다. 반대로, B1은 개체에 약간의 긍정적인 영향을 가질 수 있는 한편, B5는 개체에 유의한 긍정적 영향을 가질 수 있다. 예를 들어, 개체가 폐암 소인이 있거나, 또는 성장하면서 간접 흡연에 노출되었다면, 흡연하지 않는 개체는 B5일 수 있는 한편, 폐암 소인이 없는 개체는 B4로서의 인자를 가질 수 있다.
상이한 카테고리는 또한 상이한 색상으로 표시될 수 있는데, 예를 들어 A는 붉은 색조일 수 있고, 개체의 건강에 낮은 영향 내지 높은 영향을 표시하기 위해, 연한 색조 내지 진한 색조의 붉은색 범위로 음영을 넣을 수 있는데, 개체 건강 상에 부정적 영향이 낮은 것을 나타낸 연한 색조 부터 심각한 악영향을 나타내는 진한 붉은 색조로 나타낼 수 있다. 이러한 체계는 또한 연속적인 색상, 숫자 또는 문자 스펙트럼일 수 있다. 예를 들어, A, N, 및 B, 및/또는 그에 속하는 하위카테고리를 갖는 대신, A 내지 G로 분류하는데, 여기서 A는 음식, 치료제, 생활방식 습관, 환경 및 개체 건강에 심각한 부정적 영향을 주는 다른 인자를 나타내는 한편, D는 부정적이거나 또는 긍정적이거나, 최소의 영향을 갖는 인자를 나타내고, G는 개체 건강에 높은 이익을 나타낼 수 있다. 다르게, A 내지 G를 갖는 대신, 숫자 또는 색상은 또한 음식, 치료제, 생활방식 습관, 환경 및 개체 건강에 영향을 주는 다른 인자의 연속 스펙트럼을 나타낼 수 있다.
일부 구체예에서, 개인별 활동 계획의 특정 요법, 약물 또는 다른 생활방식 요소는 분류되거나, 라벨을 붙이거나 또는 등급화될 수 있다. 예를 들어, 개체는 운동 요법 및 식이 계획을 포함하는 개인별 활동 계획을 가질 수 있다. 운동 요법은 1 이상의 등급 또는 카테고리를 포함할 수 있다. 예를 들어, 운동 요법에 대한 등급은 표 1에 나타낸 바와 같이, A 내지 E 범위일 수 있는데, 여기서 각 문자는 각각의 수준에 속하는, 활동 유형, 시간 길이, 소정 기간 동안의 횟수에 대한 정보를 포함하는 1 이상의 운동 유형, 및 따라서, 개체에 대해 권고된 운동 요법에 상응한다.
치료 요법: 심혈관 활동 | ||||
등급 | 옵션 1 | 옵션 2 | 옵션 3 | 옵션 4 |
A | 활발한 보행 2.5 mph, 주 3회, 20분간 |
수영 4 laps, 주 3회 |
자전거 5 mph, 주 3회, 20분간 |
활발한 보행 2.5 mph, 주 2회, 20분간 자전거 5 mph, 주 1회, 20분간 |
B | 조깅 3.5 mph, 주 3회, 20분간 |
수영 6 laps, 주 3회 |
자전거 8 mph, 주 3회, 20분간 |
조깅 3.5 mph, 주 2회, 20분간 자전거 8 mph, 주 1회, 20분간 |
C | 달리기 4 mph, 주 3회, 20분간 |
수영 8 laps, 주 3회 |
자전거 10 mph, 주 3회, 20분간 |
달리기 4 mph 2.5 mph, 주 2 회, 20분간 자전거 10 mph, 주 1회, 20분간 |
D | 달리기 5 mph, 주 3회, 25분간 |
수영 10 laps, 주 3회 |
자전거 15 mph, 주 3회, 30분간 |
달리기 5 mph, 주 2회, 25분간 자전거 15 mph, 주 1회, 20분간 |
E | 달리기 6 mph, 주 3회, 30분간 |
수영 12 laps, 주 3회 |
자전거 15 mph, 주 3회, 40분간 |
달리기 5 mph, 주 2회, 30분간 자전거 15 mph, 주 1회, 40분간 |
일 구체예에서, 개체의 게놈 프로파일을 기초로, 개인별 활동 계획은 개체에 대해 A 등급을 가질 수 있고, 따라서, 개체의 권고된 운동 요법은 그들의 심혈관 운동을 위해 표 1의 A열 선택안에서 선택되어진다. 유사하게, 체중 관리를 위한 유사 체계가 개체 운동 요법의 일부일 수 있고, A 등급에 대한 체중 관련 옵션이 개체에게 권고될 수 있다. 일부 구체예에서, 이에 제한되는 것은 아니고 개체의 현재 식이, 운동 및 다른 개인 습관/활동 등의 인자, 경우에 따라 다른 정보 예컨대 가족력, 현재의 생활방식 습관 및 지리, 예컨대 이에 제한되는 것은 아니고 작업 조건, 작업 환경, 인간 관계, 가정 환경, 인종, 성별, 연령, 및 다른 인자를 개체의 게놈 프로파일과 통합하여 개체의 운동 요법 등급을 결정할 수 있다. 또한, 개체의 생활방식 습관이 변화되거나, 또는 더 많은 인자가 알려져 통합되면, 개체의 등급을 변화시킬 수 있는데, 예를 들어 개체가 개인별 활동 계획 상의 권고 활동을, A 등급부터 출발하여, 실행하면, 개체는 개체가 이제 B 등급임을 평가하고 결정하여 업데이트된 개인 활동 계획을 요청할 수 있다. 다르게, 개체의 개인별 활동 계획은 개체가 그들의 건강을 극대화하기 위해 A 등급에서 B 등급으로 옮길것을 고려해야하는 시점을 제공할 수 있다.
개인별 활동 계획은 또한 식이 계획에 대한 등급 체계를 가질 수 있다. 예를 들어, 식이 계획에 대한 등급은 1 내지 5 범위의 체계일 수 있는데, 여기서 각 숫자는 환자가 식사시에, 특정 부분 크기, 칼로리 수로 섭취하도록 제안된 지방, 섬유, 단백질, 당, 및 다른 영양소의 특정 그룹, 및/또는 개체가 식사로서 섭취해야하는 다른 음식물 그룹에 상응한다. 개체의 개놈 프로파일을 기초로, 개인별 활동 계획은 개체에 대해 2 등급을 제공할 수 있고, 따라서, 개체의 권고 식이 계획은 2 등급 하에서의 식이 선택안의 선택일 수 있다.
다른 구체예에서, 개별 음식물을 분류할 수 있다. 예를 들어, 2 등급이 주어진 개체는 2로서 또한 분류된 특정 음식을 선택해야 한다. 예를 들어, 특정 채소, 고기, 과일, 유제품 등을 2로서 분류할 수 있지만, 다른 것들은 그렇지 않다. 예를 들어, 아스파라거스는 2 등급 채소일 수 있지만, 비트는 3등급이며, 따라서 개체는 그들 식사시 비트보다는 아스파라거스를 더 포함시켜야 한다.
다른 구체예에서, 개체는 그들의 게놈 프로파일을 기초로, 개체가 그들 식사시에 섭취해야하는 음식물 유형의 영양소 유형 명세인 따라야하는 식사 유형에 대한 제안 등급을 받게된다. 이러한 등급은 형상, 색상, 숫자 및/또는 문자를 포함하는 시각적 표시물 형태일 수 있다. 등급은 형상, 색상, 숫자 및/또는 문자를 포함하는 시각적 표시물 형태일 수 있다. 예를 들어, 개체가 결장암 및 당뇨병 소인이 있는 것으로 확인되어, 개체는 그들 식사시에 섭취해야하는 것으로 권고받은 음식물 유형에 있어 상이한 영양소 비율을 표시한 심볼을 받는다. 상이한 음식물 유형, 예컨대 이에 제한되는 것은 아니고, 특정 과일, 야채, 탄수화물, 고기, 유제품 등을 동일한 계획안으로 표시한다. 개체에게 주어진 가장 근접하게 유사한 심볼로 등급화된 음식물이 개체에 대한 권고 음식물일 수 있다.
일부 구체예에서, 이에 제한되는 것은 아니고, 개체의 현재 식이, 운동 및 다른 개인적 습관/활동, 등의 인자, 경우에 따라 다른 정보, 예컨대 가족력, 현재 생활 습관 및 지리, 예컨대 이에 제한되는 것은 아니고, 작업 조건, 작업 환경, 인간 관계, 가정 환경, 인종, 성별, 연령, 및 다른 인자를 개체의 게놈 프로파일과 통합하여 개인별 활동 계획을 생성하고, 그에 따라 개체의 식이 계획에 주어진 등급에 영향을 줄 수 있다. 또한, 개체의 생활방식 습관이 변화하거나, 또는 더 많은 인자를 알게되어 통합시킴에 따라, 개체의 등급은 변경될 수 있다. 예를 들어, 개체가 개인별 활동 계획 상에서, 극저 콜레스테롤 식이인 식이 계획 1 등급에서 시작하여, 권고된 활동을 따르면, 개체는 개체가 콜레스테롤 수준이 개선되도록 가진 개체의 생활방식 습관에서의 변화를 통합시킨 업데이트된 개인별 활동 계획을 요청할 수 있고, 업데이트된 개인별 활동 계획은 개체가 등급 2하의 식이 계획을 현재 따르는 것이 더욱 적절할 수 있다거나, 또는 등급 1 및 2에서의 식이 계획을 선택할 수 있다는 것을 보여줄 수 있다. 다르게, 개체의 초기 개인별 활동 계획은 개체가 1 등급에서 2 등급으로 옮길것을 고려하거나, 또는 그들의 건강을 최고로 하기 위해, 상이한 등급 하에 상이한 식이 계획 간의, 스케쥴을 기준으로 그들 식이 계획을 다양하게 해야 하는 시기를 제공할 수 있다.
개인별 활동 계획의 등급은 다양한 등급 체계의 조합을 위한 것일 수 있다. 예를 들어, A 내지 E의 운동 요법 등급 체계 및 1 내지 5의 식이 계획 등급 체계를 사용하여 개체에게 그들 개인별 활동 계획에서 A1 등급을 부여할 수 있다. 따라서, 개체는 A 등급의 운동 요법 및 1 등급의 식이 계획을 따를 것이 권고된다. 다르게, 단일 등급 체계를 운동 및 식이 요법을 위해 사용할 수 있다. 예를 들어, 개체에 권고된 운동 및 식이 요법이 둘 모두 C 분류 하에 놓이도록 개인별 활동 계획에서 예컨대 C 등급의 특정 등급을 부여받을 수 있다. 다른 구체예에서, 다른 유형의 권고, 예컨대 다른 생활방식 활동 및 습관도 포함된다. 예를 들어, 운동 및 식이 요법 이외에, 다른 권고, 예컨대 치료법, 작업 환경 유형, 사회 활동 유형 등도 단일 등급 체계 하에 포함될 수 있다. 다르게, 상이한 등급 체계를 다른 권고를 위해 사용할 수 있다. 예를 들어, 문자를 권고된 운동 요법에 대해 사용하고, 식이 요법에 대해서는 숫자를 사용하고, 약물 권고에 대해서는 색상을 사용할 수 있다.
일부 구체예에서, 2원 등급 체계를 사용하여, 권고 유형이 쌍으로 그룹화되게 한다. 이러한 체계는 Myers Briggs Type Indicator(MBTI) 체계와 유사할 수 있다. 이러한 MBTI 체계에는, 선호도 또는 양분법의 4쌍이 존재하며, 개체는 각 쌍 중 하나에 배치된다. 개체의 선호도는 1) 외향성 또는 내향성, 2) 감각적 또는 직관적, 3) 사고적 또는 감정적, 및 4) 판단적 또는 인지적이다. 이 체계의 별법은 개체의 게놈 프로파일을 기초로 하는 개체의 건강 및 웰빙을 개선시키기 위한 개체에 대한 권고를 결정하는데 사용될 수 있다.
예를 들어, 개체는 식이에 대해 A 또는 B일 수 있으며, 여기서 A는 일정 유형의 영양소 믹스를 나타내고 B는 상이한 믹스이다. 다르게, 특정 유형의 음식물을 A 또는 B로 그룹화시킬 수 있다. 개체는 운동 요법에 대해 또다른 2원 분류, 예컨대 H 또는 L로 분류될 수 있으며, 여기서 H는 개체가 고강도 운동에 참여해야 한다는 것을 나타내고, L은 저강도 활동을 나타낸다. 이와 같이, 개체는 AH로서 분류될 수 있다. 또다른 2원 분류는 사회 접촉에 대한 것일 수 있다. 예를 들어, 개체는 유전자적으로 사회적(S)이거나 또는 비사회적(U)인 소인을 가질 수 있고, 그에 따라, 권고는 개체가 스트레스를 줄이고 그들의 건강 및 웰빙을 증가시키도록 피하거나 또는 추구하는 활동 유형 또는 사람 그룹을 포함할 수 있다.
개인별 활동 계획은 또한 과학 정보, 또는 개체 유래의 정보를 포함하는 정보를 기초로 인자들이 알려짐에 따라 그 인자들이 포함되도록 업데이트될 수 있으며, 예컨대 "필드-배치" 또는 직접 메카니즘, 예를 들어 대사산물 수준, 포도당 수준, 이온 수준(예를 들어, 칼슘, 나트륨, 칼륨, 철), 비타민, 혈액 세포 계측수, 체질량 지수(BMI), 단백질 수준, 전사체 수준, 심박수 등은 쉽게 이용가능한 방법들로 측정할 수 있고, 예컨대 실시간 모니터링을 통해 그러한 인자들이 알려지게 되면서, 알게 된 경우 개인별 활동 계획에 감안될 수 있다. 개인별 활동 계획은 예를 들어, 이 계획을 따른 후 개체를 기초로 변형될 수 있고, 이는 또한 개체가 1 이상의 병태를 가질 소인에 영향을 줄 수 있다. 예를 들어, 개체의 GCI 스코는 업데이트될 수 있다.
커뮤니티 및 동기부여
본 발명은 개체가 그들의 건강 및 웰빙에 대해 충분히 통지받도록, 개체의 게놈 프로파일을 기초로 하는 표현형 프로파일 및 개인별 활동 계획, 및 개체가 그들 건강을 증진시키기 위해 갖는 개인별요구에 맞는 옵션을 제공한다. 본원은 또한, 개체가 그들의 개인별 활동 계획을 따르도록 개체에게 도움과 동기부여를 제공할 수 있는 커뮤니티, 예컨대 온라인 커뮤니티를 제공한다. 예를 들어 개인별 활동 계획을 수행하여, 개체 건강을 증진시키도록 개체를 동기부여하는 것은 또한 재정적 인센티브를 포함한다.
개체는 이 개체 또는 이들의 건강 관리자가 개체의 게놈 프로파일, 표현형 프로파일, 및/또는 개인별 활동 계획에 접속하는 온라인 커뮤니티 등의 커뮤니티에 참여할 수 있다. 개체는 게놈 프로파일, 표현형 프로파일, 및/또는 개인별 활동 계획을 개인 온라인 포탈을 통해, 모든 커뮤니티, 커뮤니티의 하위세트가 볼수 있게 하거나, 또는 커뮤니티에서 볼수 없게 선택할 수 있다. 친구, 가족, 또는 동료가 온라인 커뮤니티의 일원일 수 있다. 예를 들어, 개체의 목표를 달성하도록 개체에게 동기를 부여하기 위한 온라인 커뮤니티 예컨대 www.enmeon.com 및 www.changefire.com이 당분야에 알려져 있다. 본원에서, 개체는 그들의 표현형 프로파일, 예컨대 GCI 스코어를 베이스라인으로 이용하거나, 또는 그들의 개인별 활동 계획에 대한 목표를 달성하여, 개체의 건강과 웰빙을 증진시키기 위해 개체를 지원하고 동기부여하는 온라인 커뮤니티에 참여하거나 또는 그 구성원이다. 온라인 커뮤니티는 개체의 친구, 가족, 또는 동료, 또는 친구, 가족 및 동료의 조합에 한정될 수 있다. 개체는 또한 이전에 그들이 알지 못한 온라인 커뮤니티의 다른 구성원을 포함시킬 수 있다. 온라인 커뮤니티는 또한 고용주가 후원하는 커뮤니티일 수도 있다. 개체는 유사한 표현형 프로파일, 활동 계획을 갖는 다른 개체와 함께 그룹을 형성하여, 그들의 목표를 달성하기 위해 서로 동기부여할 수도 있다. 개체는 그들의 GCI 스코어를 개선시키고/시키거나 그들 개인별 활동 계획 상의 목표를 달성하기 위해, 온라인 커뮤니티 내 다른 개체와의 경쟁을 설정할 수 있다.
예를 들어, 개체의 보고서, 예컨대 그들의 GCI 스코어 및 개인별 활동 계획은 온라인 커뮤니티에서 개체의 가족 및 친구가 볼 수 있다. 개체는 누가 그들의 보고서를 보고/보거나 접속할 수 있는지 선택하는 옵션 또는 선택권을 가질 수 있다. 온라인 버젼은 개인별 활동 계획 상의 아이템을 포함하는 검토목록 또는 마일스톤 측정치를 포함할 수 있는데, 여기서 개체는 그들의 개인별 활동 계획의 성취 또는 진행을 표식할 수 있다. GCI 스코어는 성취 또는 진행에 따라 업데이트될 수 있고 온라인 보고서 상에 반영될 수 있다. 개체는 또한 개체에 대한 보고서를 변경시킬 수도 있는, 변화될 수 있는 인자, 예컨대 생활방식 변화, 운동 요법 변화, 식이 변화, 약물 치료법(들) 등을 입력할 수 있다. 가족 및 친구들은 개체의 진행을 비롯하여, 개체 생활에서의 변화, 및 어떻게 그들이 개체의 GCI 스코어를 반영하는지 또는 변경시키는지 볼 수 있다. 온라인 포탈은 개체가 초기 및 후속 보고서를 볼 수 있게 한다. 개체는 또한 그들의 친구 및 가족으로부터 피드백 및 지적을 받을 수도 있다. 가족과 친구들은 지원 및 동기부여 의견을 남길 수 있다.
온라인 커뮤니티는 또한 개체의 개인별 활동 계획을 통한 진전에 의해, 및/또는 질환에 대한 위험율 또는 소인을 줄여서, 개체의 건강을 증진시키도록 개체에게 인센티브를 제공할 수 있다. 또한 온라인 커뮤니티에서가 아니라 인센티브가 개체에게 제공될 수 있다. 예를 들어, 고용주가 후원하는 온라인 커뮤니티는, 개체가 예컨대 그들의 개인별 활동 계획을 통해 진전시켜, 질환에 대한 그들의 위험율 및/또는 소인이 감소되어, 일정 목표에 도달하게 된 경우, 고용주는 보조금을 더 지급하거나, 추가 휴가일을 제공하거나, 또는 개체의 의료 저축 계정에 기여하는 건강 계획을 제공할 수 있다. 다르게, 커뮤니티는 온라인일 필요가 없고, 개체가 그들의 개선된 GCI 스코어를 고용주를 위해 건강 계획을 처리하는 지정인에게 제출한다.
다른 인센티브를 이용하여 개체가 그들의 GCI 스코어를 개선시키고/시키거나 개인별 활동 계획을 실행하여 건강을 증진시키도록 개체에게 동기부여할 수 있다. 개체는 예컨대 일정 비율 또는 수치 만큼 질환에 대한 위험율이 감소하거나, 또는 한 카테고리에서 다른 카테고리(고위험율에서 저위험율로)로 이동하였거나, 또는 개인별 활동 계획의 일정 목표를 달성하여, 그들의 일정 목표에 도달한 경우 보상으로 제공되는 포인트를 받을 수 있다. 예를 들어, 개체는 일정 기간 내에 질환에 대한 위험율의 최대 감소를 이루기 위해서, 개인별 활동 계획 상의 목표를 달성하기 위해서, 또는 개인별 활동 계획 상의 최대 목표들을 달성하기 위해, 일정 수치값의 GCI 스코어 감소를 성취할 수 있다.
친구, 가족 및/또는 고용주는 포인트 및/또는 보상을 제공할 수 있는데, 아마도 그것들을 구입하여, GCI 스코어가 개선되거나 또는 개인별 활동 계획상의 목표를 달성한 개체에게 보상으로 제공할 수 있다. 개체는 또한 다른 사람, 예컨대 다른 동료, 친구 그룹, 가족, 또는 동일한 목표를 갖는 온라인 커뮤니티 구성원에 앞서 목표에 도달한 것에 대한 포인트/상을 받을 수도 있다. 예를 들어, 첫번째로 일정 수치의 GCI 스코어를 달성하거나, 일정 시간 내 질환에 대한 위험율의 최고 감소를 성취하였거나, 개인별 활동 계획 상의 목표를 달성하였거나, 또는 개인별 활동 계획 상의 최대 목표들을 달성한다. 개체는 현금 또는 현금을 대신해 제공된 포인트를 보상으로서 받을 수 있다. 다른 보상은 약학 제품, 건강 제품, 헬스 클럼 회원권, 스파 치료, 의료 절차, 건강 모니터링 장치, 유전자 검사, 여행, 및 기타, 예컨대 본원에 기술된 서비스에 대한 기금, 또는 상기 언급한 아이템들에 대한 할인, 보조금 또는 상환 등을 포함할 수 있다.
인센티브는 친구, 가족 및 고용주가 후원할 수 있다. 제약사, 헬스 클럽, 의료 장비 회사, 스파 등이 또한 인센티브를 후원할 수 있다. 후원은 광고, 또는 채용 등과의 교환일 수 있는데, 예를 들어 제약 회사는 데이타, 또는 임상 시도를 위해 개체의 게놈 프로파일을 획득하는데 관심을 가질 수 있다. 또한, 인센티브는 개체가 그들의 건강을 증진하도록 동기를 부여받는 커뮤니티, 예컨대 본원에 기술된 온라인 커뮤니티에 참여하도록 개체를 장려하는데 사용될 수 있다.
프로파일 및 개인별 활동 계획 접근
게놈 프로파일, 표현형 프로파일, 및 표현형과 게놈 프로파일과 관련된 다른 정보, 예컨대 개인별 활동 계획을 포함하는 보고서가 개체에게 제공될 수 있다. 건강관리자 및 제공자, 예컨대 간병인, 의사 및 유전자 상담자가 또한 이러한 보고서에 접근할 수 있다. 이 보고서는 프린트되거나, 컴퓨터 상에 저장되거나, 또는 온라인 상에서 볼 수 있다. 다르게, 프로파일 및 활동 계획은 문서 형태로 제공될 수 있다. 이는 종이 문서이거나, 또는 컴퓨터 판독 형식, 예컨대 일정 시점에서의 온라인 형식일 수 있고, 이후에 문서, 컴퓨터 판독 형식, 또는 온라인으로 업데이트가 제공될 수 있다. 결과는 컴퓨터에 의해 생성되어 출력될 수 있다. 이들은 컴퓨터 판독가능 매체 상에 저장될 수 있다.
게놈 프로파일, 표현형 프로파일을 비롯하여, 개인별 활동 계획은 컴퓨터 및 인터넷 웹사이트, 전화, 또는 정보에 유사하게 접속가능하게 하는 다른 수단을 이용해 개체가 용이하게 접근할 수 있는 정보 공급처, 온라인 포탈을 통해 접근가능할 수 있다. 온라인 포탈은 경우에 따라 보안 온라인 포탈 또는 웹사이트일 수 있다. 이는 다른 보안 및 비보안 웹사이트와의 링크를 제공할 수 있는데, 예컨대 특정 표현형을 공유하는 개체에 대한 메세지 보드 등과 같은 비보안 웹사이트, 또는 개체의 표현형 프로파일을 갖는 보안 웹사이트와의 링크 등을 제공할 수 있다.
보고서는 개체의 GCI 스코어, 또는 GCI 플러스, 또는 EGCI 스코어(본원에 기술된 바와 같이, GCI 스코어의 보고는 또한 GCI, GCI 플러스 및/또는 EGCI 스코어의 보고 방법을 포함하게 됨)에 관한 것일 수 있다. 예를 들어, 1 이상의 병태에 대한 스코어를 디스플레이를 이용해 시각화할 수 있다. 스크린(예컨대 컴퓨터 모니터 또는 텔레비젼 스크린)을 이용해 디스플레이, 예컨대 관련 정보를 갖는 개인 포탈 등을 시각화하는데 사용될 수 있다. 다른 구체예에서, 디스플레이는 정적 디스플레이 예컨대 인쇄 페이지 등이다. 디스플레이는 이에 제한되는 것은 아니고, 빈(예컨대, 1-5, 6-10, 11-15, 16-20, 21-25, 26-30, 31-35, 36-40, 41-45, 46-50, 51-55, 56-60, 61-65, 66-70, 71-75, 76-80, 81-85, 86-90, 91-95, 96-100), 색상 또는 그레이 스케일 경사, 온도계, 게이지, 파이 차트, 히스토그램 또는 막대 그래프 중 하나 이상을 포함할 수 있지만, 이에 제한되는 것은 아니다. 다른 구체예에서, 온도계를 사용하여 GCI 스코어 및 질환/병태 유병률을 디스플레이한다. 온도계는 보고된 GCI 스코어에 따라 변화하는 레벨을 디스플레이하는데, 예컨대 온도계는 GCI 스코어 증가에 따른 비색 변화를 디스플레이할 수 있다(예컨대 낮은 GCI 스코어에 대한 파란색에서 부터, 점진적으로 높은 GCI 스코어에 대한 적색으로 변화). 관련 구체예에서, 온도계는 보고된 GCI 스코어에 따른 변화 수준 및 위험율 등급 증가에 따른 비색 변화 둘 모두를 디스플레이한다.
개체의 GCI 스코어는 또한 개체에게 청각적 피드백을 이용해 전달될 수 있다. 예를 들어, 청각 피드백은 위험율 등급이 높거나 낮음을 말로 표현한 설명서일 수 있다. 청각적 피드백은 또한 모집군에 대한 평균 또는 중간 GCI 스코어와의 비교 또는 사분위수, 범위, 백분위수, 숫자 등의 특정 GCI의 설명일 수도 있다. 일 구체예에서, 생존 인간은 청각적 피드백을 개별적으로 또는 통신기, 예컨대 전화(일반 전화, 핸드폰 또는 위성전화 등)로 또는 개인 포탈을 통해 전달받는다. 청각적 피드백은 또한 자동 시스템, 예컨대 컴퓨터를 통해 전달될 수 있다. 청각적 피드백은 컴퓨터가 보통의 전화 통화를 이용하여 터치톤 및 음성을 탐지할 수 있는 기술인 음성 자동 반응(IVR) 시스템의 일부로서 전달될 수 있다. 개체는 IVR 시스템을 통해 중심 서버와 소통할 수 있다. IVR 시스템은 사전기록되거나 또는 동력적으로 생성된 오디오와 반응하여 개체와 소통하고 그들에게 위험 등급에 대한 청각적 피드백을 제공하게 된다. 개체는 IVR 시스템으로 응답한 번호에 전화를 걸 수 있다. 경우에 따라 식별 코드, 보안 코드를 입력하거나 또는 음성 인식 프로토콜을 거친 후, IVR 시스템은 터치톤 또는 음성 메뉴 등의 메뉴에서 옵션을 선택하도록 개체에게 요청할 수 있다. 이러한 옵션 중 하나는 개체에게 그 또는 그녀의 위험 등급을 제공할 수 있다.
개체의 GCI 스코어는 예컨대 개인 포탈 상에서 처럼, 디스플레이를 이용해 시각화되고 청각적 피트백을 이용해 전달될 수 있다. 이러한 조합은 GCI 스코어의 시각적 디스플레이 및 청각적 피드백을 포함할 수 있고, 여기서는 개체의 전반적인 건강 및 가능한 예방책, 예컨대 그들의 개인별 활동 계획 등과 GCI 스코어의 관련성을 논의한다.
상이한 보고서 옵션이 개체에게 이용될 수 있다. 예를 들어, 온라인 접속점, 예컨대 온라인 포탈은 개체가 그들의 게놈 프로파일을 기초로, 단일 표현형, 또는 1 이상의 표현형을 디스플레이할 수 있게 한다. 가입자는 또한 단일 또는 복수 병태의 간략한 시놉시스를 제공하기 위한, 상이한 뷰 옵션, 예컨대 "퀵 뷰(quick view)" 옵션 등을 가질 수 있다. "컴프리헨시브 뷰(comprehensive view)" 옵션도 선택할 수 있는데, 여기서는 각 카테고리의 보다 상세한 내용이 제공된다. 예를 들어, 표현형을 전개할 개체의 가능성에 대한 보다 상세한 통계, 전형적인 증상 또는 표현형, 예컨대 의학적 상태에 대한 샘플 증상, 또는 일정 범위의 신체적 비의학적 상태 예컨대 신장 등에 대한 추가 정보, 또는 유전자 및 유전자 변이체, 예를 들어 전세계, 또는 상이한 국가, 또는 상이한 연령 범위 또는 성별에서의 모집군 발생률 등에 대한 추가 정보가 존재할 수 있다. 예를 들어, 다수의 병태에 대한 추정 생애 위험율의 요약은 "퀵 뷰" 옵션으로 존재하는 반면, 특정 병태, 예컨대 전립선암 또는 크론병에 대한 추가 정보는 다른 뷰 옵션일 수 있다. 상이한 조합 및 별형이 다양한 뷰 옵션으로 존재할 수 있다.
개체가 선택한 표현형은 의학적 상태일 수 있고 보고서 중의 상이한 치료법 및 증상은 이러한 치료법에 대한 추가 정보를 포함하는 다른 웹 페이지에 링크될 수 있다. 예를 들어, 약물을 클릭하여, 용량, 비용, 부작용 및 효능에 대한 정보를 포함하는 웹사이트로 안내된다. 또한, 이 약물을 다른 치료법과 비교할 수도 있다. 이러한 웹사이트는 또한 약물 제조사 웹사이트로 안내되는 링크를 포함할 수 있다. 다른 링크는 게놈 프로파일을 기초로 약물에 대한 그들의 가능성 있는 반응 등에 대한 정보를 포함하는, 게놈약학 프로파일을 생성시키는 옵션을 가입자에게 제공할 수 있다. 예컨대 예방법 예컨대 피트니스 및 체중 감량 등, 약물 대체물에 대한 링크도 제공할 수 있고, 식이 보충물, 식이 계획 등에 대한 링크, 및 근처 헬스 클럽, 헬스 클리닉, 건강 및 웰빙 제공자, 데이 스파 등에 대한 링크도 제공할 수 있다. 교육 및 정보 비디오, 이용가능한 치료법, 가능한 치료법, 및 일반적인 권고에 대한 요약 등도 제공될 수 있다.
온라인 보고서는 또한 의사 또는 유전자 상담 약속 일정을 직접 짜거나 또는 온라인 유전자 상담가 또는 의사와 접속하는 링크를 제공하여, 가입자가 그들의 표현형 프로파일에 대한 추가 정보를 요청할 기회를 제공한다. 온라인 유전자 상담 및 의사 질문에 대한 링크는 또한 온라인 보고서 상에 제공될 수 있다.
다른 구체예에서, 보고서는 "흥미로운" 표현형, 예컨대 유명인, 예컨대 알버트 아인슈타인의 게놈 프로파일과 개체의 게놈 프로파일 간 유사성 등일 수 있다. 이 보고서는 개체의 게놈 프로파일과 아인슈타인의 게놈 프로파일 간 유사도 비율을 표시할 수 있으며, 아인슈타인 및 개체의 예상 IQ를 더 표시할 수 있다. 추가 정보는 어떻게 일반 모집군의 게놈 프로파일과 그들의 IQ를 개체 및 아인슈타인과 비교하는지에 대해 포함할 수 있다.
다른 구체예에서, 보고서는 개체의 게놈 프로파일과 상호관련된 모든 표현형을 표시할 수 있다. 다른 구체예에서, 보고서는 개체의 게놈 프로파일과 양성적으로 상호관련된 표현형만 표시할 수 있다. 다른 형식으로, 개체는 표현형의 일부 하위그룹, 예컨대 오직 의학적 표현형, 또는 오직 실현가능한 의학적 표현형만이 표시되도록 선택할 수 있다. 예를 들어, 실현가능한 표현형 및 그들의 관련 유전자형은 클론병(IL23R 및 CARD 15와 관련), 1형 당뇨병(HLA-DR/DQ와 관련), 루프스(HLA-DRB1 관련), 건선(HLA-C), 다발성 경화증(HLA-DQA1), 그레이브스병(HLA-DRB1), 류마티스성 관절염(HLA-DRB1), 2형 당뇨병(TCF7L2), 유방암(BRCA2), 결장암(APC), 일화 기억(KIBRA), 및 골다공증(COL1A1)을 포함할 수 있다. 개체는 또한 그들 보고서에 하위카테고리 표현형, 예컨대 의학적 상태에 대해 염증성 질환만, 또는 비의학적 상태에 대해 신체 특성만이 표시되도록 선택할 수 있다. 일부 구체예에서, 개체는 개체에 대해 추정 위험율을 계산한 모든 병태를, 그들 병태를 강조하거나, 오직 고위험율 병태만을 강조하거나, 또는 저위험율 병태만을 강조하여 보여지도록 선택할 수 있다.
제출되어 개체에게 전달된 정보는 보안된 비밀 정보일 수 있고, 이러한 정보에 대한 접근은 개체에 의해 제어될 수 있다. 복합 게놈 프로파일로부터 유도된 정보는 개체에게 규제 기관이 승인한, 이해할만한, 의학적 관련성있고/있거나 높은 영향력있는 데이타로서 제공될 수 있다. 정보는 또한 일반적으로 흥미롭고, 의학적으로 관련성없는 것일 수 있다. 정보는 이에 제한되는 것은 아니고, 포탈 인터페이스 및/또는 메일링을 포함하는 몇몇 수단으로 개체에게 보안적으로 전달할 수 있다. 보다 바람직하게, 정보는 개체가 보안적으로 비밀되게 접근하는 포탈 인터페이스를 통해 개체에게 안전하게(개체가 그렇게 정한 경우) 제공된다. 이러한 인터페이스는 바람직하게, 온라인, 인터넷 웹사이트 접근, 또는 대안적으로, 전화 또는 개인적이고, 안전하고 용이하게 이용가능한 접근을 허락하는 다른 수단에 의해 제공된다. 게놈 프로파일, 표현형 프로파일, 및 보고서는 개체 또는 그들의 건강 관리자에게 네트워크 상의 데이타 전송으로 제공된다.
따라서, 보고서를 생성할 수 있는 대표적 예의 로직 장치는 게놈 프로파일을 수신하고 저장하며, 유전자형 상관관계를 분석하고, 유전자형 상관곤계의 분석 결과를 기초로 규칙을 정하고, 게놈 프로파일에 규칙을 적용하며, 표현형 프로파일, 개인별 활동 계획 및 보고서를 생성하는 컴퓨터 시스템(또는 디지탈 장치)을 포함할 수 있다. 컴퓨터 시스템은 고정 매체를 구비한 서버에 경우에 따라 연결될 수 있는, 매체 및/또는 네트워크 포트로부터의 지시를 판독할 수 있는 논리적 장치로서 이해될 수 있다. 시스템은 CPU, 디스크 드라이브, 선택적인 입력 장치 예컨대 키보드 및/또는 마우스 및 선택적인 모니터를 포함할 수 있다. 표시된 통신 매체를 통해 지역 또는 원격 지역 서버로 데이타 통신이 실행될 수 있다. 통신 매체는 데이타를 전송 및/또는 수신하는 임의의 수단을 포함할 수 있다. 예를 들어, 통신 매체는 네트워크 접속, 무선 접속 또는 인터넷 접속일 수 있다. 이러한 접속은 World Wide Web 상에서의 통신을 제공할 수 있다. 본원과 관련된 데이타는 당사자에 의한 리뷰 및/또는 리셉션을 위해 이러한 접속 또는 네트워크 상에서 전송될 수 있다는 것을 상상할 수 있다. 수신자는 이에 제한되는 것은 아니고, 개체, 의료인 또는 건강 관리자일 수 있다. 일 구체예에서, 컴퓨터 판독 매체는 생물학적 샘플의 분석 결과 또는 유전자형 상관관계를 전송하는데 적절한 매체를 포함한다. 이러한 매체는 개체에 대한 활동 계획 및/또는 개체의 표현형 프로파일에 대한 결과를 포함하며, 여기서 이러한 결과는 본원에 기술된 방법을 이용해 유도된다.
개인 포탈은 게놈 데이타를 수신하고 평가하기 위한 개인과의 주요 인터페이스로서 기능할 수 있다. 포탈은 개체가 검사 동안 컬렉션으로부터 그들 샘플의 진행추이 및 결과를 추적할 수 있게 한다. 포탈 접속을 통해, 개체는 그들의 게놈 프로파일을 기초로 일반적인 유전자 질환에 대한 상대 위험율로 안내된다. 개체는 포탈을 통해 어떠한 규칙을 그들 게놈 프로파일에 적용할지 선택할 수 있다.
일 구체예에서, 1 이상의 웹 페이지는 표현형 목록을 가지게 되며 각 표현형 옆에는 가입자가 그들의 표현형 프로파일을 포함시키도록 선택할 수 있는 박스를 가질 수 있다. 표현형은 표현형 상의 정보와 연결되어, 가입자가 그들 표현형 프로파일에 포함시키고자 원하는 표현형에 대해 정보에 근거한 선택을 할 수 있게 도움을 준다. 웹페이지는 또한 예를 들어, 실현가능한 질환 또는 그렇지 않는 질환으로서, 질환 그룹에 의해 체계화된 표현형을 가질 수 있다. 예를 들어, 개체는 실현가능한 표현형만을, 예컨대 HLA-DQA1 및 셀리악 질환만을 선택할 수 있다. 가입자는 또한 표현형에 대한 전 또는 후 증상 치료법이 디스플레이되도록 선택할 수 있다. 예를 들어, 개체는 전증상 치료법(증가된 스크리닝 거의없음)과 함께 실현가능한 표현형을 선택할 수 있는데, 예컨대 셀리악 질환에 대해, 글루텐 무함유 식이의 전증상 치료법 등을 선택할 수 있다. 다른 예는 알츠하이머질환에 대해서, 전증상 치료법은 스타틴, 운동, 비타민 및 정신 활동일 수 있다. 다른 예로서 혈전증은 전증상 치료가 경구 피임약을 피하고 장기간 동안의 정좌를 피하는 것이다. 승인된 후증상 치료법과 표현형의 예는 CFH와 상호관련된 습성 AMD인데, 여기서 개체는 그들 병태에 대해 레이저 치료를 받을 수 있다.
표현형은 또한, 질환 또는 병태의 유형 또는 부류에 의해, 예컨대 신경학적, 심혈관성, 내분비성, 면역학적 등으로 체계화될 수 있다. 표현형은 또한 의학 및 비의학적 표현형으로 분류될 수 있다. 웹페이지 상에서 표현형의 다른 분류는 신체 특성, 생리적 특성, 정신적 특성 또는 감정적 특성에 의해 이루어질 수 있다. 웹페이지는 하나의 박스 선택에 의해 표현형 그룹을 선택하는 섹션을 더 제공할 수 있다. 예를 들어, 모든 표현형, 의학적 관련 표현형만, 비의학적 관련 표현형만, 실현가능한 표현형만, 비실현가능한 표현형만, 다른 질환군, 또는 "흥미로운" 표현형을 선택한다. "흥미로운" 표현형은 유명인 또는 다른 인기있는 개체와의 비교, 또는 다른 동물 또는 심지어 다른 유기체와의 비교를 포함할 수 있다. 비교에 이용가능한 게놈 프로파일 목록을 또한 개체의 게놈 프로파일과의 비교를 위해 개체가 선택하기 위해 웹페이지 상에 제공할 수 있다.
온라인 포탈은 또한, 또한 검색 엔진을 제공하여, 개체가 포탈을 여기저기 검색하거나, 특정 표현형을 검색하거나, 또는 그들의 표현형 프로파일 또는 보고서에 나타난 특정 용어 또는 정보를 검색하는데 도움을 줄 수 있다. 파트너 서비스 및 제품 제공에 접근하기 위한 링크가 또한 포탈에 의해 제공될 수 있다. 지원 그룹, 메세지 보드 및 공통 또는 유사 표현형을 개체를 위한 채팅룸에 대한 추가 링크로 제공할 수 있다. 온라인 포탈은 또한 개체의 표현형 프로파일의 표현형에 대한 추가 정보를 갖는 다른 사이에 대한 링크를 제공할 수도 있다. 온라인 포탈은 또한 개체가 그들의 표현형 프로파일 및 보고서를 친구, 가족, 동료 또는 건강 관리자와 공유하고, 개체의 친구, 가족, 동료 또는 건강 관리자와 공유하기를 원하는 표현형 프로파일에 어떠한 표현형을 도시할지 선택할 수 있는 서비스를 제공할 수도 있다.
표현형 프로파일 및 보고서는 개체에 개인별 유전자형 상관관계를 제공한다. 유전자형 상관관계를 사용하여 개인별 활동 계획을 생성시키며 이는 개체가 그들의 개인 건강 관리 및 생활방식 선택을 결정할 많은 지식과 기회를 제공한다. 강한 상관관계가 유전자 변이체 및 치료법이 이용가능한 질환간에 발견되면, 유전자 변이체의 검출은 질환 치료 개시 및/또는 개체 모니터링을 결정하는데 도움이 될 수 있다. 통계적으로 유의한 상관관계가 존재하지만 강한 상관관계로 간주되지 않는 경우에 있어, 개체는 개인 의사와 그 정보를 검토하고 적절하고, 이로운 활동 과정을 결정할 수 있다. 특정 유전자형 상관관계 관점에서 개체에게 이로울 수 있는 가능한 활동 과정은 치료제의 투여, 치료 효능 또는 치료의 잠재적 필요성에 대한 모니터링, 또는 식이, 운동 및 다른 개인 습관/활동에서의 생활방식 변화를 포함할 수 있고, 이들은 개체의 게놈 프로파일을 기초로 개인별 활동 계획으로 개인화시킬 수 있다. 다른 개인 정보, 예컨대 현재 습관 및 활동도 개인별 활동 계획에 통합될 수 있다. 예를 들어, 실현가능한 표현형 예컨대 셀리악 질환은 글루텐 무함유 식이의 전증후 치료를 가질 수 있고, 개인별 활동 계획에 제공될 수 있다. 유사하게, 유전자형 상관관계 정보를 게놈약학을 통해 적용하여 특정 약물 또는 약물 요법 치료에 대해 개체가 가질 수 있는 가능한 반응, 예컨대 특정 약물 치료의 가능한 효능 또는 안정성 등을 예측할 수 있다.
유전자형 상관관계 정보는 또한 유전자 상담과 협력적으로 사용하여 임신을 고려하는 커플에게 조언하고, 부모 및/또는 아이에 대한 가능한 유전적 우려를 조언할 수 있다. 유전자 상담가는 특정 병태 또는 질환에 대한 높은 위험율을 나타내는 표현형 프로파일을 갖는 개체에게 정보 및 지원을 제공할 수 있다. 이들은 질환에 대한 정보를 설명하고, 유전 패턴 및 재발 위험율을 분석하여, 가입자와 이용가능한 옵션을 검토한다. 유전자 상담가는 또한 커뮤니티 또는 정부 지원 서비스에 가입자를 위탁하는 지원 상담을 제공할 수도 있다. 유전자 상담은 특정 가입 계획과 함께 포함될 수 있다. 유전자 상담 옵션은 또한 요청 24시간 내에 계획되고, 비관습적인 시간, 예컨대 저녁, 토요일, 일요일 및/또는 휴일 동안 이용가능한 것을 포함할 수 있다.
개인 포탈은 또한 초기 스크리닝을 넘는 추가 정보의 전달을 용이하게 할 수 있다. 개체는 그들의 개인 유전자 프로파일과 관련된 새로운 과학적 발견, 예컨대 그들의 현재 또는 가능한 병태에 대한 새로운 치료법 또는 예방 전략에 대한 정보를 통지받을 수 있다. 새로운 발견들은 또한 그들의 건강 관리자에게 전달될 수 있다. 새로운 발견을 업데이트되거나 개정된 개인 활동 계획에 포함시킬 수 있다. 개체 또는 그들의 의료인은 새로운 유전자형 상관관계 및 개체의 표현형 프로파일에 있어 그 표현형에 대한 새로운 조사를 이메일을 통해 통지받을 수 있다. 예를 들어, "흥미로운" 표현형의 이메일을 개체에게 발송할 수 있는데, 예를 들어 이메일은 아브라함 링컨과 그들 게놈 프로파일이 77% 동일하고 추가 정보는 온라인 포탈에서 이용가능하다는 것을 통지할 수 있다.
가입자에게 신규 또는 개정된 상관관계 신규 또는 개정된 규칙, 및 예를 들어 새로운 예방 및 건강 정보, 개발중인 새로운 치료법에 대한 정보, 또는 이용가능한 새로운 치료법이 있는 신규 또는 개정된 보고서를 통지하기 위한 컴퓨터 코드를 또한 본원에서 제공한다. 새로운 규칙의 생성, 규칙 변형, 규칙 조합, 규칙 세트를 새로운 규칙으로 주기적 업데이트, 게놈 프로파일 데이타베이스의 보안적 유지, 표현형 프로파일 결정을 위한 게놈 프로파일로 규칙 적용, 개인별 활동 계획 및 보고서 생성을 위한 컴포터 코트 시스템이 본원에 제공되는데, 예를 들어 가입 차이에 따라 개체에게 다양한 수준의 접근성 및 옵션을 수락하는 컴퓨터 코드를 포함한다.
가입(
subscriptions
)
게놈 프로파일, 표현형 프로파일, 개인별 활동 계획을 포함하는, 보고서를 예컨대 인간 또는 비인간인 개체에 대해, 컴퓨터를 통해 생성시킬 수 있다. 예를 들어, 개체는 다른 포유동물 예컨대 소, 말, 양, 개 또는 고양이 등을 포함할 수 있다. 개체는 개인 애완동물일 수 있고, 애완동물 주인은 그 애완동물의 건강 및 수명을 증가시키기 위해 개인 활동 계획을 원할 수 있다. 개체, 또는 그들의 건강 관리자가 가입자일 수 있다. 본원에 기술된 바와 같이, 가입자는 1 이상의 서비스구매 또는 그에 대한 지불을 통해 서비스에 가입한 인간 개체이다. 서비스는 이에 제한되는 것은 아니고, 다음 중 1 이상을 포함할 수 있다: 개체 또는 다른 개체, 예컨대 가입자의 아이 또는 애완동물의 게놈 프로파일을 결정하여, 표현형 프로파일 획득, 표현형 프로파일의 업그레이드, 및 개인별 활동 계획을 포함하는, 게놈 및 표현형 프로파일을 기초로한 보고서 입수.
가입자는 그들의 건강 관리자, 예컨대 의사 또는 유전자 상담가에게 게놈 및 표현형 프로파일 또는 보고서를 제공하도록 선택할 수 있다. 게놈 및 표현형 프로파일은 건강 관리자가 직접 접근하거나, 가입자가 건강 관리자에게 제공하기 위해 복사물을 인쇄하거나, 또는 직접 온라인 포탈, 예컨대 온라인 보고서 상의 링커를 통해 건강 관리자에게 직접 전달할 수 있다.
게놈 프로파일은 가입자 및 비가입자를 위해 생성되고 디지탈 저장될 수 있지만, 표현형 프로파일 및 보고서에 대한 접근은 가입자에 국한될 수 있다. 예를 들어, 1 이상의 GCI 스코어에 대한 접근은 가입자에게만 제공되고, 비가입자에게는 제공되지 않는다. 다른 별법에서, 가입자와 비가입자 둘 모두가 유전자형 및 표현형 프로파일에 접근할 수 있지만, 비가입자에 대해서는 접근을 제한하거나, 또는 제한된 보고서를 생성하는 반면, 가입자는 완전하게 접근하고 완전한 보고서가 생성된다. 다른 구체에에서, 가입자와 비가입자 둘 모두는 초기에 완전하게 접근하거나, 또는 완전한 초기 보고서를 가질 수 있지만, 가입자만이 그들의 저장된 게놈 프로파일을 기초로 업데이트된 보고서에 접근할 수 있다. 예를 들어, 비가입자는 그들의 GCI 스코어 중 1 이상에 대한 제한된 접근성을 가지거나, 또는 그들 GCI 스코어 1 이상이 생성된 초기 보고서를 받지만, 업데이트된 보고서는 가입 구매 후에만 생성되는 접근성이 제공된다. 건강 관리자 및 의료인, 예컨대 간병인, 의사 및 유전자 상담사가 역시 개체의 GCI 스코어 중 1 이상 대한 접근성을 가질 수 있다.
일부 구체예에서, EGCI 스코어에 대한 접근은 다양한 가입 수준에 따라 제한될 수 있다. 예를 들어, 개체는 그들의 GCI 스코어를 갖도록 가입할 수 있지만, 그들 EGCI 스코어에 대해서는 접근이 제한되거나, 또는 EGCI 스코어를 갖는 특정 병태 또는 질환에 대해서는 접근이 제한될 수 있다. 다르게, GCI 스코어는 비가입자에게 제공하고 EGCI 스코어는 가입자에게 제공한다. 가입 수준은 또한 업데이트되거나 또는 개정된 EGCI 스코어를 생성하도록 그들 환경 인자를 업데이트 또는 변형하는 개체에 따라 다양할 수 있다. 예를 들어, 개체는 그들의 환경 인자를 업데이트하기 위해 시스템에 무제한적 접속권을 갖도록 계속진행 가입을 추구할 수 있다. 다르게, 개체는 계속 진행 가입을 선택하지 않고, 새로운 EGCI 스코어를 생성하기 위해 그들 환경 인자를 업데이트하는 각 시점에 지불할 수 있다. EGCI 스코어의 업데이트는 또한 새로운 과학 정보, 예컨대 유전자 다형성과 질환 또는 병태간에 밝혀진 새로운 상관관계, 또는 다른 유전 인자 및 1 이상의 질환 또는 병태와의 연관성 등을 통합시킬 수 있다. 개체는 또한, 그들이 변경을 원할 수 있는 환경 인자를 기초로 EGCI 스코어를 생성시키는 옵션을 가질 수 있다. 예를 들어, 개체는 일정 도시로의 이사를 고려할 수 있으며, 개체가 그들 EGCI 스코어에 대한 그 영향을 보기 위해 그 도시와 연관된 일정 환경 인자를 입력하거나 또는 선택할 수 있다.
다른 가입 모델은 가입자가 모든 현재의 규칙을 그들 게놈 프로파일에, 또는 현재 규칙의 하위세트를 그들 게놈 프로파일에 적용하도록 선택할 수 있는 표현형 프로파일을 제공하는 모델을 포함할 수 있다. 예를 들어, 실현가능한 질환 표현형에 대해 그러한 규칙만을 적용하도록 선택할 수 있다. 가입은 하나의 가입 부류 내에 상이한 레벨이 존재하도록, 분류될 수 있다. 예를 들어, 상이한 레벨은 가입자가 그들 게놈 프로파일과 상호관련짓고자 하는 표현형의 수, 또는 표현형 프로파일에 접근할 수 있는 사람의 수에 따라 좌우될 수 있다.
다른 가입 레벨을 개체에 특이적인 인자, 예컨대 이미 알려진 표현형 예컨대 연령, 성별, 약력 등을 그들 표현형 프로파일에 통합시키기 위한 것일 수 있다. 기본 가입의 또다른 레벨은 개체가 질환 또는 병태에 대한 1 이상의 GCI 스코어를 생성할 수 있게 한다. 이러한 레벨의 다양화는 1 이상의 GCI 스코어를 생성하는데 사용된 분석에서의 변경으로 인해 1 이상의 GCI 스코어에 임의의 변화가 존재하는 경우 질환 또는 병태에 대한 1 이상의 GCI 스코어의 자동 업데이트가 생성되도록 개체가 더욱 특정할 수 있게 허용할 수 있다. 일부 구체예에서, 개체는 이메일, 음성 메세지, 문자 메세지, 우편 배달 또는 팩스를 통해 자동 업데이트를 통지받을 수 있다.
가입자는 또한 그들의 표현형 프로파일을 비롯하여 표현형에 대한 정보, 예컨대 표현형에 대한 유전자 및 의학 정보를 갖는 보고서를 생성시킬 수 있다. 개체가 접근할 수 있는 정보의 상이한 양은 개체의 가입 레벨에 따라 좌우될 수 있다. 예를 들어, 개체가 가질 수 있는 상이한 뷰 옵션은 그들의 가입 레벨에 따라 좌우될 수 있는데, 예컨대 비가입자 또는 보다 기본적인 가입은 퀵뷰가 가능하지만, 완전 가입자는 컴프리헨시브 뷰에 접근가능하다.
예를 들어, 상이한 가입 레벨은 이에 제한되는 것은 아니고, 보고서에 포함시킬 수 있는, 모집군 내 표현형의 유병률, 상관관계에 사용된 유전자 변이, 표현형을 야기하는 분자 기전, 표현형에 대한 치료법, 표현형에 대한 치료 옵션, 및 예방책을 포함한 정보에 대한 접근성의 상이한 변동 또는 조합을 가질 수 있다. 다른 구체예에서, 보고서는 또한 정보 예컨대 개체 유전자형과 다른 개체, 예컨대 저명인사 또는 다른 유명인의 유전자형 간 유사도 등을 포함할 수도 있다. 유사성 정보는 이에 제한되는 것은 아니고, 상동성 비율, 동일한 변이의 수, 및 유사할 수 있는 표현형일 수 있다. 이들 보고서는 1 이상의 GCI 스코어를 더 포함할 수 있다.
가입 레벨을 기초로 하는 다른 옵션은, 보고서가 온라인으로 접속되는 경우, 표현형에 대한 추가 정보가 있는 다른 사이트에 대한 링크, 온라인 지원 그룹 및 동일 표현형 또는 1 이상의 유사한 표현형을 갖는 사람들의 메세지 보드에 대한 링크, 온라인 유전자 상담가 또는 의사에 대한 링크, 또는 유전자 상담가 또는 의사와 전화 또는 직접 약속 스케쥴을 정하기 위한 링크에 대한 링크를 포함할 수 있다. 보고서가 종이 문서 형태인 경우, 정보는 상기 언급한 링크의 웹사이트 위치, 또는 전화 번호, 유전자 상담가 또는 의사의 주소일 수 있다. 가입자는 또한 어떠한 표현형을 그들 표현형 프로파일에 포함시킬지 그리고 그들 보고서에 어떤 정보를 포함시킬지 선택할 수 있다. 표현형 프로파일 및 보고서는 개체의 건강 관리자 또는 의료인, 예컨대 간병인, 의사, 정신과의사, 심리학자, 치료사, 또는 유전자 상담사가 접근할 수 있다. 가입자는 표현형 프로파일 및 보고서, 또는 이의 일부를 이러한 개인 건강 관리사 또는 의료인에게 접근가능하게 할 것인지에 대해 선택할 수 있다.
다른 가입 레벨은 초기 표현형 프로파일 및 보고서를 생성한 후 개체의 게놈 프로파일을 디지탈적으로 유지시키고, 최신 연구로부터 업데이트된 상관관계를 통합한 표현형 프로파일 및 보고서를 생성할 수 있는 기회를 제공한다. 가입자는 최신 연구로부터 업데이트된 상관관계를 넣은 위험율 프로파일 및 보고서를 생성할 수 있는 기회를 가질 수 있다. 연구가 표현형, 질환 또는 병태와 유전자형 사이의 새로운 상관관계를 밝힌 경우, 이러한 새로운 상관관계를 기초로 새로운 규칙을 개발하게 되고 이미 저장되고 유지시킨 게놈 프로파일에 적용될 수 있다. 새로운 규칙은 이전에 임의의 표현형과 상관관계가 없던 유전자형과 상관관계가 있거나, 새로운 표현형을 갖는 유전자형과 상관관계가 있거나, 현재의 상관관계를 변형시키거나, 또는 유전자형과 질환 또는 병태간에 새롭게 발견된 연관성을 기초로 GCI 스코어의 조정을 위한 기초를 제공할 수 있다. 가입자는 이메일이나 다른 전자 수단을 통해 새로운 상관관계를 통지받을 수 있고, 표현형이 흥미로운 경우, 이러한 새로운 상관관계로 그들의 표현형 프로파일을 업데이트시키는 것을 선택할 수 있다. 가입자는 업데이트 각각, 다수의 업데이트, 또는 지정된 기간(예를 들어, 3개월, 5개월, 또는 1년) 동안 무제한 업데이트를 위해 비용을 지불하는 가입을 선택할 수 있다. 다른 가입 레벨은 가입자가, 새로운 규칙이 새로운 상관관계를 기초로 생성될 때마다, 그들의 표현형 프로파일 또는 위험율 프로파일을 업데이트할 시기를 선택하는 대신, 표현형 프로파일 또는 위험율 프로파일이 자동 업데이트되는 것일 수 있다.
가입자는 또한 비가입자가 표현형 및 유전자형 간 상관관계에 대한 규칙을 생성하고, 개체의 게놈 프로파일을 결정하고, 그 규칙을 게놈 프로파일에 적용하여, 개체의 표현형 프로파일을 생성하는 서비스를 소개할 수 있다. 가입자에 의한 소개는 가입자에게 서비스 가입비 할인, 또는 그들의 현재 가입 등급 상향조정을 제공할 수 있다. 소개받은 개체는 제한된 기간 동안 무료 접근할 수 있거나 또는 가입료를 할인받을 수 있다.
이하 실시예를 예시하고 본원에 개시된 구체예를 설명한다. 개시내용의 범주는 이들 실시예에 의해 제한되지 않는다.
실시예
실시예
1:
GCI
추정
The WTCCC 데이타(Wellcome Trust Case Control Consortium , Nature . 447:661-678 (2007))를 사용하여 GCI 프레임워크를 검사하였다. 이 데이타세트는 질환 표현형을 기초로 7개 하위군으로 나뉘는 대략 14,000 개체의 유전자형 및 UK 혈액 제공 대조군 유래 1,500 샘플의 미영향 대조 하위군을 포함한다. GCI는 유전율 및 평균 생애 위험율이 실질적으로 다른, 2형 당뇨병, 크론병 및 류마티스성 관절염의 상이한 3 질환에 대해 검사하였다. 따라서, 이 분석은 2형 당뇨병, 크론병 및 류마티스성 관절염 하위군 및 대조군에 한정된다. 이들 병태 각각과 유의하게 연관되어 있다고 문헌에 보고되고 일련의 품질 기준을 통과한 SNP(표 2)를 사용한다.
2형 당뇨병, 크론병 및 류마티스성 관절염에 대한 대립유전자 빈도 및 상대 위험율 | |||||
질환 | dbSNP rs iID | RR에 대한 상대 위험율1 | RN에 대한 상대 위험율1 | RR의 빈도2 | RN의 빈도2 |
2형 당뇨병 | rs100129463 rs108116614 rs18012824 rs44029604 rs45065655 rs52154 rs80501366 rs94942667 |
1.1464 1.3008 1.4128 1.1602 1.6133 1.1681 1.3609 1.4909 |
1.0239 1.1282 1.2417 1.1233 1.2738 1.0935 1.1176 1.2296 |
0.5000 0.6667 0.8667 0.1167 0.0847 0.1000 0.1167 0.0169 |
0.4667 0.2500 0.1167 0.3500 0.3729 0.6167 0.6667 0.0847 |
크론병 | rs10001135 rs102103025 rs107616595 rs108833655 rs118053035 rs172214175 rs172346575 rs25421515 rs98585425 |
1.9102 1.8433 1.5461 1.6154 1.8525 1.9118 2.3053 1.9997 1.8316 |
1.5354 1.1890 1.2287 1.1989 1.3875 1.2883 1.5360 1.2980 1.0895 |
0.0000 0.3000 0.2333 0.3000 0.1000 0.1000 0.0667 0.0500 0.0333 |
0.0667 0.5000 0.6333 0.4000 0.3833 0.5167 0.2000 0.2833 0.4167 |
류마티스성 관절염 |
rs101183578 rs132070338 rs64576175 rs66796779 rs69202205 |
1.7278 1.7559 5.0847 3.1672 1.7023 |
1.3152 1.3258 2.3414 1.6847 1.1965 |
0.2712 0.6667 0.2167 0.0000 0.0000 |
0.5254 0.3167 0.5667 0.2833 0.3500 |
1: 여기 제공된 상대 위험율은 본원에 기술한 바와 같이, GCI 방법론을 이용해 계산함. 2: 대립유전자 빈도는 HapMap 프로젝트의 CEU 개체군에서 취함. 3: Sandhu et al., Nat Genet. 39:951-3 (2007). 4: Scott et al., Science. 316:1341-5 (2007). 5: Wellcome Trust Case Control Consortium, Nature. 447:661-78 (2007). 6: Zeggini et al., Science. 316:1336-41 (2007). 7: Salonen et al., Am J Hum Genet. 81:338-45 (2007). 8: Remmers et al., N Engl J Med. 357:977-86 (2007). 9: Kyogoku et al., Am J Hum Genet. 75:504-7 (2004). |
이들 SNP 각에 대해, 상대 생애 위험율을 WTCCC 데이타세트에서 확인된 대립유전자의 실험적 분포도를 기초로 본원에 기술한 바와 같이 산출하였고, GCI 식을 사용하여 개체 당 추정 위험율을 계산하였다. 알려진 위험 변이체 중 일부가 WTCCC가 사용한 Affymetrix 500k GeneChip 어레이에 존재하지 않았고, 그에 따라 GCI의 예측가능성은 이하의 분석에서 나타낸 것보다 아마도 더욱 양호할 것으로 예상된다.
ROC(Receiver Operating Curves)(The Statistical Evaluation of Medical Tests for Classification and Prediction , MS Pepe . Oxford Statistical Science Series , Oxford University Press (2003))를 사용하여 병태에 대한 예상 검사로서 제공되는 GCI의 능력을 평가하였다. 완벽한 검사를 위해, 한계치 t는 t보다 높은 스코어를 갖는 모든 개체가 병태가 발병될 수 있고, t 보다 낮은 스코어를 갖는 모든 개체는 그렇지 않도록 선택하였다. 그러나, 실제로, 임의의 주어진 역치에 대해 일부 분율로 거짓 양성 및 거짓 음성 지정이 존재한다. ROC 곡선은 거짓 양성 비율 및 참 양성 비율간 관계를 그래픽으로 보여주며, 따라서 검사 민감도 및 특이도 간 트레이드오프를 길잡이하는데 사용될 수 있다. ROC 곡선 하 면적(AUC)은 상이한 위험율 추정 스코어를 비교하기 위한 양적 척도로서 사용된다. AUC는 또한 병태의 유전적 원인이 완전하게 이해된 최적 시나리오와 비교하여 임의의 스코어의 상대적 장점을 보여줄 수 있다. 대체로, AUC 값이 클수록, 분류에 대한 스코어가 양호하다. 분류를 무작위로 수행하는 경우, AUC는 0.5로 예상되고 최적 스코어(즉, 참 양성 분율이 1이 되고 거짓 양성 분율이 일부 한계치에서 0이 되는 스코어 함수)를 위해, AUC는 1이다.
비교용 베이스라인을 얻기 위해서, 데이타를 적합화하기 위해 SNP 간 상호작용에 영향을 주는 최고 모델을 계산하기 위한 로지스틱 회귀법을 사용한다. SNP가 이면, 모델은 로짓이 (여기서, sij는 si와 sj 사이의 상호작용임)인 것으로 가정한다. 적합화된 확률을 위험율에 대한 추정치로서 사용하고, 이들 위험율 추정치에 대한 ROC 곡선을 생성시킨다. 이러한 모델은 SNP 간 쌍별 상호작용을 고려하며, 따라서 적어도 GCI 스코어처럼 정확해야 하고, 대체로 이들을 고려하지 않는다. 또한, SNP 쌍 간에 연관 불균형이 존재하면, 로지스틱 회귀법은 이러한 상관관계를 수용하는데 어려움이 있을 수 있는 반면, GCI는 대체로 이를 무시한다. 따라서, 제안된 GCI 스코어에 대해 로지스틱 회귀 분석 모델을 비교하는 것은 GCI의 예측력에 대한 다양한 가설의 영향을 측정하는 능력을 허용한다. 도 1은 모든 3 질환 시나리오에 대한 ROC 곡선을 도시한 것이고, 표 3은 그들의 AUC를 나타낸 것이다. GCI 및 로지스틱 회귀법에 대한 AUC는 모든 3 질환에 대해 상당히 유사하여(표 3), SNP-SNP 상호작용이 위험율 평가를 위한 실질적인 정보를 부가하지 않으며, 적어도 이들 질환 및 이들 SNP에 대해서는 부가하지 않는다는 결론을 얻었다. 따라서, SNP-SNP 상호작용은 이전의 연구로부터 이러한 상호작용에 대한 증거가 존재하지 않는한 무시할 수 있다는 가정은 타당할 수 있다.
3 상이한 스코어 하에서 3종의 상이한 질환에 대한 ROC 곡선 하 면적 | |||||
질환 | 유전율 | 평균 생애 위험율 | 최적 시나리오1 | GCI 스코어 | 로지스틱 회귀분석값 |
2형 당뇨병 | 64% [21] | 25.0% [24] | 0.902 | 0.597 | 0.604 |
크론병 | 80% [22] | 0.56% [25] | 0.982 | 0.654 | 0.646 |
류마티스성 관절염 |
53% [23] | 1.54% [26] | 0.944 | 0.675 | 0.689 |
1: 완전한 유전 정보가 알려진 경우 이상적인 스코어 |
GCI ROC 곡선은 이론적 질환 모델과 비교한다. 이러한 질환 모델은 질환이 환경 및 유전 인자 둘 모두에 의해 영향을 받고, 2 인자가 독립적인 것으로 가정한다. 표현형 P는 P=G+E로 표시되고, 여기서 G는 유전 인자이고 E는 환경 인자이다. 연속 모델이라고도 하는 제1 모델은 G 및 E가 각각 표준 편차 σG 및 σE로 정규 분포하고, 개체는 고정된 α에 대해 P > α이면 그 생애 동안 병태가 발병될 수 있는 것으로 가정한다. 유전율 h은 수많은 복합 질환에 대해 알려져 있기 때문에, σG, σE,및 α는 h=σG 2/(σG 2 + σE 2), 및 평균 생애 위험율은 Pr(P >α)인 제한식을 이용해 고정된다. 유전율 및 평균 생애 위험율은 검사되는 병태 각각에 대해 알려져 있기 때문에, 모델의 매개변수는 질환에 따라 설정할 수 있다. 이 모델을 기초로 분포도 P로부터의 100,000 무작위 샘플을 생성한다. G는 각 개체에 대해 기지인 것으로 가정하고(그러나, E 및 질환 상태는 미지임), ROC 곡선은 G를 기초로 생성한다. 이는 유전 위험율이 완전히 이해되어 있고 모든 개체에 대해 정확하게 측정될 수 있는 최적 시나리오를 나타낸다. 이러한 질환 모델에 대해, 최적 시나리오에 대한 AUC는 단지 질환의 유전율 및 평균 생애 위험율에만 의존적이고, σG, σE, 또는 α의 선택에는 의존적이지 않다.
이 제1 모델에 대한 ROC 곡선 하 면적의 이론적 최대값은 질환의 평균 생애 위험율(ALTR) 및 유전율에만 의존적이다. σe는 환경 변수의 변량을 나타내고, σg는 유전 변수의 변량을 나타낸다. 이 모델에서, 유전(G) 및 환경(E) 변수 둘 모두는 정규 분포이다. ROC 곡선의 이론적 최대값은 유전 변수를 정확하게 알고 환경 변수는 모르는 경우 얻는다. 개체는 G + E > α이면 참인 환자사례이고 그렇지 않으면 참 대조군이다. 유전 변수에 대해 선택된 임의의 컷오프에 대해, 이 컷오프보다 높은 개체는 환자사례로 생각되고 나머지는 대조군으로 여겨진다. 참 양성 분율(TPF)은 환자사례라고 불리는 참 환자사례의 분율이고 거짓 양성 분율(FPF)은 환자사례라고 불리는 참 대조군의 분율이다. 컷오프의 상이한 값에 대한 TPF 대 FPF는 ROC 곡선을 제공한다.
개체의 유전 변수가 일부 컷오프(c)보다 높은 확률은 다음 식에 의해 주어진다:
개체의 유전 변수가 컷오프보다 높고 개체가 참인 환자사례일 확률은 다음 식에 의해 주어진다:
앞의 이중 적분에서 괄호 안의 적분은 오차 함수, erf 관점에서 표현할 수 있다. 정규 분포의 누적 분포 함수가 로 주어졌기 때문에, 괄호 안의 적분은 이다. 따라서, 개체가 참 환자사례이고 그 유전 변수가 c보다 클 확률은 다음과 같이 나타낼 수 있다:
, 여기서 f(h) 및 g(h)는 유전율의 일부 함수이다. 를 이 방정식에 치환하면, 임을 알수 있다. 따라서, P(G > c 및 G + E > α)는 다음과 같이 나타낼 수 있다:
따라서, 임의의 주어진 β에 대한 참 양성 분율은 TPF = P (G > c 및 G + E > α)/ALTR이기 때문에, h 및 ALTR에만 의존적이다.
FPF = P (G > c 및 G + E <= α)/[1 - ALTR]이기 때문에 거짓 양성 분율에 대해서도 역시 동일하게 참이다. 따라서, β의 모든 가능한 값에서 TPF 및 FPF를 기초로 하는, 이론적 ROC 곡선 하 총 면적은 σe 및 σg에 독립적이다.
이전 모델의 별법인, 제2 모델, 또는 이산 모델에서, G = + Y로 가정하고, 여기서 Y는 표준 편차 σY로 정규 분포하고, Xi ∼ B(2, pi)는 이항분포된다. 이 경우, Xi는 큰 효과를 갖는 SNP에 상응하고, Y는 많은 다른 적은 유전 효과를 나타내며; 충분히 적은 유전 효과가 존재한다면, 이들 합의 무증상 양태는 정규 분포를 따를 것으로 예상된다. 매개변수, λ, σY, 및 p를 적절히 설정하여, 큰 효과 SNP의 상대 위험율을 제어할 수 있다. 이들 매개번수는 상대 위험율이 실제 데이타에서 관찰되는 값에 근사하도록 선택된다(표 4). 이전 모델과 유사하게, G가 기지이고(그러나 E는 미지임) 큰 효과 SNP의 상대 위험율 및 위험-대립유전자 빈도가 고정되면, 이산 모델에 대한 ROC 곡선 하 면적은 질환의 유전율 및 평균 생애 위험율에만 의존적이다.
모델 1과 유사한 결과를 질환 모델 2에 대해 얻었다. 구체적으로, 질환과 연관된 것으로 알려진 SNP의 상대 위험율과 위험-대립유전자 빈도(pi)가 고정이면, ROC 곡선 하 총 면적은 질환의 유전율 및 생애 위험율에만 의존적이다. 이 모델에서 유전 변수는 이다. 여기서 G1 ∼ N(0, σg1) 및 Xi들은 이항 분산 B(2, pi)에 따라 분포되고, 여기서 pi는 유전자좌 i에서의 위험 대립유전자의 대립유전자 빈도이다. B(2, pi)는 유전자좌 i에서 개체내 위험 대립유전자 카피수를 제공한다. Xi = 0는 비위험 대립유전자에 대한 동형접합을 의미하고, Xi = 1은 이형접합을 의미하며, Xi = 2는 위험 대립유전자에 대한 동형접합을 의미한다. 정규 변수는 미지의 유전 성분을 나타낸다. 이전과 마찬가지로, 환경 변수 E는 또한 평균 0 및 표준 편차 σe로 정규 분포된다. 표현형은 P = G + E로 주어지며, P >α인 개체는 질병에 걸리는 반면 나머지는 대조군이다. α는 질병에 걸린 개체의 분율이 질환의 평균 생애 위험율과 동일하도록 선택한다.
이 모델에 대한 유전율은 이다. 이형접합 유전자형에 대한 기지 SNP의 상대 위험율은 고정된 것으로 가정하고 이를 RNi으로 표시한다. 정의에 의해, 이형접합체의 상대 위험율은 다음과 같이 주어진다:
, 여기서 모든 j에 대한 은 i와 동일하지 않다. erf는 오류 함수이고 erfc는 상보 오류 함수(즉, 1 - erf(x))이다. G1 + E ∼ N(0, )이므로, 상보 오류 함수 면에서 표현되는 상대 위험율은 다음과 같이 주어진다:
. 따라서, 질환 컷오프가 α인 λis이 (이들은 고유하거나 또는 고유하지 않을 수 있음)의 일부 선택을 위한 SNP에 대한 해법을 나타내면, 컷오프가 Lα인 Lλis는 G1 및 E의 표준 편차가 L 인수 만큼 변화되는 경우 필수적으로 해법이 된다. z가 항상 λis의 선형 조합이기 때문에 이러한 결과가 뒤따른다. 따라서, 및 γ = 는 에 독립적이고, 유전율 및 ALTR 단독에 의존적이다.
정의에 의해, 이다. 따라서, 이는 다음을 의미한다: . 및 pi가 에 독립적이므로, 는 유전율 및 ALTR 단독의 함수이다. 라 하고 V는 Xi 값의 벡터를 나타낸다. 그러면, V = v에 대해 Z = z이면, 는 유전율, ALTR 및 v 단독의 함수이고 에 독립적이다.
참 양성 분율을 다음과 같이 정의한다: Pr(G > c & G + E > a)/Pr(G + E > a), 이 식에서 c는 유전 변수에 대한 컷오프를 나타낸다. β = c/σg1라고 한다. TPF에 대한 분자는 다음 식에서와 같이 계산할 수 있다:
정규 분포의 누적 분포 함수를 표현하기 위해 오차 함수를 사용하면, Pr(G > c & G + E > a)는 다음과 같다:
유사하게, 개체가 참 대조군이고 그 유전 변수가 c보다 클 확률, 즉 P(G > c 및 G + E <= α)는 다음과 같이 나타낼 수 있다:
pis가 고정이면 ALTR = P (G + E > α) 및 Pr(V=v, Z=z)는 고정이다. 따라서, 임의의 주어진 β에 대한 참 양성 분율은 단지 h 및 ALTR에만 의존적이다. FPF = Pr(G > c 및 G + E <= α)/[1 - ALTR]이므로 또한 거짓 양성 분율에 대해서도 동일하게 참이다. 따라서, β의 모든 가능한 값에서 TPF 및 FPF를 기초로 하는, 이론적 ROC 곡선 하 면적은 σe, σg1 및λis에 독립적이다.
우선, 유일한 SNP 존재라고 가정(즉, 모든 j에 대해 λj = 0이고 1과 같지 않다고 가정함)한 각 SNP에 대해 를 결정한다. 이는 RNi가 에 따라 증가하기 때문에 0과 사이에서의 이원 조사를 이용해 수행할 수 있다.
이들 값은 초기에 에 대해 추정한다. 다음으로, 1) 다른 SNP에 대한 가 앞서 계산한 것과 동일하다고 가정하는 를 결정한다. 2) 다른 SNP에 대한 가 앞서 계산한 것과 동일하다고 가정하는 를 결정한다. 3) 다른 SNP에 대한 가 앞서 계산한 것과 동일하다고 가정하는 를 결정한다. 모든 RNi 값이 관찰된 값에 충분히 근접하다면, 중지한다. 그렇지 않다면 단계 1로 돌아간다.
따라서, 환경 변수는 아니고, 모든 유전 변수가 기지이고 모델링된 경우 생성되는 2 세트의 최적 ROC 곡선이 존재한다. 제1 모델은 축적된 수많은 작은 유전 효과가 존재하는 것으로 가정(따라서 이러한 유전 효과는 정규 분포된 무작위 변수로 나타냄)하는 반면, 제2 모델은 작은 효과를 갖는 많은 다른 유전 변수 이외에도 효과가 큰 소수의 유전 변수가 존재한다고 가정한다. 2 모델은 병태의 유전율 및 생애 위험율을 고려하여, 현재 기지인 것들을 기초로 하는 미지의 유전 위험 인자의 현실적인 외삽이 일어난다. 도 1은 이들 시나리오에 대한 ROC 곡선을 도시한 것이고 표3은 이들 면적을 나타낸 것이다. 곡선 하 GCI 면적은 최적의 이론적 일반 모델보다 적고, 추가의 미지 유전 변수 및/또는 상호작용이 이들 질환에 영향을 줄 것으로 예상됨을 시사한다.
도 1을 기초로, 예상 모델링에서의 개선은 아마도 오직 본원에 기술된 3 병태에 대한 추가의 유전 변수의 발견을 통해서 이루어지는 듯 하다. 지금까지 유전 인자가 어느정도의 비율을 차지했는지 아는 것이 유용하다. ROC 곡선 접근법을 이용하는 이러한 양의 추정은 주요 유전 인자가 이미 발견되었고, 상대 위험율이 보다 낮은 수많은 다른 미발견 유전 인자가 존재한다는 주요 가정과 함께 개발되었다.
추가의 독립적인 공통(소수 대립유전자 빈도가 10% 이상) 변이체의 가능한 수가 추정되었고, 여기서 각각의 이러한 변이체는 동형접합 위험 변이체에 대한 상대 위험율이 1.1이고 이형접합 변이체에 대해서는 1.05이며, 이러한 추정치는 실질적으로, 이론적으로 최적인 경계만큼 큰 AUC와 ROC 곡선을 얻기에 충분한 변이체의 수를 제공한다.
3 병태 각각에 대해, 상대 위험율이 낮은 일부 미지의 변이체 k개 이외에도, 유전 인자는 기지인 것으로 가정한다(표 2에서와 동일). 100,000명 개체의 모의실험을 기초로, 대략 1,600개의 추가 변이체가 2형 당뇨병의 유전 변이체를 설명하는데 필요하다. 64%의 높은 유전율 수치에도 불구하고, 2형 당뇨병의 AUC는 현재 지식으로는 매우 낮기 때문에, 이는 직관적이다. 크론병 및 류마티스성 관절염의 경우, 그 결과가 보다 더 현저한데, 각각 13,958 및 6,237의 추가 유전 인자가 발견될 것으로 예상되기 때문이다. 따라서, 현재 알려진 유전 변이체는 이들 병태에 대해 총 유전 변이체의 4%-14%를 차지한다(표 4 참조). 그러나 이러한 결과들은 다른 큰 효과물이 발견될 것으로 예상되지 않는다는 사실에 좌우되지만, 사실 SNP-SNP 또는 SNP-환경 상호작용 또는 다른 덜 연구된 변이체(예를 들어, 변이체 카피수, 희귀 변이체, 후생적 변이체)에 기인한 일부 큰 효과물이 여전히 존재할 수 있다.
3 질환에 대해 빠진 낮은 효과 유전 변이체의 추정 수 | ||
질환 | 미지 변이체의 추정 수* | 모델에 포함된 변이체로 설명되는 유전 변이의 분율 |
2형 당뇨병 | 1600 | 7% |
크론병 | 13958 | 4.4% |
류마티스성 관절염 | 6237 | 14.4% |
*각각은 동형접합체 상대 위험율이 1.10, 이형접합체 상대 위험율이 1.05이고, 소수 대립유전자 빈도가 10%임. |
실시예
2: 미지의
SNP
-
SNP
상호작용의 이론적 효과
GCI 스코어는 모든 SNP가 서로 독립적이고 이들이 질환에 대한 위험성에 대해 독립적인 영향력을 갖는다는 가정을 기초로 한다. 도 1에 도시한 바와 같이, 여기서 연구된 3가지 예들은 GCI 모델과, SNP 중 쌍별 의존성이 로지스틱 회귀법을 통해 포함되는 모델 간의 유의한 편차를 보여주지 않았다. SNP-SNP 상호작용이 다른 질환에 존재하고 고려되어야만하는 일부 알려진 예들이 존재한다(예를 들어, [Zheng et al ., N Engl J Med . 358:910-919 (2008)] 참조). 이들 상호작용이 기지이면, 이들을 용이하게 GCI 모델에 통합시킬 수 있다. 그러나, 위험 추정치에 대한 미지의 SNP-SNP 상호작용의 영향을 이해하는 것이 중요하다.
더욱 상세하게 상호작용 문제를 조사하기 위해, 데이타세트를, 상대 위험율이 데이타세트내 SNP의 단일 쌍에 대해 독립적이지 않은 상호작용 모델 하에서 모의실험하였다. 위험성 평가에 대한 2 가지 접근법을 기초로 ROC 곡선을 그리기 위해 모의실험된 환자-대조군 데이타를 사용하였다. 우선, 상호작용 모델에 따른 개체의 상대 위험율을 계산한다. 다음으로, GCI 접근법에 따른 상대 위험율을 지정하고, 이는 승법 모델을 가정한다. 도 2 및 표 5에서 관찰되는 바와 같이, ROC 곡선은 상호작용 인자가 매우 높을 경우에만 실질적으로 다르다.
상이한 상호작용 시나리오에 대한 곡선하 면적(AUC) | ||||
모의실험된 상호작용 인자 21 | 모의실험된 상호작용 인자 102 | |||
상호작용 위험 추정치 |
GCI 위험 추정치 (승법) |
상호작용 위험 추정치 |
GCI 위험 추정치 (승법) |
|
크론병 | 0.676 | 0.664 | 0.833 | 0.727 |
류마티스성 관절염 |
0.709 | 0.699 | 0.843 | 0.761 |
2형 당뇨병 | 0.633 | 0.619 | 0.709 | 0.646 |
1. 이 2 컬럼은 유전자형의 일정 조합의 효과이 한계 효과 결과물의 2배인 SNP-SNP 상호작용이 존재하는 경우에 해당됨. 2. 이 2 컬럼은 유전자형의 일정 조합의 효과가 한계 효과의 결과물의 10배인 SNP-SNP 상호작용이 존재하는 경우에 해당됨. |
그러나, SNP 쌍 간의 이러한 강력한 상호작용은 게놈 광범위 연관성 연구에서 발견되었던 듯 하고 이러한 강력한 상호작용에 들어가는 2 SNP가 검출가능한 주요 효과를 보이지 않는다는 것이 확인된 것은 예외적일 수 있다. 구체적으로, 전체 게놈 연관성 연구는 흔히 SNP-SNP 상호작용을 검사하였지만 유의한 것으로 확인되지 않았다고 보고되었다(e.g. Barrett et al ., Nature Genet . 40:955-962 (2008)). 따라서, 그러한 상호작용이 SNP 세트에 대한 문헌에서 보고되지 않은 경우, 단순 승법 검사의 분류 정확성은 상호작용을 포함하는 참 모델과는 상당히 다를 것 같지 않다.
미지의 SNP-SNP 상호작용의 효과를 검사하기 위해, 다음의 모델을 기초로 하는 데이타를 모의실험한다. λi를 유전자형(gi)의 특정 조합에 대한 질환의 상대 위험율이라고 하고 p는 질환이 발병될 평균 확률(즉, 생애 위험율)이라 한다. 상대 위험율의 정의에 의해, λi = P(질환|gi)/P(질환|g0)이다. 여기서, g0는 질환이 발병될 가능성이 최소인 유전자형을 표시한다. 단순 승법 모델에서, 유전자좌 전체에서 상대 위험율을 곱하여 전체 상대 위험율을 얻는다. 따라서, 이고, 여기서 λij는 j th 유전자좌에 대한 상대 위험율을 나타낸다. 상호작용 모델에서, 유전자형의 한 조합에 대한 상대 위험율의 특정 쌍은 상대 위험율의 결과물보다 2 또는 10배 큰 것으로 가정하며; 이 수치는 상호작용 인자라고 한다. 모든 다른 SNP에 대해, 상대 위험율은 독립적인 것으로 가정한다. 따라서, 예를 들어, SNP x 및 y가 상호작용하면, 이 쌍에 대한 상대 위험율은 (gix, giy)의 일정 배열에 대해 K = 2λixλiy이고, 다른 조합에 대해 K=λi1λi2이다. 이 경우 총 위험율은 이다.
이 모델을 기초로, 무작위로 추출된 100,000 샘플에 대해 질환 상태 라벨을 지정한다. 개체에 지정되는 확률은 P(질환|gi) = Cλi인 경우이고, 여기서 C는 정규화 인자이며, λi는 개체 i의 상대 위험율이고, 상호작용 모델을 기초로 지정된다. C는 환자들의 분율이 질환의 평균 생애 위험율에 근접하도록 선택된다. 그 결과 상호작용 모델 하의 환자 및 대조군의 대량 모의실험 데이타가 얻어진다.
실시예
3: 위험 추정치의 절대 오차 측정
ROC는 건강한 개체와 병든 개체를 구별하기 위한 검사법의 능력에 대한 양적 측정을 제공하는 진단을 평가하기 위한 일 계측법으로서 제공된다. 그러나, 생애 위험율을 평가하는 경우, ROC 곡선은 올바른 확률론적 추정치를 이용하지 않는 경우 이상적인 측정이 아닐 수 있다. 구체적으로, 임의의 소정의 스코어 함수 쌍, f1(G) 및 f2(G)에 대해, 함수의 ROC 곡선은 f1이 f2의 단조 상승 함수인 한 동일하게 된다. 예를 들어, 간단히 f2(G) = log(f1(G))로 지정하면, 이 경우 위험율 추정을 위해 스코어 f1 및 f2를 이용하여, 정확히 동일한 ROC 곡선을 얻게 된다. 그러나, 이들 2 함수는 개체에 대해 매우 상이한 확률론적 위험 추정치를 제공할 수 있다. 따라서, ROC 곡선은 확률론적 위험율을 보고하는 검사들에 대해 반드시 양호한 측정법이지 않을 수 있다. 확률론적 위험율 평가에 대해 보다 유익한 검사가 참 위험 확률과 추정 위험 활륙 간 평균 절대 편차일 수 있다.
질환 발병에 대한 참 확률이 미지이므로, 환자-대조군 데이타를 사용하여 GCI 매개변수(즉, 상대 위험율)를 계산하는 시나리오를 모의실험하고, 다음으로 GCI 위험 추정치를 다른 독립적으로 모의실험한 모집군에 적용한다. 모의실험에 대한 질환 모델은 질환의 유전 인자가 정규 분포(상기 기술한 바와 같음)에 의해 근사치를 내는 다수의 적은 효과 및 소수의 큰 효과로 분해된다. 대부분의 질환이 생애 후기에 진단되므로, 모델에 질환 개시 연령을 도입한다. 모델을 기초로 질환이 발병될 것으로 결정된 각 개체에 대해, 질환 개시 연령은 개시 연령에 대한 일부 분포를 기초로 한다(평균 = 50 및 SD =13인 정규 분포). 따라서, 모의실험에서, 대조군의 일부는 사실 일정 시점에서 진단받지 않은 환자일 수 있다. 연령-매칭된 환자-대조군 연구의 현실적인 모의실험을 만들기 위해, 유전 및 환경 인자 뿐만 아니라, 개체에 대한 개시 연령을 반복적으로 모의실험한다. 0 내지 100 사이의 균일 분포로부터 개체의 연령을 선택한다. 이는 10,000 환자를 얻을 때까지 반복한다. 이들 환자 각각에 대해, 그들 중 한명이 대조군인 것으로 확인될 때까지 개체의 유전 및 환경 인자를 모의실험하고 연령은 고정하여 연령 매칭된 대조군을 생성한다. 이러한 프로세스는 10,000 환자 및 10,000 대조군을 갖는 연령 매칭된 환자-대조군 데이타세트를 제공한다. 이러한 환자-대조군 데이타를 기초로 각 SNP에 대한 승산비를 추정하고 다음으로 이를 사용하고 본원에 기술된 GCI 방법론을 이용해, 질환과 연관된 각 SNP 에 대한 상대 위험율을 계산한다.
이들 모의실험을 이용해 얻어진 위험 추정값을 검사한다. 500 개체를 참 질환 모델에 따라 생성한다. 질환 모델이 기지이므로, 이들 개체 각각에 대해, 병태가 발병할 올바른 위험율을 계산한다. 이들 '참 위험 추정치'를 정확한 측정을 위한 기준값으로서 사용한다. GCI 위험 추정치를 이러한 기준값을 비롯하여, 상대 생애 위험율을 승산비로 교체한 GCI의 별법과 비교한다.
도 3에서, 평균 생애 위험율이 25%이고 유전율이 64%인 모의실험된 질환(도 3a), 및 평균 생애 위험율이 42%이고 유전율이 57%인 질환(도 3b)에 대한 상대 오차의 절대값 분포를 그래프로 나타내었다. 이들 값은 대체로 2형 당뇨병 및 심근경색의 생애 위험율 및 유전율에 상응한다. 상대 유전율을 이용할 경우 및 승산비를 이용하는 경우의 GCI 간 편차가 존재한다. 이러한 편차는 ROC 곡선을 사용하여 위험 추정치의 정확성을 수량화하는데 사용시 주목받지 않을 수 있다. GCI에 의해 발생된 오차는 정규적으로 5% 보다 높지 않다. 이는 모든 유전 위험율이 기지이고 질환 모델이 현실성을 적절하게 대표한다는 가정 하이다.
실시예
4: 유전 인자 평가 및 가족력
질환 위험율을 추정하기 위해 유전자형 정보를 이용하는 것과 대조적으로, 질환 위험율을 추정하기 위해 가족력을 이용하는 것은 임상 셋팅에서 통례이다. 가족력과 비교하여 유전자형 정보를 이용하는 추가 값에 대한 문제들이 생길수 있다. 이러한 문제들을 해결하기 위해, 부모의 질환 상태 정보가 기지인 시나리오를 모의실험하고, 이 정보를 질환에 대한 개체의 위험율에 대한 검사로서 사용한다. 이러한 검사의 거짓 양성 및 참 양성 비율은 유전자형 검사로 얻은 것과 비교한다.
이산 질환 모델을 모의실험에 사용한다. 질환에 대한 각 SNP 위치에서 대립유전자 빈도에 따른 100,000 부-모 쌍에 대한 무작위 유전자형을 생성시킨다. 유전자형은 유전자좌 전반에서 독립적인 것으로 가정한다. 각 트리오에 대해, 아이는 각 유전자좌에 대해 독립적으로 각 부모로부터 하나의 대립유전자를 무작위로 선택하여 생성한다. 아이의 유전 정상 성분은 단순히 2 부모의 정규화된 평균이고, 환경 인자는 부모의 환경 인자 및 독립적인 환경 인자의 조합이다. 따라서, 아버지와 어머니의 표현형을 각각 PF 및 PM이라하고, 이때 PF = XF + GF+EF, 및 PM=XG + GM+EM(이 식에서, X는 이항 유전 분포이고, G ∼ N(0, σG) 및 E ∼ N(0, σE)는 정규 분포된 유전 및 환경 인자임)이면, 아이의 표현형은 이라고 가정되며, 이 식에서 EC ∼ N(0, σE)는 아이의 독립적인 환경 변수를 나타내고, XC는 큰 효과에 기여하는 유전 인자이다. 병태의 유전율은 제한식 2a2 + b2 = 1이 되게 한다. 따라서, 매개변수 b는 아이에 대한 부모의 환경 영향을 결정한다. b=1이면, 부모의 환경은 아이에게 영향을 주지 않고, b=0일 때, 아이의 환경은 전적으로 부모에 의해 결정된다. 이들 모의실험을 기초로, 참 양성 및 거짓 양성 분율은, 아이의 부모가 환자이면 아이가 환자로 표시되고 그렇지 않으면 대조군으로 판단되는 단순 분류 검사를 위해 계산된다. 이러한 검사가 가족력 검사이다.
이 검사는 상기 기술된 바와 같은, 유전자형 기초 검사의 이론적 한계에 상응되는 ROC 곡선과 비교된다. 도 4에 도시한 바와 같이, 가족력 검사의 민감도 및 특이도는 심하게 매개변수 b의 선택에 의존적이다. 이들 그래프로부터 몇가지 결론이 돌출될 수 있다. 우선, 모든 3 질환 모델에 대해, b 값에 따라, 가족력이 GCI 검사보다 열등한 환자사례가 존재하고, 보다 우수한 다른 환자사례가 존재한다는 것이 분명하다. 대부분의 환자사례에서, 그러나, 2 검사는 상당히 유사한 결과를 준다. 하지만, 가족력의 민감도 및 특이도 값은 모집군 내 고정된, b에 의존적인 반면, GCI 검사는 전체 범위의 특이도 및 민감도 값에 대해 허용된다. 예를 들어, 크론병을 예로 들면, 약간 더 거짓 양성을 허용하여, GCI 검사를 사용해 98%에 가깝게 참 양성의 수를 증가시킬 수 있는 한편, 가족력 검사에 대한 참 양성 비율은 65%로 바운딩된다.
실시예
5: 기지의 환경 인자가 예측성을
개선시킨다
질환 예측성에 대한 기지 환경 인자의 가능한 기여도를 추정하기 위해, 환경 및 유전자형 데이타 둘 모두를 사용해 위험율을 추정한다. 여기서, 유전율 및 평균 생애 위험율 값이 매우 다른, 2형 당뇨병, 크론병 및 류마티스성 관절염 전반에서 환경 인자의 활용성을 검증한다. 모든 환경 인자를 비롯하여 모든 SNP에 대한 위험율은 독립적인 것으로 가정한다. 이러한 가정을 반드시 유지시키는 것은 아니지만, 이하에 더 설명하는 바와 같이, 실질적으로 결과에 영향을 미치게 되는 것은 아니다. 이 가정을 기초로, 환경 인자가 고려되는 환자사례에 대한 GCI를 일반화한다. 얻어진 방법을 EGCI라고 한다. 모집군 내 유전자형 및 표현형 빈도를 기초로 100,000 개체 세트에 대한 유전자형 및 표현형 값을 모의실험한다. 승법 모델을 기초로 이들 개체에 대해 질환을 지정한다.
순수한 유전자 기반 GCI를 새롭게 일반화한 EGCI와 비교한다. 2형 당뇨병, 크론병 및 류마티스성 관절염에 대한 ROC 곡선을 도 5에 도시하였다. 환경 인자의 추가된 값은 크론병 및 류마티스성 관절염에 대해서는 인상적이지 않지만, 2형 당뇨병에 대해서는 실질적이다. 이는 체질량 지수가 2형 당뇨병에 대한 위험율(BMI > 35인 경우 상대 위험율 42.1)에 결정적인 영향을 준다는 사실에 의한다. 예컨대 크론병 등에 대한 질환의 경우, 이 병태의 유전율이 대략 80%이기 때문에, 환경 인자가 중요한 역할을 할 것이라고 예상되지 않는다는 점을 주목한다.
실시예
6: 추정된 질환 생애
위험율의
오차
인간 게놈 프로젝트, HapMap 프로젝트 및 관련 계획들은 기준 인간 게놈 서열, 공통 유전 변이 카탈로그, 및 몇몇 기준 모집군의 일배체형 지도를 생성시켰다. 또한, 모든 유형의 질환 및 특성 및 게놈 전반의 변이간 연관성을 검사하기 위한 비용 효율적 기술과 조합된 이러한 정보는 명백하게 통계적으로 공통 질환의 위험성과 연관된 것으로 보이는 수많은 공통 변이체를 제공하였다. 이들 공통 변이체는 질환의 확률론적 전증상 위험성을 평가시 모집군-유래된 환경 위험 인자 데이타와 상당히 유사하게 사용될 수 있다.
특정 수량의 모든 추정치와 유사하게, GCI는 위험 추정치를 한쪽으로 치우치게 하는 일련의 가정을 요구한다. 구체적으로, GCI 스코어에 의한 가정들은 우연한 SNP의 대립유전자 빈도 및 효과 크기가 기지이고, SNP-SNP 상호작용이 기지이다. 이들 가정은 실제로 위반되는 것일 수 있지만, 본원에 기술한 바와 같이, 이들 가정으로부터의 약간의 편차가 상당히 위험 추정치를 변화시키지 않는다. 구체적으로, WTCCC 데이타의 분석을 통해 그리고 모의 연구를 통한 이전 예들에 나타낸 바와 같이, 약한 SNP-SNP 상호작용은 GCI에 대해 거의 효과가 없고, 생애 위험 추정치의 편차은 상대 위험 추정치의 정확도를 변화시키지 않는다(도 6 참조).
ROC 곡선은 질환의 평균 생애 위험율이 기지이고 이 값을 사용하여 질환의 이론적 모델에서 질환 상태를 지정하기 위한 컷오프를 계산한다는 가정을 기초로 한다. 그러나, 모집군 데이타로부터 이용가능한 추정치가 부정확할 수 있고 이러한 오차가 질환을 얻는 GCI-기반 위험율에 상당한 영향을 미칠 수 있다. 여기서의 계산에서, 평균 생애 위험율은 이들 대략적인 추정치(LTR')와 동일한 것으로 가정한다.
계산에서 사용된 가정된 위험율 함수에 따른 질환의 참 평균 생애 위험율과 GCI-기반 평균 생애 위험율 간 오차를 도 6a에 그래프로 나타내었다. 가정된 평균 생애 위험율 함수에 따른 가정된 평균 생애 위험율과 GCI-기반 평균 생애 위험율 간 절대 오차를 또한 도 6b에 그래프로 나타내었다.
본 발명의 바람직한 구체예를 나타내고 설명하였지만, 이러한 구체예는 단지 예로서 제공된 것임을 당분야의 당업자에게는 분명하다. 수많은 별법, 변화 및 치환이 본 발명의 내용을 벗어나지 않고 당업자의 숙련가가 만들 수 있다. 본원에 개시한 구체예의 다양한 대안들이 구체예들을 실시하는데 적용될 수 있음을 이해할 것이다. 이하 첨부된 청구항이 본 발명의 범주를 한정하는 것이고 이들 구체예 및 균등물의 범주 내에 속하는 방법 및 구조들을 포괄하고자 한다.
Claims (31)
- 개체에 대해 질환 또는 병태에 대한 환경 유전 복합 지수(EGCI) 스코어를 생성하는 방법으로서,
(a) 상기 개체의 유전자 샘플로부터 게놈 프로파일을 생성하는 단계;
(b) 상기 개체로부터 1 이상의 환경 인자를 획득하는 단계로서, 상기 1 이상의 환경 인자는 상기 질환 또는 병태에 대해 대략 1 이상의 상대 위험율을 갖는 것인 단계;
(c) 컴퓨터를 이용하여 상기 게놈 프로파일 및 상기 1 이상의 환경 인자로부터 EGCI 스코어를 생성하는 단계; 및
(d) 상기 컴퓨터로부터 획득되고 출력된 상기 EGCI 스코어를 상기 개체 또는 상기 개체의 건강 관리자에게 보고하는 단계
를 포함하는, 생성 방법. - 제1항에 있어서, 상기 상대 위험율은 대략 1.1 이상, 1.2 이상, 1.3 이상, 1.4 이상, 또는 1.5 이상인 생성 방법.
- 제1항에 있어서, 상기 상대 위험율은 대략 2 이상, 3 이상, 4 이상, 5 이상, 10 이상, 12 이상, 15 이상, 20 이상, 25 이상, 30 이상, 35 이상, 40 이상, 45 이상, 또는 50 이상인 생성 방법.
- 제1항에 있어서, 1 이상의 환경 인자는 대략 1 이상의 승산비(OR; odds ratio)를 갖는 것인 생성 방법.
- 제4항에 있어서, 상기 OR은 대략 1.1 이상, 1.2 이상, 1.3 이상, 1.4 이상, 또는 1.5 이상인 생성 방법.
- 제4항에 있어서, 상기 OR은 대략 2 이상, 3 이상, 4 이상, 5 이상, 10 이상, 12 이상, 15 이상, 20 이상, 25 이상, 30 이상, 35 이상, 40 이상, 45 이상, 또는 50 이상인 생성 방법.
- 제1항에 있어서, 상기 1 이상의 환경 인자는 상개 개체의 출생지, 거주지, 생활방식 상태; 식이, 운동 습관, 및 대인 관계로 이루어진 군에서 선택되는 것인 생성 방법.
- 제7항에 있어서, 상기 생활방식 상태는 흡연 또는 알콜 섭취인 생성 방법.
- 제1항에 있어서, 상기 1 이상의 환경 인자는 상기 개체의 신체 측정치인 생성 방법.
- 제9항에 있어서, 상기 개체의 신체 측정치는 체질량 지수, 혈압, 심박수, 포도당 수치, 대사산물 수치, 이온 수치, 체중, 신장, 콜레스테롤 수치, 비타민 수치, 혈액 세포 계측수, 단백질 수치 및 전사체 수치로 이루어진 군에서 선택되는 것인 생성 방법.
- 제1항에 있어서, 상기 EGCI 스코어를 생성하는 단계는 2 이상의 환경 인자를 이용하는 것인 생성 방법.
- 제1항에 있어서, 상기 EGCI 스코어를 생성하는 단계는 상기 1 이상의 환경 인자가 상기 질환 또는 병태에 대해 독립적인 위험 인자인 것으로 가정하는 것인 생성 방법.
- 제1항에 있어서, 상기 질환 또는 병태는 유전율이 대략 95% 미만인 생성 방법.
- 제1항에 있어서, 상기 질환 또는 병태는 유전율이 대략 5% 미만, 10% 미만, 15% 미만, 20% 미만, 25% 미만, 30% 미만, 35% 미만, 40% 미만, 45% 미만, 50% 미만, 55% 미만, 60% 미만, 65% 미만, 70% 미만, 75% 미만, 80% 미만, 85% 미만, 또는 90% 미만인 생성 방법.
- 제1항에 있어서, 제3자가 상기 유전자 샘플을 획득하는 것인 생성 방법.
- 제1항에 있어서, 상기 게놈 프로파일을 생성하는 단계는 제3자에 의한 것인 생성 방법.
- 제1항에 있어서, 상기 보고 단계는 네트워크 상에서 상기 EGCI 스코어를 전송하는 것을 포함하는 것인 생성 방법.
- 제1항에 있어서, 상기 보고 단계는 온라인 포탈을 통하는 것인 생성 방법.
- 제1항에 있어서, 상기 보고 단계는 문서 또는 이메일에 의한 것인 생성 방법.
- 제1항에 있어서, 상기 보고 단계는 보안 방식 보고를 포함하는 것인 생성 방법.
- 제1항에 있어서, 상기 보고 단계는 비보안 방식 보고를 포함하는 것인 생성 방법.
- 제1항에 있어서, 상기 유전자 샘플은 DNA인 생성 방법.
- 제1항에 있어서, 상기 유전자 샘플은 RNA인 생성 방법.
- 제1항에 있어서, 상기 유전자 샘플은 혈액, 모발, 피부, 타액, 정액, 소변, 배설물, 땀, 및 구강 샘플로 이루어진 군에서 선택된 생물학적 샘플 유래인 생성 방법.
- 제1항에 있어서, 상기 개체의 게놈 프로파일은 보안 데이타베이스 또는 보관소에 기탁되는 것인 생성 방법.
- 제1항에 있어서, 상기 게놈 프로파일은 단일 뉴클레오티드 다형성 프로파일인 생성 방법.
- 제1항에 있어서, 상기 게놈 프로파일은 절단, 삽입, 결실, 또는 반복을 포함하는 것인 생성 방법.
- 제1항에 있어서, 상기 게놈 프로파일은 고밀도 DNA 마이크로어레이를 이용해 생성하는 것인 생성 방법.
- 제1항에 있어서, 상기 게놈 프로파일은 RT-PCR을 이용해 생성하는 것인 생성 방법.
- 제1항에 있어서, 상기 게놈 프로파일은 DNA 서열분석법을 이용해 생성하는 것인 생성 방법.
- 제1항에 있어서, (e) 상기 EGCI 스코어를 부가 또는 변형된 환경 인자로 업데이트하는 단계를 더 포함하는 것인 생성 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US9675808P | 2008-09-12 | 2008-09-12 | |
US61/096,758 | 2008-09-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20110074527A true KR20110074527A (ko) | 2011-06-30 |
Family
ID=41381854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020117008292A KR20110074527A (ko) | 2008-09-12 | 2009-09-11 | 복수의 환경 및 유전 위험 인자를 통합하기 위한 방법 및 시스템 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20100070455A1 (ko) |
EP (1) | EP2335174A1 (ko) |
JP (2) | JP2012502398A (ko) |
KR (1) | KR20110074527A (ko) |
CN (1) | CN102187344A (ko) |
AU (1) | AU2009291577A1 (ko) |
BR (1) | BRPI0918889A2 (ko) |
GB (1) | GB2477868A (ko) |
TW (1) | TWI423151B (ko) |
WO (1) | WO2010030929A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102091790B1 (ko) * | 2019-09-02 | 2020-03-20 | 주식회사 클리노믹스 | 피검사자와 생물체 간의 유전자 정보를 이용한 유전적 띠 제공 시스템 및 그 방법 |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103710429B (zh) | 2005-11-29 | 2016-03-30 | 剑桥企业有限公司 | 乳腺癌标志物 |
US20080131887A1 (en) * | 2006-11-30 | 2008-06-05 | Stephan Dietrich A | Genetic Analysis Systems and Methods |
US7844609B2 (en) | 2007-03-16 | 2010-11-30 | Expanse Networks, Inc. | Attribute combination discovery |
WO2009042975A1 (en) * | 2007-09-26 | 2009-04-02 | Navigenics, Inc. | Methods and systems for genomic analysis using ancestral data |
US9336177B2 (en) * | 2007-10-15 | 2016-05-10 | 23Andme, Inc. | Genome sharing |
US10275569B2 (en) | 2007-10-15 | 2019-04-30 | 22andMe, Inc. | Family inheritance |
US20090226912A1 (en) * | 2007-12-21 | 2009-09-10 | Wake Forest University Health Sciences | Methods and compositions for correlating genetic markers with prostate cancer risk |
US20100042438A1 (en) * | 2008-08-08 | 2010-02-18 | Navigenics, Inc. | Methods and Systems for Personalized Action Plans |
US8108406B2 (en) | 2008-12-30 | 2012-01-31 | Expanse Networks, Inc. | Pangenetic web user behavior prediction system |
EP3276526A1 (en) | 2008-12-31 | 2018-01-31 | 23Andme, Inc. | Finding relatives in a database |
EP2438193B1 (en) * | 2009-06-01 | 2015-07-22 | Genetic Technologies Limited | Methods for breast cancer risk assessment |
EP2504448B1 (en) * | 2009-11-25 | 2016-10-19 | Bio-Rad Laboratories, Inc. | Methods and compositions for detecting genetic material |
KR20110136638A (ko) * | 2010-06-15 | 2011-12-21 | 재단법인 게놈연구재단 | 게놈정보를 이용하여 온라인 상의 사회적 네트워크를 형성하는 시스템 및 그 형성방법 |
EP2611943B1 (en) | 2010-09-03 | 2017-01-04 | Wake Forest University Health Sciences | Methods and compositions for correlating genetic markers with prostate cancer risk |
TWI425928B (zh) * | 2010-11-11 | 2014-02-11 | E Da Hospital I Shou University | 個人健康風險評估方法 |
US9534256B2 (en) | 2011-01-06 | 2017-01-03 | Wake Forest University Health Sciences | Methods and compositions for correlating genetic markers with risk of aggressive prostate cancer |
KR101268766B1 (ko) * | 2011-01-20 | 2013-05-29 | 순천향대학교 산학협력단 | 중증 천식의 악화 진단용 기상 및 대기 오염 인자의 위험도 예측방법 |
EP3940084A1 (en) | 2011-02-09 | 2022-01-19 | Bio-Rad Laboratories, Inc. | Analysis of nucleic acids |
EP2761520B1 (en) * | 2011-09-26 | 2020-05-13 | Trakadis, John | Diagnostic method and system for genetic disease search based on the phenotype and the genome of a human subject |
US8990250B1 (en) | 2011-10-11 | 2015-03-24 | 23Andme, Inc. | Cohort selection with privacy protection |
US10437858B2 (en) | 2011-11-23 | 2019-10-08 | 23Andme, Inc. | Database and data processing system for use with a network-based personal genetics services platform |
US10025877B2 (en) | 2012-06-06 | 2018-07-17 | 23Andme, Inc. | Determining family connections of individuals in a database |
TWI632518B (zh) * | 2012-07-12 | 2018-08-11 | 基龍米克斯生物科技股份有限公司 | 建立性格與基因關聯性模型的方法及其應用 |
US9977708B1 (en) | 2012-11-08 | 2018-05-22 | 23Andme, Inc. | Error correction in ancestry classification |
US9213947B1 (en) | 2012-11-08 | 2015-12-15 | 23Andme, Inc. | Scalable pipeline for local ancestry inference |
JP6268184B2 (ja) * | 2012-11-26 | 2018-01-24 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 患患者固有の関連性評価を用いた変異と疾患の関連付けを使用する診断的遺伝子分析 |
US10102333B2 (en) * | 2013-01-21 | 2018-10-16 | International Business Machines Corporation | Feature selection for efficient epistasis modeling for phenotype prediction |
US9910962B1 (en) * | 2013-01-22 | 2018-03-06 | Basehealth, Inc. | Genetic and environmental risk engine and methods thereof |
US9152920B2 (en) * | 2013-03-15 | 2015-10-06 | Yahoo! Inc. | System and method of event publication in a goal achievement platform |
EP3054412A4 (en) * | 2013-10-01 | 2017-03-01 | Tohoku University | Health information processing device, health information display device, and method |
CN105981024B (zh) * | 2013-12-12 | 2019-03-26 | Ab生物股份有限公司 | 用于提供关于药物使用的个性化推荐的基于网络的计算机辅助方法和系统及计算机可读介质 |
US20150269345A1 (en) * | 2014-03-19 | 2015-09-24 | International Business Machines Corporation | Environmental risk factor relevancy |
MX2017004127A (es) | 2014-09-30 | 2017-10-24 | Genetic Tech Limited | Metodos para evaluar el riesgo de desarrollar cancer de mama. |
US10296993B2 (en) | 2014-11-10 | 2019-05-21 | Conduent Business Services, Llc | Method and apparatus for defining performance milestone track for planned process |
GB2561300B (en) * | 2015-09-07 | 2021-03-10 | Global Gene Corp Pte Ltd | Method and system for diagnosing disease and generating treatment recommendations |
EP3350721A4 (en) * | 2015-09-18 | 2019-06-12 | Fabric Genomics, Inc. | PREDICTION OF DISEASE LOAD FROM GENOME VARIANTS |
JP6702686B2 (ja) * | 2015-10-09 | 2020-06-03 | 株式会社エムティーアイ | 表現型推定システム及び表現型推定プログラム |
US20170161837A1 (en) * | 2015-12-04 | 2017-06-08 | Praedicat, Inc. | User interface for latent risk assessment |
EP3475911A1 (en) * | 2016-06-22 | 2019-05-01 | Swiss Reinsurance Company Ltd. | Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof |
US10998103B2 (en) | 2016-10-06 | 2021-05-04 | International Business Machines Corporation | Medical risk factors evaluation |
US10892057B2 (en) | 2016-10-06 | 2021-01-12 | International Business Machines Corporation | Medical risk factors evaluation |
TWI607332B (zh) * | 2016-12-21 | 2017-12-01 | 國立臺灣師範大學 | Correlation between persistent organic pollutants and microRNAs station |
WO2018144320A1 (en) * | 2017-01-31 | 2018-08-09 | Counsyl, Inc. | Systems and methods for automatically generating genetic risk assessments |
US11404165B2 (en) * | 2017-03-30 | 2022-08-02 | Northeastern University | Foodome platform |
WO2018204414A1 (en) * | 2017-05-02 | 2018-11-08 | Human Longevity, Inc. | Genomics-based, technology-driven medicine platforms, systems, media, and methods |
KR102155776B1 (ko) * | 2017-09-13 | 2020-09-15 | 지니너스 주식회사 | 비만과 관련된 유전 정보를 이용한 개인 맞춤형 체지방 관리 방법 |
CN107680685A (zh) * | 2017-10-24 | 2018-02-09 | 山东浪潮云服务信息科技有限公司 | 一种疾病预警方法及系统 |
US11081217B2 (en) * | 2017-12-21 | 2021-08-03 | Basehealth, Inc. | Systems and methods for optimal health assessment and optimal preventive program development in population health management |
CN108346468B (zh) * | 2017-12-27 | 2021-03-23 | 北京科迅生物技术有限公司 | 数据处理方法及装置 |
GB201801137D0 (en) * | 2018-01-24 | 2018-03-07 | Fitnessgenes Ltd | Generating optimised workout plans using genetic and physiological data |
CN112074910A (zh) * | 2018-03-15 | 2020-12-11 | Arm有限公司 | 用于组学和/或行为内容处理的系统、装置和/或过程 |
US10841299B2 (en) | 2018-03-15 | 2020-11-17 | Arm Ltd. | Systems, devices, and/or processes for omic content processing and/or partitioning |
US10841083B2 (en) | 2018-03-15 | 2020-11-17 | Arm Ltd. | Systems, devices, and/or processes for OMIC content processing and/or communication |
US20210254164A1 (en) * | 2018-06-15 | 2021-08-19 | Opti-Thera Inc. | Polygenic risk scores for predicting disease complications and/or response to therapy |
US11527331B2 (en) | 2018-06-15 | 2022-12-13 | Xact Laboratories, LLC | System and method for determining the effectiveness of medications using genetics |
US11380424B2 (en) | 2018-06-15 | 2022-07-05 | Xact Laboratories Llc | System and method for genetic based efficacy testing |
US11398312B2 (en) | 2018-06-15 | 2022-07-26 | Xact Laboratories, LLC | Preventing the fill of ineffective or under-effective medications through integration of genetic efficacy testing results with legacy electronic patient records |
US11227685B2 (en) | 2018-06-15 | 2022-01-18 | Xact Laboratories, LLC | System and method for laboratory-based authorization of genetic testing |
KR102188968B1 (ko) * | 2018-08-24 | 2020-12-09 | 주식회사 클리노믹스 | 환경적 요인 변화에 따른 질병 발생 위험도 변동 시각화 장치 및 방법 |
US20200074313A1 (en) * | 2018-08-29 | 2020-03-05 | Koninklijke Philips N.V. | Determining features to be included in a risk assessment instrument |
AU2019370896A1 (en) | 2018-10-31 | 2021-06-17 | Ancestry.Com Dna, Llc | Estimation of phenotypes using DNA, pedigree, and historical data |
US10468141B1 (en) | 2018-11-28 | 2019-11-05 | Asia Genomics Pte. Ltd. | Ancestry-specific genetic risk scores |
KR102311269B1 (ko) * | 2018-12-13 | 2021-10-12 | 주식회사 케이티 | 건강 정보 관리 서버, 이를 이용한 건강 정보 관리 방법 및 컴퓨터 프로그램 |
EP3935581A4 (en) | 2019-03-04 | 2022-11-30 | Iocurrents, Inc. | DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING |
US11587651B2 (en) | 2019-03-08 | 2023-02-21 | Merative Us L.P. | Person-centric genomic services framework and integrated genomics platform and systems |
CN113905660A (zh) * | 2019-03-19 | 2022-01-07 | 瑟姆巴股份有限公司 | 使用亲属的信息确定非孟德尔表型的遗传风险 |
CA3147888A1 (en) | 2019-07-19 | 2021-01-28 | 23Andme, Inc. | Phase-aware determination of identity-by-descent dna segments |
CA3154157A1 (en) | 2019-09-13 | 2021-03-18 | 23Andme, Inc. | Methods and systems for determining and displaying pedigrees |
TWI715250B (zh) | 2019-10-17 | 2021-01-01 | 宏碁股份有限公司 | 特徵識別方法與電子裝置 |
JP7084658B2 (ja) * | 2020-01-24 | 2022-06-15 | 株式会社ブーリアン | 動物用遺伝子性疾患予防食品提案システム |
JP7212640B2 (ja) * | 2020-03-11 | 2023-01-25 | 日清食品ホールディングス株式会社 | 食品情報提供システム、装置、方法及びプログラム |
US11289206B2 (en) * | 2020-06-02 | 2022-03-29 | Kpn Innovations, Llc. | Artificial intelligence methods and systems for constitutional analysis using objective functions |
US20220199259A1 (en) * | 2020-06-02 | 2022-06-23 | Kpn Innovations, Llc. | Artificial intelligence methods and systems for constitutional analysis using objective functions |
US11817176B2 (en) | 2020-08-13 | 2023-11-14 | 23Andme, Inc. | Ancestry composition determination |
US11461193B2 (en) * | 2020-09-24 | 2022-10-04 | International Business Machines Corporation | Data storage volume recovery management |
CA3194288A1 (en) | 2020-10-09 | 2022-04-14 | 23Andme, Inc. | Formatting and storage of genetic markers |
US20220189637A1 (en) * | 2020-12-11 | 2022-06-16 | Cerner Innovation, Inc. | Automatic early prediction of neurodegenerative diseases |
US12112244B2 (en) | 2020-12-29 | 2024-10-08 | Kpn Innovations, Llc. | System and method for generating a procreant functional program |
US11049603B1 (en) | 2020-12-29 | 2021-06-29 | Kpn Innovations, Llc. | System and method for generating a procreant nourishment program |
US11145401B1 (en) | 2020-12-29 | 2021-10-12 | Kpn Innovations, Llc. | Systems and methods for generating a sustenance plan for managing genetic disorders |
US11735310B2 (en) | 2020-12-29 | 2023-08-22 | Kpn Innovations, Llc. | Systems and methods for generating a parasitic infection nutrition program |
US11355229B1 (en) | 2020-12-29 | 2022-06-07 | Kpn Innovations, Llc. | System and method for generating an ocular dysfunction nourishment program |
US20220273233A1 (en) * | 2021-02-26 | 2022-09-01 | Hi Llc | Brain Activity Derived Formulation of Target Sleep Routine for a User |
US11935642B2 (en) | 2021-03-01 | 2024-03-19 | Kpn Innovations, Llc | System and method for generating a neonatal disorder nourishment program |
US11854685B2 (en) | 2021-03-01 | 2023-12-26 | Kpn Innovations, Llc. | System and method for generating a gestational disorder nourishment program |
CN113284622A (zh) * | 2021-05-27 | 2021-08-20 | 四川大学华西医院 | 一种低龄儿童龋风险评估方法、系统及存储介质 |
WO2022260129A1 (ja) * | 2021-06-09 | 2022-12-15 | 国立大学法人京都大学 | 情報処理装置、情報処理方法、及びプログラム |
WO2023102539A1 (en) * | 2021-12-03 | 2023-06-08 | Washington State University | Dna methylation biomarkers for rheumatoid arthritis |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5192659A (en) * | 1989-08-25 | 1993-03-09 | Genetype Ag | Intron sequence analysis method for detection of adjacent and remote locus alleles as haplotypes |
US5958684A (en) * | 1995-10-02 | 1999-09-28 | Van Leeuwen; Frederik Willem | Diagnosis of neurodegenerative disease |
US6703228B1 (en) * | 1998-09-25 | 2004-03-09 | Massachusetts Institute Of Technology | Methods and products related to genotyping and DNA analysis |
US6730023B1 (en) * | 1999-10-15 | 2004-05-04 | Hemopet | Animal genetic and health profile database management |
US6640211B1 (en) * | 1999-10-22 | 2003-10-28 | First Genetic Trust Inc. | Genetic profiling and banking system and method |
US20020133495A1 (en) * | 2000-03-16 | 2002-09-19 | Rienhoff Hugh Y. | Database system and method |
US6660476B2 (en) * | 2000-05-02 | 2003-12-09 | City Of Hope | Polymorphisms in the PNMT gene |
WO2002033520A2 (en) * | 2000-10-18 | 2002-04-25 | Genomic Health, Inc. | Genomic profile information systems and methods |
US20080261220A1 (en) * | 2000-11-30 | 2008-10-23 | Third Wave Technologies, Inc. | Nucleic Acid Detection Assays |
US20020128860A1 (en) * | 2001-01-04 | 2002-09-12 | Leveque Joseph A. | Collecting and managing clinical information |
US20030054381A1 (en) * | 2001-05-25 | 2003-03-20 | Pfizer Inc. | Genetic polymorphisms in the human neurokinin 1 receptor gene and their uses in diagnosis and treatment of diseases |
US20040121320A1 (en) * | 2001-08-07 | 2004-06-24 | Genelink, Inc. | Use of genetic information to detect a predisposition for bone density conditions |
US20030040002A1 (en) * | 2001-08-08 | 2003-02-27 | Ledley Fred David | Method for providing current assessments of genetic risk |
US7072794B2 (en) * | 2001-08-28 | 2006-07-04 | Rockefeller University | Statistical methods for multivariate ordinal data which are used for data base driven decision support |
US7461006B2 (en) * | 2001-08-29 | 2008-12-02 | Victor Gogolak | Method and system for the analysis and association of patient-specific and population-based genomic data with drug safety adverse event data |
US20060188875A1 (en) * | 2001-09-18 | 2006-08-24 | Perlegen Sciences, Inc. | Human genomic polymorphisms |
AU2002363329A1 (en) * | 2001-11-06 | 2003-05-19 | Elizabeth Gray | Pharmacogenomics-based system for clinical applications |
US20030219776A1 (en) * | 2001-12-18 | 2003-11-27 | Jean-Marc Lalouel | Molecular variants, haplotypes and linkage disequilibrium within the human angiotensinogen gene |
US20040002818A1 (en) * | 2001-12-21 | 2004-01-01 | Affymetrix, Inc. | Method, system and computer software for providing microarray probe data |
US20060160074A1 (en) * | 2001-12-27 | 2006-07-20 | Third Wave Technologies, Inc. | Pharmacogenetic DME detection assay methods and kits |
WO2003074048A1 (en) * | 2002-03-01 | 2003-09-12 | Warner-Lambert Company Llc | Method of treating osteoarthritis |
US7135286B2 (en) * | 2002-03-26 | 2006-11-14 | Perlegen Sciences, Inc. | Pharmaceutical and diagnostic business systems and methods |
US20040115701A1 (en) * | 2002-08-30 | 2004-06-17 | Comings David E | Method for risk assessment for polygenic disorders |
EP1585433A4 (en) * | 2002-09-25 | 2008-01-23 | Ge Healthcare Sv Corp | DETECTION METHODS |
WO2004044225A2 (en) * | 2002-11-11 | 2004-05-27 | Affymetrix, Inc. | Methods for identifying dna copy number changes |
JP2004173505A (ja) * | 2002-11-22 | 2004-06-24 | Mitsuo Itakura | 疾患感受性遺伝子の同定方法並びにそれに用いるプログラムおよびシステム |
US20060257888A1 (en) * | 2003-02-27 | 2006-11-16 | Methexis Genomics, N.V. | Genetic diagnosis using multiple sequence variant analysis |
US20050037366A1 (en) * | 2003-08-14 | 2005-02-17 | Joseph Gut | Individual drug safety |
CA3048093A1 (en) * | 2003-11-26 | 2005-06-23 | Celera Corporation | Single nucleotide polymorphisms associated with cardiovascular disorders and statin response, methods of detection and uses thereof |
US20050214811A1 (en) * | 2003-12-12 | 2005-09-29 | Margulies David M | Processing and managing genetic information |
US20060046256A1 (en) * | 2004-01-20 | 2006-03-02 | Applera Corporation | Identification of informative genetic markers |
US7983932B2 (en) * | 2004-02-17 | 2011-07-19 | BodyBio, Inc | Network and methods for integrating individualized clinical test results and nutritional treatment |
US7127355B2 (en) * | 2004-03-05 | 2006-10-24 | Perlegen Sciences, Inc. | Methods for genetic analysis |
TWI364600B (en) * | 2004-04-12 | 2012-05-21 | Kuraray Co | An illumination device an image display device using the illumination device and a light diffusing board used by the devices |
US20060278241A1 (en) * | 2004-12-14 | 2006-12-14 | Gualberto Ruano | Physiogenomic method for predicting clinical outcomes of treatments in patients |
US20060184489A1 (en) * | 2004-12-17 | 2006-08-17 | General Electric Company | Genetic knowledgebase creation for personalized analysis of medical conditions |
US20060166224A1 (en) * | 2005-01-24 | 2006-07-27 | Norviel Vernon A | Associations using genotypes and phenotypes |
US20070122824A1 (en) * | 2005-09-09 | 2007-05-31 | Tucker Mark R | Method and Kit for Assessing a Patient's Genetic Information, Lifestyle and Environment Conditions, and Providing a Tailored Therapeutic Regime |
US7695911B2 (en) * | 2005-10-26 | 2010-04-13 | Celera Corporation | Genetic polymorphisms associated with Alzheimer's Disease, methods of detection and uses thereof |
US20070196344A1 (en) * | 2006-01-20 | 2007-08-23 | The Procter & Gamble Company | Methods for identifying materials that can help regulate the condition of mammalian keratinous tissue |
US8340950B2 (en) * | 2006-02-10 | 2012-12-25 | Affymetrix, Inc. | Direct to consumer genotype-based products and services |
US20080131887A1 (en) * | 2006-11-30 | 2008-06-05 | Stephan Dietrich A | Genetic Analysis Systems and Methods |
EP2102651A4 (en) * | 2006-11-30 | 2010-11-17 | Navigenics Inc | GENERALYSIS SYSTEMS AND METHODS |
WO2009042975A1 (en) * | 2007-09-26 | 2009-04-02 | Navigenics, Inc. | Methods and systems for genomic analysis using ancestral data |
US20090182579A1 (en) * | 2008-01-10 | 2009-07-16 | Edison Liu | Method of processing genomic information |
US20090198519A1 (en) * | 2008-01-31 | 2009-08-06 | Mcnamar Richard Timothy | System for gene testing and gene research while ensuring privacy |
US20100042438A1 (en) * | 2008-08-08 | 2010-02-18 | Navigenics, Inc. | Methods and Systems for Personalized Action Plans |
-
2009
- 2009-09-11 JP JP2011527004A patent/JP2012502398A/ja not_active Withdrawn
- 2009-09-11 AU AU2009291577A patent/AU2009291577A1/en not_active Abandoned
- 2009-09-11 CN CN2009801408119A patent/CN102187344A/zh active Pending
- 2009-09-11 KR KR1020117008292A patent/KR20110074527A/ko not_active Application Discontinuation
- 2009-09-11 US US12/558,345 patent/US20100070455A1/en not_active Abandoned
- 2009-09-11 GB GB1104128A patent/GB2477868A/en not_active Withdrawn
- 2009-09-11 BR BRPI0918889A patent/BRPI0918889A2/pt not_active IP Right Cessation
- 2009-09-11 EP EP09792478A patent/EP2335174A1/en not_active Ceased
- 2009-09-11 WO PCT/US2009/056720 patent/WO2010030929A1/en active Application Filing
- 2009-09-14 TW TW098130958A patent/TWI423151B/zh not_active IP Right Cessation
-
2014
- 2014-07-25 JP JP2014151568A patent/JP2015007985A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102091790B1 (ko) * | 2019-09-02 | 2020-03-20 | 주식회사 클리노믹스 | 피검사자와 생물체 간의 유전자 정보를 이용한 유전적 띠 제공 시스템 및 그 방법 |
WO2021045270A1 (ko) * | 2019-09-02 | 2021-03-11 | 주식회사 클리노믹스 | 피검사자와 생물체 간의 유전자 정보를 이용한 유전적 띠 제공 시스템 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP2335174A1 (en) | 2011-06-22 |
CN102187344A (zh) | 2011-09-14 |
JP2012502398A (ja) | 2012-01-26 |
GB2477868A (en) | 2011-08-17 |
JP2015007985A (ja) | 2015-01-15 |
WO2010030929A1 (en) | 2010-03-18 |
US20100070455A1 (en) | 2010-03-18 |
GB201104128D0 (en) | 2011-04-27 |
BRPI0918889A2 (pt) | 2015-12-01 |
TWI423151B (zh) | 2014-01-11 |
TW201033910A (en) | 2010-09-16 |
AU2009291577A1 (en) | 2010-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI423151B (zh) | 結合多個環境及基因風險因子的方法及系統 | |
TWI516969B (zh) | 用於個人化行爲計劃之方法及系統 | |
Strawbridge et al. | Genome-wide analysis of self-reported risk-taking behaviour and cross-disorder genetic correlations in the UK Biobank cohort | |
JP5491400B2 (ja) | 祖先データを用いるゲノム解析の方法及びシステム | |
Fritsche et al. | Cancer PRSweb: an online repository with polygenic risk scores for major cancer traits and their evaluation in two independent biobanks | |
TWI363309B (en) | Genetic analysis systems, methods and on-line portal | |
Xu et al. | Major genes regulating total serum immunoglobulin E levels in families with asthma | |
Little et al. | The HuGENet™ HuGE review handbook, version 1.0 | |
Bi et al. | Efficient mixed model approach for large-scale genome-wide association studies of ordinal categorical phenotypes | |
Lencz et al. | Concerns about the use of polygenic embryo screening for psychiatric and cognitive traits | |
Jiang et al. | Direct-to-Consumer Genetic Testing: A Comprehensive Review | |
Heinlen et al. | Exploring genetic counselors’ perceptions of usefulness and intentions to use refined risk models in clinical care based on the Technology Acceptance Model (TAM) | |
Taylor et al. | Effects of genetic counseling for hypertension on changes in lifestyle behaviors among African-American women | |
Latendresse et al. | Dimensionality and genetic correlates of problem behavior in low-income African American adolescents | |
Hall | Beyond Genome-Wide Association Studies (GWAS): Emerging Methods for Investigating Complex Associations for Common Traits | |
Baya et al. | Patterns of item nonresponse behaviour to survey questionnaires are systematic and associated with genetic loci | |
Yap | Ethical, legal, social and policy issues in medical genetic testing of relevance to Singapore: Personal perspectives | |
McWalter et al. | Presented Abstracts from the Twenty-Ninth Annual Education Conference of the National Society of Genetic Counselors (Dallas, Texas, October 2010) | |
DClinPsy et al. | Genome-wide analysis of self-reported risk-taking behaviour and cross-disorder genetic | |
Munafò et al. | CRUK Integrative Cancer Epidemiology Programme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |