KR20020064298A - 다형성 유전 마커를 동정하기 위한 데이타베이스 및 이의제조 방법 - Google Patents

다형성 유전 마커를 동정하기 위한 데이타베이스 및 이의제조 방법 Download PDF

Info

Publication number
KR20020064298A
KR20020064298A KR1020027004776A KR20027004776A KR20020064298A KR 20020064298 A KR20020064298 A KR 20020064298A KR 1020027004776 A KR1020027004776 A KR 1020027004776A KR 20027004776 A KR20027004776 A KR 20027004776A KR 20020064298 A KR20020064298 A KR 20020064298A
Authority
KR
South Korea
Prior art keywords
data
nucleic acid
sample
database
polymorphism
Prior art date
Application number
KR1020027004776A
Other languages
English (en)
Inventor
브라운안드레아스
쾨슈터후베르트
판덴붐디르크
핑입
로디찰리
헤리안
치우노르만
유린케크리슈티안
Original Assignee
시쿼넘, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/663,968 external-priority patent/US7917301B1/en
Application filed by 시쿼넘, 인코포레이티드 filed Critical 시쿼넘, 인코포레이티드
Publication of KR20020064298A publication Critical patent/KR20020064298A/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Abstract

건강한 사람 제공자로 부터의 게놈 샘플의 데이타베이스를 제조하기 위한 공정 및 방법, 및 당해 데이타베이스를, 다형성 유전 마커 및 기타 마커를 동정하고, 이를 질환 및 병리상태와 서로 관련시키는데 사용하는 방법이 본원에 제공된다.

Description

다형성 유전 마커를 동정하기 위한 데이타베이스 및 이의 제조 방법{Methods for generating databases and databases for identifying polymorphic genetic markers}
관련 출원
하기의 출원에 대한 우선권 주장이 본원에서 청구된다: 미국 가출원 제60/217,658호[발명자: Andreas Braun, Hubert Koster, Dirk Van den Boom; 7월 10일 출원; 발명의 명칭: "METHODS FOR GENERATING DATABASES AND DATABASES FOR IDENTIFYING POLYMORPHIC GENETIC MARKERS"]; 미국 가출원 제60/159,176호[발명자: Andreas Braun, Hubert Koster, Dirk Van den Boom; 1999년 10월 13일 출원; 발명의 명칭: "METHODS FOR GENERATING DATABASES AND DATABASES FOR IDENTIFYING POLYMORPHIC GENETIC MARKERS"]; 미국 가출원 제60/217,251호[2000년 7월 10일 출원;발명자: Andreas Braun; 발명의 명칭 "POLYMORPHIC KINASE ANCHOR PROTEIN GENE SEQUENCES, POLYMORPHIC KINASE ANCHOR PROTEINS AND METHODS OF DETECTING POLYMORPHIC KINASE ANCHOR PROTEINS AND NUCLEIC ACIDS ENCODING THE SAME"]; 및 미국 출원09/663,968호[발명자: Ping Yip; 2000년 9월 19일 출원; 발명의 명칭: "METHOD AND DEVICE FOR IDENTIFYING A BIOLOGICAL SAMPLE"].
경우에 따라, 상기 출원 및 가출원의 전문이 참조로서 인용된다.
모든 생물체의 질환은, 유전되거나 또는 환경 스트레스, 예를 들면 바이러스 및 독소에 대한 신체 반응의 결과로서 나타나는 유전 요소를 갖는다. 진행중인 게놈 연구의 궁극적 목표는 이러한 정보를 사용하여 질환들을 동정하고, 처치하고 잠재적으로 치유할 수 있는 새로운 방법을 개발하는데 있다. 제1단계는 질환 조직을 스크리닝하고 개개의 샘플의 수준에서 게놈 변화를 동정하는 것이다. 이들 "질환" 마커의 동정은, 이들 비정상 유전자 또는 다형성을 검출하는 진단 시험의 개발 및 상업화를 촉진하였다. 단일 뉴클레오티드 다형성(SNP: Single Nucleotide Polymorphism), 미세위성체(microsatellites), 탠덤 반복체, 새로이 맵핑된 인트론 및 엑손을 포함하여, 유전 마커의 수가 증가함에 따라, 의학계 및 약학계의 당면 과제는, 질환을 동정할 뿐만 아니라 질환의 진행을 추적하고 처치에 대한 생물체의 반응을 예견하기 위한 유전자형을 동정하는 것이다.
현재, 약제 및 생물공학 업계는 질환을 찾아내어 당해 질환의 게놈 근거를 판정하고자 한다. 이러한 접근법은 시간-소모적이고 비용이 많이 들고, 다수의 경우에 이를 통해 연구자들은 당해 질환에 관련될 수 있는 경로가 무엇인지 단지 추측하게 된다.
게놈학
이용가능한 게놈 정보를 분석하는데 현재 사용되는 두 가지 주요 기법으로는 기술에 의해 추진되는 역방향 게놈학 억지기법 및 지식-기반 경로에 의한 정방향 게놈학 기법이 있다.
억지기법에 의해 서열 정보의 대형 데이타베이스를 수득할 수 있으나, 서열 정보의 의학적 용도 또는 기타 용도에 관한 정보는 거의 수득되지 않는다. 따라서, 이러한 기법은 불확실한 가치의 불분명한 산물을 초래한다. 지식-기반 기법에 의해 특정 DNA 서열 및 당해 경로의 다른 산물의 의학적 용도에 관한 많은 정보를 포함하는 소형 데이타베이스를 수득할 수 있고 고가치의 분명한 산물을 수득할 수 있다.
다형성
다형성은 혈액형의 동정과 함께 1901년 이래 공지되어 왔다. 1950년대에, 다형성은 다수 집단 유전학 연구를 사용하여 단백질 수준에서 확인되었다. 1980년 대와 1990년대에, 공지된 단백질 다형성의 대부분이 게놈 DNA상의 유전자좌와 서로 연관이 있었다. 예를 들면, 아포지방단백질 E 제4형 대립형질 유전자의 복용이 후기 발병 패밀리에서의 알츠하이머병 위험과 서로 관련이 있으며[참조 문헌: Corderet al. (1993) Science 261: 921-923]; 혈액 응고 인자 V중의 돌연변이는 활성화된 단백질 C에 대한 내성과 관련이 있으며[참조 문헌; Bertina et al. (1994) Nature 369:64-67)]; HIV-1 감염에 대한 내성이 CCR-5 케모킨 수용체 유전자의 돌연변이체 대립유전자를 지닌 코카서스인에게서 발견되었으며[참조 문헌: Samson et al. (1996) Nature 382:722-725)]; 항원 제공 세포(APC, 예를 들면 대식구)에서의 과변이성 영역이 아시켄지 유태인 출신인 사람의 가족성 결장직장 암에서 동정되었다[참조 문헌: Laken et al. (1997) Nature Genet. 17:79-83]. 사람 게놈중에는 3백만 이상의 다형성 부위가 존재할 수 있다. 대분분이 동정되었으나, 아직 특성이 밝혀지거나 맵핑되거나 마커와 연관성을 찾지 못하였다.
단일 뉴클레오티드 다형성(SNP)
게놈학 연구의 대부분은, 각종 이유로 중요한 SNP의 동정에 집중되고 있다. 이들은 간접적 시험(일배체형의 연합) 및 직접적 시험(기능적 변이체)을 허용한다. 이들은 가장 풍부하고 안정한 유전 마커이다. 공통 질환이 공통 유전자 변형에 의해 가장 잘 설명되고, 사람 집단에서의 자연 변이가 질환, 치료 및 환경적 상호작용을 이해하는데 도움을 줄 것이다.
현재, DNA에서 SNP를 동정하기 위한 이용가능한 유일한 방법은 서열분석에 의한 것이나, 이는 비용이 많이들고, 어렵고, 노동이 요구된다. 게다가, 일단 SNP가 발견되면, 이것이 진정한 다형성인지 서열분석상의 오류인지 판정하기 위하여 입증되어져야 한다. 또한, 이어서, 발견된 SNP를 평가하여 이들이 특정 표현형과관련이 있는지를 판정하여야 한다. 따라서, 질환과 이의 마커에 대한 게놈 기반을 동정하기 위한 새로운 패러다임을 개발할 필요가 있다. 따라서, 본원의 목적은 질환과 이의 마커의 게놈 기반을 동정하는 것이다.
개요
데이타베이스 및 당해 데이타베이스를 사용하기 위한 방법이 본원에 제공된다. 당해 데이타베이스는, 단지 건강을 기준으로 선발한 집단에서 피험자와 관련된 파라미터 셋트를 포함한다(즉, 피험자가 포유동물, 예를 들면, 사람인 경우, 이들은 명백한 건강상태 및 감염증의 불검출성을 기준으로 선발된다). 당해 데이타베이스는 하나 이상의 선택된 매개변수를 기준으로 정렬(sorting)될 수 있다.
당해 데이타베이스는 바람직하게는 상관적 데이타베이스이며, 여기서, 각 피험자를 나타내는 인덱스는 파라미터, 즉 연령, 인종, 성별, 의학적 전력, 등과 같은 데이타, 및 데이타베이스에 입력되고 저장된 궁극적인 유전자형 정보를 결부시키는 역할을 한다. 이어서, 당해 데이타베이스는 이들 매개변수에 따라 정렬될 수 있다. 최초로, 매개변수 정보는 체 조직 또는 체액 샘플을 수득한 각각의 피험자가 대답한 앙케이트로 부터 수득된다. 각 샘플에 관한 추가적 정보가 수득되기 때문에, 상기 정보를 데이타베이스에 입력하고 정렬 매개변수로서 사용할 수 있다.
건강한 사람으로 부터 수득된 데이타베이스는, 공지된 다형성을 표현형 또는 질환과 연관시키는 것과 같은 수 많은 용도를 갖는다. 당해 데이타베이스를 사용하여, 해로운 대립유전자, 이로운 대립유전자, 및 질환과 상호관련이 있는 대립유전자를 동정할 수 있다.
본원의 목적을 위하여, 유전자형 정보는 당업자에게 공지된 임의의 방법에 의해 수득될 수 있으나, 바람직하게는 질량 분광측정법으로 수득된다.
또한, 피험자, 및 유전자형 및 다른 매개변수, 예를 들면 연령, 인종 및 성별의 현존 데이타베이스의 새로운 용도가 본원에 제공된다. 모든 데이타베이스가 본원의 방법에 따라 정렬될 수 있으며, 임의의 정렬 매개변수와 통계학적으로 유의적인 상관성을 나타내는 대립유전자가 동정될 수 있다. 그러나, 본원에 제공된 데이타베이스 및 무작위로 선택된 데이타베이스는 이들 방법에서 보다 우수하게 수행될 것이며, 그 이유는 질환-기반 데이타베이스가 이들의 비교적 작은 규모, 선발된 질환 집단의 동질성, 및 데이타베이스가 선택된 근거인 마커와 관련있는 다형성의 차단 효과를 포함한 수 많은 제약을 받기 때문이다. 따라서, 본원에 제공된 건강한 집단의 데이타베이스는 지금까지 인식되거나 이용되지 못한 이점을 제공한다. 그러나, 본원에 제공된 방법은, 다형성의 발견과 상관관계를 위한 정렬을 수행하거나 수행하지 않으면서 질환-기반 데이타베이스를 포함한 선택된 데이타베이스와 함께 사용될 수 있다. 또한, 본원에 제공된 데이타베이스는 다형성의 발견을 위해 통상적으로 이용되는 비선택된 데이타베이스 보다 월등한 유전자 다양성을 나타내므로, 다형성의 발견 및 상관관계를 증가시킬 수 있다.
본원에 제공된 데이타베이스는 동정된 다형성을 취하여, 이것이, 데이타가 선택된 매개변수에 따라 정렬된 경우, 빈도에 있어서 변화되는지를 확인한다.
이들 방법의 한가지 용도는 선택된 마커를 특정 파라미터와 서로 연관시키고, 이어서 공지된 유전 마커의 존재와 서로 연관시킨 후, 이러한 상관관계를 정하고, 질환과의 상관관계를 판정하거나 동정하는 것이다. 이러한 용도의 예로는 p53 및 지방단백질 리파제 다형성을 들 수 있다. 본원에 예시된 바와 같이, 공지된 마커는 특정 종족 또는 인종 또는 성별과 같은 특정 그룹과 특정 상관관계를 갖는다는 것이 밝혀졌다. 이어서, 이러한 상관관계는 보다 우수한 진단 시험 및 치료 방법의 개발을 가능케할 것이다.
이들 방법은, 연령, 종족 그룹, 성별 또는 몇몇 다른 기준의 함수로서 집단내에서 빈도가 변하는 하나 이상의 유전 마커를 동정하는데 유용하다. 이는 이전에 공지되지 않은 다형성의 동정, 및 궁극적으로 질환의 발병 및 진행과 관련된 유전자 또는 경로의 동정을 가능케한다.
본원에 제공된 데이타베이스 및 방법은, 다른 것 중에서, 유전자 근거의 이해를 통해서 질환 과정의 성분, 특히 주요 성분의 동정을 가능케하며, 또한 개개의 약물 반응과 같은 과정을 이해할 수 있도록 한다. 본원에 제공된 데이타베이스 및 방법은 또한 병리학적 경로를 규명하는 방법, 새로운 진단 분석을 개발하는 방법, 새로운 잠재적 약물 표적을 동정하는 방법, 및 새로운 약물 후보를 동정하는 방법에 사용될 수 있다.
당해 방법 및 데이타베이스는, 실리코내(in silico) SNP 동정, 시험관내 SNP 동정/검증, 대규모 집단의 유전자 프로파일링, 및 생물통계 분석 및 해석을 포함하지만 이에 제한되지 않는 실험적 절차와 함께 사용될 수 있다.
또한, 본원에 제공된 데이타베이스, 및 데이타베이스중의 피험자로 부터의생물학적 샘플, 바람직하게는 데이타베이스중의 모든 피험자 또는 다수의 피험자로 부터의 생물학적 샘플을 포함하는 조합물이 본원에 제공된다. 조직 및 체액 샘플 수집물(collection)이 또한 제공된다.
또한, 다형성을 동정하고 건강한 집단에서 연령의 증가에 따른 다형성의 빈도를 측정하는 것을 특징으로 하여, 연령과 서로 관련이 있는 유전 마커를 판정하는 방법이 본원에 제공된다.
또한, 다형성을 동정하고 건강한 집단에서 연령의 증가에 따른 다형성의 빈도를 측정하는 것을 특징으로 하여, 유전 마커가 이환율, 조기 사망율, 또는 이환율 및 초기 사망율과 서로 관련이 있는지를 판정하는 방법이 본원에 포함된다.
본원에 기술된 모든 방법은 다양한 방식으로 사용될 수 있다.
또한, 유전 정보를 정확하게 동정하기 위한 장치 및 방법이 제공된다. 본원의 또 다른 목적은 유전 정보를 고도로 자동화된 방식으로 유전자 데이타로 부터 추출하는 것이다. 따라서, 공지된 종래의 시스템의 결함을 극복하기 위하여, 생물학적 샘플을 동정하기 위한 방법 및 장치가 제안된다.
요약하면, 생물학적 샘플을 동정하기 위한 방법 및 시스템은 당해 생물학적 샘플의 조성을 표시하는 데이타 셋트를 산출한다. 특정 예에서, 당해 데이타 셋트는 질량 분광계로 부터 수여된 DNA 분광측정 데이타이다. 당해 데이타 셋트는 노이즈 제거되고(denoised) 기준선이 삭제된다. 생물학적 샘플의 가능한 조성이 공지될 수 있기 때문에, 기대된 피크 영역이 측정될 수 있다. 기대된 피크 영역을 사용하여, 잔여 기준선을 생성시켜 데이타 셋트를 추가로 교정한다. 가능한 피크가 교정된 데이타 셋트에서 동정될 수 있으며, 이를 사용하여 생물학적 샘플의 조성을 동정한다. 기술된 예에서, 통계학적 방법을 사용하여, 가능한 피크가 실제 피크 이거나 실제 피크가 아닌 확률, 또는 당해 데이타가 너무 미결정적이어서 요구할 수 없는 확률을 측정한다.
유리하게는, 생물학적 샘플을 동정하기 위한 방법 및 시스템은 고도로 자동화된 방식으로 조성을 정확하게 요청하게 한다. 이러한 방식에서, 예를 들면 완전한 SNP 프로파일 정보가 효율적으로 수집될 수 있다. 보다 중요하게는, 수집된 데이타가 고도로 정확한 결과로 분석된다. 예를 들면, 특정 조성이 요청된 경우, 그 결과는 크게 신뢰할 수 있다. 이러한 신뢰는 사용된 로부스트(robust) 컴퓨터 공정에 의해 제공된다.
건강한 사람 제공자로 부터의 게놈 샘플의 데이타베이스를 제조하는 공정 및 방법이 제공된다. 당해 데이타베이스를 사용하여, 다형성 유전 마커 및 다른 마커를 동정하고 이를 질환 및 병리상태와 연관시키는 방법이 제공된다.
도 1은 전형적인 샘플 은행을 도시한다. 패널 1은 샘플을 성별 및 종족의 함수로서 도시한다. 패널 2는 코카서스인을 연령의 함수로서 도시한다. 패널 3은 라틴아메리카계인을 연령의 함수로서 도시한다.
도 2A 및 2C는, 총 436명의 남성 및 589명의 여성을 조사한 지방단백질 리파제 유전자의 291S 대립유전자의 연령- 및 성별-분포를 도시한다. 도2B는 436명의 남성에 대한 연령 분포를 도시한다.
도 3은 집단-근거한 샘플 뱅킹을 위한 전형적인 앙케이트이다.
도 4는 혈액 샘플 성분의 프로세싱 및 트래킹을 도시한다.
도 5는 "병든" 대립유전자 및 "건강한" 대립유전자의 대립유전자 빈도를 연령의 함수로서 도시한다. 건강한 대립유전자의 상대 빈도가 연령이 증가함에 따라 집단내에서 증가함에 유의한다.
도 6은 ApoE 유전자형의 연령-의존형 분포를 도시한다[참조 문헌: Schahter et al. (1994) Nature Genetics 6:29-32].
도 7A-D는 데이타베이스내 코카서스인 집단중에서 p53(종양 억제인자) 코돈 72의 연령-관련 및 유전자형 빈도를 도시한다. *R72 및 *P72는 데이타베이스 집단내 대립유전자의 빈도를 나타낸다. R72, R72P, 및 P72는 당해 집단내 개개인의 유전자형을 나타낸다. 동형접형성 P72 대립유전자의 빈도는 연령에 따라 6.7%로부터 3.7%로 떨어진다.
도 8은 p21 S31R 대립유전자의 대립유전자 및 유전자형 빈도를 연령의 함수로서 도시한다.
도 9는 개체 샘플 대 수집된 샘플에서 FVII 대립유전자 353Q의 빈도를 도시한다.
도 10은 개체 샘플 대 수집된 샘플에서 CETP(콜레스테롤 에스테르 전달 단백질) 대립유전자의 빈도를 도시한다.
도 11은 개체 샘플 대 수집된 샘플에서 플라스미노겐 활성인자 억제제-1(PAl-1) 5G의 빈도를 도시한다.
도 12는 PAl-1 대립유전자의 종족 다양성과 샘플의 질량 스펙트럼을 도시한다.
도 13은 CETP 405 대립유전자의 종족 다양성과 샘플의 질량 스펙트럼을 도시한다.
도 14는 인자 VII 353 대립유전자의 종족 다양성과 샘플의 질량 스펙트럼을 도시한다.
도 15는 수집된 DNA 샘플을 사용하여, PAl-1, CETP 및 인자 VII의 종족 다양성을 도시한다.
도 16은 p53-Rb 경로 및 당해 경로에서 각종 인자간의 관계를 도시한다.
도 17은 본원에 기술된 데이타베이스의 프로세스를 제공하기 위하여 작제된 컴퓨터의 블록 다이아그램이고, 이는 본원에 제공된 데이타베이스를 저장 및 정렬하고, 본원에 제공된 방법을 실행하기 위한 전형적 컴퓨터 시스템을 도시한다.
도 18은, 다형성 유전 마커를 동정하기 위한 데이타베이스에 대한 접근을 유지하고 제공하기 위한, 도 17에 도시된 컴퓨터를 사용하여 수행된 프로세싱 단계를 도시하는 플로우 다이아그램이다.
도 19는 연령 및 성별 계층화된 코카서스인 집단에서 AKAP 10-1 유전자좌에 대한 대립유전자 및 유전자형 분포를 도시하는 히스토그램이다. 밝은 녹색 막대는 40세 보다 젊은 개개인에서의 빈도를 보여주고, 어두운 녹색 막대는 60세 늙은 개개인에서의 빈도를 보여준다.
도 20은 연령 및 성별 계층화된 코카서스인 집단에서 AKAP 10-5 유전자좌에 대한 대립유전자 및 유전자형 분포를 도시하는 히스토그램이다. 밝은 녹색 막대는 40세 보다 젊은 개개인에서의 빈도를 보여주고, 어두운 녹색 막대는 60세 늙은 개개인에서의 빈도를 보여준다.
도 21은 연령 및 성별 계층화된 코카서스인 집단에서 h-msrA 유전자좌에 대한 대립유전자 및 유전자형 분포를 도시하는 히스토그램이다. 남성 연령 그룹간의 유전자형 차이는 유의적이다. 밝은 녹색 막대는 40세 보다 젊은 개개인에서의 빈도를 보여주고, 어두운 녹색 막대는 60세 늙은 개개인에서의 빈도를 보여준다.
도 22A-D는 건강한 데이타베이스에 사용된 샘플 데이타 콜렉션 앙케이트이다.
도 23은 분석 단편으로부터 센스 쇄 및 안티센스 쇄의 유전자형 분류를 수행하는 경우, 도 24의 컴퓨터수행 장치에 의해 수행되는 프로세싱을 도시하는 플로우차트이다.
도 24는 본 발명에 따른 시스템을 도시하는 블록 다이아그램이다.
도 25는 본 발명에 따른 생물학적 샘플을 동정하기 위한 방법의 플로우 차트이다.
도 26은 질량 분광계로 부터 수집된 데이타를 그래프로 나타낸 것이다.
도 27은 질량 분광측정의 파형(wavelet) 변환의 다이아그램이다.
도 28은 파형 단계 O hi 데이타를 그래프로 나타낸 것이다.
도 29는 단계 0 노이즈 프로파일을 그래프로 나타낸 것이다.
도 30은 단계 0 노이즈 표준편차의 산출을 그래프로 나타낸 것이다.
도 31은 데이타 단계에 한계치를 적용하는 것을 그래프로 나타낸 것이다.
도 32는 희소(sparse) 데이타 셋트를 그래프로 나타낸 것이다.
도 33은 시그날 전이에 대한 공식이다.
도 34는 노이즈제거되고 이동된 시그날의 파형 변환을 그래프로 나타낸 것이다.
도 35는 노이즈제거되고 이동된 시그날을 그래프로 나타낸 것이다.
도 36은 피크 부분의 제거를 그래프로 나타낸 것이다.
도 37은 피크 부존재 시그날의 형성을 그래프로 나타낸 것이다.
도 38은 기준선 교정을 만드는 방법의 블록 다이아그램이다.
도 39는 기준선 및 시그날을 그래프로 나타낸 것이다.
도 40은 기준선이 제거된 시그날을 그래프로 나타낸 것이다.
도 41은 압축된 데이타를 보여주는 표이다.
도 42는 데이타를 압축하는 방법의 플로우 차트이다.
도 43은 질량 전이를 그래프로 나타낸 것이다.
도 44는 피크 너비의 측정을 그래프로 나타낸 것이다.
도 45는 피크의 제거를 그래프로 나타낸 것이다.
도 46은 피크가 제거된 시그날을 그래프로 나타낸 것이다.
도 47은 잔여 기준선을 그래프로 나타낸 것이다.
도 48은 잔여 기준선이 제거된 시그날을 그래프로 나타낸 것이다.
도 49는 피크 높이의 측정을 그래프로 나타낸 것이다.
도 50은 각 피크에 대한 시그날-대-노이즈의 측정을 그래프로 나타낸 것이다.
도 51은 각 피크에 대한 잔여 오차의 측정을 그래프로 나타낸 것이다.
도 52는 피크 확률을 그래프로 나타낸 것이다.
도 53은 대립유전자 비를 피크 확률에 적용한 것을 그래프로 나타낸 것이다.
도 54는 피크 확률의 측정을 그래프로 나타낸 것이다.
도 55는 유전자형의 요청(calling)을 그래프로 나타낸 것이다.
도 56은 유전자형의 요청을 위한 통계학적 과정을 보여주는 플루우차트이다.
도 57은 표준없는 유전자형 분류를 수행하는 경우, 도 1의 컴퓨터수행 장치에 의해 수행된 프로세싱을 보여주는 플로우차트이다.
도 58은 대립유전자 비를 표준없는 유전자형 프로세싱에 대한 피크 확률에 적용한 것을 그래프로 나타낸 것이다..
달리 규정되지 않는 한, 본원에 사용된 모든 전문 과학 용어는 본 발명에 관한 당업자가 통상적으로 이해하는 바와 동일한 의미를 갖는다. 모든 특허, 출원, 공개된 출원 및 기타 공보, Genbank로 부터의 서열, 및 본원 전반에 걸쳐 언급된 기타 데이타베이스는 이의 전체가 참조로서 인용된다.
본원에서 사용된 생체중합체로는 핵산, 단백질, 다당류, 지질 및 기타 거대분자가 포함되나, 이에 한정되는 것은 아니다. 핵산으로는 DNA, RNA, 및 이의 단편이 포함된다. 핵산은 게놈 DNA, RNA, 미토콘드리아 핵산, 엽록체 핵산 및 별도의 유전 물질을 지닌 기타 소기관으로 부터 유래될 수 있다.
본원에 사용된 병적상태는 생물체, 예를 들면 동물의 건강과 안녕을 위협하는 질환 또는 장애와 같은 병리상태를 의미한다. 이환율 감수성 또는 사망율-관련 유전자는, 예를 들면 뉴클레오티드 서열의 변이에 의해 변형된 경우 특정 질환 임상적 표현형의 발현을 용이하게 하는 유전자이다. 따라서, 이환율 감수성 유전자는, 변형시, 특정 질환이 발병할 가능성 또는 일반적 위험이 증가하는 잠재력을 갖는다.
본원에서 사용된 사망율은, 생물체, 특히 동물이 예상 수명을 다하지 못할 통계학적 가능성을 의미한다. 따라서, 증가된 사망율과 관련된 다형성과 같은 특질 또는 마커는 집단의 젊은 부분에서 보다 늙은 부분에서 낮은 빈도로 관찰된다.
본원에서 사용된 다형성, 예를 들면 유전적 변이는 집단중 게놈내 유전자의 서열의 변이, 예를 들면 대립유전자 변이 및 발생하거나 관찰된 다른 변이를 의미한다. 따라서, 다형성은 집단내에 유전학적으로 판정된 2 이상의 대체 서열 또는 대립유전자가 존재함을 의미한다. 이들 상이성은, 게놈의 암호화 및 비-암호화 부분에 존재할 수 있으며, 핵산 서열, 유전자 발현, 예를 들면 전사, 프로세싱, 해독, 수송, 단백질 프로세싱, 트레피킹(trafficking), DNA 합성, 발현된 단백질, 다른 유전자 산물 또는 생화학적 경로의 산물 또는 해독후 변형애서의 상이성 및 집단의 구성원중에서 나타난 기타 다른 상이성으로서 나타나거나 검출될 수 있다. 단일 뉴클레오티드 다형성(SNP)는 단일 염기 변화, 예를 들면 삽입, 결실 또는 염기변화의 결과로서 발생하는 다형성을 의미한다.
다형성 마커 또는 부위는 분기가 일어나는 유전자좌이다. 이러한 부위는하나의 염기쌍 만큼 작을 수 있다(SNP). 다형성 마커로는 제한 단편 길이의 다형성, 탠덤 반복체의 변수(VNTR), 과변이성 영역, 미니위성, 이뉴클레오티드 반복체, 삼뉴클레오티드 반복체, 사뉴클레오티드 반복체, 및 다른 반복 패턴, 간단한 서열 반복체, 및 삽입 요소, 예를 들면 Alu이 포함되나, 이에 한정되는 것은 아니다. 또한, 다형성 형태는 유전자에 대한 상이한 멘델 대립유전자로서 나타난다. 다형성은 단백질, 단백질 변형, RNA 발현 변형, DNA 및 RNA 메틸화, 유전자 발현 및 DNA 복제를 변화시키는 조절 인자, 및 게놈 핵산 또는 소기관 핵산에서의 기타 변형의 표현에서의 상이성에 의해 관찰될 수 있다.
본원에서 사용된 건강한 집단은, 질환이 부존재하는, 동물, 세균, 바이러스, 기생충, 식물, 유박테리아(eubacteria) 등을 포함하지만 이에 한정되지 않는 생물체의 집단을 의미한다. 질환-부존재의 개념은 선택된 생물체의 기능이다. 예를 들면, 포유동물의 경우, 어떠한 질환 상태도 나타내지 않는 피험자를 의미한다. 특히, 사람인 경우 건강한 피험자는, 일반적 집단에서 최종적으로 사용하기 위한 혈액을 제공하는 혈액 은행 기준을 통과한 사람 헌혈자로서 정의된다. 이들 기준은 다음과 같다: 검출가능한 바이러스, 박테리아, 미코플라스마, 및 기생충 감염증이 부존재하고; 빈혈증이 없고; 전력에 관한 앙케이트를 기준으로 하여 추가로 선택된다(도 3 참조). 따라서, 건강한 집단은, 혈액 은행 기준에 따라 혈액을 제공하기에 충분히 건강한 편견없는 집단을 나타내고, 임의의 질환 상태에 대해 추가로 선택되지 않는다. 전형적으로, 이러한 개체는 어떠한 약물치료도 받지 않는다. 식물의 경우, 예를 들면 이는 식물과 관련된 질환 병리학을 나타내지 않는 식물 집단이다. 세균의 경우, 이는 환경 스트레스, 예를 들면 선별제, 열, 및 기타 병원체의 부존재하에 복제하는 세균 집단이다. 본원에서, 건강한 데이타베이스(또는 건강한 환자 데이타베이스)는 어떠한 특정 질환에 대해 이전에 선택된 바 없었던 피험자의 프로파일에 대한 데이타베이스를 일컫는다. 따라서, 데이타베이스를 위한 데이타의 공급원으로서 기능하는 피험자가 예정된 기준에 따라 건강한 것으로 선택된다. 특정 질환 또는 다른 특성을 지닌 피험자에 대해 예비-선택된 상기와 같은 데이타베이스와는 달리, 본원에서 제공된 데이타베이스에 대한 피험자는 이와같이 선택되지 않는다. 또한, 피험자가 질환 또는 다른 병리상태를 나타내는 경우, 발견되거나 밝혀진 모든 다형성은 독립적인 질환 또는 병리상태와 관련이 있어야 한다. 바람직한 태양에서, 피험자가 사람인 경우, 건강한 피험자는 질환 증상을 나타내지 않고 헌혈자를 위한 혈액 은행에 의해 설정된 기준을 충족한다.
따라서, 데이타베이스를 위한 피험자는, 동물, 식물, 세균, 바이러스, 기생충, 및 핵산을 보유하는 기타 생물체 또는 존재물을 포함하나, 이에 한정되지 않는 임의의 생물체의 집단이다. 바람직한 피험자는 동물이며, 필수적인 것은 아니지만 바람직하게는 사람이다. 이러한 데이타베이스는 집단의 다양성을 획득할 수 있으므로, 희소 다형성의 발견을 제공한다.
본원에서 사용된 프로파일은, 연령, 성별, 종족, 병력, 가족력, 표현형적 특징, 예를 들면 신장 및 체중 및 기타 관련 매개변수에 관한 것을 전부 포함할 필요는 없으나 또한 이에 한정되지 않는 정보를 의미한다. 샘플 수집 정보 형은 도 22에 제시되어 있으며, 이는 프로파일 의도를 설명한다.
본원에서 사용된 질환 상태는 유전되거나 환경적 스트레스, 예를 들면 독소, 세균, 진균, 및 바이러스 감염으로 부터 발생하는 병리상태 또는 비정상 또는 장애를 의미한다.
본원에서 사용된 비-선택된 피험자 셋트는 공통 질환 또는 다른 특성을 공유하도록 예비-선택되지 않은 피험자를 의미한다. 이들은 본원에서 정의된 바와 같이 건강한 것으로 선택될 수 있다.
본원에서 사용된 표현형은 생물체의 구분가능한 모든 속성을 포함하는 파라미터의 셋트를 의미한다. 표현형은 물리적 속성일 수 있고, 예를 들면 피험자가 동물인 경우, 정신적 속성, 예를 들면 감정적 속성일 수 있다. 일부 표현형은 앙케이트(도 3 및 22 참조)에 의해 알아낸 관찰에 의해 판정하거나 종전의 의학적 및 다른 기록을 참조하여 판정할 수 있다. 본원의 목적을 위해, 표현형은 데이타베이스를 정렬하는 매개변수이다.
본원에서 사용된 매개변수는 데이타베이스를 정렬하기 위한 토대로서 작용하는 모든 입력된 데이타이다. 이들 매개변수는 표현형 속성, 의학적 전력, 가족력, 및 피험자로 부터 알아내거나 피험자에 관해 관찰된 기타 임의의 정보를 포함할 것이다. 매개변수는 피험자, 피험자가 경험한 이전 또는 현재의 환경적 또는 사회적 영향, 또는 피험자와 관련된 누군가에 미치는 병리상태 또는 환경적 영향을 기술할 것이다. 매개변수는 본원에 기술되고 당업자에게 공지된 것을 포함할 것이나, 이에 한정되지는 않는다.
본원에서 사용된 일배체형은 단일 DNA 쇄에 존재하는 2이상의 다형성을 의미한다. 따라서, 일배체형화(haplotyping)는 단일 DNA 쇄상에서의 2이상의 다형성을 동정하는 것을 의미한다. 일배체형은 표현형을 표시할 수 있다. 일부 질환의 경우, 단일 다형성이 속성을 나타내기에 충분할 수 있다; 다른 경우에, 다수(즉, 일배체형)이 필요할 수 있다. 일배체형화는 핵산을 분리하고 본쇄를 분리하여 수행할 수 있다. 또한, 효소, 예를 들면 각각의 쇄로 부터 상이한 크기의 단편을 형성하는 특정 뉴클리아제를 사용하는 경우, 쇄 분리는 일배체형화에 필요하지 않다.
본원에서 사용된 질량 스펙트럼 또는 질량 분광측정 분석에 관한 패턴은 시그날(예: 피크 또는 이의 디지탈화 표시)의 특징적 분포 및 수를 의미한다.
본원에서 사용된, 질량 스펙트럼 및 이의 분석에 있어서의 시그날은 출력 데이타를 의미하고, 이는 특정 질량을 갖는 분자의 수 또는 상대수 이다. 시그날은 "피크" 및 이의 디지탈화 표시를 포함한다.
본원에서 사용된, Fen 리가제를 사용하는 이배체형화와 관련하여 사용되는 경우의 어댑터(adaptor)는 목적하는 다형성과 특이적으로 하이브리드를 형성하는 핵산을 의미한다. 어댑터는 부분적으로 이본쇄일 수 있다. 어댑터 복합체는, 어댑터가 이의 표적과 하이브리드를 형성하는 경우, 형성된다.
본원에서 사용된 표적 핵산은 샘플중의 목적하는 임의의 핵산을 의미한다. 이는 하나 이상의 뉴클레오티드를 함유할 수 있다.
본원에서 사용된 표준없는 분석은 내부 표준에 의거한 측정을 의미한다. 예를 들면, 다형성의 빈도는 단일 질량 스펙트럼내에서 시그날을 비교함으로써 본원에서 측정될 수 있다.
본원에서 사용된 증폭은 생체중합체, 특히 핵산의 양을 증폭하기 위한 수단을 의미한다. 선택된 5' 및 3' 프라이머를 기초로 하면, 증폭은 또한 분석될 게놈의 영역을 제한하고 한정하는 역할을 한다. 증폭은, 중합효소 연쇄 반응(PCR) 등을 사용함을 포함하여, 당업자에게 공지된 임의의 수단에 의해 수행될 수 있다. 증폭, 예를 들면 PCR은 다형성의 빈도가 측정되어야 할 필요가 있는 경우, 정량적으로 수행되어야 한다.
본원에서 사용된 절단은 생체중합체의 비-특이적 및 특이적 단편화를 의미한다.
본원에서 사용된 다중화는 하나 이상의 다형성을 동시에 검출하는 것을 의미한다. 특히, 질량 분광측정과 함께 다중화 반응을 수행하는 방법은 공지되어 있다[참조 문헌: 미국 특허 제6,043,031호, 제5,547,835호, 및 국제 PCT 출원 WO 97/37041].
본원에서 사용된 질량 분광측정에 대한 기준은 당업자에게 공지된 임의의 적합한 질량 분광측정 포맷을 포함한다. 이러한 포맷은 매트릭스-지원된 레이저 탈착/이온화, 비행 시간(Time-of-flight)(MALDI-TOF), 전기분무(ES), IR-MALDI(참조 문헌: 공개된 국제 PCT 출원 제99/57318 및 미국 특허 제5,118,937], 이온 사이클로트론 공명(ICR), 푸리어(Fourier) 변환 및 이의 조합을 포함하나, 이에 한정되지는 않는다. MALDI, 특정 UV 및 IR이 특히 바람직한 포맷이다.
본원에서 사용된 질량 스펙트럼은 생체중합체 또는 이의 단편을 질량 분광측정에 의해 분석함으로써 수득된 데이타를 그래프로 또는 암호화된 숫자로 나타낸것이다.
본원에서 사용된 혈액 성분은 혈액으로 부터 분리된 성분이고, 적혈구, 혈소판, 혈액 응고 인자, 혈장, 효소, 플라스미노겐, 면역글로불린을 포함하나, 이에 한정되지는 않는다. 세포 혈액 성분은 적혈구와 같이 세포인 혈액 성분이다. 혈액 단백질은 혈액에서 정상적으로 발견되는 단백질이다. 이러한 단백질의 예로는 혈액 인자 VII 및 VIII이 있다. 이러한 단백질 및 성분은 당업자에게 익히 공지되어 있다.
본원에서 사용된 혈장은 당업자에게 공지된 방법에 의해 제조될 수 있다. 예를 들면, 이는 적혈구를 펠릿화하고 적혈구와 연막(buffy coat) 사이에 계면이 형성될 정도로 원심분리하여, 계면이 백혈구를 함유하고 이의 상층부가 혈장이 되도록함으로써 혈장을 제조할 수 있다. 예를 들면, 전형적인 혈소판 농축물은 적어도 약 10% 혈장을 함유한다.
혈액을 당업자에게 공지된 임의의 방법에 의해 혈장, 혈소판, 및 적혈구를 포함하지만 이에 한정되지 않는 성분으로 분리할 수 있다. 예를 들면, 혈액을 충분한 시간 동안 충분한 가속으로 원심분리하여 적혈구를 함유하는 펠릿을 형성시킬 수 있다. 백혈구는 연막 영역내의 펠릿과 상청액의 계면에서 주로 수집한다. 이어서, 혈장, 혈소판 및 기타 혈액 성분을 함유하는 상청액을 제거하고 고도의 가속으로 원심분리하여 혈소판을 펠릿화한다.
본원에서 사용된 p53은 DNA 손상을 평가하고, 세포 성장, DNA 복구 및 아폽토시스(apoptosis)를 조절하는 전사 인자 조절 유전자로서 작용하는 세포 사이클조절 단백질이다. p53 돌연변이는, 다양한 빈도를 갖는 상이한 유형의 백혈병을 포함하는 각종 상이한 암에서 발견되었다. 정상적 p53 기능의 손실은 게놈 불안정성 및 숙주 세포의 통제되지 않는 성장을 초래한다.
본원에서 사용된 p21은 정상 세포의 G1 상 정지와 관련된 사이클린-의존형 키나제 억제제이다. 발현은 아폽토시스 또는 예정된 세포 사멸을 촉발하고 윌름 종양, 소아 신장 암과 관련이 있다.
본원에서 사용된 인자 VII는 외인성 혈액 응고 연쇄증폭반응과 관련된 세린 프로테아제이다. 이 인자는 트롬빈에 의해 활성화되고 인자 X의 인자 Xa로의 프로세싱에서 조직 인자(인자 III)와 함께 작용한다. 증거가 유전자중의 다형성간의 관련성을 지지해주고, 심근경색을 포함한 허혈성 심혈관 질환의 증가 위험을 초래할 수 있는 인자 VII 활성을 증가시킨다.
본원에서 사용된 관련 데이타베이스는 행렬을 나타나는 형태, 예를 들면 데이타의 횡렬과 종렬을 포함하는 2차원 표, 또는 고차원의 행렬로 정보를 저장한다. 예를 들면, 일 태양에서, 관련 데이타베이스는 각각 매개변수를 갖는 별도의 표를 갖는다. 당해 표들은 기록 숫자와 연관이 있으며, 이는 또한 인덱스로서 작용한다. 당해 데이타베이스를 표내의 데이타를 사용하여 조사하거나 정렬할 수 있으며, 임의의 적당한 저장 매체, 예를 들면 플로피 디스크, CD 롬 디스크, 하드 드라이브 또는 기타 적합한 매체에 저장한다.
본원에서 사용된 바코드는, 필수적인 것은 아니나 바람직하게는 하나 이상의 종렬과 하나 이상의 횡렬로 구성된 프레임 또는 기준 상황에서 정렬된 임의의 목적하는 크기 및 형태의 광학적으로 판독가능한 마크의 임의의 정렬을 의미한다. 본원의 목적을 위하여, 바코드는 임의의 기호를 가리키는 것으로, 반드시 "막대(bar)"일 필요는 없으며, 점, 문자, 또는 임의의 기호(들)을 포함할 수 있다.
본원에서 사용된 기호는 인식인자 암호 또는 부호, 예를 들면 바코드를 의미한다. 인덱스는 이러한 각 기호를 표시한다. 당해 기호들은 공지되거나 사용자에 의해 지정된 임의의 암호이다. 기호는 데이타베이스내 저장된 정보와 관련된다. 예를 들면, 각 샘플은 암호화된 기호에 의해 특유하게 확인될 수 있다. 매개변수, 예를 들면 질문에 대한 대답 및 샘플의 분석시 수득된 유전자형 및 기타 정보가 데이타베이스에 포함되며 기호들과 관련된다. 당해 데이타베이스는 임의의 적당한 기록 매체, 예를 들면 하드 드라이브, 플로피 디스크, 테잎, CD ROM, DVD 디스크 및 임의의 기타 적당한 매체에 저장된다.
데이타베이스
현재, 사람 유전자형 결정은, 질환 조직의 샘플을 제공하는 연구 기관, 조직 은행 및 병원의 공동연구에 따른다. 이러한 시도는 질환의 발병 및/또는 진행이 다형성 또는 다른 유전 마커의 존재와 서로 관련될 수 있다는 개념을 기초로 한다. 이러한 시도는 특정 마커의 존재 및 특정 마커의 부존재와 서로 관련이 있는 질환을 고려하지 않는다. 본원에서, 이들 마커가 질환의 발병이 다형성의 존재의 변화를 차폐하지 않는 경우인 건강한 피험자의 백그라운드에서만 측정되는 경우에만, 마커의 출현 및 소멸의 동정 및 스코어기록이 가능하다는 것이 밝혀졌다. 질환 집단으로 부터의 정보의 데이타베이스는 작은 샘플 규모, 편견의 선택 및 이질성으로 인해 문제가 있다. 건강한 집단으로 부터 제공된 본원의 데이타베이스는 대형 샘플 밴드, 간단한 선택 및 희석된 이질성을 허용함으로써 이들 문제을 해결한다.
비-선택된, 특히 건강한 피험자와 관련된 매개변수의 제1 데이타베이스가 본원에 제공된다. 또한, 각 피험자로 부터 수득된 인덱스화된 샘플과 데이타베이스와의 조합물이 제공된다. 또한, 제1 데이타베이스로 부터 생성된 데이타베이스가 제공된다. 이들은 고유 매개변수 정보에 추가하여, 샘플로 부터 유래된 게놈 서열 정보를 포함하지만 이에 한정되지 않는 유전자형 정보를 포함한다.
본원에서 건강한 데이타베이스로 명명된 데이타베이스는, 이들이 특정 질환에 대해 예비-선택된 피험자로 부터 수득되지 않기 때문에, 그렇게 명명된다. 따라서, 비록 개개의 구성원이 질환을 가질 수 있어도, 개개인의 집합은 특정 질환을 가진 것으로 선택되지 않는다.
매개변수를 수득한 피험자는, 바람직하게는 모든 집단에 대해 무작위로 선택된 피험자 셋트 또는 질환-부존재이거나 건강한 것으로 예비-선택된 피험자 셋트를 포함한다. 결과로서, 데이타베이스는 임의의 예비-선택된 표현형, 유전자형, 질환 또는 다른 특성을 대표하는 것으로 선택되지 않는다. 전형적으로, 데이타베이스를 수득한 피험자의 수는, 본원에 제공된 방법에 사용된 경우 통계학적으로 유의적인 결과를 수득하도록 선택된다. 바람직하게는, 피험자의 수는 100 이상, 보다 바람직하게는 200 이상, 보다 더욱 바람직하게는 1000 이상일 것이다. 정확한 수는 데이타베이스를 정렬하는데 사용된 매개변수의 빈도를 토대로 경험적으로 측정할 수있다. 일반적으로, 당해 집단은 50 이상, 100 이상, 200 이상, 500 이상, 1000 이상, 5000 이상, 10,000 이상의 피험자를 가질 것이다.
피험자 집단의 동정시, 각 피험자에 관한 정보를 기록하고 데이타베이스로서 각 피험자와 연관시킨다. 각 피험자와 연관시킨 정보는 피험자의 전력상 특징, 표현형 특징 및 유전자형 특징, 의학적 특징, 및 측정될 수 있는 피험자에 관한 기타 다른 속성 및 특징을 포함하나, 이에 한정되지는 않는다. 이들 정보는 데이타베이스 정렬을 위한 토대로서 작용한다.
예시적인 태양에서, 피험자는 포유동물, 예를 들면 사람이고, 당해 정보는 하나 이상의 매개변수, 예를 들면 연령, 성별, 의학적 전력, 종족 및 기타 다른 인자에 관한 것이다. 동물이 사람인 경우, 이러한 정보는 예를 들면 앙케이트, 및 개개인의 머리색, 눈색 및 기타 특징 등의 관찰에 의해 수득될 수 있다. 유전자형 정보는 피험자의 조직 또는 기타 신체 및 체액 샘플로 부터 수득될 수 있다.
건강한 게놈 데이타베이스는, 라이브러리의 각 샘플이 개개의 별도의 혈액 또는 다른 조직 샘플인 경우, 혈액 샘플의 라이브러리로 부터의 건강한 개체로 부터의 프로파일 및 다형성을 포함할 것이다. 데이타베이스의 각 샘플은 제공자의 성, 연령, 종족 그룹 및 병력에 대해 프로파일링된다.
당해 데이타베이스는 먼저 피험자의 건강한 집단을 동정하고 데이타베이스를 위한 정렬 매개변수로서 작용하는 각 피험자에 관한 정보를 수득하는 방법으로 제조된다. 이러한 정보는 바람직하게는 저장 매체, 예를 들면 컴퓨터의 메모리에 입력된다.
데이타베이스를 제조하는데 사용된 집단중의 각 피험자에 관해 수득된 정보는 컴퓨터 메모리 또는 다른 적합한 저장 매체에 저장된다. 당해 정보는 각 피험자와 관련된 인식인자에 연결된다. 따라서, 데이타베이스는 예를 들면 바코드를 나타내는 데이타포인트에 의해 피험자를 동정할 것이고, 앙케이트로 부터의 정보와 같은 개개인에 관한 모든 정보가 데이타포인트와 관련된다. 정보가 수집되면 데이타베이스가 제조된다.
따라서, 예를 들면, 앙케이트로 부터 수득된 피험자 전력과 같은 프로파일 정보는 데이타베이스중에 수집된다. 수득된 데이타베이스는 표준 소프트웨어를 사용하여 연령, 성 및/또는 종족에 의해 목적한 대로 정렬될 수 있다. 샘플을 수득할 피험자에 대한 앙케이트의 예가 도 22A-D에 도시되어 있다. 각 앙케이트는 바람직하게는 바코드, 특히 데이타베이스에 입력하기 위한 기계식 판독 바코드에 의해 인식된다. 피험자가 데이타를 제공하고 건강한 것으로(즉, 혈액 제공을 위한 표준을 충족함) 결정된 후, 앙케이트의 데이타를 데이타베이스에 입력하고 바코드와 관련시킨다. 조직, 세포 또는 혈액 샘플이 피험자로 부터 수득된다.
도 4는 혈액 샘플 성분의 프로세싱 및 트래킹을 예시화한다. 각 성분을 바코드로 트래킹하고, 날짜를 기입하고, 데이타베이스에 입력하고, 피험자 및 피험자의 프로파일과 관련시킨다. 전형적으로, 전혈을 원심분리하여 혈장, 적혈구(이는 펠릿임), 및 사이의 층인 연막속에서 발견된 백혈구를 수득한다. 각종 샘플을 수득하고 바코드로 암호화하고 필요한 때 사용하기 위해 저장한다.
샘플을 피험자로 부터 수집한다. 당해 샘플은 조직, 세포, 체액, 예를 들면핵산, 혈액, 혈장, 양수, 활액, 소변, 타액, 수성 체액, 땀, 정액 샘플 및 뇌척수액을 포함하지만, 이에 한정되지는 않는다. 샘플의 특정 셋트는 집단중의 생물체에 의존한다고 이해된다.
일단 샘플이 수득되면, 수집물을 저장하고, 바람직한 태양에서 각 샘플을 인식인자, 특히 기계식 판독 코드, 예를 들면 바코드로 인덱스화한다. 분석을 위해, 샘플, 샘플의 성분, 특히 생체중합체 및 소분자, 예를 들면 핵산 및/또는 단백질 및 대사산물을 분리한다.
샘플을 분석한 후, 이 정보를 저장 매체의 메모리중 데이타베이스에 입력하고 각 피험자와 관련시킨다. 이러한 정보는 유전자형 정보를 포함하지만, 이에 한정되지는 않는다. 특히, 핵산 서열 정보 및 다형성을 나타내는 다른 정보, 예를 들면 PCR 단편의 질량, 펩티드 단편 서열 또는 질량, 생체중합체 및 소분자의 스펙트럼, 및 집단내의 다형성의 존재를 추론할 수 있도록 하는 유전자, 유전자 생성물 또는 기타 마커의 구조 또는 기능의 기타 표시를 포함한다.
예시적 태양에서, 데이타베이스는 혈액 샘플의 수집물로 부터 유도될 수 있다. 예를 들면 도 1(또한 도 10 참조)은 5000개 이상의 개개의 샘플의 수집물의 상태를 보여준다. 당해 샘플을 SOP(표준 작업 처리) 지침에 따라 실험실에서 처리한다. 임의의 표준 혈액 처리 프로토콜을 사용할 수 있다.
본원에 기술된 예시적인 데이타베이스의 경우, 다음 기준을 사용하여 피험자를 선택한다:
감염제에 대해 아무런 시험도 하지 않는다.
연령: 17세 이상
체중: 최소 110 파운드
영구 실격:
간염 전력(11세 이후)
백혈병 림프종
사람 면역결핍 바이러스(HIV), AIDS
만성 신장 질환
일시적 실격:
임신: 해산, 유산 또는 낙태 후 6주 까지
대수술 또는 수혈: 1년간
단핵증: 완전히 회복할 때 까지
전혈 제공 전: 8주간
1년간 항생제 주사: 1개월 까지, 48시간 동안
피부색을 위한 항생제 제외
5년 연기:
내부 암 및 피부 암이 제거되고 치유되고 재발이 없는 경우
이들은 혈액 제공을 위한 혈액 은행 기준에 상응하고 건강한 사람 데이타베이스에 대해 본원에서 규정된 건강한 집단을 나타낸다.
데이타베이스의 구조
당업자에게 공지된 임의의 적당한 데이타베이스 구조 및 포맷이 사용될 수 있다. 예를 들면, 데이타가 각 피험자를 동정하는 인덱서에 의해 링크된 매개변수의 행렬 또는 표로서 저장되는 관련 데이타베이스가 바람직한 포맷이다. 데이타베이스를 정렬함을 포함하여 제조하고 조작하기 위한 소프트웨어가 시판중인 소프크웨어, 예를 들면 Microsoft Access로 부터 쉽게 개발되거나 변형될 수 있다.
품질 관리
품질 관리 절차를 수행한다. 예를 들면, 샘플의 수집 후, 은행내의 수집물의 품질을 평가할 수 있다. 예를 들면, 샘플의 혼합을 공지된 마커, 예를 들면 성별을 시험하여 점검한다. 샘플을 종족에 따라 분리한 후, 샘플을 특정 종족과 관련된 마커, 예를 들면 HLA DQA1 그룹 특이적 성분에 대해 시험하여, 당해 샘플이 종족 그룹에 의해 적당히 정렬되었는지를 평가한다. 예시적 샘플 은행은 도 4에 도시되어 있다.
유전자형 데이타 및 데이타베이스를 위한 기타 매개변수의 수득
정보 매개변수 및 전력 매개변수를 데이타베이스에 입력한 후, 각 피험자로 부터 수득된 샘플로 부터의 물질을 분석한다. 분석된 물질은 단백질, 대사산물, 핵산, 지질 및 당해 물질의 임의의 목적하는 구성분을 포함한다. 예를 들면, 핵산, 예를 들면 DNA를 서열분석에 의해 분석할 수 있다.
서열분석을 당업자에게 공지된 임의의 방법에 의해 수행할 수 있다. 예를들면, 다형성이 동정되거나 공지된 경우, 및 다형성의 빈도 또는 데이타베이스내 피험자중에서의 존재를 평가하기를 원하는 경우, 각 샘플로 부터 목적 영역을 PCR 또는 제한 단편, 하이브리드화 또는 기타 당업자에게 공지된 방법에 의해 분리하고, 서열분석할 수 있다. 본원에서의 목적을 위해, 서열 분석은 바람직하게는 질량 분광측정을 사용하여 수행한다[참조 문헌: 미국 특허 제5,547,835호, 제5,622,824호, 제5,851,765호 및 제5,928,906호]. 또한, 핵산을 하이브리드화에 의해 서열분석할 수 있고[참조 문헌: 미국 특허 제5,503,980호, 제5,631,134호, 제5,795,714호] 질량 분광측정[참조 문헌: 미국 특허원: 제08/419,994호 및 제09/395,409호] 등에 의해 서열분석할 수 있다.
다른 검출 방법에서, 먼저, 대립유전자 변이체를 동정하기 전에 증폭할 필요가 있다. 증폭을 예를 들면 당업자에게 공지된 방법에 따라 PCR 및/또는 LCR에 의해 수행할 수 있다. 일 태양에서, 세포의 게놈 DNA를 두 개의 PCR 프라이머에 노출시키고, 필요한 양의 DNA를 생산하기에 충분한 수회의 사이클 동안 증폭시킨다. 바람직한 태양에서, 프라이머를 150 내지 350 염기쌍의 사이를 두고 위치시킨다.
또 다른 증폭 방법은 다음을 포함한다: 자가 유지 서열 복제[참조 문헌: Guatelli, J. C. et al., 1990, Proc. Natl. Acad. Sci. U.S.A. 87:1874-1878], 전사 증폭 시스템[참조 문헌: Kwoh, D. Y. et al., 1989, Proc. Natl. Acad. Sci. U.S.A. 86:1173-1177], Q-베타 레플리카제[참조 문헌: Lizardi, P. M. et al., 1988, Bio/Technology 6:1197], 또는 기타 핵산 증폭 후 당업자에게 익히 공지된 기술을 사용한 증폭된 분자의 검출. 이러한 검출 방법은 핵산 분자와 같이 매우소수로 존재하는 경우, 이러한 핵산 분자를 검출하는데 특히 유용하다.
또한, 핵산을 검출 방법 및 프로토콜, 특히 질량 분광측정에 의존하는 프로토콜에 의해 분석할 수 있다[참조 문헌: 미국 특허 제5,605,798호, 제6,043,031호, 허용된 공동계류중인 미국 특허원 제08/744,481호, 미국 특허원 제08/990,851호, 및 국제 PCT 출원 WO 99/31273, 국제 PCT 출원 WO 98/20019]. 이들 방법은 자동화될 수 있다[참조 문헌: 공동계류중인 미국 특허원 제09/285,481호 및 공개된 국제 PCT 출원 PCT/US00/08111; 이는 자동화된 공정 라인을 기술한다]. 본원의 분석 방법중에서, 검출을 위한 질량 분광측정를 수반한 프라이머 올리고 염기 연장(PROBE) 반응과 관련된 방법이 바람직하다[본원 및 기타 문헌에 기술된 참조 문헌: 미국 특허 제6,043,031호; 미국 특허원 제09/287,681호, 제09/287,682호, 제09/287,141호 및 제09/287,679호, 허용된 공동계류중인 미국 특허원 제08/744,481호, 국제 PCT 출원 PCT/US97/20444호, 공개된 국제 PCT 출원 WO 98/20019, 및 미국 특허원 제08/744,481호, 제08/744,590호, 제08/746,036호, 제08/746,055호, 제08/786,988호, 제08/787,639호, 제08/933,792호, 제08/746,055호, 제08/786,988호 및 제08/787,639호; 미국 특허원 제09/074,936호, 미국 특허 제6,024,925호, 및 미국 특허원 제08/746,055호 및 제08/786,988호, 및 공개된 국제 PCT 출원WO 98/20020].
분석을 수행하기 위한 바람직한 포맷은, 생체중합체가 고형 지지체, 예를 들면 규소 또는 규소-피복된 기판에 바람직하게는 정렬의 형태로 링크된 칩-기초 포맷이다. 보다 바람직하게는, 분석을 질량 분광측정, 특히 MALDI를 사용하여 수행하는 경우, 극소량의 샘플을 생성된 반점이 레이저 반점의 크기와 대략 같거나 이보다 작도록 적재한다. 이것이 달성된 경우, 질량 분광측정 분석으로 부터의 결과가 정량적이라는 것이 밝혀졌다. 수득된 질량 스펙트럼에서의 시그날하의 면적이 농도에 비례한다(백그라운드에 대해 정규화하고 교정한 경우). 이러한 칩을 제조하고 사용하는 방법은 미국 특허 제6,024,925호, 공동계류중인 미국 특허원 제08/786,988호, 제09/364,774호, 제09/371,150호 및 제09/297,575호에 기술되어 있으며; WO 98/20020로서 공개된 미국 특허원 PCT/US97/20195을 참조 한다. 이들 분석을 수행하기 위한 칩 및 키트는 SEQUENOM에서 상표명 MassARRAY로 시판되고 있다. MassARRAY는, 결과를 신속히 전달하기 위하여, 축사된 정렬 및 MALDI-TOF(Matrix-Assisted Laser Desorption Ionization-Time of Flight; 매트릭스-지원된 레이저 탈착 이온화- 비행 시간) 질량 분광측정과 병행된 효소에 의한 프라이머 연장 반응의 엄밀성에 의존한다. 이는 태그가 부존재하는 유전자 변이체와 관련된 DNA 단편의 크기에서 단일 염기 변화를 정확히 구분한다.
본원에 제공된 방법은 대립유전자의 정량적인 측정을 가능케한다. 질량 스펙트럼의 시그날 아래의 면적은 정량적 측정에 사용될 수 있다. 당해 빈도를 모든 스펙트럼의 전체 면적에 대한 시그날에 대한 비로 부터 측정하고 백그라운드에 대해 교정한다. 이는 본원에 참조로서 인용된 상기 출원에 기술된 PROBE 기술을 이용할 수 있기 때문에 가능하다.
핵산을 분석하는 또 다른 분석은 증폭에 의한 방법, 예를 들면 중합효소 연쇄 반응(PCR), 리가제 연쇄 반응(LCR), 미니-PCR, 회전 환(rolling circle) 증폭, 자동촉매적 방법, 예를 들면 Qβ 레플리카제, TAS, 3SR를 이용하는 방법, 및 당업자에게 공지된 기타 적합한 방법을 포함한다.
다형성의 분석, 동정 및 검출을 위한 다른 방법은 대립유전자 프로브, 서던 분석 및 기타 분석을 포함하지만, 이에 한정되지 않는다.
아래에 기술된 방법은, 질량 분광측정을 사용하여 단편 혼합물을 분석하는 경우, 주어진 증폭된 또는 비-증폭된 뉴클레오티드 서열을 단편화하여, 질량 시그날의 셋트를 생성시키는 방법을 제공한다. 증폭된 단편은 표준 중합효소 연쇄 방법에 의해 수득된다[참조 문헌: 미국 특허 제4,683,195호 및 제4,683,202호]. 당편화 방법은 DNA의 일본쇄 및 이본쇄를 절단하는 효소 및 DNA를 결합하는 효소의 사용을 수반한다. 절단 효소는 글리코실라제, 닉카제(nickase), 및 부위-특이적 및 비-부위 특이적 뉴클리아제이고, 가장 바람직한 효소는 글리코실라제, 닉카제 및 부위-특이적 뉴클리아제이다.
글리코실라제 단편화 방법
DNA 글리코실라제는 특이적으로 특정 유형의 핵산염기를 주어진 DNA 단편으로 부터 제거한다. 이로써, 이들 효소는 염기-부존재(abasic) 부위를 생성하고, 이는 또 다른 절단 효소, 즉 노출된 포스페이트 주쇄를 특이적으로 염기-부존재 부위에서 절단하고 당해 서열을 표시하는 핵산염기 특이적 단편의 셋트를 생성하는 효소, 또는 화학적 수단, 예를 들면 알카리 용액 또는 가열에 의해 인식될 수 있다. DNA 글리코실라제외 이의 표적 뉴클레오티드의 한 배합물의 사용은 임의의 주어진 표적 영역의 염기 특이적 특징 패턴을 생성하기에 충분할 것이다.
수 많은 DNA 글리코실라제가 공지되었다. 예를 들면, DNA 글리코실라제는 우라실-DNA 글리코실라제(UDG), 3-메틸아데닌 DNA 글리코실라제, 3-메틸아데닌 DNA 글리코실라제 II, 피리미딘 수화물-DNA 글리코실라제, FaPy-DNA 글리코실라제, 티민 부정합-DNA 글리코실라제, 하이포크산틴-DNA 글리코실라제, 5-하이드록시메틸우라실 DNA 글리코실라제(HmUDG), 5-하이드록시메틸시토신 DNA 글리코실라제, 또는 1,N6-에테노아데닌 DNA 글리코실라제[참조 문헌: 미국 특허 제 5,536,649호, 제5,888,795호, 제5,952,176호 및 제6,099,553호, 국제 PCT 출원 WO 97/03210, WO 99/54501; Eftedal et al. (1993) Nucleic Acids Res 21:2095-2101, Bjelland and Seeberg (1987) Nucleic Acids Res. 15:2787-2801, Saparbaev et al. (1995) Nucleic Acids Res. 23:3750-3755, Bessho (1999) Nucleic Acids Res. 27:979-983]일 수 있으며, 효소의 변형된 뉴클레오티드 또는 뉴클레오티드 동족체 표적에 상응한다. 바람직한 글리코실라제는 우라실-DNA 글리코실라제(UDG)이다.
예를 들면, 정상적 DNA 전구체 뉴클레오티드(예: dCTP, dATP 및 dGTP) 및 dUTP의 존재하에 DNA를 증폭시킴으로써 우라실을 DNA 분자중에 삽입시킬 수 있다. 증폭된 생성물을 UDG로 처리하는 경우, 우라실 잔기가 절단된다. UDG 반응으로 부터의 생성물을 후속적으로 화학적으로 처리하면, 포스페이트 주쇄가 절단되고 핵산염기 특이적 단편이 생성된다. 또한, 글리코실라제 처리 전에, 증폭된 생성물의 상보적 쇄를 분리하는 경우, 생성될 단편화의 상보적 패턴이 수득될 수 있다. 따라서, dUTP 및 우라실 DNA 글리코실라제를 사용하는 경우, 상보적 쇄의 T 특이적 단편이 생성될 수 있으므로, 주어진 서열내의 T 위치는 물론 A 위치에 관한 정보를제공할 수 있다. 이와 유사하게, 두 증폭 쇄 모두의 단편화 패턴이 별개로 분석되는 경우, 두 쇄(상보적 쇄)에 대해 C-특이적 반응(즉, C-특이적 글리코실라제의 사용)을 수행하여 주어진 서열내의 C 위치 및 G 위치에 관한 정보를 수득할 수 있다. 따라서, 글리코실라제 방법 및 질량 분광측정을 사용하여, 일련의 A, C, G 및 T 특이적 단편화 패턴을 전부 분석할 수 있다.
닉카제 단편화 방법
DNA 닉카제 또는 DNase를, DNA 이본쇄중의 하나의 쇄를 인식하고 절단하는데 사용할 수 있다. 수 많은 닉카제가 공지되어 있다. 이들 중에서, 예를 들면 아래의 절단 부위를 갖는 닉카제 NY2A 닉카제 및 NYS1 닉카제(Megabase)가 있다:
NY2A: 5'...R AG...3'
3'...Y TC...5' (여기서, R = A 또는 G이고, Y = C 또는 T 이다).
NYS1: 5'... CC[A/G/T]...3'
3'... GG[T/C/A]...5'.
Fen-리가제 단편화 방법
Fen-리가제 방법은 두개의 효소를 수반한다: Fen-1 효소 및 리가제. Fen-1 효소는 "플랩(flap) 엔도뉴클리아제로서 공지된 부위-특이적 뉴클리아제이다[참조 문헌: 미국 특허 제5,843,669호, 제5,874,283호, 및 제6,090,606호]. 이 효소는, 표적 DNA 쇄와 하이브리드를 형성하는 두 개의 올리고뉴클레오티드의 중첩에 의해발생하는 "플랩"을 인식하고 절단한다. 이러한 절단은 고도로 특이적이고, 단일 염기쌍 돌연변이를 인식할 수 있으므로, 목적하는 하나의 SNP에서 개개의 이형접합체로 부터 단일 상동체를 검출할 수 있고, 단편내에 존재하는 다른 SNP에서 그 상동체의 유전자형을 결정할 수 있다. Fen-1 효소는 Fen-1 유사 뉴클리아제, 예를 들면 사람, 쥐, 및 크세노푸스(Xenopus) XPG 효소 및 효모 RAD2 뉴클리아제, 또는 예를 들면 엠 얀나쉬(M. jannaschii), 피 푸리오수스(P. furiosus) 및 피 우에세이(P. woesei)로 부터의 Fen-1 엔도뉴클리아제일 수 있다. 이중에서 바람직한 효소는 Fen-1 효소이다.
리가제 효소는 두개의 이본쇄 핵산 단편 사이에 포스포디에스테르 결합을 형성한다. 리가제는 DNA 리가제 I 또는 DNA 리가제 III일 수 있다[참조 문헌: 미국 특허 제5,506,137호, 제5,700,672호, 제5,858,705호 및 제5,976,806호; Waga, et al. (1994) J. Biol. Chem. 269:10923-10934, Li et al. (1994) Nucleic Acids Res. 22:632-638, Arrand et al. (1986) J. Biol. Chem. 261:9079-9082, Lehman (1974) Science 186:790-797, Higgins and Cozzarelli (1979) Methods Enzymol. 68:50-71, Lasko et al. (1990) Mutation Res. 236:277-287, and Lindahl and Barnes (1992) Ann. Rev. Biochem. 61:251-281].
이중에서, 열안정성 리가제(Epicenter Technologies){여기서, "열안정성"이란 DNA의 두 쇄를 분리하게 충분한 온도에 노출한 후에도 리가제가 활성을 보유하는 것을 말한다}가 본원에서 사용하기에 바람직한 리가제이다.
IIS형 효소 단편화 방법
제한 효소는, 특정 인식 서열 내 또는 인접한 곳의 특정 부위에서 이본쇄 DNA에 특이적으로 결합하여 절단한다. 이들 효소는 당업자에게 공지된 바와 같이 3 그룹으로 분류될 수 있다(예: I형, II형 및 III형). I형 및 III형 효소의 특성 때문에, 이들은 분자 생물학 적용시 널리 사용되지 못하였다. 따라서, 본 발명의 경우, II형 효소가 바람직하다. 당업계에 공지된 수 천개의 제한 효소중에서, 179개의 상이한 II형 특이성이 존재한다. 179개의 특유한 II형 제한 엔도뉴클리아제중, 31개는 4-염기 인식 서열을 가지고, 11개는 5-염기 인식 서열을 가지고, 127개는 6-염기 인식 서열을 가지고, 10개는 6 이상의 염기의 인식 서열을 가진다[참조 문헌: 미국 특허 제5,604,098호]. II형 효소 범주중에서, IIS형이 바람직하다.
IIS형 효소는 Alw XI, Bbv I, Bce 83, Bpm I, Bsg I, Bsm AI, Bsm FI, Bsa I, Bcc I, Bcg I, Ear I, Eco 57I, Esp 3I, Fau I, Fok I, Gsu I, Hga I, Mme I, Mbo II, Sap I, 등 일 수 있다. 바람직한 IIS 효소는 Fok I 이다.
Fok I 효소 엔도뉴클리아제는 IIS형 부류중에서 익히 특성이 밝혀진 구성원의 일례이다[참조 문헌: 미국 특허 제5,714,330호, 제5,604,098호, 제5,436,150호, 제6,054,276호 및 제5,871,911호; Szybalski et al. (1991) Gene 100:13-26, Wilson and Murray (1991) Ann. Rev. Genet. 25:585-627, Sugisaki et al. (1981) Gene 16:73-78, Podhajska and Szalski (1985) Gene 40:175-182]. Fok I은 서열 5'GGATG-3'을 인식하고 DNA를 절단한다. IIS형 제한 부위는, 표적을 증폭시키는데 사용된 프라이머내로 당해 부위를 삽입함으로써 DNA 표적내에 도입될 수 있다.Fok I에 의한 분해에 의해 생성된 단편은 부위 특이적이고 질량 분광측정 방법, 예를 들면 MALDI-TOF 질량 분광측정, ESI-TOF 질량 분광측정, 및 당업자에게 익히 공지된 기타 질량 분광측정에 의해 분석될 수 있다.
일단 다형성이 연령과 같은 매개변수와 서로 관련이 있음이 밝혀졌다. 대립유전자의 탈락으로 인한 허위 결과의 가능성을, 게놈의 인접한 영역내에서 비교 PCR을 수행하여 조사한다.
분석
데이타베이스를 사용하는 중에, 집단내의 각 샘플을 독립적으로 분석하고, 각각의 개개의 샘플에서 목적하는 대립유전자 또는 마커의 존재 또는 부존재를 측정한 후, 집단내의 마커의 빈도를 측정하는 방법으로, 집단 전체에 대한 대립유전자 빈도를 결정할 수 있다. 이어서, 당해 데이타베이스를 정렬(계층화)하여, 대립유전자와 표준 통계학적 분석을 사용하여 선택된 매개변수 사이의 모든 상관관계를 동정할 수 있다. 연령에 따른 특정 마커의 감소 또는 성별 또는 다른 매개변수와의 상관관계와 같은 상관관계가 관찰된 경우, 당해 마커는 추가 연구, 예를 들면 유전자 또는 이와 관련된 경로를 동정하기 위한 유전자 맵핑과 같은 연구를 위한 후보이다. 이후 당해 마커를 예를 들면 질환과 서로 관련시킬 수 있다. 또한, 일배체형화를 수행할 수 있다. 유전자 맵핑은 표준 방법을 사용하여 수행할 수 있고, 다른 데이타베이스, 예를 들면 질환과 관련이 있을 것으로 미리 판정된 데이타베이스의 사용을 요구할 수 있다.
예시적 분석이 수행되었고 이들이 도면에 도시되고 본원에 기술되었다.
샘플 수집
본원에 제공된 데이타베이스, 또는 상기와 같은 정보의 데이타베이스를 사용하여, 각 샘플을 별개로 조사함으로써 수득된 실질적으로 동일한 빈도를, 예를 들면 10, 20, 50, 100, 200, 500, 1000 또는 임의의 다른 수의 배취에서 샘플을 수집집함으로써, 수득할 수 있다. 정확한 수는 필요한 경우 경험적으로 측정할 수 있고, 3 이하일 수 있다.
일 태양에서, 유전자형 및 다른 마커의 빈도는 샘플을 수집함으로써 수득될 수 있다. 이를 수행하기 위하여, 표적 집단 및 평가하고자 하는 유전자 변이를 선택하고, 다수의 생체중합체 샘플을 당해 집단의 구성원으로 부터 수득하고, 마커 또는 유전자형이 추론될 수 있는 생체중합체를 측정하거나 검출한다. 수집물에서 및 개개로 시험된 샘플의 비교 및 정렬된 이로부터의 결과가 도 9에 도시되어 있고, 이는 인자 VII 대립유전자 353Q의 빈도를 보여준다. 도 10은 수집된 샘플 대 개개의 샘플중의 CETP 대립유전자 CETP의 빈도를 도시한다. 도 15는, 데이타를 수득하기 위하여 수집된 DNA 샘플을 사용하여 데이타베이스중의 다양한 종족 그룹중에서 종족 다양성을 보여준다. 도 12 내지 14는 이들 샘플에 대한 질량 스펙트럼을 도시한다.
시험 샘플의 수집은 본원에 제공된 건강한 데이타베이스에 적용될 뿐만 아니라, 질환 집단으로 부터 유래된 전형적인 데이타베이스를 포함하여, 피험자 및 유전자형 정보의 임의의 데이타베이스로의 입력을 위한 데이타의 수집에서의 용도에 적용된다. 본원에서 입증된 것은, 성취된 결과가, 각 샘플이 별개로 분석되는 경우, 성취될 결과와 통계학적으로 동일하다는 것을 발견한 것이다. 본원에 제공된 질량 분광측정과 같은 방법에 의한 수집된 샘플의 분석은 상기와 같은 데이타의 분석 및 당해 결과의 정량화를 가능케한다.
인자 VII의 경우, R53Q 산 다형성을 평가한다. 도 9에서, "개개의" 데이타는 92명의 개개인의 반응에서 관찰된 대립유전자의 빈도를 나타낸다. 수집된 데이타는, 단일 프로브 반응으로 수집된 동일한 92명의 개개인의 대립유전자 빈도를 나타낸다. 개개의 제공자의 샘플중의 DNA의 농도는 250 나노그램이다. 수집된 샘플중의 DNA의 전체 농도도 또한 250 나노그램이고, 이때, 임의의 개개의 DNA의 농도는 2.7 나노그램이다.
수집된 샘플중의 개개의 DNA 농도를, 스펙트럼의 특질 또는 검출된 샘플의 양을 정량화할 수 있는 능력을 전혀 변화시키지 않으면서, 2.7 나노그램으로 부터 0.27 나노그램으로 감소시킬 수 있다는 것이 또한 밝혀졌다. 따라서, 샘플의 저농도는 당해 수집 방법중에 사용될 수 있다.
데이타베이스 및 이에 의해 동정된 마커의 용도
게놈학의 성공적인 사용은 과학적 가설(즉, 공통 유전자 변이, 예를 들면 SNP), 연구 계획(즉, 합병 질환), 샘플 및 기술, 예를 들면 칩-기초 질량 분광측정 분석을 요구한다[참조 문헌: 미국 특허 제5,605,798호, 미국 특허 제5,777,324호,미국 특허 제6,043,031호, 허용된 공동계류중인 미국 특허원 제08/744,481호, 미국 특허원 제08/990,851호, 국제 PCT 출원 WO 98/20019, 공동계류중인 제09/285,481호, 이는 분석을 위한 자동화 공정 라인을 기술한다; 미국 특허원 제08/617,256호, 제09/287,681호, 제09/287,682호, 제09/287,141호 및 제09/287,679호, 허용된 공동계류중인 미국 특허원 제08/744,481호, 국제 PCT 출원 공보 WO 98/20019로 공개되고, 미국 특허원 제08/744,481호, 제08/744,590호, 제08/746,036호, 제08/746,055호, 제08/786,988호, 제08/787,639호, 제08/933,792호, 제08/746,055호, 제09/266,409호, 제08/786,988호 및 제08/787,639호를 기초로 하는 국제 PCT 출원 PCT/US97/20444; 미국 특허원 제09/074,936호]. 이들 모든 양태는 본원에 제공된 데이타베이스 및 수집물중의 샘플과 함께 사용될 수 있다.
데이타베이스 및 이에 의해 동정된 마커는, 예를 들면 이전에 동정되지 않거나 공지되지 않은 유전 마커를 동정하는데 사용될 수 있고, 또한 공지된 마커의 새로운 용도를 동정하는데 사용될 수 있다. 마커가 동정되면, 이들을 데이타베이스에 입력하여 정렬 매개변수로서 사용할 수 있고, 이로 부터 추가적 상관관계를 측정할 수 있다.
이전에 동정되지 않거나 공지되지 않은 유전 마커
임의의 맵핑, 서열분석 및 기타 방법을 사용하고, 데이타베이스 내의 집단중에서 다형성을 조사하면서, 건강한 데이타베이스중의 샘플을 사용하여 새로운 다형성 및 유전 마커를 동정할 수 있다. 이와같이 동정된 다형성을 각 샘플에 대한 데이타베이스에 입력할 수 있고, 예를 들면 동정된 마커의 빈도에서 연령과 관련된 변화로서 나타나는 상관관계 및 임의의 패턴을 동정하기 위하여 정렬 매개변수로서 다형성을 이용하여 당해 데이타베이스를 정렬(계층화)할 수 있다. 상관관계가 동정되면, 마커의 유전자좌를 맵핑하고 이의 기능 또는 효능을 평가하거나 추론할 수있다.
따라서, 본원에서 데이타베이스는,
집단내의 연령이 증가함에 따른 마커의 출현 및 소멸을 비교하고 당해 마커를 질환 또는 생화학적 경로와 서로 관련시키는 방법에 의해, 유전 인자의 유의적으로 상이한 대립유전자 빈도를 동정하기 위한 수단;
남성 집단과 여성 집단을 비교하거나 다른 선택된 계층화된 집단을 비교하고 당해 마커를 질환 또는 생화학적 경로와 서로 관련시키는 방법에 의해, 질환을 유발하는 유전 인자의 유의적으로 상이한 대립유전자 빈도를 동정하기 위한 수단;
상이한 종족 그룹을 비교하고 당해 마커를 당해 종족 그룹에서 높은 빈도로 나타나는 것으로 공지된 질환 또는 생화학적 경로와 서로 관련시키는 방법에 의해, 질환을 유발하는 유전 인자의 유의적으로 상이한 대립유전자의 빈도를 동정하기 위한 수단;
연령, 성별 및 종족 기원에 따라 계층화된 전반적 전혼합된(panmixed) 집단을 통한 유전자의 잠재적 기능적 변이체를 프로파일링하고, 이에 의해 조사된 집단의 신체적 상태에 대한 변이체 유전자의 기여를 입증하기 위한 수단;
연령, 성별 및 종족 기원에 따라 계층화된 전반적 전혼합된(panmixed) 집단내에서 수행된 유전자 불균형 분석에 의해 기능적으로 관련있는 유전자 변이체를 동정하고, 이에 의해 조사된 집단의 신체적 상태에 대한 이들의 기여를 입증하기 위한 수단; 및
연령, 성별 및 종족 기원에 따라 계층화된 전반적 전혼합된(panmixed) 집단내에서 수행된 연관 불균형 분석에 의해 염색체 또는 염색체의 일부의 잠재적 기능적 변이체를 동정하고, 이에 의해 조사된 집단의 신체적 상태에 대한 이들의 기여를 입증하기 위한 수단을 제공한다.
동정된 마커 및 공지된 마커의 용도
당해 데이타베이스를 공지된 마커와 함께 사용하고 당해 데이타베이스를 정렬하여 임의의 상관관계를 동정할 수 있다. 예를 들면, 당해 데이타베이스를 다음과 같은 목적으로 사용한다:
의학적으로 관련있는 다형성 마커의 침투성(penetrance)의 측정 및 평가;
의학적으로 관련있는 유전 인자의 진단상의 특이성의 측정 및 평가;
의학적으로 관련있는 유전 인자의 양성적 예상치의 측정 및 평가;
원인적 유전 인자에 관하여, 합병 질환, 예를 들면 당뇨병, 고혈압, 자가면역 질환, 아테롬성동맥경화증, 암, 및 전반적 집단내의 기타 질환 등의 발병의 측정 및 평가;
예방적 질환 처치를 위한 적당한 처방의 설명;
1차 질환 조정을 위한 적당한 스케줄의 설명;
전반적 적용가능성에 관한 분리된 집단에서 의학적으로 관련있는 유전 인자의 입증;
전반적 적용가능성에 관한 분리된 집단에서 동정된 모든 잠재적 표적 구조를 포함한 질환 경로의 입증;
전반적 적용가능성에 관한 분리된 집단에서 동정된 적당한 약물 표적의 입증.
다형성이 연관될 수 있는 질환 및 장애중에서, 물질대사의 선천적 오류, 후천적 물질대사 장애, 중간단계의 물질대사, 발암 경로, 혈액 응고 경로, 및 DNA 합성 및 회복 경로, DNA 회복/복제/전자 인자 및 활성, 예를 들면 발암, 노화에 관련된 유전자, 및 혈액 응고에 관련된 유전자, 및 혈전증, 색전증, 뇌졸중, 심근경색, 혈관형성 및 발암과 관련되 관련 생화학적 경로에 연관된 것들이 포함된다.
예를 들면, 다수의 질환이, 효소 기질의 섭취시 기관 및 조직, 특히 유아의 발생중인 뇌 및 기타 기관에 손상을 주어 정신 지체 및 기타 발생과정상의 장애를 초래하는 해로운 대산산물을 축적시키는, 중간 단계 물질대사(참조: 아래의 표 1 및 2)중의 결핍 또는 결함 효소에 의해 야기되거나 이와 관련이 있다.
상기와 같은 장애에 대한 마커 및 유전자의 동정이 매우 중요하다.
모델 시스템
수개의 유전자 시스템, p21, p53 및 지방단백질 리파제 다형성(N291S)을 선택하였다. p53 유전자는 다양한 종양 유형중에서 돌연변이된 종양 억제 유전자이다. 하나의 공통적인 대립유전자 변이체는 코돈 72에 존재한다. p53 유전자, 즉 R72P 대립유전자에서 동정된 다형성은 당해 유전자의 코돈 72에서 아르기닌의 프롤린으로의 아미노산 교체를 초래한다.
질환 집단을 사용하여, 미국내 미국 흑인과 코카서스인 사이에서 이들 대립유전자의 대립유전자 분포에서 종족 차이가 존재한다는 것을 밝혀내었다. 본원의 결과는 상기 발견을 지지해주고, 또한 건강한 데이타베이스를 사용하여 수득된 결과가 의미있다는 것을 증명해준다(도 7B 참조).
291S 대립유전자는, 남성의 아테롬성동맥경화증 및 특히 심근경색 증가 위험과 관련있는 고 밀도 지방단백질 콜레스테롤(HDL-C) 수준의 감소를 유도한다[참조 문헌 Reymer et al, (1995), Nature Genetics 10: 28-34].
두개의 유전자 다형성 모두를 코카서스인 집단계 샘플 은행의 일부 내에서 프로파일링하였다. 지방단백질 리파제 유전자에 위치하는 다형성의 경우, 총 1025명의 선택되지 않은 개개인(남성 436명 및 여성 589명)을 시험하였다. 게놈 DNA를 개개인으로 부터 수득된 혈액 샘플로 부터 분리하였다.
실시예 및 도면에서 보여지는 바와 같이, 약 5000명의 피험자, 앙케이트에 대한 대답(도 3 참조), 및 유전자형 정보를 포함하는 예시적인 데이타베이스가 계층화되었다. 특정 공지된 대립유전자를 선택하고, 당해 샘플을 각 샘플중의 다형성을 동정하기 위하여 질량 분광측정 분석, 특히 PROBE(실시예 참조)를 사용하여 마커에 대해 시험하였다. 데이타베이스내 집단을 다양한 매개변수에 따라서 정렬하고, 상관관계를 관찰하였다. 예를 들면, 도 2A-C는 데이타베이스내 코커서스인집단에서 지방단백질 리파제 유전자에 대한 연령 및 성별에 의한 데이타의 정렬을 보여준다. 당해 결과는 남성의 경우 연령에 따라 대립유전자의 빈도가 감소함을 보여주지만, 여성의 경우 그러한 감소를 보여주지 않는다. 데이타베이스에 대해 시험된 다른 대립유전자는 p53, p21 및 인자 VII를 포함한다. 연령에 의해 정렬했을 때의 결과가 도면에 제시된다.
이들 실시예들은 전반적 집단내에서 질환-유발 유전 인자의 변형된 빈도의 효과를 입증해준다. 이러한 결과의 과학적 해석을 통해, 다형성의 유전자 변형의 의학적 관련성을 예견할 수 있다. 또한, 이들의 침투성(penetrance), 진단상의 특이성, 양성적 예견치, 질환의 발병, 예방적 조치의 가장 적당한 개시, 및 분리된 집단에서 동정된 유전자 변형의 전혼합된(panmixed) 집단에 대한 적용가능성에 관한 결론이 유도될 수 있다.
따라서, 연령- 및 성별- 계층화된 집단을 기초로 하는, 종족면에서 동질성인 샘플 은행은, 유전 인자의 잠재적 의학적 유용성에 관한 당해 유전 인자의 신속한 동정 및 입증에 적합한 도구이다.
데이타베이스 시스템을 제조하고, 저장하고, 처리하기 위한 예시적 컴퓨터 시스템
데이타베이스를 포함하는 시스템, 예를 들면 컴퓨터가 본원에 제공된다. 검퓨터 및 데이타베이스를, 예를 들면 APL 시스템[참조 문헌: 공동계류중인 미국 특허원 제09/285,481호; 이는 생체중합체, 특히 핵산을 분석하기 위한 자동화 시스템이다]과 함께 사용할 수 있다. APL 시스템으로 부터의 결과를 데이타베이스에 입력할 수 있다.
임의의 적당한 컴퓨터 시스템을 사용할 수 있다. 컴퓨터 시스템은, 본원에서 기술한 자동화 공정 라인과 같은 샘플 분석을 위한 시스템에 통합될 수 있다[참조 문헌: 공동계류중인 미국 특허원 제09/285,481호].
도 17은 본원에 기술된 데이타베이스를 제공하고 처리하기 위하여 제작된 컴퓨터의 블록 다이아그램이다. 데이타베이스를 유지하고 당해 방법 및 절차를 수행하는 프로세싱은 모두 유사한 구조를 갖는 다중 컴퓨터상에서 수행할 수 있거나, 하나의, 통합된 컴퓨터에 의해 수행될 수 있다. 예를 들면, 데이타가 데이타베이스에 첨가되는 컴퓨터를, 데이타베이스가 정렬되는 컴퓨터와 분리시킬 수 있거나, 또는 이와 통합시킬 수 있다. 어느 배치에서도, 당해 프로세싱을 수행하는 컴퓨터는 도 17에 도시된 바와 같은 구조를 가질 수 있다.
도 17은 상기한 데이타베이스를 유지하고 당해 방법 및 절차를 수행하는 전형적인 컴퓨터(1700)의 블록 다이아그램이다. 각 컴퓨터(1700)는 중앙 처리 장치(CPU)(1702), 예를 들면 "팬티엄" 마이크로프로세서 및 관련 통합 회로 칩(미국 캘리포니아주 산타 클라라에 소재하는 인텔 코포레이션에서 시판)의 제어하에 작동한다. 컴퓨터 사용자는 키보드 및 디스플레이 마우스(1704)로 부터 명령어 및 데이타를 입력할 수 있고, 디스플레이(1706)에서 입력정보 및 컴퓨터 출력정보를 볼 수 있다. 디스플레이는 통상적으로 비디오 모니터이거나 평판 디스플레이 장치이다. 컴퓨터(1700)는 또한 직접 액세스 저장 장치(DASD)(1707), 예를 들면 고정된 하드 디스크 드라이브를 포함한다. 메모리(1708)는 통상적으로 비지구성 반도체 램덤 액세스 메모리(RAM)를 포함한다. 각 컴퓨터는 바람직하게는 프로그램 제품 판독기(1710)를 포함하고, 이러한 판독기는 프로그램 제품 저장 장치(1712)를 수용하고, 이 저장 장치로 부터 프로그램 제품 판독기가 데이타를 판독할 수 있다(이외에, 이는 임의로 데이타를 기록할 수 있다). 프로그램 제품 판독기는 예를 들면 디스크 드라이브를 포함할 수 있고, 프로그램 제품 저장 장치는 제거가능한 저장 매체, 예를 들면 자기 플로피 디스크, 광학식 CD-ROM 디스크, CD-R 디스크, CD-RW 디스크, 또는 DVD 데이타 디스크를 포함할 수 있다. 경우에 따라, 컴퓨터는 네트워크(1713)를 통해 서로 정보를 교환할 수 있도록 연결될 수 있고 다른 연결된 컴퓨터와 연결될 수 있다. 각 컴퓨터(1700)는, 네트워크와 컴퓨터간의 연결(1716)을 통해 정보교환을 가능케하는 네트워크 인터페이스(1714)를 경유하는 네트워크(1713)을 통하여 다른 연결된 컴퓨터와 정보교환을 할 수 있다.
컴퓨터(1700)는 종래의 컴퓨터 구조에 따라 메모리(1708)에 임시로 저장된 프로그램밍 단계의 제어하에 작동한다. 프로그래밍 단계가 CPU(1702)에 의해 실행되는 경우, 관련 시스템 구성요소가 이들의 각각이 기능을 수행한다. 따라서, 프로그래밍 단계는 상기와 같은 시스템의 기능성을 제공한다. 프로그래밍 단계는 프로그램 제품 판독기(1712)를 통하거나 네트워크 연결(1716)을 통하여 DASD(1707)로 부터 수용될 수 있다. 저장 드라이브(1710)는 프로그램 제품을 수용할 수 있고, 프로그램 제품상에 기록된 프로그래밍 단계를 판독하고, 프로그래밍 단계를 CPU(1702)에 의한 실행을 위해 메모리(1708)로 전달한다. 상기한 바와 같이, 프로그램 제품 저장 장치(1710)는, 기록된 컴퓨터-판독가능한 지시를 갖는 수개의 제거가능한 매체, 예를 들면 플로피 디스크 및 CD-ROM 저장 디스크중의 어느 하나를 포함할 수 있다. 다른 적당한 프로그램 제품 저장 장치는 자기 테입 및 반도체 메모리 칩을 포함할 수 있다. 이러한 방식으로, 작동에 필요한 프로세싱 단계는 프로그램 제품상에 구현될 수 있다.
대안적으로, 프로그램 단계는 네트워크(1713)을 통하여 작동 메모리(1708)속에 수용될 수 있다. 네트워크 방법에서, 네트워크 정보교환이 추가 설명없이 당업자에 의해 이해될 수 있는 익히 공지된 방법에 의해 네트워크 연결(1716)을 통해 확립된 후, 당해 컴퓨터는 프로그램 단계를 포함한 데이타를 네트워크 인터페이스(1714)를 통하여 메모리(1708)속에 수용한다. 이어서, 프로그램 단계는 CPU 1702에 의해 실행되어 Garment 데이타베이스 시스템의 프로세싱을 수행한다.
당해 시스템의 모든 컴퓨터가 바람직하게는 도 17에 도시된 바와 유사한 구조를 가지므로, 도 17 컴퓨터(1700)에 관하여 기술된 상세한 설명이 당해 시스템의 모든 컴퓨터(1700)에 적용될 수 있다는 것이 이해될 것이다. 이는 네트워크(1713)에 연결된 도시된 수개의 컴퓨터(1700)에 의해 나타난다. 당해 컴퓨터(1700)의 어느 것도, 이들이 다른 컴퓨터와 정보를 교환할 수 있고 본원에 기술된 기능을 지지할 수 있는 한, 대안적인 구조를 가질 수 있다.
도 18은, 예를 들면 다형성 유전 마커를 동정하기 위한, 데이타베이스에 대한 접근을 유지하고 제공하기 위하여, 도 17에 도시된 컴퓨터를 사용하여 수행된 프로세싱 단계를 설명하는 플로우 다이아그램이다. 특히, 데이타베이스에 포함된정보는 도 17에 도시된 바와 유사한 구조를 갖는 컴퓨터에 저장된다. 도 18에 나타난 바와 같이, 데이타베이스를 유지하기 위한 제1 단계는 집단의 건강한 구성원을 동정하는 것이다. 상기한 바와 같이, 집단 구성원은 건강을 기준으로 선택된 피험자이고, 당해 피험자가 포유동물, 예를 들면 사람인 경우, 이들은 바람직하게는 명백한 건강상태 및 검출가능한 감염증의 부존재를 기준으로 하여 선택된다. 동정 단계는 플로우 다이아그램 박스(1802)에 제시된다.
플로우 다이아그램 박스(1804)로 나타낸 다음 단계는, 집단의 동정된 구성원에 관한 동정 및 전력 정보 및 데이타를 수득하는 것이다. 당해 정보 및 데이타는 집단 구성원 각각에 대한 매개변수, 예를 들면 구성원의 연령, 종족, 성별, 의학적 전력, 및 궁극적으로 유전자형 정보를 포함한다. 초기에, 매개변수 정보는, 체조직 또는 체액 샘플을 수득한 각 구성원이 대답한 앙케이트로 부터 수득된다. 이들 매개변수를 컴퓨터의 데이타베이스에 입력하고 저장하는 단계는 플로우 다이아그램 박스(1806)로 나타낸다. 각 집단 구성원 및 상응하는 샘플에 관한 추가 정보가 수득되면, 이러한 정보를 데이타베이스에 입력하여 정렬 매개변수로서 사용할 수 있다.
플로우 다이아그램 박스(1808)로 나타낸 다음 단계에서, 구성원의 매개변수는 인덱서와 서로 관련된다. 이 단계는, 예를 들면 새로운 데이타 기록이 관련 데이타베이스 구조에 따라 저장되고 그 구조에 따라 다른 기록과 자동적으로 링크되는 경우, 데이타베이스 저장 작업의 일부로서 실행될 수 있다. 당해 단계(1806)는 또한, 데이타의 속성을 측정하기 위하여 데이타베이스 엔트리를 입력 검색 또는 인덱싱 키 값에 따라 검색되어지는, 통상의 데이타 정렬 또는 검색 과정의 일부로서 실행될 수 있다. 예를 들면, 이러한 검색 및 정렬 기술은 사용하여 공지된 유전 마커의 존재를 추적한 다음, 이들이 연루된 질환과 상관관계가 있는지를 판정할 수 있다. 이와 같은 사용의 예는 p53 및 지방단백질 리파제 다형성의 빈도를 평가하는 것이다.
이와 같은 데이타베이스의 검색은 또한, 그 빈도가 집단내에서 연령, 종족 그룹, 성별 또는 기타 기준의 함수로서 변화되는 하나 이상의 유전 마커를 동정하는데 유용할 수 있다. 이는 이전에 공지되지 않은 다형성의 동정을 가능케하고, 궁극적으로 질환의 발병 및 진행과 관련된 유전자 또는 경로의 동정을 가능케한다.
또한, 데이타베이스는 동정된 다형성을 취하고, 이의 빈도가 데이타가 선택된 매개변수에 따라 정렬된 경우 변화는지를 확인하는데 사용될 수 있다.
이러한 방법에서, 본원에 제공된 데이타베이스 및 방법은, 유전자 토대의 이해 및 개개의 약물 반응과 같은 과정의 이해를 통해, 질환 과정의 구성요소, 특히 주요 구성요소의 동정을 가능케한다. 또한, 본원에 제공된 데이타베이스 및 방법은 병리학적 경로의 규명에 관한 방법, 새로운 진단 분석을 개발하는 방법, 새로운 잠재적 약물 표적을 동정하는 방법, 새로운 약물 후보를 동정하는 방법에서 사용될 수 있다.
이환율 및/또는 조기 사망율과 관련되 다형성
임의의 특정 질환에 대해 선택되지 않은 건강한 헌혈자의 집단에 의해 제공된 정보를 포함하는 데이타베이스를 사용하여 다형성, 및 다형성이 존재하고 이의 빈도가 연령에 따라 감소하는 대립유전자를 동정할 수 있다. 이들은 이환율 감수성 마커 및 유전자를 나타낼 수 있다.
게놈의 다형성은 변형된 유전자 기능, 단백질 기능 또는 게놈 불안정성을 유도할 수 있다. 임상적 타당성/유용성을 갖는 이들 다형성을 동정하는 것이 전세계적 과학적 연구노력의 목표이다. 이러한 다형성의 발견이 질환을 치료하기 위한 새로운 약물 화합물의 동정 및 개발에 있어 중요한 영향을 끼칠 것이라는 것을 기대할 수 있다. 그러나, 유용한 다형성을 동정하기 위한 작업은 번거롭고, 질환 관계를 밝히기 위하여 수 많은 환자 및 대조군 코호트(cohort)를 동원할 수 있어야 한다. 특히, 임의의 질환으로 고생하는 집단의 전반적 위험을 야기하는 유전자(이환율 감수성 유전자)는 이들 증례/대조군 연구에서 완전히 벗어날 것이다.
각종 상이한 질환에 내재한 이환율 감수성 유전자를 동정하기 위한 스크리닝 방법이 본원에 기술된다. 이환율 감수성 유전자, 다수의 상이한 세포 유형 또는 조직(하우스키핑 유전자)에서 발현되고 이의 변형된 기능이 질환에 특이적인 경로에 관련된 질환-특이적 감수성 유전자에 의해 야기되는 임상적 표현형의 발현을 촉진할 수 있는 유전자로서 정의된다. 환원하면, 이들 이환율 감수성 유전자는 사람들이 당해 질환에 대한 이들의 유전자 구성에 따라 특유 질환을 일으키도록 한다.
이환율 감수성 유전자에 대한 후보는, 전사, 해독 열-쇼크 단백질, 단백질 트래피핑, DNA 회복, 아세포 구조물(예: 미토콘드리아, 퍼옥시좀 및 기타 세포 미소체)을 위한 조립 시스템, 수용체 시그날 전달 연쇄증폭반응, 면역학 등에 관련된경로의 아래쪽에서 발견될 수 있다. 이들 경로는 세포 수준에서 뿐만 아니라 전체 생물체에서 기본 조건을 조절한다. 이들 경로에 관여하는 단백질을 암호화하는 유전자에 존재하는 돌연변이/다형성은 세포의 적합성을 감소시키고, 당해 생물체가 질환-특이적 감수성 유전자의 작용에 의해 야기된 임상적 표현형을 발현하는데 보다 감수성이도록 만든다. 따라서, 이들 이환율 감수성 유전자는, 모든 경우가 아닌 경우, 매우 다양한 상이한 합병 질환과 잠재적으로 관련될 수 있다. 질환-특이적 감수성 유전자는 글루코즈-, 지질, 호르몬 물질대사 등과 같은 질환-특이적 경로로서 간주될 수 있는 경로에 관련된다.
예시된 방법은, 특히 이환율 및/또는 사망율에 대한 사람의 전반적 감수성에 관련된 유전자 및/또는 유전자 산물의 동정; 사람 질환의 유전자 토대를 규명하기 위한 연구에서의 이들 유전자 및/또는 유전자 산물의 사용; 질환-특이적 감수성 유전자를 함께 사용하거나 사용하지 않는 조합 통계 분석에서의 이들 유전자 및/또는 유전자 산물의 사용; 질환 감수성 유전의 침투성을 예견하는데 있어서의 이들 유전자 및/또는 유전자 산물의 사용; 질병 소질 및/또는 급성 의학적 진단에서의 이들 유전자 및/또는 유전자 산물의 사용; 및 질환을 치료하고/하거나 사람의 수명을 연장하기 위한 약물을 개발하는데 있어서의 이들 유전자 및/또는 유전자 산물의 사용을 가능케한다.
스크리닝 방법
연령, 성별 및 종족 등에 의해 계층화된 건강한 집단은 이환율 관련 유전자를 스크리닝하기 위한 매우 효율적이고 보편적인 수단이다. 늙은 집단에 비해 젊은 집단에서의 대립유전자 빈도의 변화가 추정상의 이환율 감수성 유전자를 나타나는 것으로 기대된다. 이러한 건강한 집단의 개개의 샘플을 수집하여 처리량을 추가로 증가시킨다. 주요 실험의 검사에서, 젊은 코카서스인 및 늙은 코카서스인의 여성 및 남성의 수집물을 적용하여, 다수의 상이한 유전자에 존재하는 무작위로 선택된 400개 이상의 단일 뉴클레오티드 다형성을 스크리닝하였다. 대립유전자 차이가, 양쪽 성 모두에서 또는 한쪽 성에서 젊은 사람과 늙은 사람 간에서 8% 이상인 경우, 후보 다형성이 동정되었다. 초기 결과를 다시 1회 이상의 독립적인 후속 실험에서 분석하였다. 약 2 내지 3%의 빈도로 일어나고 연령-관련 대립유전자 빈도 차이를 모사할 수 있는 불안정한 생화학적 반응을 인식하기 위하여는 반복적 실험이 필요하다. 평균 빈도 차이 및 표준 편차는 초기 결과의 성공적인 재현 후에 계산될 수 있다. 이어서, 최종 대립유전자 빈도를 코카서스인 CEPH 샘플 수집물의 참조 집단과 비교한다. 그 결과는 젊은 코카서스인 집단에서 유사한 대립유전자 빈도를 보여준다. 후속적으로, 유전자형 정보를 포함하여 후보의 정확한 대립유전자 빈도를 개개의 샘플을 전부 분석하여 수득하였다. 이러한 방법은 시간 및 비용면에서 최선이다. 이는 다수의 SNP의 스크리닝을 가능케한다. 지금까지, 연령과 고도로 유의적 상관관계를 갖는 수 개의 마커가 동정되었으며 후술되었다.
일반적으로 계층화된 집단에서 5 이상의 개체는 통계학적으로 유의적인 결과를 수득하기 위하여 스크리닝할 필요가 있다. 대립유전자의 빈도는 연령-계층화된 집단에 대해 측정될 수 있다. 이어서, 키(chi) 제곱 분석을 대립유전자에 관해 수해하여, 연령 그룹간의 차이가 통계학적으로 유의적인 지를 판정한다. 0.1 미만의 p 값은 통계학적으로 유의적인 차이를 나타내는 것으로 간주된다. 보다 바람직하게는 p 값은 0.05 미만이어야 한다.
임상 시험
집단내에서 빈도가 연령에 따라 감소하는 마커의 동정은 보다 우수하게 계획되고 균형잡힌 임상 시험을 가능케한다. 현재, 임상 시험이 연구의 유의적인 결과로서 마커를 이용하고 당해 마커가 연령에 따라 사라지는 경우, 당해 연구의 결과는 부정확한 것이다. 본원에 제공된 방법을 사용하여, 마커의 빈도가 연령에 따라 감소하는지를 확인할 수 있다. 연구를 계획할 때, 이러한 정보를 감안하고 조절할 수 있다. 예를 들면, 연령-독립적 마커가 이를 대체할 수 있다.
하기의 실시예는 단지 예시 목적으로 포함된 것이지, 본 발명의 범위를 제한하고자 하는 것은 아니다.
실시예 1
본 실시예는 임의의 특정 질환에 대해 선택되지 않은 건강한 헌혈자의 집단에 의해 제공된 정보를 포함하는 데이타베이스의 데이타베이스의 코카서스인 아집단내에서 연령 및 성별에 따른 공지된 유전 마커의 대립유전자 빈도의 분포를 측정하기 위한 용도를 기술한다. 본 실시예에 기술된 결과는 질환-관련 유전 마커 또는 다형성이 연령, 성별 및 종족과 같은 매개변수(들)에 의한 건강한 데이타베이스의 정렬에 의해 동정될 수 있음을 입증한다.
데이타베이스의 제조
헌혈에 대한 혈액 은행 기준을 충족하는 사람 피험자로 부터 정맥 천자에 의해 혈액을 수득하였다. 혈액 샘플을 EDTA(pH 8.0)에서 보관하고 표시한다. 각 헌혈자는 연령, 성, 종족, 의학적 전력 및 의학적 가족력과 같은 정보를 제공한다. 각 샘플을 동정 정보를 나타내는 바코드로 표시한다. 각 헌혈자에 대해, 피험자 인식인자 및 당해 피험자에 상응하는 정보를 시판중인 소프트웨어(예: 마이크로 액세스)를 사용하여 컴퓨터 저장 매체의 메모리에 입력하는 방법으로 데이타베이스를 제조한다.
모델 유전 마커
질환과 일정 수준에서 관련있는 것으로 공지된 다형성의 빈도를 데이타베이스에 나타난 피험자의 아집단에서 측정하였다. 이들 공지된 다형성은 p21, p53 및 지방단백질 리파제 유전자에 존재한다. 구체적으로, 아미노산 코돈 291에서 아스파라긴을 세린으로 치환시키는 지방단백질 리파제 유전자의 N291S 다형성(N291S)은, 남성의 아테롬성동맥경화증 및 특히 심근경색 증가 위험과 관련이 있는 고밀도 지방단백질 콜레스테롤(HDL-C) 수준의 감소를 유도한다[참조 문헌: Reymer et al.(1995) Nature Genetics 10:28-34].
p53 유전자는 DNA 손상을 판단하는 세포 사이클 조절 단백질을 암호화하고, 세포 성장, DNA 회복 및 아폽토시스(프로그램된 세포 사멸)를 조절하는 전사 인자 조절 유전자로서 작용한다. p53 유전자에서의 돌연변이는 상이한 유형의 백혈병을 포함하여 매우 다양한 상이한 암에서 다양한 빈도로 발견되었다. 정상적 p53 기능의 상실은 게놈 불안정성 및 조절되지 않은 세포 성장을 초래한다. p53 유전자에서 동정된 다형성, 즉 R72P 대립유전자는 당해 유전자의 아미노산 코돈 72에서 아르기닌을 프롤린으로 치환시키는 결과를 초래한다.
p21 유전자는 정상적 세포의 G1 기 정지와 관련이 있는 사이클린-의존성 키나제 억제제를 암호화한다. p21 유전자의 발현은 아폽토시스를 유발한다. p21 유전자의 다형성은 윌름 종양, 유아 신장 암과 관련이 있다. p21 유전자의 다형성중 하나인 S31R 다형성은 아미노산 코돈 31에서 세린을 아르기닌으로 치환시키는 결과를 초래한다.
데이타베이스 분석
특이적 매개변수에 따른 피험자의 정렬
유전자 다형성을 샘플 은행의 코카서스인 아집단의 부분내에서 프로파일링하였다. p53 프로파일링의 경우, 18 내지 59세의 코카서스인 피험자 1277명 및 60 내지 79세의 코카서스인 피험자 457명 전체로 부터 수득한 혈액으로 부터의 게놈 DNA를 분석하였다. p21 프로파일의 경우, 18 내지 49세 코카서스인 총 910명 및50 내지 79세 코카서스인 824명의 혈액으로부터 분리한 게놈 DNA를 분석하였다. 지방단백질 리파제 유전자 프로파일링의 경우, 60세 이하의 코카서스인 여성 1464명 및 코카서스인 남성 1470명 전체 및 60세 이상의 코카서스인 478명 여성 및 코카서스인 남성 560명 전체로 부터 수득한 게놈 DNA를 분석하였다.
게놈 DNA의 분리 및 분석
게놈 DNA를 개개인으로 부터 수득한 혈액 샘플로 부터 분리하였다. 개개인 각각으로 부터의 전혈 10 밀리리터를 2000 x g로 원심분리하였다. 연막 1밀리리터를 9 ml의 155 mM NH4Cl, 10 mM KHCO3, 및 0.1 mM Na2EDTA에 가하고, 10분간 실온에서 항온배양한 후, 2000 x g에서 10분간 원심분리하였다. 상청액을 제거하고, 백혈구 펠렛을 155 mM NH4Cl, 10 mM KHCO3및 0.1 mM Na2EDTA에서 세척하고, 4.5 ml의 50 mM Tris, 5 mM EDTA 및 1% SDS중에 재현탁시켰다. 단백질을 6 mM 암모늄 아세테이트, pH 7.3에 의해 세포 용해물로 부터 침전시킨 다음, 3000 x g의 원심분리로 핵산으로 부터 분리하였다. 핵산을, 동일한 양의 100% 이소프로판올을 가하고 2000 x g로 원심분리하여, 상청액으로 부터 회수하였다. 건조된 핵산 펠렛을 10 mM Tris, pH 7.6, 및 1 mM Na2EDTA에서 수화시키고 4℃에서 저장하였다.
공지된 유전 마커의 존재 또는 부존재를 판정하기 위한 게놈 DNA의 분석을, 바이오매스PROBETM검출법 (프라이머 올리고 염기 연장) 반응을 사용하여 개발하였다. 이러한 방법은 단일 검출 프라이머를 사용한 후 올리고뉴클레오티드 연장 단계를 수행하여 수득하여, 이를 질량 분광측정, 특히 MALDI-TOF 질량 분광측정에 의해 용이하게 분석할 수 있다. 당해 생성물은 다형성의 존재 또는 부존재에 따라 길이가 상이하다. 이러한 방법에서, 검출 프라이머는 가변성 뉴클레오티드 또는 뉴클레오티드의 서열 부위에 인접하여 어닐링하고, 당해 프라이머를 하나 이상의 디데옥시NTP, 및 임의로, 하나 이상의 데옥시NTP의 존재하에서 DNA 중합효소를 사용하여 연장한다. 수득된 생성물을 MALDI-TOF 질량 분광측정에 의해 분석한다. MALDI-TOF 질량 분광측정에 의해 측정된 생성물의 질량은 가변 부위에 존재하는 뉴클레오티드(들)의 측정을 가능케한다.
우선, 각각의 코카서스인 게놈 DNA 샘플에 대해, p21 (S31R 대립유전자), p53 (R72P 대립유전자) 및 지방단백질 리파제 (N291S 대립유전자) 유전자의 다형성 부위의 5' 및 3' 부위에 상응하는 프라이머를 사용하여, 핵산 증폭을 수행하였다. 각 프라이머 쌍중의 하나의 프라이머를 바이오티닐화하여, 증폭 생성물이 고형 지지체에 고정될 수 있도록 한다. 구체적으로, p21, p53 및 지방단백질 리파제 유전자의 해당 절편의 증폭에 사용된 중합효소 연쇄 반응 프라이머는 아래에 제시된다: p21 유전자 증폭의 경우, US4p21c31-2F (서열 9) 및 US5p21-2R (서열 10); p53 유전자 증폭의 경우, US4-p53-ex4-F (p53-ex4US4 (서열 2)로서도 제시됨) 및 US5-p53/2-4R (US5P53/4R (서열 3)으로서도 제시됨); 지방단백질 리파제 유전자의 경우, US4-LPL-F2 (서열 16) 및 US5-LPL-R2 (서열 17).
각각의 DNA 서열의 증폭을 표준 프로토콜에 따라 수행하였다. 예를 들면, 프라이머를 8 pmol의 농도로 사용하였다. 반응 혼합물(예: 총 용적 50 ㎕)은 10x완충제 및 dTNP을 포함하여 Taq-중합효소를 함유할 수 있다. 중합효소 연쇄 반응 증폭을 위한 사이클링 조건은 통상적으로 초기에 95℃에서 5분에 이어, 94℃에서 1분, 53℃에서 45초, 72℃에서 30초의 40회 사이클이고, 최종 연장 시간은 72℃에서 5분이다. 증폭 생성물을 제조자의 지침에 따라 Qiagen PCR 정제 키트 (No. 28106)을 사용하여 정제하였다. 정제된 생성물의 칼럼으로 부터의 용출은 50㎕ TE-완충제 (10mM Tris, 1 mM EDTA, pH 7.5)에서 수행할 수 있다.
정제된 증폭 생성물을 바이오틴-아비딘 연결을 통해 스트렙타비딘-피복된 비이드에 고정시키고, 이본쇄 DNA를 변성시켰다. 이어서, 검출 프라이머를 예를 들면 다음과 같은 조건을 사용하여 고정된 DNA에 어닐링시켰다: 50㎕ 어닐링 완충제 (20 mM Tris, 10 mM KCl, 10 mM (NH4)2SO4, 2 mM MgSO2, 1% Triton X-100, pH 8)로 10분간 50℃에서 처리한 후, 당해 비이드를, 200㎕ 세척 완충제(40 mM Tris, 1 mM EDTA, 50 mM NaCl, 0.1% Tween 20, pH 8.8)로 3회 세척하고 200㎕로 TE 완충제로 1회 세척하였다.
PROBE 연장 반응을, 예를 들면 DNA 서열분석 키트[제조원: USB (No. 70770)]의 일부 구성요소 및 dNTP 또는 ddNTP(제조원: Pharmacia)를 사용하여 수행하였다. 예시적 프로토콜은, 물 21㎕, Sequenase-완충제 6㎕, 10 mM DTT 용액 3㎕, 0.5 mM의 세개의 dNTP 4.5㎕, 2mM의 소실된 하나의 ddNTP 4.5㎕, 글리세롤 효소 희석 완충제 5.5㎕, Sequenase 2.0 0.25㎕, 및 0.25 피로포스파타제를 함유하는 총 반응 용적 45㎕를 포함할 수 있다. 이어서, 반응물을 빙상에 피펫으로 옮기고, 실온에서 15분간 항온배양하고 37℃에서 5분간 항온배양할 수 있다. 비이드를 세척 완충제 200㎕로 3회 세척하고 70mM NH4-시트레이트 용액 60㎕로 1회 세척하였다.
DNA를 변성시켜 연장된 프라이머를 고정된 주형으로 부터 방출시켰다. 생성된 연장 생성물 각각을 별도로, 매트릭스로서 3-하이드록시피콜산(3-HPA) 및 UV 레이저를 사용하여 MALDI-TOF 질량 분광측정에 의해 분석하였다.
구체적으로, PROBE 반응에 사용된 프라이머는 아래에 제시된 바와 같다: p21 다형성 부위의 PROBE 분석의 경우, P21/31-3 (서열 12); p53 다형성 부위의 PROBE 분석의 경우, P53/72 (서열 4); 및 지방단백질 리파제 유전자 다형성 부위의 PROBE 분석의 경우, LPL-2. p21 다형성 부위의 PROBE 분석에서, 연장 반응을 디데옥시-C를 사용하여 수행하였다. "야생형" 대립유전자 주형(여기서, 코돈 31은 세린을 암호화한다)상에서 수행된 반응 및 다형성 S31R 대립유전자 주형(여기서, 코돈 31은 아르기닌을 암호화한다)상에서 수행된 반응으로 부터 수득된 생성물이 아래에 제시되며, P21/31-3 Ser (wt) (서열 13) 및 P21/31-3 Arg (서열 14)로서 각각 명명된다. MALDI-TOF 질량 분광측정에 의해 측정될 수 있는 각 생성물에 대한 질량이 또한 제공된다(즉, 야생형 생성물의 경우 4900.2 Da이고, 다형성 생성물의 경우 5213.4 Da이다).
p53 다형성 부위의 PROBE 분석에서, 연장 반응을 디데옥시-C를 사용하여 수행하였다. "야생형" 대립유전자 주형(여기서, 코돈 72는 아르기닌을 암호화한다)상에서 수행된 반응 및 다형성 R72P 대립유전자 주형(여기서, 코돈 72는 프롤린을암호화한다)상에서 수행된 반응으로 부터 수득된 생성물이 아래에 제시되며, Cod72 G Arg (wt) 및 Cod72 C Pro로서 각각 명명되었다. MALDI-TOF 질량 분광측정에 의해 측정될 수 있는 각 생성물에 대한 질량이 또한 제공된다(즉, 야생형 생성물의 경우 5734.8 Da이고, 다형성 생성물의 경우 5405.6 Da이다).
지방단백질 리파제 유전자 다형성 부위의 PROBE 분석에서, 연장 반응을 ddA 및 ddT의 혼합물을 사용하여 수행하였다. "야생형" 대립유전자 주형(여기서, 코돈 291은 아스파라긴을 암호화한다)상에서 수행된 반응 및 다형성 N291S 대립유전자 주형(여기서, 코돈 291은 세린을 암호화한다)상에서 수행된 반응으로 부터 수득된 생성물이 아래에 제시되며, 291Asn 및 291Ser으로서 각각 명명되었다. MALDI-TOF 질량 분광측정에 의해 측정될 수 있는 각 생성물에 대한 질량이 또한 제공된다(즉, 야생형 생성물의 경우 6438.2 Da이고, 다형성 생성물의 경우 6758.4이다).
P53-1 (R72P)
PCR 생성물 길이: 407 bp (서열 1)
US4-p53-ex4-F
ctg aggacctggt cctctgactg
ctcttttcacccatctacag tcccccttgc c gtcccaagc aatggatgat ttgatgctgt
ccccggacga tattgaacaa tggttcactg aagacccagg tccagatgaa gctcccagaa
P53/7272R
tgccagaggc tgctccccgc gtggcccctg caccagcagc tcctacaccg gcggcccctg
c 72P
caccagcccc ctcctggccc ctgtcatctt ctgtcccttc ccagaaaacc taccagggca
gctacggttt ccgtctgggc ttcttgcatt ctgggacagc caagtctgtg acttgcacgg
tcagttgccc tgaggggctg gcttccatga gacttcaa
US5-p53/2-4R
프라이머 (서열 2 내지 4)
p53-ex4FUS4ccc agt cac gac gtt gta aaa cgc tga gga cct ggt cct ctg ac
US5P53/4Ragc gga taa caa ttt cac aca ggt tga agt ctc atg gaa gcc
P53/72 gcc aga ggc tgc tcc cc
질량
대립유전자 생성물 종결: ddC 서열 번호 길이 질량
P53/72 gccagaggctgctcccc 5 17 5132.4
Cod72 G Arg (wt) gccagaggctgctccccgc 6 19 5734.8
Cod72 C Pro gccagaggctgctccccc 7 18 5405.6
바이오티닐화된 US5 프라이머를 PCR 증폭에 사용한다.
LPL-1(N291S)
지방단백질 리파제 유전자의 코돈 291에서 아스파라긴으로 부터 세린으로의 아미노산 교체.
PCR 생성물 길이: 251 bp (서열 15)
US4-LPL-F2 (서열 16)
gcgctccatt catctcttca tcgactctct gttgaatgaa gaaaatccaa gtaaggccta
caggtgcagt tccaaggaag cctttgagaa agggctctgc ttgagttgta gaaagaaccg
LPL-2 291N
ctgcaacaat ctgggctatg agatcaataa agtcagagcc aaaagaagca gcaaaatgta
g 291S
cctgaagact cgttctcaga tgccc
US4-LPL-R2
프라이머 (서열 16 내지 18):
US4-LPL-F2ccc agt cac gac gtt gta aaa cgg cgc tcc att cat ctc ttc
US5-LPL-R2agc gga taa caa ttt cac aca ggg ggc atc tga gaa cga gtc
LPL-2 caa tct ggg cta tga gat ca
질량
대립유전자 생성물 종결: ddA, ddT 서열 번호 길이 질량
LPL-2 caatctgggctatgagatca 19 20 6141
291 Asn caatctgggctatgagatcaa 20 21 6438.2
291 Ser caatctgggctatgagatcagt 21 22 6758.4
바이오티닐화된 US5 프라이머를 PCR 증폭에 사용한다.
P21-1 (S31R)
종양 억제인자 유전자 p21의 코돈 31에서 세린으로 부터 아르기닌으로의 아미노산 교체
생성물 길이: 207 bp (서열 8)
US4p21c31-2F
gtcc gtcagaaccc atgcggcagc
p21/31-3 31S
aaggcctgcc gccgcctctt cggcccagtg gacagcgagc agctgagccg cgactgtgat
a 31R
gcgctaatgg cgggctgcat ccaggaggcc cgtgagcgat ggaacttcga ctttgtcacc
gagacaccac tggaggg
US5p21-2R
프라이머 (서열 9 내지 11)
US4p21c31-2Fccc agt cac gac gtt gta aaa cgg tcc gtc aga acc cat gcg g
US5p21-2Ragc gga taa caa ttt cac aca ggc tcc agt ggt gtc tcg gtg ac
P21/31-3 cag cga gca gct gag
질량
대립유전자 생성물 종결: ddC 서열 번호 길이 질량
p21/31-3 cagcgagcagctgag 12 15 4627
P21/31-3 Ser (wt) cagcgagcagctgagc 13 16 4900.2
P21/31-3 Arg cagcgagcagctgagac 14 17 5213.4
바이오티닐화된 US5 프라이머를 PCR 증폭에 사용한다.
각각의 코카서스인 피험자 DNA 샘플을 개별적으로 MALDI-TOF 질량 분광측정에 의해 분석하여 다형성 부위에서의 뉴클레오티드의 동일성을 측정한다. 각 분석의 유전자형 결과를 데이타베이스에 입력할 수 있다. 이어서, 당해 결과를 연령 및/또는 성별에 따라 정렬하여, 연령 및/또는 성별에 의한 대립유전자 빈도의 분포를 측정한다. 당해 결과의 히스토그램을 보여주는 도면에 도시된 바와 같이, 각 경우에, p21, p53 및 지방단백질 리파제 유전자 다형성에 대한 유전 마커의 대립유전자 빈도의 차등적 분포가 존재한다.
도 8은 p21 유전 마커 분석의 결과를 도시하며, 이는 연령(50 내지 79세에 비교된 18 내지 49세)에 따라 코카서스인내 이형접합성 유전자형(S31R)의 빈도에서 통계학적으로 유의적인 감소(13.3% 로 부터 9.2%)를 나타낸다. 두 연령 그룹에 대한 동형접합성(S31 및 R31) 유전자형의 빈도도 또한 제시되며, 두 연령 그룹에서 S31 및 R31 대립유전자(도면에서*S31 및*R31로 각각 명명됨)의 전체 빈도도 제시된다.
도 7A-C는 p53 유전 마커 분석의 결과를 도시하며, 이는 연령(60 내지 79세에 비교된 18 내지 59세)에 따라 코카서스인내 동형접합성 다형성 유전자형(P72)의 빈도에서 통계학적으로 유의적인 감소(6.7% 로 부터 3.7%)를 나타낸다. 두 연령 그룹에 대한 동형접합성 "야생형" 유전자형(R72) 및 이형접합성 유잔자형(R72P)의 빈도도 또한 제시되며, 두 연령 그룹에서 R72 및 P72 대립유전자(도면에서*R72 및*P72로 각각 명명됨)의 전체 빈도도 제시된다. 이들 결과는, p53이 제2 단백질인 p21(이는 세포 사이클을 통해 세포를 유도하는데 필요한 사이클린-의존형 키나제(CDK)를 억제한다)의 발현을 조절하기 때문에, 대립유전자가 유리하지 않다는 관찰과 일치한다(어느 유전자에서의 돌연변이도 세포 사이클을 파괴하여 세포 분열의 증가를 초래한다).
도 2C는 지방단백질 리파제 유전자 유전 마커 분석의 결과를 도시하며, 이는 연령에 따라 코카서스인 남성내 다형성 대립유전자(S291)의 빈도에서 통계학적으로 유의적인 감소(1.97% 로 부터 0.54%)를 나타낸다[참조 문헌: Reymer et al. (1995) Nature Genetics 10:28-34].
상이한 연령 그룹의 코카서스인 여성에서 이러한 대립유전자의 빈도가 또한 제시된다.
실시예 2
본 실시예는, 인자 VII 유전자의 다형성 대립유전자(353Q 대립유전자)의 존재 또는 부존재를 판단하고 피험자 그룹에서 대립유전자의 빈도를 측정하기 위하여, 개개의 샘플로서 및 수명의 피험자의 수집된 샘플로서 다수의 피험자의 DNA 샘플을 분석하는데 있어서의 MALDI-TOF 질량 분광측정의 용도를 기술한다. 이러한 연구의 결과는, 실질적으로 동일한 대립유전자 빈도가 각각의 샘플을 별개로 분석하는 것과 같이 수집된 DNA 샘플을 분석함으로써 수득될 수 있으며, 이에 의해 핵산의 분석에서 MALDI-TOF 질량 분광측정의 정량적 특성을 입증할 수 있음을 보여준다.
인자 VII
인자 VII는 외인성 혈액 응고 연속증폭반응에 관련된 세린 프로테아제이다. 이러한 인자는 트롬빈에 의해 활성화되고, 인자 X에서 인자 Xa로의 프로세싱에서 조직 인자(인자 III)와 작용한다. 인자 VII 유전자에서의 다형성과, 심근경색을 포함하여 허혈성 심혈관 질환 위험의 상승을 초래할 수 있는 증가된 인자 VII 활성간의 관계를 지지하는 증거가 존재한다. 이러한 연구에서 조사된 다형성은 R353Q이다(즉, 인자 VII 유전자의 코돈 353에서 아르기닌 잔기의 글루탐산 잔기로의 치환)(표 5 참조).
인자 VII 유전자의 353Q 대립유전자의 존재 또는 부존재의 여부에 대한 DNA 샘플의 분석
게놈 DNA를, 그룹당 92명의 피험자로 이루어진 다수의 그룹으로 구분된 수 많은 피험자로 부터 수득된 별개의 혈액 샘플로 부터 분리하였다. 게놈 DNA의 각 샘플을 실시예 1에 기술된 바이오매스PROBETM을 사용하여 분석하여, 인자 VII 유전자의 353Q 다형성의 존재 또는 부존재를 판정하였다.
우선, 각 샘플로 부터의 DNA를, 아래에 제시된 바와 같은 프라이머 F7-353FUS4 (서열 24) 및 F7-353RUS5 (서열 26)을 예를 들면 실시예 1에 기술된 바와 같은 표준 조건하에서 사용하여 중합효소 연쇄 반응으로 증폭시켰다. 프라이머중 하나를 바이오티닐화시켜, 고형 지지체에 대한 증폭 생성물의 고정을 가능케하였다. 정제된 증폭 생성물을 바이오틴-아비딘 연결을 통해 스트렙타비딘-피복된 비이드에 고정시키고, 이본쇄 DNA를 변성시켰다. 이어서, 검출 프라이머를 예를 들면 실시예 1에 기술된 바와 같은 조건을 사용하여 고정된 DNA에 어닐링시켰다. 검출 프라이머는 아래에 F7-353-P (서열 27)로서 제시된다. PROBE 연장 반응을, 예를 들면 실시예 1에 기술된 바와 같은 조건을 사용하여 수행하였다. 당해 반응을 ddG를 사용하여 수행하였다.
DNA를 변성시켜 연장된 프라이머를 고정된 주형으로 부터 방출시켰다. 생성된 연장 생성물 각각을 별도로 MALDI-TOF 질량 분광측정에 의해 분석하였다. 3-하이드록시피콜산(3-HPA)와 같은 매트릭스 및 UV 레이저를 MALDI-TOF 질량 분광측정 분석에 사용할 수 있다. "야생형" 대립유전자 주형(여기서, 코돈 353은 아르기닌을 암호화한다)상에서 수행된 반응 및 다형성 353Q 대립유전자 주형(여기서, 코돈 353은 글루탐산을 암호화한다)상에서 수행된 반응으로 부터 수득된 생성물이 아래에 제시되며, 353 CGC 및 353 CAG로서 각각 명명된다. MALDI-TOF 질량 분광측정에 의해 측정될 수 있는 각 생성물에 대한 질량이 또한 제공된다(즉, 야생형 생성물의 경우 5646.8 Da이고, 다형성 생성물의 경우 5960 Da이다).
각 DNA 샘플의 PROBE 반응의 MALDI-TOF 질량 분광측정 분석을 먼저 각 샘플에 대해 별도로 수행하였다(분석당 DNA의 총 농도 250 나노그램). 92명의 피험자로 이루어진 그룹에서 353Q 다형성의 대립유전자 빈도를, 검출 대상인 개개의 피험자의 수를 토대로 계산하였다.
다음, 92명 피험자로 부터의 샘플을 수집하고(임의의 개개 DNA의 농도가 2.7 나노그램인 DNA의 총 농도 250 나노그램), DNA의 수집물을 MALDI-TOF 질량 분광측정 분석에 적용하였다. 수득된 스펙트럼에서 353Q 다형성 PROBE 연장 생성물의 질량에 상응하는 시그날 아래의 면적을 통합하여, 존재하는 DNA의 양을 정량화하였다. 총 DNA에 대한 상기 양의 비를 사용하여, 피험자 그룹에서 353Q 다형성의 대립유전자 빈도를 측정하였다. 이러한 유형의 개개의 샘플 대 수집된 샘플 분석을 92개의 상이한 샘플의 다수의 상이한 그룹에 대해 반복하였다.
92명의 그룹의 92개의 별개의 샘플에 대한 MALDI-TOF 질량 분광측정 분석에 의해 계산된 빈도를, 도 9에서 92개 샘플로 부터의 DNA 수집물을 MALDI-TOF 질량 분광측정 분석에 의해 계산된 빈도와 비교하였다. 이러한 비교는 당해 도면에서 막대 그래프의 "쌍"으로서 제시되었으며, 각 쌍을 별개의 "수집물" 번호, 예를 들면 P1, P16, P2 등으로 표시하였다. 따라서, 예를 들면, P1의 경우, 각각의 92개 샘플을 별도로 분석하여 계산된 다형성의 대립유전자 빈도는 11.41% 이였고, 92개 DNA 샘플 전부의 수집물을 분석하여 계산된 빈도는 12.09% 이였다.
독립적으로 별개의 DNA 샘플을 분석하여 계산된 빈도와 DNA 샘플을 수집하여 계산된 빈도의 유사성으로 부터, MALDI-TOF 질량 분광측정의 정량적 특성을 통하여 수집된 샘플을 분석하고 정확한 빈도 측정치를 수득할 수 있음이 입증되었다. 수집된 DNA 샘플을 분석할 수 있는 능력은, 본원에 기술된 바와 같은 비-선택된 건강한 데이타베이스의 사용과 관련하여 시간 및 비용을 상당히 경감시킨다. 또한, 수집된 혼합물에서 개개 샘플의 DNA 농도를, 스펙트럼의 특질 또는 검출된 샘플의 양을 정량화시킬 수 있는 능력을 전혀 변화시키지 않으면서, 2.7 나노그램으로 부터 0.27 나노그램으로 감소시킬 수 있음이 밝혀졌다.
인자 VII R353Q 프로브 분석
cod353에 대한 PROBE 분석 CGG>CAG (Arg>Gln), 엑손 9 G>A.
PCR 단편: 134 bp (incl. US 태그; 서열 22 및 23)
A 대립유전자의 빈도: 유럽인 약 0.1, 일본인/중국인 약 0.03 내지 0.05 [참조 문헌: Thromb. Haemost. 1995, 73:617-22; Diabetologia 1998, 41:760-6]:
질량
대립유전자 생성물 종결: ddG 서열 번호 길이 질량
F7-353-P atgccacccactacc 27 18 53336
353 CGG cacatgccacccactaccg 28 19 5646.8
353 CAG cacatgccacccactaccag 29 20 5960
US5-bio bio- agcggataacaatttcacacagg 30 23 7648.6
결론
상기 실시예는 전반적 집단내에서 질환-유발 유전 인자의 변형된 빈도의 효과를 입증한다. 이러한 결과의 해석을 통해, 다형성 유전자 변형의 의학적 관련성을 예견할 수 있다. 또한, 이들의 침투성, 진단 특이성, 양성적 예견치, 질환의 발병, 예방적 조치의 가장 적절한 개시, 및 분리된 집단에서 동정된 유전자 변형의전혼합된(panmixed) 집단에 대한 일반적인 적용가능성에 관한 결론이 유추될 수 있다. 따라서, 연령- 및 성별- 계층화된 집단을 기초로 하는, 종족면에서 동질성인 샘플 은행이, 이들의 잠재적 의학적 유용성에 관한 유전 인자의 신속한 동정 및 유효성 입증을 위한 적당한 수단이다.
실시예 3
이환율 및 사망율 마커
샘플 은행 및 초기 스크리닝
건강한 샘플을 캘리포니아 소재의 San Bernardino의 혈액 은행으로 부터 수득하였다. 헌혈자는 혈액 수집전에 동의서에 서명하고, 이들의 혈액이 사람에 관한 유전 연구에 사용되는 것을 동의하였다. 모든 샘플을 익명화하였다. 샘플을 역으로 트래킹하는 것은 불가능하다.
건강한 헌혈자 집단의 혈액 샘플로 부터 수득된 DNA의 분리
혈액을 정맥 천자에 의해 헌혈자로 부터 수득하고, 1mM EDTA, pH 8.0를 이용하여 보관한다. 각 헌혈자로 부터의 전혈 10 밀리리터를 2000x g로 원심분리하였다. 연막 10 밀리리터를 9 밀리리터의 155mM NH4Cl, 10mM KHCO3, 및 0.1mM Na2EDTA에 가하고, 10분간 실온에서 항온배양하고, 10분간 2000x g로 원심분리하였다. 상청액을 제거하고, 백혈구 펠릿을 155mM NH4Cl, 10mM KHCO3, 및 0.1mM Na2EDTA에서 세척하고, 4.5 밀리리터의 50mM Tris, 5mM EDTA, 및 1% SDS 중에 재현탁시켰다. 단백질을 6M 암모늄 아세테이트, pH 7.3을 사용하여 세포 용해물로 부터 침전시키고, 3000x g로 원심분리하여 핵산으로 부터 분리하였다. 핵산을 동일한 양의 100% 이소프로판올을 가하고 2000x g로 원심분리하여 상청액으로 부터 회수하였다. 건조된 핵산 펠릿을 lOmM Tris pH 7.6 및 1mM Na2EDTA중에서 수화시키고 4℃에서 저장하였다.
이러한 연구에서, 샘플을 표 1에 제시된 바와 같이 수집하였다. 헌혈자의 양쪽 부모는 코카서스인 기원이었다.
수집물 ID 연령 범위 개체수
SP1 여성 18 내지 39세 276
SP2 남성 18 내지 39세 276
SP3 여성 60 내지 69세 184
SP4 남성 60 내지 79세 368
400개 이상의 SNP를 4개의 수집물 전부를 사용하여 시험하였다. 1회 시험을 수행한 후, 34개 분석물을 선택하여 1회 이상 재분석하였다. 최종적으로, 10개의 분석물은 대립유전자 빈도에서 수%의 차이를 반복적으로 보여주었으므로, 개개의 샘플을 사용하여 시험한 기준을 충족시킨다. 평균 대립유전자 빈도 및 표준 편차는 표 2에 제시되었다.
지금까지, 10개의 잠재적 이환율 마터중 7개가 완전히 분석되었다. 이들 SNP가 존재하는 유전자에 관한 추가 정보를 Genbank와 같은 공개된 데이타베이스를 통해 수집하였다.
AKAPS
후보 이환율 및 사망율 마커는 하우스키핑 유전자, 예를 들면 시그날 전달에 관련된 유전자를 포함한다. 이러한 유전자 중에는, 단백질 포스포릴화에 관한 시그날 전달 경로에 관여하는 A-키나제 고정 단백질(AKAP) 유전자가 있다. 단백질 포스포릴화는 효소 조절 및 진핵세포에서 세포막을 통한 세포외 시그날의 전달에 있어 중요한 기전이다. 효소, 막 수용체, 이온 채널 및 전사 인자를 포함하여, 매우 다양한 세포 기질이, 세포와 상호작용하는 세포외 시그날에 반응하여 포스포릴화될 수 있다. 호르몬 및 신경전달물질에 반응하여 세포 단백질이 포스포릴화하는데 있어서의 주요 효소는 사이클릭 AMP(cAMP)-의존형 단백질 키나제(PKA)이다. cAMP에 의해 활성화되는 경우, PKA는 상기와 같은 세포외 시그날에 대한 각종 세포 반응을 매개한다. 일련의 PKA 동종효소가 포유동물 세포에서 발현된다. PKA는 통상적으로 조절성(R) 아단위 이량체와 두 개의 촉매성(C) 아단위를 포함하는 불활성 4량체로서 존재한다. 3개의 C 아단위(Cα, Cβ 및 Cγ) 및 4개의 R 아단위(RIα, RIβ, RIIα, 및 RIIβ)를 암호화하는 유전자가 동정되었다[참조 문헌: Takio et al. (1982) Proc. Natl. Acad. Sci. U.S. A. 79:2544-2548; Lee et al. (1983) Proc. Natl. Acad. Sci. U.S. A. 80:3608-3612; Jahnsen et al. (1996) J. Biol. Chem. 261:12352-12361; Clegg et al. (1988) Proc. Natl. Acad. Sci. U.S. A. 85:3703-3707; and Scott (1991) Pharmacol. Ther. 50:123-145]. I형 (RI)α 및 II형 (RII)α 아단위는 도처에 분포되어 있는 반면, RIβ 및 RIIβ는 주로 뇌에 존재한다[참조 문헌: Miki and Eddy (1999) J. Biol. Chem. 274:29057-29062]. I형 PKA 완전효소 (RIα 및 RIβ)는 주로 세포질성인 반면, 대부분의 II형 PKA (RIIα 및 RIIβ는 세포 구조물 및 소기관과 관련이 있다[참조 문헌: Scott (1991) Pharmacol. Ther. 50:123-145]. 수 많은 호르몬 및 다른 시그날이 수용체를 통해 작용하여 cAMP를 생성하고, 이는 PKA의 R 아단위에 결합하여 C 아단위를 방출하고 활성화하여 단백질을 포스포릴화시킨다. 단백질 키나제 및 이들의 기질이 세포 전반에 넓게 분포되어 있기 때문에, 상이한 시그날에 대한 단백질 키나제-매개된 반응을 세포내 한 곳에 국소화시키는 기전이 존재한다. 이러한 기전중 하나는, A-키나제 고정화 단백질(AKAP)로서 지칭되는 고정화 단백질과의 결합을 통한 PKA의 아세포 표적화를 포함하며, 이러한 표적화는 PKA를 특정 소기관 또는 세포골격 성분 및 특정 기질과 근접하게 위치시킴으로써 보다 특이적인 PKA 상호작용 및 국소화된 반응을 제공한다[참조 문헌: Scott et al. (1990) J. Biol. Chem. 265:21561-21566; Bregman et al. (1991) J. Biol. Chem. 266:7207-7213; and Miki and Eddy (1999) J. Biol. Chem. 274:29057-29062]. 고정화는 당해 키나제를 바람직한 기질에 근접하게 위치시킬 뿐 아니라, 제2 메신저 cAMP의 변동에 최적으로 반응할 수 있는 부위에 PKA 완전효소를 위치시킨다[참조 문헌: Mochly-Rosen (1995) Science 268:247-251; Faux and Scott (1996) Trends Biochem. Sci. 21:312-315; Hubbard and Cohen (1993) Trends Biochem. Sci. 18:172-177].
II형 PKA의 최대 75%는, AKAP와 조절성 아단위(RII)와의 결합을 통해 다양한 세포내 부위에 국소화된다[참조 문헌: Hausken et al. (1996) J. Biol. Chem. 271:29016-29022]. PKA의 RII 아단위는 나노몰의 친화성으로 AKAP에 결합하고[참조 문헌: Carr et al. (1992) J. Biol. Chem. 267:13376-13382], 다수의 AKAP-RII 복합체는 세포 추출물로 부터 분리되었다. PKA의 RI 아단위는 단지 마이크로몰의 친화성으로 AKAP에 결합한다[참조 문헌: Burton et al. (1997) Proc. Natl. Acad. Sci. U.S.A. 94:11067-11072]. PKA RI 아단위가 AKAP에 결합한다는 증거가 보고되었으며[참조 문헌: Miki and Eddy (1998) J. Biol. Chem 273:34384-34390], 이에 따르면, RIα-특이적 및 RIα/RIIα 이중 특이성 PKA 고정화 도메인이 FSC1/AKAP82상에서 동정되었다. PKA의 I형 및 II형 조절성 아단위와 상호작용하는 D-AKAP1 및 D-AKAP2으로 지칭되는 AKAP가 보고되었다[참조 문헌: Huang et al. (1997) J. Biol. Chem. 272:8057-8064; Huang et al. (1997) Proc. Natl. Acad. Sci. U.S.A. 94:11184-11189].
20개 이상의 AKAP가 상이한 조직 및 종에서 보고되었다. AKAP를 암호화하는 상보적 DNA(cDNA)가 카에노르합디티스 엘레간스(Caenorhabditis elegans) 및 드로소필리아(Drosophilia)로 부터 사람에 이르는 다양한 종으로 부터 분리되었다[참조 문헌: Colledge and Scott (1999) Trends Cell Biol. 9:216-221]. PKA의 RII 아단위와의 결합을 매개하는 AKAP내 영역이 동정되었다. 약 10 내지 18개 아미노산 잔기의 이들 영역은 1차 서열에 있어서 상당히 다양할 수 있으나, 2차 구조의 예상에 따르면, 이들이 나선의 한쪽 면을 따라 소수성 잔기가 있고 다른 쪽면을 따라 하전된 잔기가 있는 양친매성 나선을 형성할 것이다[참조 문헌: Carr et al. (1991) J. Biol. Chem. 266:14188-14192; Carr et al. (1992) J. Biol. Chem. 267:13376-13382]. 지방족 측쇄, 예를 들면 발린, 루신 또는 이소루신의 장쇄를 갖는 소수성 아미노산이 RII 아단위에 대한 결합에 관여할 수 있다[참조 문헌: Glantz et al. (1993) J. Biol. Chem. 268:12796-12804].
또한, 다수의 AKAP가 다른 시그날전달 효소를 포함하여 다중 단백질에 결합할 수 있는 능력을 갖는다. 예를 들면, AKAP79은 PKA, 단백질 키나제 C(PKC), 및 단백질 포스파타제 칼시네우린(PP2B)에 결합한다[참조 문헌: Coghlan et al. (1995) Science 267:108-112 and Klauck et al. (1996) Science 271:1589-1592].따라서, 뉴런의 스냅스후 막에 대한 AKAP79의 표적화는 단일 복합체에 상반되는 촉매 활성을 갖는 효소를 요구한다.
따라서, AKAP는 cAMP-매개된 반응의 선택성 및 강도를 증가시키는 잠재적 조절 기전으로서 작용한다. 따라서, 이들 AKAP 단백질이 세포의 기본적 기능에 관여하는 중요한 역할을 완전히 이해하기 위하여, AKAP의 구조적 및 기능적 특성을 동정하고 규명할 필요가 있다.
AKAP10
사람 AKAP10 cDNA (D-AKAP2로도 지칭됨)의 서열을 수탁번호 AF037439 (서열31) 및 NM 007202로서 GenBank 데이타베이스에서 구할 수 있다. AKAP10 유전자는 염색체 17에 위치한다.
마우스 D-AKAP2 cDNA도 또한 GenBank 데이타베이스(참조: 수탁번호 AF021833)에서 구할 수 있다. 마우스 D-AKAP2 단백질은 아미노 말단 부근에 RGS 도메인을 포함하여, 이는 Gα 아단위와 상호작용하고 GTPase 활성화 단백질-유사 활성을 보유하는 단백질의 특징이다[참조 문헌: Huang et al. (1997) Proc. Natl. Acad. Sci. U.S.A. 94:11184-11189]. 또한, 사람 AKAP10 단백질은 RGS 도메인에 상동성인 단백질을 갖는다. 마우스 D-AKAP2 단백질의 카복시-말단의 40개 잔기가 PKA의 조절성 아단위와의 상호작용에 관여한다. 이러한 서열은 마우스 D-AKAP2 단백질과 사람 AKAP10 단백질 간에 매우 잘 보존되어 있다.
사람 AKAP10 유전자의 다형성 및 다형성 AKAP10 단백질
유전자 발현, 조절, 단백질 구조 및/또는 단백질 기능을 변화시키는 AKAP 유전자의 다형성은, 유전자 및/또는 단백질 기능을 변화시키지 않는 다형성 보다도, 효소(특히 PKA) 활성, 시그날의 세포 전달 및 시느날에 대한 반응, 및 세포의 기본적 기능에 현저한 영향을 줄 것이다. 본원에 제공된 다형성 AKAP중에는 위치 번호 646에 상이한 아미노산 잔기를 포함하는 사람 AKAP10 단백질이 포함된다.
사람 AKAP10 단백질의 아미노산 646은, PKA의 R-아단위의 결합에 관여하는 절편내 단백질의 카복시-말단 영역내에 위치한다. 이 절편은 카복시 말단의 40개 아미노산을 포함한다.
사람 AKAP10 단백질의 위치 646에 대해 보고된 아미노산 잔기는 이소루신이다. 본원에 제공된 다형성 사람 AKAP10 단백질은, 당해 단백질의 아미노산 위치 646에 이소루신 이외의 다른 잔기를 함유하는 아미노산 서열을 갖는다. 본원에 제공된 AKAP10 단백질의 특정 태양에서, 위치 646의 아미노산은 발린, 루신 또는 페닐알라닌 잔기이다.
사람 AKAP10 암호화 서열의 뉴클레오티드 2073에서 A에서 G로의 전이
본원에 기술된 바와 같이, 암호화 서열의 위치 2073에 특정 다형성을 포함함으로써 위치 646에서 발린을 암호화하는 사람 AKAP10의 대립유전자가 사람 집단의 젊은 층과 늙은 층으로 부터 수득된 DNA 샘플에서 다양한 빈도로 검출되었다. 이러한 대립유전자에서, AKAP10 유전자 암호화 서열의 위치 2073에서의 A가 A로 부터G로 변화되어, 아미노산 646에 대한 코돈이 이소루신을 암호화하는 ATT로 부터 발린을 암호화하는 GTT로 변한 변형된 서열이 생성된다.
이환율 마커 1: 사람 단백질 키나제 A 고정화 단백질(AKAP10-1)
건강 헌혈자 집단에서 AKAP10-1의 PCR 증폭 및 바이오매스PROBE 검출 분석
AKAP 10에 대한 헌혈자 집단의 PCR 증폭
PCR 프라이머를 포스포르아미디트 화학을 이용하여 OPERON에 의해 합성하였다. AKAP 10 표적 서열의 증폭을, 50㎕ PCR 반응에서 수집된 사람 게놈 DNA 100ng 내지 1㎍을 사용하여 단일 50㎕ PCR 반응에서 수행하였다. 수집된 샘플내의 개개의 DNA 농도는 1 내지 25ng 범위의 최종 농도와 동일한 농도로 존재하였다. 각 반응물은 IX PCR 완충제 (Qiagen, Valencia, CA), 2OOuM dNTP, 1U Hotstar Taq 중합효소 (Qiagen, Valencia, CA), 4mM MgCl2, 및 25pmol의 정방향 프라이머(이는 만능 프라이머 서열과 표적 특이적 서열을 포함한다) 5'-TCTCAATCATGTGCATTGAGG-3'(서열 45), 2pmol의 역방향 프라이머 5'-AGCGGATAACAATTTCACACAGGGATCACACAGCCATCAGCAG-3'(서열 46), 및 l0pmol의 PCR 앰플리콘의 5'말단에 상보적인 바이오티닐화된 만능 프라이머 5'-AGCGGATAACAATTTCACACAGG-3'(서열 47)을 포함한다. 특정 정방향 및 역방향 프라이머를 사용한 표적의 초기 증폭 과정 후, 5'바이오티닐화된 만능 프라이머가 하이브리드를 형성하고 역방향 프라이머로서 작용하여, 3'바이오틴 포획 잔기가 분자내에 도입된다. 증폭 프로토콜에 따르면, 5'바이오티닐화된 이본쇄 DNA앰플리콘이 생성되며, 유전자형결정에 사용된 각 정방향 프라이머를 5'바이오틴으로 표지할 필요를 제거함으로써 유전자형결정에 투입되는 고비용이 상당히 절약된다. 온열 사이클링을, 다음 사이클링 매개변수에 따라 MJ Research Thermal Cycler(계산된 온도)을 사용하여 0.2ml 튜브 또는 96웰 플레이트에서 수행하였다: 5분간 94℃; 45 사이클: 20초간 94℃, 30초간 56℃, 60초간 72℃; 3분간 72℃.
DNA의 고정화
50㎕ PCR 반응물을, 3회 예비세척하고 1M NH4Cl, 0.06M NH4OH중에 재현탁시킨 스트렙토비딘 피복된 자기 비이드(Dynal) 25㎕에 가하였다. PCR 앰플리콘이 실온에서 15분간 비이드에 결합될 수 있도록 한다. 이어서, 비이드를 자석을 사용하여 수집하고 결합되지 않은 DNA을 함유하는 상청액을 제거하였다. 결합되지 않은 쇄를, 100mM NaOH에서 항온배양하고 10mM Tris pH 8.0로 당해 비이드를 3회 세척하여 이본쇄 앰플리콘으로 부터 방출시켰다.
AKAP10-1(클론 48319)에 대한 헌혈자 집단의 바이오매스PROBE 분석
바이오매스PROBE 분석 방법을 사용하는 유전자형결정을, DNA 피복된 자기 비이드를 26mM Tris-HCl pH 9.5, 6.5 mM MgCl2및 5OmM의 각 dTTP 및 50mM의 각 ddCTP, ddATP, ddGTP, 2.5U의 열안정성 DNA 중합효소(Ambersham) 및 20pmol의 주형 특이적 올리고뉴클레오티드 PROBE 프라이머 5'-CTGGCGCCCACGTGGTCAA-3' (서열 48)(Operon)중에 재현탁시키는 방법으로 수행하였다. 올리고뉴클레오티드 프라이머를 3회 사이클의 하이브리드화 및 연장에 의해 연장시킨다. 50mM NH4Cl을 사용하여 주형으로 부터 변성시키고 150nL의 각 샘플을 150nL의 H3PA 매트릭스 물질로 예비충전시킨 실리콘 칩으로 옮긴 후, 분석하였다. 당해 샘플 물질을 결정화시키고, MALDI-TOF (Bruker, PerSeptive)에 의해 분석하였다. AKAP10-1에 존재하는 SNP는 AKAP10 유전자의 게놈 클론의 서열(GenBank 수탁번호 AC005730) (서열 36)의 뉴클레오티드 번호 156277에서 T가 C로 전환된다. 서열 35는, 사람 AKAP10 유전자의 게놈 뉴클레오티드 서열을 포함하는 사람 염색체 17의 뉴클레오티드 서열을 나타내고, 서열 36은 사람 AKAP10-1 대립유전자의 게놈 뉴클레오티드 서열을 포함하는 사람 염색체 17의 뉴클레오티드 서열을 나타낸다. 바이오매스 프로브 반응에 사용된 프라이머의 질량은 5500.6 달톤이였다. SNP의 존재하에서, ddC를 가하여 프라이머를 연장시키고, 이의 질량은 5773.8 이다. 야생형 유전자는 당해 프라이머에 dT 및 ddG를 부가하는 결과를 초래하여, 질량이 6101 달톤인 연장 생성물이 수득된다.
SNP의 빈도를 연령-선택된 건강한 개개인의 집단에서 측정하였다. 연령이 18 내지 39세인 552명의 개개인(여성 276명, 남성 276명) 및 연령이 60 내지 79세인 552명의 개개인(60 내지 69세의 여성 184명, 60 내지 79세의 남성 368명)을 AKAP10의 비-해독된 3'영역내에 위치한 다형성의 존재에 대해 시험하였다. 연령 그룹이 증가함에 따른 이러한 다형성 빈도에서의 차이가 건강한 개개인사이에서 관찰되었다. 통계학적 분석은, "젊은" 집단과 "늙은" 집단 간의 대립유전자에 대한대립유전자 빈도의 유의적 수준의 차이가 p=0.0009 이고, 유전자형의 경우에 p=0.003이라는 것을 보여주었다. 전체 집단의 경우, 대립유전자 유의성은 p=0.0009 이고, 유전자형 유의성은 p=0.003 이다.
이러한 마커는 연령-계층화된 집단에서 대립유전자 및 유전자형 빈도에 관한 가장 유의적인 결과를 초래한다. 도 19는 양쪽 성 모두에 뿐만 아니라 전체 집단에서의 대립유전자 및 유전자형 빈도를 보여준다. 후자의 경우, 대립유전자에 대한 유의성은 p=0.0009이고 유전자형에 대해서는 p=0.003 이였다. 젊은 집단과 늙은 집단은 하디-바인베르그(Hardy-Weinberg) 평형 상태이다. 특정 유전자형의 선호되는 변화가 관측되지 않았다.
다형성은 사람 단백질 키나제 A 고정화 단백질(AKAP10)을 암호화하는 유전자의 비-해독된 3'-영역내에 국소화된다. 당해 유전자는 염색체 17에 위치한다. 이의 구조는 15개의 엑손과 14개의 개재 서열(인트론)을 포함한다. 암호화된 단백질은 cAMP-의존형 단백질 키나제의 아세포 국소화에 관여하므로, G-단백질 매개된 수용체-시그날전달 경로에서 주요 역할을 한다[참조 문헌: Huang et al. PNAS (1007) 94:11184-11189]. 이의 국소화는 암호 영역 밖에 있으므로, 이러한 다형성은 아미노산을 치환시키고 결과적으로 단백질의 기능을 변형시킬 수 있는 다른 비-동의적(non-synonymous) 다형성과 연관 불균형(LD) 상태에 있을 가능성이 높다. 상기 유전자에 관한 상이한 Genbank 데이타베이스 기록사항의 서열 비교를 통해, 6개의 잠재적 다형성(이중 2개는 각각의 아미노산을 변화시키는 것으로 추측된다)을 추가로 밝혀내었다(표 3 참조).
이환율 마커 2: 사람 단백질 키나제 A 고정화 단백질 (AKAP10-5)
AKAP10-5 대립유전자(서열 33)의 발견
게놈 DNA를, AKAP10-1 유전자좌에 유전자형 CC를 갖고 단일 이형접합성 개체(CT)(상기 참조)를 갖는 17명의 개개인의 혈액(상기 참조)으로 부터 분리하였다. C-말단 PKA 결합 도메인을 암호화하는 AKAP10-1 유전자 내의 표적 서열을 중합효소 연쇄 반응을 사용하여 증폭시켰다. PCR 프라이머를 포스포르아미디트 화학을 사용하여 OPERON에 의해 합성하였다. AKAP10-1 표적 서열의 증폭을 25ng의 사람 게놈 DNA 주형을 사용하여 개개의 50㎕ PCR 반응에서 수행하였다. 각 반응물은
I X PCR 완충제 (Qiagen, Valencia, CA), 200μM dNTP, IU Hotstar Taq 중합효소 (Qiagen, Valencia, CA), 4mM MgCl2, 25pmol의 정방향 프라이머(Ex13F)(이는 만능 프라이머 서열 및 표적 특이적 서열을 포함한다) 5'-TCC CAA AGT GCT GGA ATT AC-3' (서열 53), 및 2pmol의 역방향 프라이머(Ex14R) 5'-GTC CAA TAT ATG CAA ACA GTT G-3' (서열 54)을 포함한다. 온열 사이클링을, 다음 사이클링 매개변수에 따라 MJ Research Thermal Cycler(MJ Research, Waltham, MA)(계산된 온도)을 사용하여 0.2ml 튜브 또는 96웰 플레이트에서 수행하였다: 5분간 94℃; 45 사이클: 20초간 94℃, 30초간 56℃, 60초간 72℃; 3분간 72℃. 증폭 후, 당해 앰플리콘을 크로마토그래피(Mo Bio Laboratories (Solana Beach, CA))를 사용하여 정제하였다.
표적 영역을 나타내는, 18개의 앰플리콘의 서열을, 25nmol의 PCR 앰플리콘, 3.2uM DNA 서열분석 프라이머 5'-CCC ACA GCA GTT AAT CCT TC-3'(서열 55), 및 쇄 종결성 dRhodamine 표지된 2', 3' 디데옥시뉴클레오티드 (PE Biosystems, Foster City, CA)의 존재하에 생거(Sanger) 사이클 서열분석 방법을 아래의 사이클링 매개변수에 따라 사용하여 결정하였다: 15초간 96℃; 25 사이클: 15초간 55℃, 4분간 60℃. 서열분석 생성물을 0.3M NaOAc 및 에탄올에 의해 침전시켰다. 침전물을 원심분리하고 건조하였다. 당해 펠릿을 탈이온화된 포름아미드중에 재현탁시키고, 5% 폴리아크릴이미드 겔상에서 분리하였다. 당해 서열을 "Sequencher" 소프트웨어 (Gene Codes, Ann Arbor, MI)를 사용하여 결정하였다.
앰플리콘의 AKAP10-1 SNP에 대해 동형접합성인 모두 17개의 앰플리콘의 서열은, 뉴클레오티드 위치 152171(AKAP10 게놈 클론(서열 35)에 대한 Genbank 수탁번호 AC005730에 대한 번호)에서 A가 G로 대체된 다형성을 보여주었다. 이러한 SNP는 또한 야생형 AKAP10의 cDNA 클론(Genbank 수탁번호 AF037439)(서열 31)의 뉴클레오티드 2073에 위치한 것으로서 지정될 수 있다. 사람 AKAP10 단백질의 아미노산 서열이 서열 32로서 제공된다. 이러한 단일 뉴클레오티드 다형성은 AKAP10-5(서열 33)으로서 지정되고, 사람 AKAP10의 아미노산 서열(서열 32)의 아미노산 위치 646에서 이소루신이 발린으로 치환되었다.
건강한 헌혈자 집단에서 AKAP10-5의 PCR 증폭 및 바이오매스PROBE 분석 검출
연령에 의해 계층화된 건강한 집단은, 늙은 집단에 비해 젊은 집단에서 대립유전자 빈도의 변화를 검출하기 위한 매우 효율적이고 보편적인, 이환율 관련 유전자에 대한 스크리닝 수단이다. 이러한 건강한 집단을 기초로 하는 개개의 샘플은 수집하여 처리량을 추가로 증가시킬 수 있다.
건강한 샘플을 캘리포니아에 소재하는 San Bernardino의 혈액 은행으로 부터 구하였다. 헌혈자의 양쪽 부모는 코카서스인 출신이었다. 실제로, 사람인 경우, 건강한 피험자는 일반적 집단에서 최종적으로 사용하기 위해 혈액을 제공하는 혈액 은행 기준을 통과한 사람 헌혈자로서 정의된다. 이들 기준은 다음과 같다: 검출가능한 바이러스, 세균, 미코플라즈마, 및 기생충 감염증의 부존재하고; 빈혈증이 없고; 전력에 관한 앙케이트를 기준으로 하여 추가로 선택된다(도 3 참조). 따라서, 건강한 집단은, 혈액 은행 기준에 따라 혈액을 제공하기에 충분히 건강한 편견없는 집단을 나타내고, 임의의 질환 상태에 대해 추가로 선택되지 않는다. 전형적으로, 이러한 개체는 어떠한 약물치료도 받지 않는다.
PCR 프라이머를 포스포르아미디트 화학을 사용하여 OPERON에 의해 합성하였다. AKAP10 표적 서열의 증폭을 50㎕ PCR 반응에서 수집된 사람 게놈 DNA 100ng 내지 1μg을 사용하여 단일 50㎕ PCR 반응에서 수행하였다. 수집된 샘플내의 개개의 DNA 농도는 1 내지 25ng 범위의 최종 농도와 동일한 농도로 존재하였다. 각 반응물은 IX PCR 완충제 (Qiagen, Valencia, CA), 2OOuM dNTP, 1U Hotstar Taq 중합효소 (Qiagen, Valencia, CA), 4mM MgCl2, 및 25pmol의 정방향 프라이머(이는 만능 프라이머 서열과 표적 특이적 서열을 포함한다) 5'-AGCGGATAACAATTTCACACAGGGAGCTAGCTTGGAAGATTGC-3' (서열 41), 2pmol의 역방향 프라이머 5'-GTCCAATATATGCAAACAGTTG-3' (서열 54), 및 l0pmol의 PCR 앰플리콘 BIO의 5'말단에 상보적인 바이오티닐화된 만능 프라이머 5'-AGCGGATAACAATTTCACACAGG-3'(서열 43)을 포함한다. 특정 정방향 및 역방향 프라이머를 사용한 표적의 초기 증폭 과정 후, 5'바이오티닐화된 만능 프라이머가 하이브리드를 형성하고 역방향 프라이머로서 작용하여, 3'바이오틴 포획 잔기가 분자내에 도입된다. 증폭 프로토콜에 따르면, 5'바이오티닐화된 이본쇄 DNA 앰플리콘이 생성되며, 유전자형결정에 사용된 모든 정방향 프라이머를 5'바이오틴으로 표지할 필요를 제거함으로써 유전자형결정에 투입되는 고비용이 상당히 절약된다.
온열 사이클링을, 다음 사이클링 매개변수에 따라 MJ Research Thermal Cycler(계산된 온도)을 사용하여 0.2ml 튜브 또는 96웰 플레이트에서 수행하였다: 5분간 94℃; 45 사이클: 20초간 94℃, 30초간 56℃, 60초간 72℃; 3분간 72℃.
DNA의 고정화
50㎕ PCR 반응물을, 3회 예비세척하고 1M NH4Cl, 0.06M NH4OH중에 재현탁시킨 스트렙토비딘 피복된 자기 비이드(Dynal, Oslo, Norway) 25㎕에 가하였다. 이본쇄 PCR 앰플리콘중 하나의 쇄의 5'말단이 실온에서 15분간 비이드에 결합될 수 있도록한다. 이어서, 비이드를 자석을 사용하여 수집하고 결합되지 않은 DNA을 함유하는 상청액을 제거하였다. 하이브리드를 형성하였으나 결합되지 않은 쇄를, 100mM NaOH에서 항온배양하고 10mM Tris pH 8.0로 당해 비이드를 3회 세척하여 이본쇄 앰플리콘으로 부터 방출시켰다.
바이오매스PROBE TM 분석을 사용한 AKAP10-5의 검출
AKAP10-5(서열 33)에 대한 헌혈자 집단의 프라이머 연장 분석(참조 문헌: 미국 특허 제6,043,031호)의 바이오매스PROBETM분석을 수행하였다. 이러한 방법을 사용하는 유전자형결정을, DNA 피복된 자기 비이드를 26mM Tris-HCl pH 9.5, 6.5 mM MgCl2, 5OmM dTTP 및 50mM의 각 ddCTP, ddATP, ddGTP, 2.5U의 열안정성 DNA 중합효소(Ambersham), 및 20pmol의 주형 특이적 올리고뉴클레오티드 PROBE 프라이머 5'-ACTGAGCCTGCTGCATAA-3' (서열 44) (Operon)중에 재현탁시키는 방법으로 수행하였다. 올리고뉴클레오티드 프라이머를 3회 사이클의 하이브리드화 및 연장에 의해 연장시킨다. 50mM NH4Cl을 사용하여 주형으로 부터 변성시키고 150nL의 각 샘플을 150nL의 H3PA 매트릭스 물질로 예비충전시킨 실리콘 칩으로 옮긴 후, 분석하였다. 당해 샘플 물질을 결정화시키고, MALDI-TOF (Bruker, PerSeptive)에 의해 분석하였다. 당해 프라이머의 질량은 5483.6 달톤이였다. SNP는 프라이머에 ddC를 부가하는 결과를 초래하여, 연장된 생성물의 질량이 5756.8 달톤이 되었다. 야생형은 당해 프라이머에 T 및 ddG를 부가하는 결과를 초래하여, 질량이 6101 달톤인 연장 생성물이 수득된다.
SNP의 빈도를 연령-선택된 건강한 개개인의 집단에서 측정하였다. 연령이 40세 이하인 713명의 개개인(여성 360명, 남성 353명) 및 연령이 70세 이상인 703명의 개개인(여성 322명, 남성 381명)을 SNP, AKAP10-5(서열 33)의 존재에 대해 시험하였다. 결과는 아래 표 4에 제시된다.
도 20은 연령 및 성별 계층화된 코카서스인 집단에서 대립유전자 및 유전자형 분포의 상기 결과를 그래프로 보여준다.
이환율 마커 3: 사람 메티오닌 설폭사이드 리덕타제 A(msrA)
양쪽 성 및 전체 집단에서 상기 마커의 연령-관련된 대립유전자 및 유전자형 빈도는 도 21에 제시되어 있다. 늙은 남성 집단에서 동형접합성 CC 유전자형의 감소가 매우 유의적이다.
메티오닌 설폭사이드 리덕타제 A(#63306)
건강한 헌혈자 집단에서 사람 메티오닌 설폭시드 리덕타제 A(h-msr-A)의 PCR 증폭 및 바이오매스PROBE 분석 검출
h-msr-A에 대한 헌혈자 집단의 PCR 증폭
PCR 프라이머를 포스포르아미디트 화학을 이용하여 OPERON에 의해 합성하였다. AKAP 10 표적 서열의 증폭을, 50㎕ PCR 반응에서 수집된 사람 게놈 DNA 100ng 내지 1㎍을 사용하여 단일 50㎕ PCR 반응에서 수행하였다. 수집된 샘플내의 개개의 DNA 농도는 1 내지 25ng 범위의 최종 농도와 동일한 농도로 존재하였다. 각 반응물은 IX PCR 완충제 (Qiagen, Valencia, CA), 2OOμM dNTP, 1U Hotstar Taq 중합효소 (Qiagen, Valencia, CA), 4mM MgCl2, 및 25pmol의 정방향 프라이머(이는 만능 프라이머 서열과 표적 특이적 서열을 포함한다) 5'-TTTCTCTGCACAGAGAGGC-3' (서열 49), 2pmol의 역방향 프라이머 5'-AGCGGATAACAATTTCACACAGGGCTGAAATCCTTCGCTTTACC-3' (서열 50), 및 l0pmol의 PCR 앰플리콘의 5'말단에 상보적인 바이오티닐화된 만능 프라이머 5'-AGCGGATAACAATTTCACACAGG-3' (서열 51)을 포함한다. 특정 정방향 및 역방향 프라이머를 사용한 표적의 초기 증폭 과정 후, 5'바이오티닐화된 만능 프라이머가 하이브리드를 형성하고 역방향 프라이머로서 작용하여, 3'바이오틴 포획 잔기가 분자내에 도입된다. 증폭 프로토콜에 따르면, 5'바이오티닐화된 이본쇄 DNA 앰플리콘이 생성되며, 유전자형결정에 사용된 각 정방향 프라이머를 5'바이오틴으로 표지할 필요를 제거함으로써 유전자형결정에 투입되는 고비용이 상당히 절약된다. 온열 사이클링을, 다음 사이클링 매개변수에 따라 MJ Research Thermal Cycler(계산된 온도)을 사용하여 0.2ml 튜브 또는 96웰 플레이트에서 수행하였다: 5분간 94℃; 45 사이클: 20초간 94℃, 30초간 56℃, 60초간 72℃; 3분간 72℃.
DNA의 고정화
50㎕ PCR 반응물을, 3회 예비세척하고 1M NH4Cl, 0.06M NH4OH중에 재현탁시킨 스트렙토비딘 피복된 자기 비이드(Dynal) 25㎕에 가하였다. PCR 앰플리콘이 실온에서 15분간 비이드에 결합될 수 있도록 한다. 이어서, 비이드를 자석을 사용하여 수집하고 결합되지 않은 DNA을 함유하는 상청액을 제거하였다. 결합되지 않은 쇄를, 100mM NaOH에서 항온배양하고 10mM Tris pH 8.0로 당해 비이드를 3회 세척하여 이본쇄 앰플리콘으로 부터 방출시켰다.
h-msr A에 대한 헌혈자 집단의 바이오매스PROBE 분석 검출
바이오매스PROBE 분석 방법을 사용하는 유전자형결정을, DNA 피복된 자기 비이드를 26mM Tris-HCl pH 9.5, 6.5 mM MgCl2및 5OmM의 dTTP 및 50mM의 각 ddCTP, ddATP, ddGTP, 2.5U의 열안정성 DNA 중합효소(Ambersham) 및 20pmol의 주형 특이적 올리고뉴클레오티드 PROBE 프라이머 5'-CTGAAAAGGGAGAGAAAG-3' (Operon) (서열 52)중에 재현탁시키는 방법으로 수행하였다. 올리고뉴클레오티드 프라이머를 3회 사이클의 하이브리드화 및 연장에 의해 연장시킨다. 50mM NH4Cl을 사용하여 주형으로 부터 변성시키고 150nL의 각 샘플을 150nL의 H3PA 매트릭스 물질로 예비충전시킨 실리콘 칩으로 옮긴 후, 분석하였다. 당해 샘플 물질을 결정화시키고, MALDI-TOF (Bruker, PerSeptive)에 의해 분석하였다. SNP는 두 개의 EST의 서열에서 T에서 C로의 전환으로서 나타난다. 야생형은, 야생형 사람 msrA 유전자(서열 39)의 부분인 EST의 뉴클레오티드 서열을 나타내는, GenBank 수탁번호 AW 195104의 위치 128에서 T를 갖는 것으로 제시된다. SNP는, 사람 msrA 유전자의 대립유전자(서열 40)의 부분인 EST의 뉴클레오티드 서열을 나타내는, GenBank 수탁번호 AW 874187의 위치 129에서 C를 갖는 것으로서 제시된다.
게놈 서열에서 SNP는 A에서 G로의 전환으로서 제시된다. 바이오매스 프로브 반응에 사용된 프라이머의 질량은 5654.8 달톤이였다. SNP의 존재하에서, ddC를 부가하여 프라이머를 연장시키고, 이의 질량은 5928 이다. 야생형의 존재하에서, dT 및 ddC를 부가하여 프라이머를 연장시켜, 질량 6232.1 달톤을 수득한다.
SNP의 빈도를 연령-선택된 건강한 개개인의 집단에서 측정하였다. 연령이18 내지 39세인 552명의 개개인(여성 276명, 남성 276명) 및 연령이 60 내지 79세인 552명의 개개인(60 내지 69세의 여성 184명, 60 내지 79세의 남성 368명)을 h-msr-A의 비-해독된 3'영역내에 위치한 다형성의 존재에 대해 시험하였다.
건강한 개개인중에서 남성 연령 그룹간의 유전자형 차이는 유의적이다. 남성 집단의 경우, 대립유전자 유의성은 p=0.0009이고, 유전자형 유의성은 p=0.003이다. 양쪽 성 및 전체 집단에서 상기 마커의 연령-관련된 대립유전자 및 유전자형 빈도가 도 21에 제시된다. 늙은 남성 집단에서 동형접합성 CC 유전자형의 감소가 매우 유의적이다.
다형성은 사람 메티오닌 설폭사이드 리덕타제를 암호화하는 유전자의 비-해독된 3'-영역에 국한된다. 정확한 위치는 종결 코돈(TAA) 하류의 451개 염기쌍이다. SNP가 암호화 영역 또는 프로모터 영역에서 보다 상류에서 또 다른 다형성과 연관 불균형(LD) 상태일 수 있다; 따라서, 이는 직접적으로 이환을 일으키지 않는다. 효소 메티오닌 설폭사이드 리덕타제가 다중 생물학적 기능을 나타내는 것으로 제안되었다. 이는 산화적 단백질 손상을 회복하는데 작용할 뿐 아니라 이들의 생물학적 기능의 활성화 또는 불활성화에 의해 단백질을 조절하는데 중요한 역할을 한다[참조 문헌: Moskovitz et al., (1990) PNAS 95:14071-14075]. 또한, 이의 활성이 알쯔하이머 환자의 뇌 조직에서 상당히 감소된다[참조 문헌: Gabbita et al., (1999) J. Neurochem 73:1660-1666]. 반응성 산소 종의 물질대사에 관련된 단백질이 질환과 관련이 있다는 것을 과학적으로 인지할 수 있다.
결론
건강한 집단의 사용은 이환율 마커의 동정을 제공한다. G-단백질 연계된 시그날전달 경로 및 산화적 스트레스의 해독에 관련된 단백질의 동정은 확실한 결과로서 간주될 수 있다. 사람 단백질 키나제 A 고정화 단백질을 암호화하는 유전자에서 이미 실리코(sillico)내 동정된 다른 잠재적 다형성의 추가적 확인 및 유효성입증은 이환율에 대한 보다 확실한 관련성을 제공할 수 있고, 상기 유전자 생성물이 적합한 약제학적 또는 진단학적 표적이다는 것을 입증한다.
실시예 4
MALDI-TOF 질량 분광측정 분석
아래에 제시된 효소의 모든 생성물을 MALDI-TOF 질량 분광측정에 의해 분석하였다. 물로 2.5배 희석된 1:1 물:아세토트닐중에 10:1 3-하이드록시피콜린산:암모늄 시트레이트를 함유하는 희석된 매트릭스 용액(0.15㎕)를 피펫으로 SpectroChip(Sequenom, Inc.)으로 옮기고, 결정화시킨다. 이어서, 0.15㎕의 샘플을 가하였다. 양이온 모드로 작동하는, 선형 PerSeptive Voyager DE 질량 분광측정기 또는 Bruker Biflex MALDI-TOF 질량 분광측정기를 사용하여 측정하였다. 샘플 플레이트를, 각 UV 레이저를 발사(총 약 250회 레이저 발사)한 후, 400nm에 대해 18.2kV에서 유지한 다음, 표적 전압을 20kV로 증가시켰다. 고유 스펙트럼을 500MHz에서 디지탈화하였다.
실시예 5
샘플 조건설정
아래의 실시예에서 지적된 경우, 효소적 분해의 생성물을 ZipTip (Millipore, Bedford, MA)를 사용하여 정제하였다. ZipTip을 10㎕의 50% 아세토니트릴로 예비습윤화하고, 10㎕의 0.1 M TEAAc로 4회 평형화시켰다. 당해 올리고뉴클레오티드 단편을, 연속적으로 흡기하고 각 샘플을 ZipTip속에 분배하여 ZipTip 물질중의 C18에 결합시켰다. 각각의 분해된 올리고뉴클레오티드를 10㎕의 0.1 M TEAAc로 세척한 후, 10㎕의 H2O로 4회 세척하여 조건을 설정하였다. DNA 단편을 7㎕의 50% 아세토니트릴을 사용하여 Ziptip으로 부터 용출시켰다.
샘플의 조건을 설정하기 위한 임의의 방법이 사용될 수 있다. 일반적으로 피크 분해를 증가시키기 위하여 사용되는 조건설정 방법은 익히 공지되어 있다.[참조 문헌: 국제 PCT 출원 WO 98/20019].
실시예 6
DNA 글리코실라제-매개된 서열분석
DNA 글리코실라제는 당해 DNA내의 특정 핵산염기가 존재하는 각 위치에서 DNA를 변형시켜, 염기부존재 부위를 형성시킨다. 또 다른 효소, 화학물질, 또는 열과의 후속적 반응에서, 각 염기부존재 부위의 포스페이트 주쇄를 절단할 수 있다.
하기의 방법에서 이용되는 글리코실라제는 우라실-DNA 글리코실라제(UDG)이다. 우라실의 존재하에 DNA 표적 서열을 증폭시킴으로써, 통상적으로 티민 염기가 존재하는 각 위치에서 우라실 염기를 DNA 단편에 삽입시켰다. 각각 우라실 치환된 DNA 앰플리콘을, 앰플리콘내의 각각의 우라실 염기를 절단하는 UDG와 함께 항온배양한 다음, 각각의 염기부존재 부위에서 주쇄 절단을 수행하는 조건하에 둠으로써, DNA 단편이 생성된다. DNA 단편을 MALDI-TOF 질량 분광측정으로 분석하였다. 이어서, 표적 DNA내의 유전자의 변화가능성을 질량 스펙트럼을 분석하여 판단하였다.
본원에 기술된 바와 같은, 뉴클레오티드 동족체 또는 변형된 뉴클레오티드에 특이적인 글리코실라제를 아래의 방법에서 UDG 대신 사용할 수 있다. 이후 본원에서 기술되는 글리코실라제 방법은, 포스페이트 주쇄 절단 및 MALDI와 함께, SNP 스캐닝, 세균 유형결정, 메틸화 분석, 미세위성 분석, 유전자형 결정, 및 뉴클레오티드 서열분석, 및 재-서열분석의 목적으로 DNA 단편을 분석하는데 사용할 수 있다.
A. 유전자형결정
글리코실라제 방법을 사용하여 UCP-2(커플링되지 않은 단백질 2)을 암호화하는 DNA 서열의 유전자형을 결정한다. UCP-2의 서열은 GenBank에 수탁번호 AF096289로 기탁되었다. 하기의 방법에서 유전자형결정된 서열 변이는 뉴클레오티드 위치 4790에서 시토신(C-대립유전자)에서 티민(T-대립유전자)로의 변이이며, 이 결과 UCP-2 폴리펩티드의 위치 55에서 알라닌이 발린으로 돌연변이된다.
DNA를 아래 성분을 함유하는 50㎕의 반응 용적을 사용하여 PCR 방법에 의해증폭시켰다: 서열 5'-TGCTTATCCCTGTAGCTACCCTGTCTTGGCCTTGCAGATCCAA-3' (서열 91)을 갖는 5pmol의 바이오티닐화된 프라이머, 서열 5'-AGCGGATAACAATTTCACACAGGCCATCACACCGCGGTACTG-3' (서열 92)를 갖는 15pmol의 비-바이오티닐화된 프라이머, 200μM dATP, 200μM dCTP, 200μM dGTP, 600μM dUTP (dTTP를 전부 대체함), 1.5 mM 내지 3 mM MgCl2, 1 U의 HotStarTaq 중합효소, 및 25 ng의 CEPH DNA. 56℃의 어닐링 온도에서 45사이클로 증폭을 수행하였다.
이어서, 증폭 생성물을, 실온에서 20분간 예비세척한 5㎕의 Dynabead와 함께 50㎕의 증폭 반응물을 항온배양하여, 고형 지지체상에 고정시켰다. 상청액을 제거하고, 비이드를 실온에서 5분간 50㎕의 0.1 M NaOH와 항온배양하여, 일본쇄 DNA가 비이드에 연결되도록 이본쇄 PCR 생성물을 변성시켰다. 이어서, 비이드를 50㎕의 10mM TrisHCl (pH 8)로 3회 세척하여 중화시켰다. 비이드를 10㎕의 60mM TrisHCl/1mM EDTA (pH 7.9) 용액중에 재현탁시키고, 1 U의 우라실 DNA 글리코실라제를 45분간 37℃에서 당해 용액에 가하여 비이드에 연결된 일본쇄 DNA에 존재하는 우라실 뉴클레오티드를 제거하였다. 이어서, 비이드를 25㎕의 10 mM TrisHCl (pH 8)로 2회 세척하고, 10㎕의 물로 1회 세척하였다. 이어서, 바이오티닐화된 쇄를 60℃에서 10분간 12㎕의 2 M NH4OH으로 처리하여 비이드로 부터 용출시켰다. DNA의 주쇄를 10분간 95℃에서 (뚜껑을 닫은 상태로) 샘플을 항온배양하여 절단하고, 샘플을 11분간 80℃에서 항온배양하여 샘플로 부터 증발시켰다.
이어서, 절단 단편을 실시예 4에 기술된 MALDI-TOF 질량 분광측정에 의해 분석하였다. T-대립유전자는 3254 달톤의 특유 단편을 생성시켰다. T-대립유전자는 4788 달톤의 특유 단편을 생성시켰다. 이들 단편은 질량 스펙트럼에서 식별될 수 있다. 따라서, 상기 방법을 UCP-2에서 C-대립유전자 및 T-대립유전자에 대해 이형접합성인 개체의 유전자형을 결정하는데 성공적으로 이용하였다.
B. 수집된 DNA 샘플을 이용하는 글리코실라제 분석
글리코실라제 분석을 수집된 샘플을 사용하여 수행하여, UCP-2 유전자좌에서 유전자 변형가능성을 검출하였다. 공지된 유전자형의 DNA를 11명의 개개인으로 부터 수집하고, 5ng/㎕의 고정 농도로 희석시켰다. 실시예 3A에 제공된 절차에 따라 서열 5'-CCCAGTCACGACGTTGTAAAACGTCTTGGCCTTGCAGATCCAAG- 3' (서열 93)을 갖는 정방향 프라이머 2pmol 및 서열 5'-AGCGGATAACAATTTCACACAGGCCATCACACCGCGGTACTG-3' (서열 94)를 갖는 역방향 프라이머 15pmol을 사용하였다. 또한, 서열 5'bioCCCAGTCACGACGTTGTAAAACG 3' (서열 97)을 갖는 5pmol의 바이오티닐화된 프라이머를 약 2회 사이클 후, PCR 반응에 도입시킬 수 있다. 당해 단편을 MALDI-TOF 질량 분광측정(실시예 4)을 통해 분석하였다. 실시예 3A에서 측정된 바와 같이, 3254 달톤의 특유 단편을 생성시키는 T-대립유전자는, 4788 달톤의 특유 단편을 생성시키는 C-대립유전자로 부터 질량 스펙트럼에서 구별될 수 있다. 수집된 샘플에서 대립유전자 빈도는, 대립유전자 단편에 상응하는 각 시그날 아래의 면적을 적분함으로써 정량화되었다. 적분을 당업자에게 익히 공지된 방정식을 사용하여, 수작업으로 계산하여 수행하였다. 11개 샘플의 수집물에서, 이러한 절차는 개개인의40.9%가 T-대립유전자를 보유하고, 개개인의 59.09%가 C-대립유전자를 보유한다는 것을 제시하였다.
C. 글리코실라제-매개된 미세위성 분석
글리코실라제 방법을 사용하여 브래디키닌(Bradykinin) 수용체 2 (BKR-2) 서열의 미세위성체를 동정하였다. BKR-2의 서열은 수탁번호 X86173로 GenBank에 기탁되었다. BKR-2는 프로모터 영역내에 G에서 T로의 변이인 SNP를 포함할 뿐 아니라, 반복 단위체에 C에서 T로의 변이인 SNP를 포함한다. 실시예 3A에 제공된 절차를 이용하여 프로모터 영역내의 SNP, 미세위성체 반복 영역내의 SNP, 및 BKR-2의 미세위성체 영역에서의 반복 단위의 수를 동정하였다. 구체적으로, 서열 5'-CTCCAGCTGGGCAGGAGTGC-3' (서열 95)을 갖는 정방향 프라이머 및 서열 5'-CACTTCAGTCGCTCCCT-3' (서열 96)을 갖는 역방향 프라이머를 사용하여, 우라실의 존재하에 BKR-2 DNA를 증폭시켰다. 앰플리콘을 UDG로 단편화한 다음, 주쇄를 절단하였다. 절단 단편을 실시예 4에 기술된 바와 같이 MALDI-TOF 질량 분광측정에 의해 분석하였다.
C에서 T로의 변이를 갖는 BKR-2 프로모터 영역내의 SNP에 관하여, C-대립유전자는 질량이 7342.4 달톤인 특유 단편을 생성시키고, T-대립유전자는 질량이 7053.2 달톤인 특유 단편을 생성시켰다. 이들 단편은 질량 스펙트럼에서 구별될 수 있었다. 따라서, 상기 방법을 BKR-2의 프로모터 영역에서 C-대립유전자 및 T-대립유전자에 대해 이형접합성인 개체의 유전자형을 결정하는데 성공적으로 이용하였다.
G에서 T로의 변이를 갖는 BKR-2 반복 영역내의 SNP에 관하여, T-대립유전자는 질량이 1784 달톤인 특유 단편을 생성시키고, 이는 질량 스펙트럼에서 용이하게 검출되었다. 따라서, T-대립유전자의 존재는 BKR-2의 반복 영역내의 G에서 T로의 변이를 나타낸다.
또한, 반복 영역의 수는, BKR-2에 두 개의 반복 서열을 갖는 개체와 3개의 반복 서열을 갖는 개체 사이에서 구별되었다. 이들 개체의 DNA는, 각 반복 서열이 SNP 유전자좌에 G를 포함하기 때문에, 반복 서열내에 G에서 T로의 서열 변이를 보유하지 않았다. 반복 영역의 수를, 질량이 2771.6 달톤인 특유 DNA 단편에 상응하는 시그날 아래의 면적을 계산하여, 개체 샘플에서 측정하였다. 두 개의 반복 영역을 갖는 개체로 부터 생성된 스펙트럼중의 시그날은, 3개의 반복 영역을 갖는 개체로 부터 생성된 스펙트럼중의 동일한 시그날 아래의 면적 보다 33% 작은 면적을 갖는다. 따라서, 상기 방법을 사용하여 BKR-2에 존재하는 반복 서열의 수에 대해 개체의 유전자형을 결정할 수 있다.
D. 글리코실라제 분해와 연계된 바이설피트 처리
게놈 DNA의 바이설피트 처리를 이용하여 당해 DNA내의 메틸화된 시토신 잔기의 위치를 분석할 수 있다. 핵산을 바이설피트로 처리하면, 시토신 잔기는 탈아미노화되어 우라실 잔기로 되지만, 메틸화된 시토신은 변형되지 않고 유지된다. 따라서, 바이설피트로 처리하지 않은 게놈 DNA로 부터 생성된 PCR 생성물의 서열을,바이설피트로 처리한 게놈 DNA로 부터 생성된 PCR 생성물의 서열과 비교하면, 핵산중의 메틸화 정도 뿐 아니라, 시토신이 메틸화된 위치도 추론할 수 있다.
게놈 DNA(2㎍)를, 1㎕의 제한 효소와 함께 37℃에서 2시간 동안 항온배양하여 분해시켰다. 3M NaOH의 분액을 가하여, 분해 용액중의 0.3M NaOH의 최종 농도를 수득하였다. 반응물을 37℃에서 15분간 항온배양한 후, 5.35M 우레아, 4.44M 바이설피트, 10mM 하이드로퀴논(여기서, 하이드로퀴논의 최종 농도는 0.5mM이다)로 처리하였다.
바이설피트로 처리한 샘플(샘플 A)을, 바이설피트 처리를 수행하지 않은 동일한 분해 샘플(샘플 B)와 비교하였다. 샘플 A를 상기와 같이 바이설피트로 처리한 후, 샘플 A 및 샘플 B를 표준 PCR 방법에 의해 증폭시켰다. PCR 방법은 각 샘플을 광유로 피복한 다음, 당해 샘플을 열순환(55℃에서 15분에 이어, 95℃에서 30초의 20 사이클)에 적용시키는 단계를 포함한다. 당해 PCR 반응은 4개의 뉴클레오티드 염기, C, A, G 및 U를 포함한다. 광유를 각 샘플로 부터 제거하고, PCR 생성물을 글라스밀크로 정제하였다. 요오드화나트륨(3 용적) 및 글라스밀크(5㎕)를 샘플 A 및 B에 가하였다. 이어서, 샘플을 8분간 빙상에 놓고, 차가운 완충제 420㎕로 세척하고, 10초간 원심분리하고, 상청액을 제거하였다. 이러한 과정을 2회 반복하고, 물 25㎕를 가하였다. 샘플을 5분간 37℃에서 항온배양하고, 20초간 원심분리하고, 상청액 분획을 수집한 다음, 이러한 항온배양/원심분리/상청액 분획 수집 절차를 반복하였다. 50㎕의 0.1M NaOH를 이후 샘플에 가해 DNA를 변성시켰다. 당해 샘플을 실온에서 5분간 항온배양하고, 50㎕의 10 mM TrisHCl (pH 8)로 세척하고, 10㎕의 60mM TrisHCl/1mM EDTA, pH 7.9중에 재현탁시켰다.
샘플 A 및 샘플 B로 부터의 PCR 생성물의 서열을 2U의 UDG (MBI Fermentas)로 처리한 다음, 본원에서 기술한 바와 같이 주쇄를 절단하였다. 각 샘플 A 및 샘플 B로 부터 수득된 단편을 실시예 4에 기술된 바와 같이 MALDI-TOF 질량 분광측정으로 분석하였다. 샘플 A는, 샘플 B로 부터 생성된 단편의 수 보다 더 많은 단편의 수를 생성시키며, 이는 당해 핵산이 하나 이상의 메틸화된 시토신 잔기를 보유함을 가리킨다.
실시예 7
Fen-리가제-매개된 일배체형화
일배체형화 방법은, 개체의 두개의 상동 염색체중의 하나로 부터 단편의 선택을 가능케하고, 그 단편상의 유전자형 링크된 SNP에 대한 선택을 가능케한다. 일배체형의 직접적 분석은 정보 함량을 증가시킬 수 있고, 임의의 링크된 질환 유전자의 진단을 개선하거나, 또는 이들 질환과 관련이 있는 연관을 동정할 수 있다. 이전의 연구에서, 일배체형은 통상적으로 수고롭고 신뢰할 수 없는 대립유전자-특이적 PCR을 통한 가계 분석(가계 분석이 이용될 수 있는 경우)을 통해, 또는 당업계에 익히 공지된 단일-분자 희석 방법을 통해 간접적으로 재구성되었다.
일배체형화 방법을 사용하여, DNA 샘플의 하나의 쇄에 위치하는, SNP1 및 SNP2로 지칭되는 두개의 SNP의 존재를 측정하였다. 이러한 분석에서 사용된 일배체형화 방법은,표적 DNA 쇄에 하이브리드화된 두 개의 올리고뉴클레오티드의 중첩에 의해 생성된 DNA "플랩"을 절단하는 부위-특이적 "플랩" 엔도뉴클리아제인 Fen-1를 사용하였다. 이러한 실시예에서 두개의 중첩하는 올리고뉴클레오티드는 짧은 팔(arm)과 긴 팔 대립유전자-특이적 어댑터였다. 표적 DNA는, 변성되고 SNP1 및 SNP2를 함유하는 증폭된 핵산이였다.
짧은 팔 어댑터는 표적 DNA에서는 발견되지 않는 특유 서열을 포함한다. 짧은 팔 어댑터의 3'말단 뉴클레오티드는 SNP1 대립유전자중의 하나와 동일하였다. 또한, 긴 팔 어댑터는 2개의 영역을 포함하였다: 짧은 팔에 상보적인 3'영역 및 SNP에 인접한 목적하는 단편에 상보적인 5'유전자-특이적 영역. 어댑터와 상동체중의 하나 사이에 합치가 존재하는 경우, Fen 효소는 중첩 플랩을 인식하고 절단한다. 이어서, 어댑터의 짧은 팔을 표적 단편(SNP 부위 제외)의 나머지에 결합시켰다. 이러한 결합된 단편을, 단지 결합된 상동체만이 증폭되어지는 제2 PCR 반응에 대한 정방향 프라이머로서 사용하였다. 이어서, 제2 PCR 생성물(PCR2)를 질량 분광측정으로 분석하였다. 어댑터와 표적 DNA간에 합치부분이 존재하지 않는다면, 중첩도 존재하지 않고, Fen-1에 의한 절단도 없으며, 목적하는 PCR2 생성물도 수득되지 않는다.
목적 서열중에 하나 이상의 SNP가 존재하는 경우, 제2 SNP(SNP2)가 SNP2에 특이적인 어댑터를 사용하고, 어댑터를 제1 SNP을 포함하는 PCR2 생성물에 하이브리드화시킴으로써 발견되었다. Fen-리가제 및 증폭 절차를 제1 SNP를 포함하는 PCR2 생성물에 대해 반복하였다. 증폭된 생성물에 의해 제2 SNP가 수득되는 경우, SNP1 및 SNP2는 동일한 단편에 존재하였다.
SNP가 공지된 경우, 4개의 대립유전자-특이적 어댑터(예: C, G, A 및 T)를 사용하여 표적 DNA와 하이브리드화시킬 수 있다. 이어서, 기질을 증폭을 포함하여 Fen-리가제 프로토콜로 처리하였다. PCR2 생성물을 본원에 기술된 바와 같이 PROBE에 의해 분석하여, 어느 어댑터가 DNA 표적에 하이브리드화되는 지를 측정하여, 당해 서열내의 SNP를 동정할 수 있다.
Fen-리가제 분석을 사용하여 인자 VII에 존재하는 2개의 SNP를 검출하였다. 이들 SNP는 서로 분리되어진 814 염기쌍에 위치한다. SNP1은 위치 8401(C에서 T로)에 위치하였고, SNP2는 9215(G에서 A로)(서열 번호)에 위치하였다.
A. 제1 증폭 단계
PCR 생성물(PCR1)은, SNP의 5'말단으로 부터 조금 떨어진, SNP1에 공지된 이형접합성 개체에 대해 생성되었다. 구체적으로, 10㎕ PCR 반응물을, 1.5 mM MgCl2, 200μM의 각 dNTP, 0.5 U의 HotStar 중합효소, 서열 5'-GCG CTC CTG TCG GTG CCA (서열 56)을 갖는 0.1μM의 정방향 프라이머, 서열 5'-GCC TGA CTG GTG GGG CCC (서열 57)을 갖는 0.1μM의 역방향 프라이머, 및 1ng의 게놈 DNA을 혼합하여 수행하였다. 어닐링 온도는 58℃이였고, 당해 증폭 과정에 의해 길이가 861bp인 단편이 수득되었다.
PCR1 반응 혼합물을 반으로 나누어, 1.0㎕ SAP 및 0.1㎕ 엑손 1을 함유하는 엑소뉴클리아제 1/SAP 혼합물 (0.22㎕ 혼합물/5 ㎕ PCR1 반응물)로 처리하였다.엑소뉴클리아제 처리를 30분간 37℃에서 수행한 후, 85℃에서 20분간 수행하여, DNA를 변성시켰다.
B. 어댑터 올리고뉴클레오티드
어댑터당 하나의 긴 올리고뉴클레오티드 및 짧은 올리고뉴클레오티드를 함유하는 대립유전자-특이적 어댑터(C 및 T)의 용액을 제조하였다. 각 어댑터(10μM)의 긴 팔 및 짧은 팔 올리고뉴클레오티드를 1:1 비로 혼합하고, 30초간 95℃에서 가열하였다. 온도를 2℃씩 증분시켜 37℃로 감소시켜 어닐링시켰다. C-어댑터는 5'-CAT GCA TGC ACG GTC (서열 58)의 짧은 팔 서열 및 5'-CAG AGA GTA CCC CTC GAC CGT GCA TGC ATG (서열 59)의 긴 팔 서열을 갖는다. 따라서, 어댑터의 긴 팔은 30 bp (15 bp 유전자-특이적)이였고, 짧은 팔은 15bp 이였다. T-어댑터는 5'-CAT GCA TGC ACG GTT (서열 60)의 짧은 팔 서열 및 5'-GTA CGT ACG TGC CAA CTC CCC ATG AGA GAC (서열 61)의 긴 팔 서열을 갖는다. 당해 어댑터는 헤어핀 구조를 가질 수 있고, 이 경우에 짧은 팔과 긴 팔은 3 내지 10개 뉴클레오티드(서열 118)를 포함하는 루프에 의해 분리된다.
C. FEN-리가제 반응
두 개의 튜브(샘플당 각 대립유전자-특이적 어댑터에 대한 하나의 튜브)에 3.5㎕의 10 mM 16%PEG/50 mM MOPS, 1.2㎕의 25 mM MgCl2, 1.5㎕의 10X Ampligase 완충제, 및 2.5㎕의 PCR1을 함유하는 용액(용액 A)를 넣었다. 용액 A를 함유하는 각 튜브를 95℃에서 5분간 항온배양하여 PCR1 생성물을 변성시켰다. 1.65㎕의 Ampligase (열안정성 리가제, Epicentre Technologies), 1.65㎕의 200ng/㎕ MFEN (공급원: Methanocuccus jannaschii), 및 3.0㎕의 대립유전자 특이적 어댑터(C 또는 T)을 함유하는 제2 용액(용액 B)를 제조하였다. 따라서, 각각 상이한 대립유전자-특이적 어댑터를 함유한는, 용액 B의 상이한 변형이 제조되었다. 용액 B를 95℃에서 용액 A에 가하고, 55℃에서 3시간 동안 항온배양하였다. 2개-대립유전자 시스템의 경우, 2x 15.0㎕ 반응물이 요구되었다.
이어서, 각 튜브내의 Fen-리가제 반응을, 8.0㎕ 10mM EDTA를 첨가하여 불활성화시켰다. 이어서, 1.0㎕의 exoIII/완충제(70%/30%) 용액을 각 샘플에 가하고 37℃에서 30분간 및 70℃에서 20분간간 항온배양(exoIII를 불활성화시킴)하고, 95℃에서 5분간 항온배양(샘플을 변성시키고 사용되지 않은 어댑터를 주형으로 부터 해리시킴)하였다. 샘플을 얼음 슬러리에서 냉각시키고 UltraClean PCR Clean-up(MoBio) 스핀 칼럼에서 정제하여, 100 염기쌍 미만의 모든 단편을 제거하였다. 단편을 50㎕ H2O로 용출시켰다.
D. 제2 증폭 단계
제2 증폭 반응(PCR2)를, 정방향 프라이머(SNP1 부위 제외)로서 짧은 팔 어댑터(C 또는 T)를 사용하여 각 튜브에서 수행하였다. 단지 결합된 상동체만을 증폭시켰다. 표준 PCR 반응을, 1X 완충제(최종 농도), 1.5 mM 최종 농도 MgCl2, 200μM 최종 농도 dNTP, 0.5 U HotStar 중합효소, 0.1μM 최종 농도의 정방향 프라이머 5'-CAT GCA TGC ACG GT (서열 62), 0.1μ 최종 농도의 역방향 프라이머 5'-GCC TGA CTG GTG GGG CCC (서열 63), 및 1.0㎕의 정제된 FEN-리가제 반응 용액을 포함하는 총 10.0㎕ 용적을 사용하여 수행하였다. 어닐링 온도는 58℃였다. PCR2 생성물을, 실시예 4에 기술된 바와 같이 MALDI TOF 질량 분광측정으로 분석하였다. Fen SNP1의 질량 스펙트럼은 6084.08 달톤의 질량을 나타내었으며, 이는 C 대립유전자를 나타낸다.
E. 추가적 SNP 유전자형결정
제2 SNP(SNP2)는, SNP2에 특이적인 어댑터를 사용하고 당해 어댑터를 제1 SNP를 함유하는 PCR2 생성물에 하이브리드화시킴으로써 발견될 수 있다. Fen-리가제 및 증폭 절차를 제1 SNP를 함유하는 PCR2 생성물에 대해 반복하였다. 증폭된 생성물에 의해 제2 SNP가 생성되면, SN1 및 SN2는 동일한 단편상에 존재한다. T 대립유전자를 나타내는 SNP2의 질량 스펙트럼은 6359.88 달톤의 질량을 나타내었다.
이러한 분석을 수집된 DNA에 대해 수행하여 본원에 기술된 바와 같은 일배체형을 수득할 수 있다. Fen-리가제 분석을 사용하여 본원에 기술된 바와 같이 다중체를 분석할 수 있다.
실시예 8
닉카제-매개된 서열분석
DNA 닉카제 또는 DNase를 사용하여 DNA 이본쇄중 하나의 쇄를 인식하고 절단할 수 있다. 아래의 부위를 절단하는 두개의 닉카제, NY2A 및 NYS1 닉카제(Megabase)를 사용하였다:
NY2A: 5'...R AG...3'
3'...Y↓TC...5'(이때 R = A 또는 G이고 Y = C 또는 T이다)
NYS1: 5'...↓CC[A/G/T]...3'
3'... GG[T/C/A]...5'.
A. 닉카제 분해
Tris-HCl (10 mM), KCl (10 mM, pH 8.3), 아세트산마그네슘 (25 mM), BSA (1 mg/mL), 및 6 U의 Cvi NY2A 또는 Cvi NYS1 닉카제 (Megabase Research)를, 표준 포스포르아미디트 화학을 사용하여 합성된 서열 5'-CGC AGG GTT TCC TCG TCG CAC TGG GCA TGT G-3' (서열 90, Operon, Alameda, CA)을 갖는 25 pmol의 이본쇄 올리고뉴클레오티드 주형에 가하였다. 총 용적 20㎕를 사용하여, 반응 혼합물을 5시간 동안 37℃에서 항온배양하고, 분해 생성물을 실시예 5에 기술된 바와 같은 ZipTip (Millipore, Bedford, MA)을 사용하여 정제하였다. 샘플을 실시예 1에 기술된 바와 같은 MALDI-TOF 질량 분광측정으로 분석하였다. 닉카제 Cvi NY2A에 의해 질량이 4049.76 달톤, 5473.14 달톤, 및 9540.71 달톤인 3개의 단편이 수득되었다. Cvi NYS1 닉카제에 의해 질량이 2063.18 달톤, 3056.48 달톤, 6492.81 달톤, 및 7450.14 달톤인 단편들이 수득되었다.
B. 수집된 샘플의 닉카제 분해
DQA (HLA ClassII-DQ Alpha, 예상 단편 크기=225bp)를 100명의 건강한 개체의 게놈 DNA로 부터 증폭시켰다. DQA를 하기 성분을 함유하는 총 50㎕의 용적을 갖는 반응물에서 표준 PCR 화학을 사용하여 증폭시켰다: 10 mM Tris-HCl, 10 mM KCl (pH 8.3), 2.5 mM MgCl2, 200μM의 각 dNTP, 서열 5'-GTG CTG CAG GTG TAA ACT TGT ACC AG-3'(서열 64)을 갖는 10 pmol의 정방향 프라이머, 서열 5'-CAC GGA TCC GGT AGC AGC GGT AGA GTT G-3'(서열 65)을 갖는 10 pmol의 역방향 프라이머, 1 U DNA 중합효소 (Stoffel fragment, Perkin Elmer), 및 200ng 사람 게놈 DNA (2ng DNA/개체). 주형을 94℃에서 5분간 변성시켰다. 온열 사이클링을, 94℃에서 20초, 56℃에서 30초, 72℃에서 1분, 및 72℃에서 3분의 최종 연장으로 이루어진 45사이클을 포함하는 터치-다운 프로그램을 이용하여 계속하였다. 조 PCR 생성물을 후속 닉카제 반응에서 사용하였다.
정제되지 않은 PCR 생성물을 닉카제 분해에 적용시켰다. Tris-HCl (10 mM), KCl (10 mM, pH 8.3), 아세트산마그네슘 (25mM), BSA (1 mg/mL), 및 5 U의 Cvi NY2A 또는 Cvi NYS1 닉카제 (Megabase Research)를 25 pmol의 정제된 주형에 총 반응 용적 20㎕으로 가하였다. 이어서, 혼합물을 5시간 동안 37℃에서 항온배양하였다. 분해 생성물을 실시예 5에 기술된 바와 같은 ZipTis (Millipore, Bedford, MA)를 사용하여 정제하였다. 샘플을 실시예 4에 기술된 바와 같은 MALDI TOF 질량 분광측정기로 분석하였다. 이러한 분석을 사용하여 본원에 기술된 바와 같이 복합화 및 쇄없는 유전자형결정을 수행할 수 있다.
닉카제 질량 스펙트럼을 단순화하기 위하여, 두 개의 상보적 쇄를, 일본쇄-분해되지 않은 PCR 생성물을 포획 프로브로서 사용함으로써 분해 후 분리할 수 있다. 이러한 프로브(실시예 8C에서 제조됨)는, 200mM 나트륨 시트레이트 및 1% 차단 시약(Boehringer Mannheim)을 함유하는 하이브리드화 완충제중에서 닉카제 단편에 하이브리드화시킬 수 있다. 반응물을 가열 사이클러 (PTC-200 DNA engine, MJ Research, Waltham, MA)를 사용하여 5분간 95℃로 가열하고, 30분 동안 실온으로 냉각시킨다. 포획 프로브-닉카제 단편을 140μg의 스트렙타비딘-피복된 자기 비이드상에 고정시킨다. 이어서, 비이드를 70mM 암모늄 시트레이트로 3회 세척하였다. 포획된 일본쇄 닉카제 단편을, 5㎕의 50mM 수산화암모늄중에서 5분간 80℃로 가열하여 용출시킨다.
C. 포획 프로브의 제조
포획 프로브를, 하기 성분을 함유하는 총 50㎕ 용적에서 PCR 방법을 통해 사람 β-글로빈 유전자(인트론 1의 3'말단 내지 엑손 2의 5'말단)을 증폭시켜 제조한다: GeneAmp 1X PCR 완충제 II, 10 mM Tris-HCl, pH 8.3, 50 mM KCl, 2 mM MgCl2, 0.2 mM dNTP 혼합물, 10pmol의 각 프라이머 (정방향 프라이머 5'-ACTGGGCATGTGGAGACAG-3'(서열 66) 및 바이오티닐화된 역방향 프라이머 bio5'-GCACTTTCTTGCCATGAG-3'(서열 67), 2 U의 AmpliTaq Gold, 및 200ng의 사람 게놈 DNA. 주형을 94℃에서 8분간 변성시켰다. 온열 사이클링을, 94℃에서 20초, 64℃에서 30초, 72℃에서 1분, 및 72℃에서 5분의 최종 연장으로 이루어진 45사이클을 포함하는 터치-다운 프로그램을 이용하여 계속하였다. 앰플리콘을 UltraCleanTMPCR 클린-업 키트 (MO Bio Laboratories, Solano Beach, CA)를 사용하여 정제한다.
실시예 9
복합 IIS형 SNP 분석
IIS형 분석을 사용하여 공지된 SNP를 갖는 사람 유전자 서열을 동정하였다. 이러한 분석에 사용된 IIS형 효소는 표적 DNA의 이본쇄 절단을 수행하는 Fok I 이였다. 당해 분석은 증폭 단계 및 앰플리콘의 Fok I 처리 단계를 포함한다. 증폭 단계에서, 프라이머를, 지정된 유전자 표적의 각 PCR 생성물이 100 염기 미만이도록 고안하여, Fok I 인식 서열이 애플리콘의 5' 및 3' 말단에 삽입되도록 한다. 따라서, Fok I에 의해 절단된 단편은 목적하는 SNP를 포함하는 중심 단편을 포함한다.
공지된 SNP를 갖는 사람 유전자 표적을 이러한 분석에 의해 분석하였다. 10개의 유전자 표적 서열, 및 표적 영역을 증폭시키는 데 사용된 프라이머가 표 5에 제시된다. 10개의 표적은 지방단백질 리파제, 프로트롬빈, 인자 V, 콜레스테롤 에스테르 전달 단백질(CETP), 인자 VII, 인자 XIII, HLA-H 엑손 2, HLA-H 엑손 4, 메틸렌테트라하이드로폴레이트 리덕타제(MTHR), 및 P53 엑손 4 코돈 72 이였다.
10개의 사람 유전자 서열의 증폭을 5개 PCR 반응 튜브에서 사람 게놈 DNA 주형 20ng을 포함하는 단일 50㎕ 용적의 PCR 반응을 수행하였다. 각각의 바이알은 1X PCR 완충제 (Qiagen), 200μM dNTP, 1U Hotstar Taq 중합효소 (Qiagen), 4 mM MgCl2, 및 10pmol의 각 프라이머를 함유하였다. 5'TCAGTCACGACGTT3'(서열 68)의 서열을 갖는 US8, 및 5'CGGATAACAATTTC3'(서열 69)의 서열을 갖는 US9를 각각 정방향 및 역방향 프라이머로서 사용하였다. 또한, Fok I 인식 부위가 앰플리콘의 5' 및 3'말단에 삽입되도록 고안하였다. 온열 사이클링을, 다음 사이클링 매개변수에 따라 MJ Research Thermal Cycler(계산된 온도)을 사용하여 0.2ml 튜브 또는 96웰 플레이트에서 수행하였다: 5분간 94℃; 45 사이클: 20초간 94℃, 20초간 56℃, 60초간 72℃; 3분간 72℃.
PCR 후, 샘플을 0.2 U 엑소뉴클리아제 I (Amersham Pharmacia) 및 S 알카린 포스파타제 (Amersham Pharmacia)로 처리하여 삽입되지 않은 프라이머 및 dNTP를 제거하였다. 통상적으로, 0.2 U의 엑소뉴클리아제 I 및 SAP를 5㎕의 PCR 샘플에 가하였다. 이어서, 샘플을 15분간 37℃에서 항온배양하였다. 이어서, 엑소뉴클리아제 I 및 SAP를, 15분간 85℃ 이하로 가열하여 불활성화시켰다. Fok I 분해를,2 U의 Fok I (New England Biolab)을 5㎕의 PCR 샘플에 가하고 30분간 37℃에서 항온배양하여 수행하였다. Fok I 제한 부위는 앰플리콘의 양 측면에 위치하기 때문에, 5' 및 3' 컷오프 단편은 SNP를 함유하는 중심 단편 보다 많은 질량을 갖는다. 이어서, 샘플을 음이온 교환에 의해 정제하고 실시예 4에 기술된 바와 같은 MALDI-TOF 질량 분광측정에 의해 분석하였다. 이러한 복합 실험으로 부터 유전자 단편의 질량은 표 6에 제시된다. 이들 유전자 단편을 질량 스펙트럼에서 분석함으로써, 이들 유전자내의 서열 변화가능성의 복합적 분석이 가능해졌다.
실시예 10
건강한 데이타베이스의 계층화를 위한 부모 의학적 전력 매개변수의 예시적인 용도
건강한 데이타베이스를 사용하여, 연령과 대립유전자, 특히 동형접합성 유전자형간에 강한 상관관계를 보이는 것으로 밝혀진 특이적 대립유전자(SNP)와 질환 상태를 서로 연관시킬 수 있다. 당해 방법은 연령 의존적 상관관계를 동정하는데 사용된 동일한 건강한 데이타베이스를 사용함을 포함하지만, 계층화는 부모가 겪은 공통 질환(제공자의 질환에 관한 가족력)에 관해 제공자에 의해 주어진 정보에 의한다. 제공자가 그들의 건강 상태에 대하여 줄 수 있는 3개의 가능한 대답이 있다: 아무도 질환에 걸리지 않았음, 한 명만 질환에 걸렸음, 또는 둘다 질환에 걸렸음. 제공자의 부모가 임상적 질환 표현형을 나타내기에 충분하도록 늙어야 하므로, 질환에 따라, 특정 최소 연령 이상의 제공자만이 이용된다. 이들 그룹의 각각에서 유전자형 빈도를 측정하고 서로 비교한다. 제공자의 마커가 질환과 상관관계가 있다면, 이형접합성 유전자형의 빈도는 증가될 것이다. 동형접합성 유전자형의 빈도는 증가하지 않는데, 이는 건강한 집단에서 상당히 과소하게 나타나기 때문이다.
실시예 11
생물학적 샘플을 동정하기 위한 방법 및 장치
설명
본 발명에 따르면, 생물학적 샘플을 동정하기 위한 방법 및 장치가 제공된다. 도 24에 있어서, 생물학적 샘플을 동정하기 위한 장치 10이 제시된다. 생물학적 샘플을 동정하기 위한 장치 10은 일반적으로 컴퓨터 장치 20과 정보를 교환하는 질량 분광측정기 15를 포함한다. 바람직한 태양에서, 질량 분광측정기는MALDI-TOF 질량 분광측정기(제조원: Bruker-Franzen Analytik GmbH)일 수 있으나; 다른 질량 분광측정기로 대체될 수 있다고 생각된다. 컴퓨터 장치 20은 바람직하게는 범용 컴퓨터 장치이다. 그러나, 컴퓨터 장치가 달리 배치될 수 있으며, 예를 들며, 이는 질량 분광측정기와 통합될 수 있거나 대형 네크워크 시스템중의 컴퓨터의 일부일 수 있다고 생각된다.
생물학적 샘플을 동정하기 위한 장치 10은, 질량 분광측정기 15의 수용 영역 31로 샘플 플레이트 29를 전달하도록 배치된 로봇 팔 27이 장착된 로봇 25을 가진 자동화 공정 시스템으로서 작동할 수 있다. 이러한 경우에, 동정될 샘플을 플레이트 29상에 놓으면, 자동적으로 질량 분광측정기 15에 수용될 수 있다. 이어서, 생물학적 샘플을 질량 분광측정기로 처리하여, 생물학적 샘플내의 DNA 단편의,질량을 나타내는 데이타를 수득한다. 이러한 데이타를 직접 컴퓨터 장치 20에 보내거나, 또는 질량 분광측정기 내에서 수행된 일부 예비프로세싱 또는 필터링을 가질 수 있다. 바람직한 태양에서, 질량 분광측정기 15는 미처리된 및 미여과된 질량 분광측정 데이타를 컴퓨터 장치 20에 전송한다. 그러나, 컴퓨터 장치내에서의 분석이 질량 분광측정기 내에서 수행된 예비프로세싱 또는 필터링을 수용하도록 조정될 수 있다고 생각된다.
도 25에 있어서, 생물학적 샘플을 동정하기 위한 일반적 방법 35가 제시된다. 방법 35에서, 데이타는, 블록 40내의 시험 장비로 부터 컴퓨터 장치로 수용된다. 바람직하게는, 데이타는 원상태의, 미처리되고 여과되지 않은 형태로 수용되지만, 달리 필터링과 프로세싱이 적용된 형태일 수 있다. 바람직한 태양의 시험장비는 상기한 바와 같은 질량 분광측정기이다. 그러나, 다른 시험 장비가 질량 분광측정기를 대체할 수 있다고 생각된다.
시험 장비, 특히 질량 분광측정기에 의해 생성된 데이타는 생물학적 샘플의 동정을 나타내는 정보를 포함한다. 보다 구체적으로, 당해 데이타는 생물학적 샘플의 DNA 조성을 나타낸다. 통상적으로, DNA 증폭 기술로 부터 수득된 DNA 샘플로 부터 수집된 질량 분광측정 데이타는 전형적 단백질 샘플로 부터 수득된 것 보다 노이즈가 많다. 이는 부분적으로는 단백질 샘플이 보다 풍부하게 보다 용이하게 제조될 수 있고, 단백질 샘플이 DNA 샘플에 비해 보다 용이하게 이온화될 수 있기 때문이다. 따라서, 종래의 질량 분광측정 데이타 분석 기술은 일반적으로 생물학적 샘플의 DNA 분석에는 효과적이지 못하다. DNA 조성 데이타가 보다 용이하게 식별될 수 있도록 분석 능력을 향상시키기 위하여, 바람직한 태양은 DNA 질량 분광측정 데이타를 분석하기 위한 파형 기술을 사용한다. 파형은 시그날 프로세싱, 수치 분석, 및 수학적 모델링을 위한 분석 도구이다. 파형 기술은 데이타 셋트에 적용된 기본적 확대 기능을 제공한다. 파형 분해를 사용하여, 데이타 셋트를 시간 및 빈도 도메인에서 동시에 분석할 수 있다. 파형 변환은, 복잡화된 시간(질량) 및 빈도 도메인 정보, 예를 들면 MALDI-TOF DNA 데이타를 나타내는 데이타의 분석에서의 선택 기술이다. 본원에 기술된 파형 변환은 종래의 푸리어 분석 기술에 비해 보 다 우수한 노이즈제거 특성을 갖는다. 파형 변환은 DNA 샘플의 고유 노이즈성 MALDI-TOF 스펙트럼을 해석하는데 있어 특히 효과적이다. 파형을 사용하면서, "소형 파형" 또는 "스케일링 기능"을 사용하여, 데이타 셋트에서 빈도 성분을 나타내는 각 단계에 데이타를 변환하여 넣는다. 파형 변환을 사용하여, 질량 분광측정 데이타를 처리하고, 여과하고, 분석하여, 생물학적 샘플에 대한 DNA 조성의 동정에 유용한 충분한 식별을 얻을 수 있다.
도 25에 있어서, 블록 40에서 수용된 데이타는 블록 45에서 노이즈제거된다. 노이즈제거된 데이타는 블록 50에 적용된 기준선 교정을 갖는다. 기준선 교정은 일반적으로 시험 장비, 특히 질량 분광측정 장비로 부터 나오는 데이타로서 필수적이며, 일반적으로 지수적으로 감쇠하는 방식으로 배열된 데이타를 갖는다. 이러한 일반적 지수적 감쇠 배열은 생물학적 샘플의 조성으로 인한 것이 아니라, 시험 장비의 물리적 특성 및 특징의 결과, 및 DNA 샘플 제조에 관련된 기타 화학물질로 인한 것이다. 따라서, 기준선 교정은 실질적으로 데이타를 교정하여, 시험 시스템의 속성인 데이타의 구성요소 및 샘플 제조 특징을 제거한다.
블록 45에서 노이즈제거하고 블록 50에서 기준선을 교정한 후, 시그날은, 일반적으로 생물학적 샘플의 조성을 나타내는 상태로 남는다. 그러나, 생물학적 샘플의 DNA 조성을 분석하는데 요구되는 대단한 식별로 인해, 조성은 노이즈제거되고 교정된 시그날로 부터 용이하게 식별되지 않는다. 예를 들면, 시그날이 피크 면적을 포함할 수 있지만, 이들 '추정상의' 피크가 실제 DNA 조성을 나타내는지 또는 추정상의 피크가 시스템 또는 화학적 임계적 결과인지는 명백하지 않다. 또한, 생물학적 샘플의 조성의 임의의 요청이 임상 목적 또는 치료 목적으로 허용될 수 없는 오류 가능성을 가질 것이다. 이러한 임계적 상황에서, 샘플의 임의 요청 또는 동정이 정확하다는 고도의 확실성을 필요로 한다. 따라서, 샘플을 정확하고 확실하게 동정하기 전에, 추가적 데이타 프로세싱 및 해석이 필요하다.
각 질량 분광측정 시험으로 부터 수득된 데이타의 양이 통상적으로 수 천 데이타포인트이고, 자동화 시스템이 시간당 수백 또는 수천 시험을 수행하도록 설정되기 때문에, 수집된 질량 분광측정 데이타의 양은 거대하다. 질량 분광측정 데이타의 효율적인 전달 및 저장을 촉진하기 위하여, 블록 55는 노이즈제거되고 기준선이 교정된 데이타가 압축됨을 보여준다.
바람직한 태양에서, 생물학적 샘플을, 단지 제한된 범위의 가능한 조성을 갖도록 선택하고 처리한다. 따라서, 조성을 나타내는 피크가 존재하는 경우 어디에 위치하는지가 알려진다. 이들 예상 피크의 위치를 알고 있음을 이용하여, 블록 60에서 방법 35는 예상 피크의 위치에 프로세싱된 시그날중의 추정상의 피크를 합치시킨다. 이러한 방법에서, 생물학적 샘플의 조성을 나타내는 실제 피크인 데이타중의 각각의 추정상의 피크의 확률을 측정할 수 있다. 일단 각 피크의 확률이 블록 60에서 측정되면, 블록 65에서 방법 35는 생물학적 샘플의 조성을 통계학적으로 측정하고, 신뢰도가 유전자형을 요청하기에 충분할 정도로 높은지를 측정한다.
블록 40에 있어서, 데이타는 시험 장비, 바람직하게는 질량 분광측정기로 부터 수용된다. 구체적으로 설명하면, 도 26은 질량 분광측정기로 부터의 데이타의 예를 보여준다. 질량 분광측정기 데이타 70은 일반적으로 x-축 71 및 y-축 72를 따라 분포된 데이타 포인트를 포함한다. x-축 71은 검출된 입자의 질량을 나타내는 반면, y-축 72는 입자의 농도 수치를 나타낸다. 도 26에서 알 수 있는 바와 같이, 질량 분광측정 데이타 70은, 일반적으로 지수적으로 감쇠하여, x-축 73의 좌측말단의 데이타는 x-축 71의 더 무거운 말단 74의 데이타를 향하여 지수적으로 일반적으로 감쇠한다. 그러나, 데이타의 일반적 지수적 제공은 생물학적 샘플의 조성을 나타내지 않지만, 시스템 오류 및 특징을 보다 잘 반영한다. 또한, 상기되고 도 26에 도시된 바와 같이, 상당한 노이즈가 질량 분광측정 DNA 데이타 70에 존재한다.
블록 45에 있어서, 블록 40에 수용된 원(raw) 데이타를 노이즈제거하고, 노이즈제거 과정은 보다 상세히 설명될 것이다. 도 25에 도시된 바와 같이, 노이즈제거 과정은 일반적으로, 1) 원 데이타상에서 파형 변환을 수행하여 원 데이타를 파형 단계 계수로 분해하는 단계; 2) 파형 계수의 가장 높은 단계로 부터 노이즈 프로파일을 수득하는 단계; 3) 스케일링된 노이즈 프로파일을 파형 변환의 다른 단계에 적용하는 단계를 수반한다. 노이즈제거 과정의 각 단계는 아래에서 추가로 기술된다.
도 27에 있어서, 원 질량 분광측정 데이타의 파형 변환은 일반적으로 다이아그램화된다. 파형 변환을 사용하여, 질량 분광측정 데이타 70을 연속적으로 단계로 변환시킨다. 각 단계에서, 데이타는 높은 단계와 낮은 단계로 나타나며, 낮은 단계는 다음 연속 단계에 대한 입력 정보로서 작용한다. 예를 들면, 질량 분광측정 데이타 70은 단계 0 높은 데이타 82 및 단계 0 낮은 데이타 83으로 변환된다. 이어서, 단계 0 낮은 데이타 83은 다음 단계의 변환에 입력정보로서 사용되어 단계 1 높은 데이타 84 및 단계 1 낮은 데이타 85가 생성된다. 유사한 방식으로, 단계 1 낮은 데이타 85를 단계 2 높은 데이타 86 및 단계 2 낮은 데이타 87로 변환되어질 입력정보로서 사용된다. 변환은, 보다 유용한 정보가 추가적 파형 변환에 의해 유도될 수 있을 때 까지, 계속된다. 예를 들면, 바람직한 태양에서, 24-포인트 파형을 사용한다. 보다 특히, Daubechies 24로서 공통적으로 지칭되는 파형을 사용하여 원 데이타를 분해시킨다. 그러나, 다른 파형이 파형 변환을 위해 사용될 수 있다고 생각된다. 파형 변환에서의 각 단계가 이전 단계의 데이타 포인트의 절반을 갖기 때문에, 파형 변환은, 단계 n 낮은 데이타가 약 50 포인트를 가질 때까지, 계속될 수 있다. 따라서, 단계 n 높은 99은 약 100개의 데이타 포인트를 포함할 것이다. 바람직한 파형은 24 포인트의 길이 이기 때문에, 데이타 및 정보가 약 50 포인트 데이타 셋트상에서 파형 변환을 계속하는 방법으로는 거의 유도될 수 없다.
도 28은 단계 0 높은 데이타 95의 예를 보여준다. 단계 0 높은 데이타 95는 일반적으로 질량 분광측정 데이타에서 가장 높은 빈도를 나타내기 때문에, 단계 0 높은 데이타 95는 질량 분광측정 데이타중의 높은 빈도 노이즈의 양과 밀접하게 관련된다. 도 29에서, 지수적 피팅(fitting) 공식을 단계 0 높은 데이타 95에 적용하여, 단계 0 노이즈 프로파일 97을 수득한다. 특히, 지수적 피팅 공식은 A0+ A1EXP (-A2m) 포맷이다. 다른 지수적 피팅 공식 또는 다른 유형의 커브 피팅이 사용될 수 있다고 생각된다.
도 30에 있어서, 다른 높은 단계를 위한 노이즈 프로파일을 측정한다. 각 단계에서 나중의 데이타가 각 단계의 노이즈 수준을 나타낼 가능성이 있기 때문에, 단지 나중의 데이타만을 사용하여, 특정 단계의 노이즈 양을 나타내는 표준 편차수치를 수득한다. 보다 특히, 각 잔여 단계에서 노이즈 프로파일을 수득하기 위하여, 각 단계에서 데이타 포인트의 최종 5%만을 분석하여 표준 편차 수치를 측정한다. 다른 수의 포인트, 또는 또 다른 방법을 사용하여 상기와 같은 표준 편차 수치를 구할 수 있다.
각 단계에 대한 표준 편차 수치를 단계 0 노이즈 프로파일(직수 곡선) 97과 함께 사용하여 각 단계에 대해 스케일링된 노이즈 프로파일을 수득한다. 예를 들면, 도 30은, 단계 1 높은 데이타 98이 단계 1 높은 데이타 103을 가지며, 이는 면적 99에 의해 나타낸 데이타 포인트의 최종 5%를 가짐을 보여준다. 면적 99내의 포인트를 평가하여, 단계 1 높은 데이타 103의 노이즈 함량을 나타내는 표준 편차 수치를 측정한다. 이어서 표준 편차 수치를 단계 0 노이즈 프로파일 97과 함께 사용하여 단계 1 노이즈 프로파일을 수득한다.
유사한 방법으로, 단계 2 높은 100은 단계 2 높은 데이타를 가지며, 이는 면적 101에 의해 나타낸 포인트의 최종 5%를 갖는다. 이어서, 면적 101내의 데이타 포인트를 사용하여 표준 편차 수치를 계산하고, 이어서 이를 사용하여 단계 0 노이즈 프로파일을 스케일링하여 단계 2 데이타에 대한 노이즈 프로파일을 수득한다. 이러한 동일한 과정을 단계 n 높은 105에 의해 제시된 바와 같은 단계 높은 데이타 각각에 대하여 계속한다. 단계 n 높은 105의 경우, 단계 n 높은 데이타 108은 면적 106내에 표시된 데이타 포인트의 최종 5%을 갖는다. 면적 106 내의 데이타 포이트를 사용하여 단계 n에 대한 표준 편차 수치를 측정한다. 이어서, 단계 n 표준 편차 수치를 단계 9 노이즈 프로파일 97과 함께 사용하여 단계 n에 대한 노이즈 프로파일을 수득한다. 따라서, 높은 데이타 단계 각각은 노이즈 프로파일을 갖는다.
도 31은, 노이즈 프로파일이 각 단계에서 데이타에 적용되는 방법을 보여준다. 일반적으로, 노이즈 프로파일을 사용하여, 각 단계의 데이타에 적용되는 한계치를 수득한다. 노이즈 프로파일이 이미 각 단계의 노이즈 함량에 대해 조정하기 위해 스케일링되었기 때문에, 한계치 계산은 추가로 조정하여 제거된 노이즈의 양을 튜닝할 수 있다. 한계치 이하의 파형 계수는 무시하는 반면에, 한계치 이상의 파형 계수는 유지한다. 따라서, 잔여 데이타는 제거된 노이즈의 상당한 부분을 갖는다.
파형 변환의 특징 때문에, 보다 낮은 단계, 예를 들면 단계 0 및 1은 단계 2 또는 단계 n과 같은 나중 단계 보다 많은 노이즈 함량을 가질 것이다. 실제로, 단계 n 낮은 데이타는 전혀 노이즈를 갖지 않을 수 있다. 따라서, 바람직한 태양에서, 노이즈 프로파일을 낮은 단계에서는 보다 적극적으로 적용하고, 나중 단계에서는 보다 덜 적극적으로 적용한다. 예를 들면, 도 31은, 단계 0 노이즈 한계치가 단계 0 노이즈 프로파일을 4배 곱하여 측정함을 보여준다. 이러한 방법에서, 단계 0 높은 데이타 95 내의 데이타 포인트의 상당 수가 한계치 이하 일 것이므로, 제거된다. 단계 1 높은 한계치 112는 단계 1 높은 데이타에 대한 노이즈 프로파일이 2배로 설정되며, 단계 2 높은 한계치 114는 단계 2 높은 데이타에 대한 노이즈 프로파일과 동일하게 설정된다. 이러한 등비 수열 후, 단계 n 높은 한계치 116은 (1/2n-2)에 동일한 배율로 각각의 단계 n에 대한 노이즈 프로파일을 스케일링하여 측정한다. 다른 배율을 적용하여 각 단계에 대한 노이즈 프로파일을 스케일링할 수 있다고 생각된다. 예를 들면, 노이즈 프로파일을 보다 더 또는 덜 적극적으로 스케일링하여 특정 시스템 특징 또는 샘플 조성을 수용할 수 있도록 할 수 있다. 상기한 바와 같이, 단계 n 낮은 데이타 118이 노이즈 함량을 거의 갖지 않거나 전혀 갖지 않기 때문에, 단계 n 낮은 데이타는 적용된 노이즈 프로파일을 갖지 않는다. 스케일링된 노이즈 프로파일을 각 높은 데이타 단계에 적용한 후, 질량 분광측정 데이타 70을 노이즈제거하여 추가 프로세싱을 할 준비를 갖춘다. 노이즈제거된 시그날의 파형 변환은 도 31에 제시된 바와 같은 희박(sparse) 데이타 셋트 120을 초래한다.
도 25에 있어서, 블록 40에서 수용된 질량 분광측정 데이타는 블록 45에서 노이즈제거하고, 기준선 교정을 위해 블록 50에 통과시킨다. 기준선 교정을 수행하기 전에, 파형 변환 방법에 의해 도입된 인공물은 바람직하게는 제거한다. 파형 변환 결과는 출발 포인트로서 어느 파형 포인트가 사용되었는지에 따라 다소 다양하다. 예를 들면, 바람직한 태양은 24 포인트 Daubechies-24 파형을 사용한다. 파형의 0 포인트에서 변환을 시작함으로써, 파형의 포인트 1 또는 2에서 시작하는 경우 보다 다소 상이한 결과가 수득될 것이다. 따라서, 노이즈제거된 데이타를 모든 가능한 출발 포인트를 사용하여 변환시키고, 그 결과의 평균을 구하여 최종적으로 노이즈제거되고 이동된 시그날을 측정한다. 예를 들면, 도 33은, 파형 계수를 24회의 상이한 시기에 적용하고, 그 결과의 평균을 구하여 최종 데이타 셋트를 수득함을 보여준다. 다른 기술을 사용하여 파형 전이로 인해 발생한 사소한 오류를수용할 수 있다고 생각된다.
공식 125는 일반적으로 도 33에서 나타난다. 일단 시그날이 노이즈제거되고 이동된 경우, 노이즈제거되고 이동된 시그날 130은 도 58에 제시된 바와 같이 수득된다. 도 34는, 노이즈제거되고 이동된 시그날 130으로 부터의 파형 계수 135 데이타 셋트의 예를 보여준다.
도 36은, 추정상의 피크 면적 145, 147 및 149가 노이즈제거되고 이동된 시그날 150에 위치함을 보여준다. 추정상의 피크 면적은, 시그날 150을 따라 평균을 이동하고 평균 이동과 관련하여 한계치를 넘는 시그날 150 부분을 동정함으로써. 통계학적으로 동정된다. 다른 방법을 사용하여 시그날 150 내의 추정상의 피크 면적을 동정할 수 있다.
추정상의 피크 면적 145, 147, 및 149를 시그날 150으로 부터 제거하여 도 37에 도시된 바와 같은 피크-부존재 시그날 155을 형성시킬 수 있다. 피크-부존재 시그날 155을 추가로 분석하여 잔여 최소 값 157을 동정하고 잔여 최소 값 157을 연결하여 피크-부존재 시그날 155을 수득한다.
도 38은, 피크-부존재 시그날 155을 사용하여 도 39에 도시된 기준선 170을 수득하는 과정을 보여준다. 블록 164에 도시된 바와 같이, 파형 변환은 피크-부존재 시그날 155에서 수행한다. 파형 변환으로 부터의 모든 단계를, n 낮은 단계를 제외하고, 블록 164에서 제거한다. n 낮은 단계는 일반적으로 피크-부존재 시그날 155의 가장 낮은 빈도 구성요소를 나타내므로, 일반적으로 시스템 지수적 특징을 나타낼 것이다. 블록 166은, 시그날이 n 낮은 계수로 부터 재구성되고 기준선 시그날 170이 블록 168에 형성됨을 보여준다.
도 39는, 교정 기준선 170에 인접하여 위치한, 노이즈제거되고 이동된 데이타 시그날 172를 보여준다. 기준선 교정 170을 노이즈제거되고 이동된 시그날 172로 부터 공제하여, 도 40에 도시된 바와 같이 적용된 기준선 교정을 갖는 시그날 175를 수득한다. 이와 같이 노이즈제거되고, 전이되고, 교정된 시그날이 대부분의 동정 목적에 충분하더라도, 시그날 175내의 추정상의 피크는, 생물학적 샘플의 DNA 조성을 요청하기 위하여, 충분한 정확도 또는 신뢰도로서 동정될 수 없다.
도 25에 있어서, 기준선 50으로 부터의 데이타를 블록 55에서 압축하고, 바람직한 태양에서 사용된 압축 기술은 도 41에 상세히 보여진다. 도 41에서, 기준선 교정된 데이타중의 데이타가, 관련 데이타 값 184를 갖는 x-축 포인트 183를 지닌 배열 포맷 182로 존재한다. x-축을 비-제로 파형 계수로 인덱스화하고, 관련된 값은 파형 계수의 값이다. 테이블 182에서 제시된 데이타 예에서, 최대 값 184는 1000일 것이다. 질량 분광측정 데이타에 특히 이로운 압축 기술이 제시되었지만, 다른 압축 기술도 사용될 수 있다고 생각된다. 바람직하지는 않지만, 데이타는 압축되지 않고 정렬될 수 있다.
바람직한 태양에 따라 데이타의 압축에서, 중간 포맷 186이 형성된다. 중간 포맷 186은 일반적으로 정수 부분 188 및 소수 부분 190을 갖는 실수를 포함한다. 정수 부분은 x-축 포인트 183인 반면, 소수 부분은 최대 값에 의해 나눈 데이타 값 184이다. 예를 들면, 데이타 182에서, 데이타 값 "25"는 x-축 포인트 "100"에서 나타난다. 이러한 데이타 포인트에 대한 중간 값은 "100.025" 일 것이다.
중간 압축된 데이타 186으로 부터 최종 압축된 데이타 195가 수득된다. 중간 데이타 파일의 제1 포인트가 압축된 데이타에 대한 출발 포인트가 된다. 이후, 압축된 데이타 195내의 각 데이타 포인트가 다음과 같이 계산된다: 정수 부분(소수 부분의 좌측)을 현재 및 최종 정수 사이의 차이로 대체한다. 나머지(소수 부분의 우측)는 온전하게 유지된다. 예를 들면, 압축된 데이타 195의 출발 포인트가, "100.025"인 중간 데이타 포인트와 동일한 것으로 밝혀졌다. 제1 중간 데이타 포인트"100.025"와 제2 중간 데이타 포인트"150.220" 간의 비교는 "50.220" 이다. 따라서, "50.220"은 압축된 데이타 195의 제2 포인트가 된다. 유사하게, 제2 중간 포인트는 "155.220"이고, 제3 중간 포인트는 "500.0001"이다. 따라서, 제3 압축된 데이타는 "350.000"이 된다. 압축된 데이타 포인트를 측정하기 위한 계산은, 데이타 포인트의 전체 배열이 실수의 단일 배열로 전환될 때까지, 계속된다.
도 42는 일반적으로 질량 분광측정 데이타의 압축 방법을 기술하고, 이는 블록 201의 데이타 파일이 블록 202 내의 계수의 배열로서 제공된다는 것을 보여준다. 데이타 출발 포인트 및 최대치를 블록 203에 도시된 바와 같이 측정하고, 중간 실수는 상기한 바와 같이 블록 204에서 계산한다. 수득된 중간 데이타 포인트를 사용하여, 압축된 데이타를 블록 205에서 수득한다. 기술된 압축 방법은, 질량 분광측정 장비로 부터 처리된 데이타 셋트와 같은 데이타 셋트를 압축하는데 있어 매우 유리하고 효율적이다. 당해 방법은 특히 질량 분광측정 데이타와 같은 데이타에 유용하고, 이는 다수를 사용하고, x-축 데이타에서 특별한 길이의 갭을 갖도록 처리되었다. 따라서, 처리된 질량 분광측정 데이타에 대한 x-y 데이타 배열은10배 이상의 효과적인 압축비로 정렬될 수 있다. 비록 압축 기술이 질량 분광측정 데이타에 적용되더라도, 당해 방법이 다른 데이타 셋트에 유리하게 적용될 수 있다.
도 25에 있어서, 피크 높이를 불록 60에서 측정한다. 피크 높이를 측정하는 제1 단계는 도 43에 제시되며, 이에 따르면, 시그날 210이 예상 피크의 위치에 상응하게 좌측 또는 우측으로 이동된다. 질량 분광측정 데이타가 수득되기 전에 생물학적 샘플에서 가능한 조성의 셋트가 공지되었기 때문에, 예상 피크의 가능한 위치설정이 이미 공지되었다. 이들 가능한 피크는 예상 피크, 예를 들면 예상 피크 212, 214, 및 216으로 지칭된다. 시험 장비 데이타에서의 교정 또는 기타 오류로 인해, 전체 시그날이 이의 실제 위치로 부터 좌측 또는 우측으로 이동될 수 있으므로, 시그날에 위치하는 추정상의 피크, 예를 들면 추정상의 피크 218, 222, 및 224를 예상 피크 212, 214, 및 216과 각각 비교할 수 있다. 이어서, 전체 시그날을, 추정상의 피크가 예상 피크와 보다 밀접하게 정렬되도록 이동시킨다.
일단 추정상의 피크가 예상 피크에 합치하도록 이동되면, 가장 강한 추정상의 피크는 도 44에서 동정된다. 바람직한 태양에서, 가장 강한 피크는 전체 피크 높이와 피크 아래의 면적을 병행하여 분석하여 계산한다. 예를 들면, 적당히 높지만 넓은 피크는 극히 좁으면서 매우 높은 피크 보다 더 강하다. 동정된 가장 강한 추정상의 피크, 예를 들면 추정상의 피크 225를 사용하여, Gaussian 228 곡선을 피크 225에 핏팅시킨다. 일단 Gaussian이 핏팅되면, Gaussian의 너비(W)를 측정하고, 앞으로의 계산을 위한 피트 너비로서 사용될 것이다.
상기한 바와 같이, 노이즈제거되고, 이동되고, 기준선-교정된 시그날은 생물학적 샘플의 DNA 조성을 확실하게 요청할 만큼 충분히 처리되지 않았다. 예를 들면, 기준선이 일반적으로 제거되는 경우, 여전히 잔여 기준선 효과가 존재한다. 따라서, 이들 잔여 기준선 효과를 제거하여 동정의 정확도 및 신뢰도를 증가시킨다.
잔여 기준선 효과를 제거하기 위하여, 도 45는 추정상의 피크 218, 222, 및 224가 기준선 교정된 시그날로 부터 제거됨을 보여준다. 당해 피크는 추정상의 피크 218, 222 및 224의 중심선 230, 232 및 234를 각각 동정하고, 동정된 기준선의 좌측 및 우측 면적을 제거하는 방법으로 제거된다. 각 추정상의 피크의 경우, Gaussian의 너비(W)의 두 배에 해당하는 면적을 중심선의 좌측으로 부터 제거하는 반면, 50 달톤에 해당하는 면적을 중심선의 우측으로 부터 제거한다. 50 달톤을 나타내는 면적은 실제 피크와 관련이 있는 염 부가물의 효과를 충분히 제거하기에 적당하다. 이러한 부가물은 실제 피크의 우측에 나타나며, 질량 스펙트럼을 획득하는데 관련된 화학의 천연 효과이다. 비록 50 달톤 완충제가 선택되지만, 다른 범위 또는 방법을 사용하여 부가물 효과를 감소시키거나 제거할 수 있다고 생각된다.
피크를 제거하고 잔여 최소치 247는 도 46에 제시된 바와 같이 위치하며, 최소치 247이 연결되어 시그날 245을 형성한다. 4차 다항식을 시그날 245에 적용하여 도 47에 제시된 바와 같은 잔여 기준선 250을 수득한다. 잔여 기준선 250을 시그날 225로 부터 공제하여, 도 48에 제시된 바와 같은 최종 시그날 255를 수득한다. 비록 잔여 기준선이 시그날 245에 대한 4차 핏팅의 결과이지만, 다른 기술을 사용하여 잔여 기준선을 평활하게 하거나 핏팅할 수 있다고 생각된다.
도 49에 도시된 바와 같이 피크 높이를 측정하기 위하여, Gaussian 266, 268 및 270과 같은 Gaussian을 피크 260, 262 및 264와 같은 피크의 각각에 핏팅시킨다. 따라서, Gaussian의 높이는 높이 272, 274 및 276으로서 측정된다. 일단 각 Gaussian 피크의 높이가 측정되면, 생물학적 화합물을 동정하는 방법 35를 도 25에 도시된 바와 같이 유전자형결정 기 65로 이동한다.
각각의 추정상의 피크가 실제 피크라는 신뢰도의 표시는 각각의 추정상의 피크에 대한 시그날-대-노이즈 비를 계산함으로써 식별될 수 있다. 따라서, 일반적으로, 강한 시그날-대-노이즈 비를 갖는 추정상의 피크는, 낮은 시그날-대-노이즈 비를 갖는 피크 보다 실제 피크일 가능성이 높다. 상기되고 도 50에 도시된 바와 같이, 각 피크의 높이, 예를 들면 높이 272, 274 및 276을 각 피크에 대해 측정하고, 이때 당해 높이는 각 피크에 대한 시그날 강도의 지시인자 이다. 노이즈 프로파일, 예를 들면 노이즈 프로파일 97은 동정된 피크에 대한 노이즈 프로파일 280으로 외삽된다. 각 피크의 중심선에서, 노이즈 값, 예를 들면 노이즈 값 282, 283,및 284를 측정한다. 수득된 시그날 값 및 노이즈 값을 사용하여, 시그날-대-노이즈 비를 각 피크에 대해 계산할 수 있다. 예를 들면, 도 50에서 제1 피크에 대한 시그날-대-노이즈 비는 시그날 값 272를 노이즈 값 282로 나눔으로써 계산될 수 있고, 유사하게 도 50에서 중간 피크에 대한 시그날-대-노이즈 비는 시그날 274를 노이즈 값 283으로 나눔으로써 측정될 것이다.
비록 시그날-대-노이즈 비가 일반적으로 실제 피크의 존재의 유용한 지시인자일지라도, 샘플을 동정할 수 있는 신뢰도를 증가시키기 위하여 또 다른 프로세싱이 발견되었다. 예를 들면, 바람직한 태양에서 각 피크에 대한 시그날-대-노이즈 비는 바람직하게는 Gaussian과 각 추정상의 피크 사이의 핏팅의 우수성에 의해 조정된다. 샘플 물질이 일반적으로 정규 분포로 축적되는 방식으로 검출되는 것이 질량 분광측정기의 특징이다. 따라서, 보다 큰 신뢰도는, 보다 덜한 정규 분포를 갖는 시그날 보다도 Gaussian 형을 갖는 추정상의 피크와 관련될 것이다. 비-Gaussian 형을 가짐으로써 발생하는 오류는 "잔여 오류"로서 지칭된다.
도 51에 있어서, 잔여 오류를, 데이타 시그날에서 Gaussian 230과 추정상의 피크 290 사이의 루트 평균 제곱 계산을 이용하여 계산한다. 당해 계산은 Gaussian의 중심선의 한쪽 측의 너비내의 데이타에 대해 수행한다. 잔연 오류는 √[(G-R)2/N] (여기서, G는 Gaussian 시그날 값이고, R은 추정상의 피크 값이고, N은 -W 내지 +W의 포인트의 수이다)로서 계산된다. 계산된 잔여 오류를 사용하여 조정된 시그날-대-노이즈 비를, 아래와 같이 수득한다.
조정된 시그날 노이즈 비를 공식 (S/N)*EXP(-,1*R)(여기서, S/N은 시그날-대-노이즈 비이고, R은 상기와 같이 측정된 잔여 오류이다)을 사용하여 각 추정상의 피크에 대해 계산한다. 비록 바람직한 태양이 각 피크에 대한 잔여 오류를 이용하여 조정된 시그날-대-노이즈 비를 계산하더라도, 다른 기술을 사용하여 Gaussian와 실제 시그날 사이의 핏팅의 우수성을 설명할 수 있다.
도 52에 있어서, 추정상의 피크가 실제 피크일 확률을 측정한다. 피크 확률을 측정함에 있어서, 확률 프로파일 300이 생성되며, 여기서, 조정된 시그날-대-노이즈 비는 x-축이고, 확률은 y-축이다. 확률은 반드시 0% 확률 내지 100% 확률(이는 1로 표시됨)의 범위내에 있다. 일반적으로, 조정된 시그날-대-노이즈 비가 높을수록, 추정상의 피크가 실제 피크일 신뢰도는 증가한다.
조정된 시그날-대-노이즈에 대한 몇몇 표적 값에서, 추정상의 피크가 실제 피크이고 생물학적 샘플의 DNA 조성을 동정하는데 확실히 사용될 수 있는 확률이 100%인 경우가 발견되었다. 그러나, 조정된 시그날-대-노이즈 비의 표적 값(여기서, 확률은 100%일 것으로 추정됨)은 가변성 매개변수이고, 이는 적용 특이적 기준에 따라 설정될 것이다. 예를 들면, 표적 시그날-대-노이즈 비는 시험 경험, 샘플 특징, 및 전체 시스템에서 허용될 수 있는 오류 한도에 따라 조정될 것이다. 보다 구체적으로, 오류가 허용될 수 없는 보수적 방법이 요구되는 상황에서, 표적 조정된 시그날-대-노이즈 비가, 예를 들면 10 이상으로 설정될 것이다. 따라서, 100% 확률은, 조정된 시그날-대-노이즈 비가 10 이상이 아닌 한, 피크에 적용되지 않을 것이다.
다른 상황에서, 샘플 데이타가 보다 명백할 때 보다 적극적인 방법을 취할 수 있거나, 오류 위험이 감소될 것이다. 이러한 상황에서, 시스템은 5 이상의 표적 시그날-대-노이즈 비를 갖는 100% 확률로 설정될 수 있다. 물론, 적당한 오류 위험이 추측될 수 있을 때, 중간 시그날-대-노이즈 비 표적 수치가 예를 들면 7로서 선택될 수 있다. 일단 표적 조정된 시그날-대-노이즈 비가 당해 방법을 위해설정되면, 임의의 조정된 시그날-대-노이즈 비의 경우, 추정상의 피크가 실제 피크일 확률을 측정할 수 있다.
동정 시험, 특히 DNA 증폭에 의해 제조된 샘플의 질량 분광측정 시험을 수행하는데 관련된 화학으로 인해, 가장 높은 피크의 시그날 강도와 제2(또는 제3 등) 가장 높은 피크의 시그날 강도 사이의 대립유전자 비가 예상 비에 해당되어야 한다. 만일 대립유전자 비가 정상적 가이드라인을 벗어나는 경우, 바람직한 태양은 당해 확률에 대립유전자 비 페널티를 부가한다. 예를 들면, 도 53은 대립유전자 페넬티 315를 도시하며, 이는 가장 높은 피크의 시그날 강도로 나눈 제2 가장 높은 피크의 시그날 강도 사이의 비인 x-축 317을 갖는다. y-축 319는 측정된 대립유전자 비에 따라 0과 1사이에서 페널티가 부가된다. 바람직한 태양에서, 30%를 넘는 대립유전자 비는 예상된 범위내에 있으므로, 페널티가 적용되지 않는다고 추측된다. 10%와 30% 사이의 비에서, 페널티가 대립유전자 비가 10% 이하 일 때까지 직선상으로 증가하는 경우, 제2 가장 높은 피크가 실존하지 않는다고 추측된다. 10% 내지 30%의 대립유전자 비의 경우에, 대립유전자 페널티 차트 315를 사용하여 페널티 319를 측정하고, 이를 도 52에서 측정된 피크 확률로 곱하여, 최종 피크 확률을 측정한다. 비록 바람직한 태양이 가능한 화학 오류를 설명하기 위하여 대립유전자 비 페널티를 도입하지만, 다른 기술을 사용할 수 있다고 생각된다. 유사한 처리가 다른 피크에 적용될 것이다.
측정된 각 피크의 피크 확률내에서, 다양한 조성 성분에 대한 통계학적 확률을 측정할 수 있다. 예로서, 두 개의 3개의 가능한 조합(피크 G, 피크 C 및 조합GG, CC 및 GC) 각각의 확률을 측정한다. 도54는 가장 가능성 있는 피크 325가 90%의 최종 피크 가능성을 가질 것으로 측정된 경우의 예를 보여준다. 따라서, G가 생물학적 샘플에 존재할 90% 가능성이 있다. 또한, 도 54에 제시된 예에서, 제2 가장 높은 가능성은 피크 확률이 20%인 피크 330 이다. 피크 330은 C 조성과 관련된 위치에 있다. 따라서, C가 생물학적 샘플에 존재할 20% 확률이 있다는 것이 유지될 수 있다.
G가 존재할 확률(90%) 및 C가 존재할 확률(20%)을 출발 포인트로서 사용하여, G와 C의 조합이 존재할 확률을 계산할 수 있다. 예를 들면, 도 54는 GG가 존재할 확률 329가 72%로서 계산될 수 있음을 보여준다. 이는 GG 확률이 C가 존재하지 않을 확률(100% 내지 20%)를 곱한 G가 존재할 확률(90%)와 동일한 것으로서 계산된다. 따라서, G가 존재할 확률이 90%이고 C가 존재하지 않을 확률이 80%인 경우, GG의 확률은 72%이다.
유사하게, CC가 존재할 확률은 G가 존재하지 않을 확률(100% 내지 90%)를 곱한 C가 존재할 확률(20%)와 동일하다. 도 54에 도시된 바와 같이, C가 존재할 확률은 20%인 반면, G가 존재하지 않을 확률은 10%이므로, CC의 확률은 단지 2%이다. 최종적으로, GC가 존재할 확률이 C가 존재할 확률(20%)을 곱한 G가 존재할 확률(90%)과 동일하다. 따라서, G가 존재할 확률이 90%이고 C가 존재할 확률이 20%인 경우, GC의 확률은 18%이다. 요약하면, 생물학적 샘플의 조성의 확률은 다음과 같다:
GG의 확률: 72%;
GC의 확률: 18%; 및
CC의 확률: 2%.
일단 가능한 조합의 각각의 확률을 측정한 경우, 도 55를 사용하여 신뢰도가 유전자형을 요청하기에 충분한지 여부에 대해 결정한다. 도 55는 요청 차트 335를 도시하고, 이는 가장 높은 조합 확률 대 제2 가장 높은 조합 확률의 비인 x-축 337을 갖는다. y-축 339는 단순히 당해 비가 유전자형의 요청을 동정하기에 충분히 높은지 여부에 대해 나타낸다. 비의 값은 M340에 의해 나타날 수 있다. M의 값은 시험 데이타, 샘플 특징, 및 오류를 허용할 수 있는 능력에 따라 설정된다. 신뢰도가 유전자형 요청하는데 확립되기 전에, 가장 높은 확률이 제2 가장 높은 확률 보다 4배 이상이 되도록, 예를 들면, M 값을 비교적 높게, 예를 들면 4 값으로 설정하여 한다. 그러나, 오류의 일정 수준이 허용되는 경우, 가장 높은 확률과 제2 가장 높은 확률 사이의 비가 단지 3 이상일 필요가 있도록, M 값을 보다 적극적인 값, 예를 들면 3으로 설정할 수 있다. 물론, 적당한 위험이 허용될 수 있는 경우 M에 대한 적당한 값이 선택될 수 있다. GG의 확률이 72%이고, GC의 확률이 18%인 경우, 도 54의 샘플을 사용하여, 72%와 18%사이의 비는 4이므로, M이 3, 3.5 또는 4인 경우에 당해 시스템은 GG와 같은 유전자형을 요청할 것이다. 비록 바람직한 태양이 유전자형이 확실히 요청될 수 있는 지를 결정하기 위하여 제2 가장 높은 피크 확률 사이의 비를 사용하더라도, 다른 방법으로 대체될 수 있다고 생각된다. 또한, 상기 방법을 사용하여 확률을 계산하고, 2개 이상의 피크의 조합을 포함하는 유전자형(또는 일반적 DNA 패턴)을 선택할 수 있다고 생각된다.
도 56에 있어서, 플로우 차트는 상기한 유전자형을 통계학적으로 요청하는 과정을 일반적으로 정의함을 도시한다. 도 56에서, 블록 402는, 각 피크의 높이가 측정됨을 보여주고 블록 404에서 노이즈 프로파일이 각 피크에 대하여 외삽됨을 보여준다. 당해 시그날을 블록 406의 각 피크의 높이로 부터 측정하고, 각 피크에 대한 노이즈를 블록 408의 노이즈 프로파일을 사용하여 측정한다. 블록 410에서, 시그날-대-노이즈 비를 각 피크에 대해 계산한다. 비-Gaussian 피크 형을 설명하기 위하여, 잔여 오류를 블록 412에서 측정하고, 조정된 시그날-대-노이즈 비를 블록 414에서 계산한다. 블록 416은, 블록 418에서 발견된 각 피크가 존재할 확률을 이용하여, 확률 프로파일을 전개함을 보여준다. 대립유전자 페넬티가 블록 420에서 적용될 수 있으며, 당해 대립유전자 페넬티는 블록 422에서 조정된 피크 확률에 적용된다. 구성요소의 각 조합의 확률을 블록 424에서 계산하고, 2개의 가장 높은 확률사이의 비를 블록 426에서 측정한다. 확률의 비가 한계치를 넘는 경우, 유전자형이 블록 428에서 요청된다.
본 발명의 또 다른 태양에서, 컴퓨터 장치 20(도 24)는, 추정상의 SNP를 포함하는 데이타 피크를 동정함에 의한 "표준없는" 유전자형결정을 지지한다. 예상된 피크 위치의 분포를 측정(이의 위치에 대해 상기된 대립유전자 페넬티가 용이하게 계산될 수 있다)하기 위한 샘플에 관하여 불충분한 정보가 공지된 경우, 표준없는 유전자형결정을 사용한다. 이는, 표적 DNA 분자를 단편화하는 임의의 분석에 의해 수득된 데이타로 부터 추정상의 SNP를 포함하는 피크의 동정에 상기 컴퓨터 장치가 사용될 수 있도록 한다. 이러한 표준없는 유전자형 결정에 있어서, 데이타 스펙트럼에서 다른 피크의 전형적인 면적으로 부터 유의적으로 이탈하는 데이타 곡선 아래의 면적과 서로 관련된 피크를 동정하고 이들의 상응하는 질량(x-축에서의 위치)을 측정한다.
보다 특히, 데이타 내의 다른 피크의 평균 면적으로 부터 유의적으로 이탈하는 피크를 동정하고, 데이타 피크 간의 예상 대립유전자 비를 데이타 피크 아래의 면저의 비의 관점에서 정의한다. 이론적으로, 각 유전자좌가 분석물의 동일한 몰 농도를 갖는 경우, 각 상응하는 피크 아래의 면적은 동일해야 하며, 따라서 임의의 두 개의 피크 사이의 피크 면적의 비 1.0이 생성된다. 본 발명에 따르면, 데이타 내 다른 피크에 비해 작은 비를 갖는 피크는 피크로서 인지되지 않을 것이다. 보다 특히, 피크 면적에 비해 30% 작은 면적 비를 갖는 피크에는 대립유전자 페넬티가 부가될 것이다. 잔여 피크의 질량(데이타의 x-축에서의 이들의 위치)를 올리고뉴클레오티드 표준에 따라 측정할 것이다.
도 57은, 표준없는 유전자형결정을 수행하는 경우에, 컴퓨터 장치 20(도 24)에 의한 프로세싱의 플로우 차트를 보여준다. 플로우 차트 박스 502에 나타낸 제1 작업에서, 컴퓨터 장치는 질량 분광측정기로 부터 데이타를 수용한다. 다음, 블록 504에 나타낸 바와 같이, 데이타 샘플의 각 추정상의 피크의 높이를 측정한다. 질량 분광측정 데이타중 각 피크의 높이를 측정한 후, 노이즈제거 과정 505를 수행하여, 노이즈 프로파일의 외삽을 시작(블록 508)한 후, 각 피크의 노이즈를 찾아내고(블록 508) 각 데이타 샘플에 대한 시그날 대 노이즈 비를 계산한다. 이들 각각의 작업을 도 25의 노이즈제거 작업에 대해 상기된 바에 따라 수행할 수 있다. 다른 적합한 노이즈제거 작업은 당업자에게 명백할 것이다.
다음 작업은 각 데이타 포인트에 관련된 잔여 오류를 찾아내는 것이다. 이는 도 57에서 블록 512로 나타내었다. 다음 작업, 블록 514는 각 동정된 피크에 대한 조정된 시그날 대 노이즈 비의 계산 단계를 포함한다. 다음 확률 프로파일을 전개하고(블록 516), 이어서 블록 518에서 피크 확률을 측정한다. 바람직한 태양에서, 블록 502 내지 블록 518을 포함하는 도 57의 노이즈제거 작업은, 각각 블록 402 내지 블록 418에 대한 도 56과 함께 상기된 상응하는 작업을 포함한다.
표준없는 유전자형 프로세싱을 위한 다음 작업은, 블록 524에 나타낸 바와 같이, 각 피크에 대한 대립유전자 페넬티를 측정하는 것이다. 상기한 바와 같이, 도 57의 표준없는 유전자형 프로세싱은 피크 아래 면적의 비교에 의한 대립유전자 페넬티를 포함한다. 따라서, 도 53에 대해 기술된 바와 같이, 대립유전자 페넬티를 측정하기 위하여 시그날 강도 비를 비교하기 보다는, 표준없는 프로세싱은 동정된 각 피크 아래의 면적을 측정하고 이들 면적의 비를 비교한다. 각 피크 아래 면적의 측정은, 실험적 데이타에 대한 곡선 아래의 면적을 계산하기 위한 종래의 수치 분석 기술을 사용하여 컴퓨터처리할 수 있다.
따라서, 대립유전자 페넬티를 도 58에 따라 부가하며, 이때 도 58은, 0.30(30%) 보다 큰 예상 평균 면적 값에 상대적인 피크 면적을 갖는 피크에는 페널티가 부가되지 않음을 보여준다. 대립유전자 페넬티를 피크 확률 값에 적용하고, 이를 도 52에 기술된 바와 같은 과정에 따라 측정할 수 있다. 30%의 비 이하의 피크에 대해 부과된 대립유전자 페넬티는 이러한 피크가 추가 측정 및 프로세싱으로부터 제거될 것이라는 것이 도 58로 부터 명백해진다. 그러나, 다른 페넬티 방법이, 당업자에게 측정되는 바와 같이, 처리된 데이타에 관한 지식에 따라 부과될 수 있다.
대립유전자 페넬티를 측정하고 적용한 후, 표준없는 유전자형 프로세싱은 올리고뉴클레오티드 표준에 대한 잔여 추정상의 피크의 위치를 비교하여, 블록 524를 위한 프로세싱에서 상응하는 질량을 측정한다. 표준없는 유전자형 데이타의 경우에, 도 33의 블록 424, 426 및 428에 상응하는 작업을 수행하기 보다는, 블록 524의 프로세싱을 수행하여 질량 및 유전자형을 측정한다. 이러한 비교 및 질량 측정을 수행하기 위한 기술은 당업자에게 공지되어 있다.
또 다른 태양에서, 컴퓨터 장치 20(도 24)은 당해 분석에서 수득된 단편의 센스 및 안티센스 쇄의 질량(데이타의 x-축에서의 위치)의 검출 및 측정을 가능케한다. 경우에 따라, 컴퓨터 장치는, 표준없는 유전자형 프로세싱에 대해 기술된 유사한 기술을 사용하여, 각각의 센스 및 안티센스 쇄의 양(각 피크 아래의 면적)을 검출하고 측정할 수 있다. 이어서, 각 유형의 쇄에 대해 수득된 데이타를 조합하여 데이타 여분을 수득하고, 이에 의해 측정된 유전자형의 신뢰 수준을 증가시킬 수 있다. 이러한 기술은, 다른 진단 방법으로 부터의 데이타에서 종종 관찰된 프라이머 피크를 제거하고, 이로써 고 수준의 복잡화가 가능해진다. 또한, 정량화가 실험물을 수집하는데 사용되는 경우, 측정된 피크 면적의 비는, 데이타 여분 때문에, 피크 동정 기술 보다도 더욱 용이하게 계산될 수 있다.
도 23은 센스 및 안티센스 프로세싱을 수행하기 위하여 컴퓨터 장치에 의해수행된 프로세싱을 보여주는 플로우 다이아그램이다. 플로우 다이아그램 602에 나타낸 제1 작업에서, 컴퓨터 장치는 질량 분광측정기로 부터 데이타를 수용한다. 이러한 데이타는 분석 단편의 센스 쇄와 안티센스 쇄에 대한 데이타를 포함할 것이다. 다음, 블록 604에 나타난 바와 같이, 데이타 샘플중 각각의 추정상의 피크의 높이를 측정한다. 질량 분광측정 데이타중의 각각의 피크의 높이를 측정한 후, 노이즈제거 과정 605를 수행하여, 노이즈 프로파일의 외삽하는 작업을 시작하고(블록 606), 이어서, 각 피크의 노이즈를 찾아내고(블록 608) 각 데이타 샘플에 대한 시그날 대 노이즈 비를 계산한다(블록 610). 이들 각각의 작업을 도 25의 노이즈제거 작업 45에 대해 상기된 바에 따라 수행할 수 있다. 다른 적합한 노이즈제거 작업은 당업자에게 명백할 것이다. 다음 작업은 각 데이타 포인트에 관련된 잔여 오류를 찾아내는 것이다. 이는 도 36에서 블록 612로 나타내었다.
센스 쇄와 안티센스 쇄의 데이타에 대한 잔여 오류를 수행한 후, 유전자형을 동정하기 위한 프로세싱을 센스 쇄 및 안티센스 쇄에 대해 수행한다. 따라서, 도 23은, 당해 프로세싱이 센스 쇄 프로세싱(블록 630) 및 안티센스 쇄 프로세싱(블록 640)을 포함함을 보여준다. 각각의 블록 630, 640은, 도 56의 블록 414 내지 426와 함께 기술된 바와 같이, 시그날 대 노이즈 비를 조정하고, 확률 프로파일을 전개하고, 대립유전자 페넬티를 측정하고, 대립유전자 페넬티에 의해 피크 확률을 조정하고, 유전자형 확률을 계산하고, 유전자형 확률 비를 시험하는 단계에 상응하는 프로세싱을 포함한다. 각각의 블록 630, 640의 프로세싱은, 경우에 따라, 도 57과 함께 기술된 바와 같이, 표준없는 프로세싱 작업을 포함한다. 표준없는 프로세싱은 도 56의 프로세싱 작업용 대신에 또는 이와 함께 포함될 수 있다.
유전자형 확률 프로세싱을 완료한 후, 센스 쇄와 안티센스 쇄 프로세싱으로 부터의 데이타를 조합하고 예상 데이타베이스 값과 비교하여, 센스 쇄와 안티센스 쇄 사이와 같은 데이타 여분의 이점을 수득한다. 당업자는 분석 단편의 센스 쇄와 안티센스 쇄 사이의 공지된 데이타 여분의 이점을 이용하는 기술을 이해할 것이다. 이러한 프로세싱은 블록 650에 나타나 있다. 두개의 쇄로 부터의 데이타를 프로세싱을 위해 조합한 후, 유전자형 프로세싱을 수행하고(블록 660), 유전자형을 동정한다.
변형이 당업자에게 명백하기 때문에, 본 발명은 첨부된 청구범위의 범위에 의해서만 제한되는 것으로 이해된다.

Claims (100)

  1. 혈액, 조직, 체액, 세포, 종자, 미생물, 병원체 및 생식 조직 샘플로 이루어진 그룹중에서 선택되는 다수의 샘플, 및 당해 샘플을 함유하는 용기상에 표시된, 각 샘플의 공급원 및/또는 전력을 나타내는 기호를 포함하고, 건강한 집단으로 부터의 샘플을 포함하는 수집물을 특정 매개변수에 따라 정렬시킴으로써 수득되는, 임의의 질환 상태에 대해 선택되지 않은 건강한 집단인 표적 집단으로 부터 유래되는 샘플의 하위수집물(subcollection).
  2. 제1항에 있어서, 매개변수가 종족, 연령, 성별, 신장, 체중, 알코올 섭취량, 임신 회수, 정상 출산의 회수, 채식자, 신체적 활동의 유형, 거주 상태 및/또는 특정 상태에서의 거주 기간, 교육 수준, 부모가 사망한 연령, 부모 사망 원인, 과거 또는 현재의 흡연자, 흡연자로서의 기간, 흡연 빈도, 직계 가족(부모, 형제 자매, 자식)중의 질환 발생, 처방약의 사용 및/또는 이의 이유, 입원 기간 및/또는 회수, 및 환경 인자에 대한 노출로 이루어진 그룹중에서 선택되는 하위수집물.
  3. 제1항에 있어서, 기호가 바코드인 하위수집물.
  4. 집단의 건강한 구성원을 동정하고;
    동정 정보 및 전력 정보를 포함하는, 집단의 동정된 구성원 및 이들의 직계가족에 관한 데이타를 수득하고;
    당해 데이타를 집단의 각 구성원에 대한 데이타베이스에 입력하여, 구성원 및 데이타를 인덱서와 연관시키는 단계를 포함하는, 데이타베이스의 제조 방법.
  5. 제4항에 있어서,
    체조직 또는 체액 샘플을 수득하고;
    샘플중의 체조직 또는 체액을 분석하고;
    각 구성원에 대한 분석 결과를 데이타베이스에 입력하여, 각 결과를 각 구성원을 나타내는 인덱서와 연관시키는 단계를 추가로 포함하는 방법.
  6. 제4항의 방법에 의해 제조된 데이타베이스.
  7. 제5항의 방법에 의해 제조된 데이타베이스.
  8. 생물학적 샘플을 수득한 다수의 건강한 생물체를 나타내는 데이타포인트(이때, 각각의 데이타포인트는 생물체 유형 및 기타 동정 정보를 나타내는 데이타와 관련이 있다)를 포함하는 데이타베이스.
  9. 제8항에 있어서, 데이타포인트가, 종족, 연령, 성별, 신장, 체중, 알코올 섭취량, 임신 회수, 정상 출산의 회수, 채식자, 신체적 활동의 유형, 거주 상태 및/또는 특정 상태에서의 거주 기간, 교육 수준, 부모가 사망한 연령, 부모 사망 원인, 과거 또는 현재의 흡연자, 흡연자로서의 기간, 흡연 빈도, 직계 가족(부모, 형제 자매, 자식)중의 질환 발생, 처방약의 사용 및/또는 이의 이유, 입원 기간 및/또는 회수, 및 환경 인자에 대한 노출로 이루어진 그룹중에서 선택되는 하나 이상의 매개변수에 관한 질문에 대한 대답인 데이타베이스.
  10. 제9항에 있어서, 생물체가 포유동물이고, 샘플이 체액 또는 조직인 데이타베이스.
  11. 제9항에 있어서, 샘플이 혈액, 혈액 분획물, 세포 및 아세포 소기관의 그룹중에서 선택되는 데이타베이스.
  12. 제8항에 있어서, 생물체로 부터의 표현형 데이타를 추가로 포함하는 데이타베이스.
  13. 제12항에 있어서, 데이타가 신체적 특징, 배경 데이타, 의학적 데이타 및 전력 데이타중 하나를 포함하는 데이타베이스.
  14. 제8항에 있어서, 생물체로 부터 수득된 핵산으로 부터의 유전자형 데이타를 추가로 포함하는 데이타베이스.
  15. 제14항에 있어서, 유전자형 데이타가 유전 마커, 비-암호화 영역, 미세위성, RFLP, VNTR, 생물체의 전력 데이타, 의학적 전력, 및 표현형 정보를 포함하는 데이타베이스.
  16. 제8항에 있어서, 상관적 데이타베이스인 데이타베이스.
  17. 제16항에 있어서, 데이타가, 데이타를 수득한 각 생물체를 나타내는 인덱서 데이타포인트에 관련되는 데이타베이스.
  18. 다형성을 동정하고, 다형성의 유전자좌에 링크된 임의의 경로 또는 유전자를 동정하는 단계(이때, 다형성은 건강한 피험자를 포함하는 표적 집단과 관련이 있는 샘플에서 동정된다)를 포함하여, 후보 유전 마커인 다형성을 동정하는 방법.
  19. 제18항에 있어서,
    a) 제1 올리고뉴클레오티드를 표적 핵산에 하이브리드화시키는 단계;
    b) 제2 올리고뉴클레오티드를 표적 핵산의 인접 영역에 하이브리드화시키는 단계;
    c) 하이브리드화된 올리고뉴클레오티드를 결합시키는 단계; 및
    d) 질량 분광측정에 의해 하이브리드화된 제1 올리고뉴클레오티드를 표적 핵산의 존재의 표시로서 검출하는 단계를 포함하는 방법에 의해 샘플에서 표적 핵산의 존재를 검출함으로써 다형성이 동정되는 것인 방법.
  20. 제18항에 있어서,
    a) 제1 올리고뉴클레오티드를 표적 핵산에 하이브리드화시키고, 제2 올리고뉴클레오티드를 표적 핵산의 인접한 영역에 하이브리드화시키는 단계;
    b) 하이브리드화된 제1 및 제2 올리고뉴클레오티드를 절단 효소와 접촉시켜 절단 생성물을 수득하는 단계; 및
    c) 질량 분광측정에 의해 절단 생성물을 표적 핵산의 존재의 표시로서 검출하는 단계를 포함하는 방법에 의해 샘플에서 표적 핵산을 검출함으로써 다형성이 동정되는 것인 방법.
  21. 제20항에 있어서, 샘플이 건강한 데이타베이스내 피험자로 부터 유래되는 방법.
  22. 제18항에 있어서, 프라이머 올리고 염기 연장(프로브)에 의해 샘플에서 표적 핵산을 동정함으로써 다형성이 동정되는 것인 방법.
  23. 제22항에 있어서, 프라이머 올리고 염기 연장이,
    a) 표적 뉴클레오티드를 포함하는 핵산 분자를 수득하는 단계;
    b) 임의로, 핵산 분자를 고형 지지체상에 고정시켜, 고정화된 핵산 분자를 제조하는 단계;
    c) 핵산 분자를, 표적 뉴클레오티드에 인접한 부위에서 당해 핵산 분자에 상보적인 프라이머 올리고뉴클레오티드와 하이브리드화시키는 단계;
    d) 단계 c)의 생성물을, 디데옥시뉴클레오시드 트리포스페이트 또는 3'-데옥시뉴클레오시드 트리포스페이트 및 중합효소를 포함하는 조성물과 접촉시켜, 표적 뉴클레오티드에 상보적인 디데옥시뉴클레오시드 또는 3'-데옥시뉴클레오시드 트리포스페이트만이 프라이머상에서 연장되도록 하는 단계; 및
    e) 연장된 프라이머를 검출하여, 표적 뉴클레오티드를 동정하는 단계를 포함하는 방법.
  24. 제23항에 있어서, 연장된 프라이머의 검출이, 단계 d)의 생성물을 이온화시키고 휘발시키는 단계; 및
    연장된 프라이머를 질량 분광측정에 의해 검출하여 표적 뉴클레오티드를 동정하는 단계를 포함하여 질량 분광측정에 의해 수행되는 방법.
  25. 제24항에 있어서, 샘플을 칩상의 배열로서 질량 분광측정기에 제공하고;
    각 샘플이, 매트릭스-지원된 레이저 탈착/이온화 (MALDI) 분광측정에 사용된 질량 분광측정기의 레이저에 의해 발사된 레이저 반점의 크기와 대략 동일한 용적을 차지하는 것을 특징으로 하는 방법.
  26. 샘플을 수득한 건강한 피험자를 나타내는 데이타포인트와 관련이 있는 매개변수를 포함하는 데이타베이스; 및
    인덱스가 샘플을 수득한 피험자를 동정하는, 샘플의 인덱스화된 수집물을 포함하는 조합물.
  27. 제26항에 있어서, 매개변수가 종족, 연령, 성별, 신장, 체중, 알코올 섭취량, 임신 회수, 정상 출산의 회수, 채식자, 신체적 활동의 유형, 거주 상태 및/또는 특정 상태에서의 거주 기간, 교육 수준, 부모가 사망한 연령, 부모 사망 원인, 과거 또는 현재의 흡연자, 흡연자로서의 기간, 흡연 빈도, 직계 가족(부모, 형제 자매, 자식)중의 질환의 발생, 처방약의 용도 및/또는 이의 이유, 입원 기간 및/또는 회수, 및 환경 인자에 대한 노출로 이루어진 그룹중에서 선택되는 조합물.
  28. 제26항에 있어서, 데이타베이스가 각 피험자에 대한 유전자형 데이타를 추가로 포함하는 조합물.
  29. 제26항에 있어서, 샘플이 혈액인 조합물.
  30. 제8항의 데이타베이스를 포함하는 데이타 저장 매체.
  31. 제8항의 데이타베이스를 포함하는 컴퓨터 시스템.
  32. 반응 용기내에 함유된 생물학적 샘플에 대한 절차를 각각 수행하는, 다수의 프로세싱 스테이션을 포함하는 공정 라인;
    반응 용기를 프로세싱 스테이션으로 부터 프로세싱 스테이션으로 수송하는 자동기계 시스템;
    공정 라인의 시험 결과를 수용하고 시험 결과를 자동적으로 처리하여 반응 용기내의 생물학적 샘플에 관하여 측정하는 데이타 분석 시스템;
    각 프로세싱 스테이션에서의 시험이 완료된 때를 판정하고, 이에 따라, 반응 용기를 다음 시험 스테이션으로 이동시키고, 제어 시스템이 종료 지시를 받을 때까지 연속적으로 하나씩 반응 용기를 처리하는 제어 시스템; 및
    제8항의 데이타베이스를 포함하고,
    자동화된 공정 라인에 의해 시험된 샘플이 데이타베이스내 피험자로 부터의 샘플을 포함하는, 생물학적 샘플의 고 처리량 프로세싱을 위한 시스템.
  33. 제32항에 있어서, 프로세싱 스테이션중의 하나가 질량 분광측정기를 포함하는 시스템.
  34. 제32항에 있어서, 생물학적 샘플에 대한 시험 데이타가 하나 이상의 시그날을 포함하여 데이타 분석 시스템이 각 시그날 곡선 아래 면적을 측정하고 이의 결과를 정규화하여 시험된 샘플중 성분의 상대량을 나타내는 실질적으로 정량적인 결과를 수득하도록 함으로써, 데이타 분석 시스템이 질량 분광측정기로 부터의 시험 데이타를 수용하여 시험 결과를 처리하는 시스템.
  35. 반응 용기내에 함유된 하나 이상의 생물학적 샘플에 대한 절차를 각각 수행하는, 다수의 프로세싱 스테이션을 갖는 공정 라인을 포함하는 제32항의 시스템을 따라 반응 용기를 수송하고;
    각 프로세싱 스테이션에서의 시험 절차가 완료된 때를 판정하고, 이에 따라, 반응 용기를 다음 프로세싱 스테이션으로 이동시키고;
    공정 라인의 시험 결과를 수용하고 시험 결과를 자동적으로 처리하여 반응 용기내의 생물학적 샘플에 관하여 데이타 분석 측정을 수행하고;
    종료 지시를 받을 때까지 연속적으로 하나씩 반응 용기를 처리하는 단계를 포함하고,
    자동화된 공정 라인에 의해 시험된 샘플이 데이타베이스내 피험자로 부터의 샘플을 포함하는, 생물학적 샘플의 고 처리량 프로세싱 방법.
  36. 제35항에 있어서, 프로세싱 스테이션중 하나가 질량 분광측정기를 포함하는 방법.
  37. 제36항에 있어서, 샘플을 프라이머 올리고 염기 연장(프로브)를 포함하는 방법에 의해 분석하는 방법.
  38. 제37항에 있어서, 생물학적 샘플에 대한 시험 데이타가 하나 이상의 시그날 또는 시그날을 나타내는 수치를 포함하여 데이타 분석 시스템이 각 시그날 곡선 아래의 면적을 측정하고 이의 결과를 정규화하여 시험된 샘플중 성분의 상대량을 나타내는 실질적으로 정량적인 결과를 수득하도록 함으로써, 질량 분광측정기로 부터의 시험 데이타를 수용하여 시험 결과를 처리하는 단계를 추가로 포함하는 방법.
  39. 제37항에 있어서, 프라이머 올리고 염기 연장이,
    a) 표적 뉴클레오티드를 포함하는 핵산 분자를 수득하는 단계;
    b) 임의로, 핵산 분자를 고형 지지체상에 고정시켜, 고정화된 핵산 분자를 제조하는 단계;
    c) 핵산 분자를, 표적 뉴클레오티드에 인접한 부위에서 당해 핵산 분자에 상보적인 프라이머 올리고뉴클레오티드와 하이브리드화시키는 단계;
    d) 단계 c)의 생성물을, 디데옥시뉴클레오시드 트리포스페이트 또는 3'-데옥시뉴클레오시드 트리포스페이트 및 중합효소를 포함하는 조성물과 접촉시켜, 표적 뉴클레오티드에 상보적인 디데옥시뉴클레오시드 또는 3'-데옥시뉴클레오시드 트리포스페이트만이 프라이머상에서 연장되도록 하는 단계; 및
    e) 프라이머를 검출하여, 표적 뉴클레오티드를 동정하는 단계를 포함하는 방법.
  40. 제39항에 있어서, 연장된 프라이머의 검출이, 단계 d)의 생성물을 이온화시키고 휘발시키는 단계; 및
    연장된 프라이머를 질량 분광측정에 의해 검출하여 표적 뉴클레오티드를 동정하는 단계를 포함하여 질량 분광측정에 의해 수행되는 것인 방법.
  41. 제36항에 있어서,
    a) 제1 올리고뉴클레오티드를 표적 핵산에 하이브리드화시키는 단계;
    b) 제2 올리고뉴클레오티드를 표적 핵산의 인접 영역에 하이브리드화시키는 단계;
    c) 하이브리드화된 올리고뉴클레오티드를 결합시키는 단계; 및
    d) 질량 분광측정에 의해 하이브리드화된 제1 올리고뉴클레오티드를 표적 핵산의 존재의 표시로서 검출하는 단계를 포함하는 방법에 의해 샘플중의 표적 핵산이 검출되고/되거나 동정되는 것인 방법.
  42. 제36항에 있어서,
    a) 제1 올리고뉴클레오티드를 표적 핵산에 하이브리드화시키고, 제2 올리고뉴클레오티드를 표적 핵산의 인접한 영역에 하이브리드화시키는 단계;
    b) 하이브리드화된 제1 및 제2 올리고뉴클레오티드를 절단 효소와 접촉시켜 절단 생성물을 수득하는 단계; 및
    c) 질량 분광측정에 의해 절단 생성물을 표적 핵산의 존재의 표시로서 검출하는 단계를 포함하는 방법에 의해 샘플중의 표적 핵산이 검출되고/되거나 동정되는 것인 방법.
  43. 집단의 건강한 구성원을 동정하고;
    동정 정보 및 전력 정보, 및 집단의 동정된 구성원에 관한 데이타를 수득하고;
    구성원-관련 데이타를 집단의 동정된 각 구성원에 대한 컴퓨터 메모리 데이타베이스에 입력하여, 구성원 및 데이타를 인덱서와 연관시키는 단계를 포함하여, 컴퓨터 메모리에 저장된 데이타베이스를 제조하는 방법.
  44. 제43항에 있어서,
    동정된 구성원의 체조직 또는 체액 샘플을 수득하고;
    샘플중의 체조직 또는 체액을 분석하고;
    각 구성원에 대한 분석 결과를 컴퓨터 메모리 데이타베이스에 입력하여, 각 결과를 각 구성원을 나타내는 인덱서와 연관시키는 단계를 추가로 포함하는 방법.
  45. 제43항의 방법에 의해 제조된 데이타베이스.
  46. 제44항의 방법에 의해 제조된 데이타베이스.
  47. 제8항에 있어서, 생물체가 동물, 세균, 진균, 원생동물 및 기생충의 그룹중에서 선택되고,
    각각의 데이타포인트가 생물체 유형 및 동정 정보를 나타내는 매개변수와 관련이 있는 데이타베이스.
  48. 제43항에 있어서, 각 피험자에 관한 표현형 데이타를 추가로 포함하는 데이타베이스.
  49. 제47항에 있어서, 상관성 데이타베이스이고, 매개변수가 앙케이트에서 질문에 대한 대답인 데이타베이스.
  50. 제8항에 있어서, 유전자형 데이타가 유전 마커, 비-암호화 영역, 미세위성, 제한 단편 길이 다형성(RFLP), 변수 탬덤 반복체(VNTR), 생물체의 전력 데이타, 피험자의 의학적 전력, 표현형 정보 및 기타 정보를 포함하지만 이에 한정되지 않는, 피험자의 핵산의 유전자형 데이타를 추가로 포함하는 데이타베이스.
  51. 집단의 건강한 구성원을 동정하는 정보를 포함하고, 또한 동정 정보와 전력 정보, 및 동정된 구성원에 관한 데이타를 포함하는, 컴퓨터 메모리에 저장된 데이타 기록을 포함하는 데이타베이스.
  52. 제51항에 있어서, 집단의 각 구성원과 동정 정보 및 전력 정보 및 데이타를 연관시키는 동정된 각 구성원에 대한 인덱스 값을 추가로 포함하는 데이타베이스.
  53. 제51항의 데이타베이스를 포함하는 컴퓨터 시스템.
  54. 제51항의 데이타베이스를 포함하는 자동화 공정 라인.
  55. 다형성을 동정하고;
    건강한 집단에서 연령의 증가, 종족 또는 성별에 따른 다형성의 빈도를 측정하는 단계를 포함하여, 연령, 종족 또는 성별과 상관관계가 있는 다형성을 측정하는 방법.
  56. 다형성을 동정하고;
    건강한 집단에서 연령의 증가에 따른 다형성의 빈도를 측정하는 단계를 포함하여, 다형성이 이환율에 대한 감수성, 조기 사망율, 또는 이환율과 조기 사망율과 상관관계가 있는 지를 판정하는 방법.
  57. 평가하고자 하는 건강한 표적 집단 및 유전자 변이를 선택하고;
    당해 집단의 구성원으로 부터 수득한 다수의 생체중합체 샘플을 수집하고;
    변이를 포함하는 생체중합체를 질량 분광측정에 의해 측정하거나 검출하고;
    질량 스펙트럼 또는 이의 디지탈 표시를 수득하고;
    집단내 변이의 빈도를 측정하는 단계를 포함하여, 유전자 변이의 빈도를 측정하는 고처리량 방법.
  58. 제57항에 있어서, 변이가 대립유전자 변이, 해독후 변형, 핵산 변형, 라벨, 핵산의 질량 변화, 및 메틸화로 이루어진 그룹중에서 선택되고/되거나;
    생체중합체가 핵산, 단백질, 다당류, 지질, 작은 유기 대사산물 또는 중간체이고, 당해 생체중합체의 농도가 각 샘플에서 동일하고/하거나;
    당해 빈도를, 게놈 변이를 포함하는 생체중합체의 질량에 상응하는 질량 스펙트럼 또는 이의 디지탈 표시의 피크 아래의 면적을 측정함을 포함하는 방법에 의해 평가하여 측정하는 방법.
  59. 제58항에 있어서, 빈도 측정 방법을, 전체 질량 스펙트럼의 전체 면적에 대한 시그날 또는 이의 디지탈 표시의 비(백그라운드에 대해 교정됨)를 측정하여 수행하는 방법.
  60. 선택된 매개변수와 합치하는 샘플을 동정하기 위하여, 선택된 매개변수에 따라 제8항의 데이타베이스를 정렬시키고;
    각 동정된 샘플로 부터 생체중합체를 분리하고;
    임의로, 각 분리된 생체중합체를 수집하고;
    임의로, 생체중합체의 양을 증폭시키고;
    수집된 생체중합체를 절단하여 이의 단편을 수득하고;
    수득된 단편의 질량 스펙트럼을 수득하고, 당해 질량 스펙트럼을 스펙트럼간의 차이를 동정하기 위한 대조군 질량 스펙트럼(이때, 대조군 질량 스펙트럼은 상이한 매개변수에 따라 정렬된 수집물 또는 샘플중의 정렬되지 않은 샘플로 부터 수득된다)과 비교하여, 존재하는 다형성을 동정하는 단계를 포함하여, 집단내 다형성을 발견하기 위한 방법.
  61. 제60항에 있어서, 생체중합체를 효소와 접촉시켜, 절단을 수행하는 방법.
  62. 제61항에 있어서, 효소가 뉴클레오티드 글리코실라제, 닉카제 및 IIS형 제한효소로 이루어진 그룹중에서 선택되는 방법.
  63. 제60항에 있어서, 생체중합체가 핵산 또는 단백질인 방법.
  64. 제60항에 있어서, 질량 분광측정 포맷이 매트릭스-지원된 레이저 탈착/이온화, 비행 시간(Time-of-flight)(MALDI-TOF), 전기분무(ES), IR-MALDI, 이온 사이클로트론 공명(ICR), 푸리어(Fourier) 변환 및 이의 조합중에서 선택되는 방법.
  65. 다수의 생물체로 부터 체조직 또는 체액 샘플을 수득하고;
    각 샘플로 부터 생체중합체를 분리하고;
    분리된 각 생체중합체를 수집하고;
    임의로, 생체중합체의 양을 증폭시키고;
    수집된 생체중합체를 절단하여 이의 단편을 수득하고;
    수득된 단편의 질량 스펙트럼을 수득하고;
    각 단편의 빈도를 비교하여 평균 빈도 보다 적은 양으로 존재하는 단편을 동정하여, 존재하는 다형성을 동정하는 단계를 포함하여, 집단내 다형성을 발견하기 위한 방법.
  66. 제65항에 있어서, 생체중합체를 효소와 접촉시켜, 절단을 수행하는 방법.
  67. 제66항에 있어서, 효소가 뉴클레오티드 글리코실라제, 닉카제 및 IIS형 제한효소로 이루어진 그룹중에서 선택되는 방법.
  68. 제65항에 있어서, 생체중합체가 핵산 또는 단백질인 방법.
  69. 제65항에 있어서, 질량 분광측정 포맷이 매트릭스-지원된 레이저 탈착/이온화, 비행 시간(Time-of-flight)(MALDI-TOF), 전기분무(ES), IR-MALDI, 이온 사이클로트론 공명(ICR), 푸리어(Fourier) 변환 및 이의 조합중에서 선택되는 방법.
  70. 제65항에 있어서, 샘플을 건강한 피험자로 부터 수득하는 방법.
  71. 선택된 매개변수와 합치하는 샘플을 동정하기 위하여, 선택된 매개변수에 따라 제8항의 데이타베이스를 정렬시키고;
    각 동정된 샘플로 부터 생체중합체를 분리하고;
    각 분리된 생체중합체를 수집하고;
    임으로, 생체중합체의 양을 증폭시키고;
    수집된 생체중합체에서 다형성의 빈도를 측정하는 단계를 포함하며, 이때 대조군에 비교된 다형성의 빈도의 변화는 선택된 매개변수와 당해 다형성과의 상관관계를 나타내며, 대조군은 상이한 매개변수에 따라 정렬된 데이타베이스 또는 정렬되지 않은 데이타베이스로 부터 동정된 샘플로 부터 수득된 수집된 생체중합체에서의 다형성의 빈도인, 매개변수와 다형성을 상호 연관시키는 방법.
  72. 제71항에 있어서, 매개변수가 종족, 연령, 성별, 신장, 체중, 알코올 섭취량, 임신 회수, 정상 출산의 회수, 채식자, 신체적 활동의 유형, 거주 상태 및/또는 특정 상태에서의 거주 기간, 교육 수준, 부모가 사망한 연령, 부모 사망 원인, 과거 또는 현재의 흡연자, 흡연자로서의 기간, 흡연 빈도, 직계 가족(부모, 형제 자매, 자식)중의 질환의 발생, 처방약의 사용 및/또는 이의 이유, 입원 기간 및/또는 회수, 및 환경 인자에 대한 노출로 이루어진 그룹중에서 선택되는 방법.
  73. 제72항에 있어서, 매개변수가 직계 가족 구성원중의 질환 또는 특정 질환의 발생이어서, 질환과 다형성을 상호 연관시키는 방법.
  74. 제71항에 있어서, 수집된 생체중합체가 수집된 핵산 분자인 방법.
  75. 제74항에 있어서, 다형성을 프라이머 올리고 염기 연장(프로브)에 의해 검출하는 방법.
  76. 제75항에 있어서, 프라이머 올리고 염기 연장이,
    a) 임의로, 핵산 분자를 고형 지지체상에 고정시켜, 고정화된 핵산 분자를 수득하는 단계;
    b) 핵산 분자를, 다형성에 인접한 부위에서 당해 핵산 분자에 상보적인 프라이머 올리고뉴클레오티드와 하이브리드화시키는 단계;
    c) 단계 c)의 생성물을, 디데옥시뉴클레오시드 트리포스페이트 또는 3'-데옥시뉴클레오시드 트리포스페이트 및 중합효소를 포함하는 조성물과 접촉시켜, 다형성에 상보적인 디데옥시뉴클레오시드 또는 3'-데옥시뉴클레오시드 트리포스페이트만이 프라이머상에서 연장되도록 하는 단계; 및
    d) 연장된 프라이머를 검출하여, 수집된 핵산중의 핵산 분자에서 다형성을 검출하는 단계를 포함하는 방법.
  77. 제76항에 있어서, 질량 분광측정에 의해 검출을 수행하는 방법.
  78. 제71항에 있어서, 빈도가 다형성을 포함하는 수집된 핵산중의 핵산 분자의 %인 방법.
  79. 제78항에 있어서, 수집된 핵산의 질량 스펙트럼을 수득하여 상기 비를 측정하는 방법.
  80. 제72항에 있어서, 매개변수가 연령이어서, 다형성을 이환율에 대한 감수성, 조기 사망율, 또는 이환율 및 조기 사망율과 상호 연관시키는 방법.
  81. a) 선택된 매개변수와 합치하는 샘플을 동정하기 위하여, 선택된 매개변수에 따라 제8항의 데이타베이스를 정렬시키고;
    b) 각 동정된 샘플로 부터 핵산을 분리하고;
    c) 임의로, 분리된 각 핵산을 수집하고;
    d) 핵산의 양을 증폭시키고;
    e) 일본쇄 핵산을 형성시키고, 각 일본쇄를 별개의 반응 용기속에 분리해 놓고;
    f) 각 일본쇄 핵산을 어댑터 핵산과 접촉시켜, 어댑터 복합체를 형성시키고;
    g) 당해 어댑터 복합체를 뉴클리아제 및 리가제와 접촉시키고;
    h) 단계 g)의 생성물을, 결합된 어댑터를 증폭시킬 수 있는 혼합물과 접촉시켜, 연장된 생성물을 수득하고;
    i) 단계 h)로 부터 수득한 각 핵산의 질량 스펙트럼을 수득하고, 연장된 생성물에 상응하는 시그날을 동정하여 다형성을 검출하고;
    j) 동일한 쇄상의 상이한 서열과 하이브리드를 형성하는 또 다른 어댑터 핵산과 하이브리드를 형성할 수 있는 어댑터 핵산을 이용하여, 단계 f) 내지 i)를 반복하는 단계를 포함하여(이 경우에, 다형성이 하나 이상의 연장된 생성물을 검출함으로써 일배체형화된다), 핵산에서 다형성을 일배체형화하는 방법.
  82. 제1항에 있어서, 뉴클리아제가 Fen-1인 방법.
  83. 선택된 매개변수와 합치하는 샘플을 동정하기 위하여, 선택된 매개변수에 따라 제8항의 데이타베이스를 정렬시키고;
    각 동정된 샘플로 부터 핵산을 분리하고;
    분리된 각 핵산을 수집하고;
    임의로, 핵산의 양을 증폭시키고;
    핵산 분자를 하나 이상의 효소와 접촉시켜 이의 단편을 수득하고;
    수득한 단편의 질량 스펙트럼을 수득하는 단계를 포함하여(이 경우에, 당해 다형성이 다형성에 상응하는 시그날을 검출함으로써 검출되고; 당해 다형성이, 질량 스펙트럼으로 부터 다형성이 핵산의 동일한 쇄상에 위치한다는 것을 측정함으로써, 일배체형화된다), 집단에서 다형성을 일배체형화하는 방법.
  84. 제83항에 있어서, 효소가 닉카제인 방법.
  85. 제84항에 있어서, 닉카제가 NY2A 및 NYS1으로 이루어진 그룹중에서 선택되는 방법.
  86. 핵산 샘플을 분리하여 별개의 반응 용기에 넣고;
    하나의 반응 용기내의 핵산을 바이설피트와 접촉시키고;
    각 반응 용기의 핵산을 증폭시키고;
    각 반응 용기의 핵산을 절단하여, 이의 단편을 수득하고;
    하나의 반응 용기로 부터 수득된 단편의 질량 스펙트럼 및 또 다른 반응 용기로 부터 수득된 단편의 또 다른 질량 스펙트럼을 수득하는 단계를 포함하여(이 경우에, 시토신 메틸화는 질량 스펙트럼간의 시그날 차이를 확인함으로써 검출된다), 핵산샘플내 메틸화된 뉴클레오티드를 검출하는 방법.
  87. 제86항에 있어서, 증폭 단계를 우라실의 존재하에 수행하고, 절단 단계를 우라실 글리코실라제에 의해 수행하는 방법.
  88. 생물학적 샘플의 조성을 나타내는 데이타 셋트를 제조하고;
    데이타 셋트의 노이즈를 제거하여, 노이즈제거된(denoised) 데이타를 수득하고;
    노이즈제거된 데이타로 부터 기준선을 삭제하여, 중간 데이타 셋트를 제조하고;
    생물학적 샘플에 대한 추정상의 피크를 규정하고;
    추정상의 피크를 사용하여 잔여 기준선을 제조하고;
    중간 데이타 셋트로 부터 잔여 기준선을 제거하여 교정된 데이타 셋트를 제조하고;
    잔여 기준선의 제거에 따라, 교정된 데이타 셋트내에 가능한 피크를 위치시키고;
    위치된 가능한 피크를 사용하여, 생물학적 샘플을 동정하는 단계를 포함하여(이때, 제조된 생물학적 샘플 데이타 셋트는 분석 단편의 센스 쇄 및 안티센스 쇄로 부터의 데이타를 포함한다), 생물학적 샘플을 동정하는 방법.
  89. 제88항에 있어서, 동정이, 센스 쇄와 안티센스 쇄로 부터의 데이타를 조합하는 단계, 및 당해 데이타를 예상된 센스 쇄와 안티센스 쇄 값과 비교하는 단계를 포함하는, 생물학적 샘플을 동정하는 방법.
  90. 제88항에 있어서, 동정이, 가능한 피크가 센스 쇄 데이타로 부터 또는 안티센스 쇄 데이타로 부터 수득되는 지에 따라, 가능한 피크에 대한 피크 확률을 추론하는 단계를 포함하는 방법.
  91. 제88항에 있어서, 동정이, 가능한 피크에 대한 피크 확률을 추론하는 단계, 및 가능한 피크 아래의 계산된 면적과 데이타 셋트내 모든 피크 아래의 계산된 예상 평균 면적 사이의 비에 따라 대립유전자 페널티를 적용하는 단계를 포함하는 방법.
  92. 생물학적 샘플의 조성을 나타내는 데이타 셋트를 제조하고;
    데이타 셋트의 노이즈를 제거하여, 노이즈제거된(denoised) 데이타를 수득하고;
    노이즈제거된 데이타로 부터 기준선을 삭제하여, 중간 데이타 셋트를 제조하고;
    생물학적 샘플에 대한 추정상의 피크를 규정하고;
    추정상의 피크를 사용하여 잔여 기준선을 제조하고;
    중간 데이타 셋트로 부터 잔여 기준선을 제거하여 교정된 데이타 셋트를 제조하고;
    잔여 기준선의 제거에 따라, 교정된 데이타 셋트내에 가능한 피크를 위치시키고;
    위치된 가능한 피크를 사용하여, 생물학적 샘플을 동정하는 단계를포함하여(이때, 동정이, 가능한 피크에 대한 피크 확률을 추론하는 단계, 및 가능한 피크 아래의 계산된 면적과 데이타 셋트내 모든 피크 아래의 계산된 예상 평균 면적 사이의 비에 따라 대립유전자 페널티를 적용하는 단계를 포함한다), 생물학적 샘플을 동정하는 방법.
  93. 제92항에 있어서, 동정이, 적용된 대립유전자 페널티를 받지 않은 가능한 피크로 부터의 데이타를 비교하여, 올리고뉴클레오티드 생물학적 데이타에 따라 이들의 질량을 측정하는 단계를 포함하는 방법.
  94. 제92항에 있어서, 대립유전자 페널티가, 예상된 면적 값에 대한 당해 피크 아래의 면적의 비가 30% 이상인 가능한 피크에 적용되지 않는 방법.
  95. 핵산 영역을 증폭하여, 하나 이상의 효소 제한 부위를 포함하는 앰플리콘을 수득하고;
    앰플리콘을 제한 효소와 접촉하여 단편을 수득하고;
    수득된 단편의 질량 스펙트럼을 수득하고 제88항의 방법에 의해 질량 스펙트럼중의 시그날을 분석하는 단계를 포함하여(이 경우에, 다형성은 시그날의 패턴으로 부터 검출된다), 핵산중의 다형성을 검출하는 방법.
  96. 핵산, 태아 조직, 및 단백질 샘플로 이루어진 그룹중에서 선택되는 다수의샘플, 및 당해 샘플을 함유하는 용기상에 표시된 각 샘플의 공급원 및/또는 전력을 나타내는 기호를 포함하고, 건강한 집단으로 부터의 샘플을 포함하는 수집물을 특정 매개변수에 따라 정렬시킴으로써 수득되는, 임의의 질환 상태에 대해 선택되지 않은 건강한 집단인 표적 집단으로 부터 유래되는 샘플의 하위수집물(subcollection).
  97. 제26항에 있어서, 샘플이 핵산, 태아 조직, 단백질, 조직, 체액, 세포, 종자, 미생물, 병원체 및 생식 조직 샘플로 이루어진 그룹중에서 선택되는 조합물.
  98. 제8항의 데이타베이스 및 질량 분광측정기를 포함하는 조합물.
  99. 제98항에 있어서, 생물학적 샘플을 분석하기 위한 자동화 공정 라인인 조합물.
  100. 제8항의 데이타베이스 및 샘플내 생체중합체의 분석을 위한 질량 분광측정기를 포함하는(이때 자동화된 공정 라인에 의해 시험된 샘플은 데이타베이스내 피험자로 부터의 샘플을 포함한다), 생물학적 샘플의 고 처리량 프로세싱을 위한 시스템.
KR1020027004776A 1999-10-13 2000-10-13 다형성 유전 마커를 동정하기 위한 데이타베이스 및 이의제조 방법 KR20020064298A (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US15917699P 1999-10-13 1999-10-13
US60/159,176 1999-10-13
US21765800P 2000-07-10 2000-07-10
US21725100P 2000-07-10 2000-07-10
US60/217,658 2000-07-10
US60/217,251 2000-07-10
US09/663,968 2000-09-19
US09/663,968 US7917301B1 (en) 2000-09-19 2000-09-19 Method and device for identifying a biological sample
PCT/US2000/028413 WO2001027857A2 (en) 1999-10-13 2000-10-13 Methods for generating databases and databases for identifying polymorphic genetic markers

Publications (1)

Publication Number Publication Date
KR20020064298A true KR20020064298A (ko) 2002-08-07

Family

ID=27496366

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027004776A KR20020064298A (ko) 1999-10-13 2000-10-13 다형성 유전 마커를 동정하기 위한 데이타베이스 및 이의제조 방법

Country Status (9)

Country Link
EP (2) EP1261932B1 (ko)
JP (2) JP2003519829A (ko)
KR (1) KR20020064298A (ko)
AT (1) ATE444532T1 (ko)
AU (1) AU776811C (ko)
CA (1) CA2387035A1 (ko)
DE (1) DE60043076D1 (ko)
IL (1) IL148930A0 (ko)
WO (1) WO2001027857A2 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160113147A (ko) * 2007-07-23 2016-09-28 더 차이니즈 유니버시티 오브 홍콩 핵산 서열 불균형의 결정
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
US10619214B2 (en) 2007-07-23 2020-04-14 The Chinese University Of Hong Kong Detecting genetic aberrations associated with cancer using genomic sequencing
US10741270B2 (en) 2012-03-08 2020-08-11 The Chinese University Of Hong Kong Size-based analysis of cell-free tumor DNA for classifying level of cancer

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020009394A1 (en) 1999-04-02 2002-01-24 Hubert Koster Automated process line
US7917301B1 (en) 2000-09-19 2011-03-29 Sequenom, Inc. Method and device for identifying a biological sample
US7226739B2 (en) 2001-03-02 2007-06-05 Isis Pharmaceuticals, Inc Methods for rapid detection and identification of bioagents in epidemiological and forensic investigations
US20030027135A1 (en) * 2001-03-02 2003-02-06 Ecker David J. Method for rapid detection and identification of bioagents
US7666588B2 (en) 2001-03-02 2010-02-23 Ibis Biosciences, Inc. Methods for rapid forensic analysis of mitochondrial DNA and characterization of mitochondrial DNA heteroplasmy
US7217510B2 (en) 2001-06-26 2007-05-15 Isis Pharmaceuticals, Inc. Methods for providing bacterial bioagent characterizing information
US7159740B2 (en) 2001-10-26 2007-01-09 Sequenom, Inc. Method and apparatus for parallel dispensing of defined volumes of solid particles
WO2003056328A1 (en) * 2001-12-21 2003-07-10 Smithkline Beecham Corporation High throughput correlation of polymorphic forms with multiple phenotypes within clinical populations
JP2006516193A (ja) 2002-12-06 2006-06-29 アイシス・ファーマシューティカルス・インコーポレーテッド ヒトおよび動物における病原体の迅速な同定方法
CA2512110A1 (en) 2002-12-31 2004-07-22 Mmi Genomics, Inc. Compositions, methods, and systems for inferring bovine breed
US20060051879A9 (en) 2003-01-16 2006-03-09 Hubert Koster Capture compounds, collections thereof and methods for analyzing the proteome and complex compositions
CA2514812A1 (en) * 2003-02-27 2004-09-10 Hitachi, Ltd. Information processing system using base sequence relevant information
AU2004219665A1 (en) * 2003-03-07 2004-09-23 Sequenom, Inc. Association of polymorphic kinase anchor proteins with cardiac phenotypes and related methods
JP2004287619A (ja) * 2003-03-19 2004-10-14 Ntt Data Corp 疫学情報管理装置、疫学情報管理方法、および、プログラム
EP1660680B1 (en) 2003-07-31 2009-03-11 Sequenom, Inc. Methods for high level multiplexed polymerase chain reactions and homogeneous mass extension reactions for genotyping of polymorphisms
US9394565B2 (en) 2003-09-05 2016-07-19 Agena Bioscience, Inc. Allele-specific sequence variation analysis
CA2561381C (en) 2004-03-26 2015-05-12 Sequenom, Inc. Base specific cleavage of methylation-specific amplification products in combination with mass analysis
US7608394B2 (en) * 2004-03-26 2009-10-27 Sequenom, Inc. Methods and compositions for phenotype identification based on nucleic acid methylation
US20050266411A1 (en) 2004-05-25 2005-12-01 Hofstadler Steven A Methods for rapid forensic analysis of mitochondrial DNA
JP2009502137A (ja) 2005-07-21 2009-01-29 アイシス ファーマシューティカルズ インコーポレイティッド 核酸変種の迅速な同定および定量のための方法
JP2007102709A (ja) * 2005-10-07 2007-04-19 Toshiba Corp 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
WO2008104002A2 (en) 2007-02-23 2008-08-28 Ibis Biosciences, Inc. Methods for rapid forensic dna analysis
US20080228699A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
JP5030166B2 (ja) 2007-05-01 2012-09-19 独立行政法人産業技術総合研究所 レーザー脱離イオン化質量分析に使用される試料支持用基板の試験方法
JP5036042B2 (ja) * 2007-05-28 2012-09-26 株式会社島津製作所 質量分析サンプルの調製方法、リボ核酸のイオン化方法、リボ核酸の質量分析方法、及び細胞由来の低分子リボ核酸の質量分析方法
US20090043752A1 (en) 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US7917438B2 (en) 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US8200509B2 (en) 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
EP3276526A1 (en) 2008-12-31 2018-01-31 23Andme, Inc. Finding relatives in a database
DE112010004125A5 (de) * 2009-10-21 2012-11-22 Basf Plant Science Company Gmbh Verfahren zur erzeugung von biomarker-referenzpattern
JP2015501974A (ja) * 2011-11-07 2015-01-19 インジェヌイティ システムズ インコーポレイテッド 原因ゲノム変異の同定の方法およびシステム。
JP6090201B2 (ja) * 2014-02-19 2017-03-08 株式会社島津製作所 マススペクトルデータ処理装置及びマススペクトルデータ処理方法
WO2015148689A1 (en) * 2014-03-25 2015-10-01 Five3 Genomics, Llc Systems and methods for rna analysis in functional confirmation of cancer mutations
GB201518391D0 (en) 2015-10-16 2015-12-02 Micromass Ltd Processing mass spectral data
US10991190B1 (en) 2020-07-20 2021-04-27 Abbott Laboratories Digital pass verification systems and methods
CN114023379B (zh) * 2021-12-31 2022-05-13 浙江迪谱诊断技术有限公司 一种确定基因型的方法及装置
CN114755289A (zh) * 2022-03-25 2022-07-15 浙江迪谱诊断技术有限公司 一种核酸质谱盐离子干扰评价方法

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
GB2236186B (en) 1989-08-22 1994-01-05 Finnigan Mat Gmbh Process and device for laser desorption of analyte molecular ions, especially of biomolecules
US5846717A (en) 1996-01-24 1998-12-08 Third Wave Technologies, Inc. Detection of nucleic acid sequences by invader-directed cleavage
US5436150A (en) 1992-04-03 1995-07-25 The Johns Hopkins University Functional domains in flavobacterium okeanokoities (foki) restriction endonuclease
US5700672A (en) 1992-07-23 1997-12-23 Stratagene Purified thermostable pyrococcus furiousus DNA ligase
US5503980A (en) 1992-11-06 1996-04-02 Trustees Of Boston University Positional sequencing by hybridization
US5422253A (en) 1992-12-07 1995-06-06 Wisconsin Alumni Research Foundation Method of site specific nucleic acid cleavage
US5547835A (en) 1993-01-07 1996-08-20 Sequenom, Inc. DNA sequencing by mass spectrometry
US5605798A (en) 1993-01-07 1997-02-25 Sequenom, Inc. DNA diagnostic based on mass spectrometry
ATE220114T1 (de) 1993-03-19 2002-07-15 Sequenom Inc Dns-sequenzbestimmung durch massenspektrometrie auf dem weg des abbaus mit exonuklease
US5604098A (en) 1993-03-24 1997-02-18 Molecular Biology Resources, Inc. Methods and materials for restriction endonuclease applications
CA2122203C (en) 1993-05-11 2001-12-18 Melinda S. Fraiser Decontamination of nucleic acid amplification reactions
US5714330A (en) 1994-04-04 1998-02-03 Lynx Therapeutics, Inc. DNA sequencing by stepwise ligation and cleavage
US5858705A (en) 1995-06-05 1999-01-12 Human Genome Sciences, Inc. Polynucleotides encoding human DNA ligase III and methods of using these polynucleotides
US5874283A (en) 1995-05-30 1999-02-23 John Joseph Harrington Mammalian flap-specific endonuclease
NZ298494A (en) 1995-07-11 1999-09-29 Forfas Trading As Bioresearch Glycosylase mediated detection of nucleotide sequences at candidate loci
US6090606A (en) 1996-01-24 2000-07-18 Third Wave Technologies, Inc. Cleavage agents
AU2217597A (en) 1996-03-18 1997-10-22 Sequenom, Inc. Dna sequencing by mass spectrometry
WO1997040462A2 (en) * 1996-04-19 1997-10-30 Spectra Biomedical, Inc. Correlating polymorphic forms with multiple phenotypes
US5928906A (en) 1996-05-09 1999-07-27 Sequenom, Inc. Process for direct sequencing during template amplification
CA2257866A1 (en) * 1996-06-10 1997-12-18 University Of Utah Research Foundation Rapid, accurate identification of dna sequence variants by electrospray mass spectrometry
WO1998012355A1 (en) * 1996-09-19 1998-03-26 Genetrace Systems Methods of preparing nucleic acids for mass spectrometric analysis
US5777324A (en) 1996-09-19 1998-07-07 Sequenom, Inc. Method and apparatus for maldi analysis
CA2267070A1 (en) 1996-11-06 1998-05-14 Sequenom, Inc. Compositions and methods for immobilizing nucleic acids to solid supports
CA2702219C (en) 1996-11-06 2013-01-08 Sequenom, Inc. High density immobilization of nucleic acids
US6024925A (en) 1997-01-23 2000-02-15 Sequenom, Inc. Systems and methods for preparing low volume analyte array elements
AU722819B2 (en) * 1996-12-06 2000-08-10 Urocor, Inc. Diagnosis of disease state using mRNA profiles
US6059724A (en) * 1997-02-14 2000-05-09 Biosignal, Inc. System for predicting future health
EP0985148A4 (en) * 1997-05-28 2004-03-10 Inst Medical W & E Hall DIAGNOSIS OF NUCLEIC ACIDS BY MASS SPECTROMETRY, MASS SEPARATION AND BASE-SPECIFIC CLEAVING
US5976806A (en) 1997-06-25 1999-11-02 Pioneer Hi-Bred International, Inc. DNA ligase assay
WO1999005323A1 (en) * 1997-07-25 1999-02-04 Affymetrix, Inc. Gene expression and evaluation system
US5888795A (en) 1997-09-09 1999-03-30 Becton, Dickinson And Company Thermostable uracil DNA glycosylase and methods of use
DE19754482A1 (de) * 1997-11-27 1999-07-01 Epigenomics Gmbh Verfahren zur Herstellung komplexer DNA-Methylierungs-Fingerabdrücke
WO1999030167A1 (fr) * 1997-12-06 1999-06-17 Genox Research, Inc. Systeme de gestion de donnees-echantillons
AU746061B2 (en) 1997-12-12 2002-04-11 Qiagen Gaithersburg, Inc. Assessment of human papilloma virus-related disease
US6054276A (en) 1998-02-23 2000-04-25 Macevicz; Stephen C. DNA restriction site mapping
US6132476A (en) 1998-04-20 2000-10-17 Southern Mills, Inc. Flame and shrinkage resistant fabric blends and method for making same
WO1999054501A1 (en) 1998-04-22 1999-10-28 Enterprise Ireland Trading As Bioresearch Ireland A method for the characterisation of nucleic acid molecules involving generation of extendible upstream dna fragments resulting from the cleavage of nucleic acid at an abasic site
US6723564B2 (en) 1998-05-07 2004-04-20 Sequenom, Inc. IR MALDI mass spectrometry of nucleic acids using liquid matrices
US6099553A (en) 1998-05-21 2000-08-08 Applied Medical Resources Corporation Suture clinch
GB9904585D0 (en) * 1999-02-26 1999-04-21 Gemini Research Limited Clinical and diagnostic database
US7493698B2 (en) 2006-12-14 2009-02-24 Hsin-Chih Chung Lee Keyless clamp device for reciprocating saw
US9720195B2 (en) 2010-04-30 2017-08-01 Corning Optical Communications LLC Apparatuses and related components and methods for attachment and release of fiber optic housings to and from an equipment rack

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160113147A (ko) * 2007-07-23 2016-09-28 더 차이니즈 유니버시티 오브 홍콩 핵산 서열 불균형의 결정
US10208348B2 (en) 2007-07-23 2019-02-19 The Chinese University Of Hong Kong Determining percentage of fetal DNA in maternal sample
KR20190114041A (ko) * 2007-07-23 2019-10-08 더 차이니즈 유니버시티 오브 홍콩 핵산 서열 불균형의 결정
KR20190114039A (ko) * 2007-07-23 2019-10-08 더 차이니즈 유니버시티 오브 홍콩 핵산 서열 불균형의 결정
KR20190143494A (ko) * 2007-07-23 2019-12-30 더 차이니즈 유니버시티 오브 홍콩 핵산 서열 불균형의 결정
US10619214B2 (en) 2007-07-23 2020-04-14 The Chinese University Of Hong Kong Detecting genetic aberrations associated with cancer using genomic sequencing
US11142799B2 (en) 2007-07-23 2021-10-12 The Chinese University Of Hong Kong Detecting chromosomal aberrations associated with cancer using genomic sequencing
US11725245B2 (en) 2007-07-23 2023-08-15 The Chinese University Of Hong Kong Determining a nucleic acid sequence imbalance using multiple markers
US10741270B2 (en) 2012-03-08 2020-08-11 The Chinese University Of Hong Kong Size-based analysis of cell-free tumor DNA for classifying level of cancer
US11031100B2 (en) 2012-03-08 2021-06-08 The Chinese University Of Hong Kong Size-based sequencing analysis of cell-free tumor DNA for classifying level of cancer
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer

Also Published As

Publication number Publication date
DE60043076D1 (de) 2009-11-12
CA2387035A1 (en) 2001-04-19
AU776811C (en) 2005-07-28
AU1084801A (en) 2001-04-23
EP1261932A2 (en) 2002-12-04
EP2088209A1 (en) 2009-08-12
WO2001027857A2 (en) 2001-04-19
IL148930A0 (en) 2002-09-12
WO2001027857A9 (en) 2002-12-05
JP2004158005A (ja) 2004-06-03
ATE444532T1 (de) 2009-10-15
EP1261932B1 (en) 2009-09-30
JP2003519829A (ja) 2003-06-24
AU776811B2 (en) 2004-09-23
EP2088209B1 (en) 2017-05-31
WO2001027857A3 (en) 2002-10-03

Similar Documents

Publication Publication Date Title
US8818735B2 (en) Methods for generating databases and databases for identifying polymorphic genetic markers
AU776811C (en) Methods for generating databases and databases for identifying polymorphic genetic markers
US11649494B2 (en) High throughput screening of populations carrying naturally occurring mutations
US6703228B1 (en) Methods and products related to genotyping and DNA analysis
CN101680872B (zh) 序列比较分析方法和系统
EP1124990B1 (en) Complexity management and analysis of genomic dna
US20070065816A1 (en) Methods for genotyping
JP2004511210A (ja) 配列変動を検出する、dnaを遺伝分析するための方法
EP1056889B1 (en) Methods related to genotyping and dna analysis
US9394565B2 (en) Allele-specific sequence variation analysis
US20040023275A1 (en) Methods for genomic analysis
Singh et al. Sequence-based markers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application