KR20100098517A - 생물 검정을 수행하기 위한 시료 수합 방법 - Google Patents

생물 검정을 수행하기 위한 시료 수합 방법 Download PDF

Info

Publication number
KR20100098517A
KR20100098517A KR1020107011893A KR20107011893A KR20100098517A KR 20100098517 A KR20100098517 A KR 20100098517A KR 1020107011893 A KR1020107011893 A KR 1020107011893A KR 20107011893 A KR20107011893 A KR 20107011893A KR 20100098517 A KR20100098517 A KR 20100098517A
Authority
KR
South Korea
Prior art keywords
sample
samples
analysis
collected
individuals
Prior art date
Application number
KR1020107011893A
Other languages
English (en)
Inventor
아드리아누스 램버투스 요아누스 베레이켄
안네미에케 파울라 융게리우스
제라르두스 안토니우스 아놀두스 알베르스
Original Assignee
헨드릭스 제네틱스 비.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 헨드릭스 제네틱스 비.브이. filed Critical 헨드릭스 제네틱스 비.브이.
Publication of KR20100098517A publication Critical patent/KR20100098517A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 범주형 변수에 대하여 분석되는 시료를 수합하는 방법에 관한 것으로 상기 분석은 분석체의 정량 측정을 포함하고, 수합에서 개체 시료의 양에 있어서 n개 시료의 수합을 제공하는 것을 포함하는 시료를 수합하는 상기 방법은 상기 시료에서 분석체가 x0:x1:x2:x(n-1)의 몰 비율에 존재하는 것과 같고, 여기서 x는 상기 범주형 변수 종류의 수를 나타내는 2 이상의 정수이다.

Description

생물 검정을 수행하기 위한 시료 수합 방법 {METHOD OF POOLING SAMPLES FOR PERFORMING A BIOLOGICAL ASSAY}
본 발명은 생물학적 시료에서 단정적인 결과(categorical outcome)를 갖는 측정의 분야, 특히 더 단정적인 결과를 갖는 생물학적 정량의 시료 준비를 위한 방법과 관계가 있다. 본 발명은 변종 대립유전자(allelic variant)의 지노타이핑(genotyping)에 대한 상기 방법의 사용하는 시료 수집의 방법을 제공한다. 본 발명은 복수의 시료의 분석을 수행하는 방법, 한 세트의 수집된 시료 분석을 수행하도록 마련된 처리기(processor)를 포함하는 분석장치, 시료를 수집하는 방법을 시행하는 컴퓨터 프로그램 제품 및 다양한 시료의 분석을 수행하기 위한 방법을 시행하는 컴퓨터 프로그램 제품을 더 제공한다.
생물학적 정량(bioassay)은 특성, 집중도 또는 생물학적 분석체의 존재가 시료로 측정되는 절차이다. 생물학적 정량은 과학의 모든 분야, 생명과학에서 가장 현저하고, 특히 분자 생물학(molecular biology) 연구의 고유한 부분이다.
분자 생물학에서 분석의 특정한 유형은 지노타이핑(genotyping) 및 시퀀싱(sequencing)과 관련이 있다. 지노타이핑 및 시퀀싱는 것은 생물학적 분석으로 개체의 유전자형(genotype)을 결정하는 방법을 나타낸다. 통용되는 방법들은 PCR, DNA 및 RNA 시퀀싱 유리판 또는 구슬과 같은 다양한 운반체(carrier)에 고정시킨 DNA 및 RNA의 교잡(hybridization)을 포함한다. 상기 기술은 부/모를 확인하는 실험, 질병과 관련된 유전자의 조사를 위한 임상연구 및 일례로 QTL(양적형질유전자좌, quantitative trait loci)를 위한 전체 유전체(genome) 스캔 같은 어떤 종의 특성을 유전자적 통제를 조사를 목적으로 하는 다른 연구에서 본질적이다.
현재의 기술적 한계 때문에, 대부분 모든 유전자형을 결정하는 것은 불완전하다. 즉, 개체의 유전자형의 매우 적은 부분만이 결정된다. 많은 예에서 이것은 문제가 아니다. 일례로 부/모를 확인하는 실험을 할 때, 단 10개 내지 20개 유전체의 영역만이 관계 또는 그것들의 결핍을 결정하도록 조사되며, 이것은 인간 유전체의 아주 작은 부분이다.
단일염기변이(single nucleotide polymorphisms, SNPs)는 상기 유전체에서 변이(polymorphism)의 종류가 가장 풍부하다. 난해한 SNP 표시인자 지도(marker maps) 및 높은 처리량의 SNP 지노타이핑에서 기술의 병행하는 발전으로, SNPs는 많은 유전자 연구를 위한 선택의 상기 표지인자가 되어 왔다. 시료의 상당한 수는 맵핑(mapping) 및 관련 연구 또는 유전체의 선택 실험이 요청된다.
높은 처리량의 지노타이핑 능력을 제공하기 위하여, 배열하는 기술들은 발전되어 왔다. 그런 기술들은 Affymetrix(마이크로어레이(microarray) 기반의GeneChip® 매핑 배열(mapping array)), Illumina(BeadArray™), Biotrove(Open Array™) 및 Squenom(MassARRAY™)과 같은 상업적 공급처로부터 이용가능 하다. 많은 종(인간, 가축, 식물, 박테리아 및 바이러스)에서 많은 수의 SNPs가 이용가능 하거나, 또는 가까운 시일 내에 이용가능 하게 될 것이다. 새로운 혁신은 전체 유전체(whole-genome) 지노타이핑 또는 관련 연구를 가능하게 해 왔고, 식물 및 동물 번식에 대한 전체 유전체 선택 프로그램을 연관지어 왔다. 그렇지만 그런 프로그램들의 비용은 여전히 중요하고, 시료들이 개별적으로 지노타이핑된다면 수백만 달러에 이르는 예산이 요구된다. 그러므로 어느 종에 대해 SNP를 확인하는 것을 목표로 하는 연구들은 현재 한정된 개체의 수만을 분석하는 것을 수반한다. 그러므로 본 발명은 유전자형을 결정하는 비용을 상당히 삭감하도록 하므로 매우 의미가 있다.
유전자적 다양성에 대한 충분한 이해를 얻기 위해서, 상기 유전체(의 적절한 부분)의 완전한 유전자 서열(sequence)을 알 필요가 있다. 그러나 완전한 유전자 서열을 결정하는 비용은 앞서 설명했던 게노티이핑하는 비용보다 매우 더 높다. 비용에도 불구하고, 시퀀싱은 전체적인 유전체 또는 그것들의 특정한 부분에 대해 각각의 유전자형을 제공하는 지노타이핑을 대체할 것으로 기대된다. 본 발명은 또한 시퀀싱의 비용을 줄이는 방법을 제공한다.
시료 수합(sample pooling)은 분석 비용을 줄이는 수단으로써 범주형 형질(categorical trait)에 대한 연구에서 자주 사용된다. 여러가지 시료들의 혼합으로 구성된 상기 수합(pool)에서 특질(characteristic)의 존재는 해당 수합에 있는 적어도 하나의 시료의 해당 특질의 존재를 나타낸다. DNA 수합(DNA pool)은 일례로 다음과 같은 것들에 사용된다.
- 개체군에서 대립유전자 빈도(allele frequency)를 측정하는 것 : 개체군으로부터 개체들의 좋은 시료를 얻는 것으로, 대립유전자(allele) 1의 처리되지 않은 대립유전자 빈도는 대립유전자 1에 대한 결과, 대립유전자 1에 대한 결과의 합 및 상기 수합에서 대립유전자 2에 대한 결과의 비율로써 계산된다.
- 사례 : 사례와 통제는 독립된 수합들로 나뉘어지는 점에 있어서의 통제 관련 연구들 및
- 한정된 수의 개체들 및 한정된 수의 SNP에서 반수체 유전형(haplotype)의 재현 : 상기 수합에서 측정된 상기 대립유전자 빈도에 기반하는 반수체 유전형은 최대 가능성(maximum likelihood)와 같은 다른 알고리즘에 의해 추정될 수 있다. 반수체 유전형 빈도라는 용어는 표시인자의 결합분포(joint distribution)라는 용어와 아주 밀접하다.
시료 수합의 중요한 약점은 측정된 특질은 오직 전체로써 상기 수합에서 확인되고, 상기 수합에서 개체 시료의 일부에서는 안 된다. 각각 두 개체로 구성된 두 수합이 형성될 때(부+자식 및 모+자식), 한가지 예외는 지노타이핑 트리오(부, 모 및 자식)에 대한 DNA 수합이다. 각 수합에서 상기 관찰된 대립유전자 빈도는 세 개체 모두에 대한 상기 유전자형을 나타낸다. 시료 수합의 이 형태는 33%의 비용절감을 제공하지만 그런 트리오를 가질 때만 가능하다. 다른 모든 예에서 수합된 시료(pooled sample)들은 상기 개체 시료에 대한 결과를 제공하기 위하여 개별적으로 재분석되어야 한다.
그러므로 해당 수합에서 상기 개체 시료에 대한 실험결과를 여전히 제공하는 동안 트리오 이외의 시료형태에 대한 시료 수합을 제공하는 것에 유익할 것이다.
본 발명자는 현재 무작위 개체들이 수합될 수 있고, 상기 수합에서 각 개체 시료의 기여도는 서로 다른 시료의 고정된 비율일 때, 즉, 시료 양은 등몰(equimolar)이 아니고 특정한 비율로 제공될 때 개체 유전자형들은 그런 수합들에서 되찾을 수 있다는 것을 발견해왔다. 상기 실험은 범주형 변수(categorical variable)의 정량 측정을 수반한다면, 즉, 상기 실험은 정량적으로 측정된 범주형 또는 개별 형질을 수반한다면 개체 시료들에 대한 결과들은 상기 수합된 실험결과로부터 추론될 수 있다.
실제로, 본 발명자는 이배수체 동물(diploid animal)의 어떤 유전자좌(locus)에서 어떤 대립유전자의 존재에 관한 연구에 대하여 상기 같은 유전자좌에서 두 개의 가능한 대립 유전자(A 또는 B)를 가진 두 번째 이배수체 동물의 DNA 시료로 단일 유전자좌에서 두 개의 가능한 대립 유전자(A 또는 B)를 가진 첫 번째 이배수체 동물의 DNA 시료의 1:3 비율로 혼합하는 것은 해당 혼합물에서 상기 대립유전자의 어느 쪽에 대하여 (2)+(2+2+2)=8의 가능성의 존재로 나타나는 것을 발견해왔고, 이것에 있어서 단일 대립유전자(일례로 A)로부터 기대되는 정량 기구 신호는 최대 시료 신호 강도(maximum sample signal strength)의 12.5%이다.
이것은 최대 시료 신호 강도의 37.5%의 측정된 신호 강도에서 상기 시료는 상기 첫 번째 이배수체 동물이 유전자형 AA를 갖고, 상기 두 번째 이배수체 동물이 유전자형 AB를 갖는다는 것을 나타내는 상기 신호는 상기 첫 번째 이배수체 동물로부터 도출될 수 없고, 상기 두 번째 이배수체 동물로부터만 도출될 수 있다는 것을 의미하는 3x 대립유전자 A를 포함하는 것을 의미한다.
마찬가지로, 상기 측정된 신호 강도는 시료 최대 신호 강도의 50%일 때, 모든 시료들은 유전형 AB를 갖는다. 상기 측정된 신호 강도는 시료 최대 신호 강도의 0%일 때, 모든 시료들은 유전형 BB를 갖는다. 상기 수합에서 상기 두 개의 개체는 총 3×3 가능한 유전형들에서 갖는다. 제공된 측정의 정확도는 적어도 6.25%이고, 각 측정은 100%의 8분의 1(1/8) 값 또는 그것들의 배수로 할당될 수 있다. 일반적으로 각각 가능한 측정 결과는 1/(y×((p+1)0+(p+1)1+(p+1)2+(p+1)(n-1)))×100%값으로 할당될 수 있으며, y=2(한 위치에서 대립유전자 A에 대한 상기 두 개의 가능한 결과, 대립유전자는 존재하거나 부재한다), p는 배수성(ploidy) 수준, n은 시료의 숫자 및 100%는 최대 시료 신호 강도다. 전체로서 (배수성 수준+1)n 가능한 유전자형이 있을 것이다.
단일 대립유전자(일례로 A)로부터 예상되는 양적인 신호(quantitative signal)는 최대 시료 신호 강도의 3.85%인 것에 있어서 현재 세 동물(x, y, 및 z)의 수합한 시료가 1:3:9(즉 각각 세 수합 요소(pooling factor)를 갖는다)의 비율일 때, 이론적으로 해당 혼합체에서 양쪽의 상기 대립유전자에 대해 총 26의 가능성이 있다. 이것은 최대 시료 신호 강도의 12%로 측정된 신호 세기에서 상기 시료는 동물 x가 유전자형 BB을 갖고, 동물 y는 유전자형 AB를 갖고, 동물 z는 유전자형 BB를 갖는다는 것을 의미하는 3x 대립유전자 A를 포함한다.
마찬가지로 상기 측정된 신호 세기가 최대 시료 신호 강도의 86%일 때, 시료x는 유전자형 AB를 갖고, 반면에 시료y와 z는 유전자형 AA를 갖는다. 측정의 제공된 정확도는 적어도 1.9%이고, 각 측정은 100%의 26분의 1(1/26)값 또는 그것들의 배수로 할당될 수 있다(수합된 실험 같은 것에 대한 가능한 결과의 개요는 뒤에 나오는 예를 본다).
본 발명자는 이 원리는 복수의 시료에서 분석체의 정량적 측정을 포함한 분석을 보여주고 있다. 그 점에서 상기 분석 결과는 상기 시료에서 분석체의 질적인 측면의 범주에 속한다.
첫 번째 측면에서, 본 발명은 현재 범주형 변수로 분석되도록 하는 수합한 시료의 방법을 제공하고, 그 점에서 상기 분석은 상기 수합에 있는 개체 시료의 개체 시료의 양은 시료에서 상기 분석체가 x0 : x1 : x2 : x(n-1)의 몰 비율(molar ratio)로 존재한다는 것과 같음에 있어서 n개 시료의 수합의 제공을 포함하는 수합한 시료의 상기 방법인 분석체의 정량적 측정을 수반한다. 여기서 x는 3, 4, 5, 6, 7 또는 8과 같은 2 이상의 정수로 2 또는 3이 바람직하며, 상기 범주형 변수(또는 상기 수합 요소)의 종류의 개수를 나타내고, 또한 n은 시료의 개수이다. 상기 주석 x0 : x1 : x2 : x(n-1)은 x0 : x1 : x2 :……: x(n-1) 또는 x0 : x1 : x2 : xi :x(n-1)를 나타낸다고 이해되어야 하며, 여기서 n은 시료의 개수이고, i는 2 및 n사이의 값을 갖는 증가하는 정수이다.
다배수성 개체 x(polyploidy individuals x)를 수합하는 것은 상기 (배수성 수준+1)과 같고, 반수체(haploid)일 때 x=2, 이배수체(diploid)일 때 3 및 한 개의 단일 위치에 두 개의 가능한 대립유전자를 갖는 사배수체(tetraploid) 개체일 때 5이고, x는 또한 가능한 유전자형의 개수와 같다.
세 개의 가능한 대립유전자가 있다고 가정하면, 반수체는 세 개의 가능한 유전자형을 가질 것(x=3)이고, 이배수체는 여섯 개의 가능한 유전자형을 가질 것이고(x=6), 또한 삼배수체(triploid)는 열 개의 가능한 유전자형을 갖는다(x=10). 하나의 이배수체 개체에서, 첫 번째 대립유전자는 두 번째 및 세 번째 대립유전자처럼 0, 1 또는 2번 존재할 수 있다. 이것은 두 개의 대립유전자와 마찬가지로 같은 비율(x0 : x1 : x2 : x(n-1))로 수합하는 것을 가능하게 만든다(x는 다시 다배수성 수준+1). 상기 세 개의 대립유전자에 대한 신호 세기는 결과점(result point) 1/(y×((p+1)0+(p+1)1+(p+1)2+(p+1)(n-1)))×100% 에서 가장 가까운 결과로 반올림하고, y=2(대립유전자 1, 2 또는 3은 존재하거나 존재하지 않는다), p=배수성 수준이고, 또한 n은 상기 수합된 시료에서 대립유전자의 개수를 알기 위한 시료의 개수이다.
그러므로 상기 수합(예로써)에 있는 두 개의 개체 시료 사이의 상기 비율은 그 안의 상기 분석체는 1:x의 몰 비율로 존재하고, 여기서 x는 상기 범주형 형질에 대한 종류의 최대 개수이다.
방법들은 상기 수합에 있는 상기 개체 시료의 양은 일반적인 비율 3으로 기하학적인 유전자 배열로써 제공되는 것에 있어서, 이배수체 개체들에서 이형 대립유전자를 지노타이핑하기에 특히 적절하고, 각 개체는 세 개의 가능한 유전자형을 갖는다. 상기 유전자형은 세 개의 가능한 이형(AA, AB 및 BB)을 가질 것인 범주형 형질이다.
방법들은 상기 수합에 있는 상기 개체 시료의 양은 일반적인 비율 2로 기하학적인 유전자 배열로써 제공되는 것에 있어서, 반배수체 개체들에서 이형 대립유전자를 지노타이핑하기에 특히 적절하다. 그것들의 일례로, 참조는 하기 실험 부분으로 만들어진다.
다른 측면에서, 본 발명은 범주형 변수 (x) 종류의 개수가 p+1과 같은 것에 있어서 반배수체 또는 다배수체 개체들에서 이형 대립유전자를 지노타이핑에 대해 앞에서 설명한 것과 같이 발명 방법의 사용과 관계있고, p는 상기 개체의 배수성 수준을 나타낸다. 일례로 그런 사용은 이배수체 또는 반배수체 개체에서 이형 대립유전자를 지노타이핑할 수 있도록 한다.
또 다른 측면에서, 본 발명은 상기 시료를 수합된 시료를 제공하도록 앞에서 설명한 발명의 방법에 따라서 수합하는 것을 포함하는 것 및 상기 수합된 시료에서 상기 분석을 수행하는 것과 관계있다. 구해진 상기 정량의 결과는 (최대 시료 신호 강도는 각 가능한 결과로 나뉘는 이론상 간격의 개수에 의해 결정되는(아래를 보시오)) 결과점과 가장 가까운 결과로 반올림되고, 상기 신호의 세기는 상기 수합된 시료에서 범주형 변수 종류의 총 개수로 할당된다. 이것으로부터 범주형 변수는 상기 수합에서 상기 다양한 개체 시료의 비율을 고려한 상기 수합에서 각 개체 시료로 결정된다.
다른 측면에서, 본 발명은 앞에서 정의된 것과 같이 시료를 수합하는 방법에 의해 구해진 수합된 시료의 한 세트에서 수행하는 것을 포함하는 복수의 시료에서 분석을 수행하는 방법을 제공하고, 여기서 상기 시료는 범주형 변수로 분석되고, 또한 상기 시료에서 분석체의 정량 측정을 수반한다.
이 방법의 바람직한 일례에서, 분석을 수행하는 방법은 상기 시료의 수합에서 상기 개체 시료의 측정 기여(measurement contribution)로부터 추정하는 단계를 더 포함한다.
다른 측면에서, 본 발명은 수합된 시료를 제공하도록 시료 흡인기를 포함하고 앞에서 정의한 것과 같은 시료를 수합하는 방법을 수행하도록 처리기를 더 포함하는 수합된 시료에 다수의 시료를 수합하기 위한 수합하는 장치를 제공한다.
다른 측면에서 본 발명은 앞에서 정의한 것과 같이 시료를 수합하는 방법에 의해 구해진 수합된 시료의 한 세트에서 분석을 수행하도록 마련된 처리기를 포함하는 분석 장치를 제공하고, 서 상기 장치는 범주형 변수에 대해 상기 시료를 분석하는 것 및 상기 시료에서 분석체의 정량 측정을 수행하도록 마련된다.
이 분석 장치의 바람직한 일례에서, 상기 장치는 장치를 수합하는 것을 더 포함하고, 앞에 기재된 것과 같이 장치를 수합하는 것이 가장 바람직하다.
다른 측면에서, 본 발명은 컴퓨터 프로그램 결과물 자체 또는 캐리어를 제공하고, 이 프로그램 결과물은 컴퓨터, 프로그램된 컴퓨터 네트워크 또는 다른 프로그램 가능한 장치에서 로드되고 실행될 때, 앞에서 정의한 것과 같이 시료를 수합하는 방법을 시행한다.
다른 측면에서, 본 발명은 컴퓨터 프로그램 결과물 자체 또는 캐리어를 제공하고, 이 프로그램 결과물은 컴퓨터, 프로그램된 컴퓨터 네트워크 또는 다른 프로그램 가능한 장치에서 로드되고 실행될 때, 복수의 시료들에서 분석을 수행하는 방법을 시행하고, 상기 방법은 앞에서 정의된 것과 같이 시료를 수합하는 방법에 의해서 구해진, 수합된 시료의 한 세트에서 분석을 수행하는 것을 포함하고, 여기서 상기 시료는 범주형 변수로 분석되고, 또한 상기 시료에서 분석체의 정량 측정을 수반한다.
이 컴퓨터 프로그램 결과물의 바람직한 일례에서, 상기 방법은 앞에서 정의된 것과 같이 시료를 수합하는 방법을 따라 수합 단계를 더 포함한다.
본 발명의 방법을 사용하는 것에 의하여 분석 비용은 일반적으로 50%, 66% 또는 그 이상까지 대단히 줄일 수 있다.
다른 측면에서, 본 발명은 범주형변수 (x) 종류의 개수가 p+1과 같은 것에 있어서 반배수체 또는 다배수체 개체들에서 이형 대립유전자를 지노타이핑에 대해 앞에서 설명한 것과 같이 발명 방법의 사용과 관계 있고, p는 상기 개체의 배수성 수준을 나타낸다. 일례로 그런 사용은 이배수체 또는 반배수체 개체에서 이형 대립유전자를 지노타이핑할 수 있도록 한다.
또 다른 측면에서, 본 발명은 상기 시료를 수합된 시료를 제공하도록 앞에서 설명한 발명의 방법에 따라서 수합하는 것을 포함하는 것 및 상기 수합된 시료에서 상기 분석을 수행하는 것과 관계 있다. 구해진 상기 정량의 결과는 (최대 시료 신호 강도는 각 가능한 결과로 나뉘는 이론상 간격의 개수에 의해 결정되는(아래를 보시오)) 결과점과 가장 가까운 결과로 반올림되고, 상기 신호의 세기는 상기 수합된 시료에서 범주형 변수 종류의 총 개수로 할당된다. 이것으로부터 범주형 변수는 상기 수합에서 상기 다양한 개체 시료의 비율을 고려한 상기 수합에서 각 개체 시료로 결정된다.
다른 측면에서, 본 발명은 앞에서 정의된 것과 같이 시료를 수합하는 방법에 의해 구해진 수합된 시료의 한 세트에서 수행하는 것을 포함하는 복수의 시료에서 분석을 수행하는 방법을 제공하고, 여기서 상기 시료는 범주형 변수로 분석되고, 또한 상기 시료에서 분석체의 정량 측정을 수반한다.
이 방법의 바람직한 일례에서, 분석을 수행하는 방법은 상기 시료의 수합에서 상기 개체 시료의 측정 기여(measurement contribution)로부터 추정하는 단계를 더 포함한다.
다른 측면에서, 본 발명은 수합된 시료를 제공하도록 시료 흡인기를 포함하고 앞에서 정의한 것과 같은 시료를 수합하는 방법을 수행하도록 처리기를 더 포함하는 수합된 시료에 다수의 시료를 수합하기 위한 수합하는 장치를 제공한다.
다른 측면에서 본 발명은 앞에서 정의한 것과 같이 시료를 수합하는 방법에 의해 구해진 수합된 시료의 한 세트에서 분석을 수행하도록 마련된 처리기를 포함하는 분석 장치를 제공하고, 상기 장치는 범주형 변수에 대해 상기 시료를 분석하는 것 및 상기 시료에서 분석체의 정량 측정을 수행하도록 마련된다.
이 분석 장치의 바람직한 일례에서, 상기 장치는 장치를 수합하는 것을 더 포함하고, 앞에 기재된 것과 같이 장치를 수합하는 것이 가장 바람직하다.
다른 측면에서, 본 발명은 컴퓨터 프로그램 결과물 자체 또는 캐리어를 제공하고, 이 프로그램 결과물은 컴퓨터, 프로그램된 컴퓨터 네트워크 또는 다른 프로그램 가능한 장치에서 로드되고 실행될 때, 앞에서 정의한 것과 같이 시료를 수합하는 방법을 시행한다.
다른 측면에서, 본 발명은 컴퓨터 프로그램 결과물 자체 또는 캐리어를 제공하고, 이 프로그램 결과물은 컴퓨터, 프로그램된 컴퓨터 네트워크 또는 다른 프로그램 가능한 장치에서 로드되고 실행될 때, 복수의 시료들에서 분석을 수행하는 방법을 시행하고, 상기 방법은 앞에서 정의된 것과 같이 시료를 수합하는 방법에 의해서 구해진, 수합된 시료의 한 세트에서 분석을 수행하는 것을 포함하고, 여기서 상기 시료는 범주형 변수로 분석되고, 또한 상기 시료에서 분석체의 정량 측정을 수반한다.
이 컴퓨터 프로그램 결과물의 바람직한 일례에서, 상기 방법은 앞에서 정의된 것과 같이 시료를 수합하는 방법을 따라 수합 단계를 더 포함한다.
본 발명의 방법을 사용하는 것에 의하여 분석 비용은 일반적으로 50%, 66% 또는 그 이상까지 대단히 줄일 수 있다.
도 1은 수합된 데이터(Y축)에 기초할 때 대립유전자 빈도와 개체 측정(X 축)에 기초할 때 대립유전자 빈도의 상관관계에 관한 그래프이다.
도 2는 개체에서 측정될 때의 대립유전자 빈도(Y 축)와 수합에서 예측되는 대립유전자 빈도(X 축)의 관계에 관한 그래프이다.
도 3은 상기 수합에서 보정된 대립유전자 빈도(Y 축)와 개체 분류 후에 개체에서 측정한 상기 대립유전자 빈도(X 축)의 관계에 관한 그래프이다.
도 4는 실험 1에서 수합 1에 대하여 기대되는 대립유전자 빈도(분류한 개체에 기초하는)와 예측되는 대립유전자 빈도의 차에 관한 그래프이다.
도 5는 실험 2에서 모든 수합에 대하여 기대되는 대립유전자 빈도(분류한 개체에 기초하는)와 예측되는 대립유전자 빈도의 상관관계에 관한 그래프이다.
도 6은 실험 2에서 모든 수합에 대하여 기대되는 대립유전자 빈도(분류한 개체에 기초하는)와 예측되는 대립유전자 빈도의 차에 관한 그래프이다.
여기에서 사용된 "범주형 변수(categorical variable)" 라는 용어는 특질(characteristic) 또는 형질(trait)과 같은 개별 변수(discrete variable)를 나타낸다. 일례로 분석체의 존재 또는 부재 또는 그것들의 특질, 또는 분석체에서 동형접합성(homozygous) 또는 이형접합성(heterozygous) 형태로 존재하는 또는 부재하는 대립유전자의 형질(allelic trait). 개별은 범주형과 매우 밀접하고, 비선형성(non-linear) 또는 불연속적인 것을 나타낸다. 범주형 변수는 일반적으로 시료의 특성을 측정하는 (범주형) 형질을 나타낸다. 범주형 변수는 2 항(2종류로 구성된)이다. "종류(class)"는 측정이 부과될 수 있는 군(group) 또는 범주를 나타낸다. 그러므로 순수하게 범수형 변수는 범주들의 배치를 허락하는 하나이고, 범주형 변수는 여러 가능한 범주들(종류들) 중의 하나인 값을 취한다. 특히, 상기 범주형 변수는 단일염기변이(SNP) 또는 다른 어떤 유전자적 표시인자, 대립유전자, 면역반응(immune response), 질병, 저항성(resistance capacity), 머리색, 성별, 질병 감염의 진행상황(status), 유전형 또는 다른 어떤 형질 또는 시료 또는 생물학적 독립체의 특성과 같은 유전자적 표지인자의 존재와 관련이 있을 것이다.
비록 그것들이 수치적으로 측정될 수 있다 하더라도, 일례로 분석장치에 의해 받아들이고, 읽고 기록될 수 있는, 생성된 분석체-신호(analyte-signal)로써, 범주형 변수 그 자신들은 수치적인 의미가 없고 또한 상기 범주는 고유한 배치법(intrinsic ordering)이 없다. 일례로 성별은 두 범주(0 및 1로써 종종 부호화되는 수(male) 및 암(female))를 갖는 범주형 변수이고, 규정되지 않은 범주들(unordered categories)를 나타내는 것이 바람직하다. 유전형은 또한 많은 바람직하게 규정되지 않은 범주를 갖는 범주형 변수이다(가끔 2, 1 및 0으로 부호화되는 AA, Aa 및 aa).
본 발명의 측면에서 상기 시료는 범주형 변수는 측정될 어떤 시료이다. 상기 시료는 동물(인간을 포함한) 또는 식물의 조직 또는 체액(body fluid)과 같은 생물학적인 시료, 토양, 공기 및 물 시료와 같은 환경적인 시료일 것이다. 상기 시료는 (부분적으로) 정제되었거나, 처리되지 않은(가공되지 않은) 시료일 것이다. 상기 시료는 DNA시료의 일례와 같은 핵산(nucleic acid) 시료가 바람직하다.
존재(presence) 또는 형태(form)가 정량분석으로 측정된 상시 분석체는 어떤 화학적, 생물학적 독립체일 것이다. 바람직한 일례로 상기 분석체는 생체분자이고, 또한 상기 범주형 변수는 상기 생체 분자의 이형(variant)일 것이다. 상기 생체분자는 핵산, 특히 RNA, DNA와 같은 폴리뉴클레오티드(polynucleotide)와 같은 것이 바람직하고, 상기 이형은 일례로 상기 폴리뉴클레오티드에서 이형 대립유전자의 일례와 같은 뉴클레오티드 변이(polymorphism), 가장 바람직하게는 SNP 일 것이고, 또는 특정한 뉴클레오티드 위치의 염기 동일성(base identity)이다.
그러므로 본문에서 정의된 것과 같이 상기 분석체는 어떤 범주형 변수(일례로 A, T, C 또는 G의 범주 값(categorical value)을 갖는 핵산분자라는 점에서 특정한 뉴클레오티드 위치의 염기 동일성)를 드러내는 DNA 분자일 수 있다. 특정한 뉴클레오티드 위치의 상기 염기 동일성은 일례로 DNA 시퀀싱의 기술에서 알려져 있는 것과 같은 상기 뉴클레오티드의 형광성 유사체(fluorescent analogue)를 일부로 포함하는 cDNA 복제로부터 유도된 형광에 기반된 정량분석을 이용하여 측정될 수 있다. 상기 DNA의 특정한 위치에 있는 상기 유사체에 의해 조사되고, 분석 장치에 의해 측정된 형광의 상기 양적인 수준은 일례로 해당 위치에 대한 아데닌(Adenine)과 같이 해당 뉴클레오티드 위치에 대한 범주 값에 부과된다.
특정한 뉴클레오티드 위치의 염기 동일성을 결정하는 것에서, 본 발명은 특정한 핵산의 상기 뉴클레오티드 시퀀스는 결정될 수 있는 개체 시료들의 수합하는 것에 적용된다. 시퀀싱 검정(sequencing assay)(분석)에 대한 본 발명 방법의 상기 적합성은 일례로 시퀀싱 젤(sequencing gel)은 상기 핵산(nucleic acid) 안에 특정한 뉴클레오티드 위치에 해당 염기 독자성(base identity)의 존재 또는 부재와 일치하는 어떤 위치에서 어느 특정한 염기에 대하여 신호의 존재 또는 부재에 있어서 시퀀싱 검정이 네 개의 가능한 염기 중 하나로부터라도 신호의 결정을 수반한다는 것을 인식할 때 이해될 수 있다.
본문에서 설명된 것과 같이 상기 비율에서 상기 시퀀스 젤을 시험하기 전에 두 시료의 수합은 어느 특정한 신호의 근원 및 각 개체 핵산에 대한 상기 시퀀스를 결정하도록 할 것이다.
상기 "분석체(analyte)"는 단백질, 펩티드(peptide) 또는 아미노산(amino acid)과 같은 폴리펩티드(polypeptide)일 것이다. 상기 분석체는 또한 핵산, 핵산 탐침(nucleic acid probe), 항체(antibody), 항원(antigen), 수용기(receptor), 부착소(hapten) 및 수용기 또는 수용기의 조각, (형광) 라벨, 색원체(chromogen), 방사성 동위원소(radioisotope)에 대한 리간드(ligand)일 것이다. 실제로, 상기 분석체는 정량적으로 측정될 수 있고, 또한 범주형 변수의 종류를 결정하는데 사용될 수 있는 어떤 화학적 또는 물리적 물질에 의해서 형성될 수 있다.
본문에서 사용한 "뉴클레오티드"라는 상기 용어는 당(sugar)의 C-1-탄소에 연결되는 푸린(아데닌 또는 구아닌(guanine)) 또는 피리미딘(pyrimidine)(티민(thymin), 시토신(cytosine) 또는 우라실(uracyl)) 염기, 일반적으로 리보오스(ribose, RNA) 또는 디옥시리보오스(deoxyribose, DNA)를 포함하고, 상기 당의 C-5-탄소에 연결되는 하나 이상의 인산염기(phosphate group)을 더 포함하는 화합물을 나타낸다. 상기 용어는 핵산 또는 폴리뉴클레오티드의 개별 구성 요소(individual building block)에 관한 참조를 포함하고, 이것에 있어서 개별 뉴클레오티드의 당 단위는 미결정 푸린(pending purine) 또는 피리미딘 염기를 가진 당 인산염 중추(sugar phosphate backbone)을 형성하도록 인산디에스테르 교각(phosphodiester bridge)를 통해 연결된다.
본문에서 사용된 "핵산(nucleic acid)"이라는 상기 용어는 디옥시리보뉴클레오티드(deoxynucleotide) 또는 리보뉴클레오티드(riconucleotide) 고분자, 즉 폴리뉴클레오티드 단일 또는 이중 가닥 형태(single- or double-stranded form)에 대하여 언급한 것을 포함하고, 제한이 없는 한, 정상적으로 발생한 뉴클레오티드와 어느 정도 유사하게 가공하지 않은 뉴클레오티드들(natural nucleotides)은 단일가닥(single-stranded) 핵산과 잡종화하는(일례로 펩티드 핵산) 가공하지 않은 뉴클레오티드의 상기 필수적인 본질을 가진 알려진 유사체를 포함한다.
폴리뉴클레오티드는 전장(full-length) 또는 원래의 배열순서(sequence of native) 또는 비상동(heterologous)의 구조 또는 제어 유전자(regulatory gene)가 될 수 있다. 별도의 표시가 없으면 상기 용어는 구체적으로 명시된 유전자 배열(specified sequence) 뿐만 아니라 그것들의 상호보완적인 유전자 배열의 참조를 포함한다. 그러므로 안정성 또는 다른 이유들로 변성된 기본 구조(backbone)을 가진 DNA 또는 RNA는 본 명세서에서 의도하는 용어로써의 "폴리뉴클레오티드"이다. 게다가 두 가지의 예로써, 이노신(inosine)과 같은 특이한 염기를 포함하거나 트리틸화된 염기와 같이 변성된 DNA 또는 RNA는 본문에서 사용된 용어로써의 뉴클레오티드이다.
"정량 측정(quantitative measurement)" 이라는 상기 용어는 시료에서 분석체의 양을 결정하는 것을 나타낸다. 상기 "정량"이라는 용어는 상기 측정이 수치값(numerical value)으로 표현될 수 있다는 사실을 나타낸다. 상기 수치값은 치수, 크기, 규모, 양, 용량, 농도, 높이, 깊이, 넓이, 너비, 길이, 무게, 부피 또는 면적을 나타낼 것이다. 상기 정량 측정은 세기, 발색성(chromogenic) 또는 형광성 신호와 같은 측정 신호 피크의 높이 또는 피크의 면적, 또는 다른 정량적인 신호를 나타낼 것이다. 일반적으로 분석체의 존재 또는 형태를 결정할 때, 상기 측정은 기구의 신호를 나타낼 것이다. 일례로 SNP의 존재를 결정할 때, 상기 측정은 교배 신호를 나타낼 것이고, 또한 상기 측정은 일반적으로 형광계(fluorimeter)에 의하여 측정된 것으로써 형광 강도(fluorescence intensity)를 제공할 것이다. 면역 반응의 존재를 결정할 때, 상기 측정은 항체 타이터(antibody titer)의 측정을 나타낼 것이고, 상기 측정은 또한 일반적으로 형광 강도로써 제공될 것이다. 상기 측정은 연속적인 측정 결과를 제공할 필요가 없으나, 비연속적인 간격(discrete interval) 또는 범주와 관계가 있을 것이다. 상기 측정은 또한 준정량일 것이다. 상기 측정은 부분 2n-1, 3n-1 또는 xn -1 및 바람직하게는 최대 시료 신호 강도의 비례 간격(proportional interval)으로 결정될 수 있다면(일반 비율이 각각 2, 3, 또는 x인 기하학적인 유전자 배열로써 제공될지의 여부에 의존한다), 상기 측정은 이론적으로 적절하다.
본문에서 사용된 "수합(pooling)" 이라는 상기 용어는 사용자에게 최대 이점의 목적으로 시료들의 분류 또는 병합을 나타낸다. 특히 "수합" 이라는 용어는 한 시료의 중량치를 나타내는 다수 시료 묶음의 조제를 나타낸다. 다수의 시료를 하나의 단일 시료로 병합하는 것은 일반적으로 시료를 섞는 것에 의해 수행된다. 본 발명에서 혼합하는 것은 각 시료에 존재하는 분석체의 양이 결정적인 것에 있어서 개체 시료의 양의 신중한 무게 측정을 요구한다. 시료 A는 2g/l 분량의 분석체이고, 시료 B는 1g/l 분량일 때, 이 시료들은 분석체 비율 1:3을 제공하기 위하여 1:6의 부피비로 수합되어야 한다.
두 시료가 일례로 1:3의 비율로 수합될 때, 또는 세 시료가 본 발명의 예시에서 규정된 것처럼 1:3:9로 수합될 때, 상기 수합에서의 상기 이형의 가능한 빈도는 각각 12.5% 및 3.85% 간격의 끝점에 의해 결정된다. 이 간격들의 상기 끝점은 "결과점(result points)" 으로써 본문에 나타내고, 또한 최대 시료 신호 강도에 도달할 만큼 상기 정량 측정의 단계 증가와 동등하다.
"기하학적 유전자 배열(geometric sequence)" 이라는 상기 용어는 어떤 두 개의 연이은 항목 사이의 비율이 같을 때, 유전자 배열의 수(sequence of numbers)를 나타낸다. 즉, 상기 유전자 배열에서 상기 다음 항목은 언제나 같은 숫자에 의한 이전의 항목을 증대시키는 것에 의하여 얻어진다. 이 고정된 수는 유전자 배열에 대해서 일반 비율이라고 불린다. 본 발명의 기하학적인 유전자 배열에서 첫 번째 항목은 1이고, 상기 일반적 비율은 시료 형태에 따라 달라지는 2 또는 3이다.
"최대 시료 신호 강도" 라는 상기 용어는 해당 수합의 모든 시료들이 양의 신호(positive signal)일 때, 즉 개체 시료의 100%가 실험된 분석체에 대하여 양(positive)일 때 얻어진 신호를 나타낸다. 상기 최대 시료 신호 강도는 어떤 적절한 방법에 의해 결정될 수 있다. 일례로 50 개체 시료는 이 시료들 사이에 존재하는 개별 사건의 수에 관해서 그것들의 구성을 결정하도록 각각 측정할 수 있고, 또한 나중에 이 시료들은 수합된 실험에서 측정될 것이다. 여기에 있어서, 상기 수합된 시료들에 대해 측정된 상기 신호 강도는 모든 개체 시료들의 모든 신호 강도를 합산해서 구할 수 있는 같은 비율에서 보이고 있다.
본 발명의 방법은 어떤 n개의 시료로 수행될 것이다. 그러나 실제로, n에 대한 상기 최대 숫자는 측정 방법의 정확도 의하여 설정된다. 즉 두 개의 연이은 결과점 사이의 통계학적으로 타당한 차이를 가진 정확성은 결정될 수 있을 것이다. 상기 방법의 정확성(표준 편차(standard deviation))은 앞에서 언급된 것에 일치해야 한다.
본 발명의 방법의 적용은 제한은 없지만 지노타이핑 방법을 포함한다. DNA의 유전자 배열에 기초하는 지노타이핑은 많은 적용이 있다. 게노타이프는 모든 종에서 맵핑(mapping), 연계(association) 및 진단(diagnostics)에 사용될 수 있다. 특정한 지노타이핑하는 예는 a) 의학 진단(medical diagnostics) 뿐만 아니라 통제 연구 수합(control study poolings)과 같은 경우의 후속의 개체 유형별 분류와 같은 인류에 대한 지노타이핑; b) QTL 연구, 후보 유전자(candidate gene) 접근법 및 유전체의 다양한 종류 적용(genome wide selection application)에서의 가축에 대한 지노타이핑; 및 c) 맵핑 및 연계 연구들과 같은 예에서 식물에 대한 지노타이핑을 포함한다.
수합하는 것은 또한 인류, 가축, 식물, 박테리아 및 바이러스의 유전자 배열을 할 때 사용될 수 있다. 유전자 배열하는 것에 대한 개체 시료의 더 특정한 수합은 두 개 이상의 개체의 유전자 배열이 비교될 때 적절하다.
시료를 수합하는 것에 대한 본 발명의 방법은 적어도 첫 번째 시료 및 두 번째 시료로부터 부시료(subsample)을 취하는 것을 포함하고, 이것에 있어서 상기 첫 번째 및 두 번째 부시료는 수합된 시료의 형태로 상기 두 개의 부시료의 혼합물을 제공하도록 단일 용기에서 융합되고, 여기에서 상기 수합된 시료에서 상기 첫 번째 및 두 번째 시료간의 비율은 본문에서 설명한 것과 같이 그것에서 분석체의 농도에 근거한 1:3 또는 3:1이다. 유사하게, 세 개의 시료가 수합될 때(이 표현은 세 개의 시료가 혼합된 사실을 나타낸다), 상기 수합된 시료에서 구해진 첫 번째, 두 번째 및 세 번째 부시료(어떤 순서로)간의 비율은 본문에서 앞서 설명한 것처럼 1:3:9이다. 상기 수합에서 상기 이형의 가능한 빈도는 각각 12.5% 및 3.85%의 간격의 끝점에 의해 결정된다. 이 간격들의 상기 끝점은 "결과점" 으로써 본문에 나타내고, 또한 최대 시료 신호 강도에 도달할 만큼 상기 정량 측정의 단계 증가와 동등하다.
본문에서 정의한 것처럼 수합하는 방법은 수합장치(사용)에 의해 수행될 것이다. 그러한 장치는 정해진(그렇지만 변수인) 부피의 형태와 같은 일례로 시료의 정해진 양을 수집하고 운반하기 위해 마련된 시료 수집기(sample collector)를 적절하게 포함한다. 적절한 시료 수집기는 실험실에서 사용되는 로봇식 시료 운반 및 공정시스템에 일반적으로 적용되는 것과 같은 피펫터(pipettor)이다. 그러한 로봇식 시스템들은 일반적으로 실험대 위에 올려놓는 형식의 기구, 적합하게는 하나 이상의 마이크로플레이트(microplate) 처리단(processor stage), 시약대(reagent station), 필터 접시 흡인기 및 공압식이고 피펫팁을 한번 쓰고 버릴 수 있는 로봇식 피펫팅 모듈(pipetting module)을 포함한다. 그것들은 결국 한 개 이상의 반응 튜브에서 다른 시료들로부터 다른 액체 부피를 혼합하도록 설계될 때 이들 시료 로봇 시스템은 본 발명의 방법을 수행하기에 매우 적합하다. 그러므로 단일 수합된 시료에서 다른 시료들로부터 다른 액체 부피를 혼합하는 작업을 수행하는 그러한 피펫팅 로봇 시스템에 적합하도록 기술자의 숙련된 기술의 수준 내에 있다. 그러한 피펫팅 로봇 시스템은 그러나 수합된 시료에서 다수의 시료를 수합하기 위한 시료 수합 장치의 오직 하나의 적합한 예이고, 상기 장치는 다수의 시료 바이알들로부터 시료를 수합하기 위해, 또한 수합된 시료를 제공하도록 수합한 단일 바이알에 시료를 운반하기 위한 시료 수집기를 포함하고, 본문에서 정의한 것처럼 시료를 수합하는 방법을 수행하도록 마련된 처리기(processor)를 더 포함한다. 본문에서 사용된 "처리기" 라는 상기 용어는 메모리 또는 다른 저장 장치에서 저장되고 검색된 명령(instruction)들은 피펫팅 장치 및 시료 바이알과 피펫팅 로봇 시스템의 수합하는 바이알 사이에 있는 상기 피펫팅 장치에서 움직이는 로봇 팔(robotic arms)을 포함하는 유닛과 같은 한 개 이상의 수행 유닛(execution unit)을 사용하여 수행되는 어떤 컴퓨팅 장치(computing device)에 대해 언급한 것을 포함하는 것을 의미한다. 상기 바이알이라는 용어는 넓게 해석되어야 하고 배열(array) 위의 분석점(analysis spot)에 대해서 언급한 것을 포함할 것이다. 그러므로 본 발명에 부합되는 처리기는 일례로 PC(personal computer), 중앙 컴퓨터(mainframe computer), 네트워크 컴퓨터(network computer), 워크스테이션(workstation), 서버(server), 마이크로프로세서(microprocessor), DSP, 주문형 반도체(application-specific integrated circuits, ASICs) 뿐만 아니라 이것들의 부분 및 결합과 다른 형태의 데이터 처리기를 포함한다. 상기 처리기는 위의 본문에서 정의된 것처럼 수합하는 장치에 대하여 본 발명을 따라 시료를 수합하는 방법을 시행하는 컴퓨터 프로그램으로부터 명령을 받도록 마련된다.
상기 분석에 있어서 범주형 변수에 대하여 분석되는 시료를 수합하는 방법은 분석체의 정량 측정을 포함하고, 수합에서 개체 시료의 양에 있어서 n개 시료의 수합을 제공하는 것을 포함하는 시료를 수합하는 상기 방법은 상기 시료에서 분석체가 x0:x1:x2:x(n-1)의 몰 비율에 존재하는 것과 같고, 여기서 x는 상기 범주형 변수 종류의 수를 나타내는 2 이상의 정수이다.
수합하는 상기 방법은 매우 간단하고 상대적으로 단순한 식에 관해서 설명될 수 있는 반면에, 본문에서 설명된 것처럼 수합된 시료들의 분석하는 방법은 더 복잡하다.
본문에서 설명한 것처럼, 범주형 변수(일례로 유전자형) 여러 가능한 범주들(BB, AB, AA)중 하나의 값을 취할 것이다. 이 범주들은 결과 간격들의 종류에 일치한다. 상기 범주들은 파라미터(parameter)(일례로 형광)에 대한 분석체(DNA)에서 정량 측정을 수행하고, 종류는 상기 범주형 변수에 대한 이형을 나타내는 각 분석 결과의 범주화에 기초하는 이 파라미터 값에 종류를 배정하는 것으로 결정된다(도 7).
일반적으로, 가능한 분석 결과의 총 수는 범주형 변수의 본질에 의존한다. 이배수체 유기체의 유전자형의 경우의 일례로, 상기 배수성 수준은 가능한 분석 결과의 수를 결정한다. 일반적인 용어로 상기 범주형 변수의 상기 본질은 이형들의 다른 수의 존재 또는 시료에서의 상기 분석체의 세트(도 7)를 포함할 수 있다. 또한 가능한 분석 결과의 상기 총 수는 취할 수 있는 한 반복의 가능한 다른 범주형 변수에 의존한다. 가능한 분석 결과의 수의 예는 표 1에 제공된다.
[표 1] 측정이 같은 사건의 반복으로 구성되어 있을 때 측정에 대한 가능한 분석 결과의 총 수
Figure pct00001
n은 가능한 범주형 변수의 수 또는 1 반복에 대한 이형을 나타내고, k는 시료에서 반복의 회수이다. 상기 표에서 제공된 상기 값은 수식 (n + k k +1)에 기초로 계산된다.
일례로, 하나의 대립유전자는 두 개의 다른 이형(A또는 B)만 가질 수 있기 때문에 이배수체 개체의 상기 유전자형(하나의 시료에서 하나의 대립유전자의 두 번 반복)은 3(AA, AB 및 BB)와 같다. 삼배수체(하나의 대립유전자의 세 번 반복)은 4개의 다른 유전자형(AAA, AAB, ABB 및 BBB)를 가질 수 있다.
개체에 대하여 혈액형 그룹은 4개의 다른 이형(A, B, AB 또는 O)을 가진 한 번 반복이다.
표 1에서 상황들에 대한 상기 수식은 반복 이형이 측정될 때 중요하지 않다. 지노타이핑의 일례로, 유전자형 AB 및 유전자형 BA의 사이에는 차이가 없다. 그러나 상기 반복의 독자성이 중요할 경우에는 가능한 분석 결과의 총 수를 계산하는 것에 대한 상기 수식은 nk이다. 그러면 표 1에서 이 수식은 (n + k k +1)의 수식을 대신한다. 또한 상기 표에서 모든 값은 그것에 따라서 바뀐다. 두 번 반복하는 상황 및 반복에 대하여 두 개의 가능한 결과에 대하여 4개의 결과가 있을 것이다. 세 번의 반복 및 반복에 대해 세 개의 가능한 결과를 갖는 경우에 9개의 다른 결과가 있을 것이다.
가능한 분석 결과의 상기 총 수는 수합한 비율(일례로 1:3:9)로써 본문에 적용되고, "수합 요소(pooling fact)" 라고 불리는 것을 직접 제공한다. 지노타이핑에 대해서 반수체 개체를 수합할 때의 일례로, 반복당 2개의 가능한 이형을 가진 하나의 반복이 있다. 그러한 경우에 상기 수합 요소는 2(표 1에서 결과의 수인)와 같다.
그 다음에 4 개체를 수합하는 것은 20:21:22:23의 비율로 행해질 필요가 있다.
이배수체 개체를 수합할 때, 상기 수합 요소는 3이다. 3개체를 수합하는 것은 30:31:32의 비율로 행해질 필요가 있다.
수합에서 결과의 상기 총 수는 다음 식과 같다
총 수합 결과= 수합 요소 시료의 수
신호 세기에서의 증가는;
증가=1/( 수합 요소 시료의 수 -1)×100%
또는
1/(y×(( 수합 요소) 0 +( 수합 요소) 1 +( 수합 요소) 2 +………+( 수합 요소) (n-1) ))×100%
와 같고, n은 시료의 숫자, y는 수합요소에서 1을 뺀 것이다.
측정강도가 한 번 반복에 대해 모든 이형이 존재한다면(상기 누락된 하나는 다른 것에 대한 1에서 뺀 강도로써 계산될 수 있기 때문에 모든 값이 -1인) 이 반복에 대해서 두 가능한 결과에 해당하는 해당 반복의 모든 결과에 대해 존재하거나 존재하지 않을 때 이것은 보여질 수 있기 때문에 표 1에서 첫 열의 결과가 나온다. 세 개의 가능한 대립유전자는 2 대신에 추정되고, 1은 2(적색 및 녹색) 대신에 세 개의 다른 빛의 세기를 측정할 수 있는 위의 예를 본다.
단일 측정만 있다면 표 1은 결과가 나올 수 있다.
본문에서 고려된 것으로써 수합된 시료를 분석하는 것에 대한 본 발명의 방법은 상기 수합된 시료에서 요구된 분석체에 대한 측정의 수행을 포함한다. 측정 결과의 기록에서 기구 신호의 일례로, 상기 분석은 아래의 내용에서 제공되는 예들에서 매우 자세하게 예를 들게 될 연쇄적인 단계를 수반한다.
상기 시료는 범주형 변수에 대해 분석되는 것에 있어서, 본 발명의 방법에 의하여 구할 수 있는 수반된 시료의 한 세트에서 분석을 수행하는 것은 상기 시료에서 분석체의 정량 측정을 수반한다. 상기 분석체는 상기 변주형 변수의 적어도 하나의 이형의 존재 또는 부재를 나타내는 파라미터인 화학적 또는 물리적 물질 또는 독립체이다. 일례로 유기체의 변주형 변수인 상기 유전자형으로써 결정될 때 변종 대립유전자를 갖는 분석체는 상기 유기체의 DNA, DNA 탐침 또는 유전자적 라벨(genetic label)이고 해당 분석체의 절대값은 이형의 존재(또는 부재)와 직접적으로 관계가 있다. 상기 분석체에 대한 정량 측정은 일반적으로 상기 분석체 파라미터에 대한 값으로써 형광 강도, 방사성 동위원소 강도 또는 어떤 정량 측정을 수반할 것이다. 어떤 한계점 또는 범주형 변수를 넘어서는 측정 값은 일반적으로 상기 이형의 존재를 나타낸다. 그러므로 시료에서 분석체의 정량 측정은 상기 시료에서 분석된 해당 범주형 변수의 이형의 존재 또는 부재를 암시하는 분석체를 나타낸다.
기본적으로 본문에서 정의한 것처럼 시료를 수합하는 방법에 의해 구해진 수합된 시료를 분석하는 방법에서 상시 수합에서 개체 시료의 기여도 즉, 상기 수합에서 상기 개체 시료에 대한 결과는 아래와 같이 결정된다.
n개 시료의 수합에서 수행된 어떤 분석 "A" 대한 첫 번째 최대 시료의 신호강도는 100% 신호로 결정 및 설정된다. 상기 최대 시료 신호 강도는 n개 시료의 수합에서 상기 시료의 100%가 범주형 변수에 대해 양(positive)일 때 달성된 상기 신호 강도이다. 상기 최대 시료 신호 강도는 n개의 양의 참고 시료들(positive reference samples)의 시험 수합(test-pool) 및 측정 신호를 결정하는 것을 제공하는 것에 의해 결정될 수 있고, 이것에 있어서 상기 양의 참고 시료들은 범주형 변수를 고려하여 양이고, 여기서 n은 분석 "A" 수행되는 상기 수합에서 시료들의 수이다. 분석 "A" 대해서 상기 최대 시료 신호 강도는 추후 사용을 위해서 컴퓨터 메모리에 기록되거나 저장된다. 다음으로 관심의 상기 분석체는 분석 "A"를 수행함으로써 본 발명에 의해 구해진 수합된 시료에서 측정된다. 상기 수합된 시료에서 분석체에 대한 수합된 시료의 상기 신호강도 결과는 기록되고, 위에서 정의한 것처럼 가장 가까운 결과점으로 반올림 되고, 또한 선택적으로 저장된다. 그리고 나서 상기 최대 신호 강도와 비교된다. 적절하게는 이 비교는 다음과 같이 수행될 수 있다. 일반적으로 각 가능한 측정 결과는 1/(y×(30+31+32+3(n-1)))×100% 값으로 할당된다. 여기서 n은 수합된 시료들의 수, y는 "A"가 존재 또는 존재하지 않는 것을 나타내는 정수 2이고, 100%는 상기 최대 시료 신호 강도이다. 상기 주석 y×(30+31+32+3(n-1))는 y×(30+31+32+3i+3(n-1))로 나타내는 것으로써 이해되어야 하고, 여기서 n은 시료의 수, i는 2 내지 n 사이의 값을 갖는 증가하는 정수이다. 일례로 y는 범주형 변수의 2종류(표지인자의 존재 및 표지인자의 부재)이고 4개의 양의 참고 시료를 사용한 100%에서 상기 최대 시료 신호 강도 세트를 갖는 4개 시료의 수합에 대해서, 총 2×(30+31+32+33)=2+6+18+54=80 결과점이 있고, 여기서 각 가능한 측정 결과는 1/80×100%=1.25% 또는 그것의 배수의 값으로 할당될 수 있다. 시료들의 수합에 있는 각 시료에 대한 상기 결과는 컴퓨터 메모리에 읽기 가능한 형태로 컴퓨터에 저장될 수 있고, 사기 수합에서 각 개체 시료에 대해 해당하는 상기 최대 시료 신호 강도의 0% 내지 100% 사이 1/(y×(30+31+32+3(n-1)))×100%의 증가 단계의 각 결과점에 할당되는 시료 결과표에서 읽을 수 있다. 일례로 그런 결과표는 다음 표 2에서 제공되는 것과 같은 표이다.
상기 분석은 상기 수합된 시료에서 여러 가지 부시료에 각각 상기 범주형 변수가 할당되는 것으로 완료된다. 본문에서 정의된 것처럼 수합된 시료를 분석하는 방법은 분석 장치에 의해 수행된다. 본 발명의 분석장치는 위에서 설명한 것처럼 시료를 수합하기 휘한 방법으로 얻어진 수합된 시료의 한 세트에서 분석을 수행하도록 마련된 처리기를 포함하고, 여기에 있어서, 상기 장치는 범주형 변수에 대해 상기 시료를 분석하고 상기 시료에서 분석체의 정량 측정을 수행하도록 마련된 것이다. 위에서 언급한 것처럼 상기 분석 장치의 고유한 특징은 상기 수합에서 각 개체 시료에 범주형 변수에 대하여 수합된 시료를 분석하고, 상기 시료에서 분석체의 정량 측정을 수행하도록 마련된 것이다. 기본적으로 상기 분석 장치는 측정하고, 상기 수합된 시료에 대해 구해진 상기 측 결과를 분석하고, 수합에서 각 개체 시료에 해당 결과 범주형 변수로부터 추론하도록 마련된다. 그러한 장치는 상기 수합된 시료에서 분석체 신호의 측정에 대한 신호 판독(signal-reading)을 포함하는 것이 적절하다. 상기 분석 장치는 위에서 언급한 것처럼 측정 결과 및 상기 결과표를 저장하기 위한 메모리를 포함하는 것이 더 적절하다. 상기 분석 장치는 메모리 및/또는 상기 판독 유닛(reading unit)으로부터 데이터를 검색하고, 계산 및 반복되는 과정을 수행하도록 마련된 처리기 포함하는 것이 더 적절하다. 여기에 있어서, 수합된 시료에 대한 상기 측정 결과는 위에서 나타낸 결과표, 상기 메모리 또는 처리기에 시료 데이터를 입력하는 것에 대한 입력/출력 접속기(input/output interface), 및 상기 처리기에 연결된 표시기(display)를 이용하여 상기 수합에서 상기 개체 시료들에 대해 해당하는 결과와 비교되고 그것에 할당된다. 상기 처리기는 위 본문에서 정의한 것처럼 분석 장치에서 본 발명에 따라 시료를 분석하는 방법을 실시하는 컴퓨터 프로그램으로부터 명령을 받도록 마련된다. 본문에서 사용된 "처리기" 라는 상기 용어는 메모리 또는 다른 저장장치로부터 받은 명령을 수합된 시료를 받고 시료 또는 수합된 시료에서 상기 분석체의 상기 신호를 결정하는 것에 의한 분석체의 측정을 수행하기 위한 신호 판독 유닛(signal reading unit)같은 하나 이상의 실행 유닛(execution unit)을 이용하여 실행하는 어떤 컴퓨팅 장치(computing device)에 대해 언급한 것을 포함하는 것을 의미한다.
본 발명의 분석 장치는 본 발명의 상기 수합하는 장치를 더 포함할 것이다.
본 발명은 컴퓨터 프로그램 결과물 자체 또는 캐리어를 더 제공하며, 프로그램 결과물은 컴퓨터, 프로그램된 컴퓨터 네트워크 또는 다른 프로그램 가능한 기구에 로딩되고 실행될 때, 위에서 설명된 것처럼 시료를 수합하는 방법을 실행한다. 기본적으로 상기 컴퓨터 프로그램 결과물은 본 발명의 수합하는 장치의 상기 메모리에 저장될 것이고, 수합하는 방법의 상기 여러가지 공정단계에 해당하는 명령들의 세트로 상기 처리기를 제공하는 것에 의한 상기 장치의 처리기에 의해 실행될 것이다.
본 발명은 컴퓨터 프로그램 결과물 자체 또는 캐리어를 더 제공하며, 프로그램 결과물은 컴퓨터, 프로그램된 컴퓨터 네트워크 또는 다른 프로그램 가능한 기구에 로딩되고 실행될 때, 다수의 시료에서 분석을 수행하기 위한 방법을 실행하고, 상기 방법은 위에서 설명한 것처럼 시료를 수합하는 방법에 의해 얻어진 수합된 시료의 세트에서 분석을 수행하는 것을 포함한다. 여기에 있어서 상기 시료는 범주형 변수에 대해 분석되고, 상기 시료에서 분석체의 정량 측정을 포함한다. 기본적으로 상기 컴퓨터 프로그램 결과물은 본 발명의 상기 분석장치의 메모리에 저장될 것이고, 분석 방법의 여러가지 공정 단계에 해당하는 명령의 세트로 상기 처리기를 제공하는 상기 장치의 처리기에 의해 실행될 것이다. 분석을 수행하기 위한 상기 컴퓨터 프로그램 결과물에서, 상기 소프트웨어(software) 명령어에 끼워 넣는 상기 방법은 위에서 설명한 것처럼 시료를 수합하는 단계를 더 포함한다.
본 발명은 다음의 한정하지 않는 시료의 방법에 의해 예시를 보일 것이다.
[예시 1] 표준화를 위하여 50 개체의 1개 수합을 이용한 SNP의 존재에 대한 이배수체 개체 시료 지노타이핑의 예
(단계 1)
모든 SNP 및 모든 개체에 대해 마이크로어레이(microarray) 구성방식에 두 개의 다른 형광 색소를 이용하여 적색 형광에 대한 강도(대립유전자의 존재) 및 녹색 형광(대립유전자의 부재)를 얻었다. 적색 및 녹색 강도 사이의 비율은 동형 접합성 동물(homozygous animal) 에 대해서 항상 1(또는 0)이 아니거나 또는 이형 접합성 동물(heterozygous animal)에 대해서 항상 0.5가 아니다.
분류한 개체 (individual typing)에서의 상기 데이터는 전체 분류된 SNP에 대하여 상기 신호 강도로부터 보정 계수(correction factor)를 계산하도록 사용되었다.
가장 중요한 보정 계수(K)를 포함하도록, 보정 계수는 종종 대립유전자를 나타내는 어떤 비균등 효율(unequal efficiency)에 대한 데이터를 보정하도록 사용했고, 이형 접합성 동물 유전자형으로부터의 신호를 사용했다. 만약 이형 접합성 유전자형이 존재하지 않는다면, 연구된 SNP 는 연구하에서의 개체군에서 분리하지 않고, 그러므로 상기 수합에서 이 SNP에 대한 결과들은 누락시켜야 한다.
50 개체의 상기 시료에서 이형 접합체가 존재하지 않기 때문에 SNP의 누락은 낮은 MAF(소수 대립유전자 빈도(minor allele frequency))를 갖는 SNP에서의 정보는 잃을 수 있는 결과로써 얻을 수도 있다.
많은 적용(유전체의 다양한 종류와 같은)에 대해서, 내우 낮은 소수 대립유전자 빈도를 갖는 SNP는 정확도에 매우 많이 기여하고 결정은 이 SNP에 대한 데이터를 사용할 수 없도록 하거나 상기 보정 계수를 적용할 수 없도록 하기 때문에 이것은 위험하다.
사용된 상기 첫 번째 보정 계수(K)는
K=avg( Xraw / Yraw )
Xraw는 적색에 대해 측정된 강도이고, Yraw는 녹색에 대해 측정된 강도이다. 이 값은 유전자형 AB를 가진 개별적으로 지노타이핑된 시료로부터 결정된다.
한 유전자형에 대해 모든 비드(bead)의 평균 결과를 이용하는 대신에, 모든 분리된 비드의 결과를 사용할 수 있다. 그래서 하나의 시료로부터 Xraw 및 Yraw, 또는 X 및 Y에 대한 평균 결과를 사용하거나, 해당 시료들로부터 모든 분리된 비드의 결과를 사용한다.
상기 다른 보정 계수는 AAavg 및 BBavg이다. AAavg는 AA 유전형의 보정되지 않은 대립유전자 빈도의 평균이다. 이 값은 1에 가까운 것으로 예상된다. BBavg는 BB 유전형의 보정되지 않은 대립유전자 빈도의 평균이다. 이 값은 0에 가까운 것으로 예상된다. AAavg 및 BBavg는 식
AAavg =( avg ( Xraw /( Xraw + Yraw )))
BBavg =( avg ( Xraw /( Xraw + Yraw )))
를 이용하여 계산되었다.
(단계 2)
하나의 실험 수합(testpool)은 위의 단계 1로부터 50개체 모두를 포함하여 구성되었다. 이 ng/μl단위의 이 말단 DNA(end DNA)의 농도까지 NanoDrop 분광광도계(spectrophotometer)(NanoDrop 기술, USA)를 이용하여 각 개체 시료에서 측정된다. 그리고 나서 모든 DNA 시료는 단일 시료로 수합하기 전 50ng/μl의 표준 농도로 희석된다. 그러므로 상기 얻어진 실험 수합에서 대립유전자 빈도는 보정되지 않았거나 첫 번째 단계에서 발견된 보정계수에 기초한다고 추정했다.
대립유전자 A에 대해서 보정되지 않은 대립유전자 빈도는 다음과 같이 두 강도의 합으로 나눈 적색 강도 사이의 비율로써 계산된다.
보정되지 않은 대립유전자 빈도= Xraw /( Xraw + Yraw )
적용된 대립유전자 빈도에 대한 첫 번째 보정은
보정된 대립유전자 빈도= Xraw /( Xraw +K× Yraw )
적용된 두 번째 보정은 표준화했다.
표준화된 대립유전자 빈도=(보정된 대립유전자 빈도- BBavg )/ AAavg
보정 및 표준화 양쪽에 대해서 상기 개체 시료로부터 모든 SNP 각각에 대해 세 유전자형 모두 사용했다.
추정된 대립유전자 빈도 정확성의 순서는 표준화(가장 정확), 보정(중간) 및 보정되지 않은 것(최소한의 정확도)의 순이다.
이것은 단계 1에 이형 접합성 개체가 없다면 상기 보정 계수K는 0.5로 설정되었고, 동형 접합성 개체가 없다면 상기 보정 계수 AAavg 및 BBavg는 각각 1 및 0으로 설정되었다는 것을 의미한다.
(단계 3)
계산된 대립유전자빈도를 분류한 개체와 비교하고, 상기 실험 수합의 결과를 기본으로 했다. 이것으로부터 상기 실제 결과가 X축에 있는 4차 다항식(fourth degree polynomial)을 추정했다. 각기 실험된 개체 및 거의 18000 SNP를 가지는 수합에서 지노타이핑 결과를 도 1에 나타냈다. 지노타이핑은 닭의 유전체 전체적으로 골고루 분포된 SNP로, 18K Chicken SNP iSelect Infinium 검정(Illumina 주식회사, USA)을 이용하여 행해졌다. 검정, 작업의 흐름 및 칩(chip)에 대한 자세한 내용 Illumina의 웹사이트(http://www.illumina.com/pages.ilmn?ID=12)에서 찾아볼 수 있다. 이 다항식으로부터 개체들로부터 알려진 상기 빈도가 0, 0.05, 0.1, 0.15, ---, 0.9, 0.95 및 1일 때, 상기 실험 수합에서 상기 예측된 대립유전자 빈도를 계산했다.
Y축에 실제 빈도가 있는 두 번째 그래프에서 이들 결과를 넣을 때, 보정의 상기 세 번째 단계에 대한 보정 계수를 구했다(도 2).
이 보정계수를 적용한 후에 상기 실험 수합에서 상기 대립유전자 빈도는 상기 실제 빈도를 갖는 일차 관계식을 보여준다(도 3).
50 개체(및 설명된 대로 보정된)의 상기 실험 수합에서 측정된 상기 대립유전자 빈도의 96%를 넘는 약 18000 SNP를 이용한 이 실험에서는 분류한 개체로부터의 결과와 비교했을 때 ±6.25%의 범위 안에 있다.
본 발명의 적용에 대해서 앞서 세 개의 단계는 상기 분석의 정확도를 향상시키기 위하여 "교정(calibration)" 으로써 실제 분석에 앞서 수행되는 것이 바람직하다. 그러나 이 단계들은 매번 수행될 필요는 없다. 상기 측정(수행된다면)의 교정은 다음과 같이 덧붙인다.
(단계 4)
1:3, 1:3:9 또는 1:31:32:3(n-1)의 비율로 2, 3 또는 n개 개체의 DNA 수합을 구성하고, 지노타이핑을 위해 상기 수합은 상기 측정에 종속시키고, 이것에 있어서 신호 강도는 상기 18K Chicken SNP iSelect Infinium 검정을 이용하여 마이크로어레이에 적색 및 녹색에 대해 결정된다.
(단계 5)
단계 1 및 단계 3 에서 찾은 상기 보정 계수로, 상기 대립유전자 빈도는 상기 수합에서 결과로 나온 신호 강도로부터 계산된다. 수합에서 두 개체로 상기 예견된 보정 빈도는 0%, 12.5%, 25.0%, 37.5%, 50.0%, 62.5%, 75.0%, 87.5% 및 100% 결과점으로 주어진다. 반올림은 가장 가까운 결과점에서 행해진다. 두 개체의 상기 유전자형은 표2에서 나타낸 것과 같은 결과로부터 나온다.
수합에서 세 개체로 반올림은 결과점 사이의 간격이 3.85%(100/(33-1)) 등 일 때 가장 가까운 결과점에서 행해진다. 연속한 결과점 사이의 가장 짧은 간격, 신호의 더 정확한 판독은 상기 결과점 중 하나에 특정한 결과의 적절한 할당량을 정하기 위해서 반드시 있어야 한다. 더 정확한 판독은 지노타이핑 기술이 더 발전됨으로써 실현 가능하게 될 것이다.
수합에서 두 개체를 가진 상기 상황에 대해서 상기 수합에서 상기 추정 및 보정된 대립유전자 빈도는 상기 개체들(도3의 적색 선)에서 상기 실제 빈도로부터 ±6.25%의 범위로 떨어질 때, 하나는 SNP만 사용하도록 결정할 수 있다.
[표 2] 수합된 시료에서 대립유전자 빈도의 결과 점 및 A 및 C 대립유전자를 가진 SNP에 대한 상기 수합에서 상기 두 개체의 추론된 유전자형
Figure pct00002
다른 정보가 개체 유전자형을 추론하는 것이 가능하지 않다면, 수합된 결과와 개체 결과 사이의 6.25%보다 큰 차이를 보이는 SNP의 것은 생략되어야 한다.
개체 유전자형을 추론하는 추가 정보는 상기 개체의 상기 내력 또는 상기 개체가 속하는 상기 가계(family) 또는 상기 개체군에 존재하는 상기 반수체 유전자형에서의 정보로부터 유도된다.
상기 보정 계수의 반복성에 의존하는 단계 1, 2 및 3은 검정 조건이 같다고 갈려질 때 새로운 분석에서 완전히 생략될 것이다.
예시 1의 방법을 따를 때, 중요한 절약 (significant savings)은 상기 본래의 개체 시료들에 대한 신뢰할 수 있는 결과를 여전히 포함한다면, 분석될 필요가 있는 시료의 총 수를 줄이는 것에 의해서 구할 수 있다. 분석될 시료의 상기 총 수의 전형적인 감소는 표 3에 예시화 되었다.
[표 3] 본 발명에 따라 2 또는 3 개체를 수합할 때, 분석되는 시료의 수에서의 절약
Figure pct00003
[예시 2] 표준화에 대한 2 개체의 25개 수합을 사용한 이배수체 개체 시료의 지노타이핑의 예
(단계 1)
50 개체는 예시 1의 단계 1에서와 같이 따로 실험되었다.
(단계 2)
위의 단계 1로부터 50 개체 모두를 포함하는 상기 비율 1:3에서 2 시료 각각의 25개 수합을 구성한다. 이 수합에서 보정되지 않거나 또는 상기 첫 번째 단계에서 발견된 상기 보정 계수에 기초하는 대립유전자 빈도를 추정한다.
(단계 3)
상기 2개의 분류한 개체 및 2 개체 시료의 상기 수합에서 추론된 빈도와 상기 대립유전자 빈도의 합을 비교한다. 이 25개의 점으로부터 회귀선(regression line)을 계산한다. 그리고 나서 상기 회기 계수(regression coefficient) 및 절편은 다른 수합로부터 추정된 빈도를 보정하도록 사용될 수 있다.
(단계 4)
그리고 1:3, 1:3:9 및 1:31:32:3(n-1)의 비율로 2, 3 또는 n 개체의 DNA 수합을 구성한다.
(단계 5)
단계 1 및 단계 3에서 찾은 상기 보정 계수로 상기 수합에서 결과로 나온 신호 강도로부터 상기 대립유전자 빈도를 계산한다.
시료 수에 대한 상기 절약 방법은 이배수체 개체들의 유전자 배열에 대한 표 8에서 언급한 절약 방법과 동일하다.
[예시 3] 반배수체 개체 시료의 지노타이핑의 예
두 반배수체 시료가 상기 유전체에서 어떤 위치에 있는 대립유전자 A의 존재에 대해 수합되고 측정될 때, 상기 측정(피크 높이, 피크 아래의 면적, 강도)에서 기대되는 비율은 아래와 같다.
[표 4] 수합된 시료에서 대립유전자 빈도의 결과점 및 대립유전자 A 및 C를 가진 SNP에 대한 상기 수합에서 상기 두 개체의 추론된 유전자형
Figure pct00004
두 시료의 수합만 사용했다면 보정개수는 필요하지 않을 것이다. 더 많은 시료가 수합될 때 보정개수는 필요할 것이다. 그리고 그것들은 이형 접합성 및 동형 접합성 이배수체 개체의 모의 실험을 하도록 상기 분석체와 동량으로 두 시료의 수합로부터 측정될 수 있다.
세 시료를 수합하는 것이 1:2:4의 비율로 수합될 때, 상기 측정에서 다음과 같은 것이 기대된다.
[표 5] 수합된 시료에서 대립유전자 빈도의 결과점 및 대립유전자 A 및 C를 가진 SNP에 대한 상기 수합에서 상기 세 개체의 추론된 유전자형
Figure pct00005
[예시 4] 유전자형 배열 프로토콜(protocol)에서 본 발명의 사용
본 발명에서 설명한 수합하는 방법은 두 개 이상의 개체에서 유전자 배열을 결정할 필요가 있을 때 적용될 수 있다.
이중 흔적(double trace)을 분석하는 것은 두 개의 염기가 각 위치에 나타내지는 것이고, 상기 추적만을 시험하는 것에 의해 나온 각 염기 주형으로부터 식별하는 것이 가능할 때, 시퀀싱에 대하여 개체의 수합, 주형 또는 PCR 결과물은 상기 근본적인 문제 때문에 일반적인 실행이 아니다.
이중 흔적을 유발한 의도적으로 수합된 주형뿐만 아니라 여러가지 생물학적 및 생명공학적인 상황은 이중 흔적이 생기게 하는 것으로 알려져 있다. 이것들은 (복제없이) 직접 시퀀싱(direct sequenced)되는 RT-PCR에 의해 증폭되고, DNA로부터 mRNA에 전사된 유전 정보(transcript) 선택적으로 접합된 지역(alternative spliced region)에서 보여진다.
여러 방법들은 수합된 유전자 배열 또는 이중 흔적(double trace)의 상기 반수체 유전형을 추적하는 것에 대해 설명되어 왔다. Flot 등(2006)은 개체의 상기 반수체 유전형을 발견하도록 제안된 여러 분자에 의한 방법을 설명한다. 일례로 복제된 PCR 생성물을 유전자 배열하는 것(일례로 Muir 등, 2001), SSCP(단일가닥 구조 변이, single stranded conformation polymorphism)(Sunnucks 등, 2001), 농도구배를 겔에서 전기영동하는 것(Denaturating Gradient Gel Electrophoresis, DDGE)(Knapp, 2005), 단일 분자 단위로의 DNA의 극희석(extreme DNA dilution)(Ding & Cantor, 2003) 및 대립유전자-특정 PCR 시발체(primer)의 사용이다. 또한 여러가지 컴퓨터를 사용한 방법은 유전자 배열 혼합의 반수체 유전형 복원(reconstruction)에 대해 제안되어 왔다.
그러나 상기 설명된 모든 방법은 매우 비용 및 시간 소비가 심하고, 또한 득정한 목적(일례로 유전자 재배열, 선택적 삽입(alternative splicing), 템플레이트 및 유전자 배열 길이, 참고 유전체 유전자형의 사용가능성이 다른 PCR 증폭된 혼합물(PCR amplified mixture))에만 적용가능하고, 반배수체 또는 이배수체 시료 또는 완전히 알려지지 않은 유전자 배열을 처음부터 배열하는 것의 표준 직접 배열(standard direct sequencing)에 대해서는 적용되지 않는다.
본 발명에서 설명된 상기 수합하는 것에 따라 유전자 배열 주형의 수합은 상기 같은 유전자 배열 조각이 개체 및 수합된 시료에서 모두 구해질 수 있는 상황에 적용된다. 이것은 일례로 산탄 염기서열결정법(shotgun sequencing)(무작위 전단 조각(random sheared fragments))은 수합하기에 적합하지 않다는 것을 의미한다.
위에서 언급된 모든 적용들에서 수합이 목적에 적용된다면, 주형(시료, DNA, RNA 또는 PCR 생성물)의 동일한 양은 수합된다. 본문에서 주형의 동일하지 않은 양의 수합을 설명한다. 이것의 일례로, 구 주형으로 구성된 수합에 대한 상황에서만 설명되지만, 본 발명은 이배수체 유기체에 대해 1:3, 1:3:9, 1:31:32:3(n-1)의 비율로 및 반배수체 유기체에 대해 1:2, 1:2:3, 1:21:22:2(n-1)의 비율로 2, 3 또는 n 개체의 DNA(또는 전PCR 생성물(post-PCT product))의 수합을 구성하도록 사용될 수 있다.
접촉할 필요가 있는 일반적인 조건들은 상기 유전자 배열 장치는 주형을 스캔하고(일례로 형광에 대해서), 크로마토그램(chromatogram)의 결과는 규칙적으로 간격을 둔 피크들의 일련(string of peaks)으로써 상기 DNA 주형 및 유사한 높이의 유전자 배열을 나타낸다.
(단계1)
50 개체들에 대해 각각 유전자 배열 반응을 수행한다.
유전자 배열 반응을 한 개체의 데이터는 모든 염기(또는 뉴클레오티드) 위치에 대해 상기 피크 면적 또는 피크 높이로부터 보정 계수를 계산하는 데 사용된다.
(단계 2)
수합된 두 개체의 25개 수합에 대하여 유전자 배열 반응을 수행한다.
피크 면적 비율은 기본 피크(base peak) 및 잡 피크(noise peak)에서 첫 번째 및 두 번째 피크 사이를 구분하도록 사용된다. 상기 두 번째 피크는 상기 첫 번째 피크의 백분율이고, 한계치(threshold value)는 피크들과 잡 피크들 사이를 구분하도록 사용된다. 수합된 유전자 배열 반응에 대한 상기 데이터는 모든 염기(또는 뉴클레오티드) 위치에 대한 상기 피크 면적 또는 피크 높이로부터 보정 계수를 계산하는 데 사용된다.
(단계 3)
단계 1 및 2의 결과 그래프를 작성하고, 회귀선(regression line)을 구성한다(회귀 계수 및 절편을 계산한다).
(단계 4)
DNA(또는 전PCR 생성물)의 수합을 구성한다.
수합은 이배수체 유기체에 대하여 1:3, 1:3:9, 1:31:32:3(n-1)의 비율 및 반배수체 유기체에 대하여 1:2, 1:2:4, 1:21:22:2(n-1)의 비율로 2, 3 또는 n 개체로 구성된다.
(단계 5)
단계 1, 2 및 단계 3에서 찾은 상기 보정 계수로 베이스콜링(basecalling)은 상기 수합에서 결과로 나온 신호 강도로부터 계산될 수 있다.
이 실험에서 각 염기 위치(base position)에서 오직 2개의 가능성이 있는 뉴클레오티드(A 및 C)만이 보여지지만, 상기 같은 원리는 유전자 코드(genetic code)의 기준인 이용 가능한 네 뉴클레오티드 중 2 결과(out)의 다른 조합에 대하여 작용한다. 상기 "A" 뉴클레오티드에 대한 평균 피크 높이는 100으로 설정되고, 상기 "C" 뉴클레오티드에 대한 평균 피크 높이는 75이다. 이 피크 높이들에 기초하여, 두 개의 반배수체 시료들의 수합에서 모든 가능한 뉴클레오티드 조합에 대해 상기 상대적인 피크 높이는 표 6에 나타냈다. 두 개의 이배수체 주형으로 구성된 수합에 대하여 상기 상대적인 피크 높이는 표 7에 나타냈다.
[표 6] 수합된 반배수체 개체 및 수합되지 않은 반배수체 개체에서 대립유전자 빈도의 대립유전자 빈도의 결과점 및 상기 뉴클레오티드 유전자 배열에서 임의의 위치에 대하여 추론된 유전자형
Figure pct00006
[표 7] 수합된 이배수체 개체 및 수합되지 않은 이배수체 개체에서 대립유전자 빈도의 대립유전자 빈도의 결과점 및 상기 뉴클레오티드 유전자 배열에서 임의의 위치에 대하여 추론된 유전자형
Figure pct00007
표 8은 본 발명에서 상기 수합 계획과 비교하는 유전자 배열 반응수의 감소 및 수합되지 않은 경우를 나타내었다.
[표 8] 본 발명의 방법에 따라 두 개체를 수합할 때 시료 또는 유전자 배열 반응수의 절약
Figure pct00008
[예시 5] 선택적 보정 방법(alternative correction method)을 이용한 표준화에 대하여 50 개체 1개의 수합 및 2개체 25개의 수합을 이용한 이배수체 개체 시료의 지노타이핑의 예
(단계 1)
50 개체를 각각 실험한다.
Xraw 및 Yraw 대신에 표준화된 강도 X 및 Y를 사용한 다른 보정 방법 이외에는 예시 1의 단계 1과 같다.
상기 첫 번째 보정계수(K)는 X 및 Y를 이용하여 계산한다.
K= avg (X/Y)
X는 상기 A대립유전자(적색)에 대하여 표준화된 강도이고, Y는 B대립유전자(녹색)에 대하여 표준화된 강도이다. 이 값은 유전자형 AB를 가진 지노타이핑된 각각의 시료로부터 결정된다.
상기 다른 보정 계수 AAavg 및 BBavg는 또한 X 및 Y에 기초한다. AAavg는 AA 유전자형의 상기 보정되지 않은 대립유전자 빈도의 평균이다. 이 값은 1에 가까울 것으로 기대된다. BBavg는 BB 유전자형의 상기 보정되지 않은 대립유전자 빈도의 평균이다. 이 값은 0에 가까울 것으로 기대된다. AAavg 및 BBavg는 다음 식을 이용하여 계산되었다.
AAavg =( avg (X/(X+Y)))
BBavg =( avg (X/(X+Y)))
모든 보정계수 K, AAavg 및 BBavg는 또한 예시1의 단계 1와 같이 Xraw 및 Yraw에 기초하여 계산될 수 있다. 유전자형 AA가 아닌 것이 상기 50 개체 중에서 이용 가능하다면, AAavg는 1로 설정된다. 또한 유전자형 BB가 아닌 것이 이용 가능하다면 BBavg는 0으로 설정된다.
다음 단계는 50개의 모든 개체가 결과를 가지는 SNP에 대하여 상기 분류한 개체에 기초하는 대립유전자 빈도를 계산하는 것이다.
(단계 2) 한 개의 수합은 예시1의 단계 2와 같이 단계 1로부터 50개의 모든 개체들을 포함하여 구성된다.
대립유전자 A에 대하여 보정되지 않은 대립유전자 빈도는 양쪽의 표준화된 강도의 합(X+Y)에 의해 나누어진 표준화된 적색 강도(X) 사이의 비율로써 계산된다.
보정되지 않은 대립유전자 빈도=X/(X+Y) (Raf라고 부른다)
적용한 대립유전자 빈도수에 대하여 첫 번째 보정은 다음과 같다.
보정된 대립유전자 빈도=X/(X+K×Y) (Rafk라고 부른다)
이형 접합성 유전자형이 없다면, K는 계산될 수 없다. 그 경우에 다음 법칙을 적용할 수 있다.
Raf<0.1이면 Rafk는 0으로 설정된다.
Raf>0.9이면 Rafk는 1로 설정된다.
AAavg 및 BBavg를 사용한 상기 표준화 보정은 상기 표준화된 강도 X 및 Y로 시작할 때 항상 필요하지는 않다. 만약 Xraw 및 Yraw로 시작한다면 AAavg 및 BBavg를 이용한 표준화는 예시 1의 단계 2와 같이 적용될 수 있다.
표준화가 적용되면 다음 식을 사용한다.
표준화된 대립유전자빈도=(보정된 대립유전자 빈도- BBavg )/ AAavg (Rafn 이라고 부른다)
(단계 3)
상기 기대되는 대립유전자 빈도
단계 1에서 분류한 개체
이것으로부터 다음 모델을 이용한 상기 회귀 계수를 계산하였다.
기대되는 대립유전자 빈도= b1 ×관찰된 빈도+ b2 ×관찰된 빈도 2 + b3 ×관찰된 빈도 3 + b4 ×관찰된 빈도 4 , 절편 없음.
상기 보정된 빈도(Rafk 및 Rafn) 또는 보정되지 않은 빈도(Raf) 어느 쪽도 상기 식에서 관찰된 빈도와 같이 사용된다.
상기 모델로부터 예측된 대립유전자 빈도로 기대되는 것과 비교하는 것에 의해 최상의 보정 방법(Rafk, Rafn 또는 Raf)가 발견될 수 있다.
최상의 보정 방법으로부터 상기 회귀 계수는 단계 5a에서 두 개체의 상기 수합로부터 상기 대립유전자 빈도를 보정하도록 뒤에 사용된다.
(단계 4)
상기 50개의 개체 시료로부터 1:3의 비율로 두 개체의 25개 DNA 수합을 구성한다. 개체는 한 번 사용되고 하나는 상기 수합에서 세 번 사용되는 것에 주의한다.
(단계 5a)
50개 개체 수합의 결과에 기초하는 보정
단계 1(K, AAavg 및 BBavg) 및 단계 3(회귀 계수 b1, b2, b3 및 b4)에서 찾은 상기 보정 계수로 상기 대립유전자 빈도는 단계 4에서 구성된 상기 수합에서 결과로 나온 신호 강도로부터 계산될 수 있다. 첫 번째 Raf, Rafk 또는 Rafn은 단계 1로부터 보정 계수 K, AAavg 및 BBavg를 사용하여 계산된다(단계 3에서 찾은 최상의 보정 방법에 따른다).
그리고 첫 번째 Raf, Rafk 또는 Rafn은
기대되는 대립유전자 빈도= b1 ×관찰된 빈도+ b2 ×관찰된 빈도 2 + b3 ×관찰된 빈도 3 + b4 ×관찰된 빈도 4 , 관찰된 빈도= Raf , Rafk 또는 Rafn
로써 단계 3에서 찾은 회귀 계수 다항식을 사용하여 계산된다.
수합에서 두 개체로 예측된 보정 계수(predicted corrected frequency)는 결과점 0%, 12.5%, 25.0%, 37.5%, 50.0%, 62.5%, 75.0%, 87.5% 및 100%을 제공해야 한다. 가장 가까운 결과점에서 반올림한다. 상기 두 개체의 유전자형은 예시 1의 표 2에서 나타낸 것과 같은 결과로부터 도출될 수 있다.
(단계 5b)
두 개체 수합의 결과에 기초하는 보정
Raf, Rafk 또는 Rafn은 단계 4에서 구성된 상기 수합의 신호 강도 및 단계 1에서 찾은 상기 보정계수 K, AAavg 및 BBavg를 기초로 계산된다.
그리고 예시 5의 단계 4에서와 같이 같은 모델을 사용한 회귀 계수 다항식은20개의 수합에 기초하여 계산될 수 있다. 이 모델은 각각의 모든 SNP 또는 전 SNP들에 걸쳐 적용될 수 있다.
상기 다른 5개의 수합에서 상기 대립유전자 빈도는
Rafk 를 가진 회귀 모델로부터 Rafkc = b1 × Rafk + b2 × Rafk 2 + b3 × Rafk 3 + b4 × Rafk 4
Rafn 을 가진 회귀 모델로부터 Rafn = b1 × Rafn + b2 × Rafn 2 + b3 × Rafn 3 + b4 × Rafn 4
Raf 를 가진 회귀 모델로부터 Rafc = b1 × Raf + b2 × Raf 2 + b3 × Raf 3 + b4 × Raf 4
로써 이 회귀 계수에 기초하여 예측된다.
이것은 모든 시료가 한번에 예측하는데 사용되는 방법으로 5번 반복된다. 그리고 이 수합에서 상기 기대되는 대립유전자 빈도는 최상의 보정 방법을 발견하도록 상기 예측되는 대립유전자 빈도와 비교된다.
수합에서 두 개체로 예측된 보정 계수(predicted corrected frequency)는 결과점 0%, 12.5%, 25.0%, 37.5%, 50.0%, 62.5%, 75.0%, 87.5% 및 100%을 제공해야 한다. 가장 가까운 결과점에서 반올림한다. 상기 두 개체의 유전자형은 예시 1의 표 2에서 나타낸 것과 같은 결과로부터 도출될 수 있다.
(단계 5c)
두 개체 수합의 결과에 기초하는 보정
예측의 다른 방법은 다음 모델에 기초하는 빛의 강도(X 또는 Xraw 및 Y 또는 Yraw)에서 SNP에 의한 다선형 회귀 계수(multi linear regression coefficient)를 사용하여 할 수 있다.
기대되는 대립유전자 빈도= b1 ×X+ b2 ×Y
또는
기대되는 대립유전자 빈도= b1 × Xraw + b2 × Yraw
그리고 이 다선형 회귀 계수로 대립유전자 빈도는 다음을 이용하여 예측될 수 있다.
예측되는 대립유전자 빈도=절편+ b1 ×X+ b2 ×Y
또는
예측되는 대립유전자 빈도=절편+ b1 × Xraw + b2 × Yraw
위에서 설명한 것과 같이 다선형 회귀 계수는 20개 수합에 기초하여 계산된다.
그리고 다른 다섯 개 수합의 상기 대립유전자 빈도는 이 회귀 계수에 기초하여 예측된다. 이것은 모든 시료가 한번 예측에 사용되는 방법으로 다섯 번 반복된다. 그리고 이 수합에서 상기 기대되는 대립유전자 빈도는 최상의 보정 방법을 찾도록 상기 예측되는 대립유전자 빈도와 비교될 수 있다.
단계 5a 및 단계 5b에서와 같이 상기 두 개체의 유전자형은 예시 1의 표2에 나타낸 것과 같이 상기 결과로부터 도출된다.
(단계 6)
다른 개체 시료로부터 1:3의 비율로 두 개체의 DNA 수합을 구성한다. 개체는 한 번 사용되고 하나는 단계 4에서와 같이 상기 수합에서 세 번 사용되는 것에 주의한다.
이 수합로부터 예시 1의 표 2에서 설명한 것과 같이 예시 1의 표 2를 사용한 상기 유전자형 빈도의 예측에 대하여 최상의 보정방법을 이용하여 유전자형을 얻을 수 있다.
[실험 1] Infinium Assay BeadChip 기술(Illumina 주식회사, 미국)을 사용한 전장 유전체 SNP 분석에 대하여 예시 5에서 설명한 방법의 적용
지노타이핑은 닭 유전체를 전체적으로 고르게 분포하고 SNP를 가진, 18K Chicken SNP iSelect Infinium 검정(Illumina 주식회사, 미국)을 사용하여 50개체에 대하여 행해졌다(van As 등, 2007). 검정, 작업흐름 및 칩에 대한 자세한 내용은 Illumina의 웹사이트(http://www.illumina.com/pages.ilmn?ID=12)에서 찾아볼 수 있다.
빈도인지 확인하는 것은 정확하게 추정할 수 있고, 8개 대립유전자(50개 각각 지노타이핑된 개체 중 4종의 다른 동물로부터)는 한 수합에서 조합되었다. 예시 5에서 설명한 것과 같이 단계 1 내지 단계 3 및 단계 5는 유전자형에서 예측된 대립유전자 빈도로부터의 유전정보의 번역(translation)을 제외하고 취해졌고, 표 2를 사용하는 것은 수행되지 않았다.
단계 4에서 4 개체 DNA의 등몰량(equimolar quantities)는 상기 1:3 비율로 두 개체로부터의 DNA대신 수합되었다.
두 마리의 다른 동물로부터 1:3 비율이 사용된다면 이것은 수합에서 8개의 대립유전자를 조합하는 것으로 여길 수 있다. 또한 4 개체의 등몰량을 사용하는 것으로 8개의 대립유전자는 조합된다.
이 방법으로 12개 수합은 구성되었고, 단계 1과 같이 50마리 동물의 한 개의 수합이다(같은 시료는 4 더하기 두 추가 시료의 상기 수합과 같이 사용된다). 그리고 이 13개의 수합은 Infinium 칩의 두 번째 배치(batch)를 사용하여 지노타이핑 되었다.
SNP당 K, AAavg 및 BBavg는 예시 5의 단계 1에서와 같이 계산되었다. 그리고 50개의 수합로부터의 보정되지 않은 대립유전자 및 보정된 대립 유전자는 예시 5의 단계 2에서와 같이 계산되었다.
또한 회귀 계수 다항식 은 예시 5의 단계 3에서와 같이 계산되었다.
단계 5b 및 5c에서 설명한 것과 같이 더 많은 상기 다항식 및 다선형 회귀 계수는 계산되었다. 이것은 11개의 수합에 기초하여 행해졌고, 상기 남은 수합에서 대립유전자는 상기 회귀 지수(regression factor)를 사용하여 예측되었다.
이 실험에서 X 및 Y(적색 및 녹색에 대한 강도)에서 상기 다선형 회귀는 최상의 결과로 주어졌다. 최종 결과는 도 4 및 표 9에 나타내었다.
전체적으로 상기 대립유전자 빈도의 총 4.6%가 잘못된 종류에서 하락했다. 이것들이 1:3 비율로 두 개체의 수합이었을 경우에는 이것은 3.0% 지노타이핑 오류의 결과가 나왔을 것이다.
[표 9] 기대되는 대립유전자 빈도와 비교되는 종류에 대한 예측되는 대립유전지 빈도의 수. 대각선의 숫자는 유전자형의 보정을 야기할 것이다. 대각선 밖에 있지만 박스 인에 있는 대립유전자 빈도는 결과적으로 하나의 유전자형 오류(genotype error)를 야기할 것이다. 다른 결과는 두 유전자형 오류로 끝날 것이다.
Figure pct00009
[실험 2] Veracode Assay 기술(Illumina 주식회사, USA)를 사용하여 SNP 분석에 대하여 예시 5에서 설명한 방법의 적용
지노타이핑은 닭 유전체를 전체적으로 고르게 분포하고 있는 SNP를 가진(단계 1), 96 Chicken SNP Veracode Golden Gate Assay(Illumina 주식회사, USA)를 사용하여 50 개체에 대하여 행해졌다. 검정, 작업흐름 및 칩에 대한 자세한 내용은 Illumina의 웹사이트(http://www.illumina.com/pages.ilmn?ID=12)에서 찾아볼 수 있다.
또한 모든 시료들의 한 개의 수합은 구성되었고(단계 2에서와 같이), 상기 1:3 비율에서 두 개체의 24개 수합이었다(단계 4에서와 같이). 이 25개의 수합은 화학 약품의 두 번째 배치로 게노타이핑되었다.
모든 보정은 예시 5의 단계 1 내지 3에서 설명한 것과 같이 행해졌다. 단계 5a에서의 상기 보정은 단계 3에서 찾은 상기 회귀 지수 다항식을 사용하여 2 개체의 24개 수합 모두에 적용된다.
단계 5b 및 단계 5c에서 남은 수합에 대하여 상기 대립유전자 빈도를 예측할 수 있도록 상기 회귀 지수(단계 5b에서의 다항식 및 단계 5c에서의 다선형)을 계산하도록 매번 23개의 수합을 사용했다. 모든 수합은 상기 대립유전자 빈도를 예측하도록 한번 사용되었기 때문에 전체적으로 이것을 24번 행했다. 최상의 결과는 (표준화된 값 X 및 Y을 기초로 계산된)Rafk를 이용하여 얻어졌고, Rafkc의 결과가 나온 단계 5b로부터의 상기 회귀 지수 다항식을 사용하여 보정되었다.
전체적으로 84 SNP는 상기 개체에서 소환되었다. 그리고 일부 SNP들은 상기 개체의 일부에 소환되었다. 전체적으로 1906개의 수합×SNP의 완전한 조합을 얻었다.
[표 10] 기대되는 대립유전자 빈도와 비교되는 종류에 대한 예측되는 대립유전자 빈도의 수. 대각선의 숫자는 유전자형의 보정을 야기할 것이다. 대각선 밖에 있지만 박스 인에 있는 대립유전자 빈도는 결과적으로 하나의 유전자형 오류(genotype error)를 야기할 것이다. 다른 결과는 두 유전자형 오류로 끝날 것이다.
Figure pct00010
전체적으로 138(138/1906×100=7.2%) 부조합이 있었다(표 10). 모든 관측이 2 개체 시료로 이루어지기 때문에 이것은 174개의 유전자형 오류(170/1906×2×100=4.46%)의 결과가 나왔다(표 11, 도 5 및 도6).
(단계 3(예시 5) 및 단계 5a, 5b 또는 5c(예시5)를 사용하여 행한)이 실시예에서 최상의 보정방법을 정의하는 과정은 또한 SNP에 의한 부조합 수에 대한 정보를 전달한다. 이것은 더 낮은 소환율(call rate)의 비용에서 오류의 위험성을 줄이도록 하는 상기 세트로부터 SNP를 제거하는 것을 가능하게 한다.
[표 11] 바르게 예측된 유전자형의 수
Figure pct00011
[실험 3] 다른 지노타이핑 방법을 사용한 SNP 분석에 대하여 예시 5에서 설명한 방법의 적용
예시 5에서 설명한 상기 방법은 또한 Affymetrix GeneChip(Affymetrix 주식회사, 미국) Ehsms Agilent 기술과 같이 실험 1 및 실험 2에서 설명한 방법 이외에도 다른 지노타이핑 방법에서도 쓰일 수 있다.
[예시 6] 다른 보정 방법 사용 외에 예시 4에서와 같이 유전자 배열 프로토콜에서 본 발명의 사용
(단계 1)
50 개체에 대하여 각각 유전자 배열 반응을 수행한다. 상기 Xraw 및 Yraw 값으로써 대립유전자 1의 피크 높이 및 대립유전자 2의 피크 높이 또는 Y 및 Y로써 상대적인 피크 높이를 사용한다.
그리고 예시 5의 단계 1에서의 지노타이핑에 대해 행한 것과 같은 방법으로 K, AAavg 및 BBavg를 계산한다.
(단계2)
모든 50 개체의 하나의 수합에서 유전자 배열 반응을 수행한다. 예시 5의 단계 2에서와 같이 보정되지 않은 대립유전자 빈도 및 보정된 대립유전자 빈도를 계산한다.
(단계 3)
분류한 개체 및 상기 수합로부터 빈도를 계산한다. 회귀 계수 다항식을 찾도록 예시 5의 단계 3에서와 같은 모델을 사용한다.
(단계 4)
두 개의 수합된 개체의 25개 수합에 대하여 유전자 배열 반응을 수행한다.
(단계 5a)
최선의 방법을 발견하도록 모든 50 개체의 보정된 빈도와 상기 수합에 기초하는 기대되는 빈도를 비교한다.
(단계 5b)
다음과 같은 모델을 사용하여 상기 다른 20개 수합에서 찾은 회귀 지수 다항식을 사용하여 두 개체의 5개 수합에서 Rafnc, Rafkc 및 Rafc를 계산한다.
기대되는 대립유전자 빈도= b1 ×관찰된 빈도+ b2 ×관찰된 빈도 2 + b3 ×관찰된 빈도 3 + b4 ×관찰된 빈도 4 , 절편 없음.
(단계 5c)
다음과 같은 모델을 사용하여 상기 다른 20개 수합에서 찾은 다선형 회귀 계수를 사용하여 두 개체의 5개 수합에서 예측되는 대립유전자 빈도를 계산한다.
예측되는 대립유전자 빈도=절편+ b1 ×X+ b2 ×Y
또는
예측되는 대립유전자 빈도=절편+ b1 × Xraw + b2 × Yraw
단계 3 및 단계 5로부터 모든 수합이 대립유전자 빈도 예측에 사용되고 있는 등의 경우에 단계 5b 및 단계 5c를 여러 번 반복하는 것으로 최상의 보정방법을 결정한다(확인(validation)).
필요하다면 확인을 위하여 다른 수들이 사용될 수 있다. 일례로 1은 상기 회귀 지수를 찾은 다음 이 지수를 사용하여 1을 예측하기 위하여 24개 수합을 사용할 수 있다. 전체적으로 1은 이것을 25번 반복할 필요가 있다.
최선의 보정 방법, 요구되는 보정 계수 및 회귀 지수로, 새로운 수합의 빈도를 예측하고, 표 2에서 결과로 나온 대립 유전자를 판독하는 것이 가능했다.

Claims (19)

  1. 범주형 변수(categorical variable)에 대하여 분석되는 시료 수합의 방법에 있어서,
    상기 분석은 분석체(analyte)의 정량 측정(quantitative measurement)을 수반하고,
    상기 시료 수합 방법은 n개의 시료 수합(pool)을 제공하는 단계를 포함하고, 상기 수합(pool)에서의 개체 시료의 양은 상기 시료에서 상기 분석체가 x0 : x1 : x2 : x(n-1)의 몰비(molar ratio)로 존재하며, 여기서 상기 x는 범주형 변수군(classes of the categorical variable)에 있는 숫자로 표시되는 2 이상의 정수인 방법.
  2. 제1항에 있어서,
    상기 분석체는 생체 분자(biomolecule)이고, 상기 범주형 변수는 상기 생체 분자의 변종(variant)인 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 생체 분자는 핵산(nucleic acid)인 것을 특징으로 하는 방법.
  4. 제3항에 있어서,
    상기 변종은 상기 핵산에서 뉴클레오티드(nucleotide) 변이(polymorphism)인 것을 특징으로 하는 방법.
  5. 제4항에 있어서
    상기 뉴클레오티드 변이는 SNP인 것을 특징으로 하는 방법.
  6. 제3항에 있어서,
    상기 변종은 특정한 뉴클레오티드 위치의 상기 염기 독자성(base identity)인 것을 특징으로 하는 방법.
  7. 제1항 내지 6항 중 어느 한 항에 있어서,
    상기 정량측정은 기구 신호(instrument signal)의 피크 높이 또는 피크 면적인 상기 강도의 상기 측정을 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 기구 신호는 형광 신호(fluorescence signal)인 것을 특징으로 하는 방법.
  9. 반수체 또는 배수체 개체에서 변종 대립유전자(allelic variant)를 지노타이핑(genotyping)하는 방법에 있어서 범주형 변수의 종류의 수 (x)는 p+1이고 P가 배수성 수준을 나타내는 것에 대하여 제1항 내지 제8항 중 어느 한 항에 따른 방법을 사용하는 용도.
  10. 제9항에 있어서,
    이배수성의 개체에서 변종 대립유전자를 지노타이핑하는 것에 대한 x는 3인 것을 특징으로 하는 사용 방법.
  11. 제1항 내지 제8항 중 어느 한 항에 따른 방법으로 수합된 시료를 제공하도록 상기 시료의 수합을 포함하는 단계; 및
    상기 수합된 시료에 상기 분석을 수행하는 방법
  12. 제1항 내지 제8항에 따른 방법으로 수합된 시료의 세트에서 분석의 수행하는 단계에 있어서, 상기 시료는 범주형 변수에 대해서 분석되고 상기 시료에서 분석체의 정량 측정을 수반하는 다수의 시료에서 분석을 수행하는 방법.
  13. 제12항에 있어서,
    상기 시료의 수합에서 상기 개체 시료의 상기 기여도 측정으로부터 추론하는 것을 더 포함하는 방법.
  14. 수합된 시료를 제공하는 시료 수집기(sample collector)를 포함하고, 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하기 위한 처리기를 더 포함하는 수합된 시료에 다수의 시료를 수합하기 위한 수합 장치.
  15. 제1항 내지 제8항 중 어느 한 항에 따른 방법으로 얻어진 수합된 시료의 세트에서 분석을 수행하도록 마련된 처리기로서, 상기 장치는 범주형 변수에 대하여 상기 시료를 분석하는 단계; 및
    상기 시료에서 분석체의 정량 측정을 수행하는 것을 포함하는 분석 장치.
  16. 제15항에 있어서,
    제14항의 수합하는 장치를 더 포함하는 것을 특징으로 하는 장치.
  17. 컴퓨터, 프로그램된 컴퓨터 네트워크(programed computor network) 또는 다른 프로그램 작동이 가능한 장치(programmable apparatus)에 로드(load)되고 수행될 때, 제1항 내지 제8항 중 어느 한 항에 따른 방법을 시행하는 컴퓨터 프로그램 자체 또는 캐리어.
  18. 프로그램 결과물은 컴퓨터, 컴퓨터, 프로그램된 컴퓨터 네트워크(programed computor network) 또는 다른 프로그램 작동이 가능한 장치(programmable apparatus)에 로드(load)되고 수행될 때, 다수의 시료에서 분석을 수행하기 위한 방법을 시행하고, 상기 시료는 범주형 변수에 대해서 분석되고 상기 시료에서 분석체의 정량 측정을 포함하는 것에 있어서, 제1항 내지 제8항 중 어느 한 항에 따른 방법에 의해 얻어진 수합된 시료의 세트에서 분석을 수행하는 것을 포함하는 상기 방법을 특징으로 하는 컴퓨터 프로그램 결과물 자체 또는 캐리어.
  19. 제18항에 있어서,
    상기 방법이 상기 수합하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 프로그램 결과물.
KR1020107011893A 2007-10-31 2008-10-31 생물 검정을 수행하기 위한 시료 수합 방법 KR20100098517A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP07119761 2007-10-31
EP07119761.0 2007-10-31

Publications (1)

Publication Number Publication Date
KR20100098517A true KR20100098517A (ko) 2010-09-07

Family

ID=39052362

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107011893A KR20100098517A (ko) 2007-10-31 2008-10-31 생물 검정을 수행하기 위한 시료 수합 방법

Country Status (18)

Country Link
US (1) US8594946B2 (ko)
EP (1) EP2222872B1 (ko)
JP (1) JP2011504095A (ko)
KR (1) KR20100098517A (ko)
CN (1) CN101910413B (ko)
AU (1) AU2008319580B2 (ko)
BR (1) BRPI0818870A2 (ko)
CA (1) CA2703938A1 (ko)
DK (1) DK2222872T3 (ko)
ES (1) ES2464817T3 (ko)
HK (1) HK1151069A1 (ko)
IL (1) IL205465A (ko)
MX (1) MX2010004821A (ko)
NZ (1) NZ585057A (ko)
RU (1) RU2010121856A (ko)
SG (1) SG185931A1 (ko)
WO (1) WO2009058016A1 (ko)
ZA (1) ZA201003233B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010126356A1 (en) * 2009-04-29 2010-11-04 Hendrix Genetics B.V. Method of pooling samples for performing a biological assay
KR101473705B1 (ko) * 2013-10-11 2014-12-18 삼성에스디에스 주식회사 생물학적 샘플 분석 시스템 및 방법
KR20150137283A (ko) * 2014-05-29 2015-12-09 사회복지법인 삼성생명공익재단 생물학적 샘플 분석 시스템 및 방법
WO2017196597A1 (en) * 2016-05-12 2017-11-16 Pioneer Hi-Bred International, Inc. Methods for simultaneous pooled genotyping
JPWO2023007883A1 (ko) * 2021-07-28 2023-02-02

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020172965A1 (en) 1996-12-13 2002-11-21 Arcaris, Inc. Methods for measuring relative amounts of nucleic acids in a complex mixture and retrieval of specific sequences therefrom
AU2002311897A1 (en) * 2001-05-09 2002-11-18 Third Wave Technologies, Inc. Nucleic acid detection in pooled samples
WO2005075678A1 (en) * 2004-02-10 2005-08-18 Yissum Research Development Company Of The Hebrew University Of Jerusalem Determination of genetic variants in a population using dna pools

Also Published As

Publication number Publication date
AU2008319580A1 (en) 2009-05-07
HK1151069A1 (en) 2012-01-20
AU2008319580B2 (en) 2014-02-27
DK2222872T3 (da) 2014-06-02
SG185931A1 (en) 2012-12-28
NZ585057A (en) 2012-09-28
WO2009058016A1 (en) 2009-05-07
US8594946B2 (en) 2013-11-26
IL205465A0 (en) 2010-12-30
CA2703938A1 (en) 2009-05-07
IL205465A (en) 2014-01-30
EP2222872B1 (en) 2014-02-26
EP2222872A1 (en) 2010-09-01
CN101910413B (zh) 2013-08-14
ZA201003233B (en) 2011-06-29
JP2011504095A (ja) 2011-02-03
US20100216666A1 (en) 2010-08-26
CN101910413A (zh) 2010-12-08
RU2010121856A (ru) 2011-12-10
ES2464817T3 (es) 2014-06-04
BRPI0818870A2 (pt) 2015-05-05
MX2010004821A (es) 2010-08-02

Similar Documents

Publication Publication Date Title
Guichoux et al. Current trends in microsatellite genotyping
Hert et al. Advantages and limitations of next‐generation sequencing technologies: a comparison of electrophoresis and non‐electrophoresis methods
CN103014137B (zh) 一种分析基因表达定量的方法
US7732138B2 (en) Rapid genotyping analysis and the device thereof
US20210202044A1 (en) Methods for compression of molecular tagged nucleic acid sequence data
JP2008533558A (ja) 遺伝子型分析のための正規化方法
KR20200058457A (ko) 압축된 분자 태깅된 핵산 서열 데이터를 사용하여 융합을 검출하는 방법
KR20100098517A (ko) 생물 검정을 수행하기 위한 시료 수합 방법
Wittkopp Using pyrosequencing to measure allele-specific mRNA abundance and infer the effects of cis-and trans-regulatory differences
US20030194711A1 (en) System and method for analyzing gene expression data
CN113832236A (zh) 一种用于鉴定梅花鹿、马鹿和杂交鹿的引物组、试剂盒和应用
US20120046179A1 (en) Method of pooling samples for performing a biological assay
Nowak et al. Genetic methods of HLA typing
CN110129419B (zh) 拷贝数变异的检测方法
WO2008076374A2 (en) Devices and methods of anonymously deconvoluting combined patient samples and combined patient assays
US20200318175A1 (en) Methods for partner agnostic gene fusion detection
Drmanac et al. Sequencing by hybridization arrays
WO2000033161A2 (en) Methods to reduce variance in treatment studies using genotyping
US20050064436A1 (en) Methods and compositions for identifying patient samples
TWI807861B (zh) 鑑定台灣人族群親緣性的方法及其系統
WO2024059487A1 (en) Methods for detecting allele dosages in polyploid organisms
JP4041842B2 (ja) Snp特定方法
CN117904315A (zh) 一种用于猫str标记位点扩增引物组及试剂盒
Clarke Bioinformatics challenges of high-throughput SNP discovery and utilization in non-model organisms
Maddox et al. Using PCR and linkage mapping to identify single genes and quantitative trait loci for livestock traits

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application