KR100450816B1 - Selection method of probe set for genotyping - Google Patents

Selection method of probe set for genotyping Download PDF

Info

Publication number
KR100450816B1
KR100450816B1 KR10-2002-0011871A KR20020011871A KR100450816B1 KR 100450816 B1 KR100450816 B1 KR 100450816B1 KR 20020011871 A KR20020011871 A KR 20020011871A KR 100450816 B1 KR100450816 B1 KR 100450816B1
Authority
KR
South Korea
Prior art keywords
nucleic acid
target nucleic
probe
normal
mutant
Prior art date
Application number
KR10-2002-0011871A
Other languages
Korean (ko)
Other versions
KR20030072709A (en
Inventor
심형섭
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2002-0011871A priority Critical patent/KR100450816B1/en
Publication of KR20030072709A publication Critical patent/KR20030072709A/en
Application granted granted Critical
Publication of KR100450816B1 publication Critical patent/KR100450816B1/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 정상 표적 핵산에 상보적인 복수 개의 프로브(probe) 및 돌연변이 표적 핵산에 상보적인 복수개의 프로브가 고정된 바이오칩 상에서 정상 표적 핵산 및 돌연변이 표적 핵산을 혼성화 (hybridization) 시켜 정상 표적 핵산-프로브 및 돌연변이 표적 핵산-프로브의 혼성화 강도(hybridization intensity) 데이터를 수집하는 단계; 상기의 데이터를 이용하여 평균차 검정을 실시하여 유의한 차이가 나지 않는 프로브를 제거하는 단계; 유의한 차이를 가지는 프로브의 정상 표적 핵산-프로브 혼성화 강도 분포 및 돌연변이 표적 핵산-프로브 혼성화 강도 분포로부터 정상 표적 핵산을 돌연변이 표적으로 분류할 확률인 가짜 양성 에러율(false positive error rate) 또는 돌연변이 표적을 정상 표적 핵산으로 잘못 분류할 확률인 가짜 음성 에러율(false negative error rate)을 계산하는 단계; 및 상기 가짜 양성 에러율 또는 가짜 음성 에러율의 기준을 통과한 프로브를 선택하는 단계를 포함하는 유전자형 확인용 프로브 세트 선택 방법에 관한 것이다.The present invention hybridizes a normal target nucleic acid and a mutant target nucleic acid on a biochip to which a plurality of probes complementary to the normal target nucleic acid and a plurality of probes complementary to the target nucleic acid are immobilized to hybridize the normal target nucleic acid-probe and the mutation. Collecting hybridization intensity data of the target nucleic acid-probe; Performing a mean difference test using the above data to remove probes having no significant difference; From a normal target nucleic acid-probe hybridization intensity distribution and a mutant target nucleic acid-probe hybridization intensity distribution of a probe with a significant difference, a false positive error rate or a mutation target that is the probability of classifying a normal target nucleic acid as a mutation target is normal. Calculating a false negative error rate that is a probability of misclassifying a target nucleic acid; And selecting a probe that has passed the criteria of the false positive error rate or the false negative error rate.

본 발명에 따르면, 정상 표적 핵산과 돌연변이 표적 핵산의 차이를 실험 오차 이내에서 감지할 수 있고, 점돌연변이 (point mutation) 뿐만 아니라 삽입(insertion) / 결실(deletion)의 경우에도 소수의 프로브를 가지고 유전자형을 확인할 수 있다.According to the present invention, the difference between a normal target nucleic acid and a mutant target nucleic acid can be detected within an experimental error, and genotypes with a few probes in case of insertion / deletion as well as point mutations. can confirm.

Description

유전자형 확인용 프로브 세트 선택 방법{Selection method of probe set for genotyping}Selection method of probe set for genotyping

본 발명은 유전자형을 모르는 샘플이 정상 유전자를 가졌는지 아니면 돌연변이형 유전자를 가졌는지를 확인하는 바이오칩에 고정될 프로브 세트를 선택하는 방법에 관한 것이다. 구체적으로 in silico 방법에 의해 설계된 프로브 풀(pool)이 고정된 바이오칩과 유전자형을 이미 알고 있는 샘플(sample)과의 혼성화 실험결과를 통한 데이터 수집 단계, 평균차 검정을 통해 프로브를 심사 및 선발하는 단계, 다양한 프로브 조합에 의한 판별성능 평가 단계, 및 최종 프로브 세트를 선택하는 단계를 포함하는 유전자형 확인에 필요한 프로브 세트를 선택하는 방법에 관한 것이다.The present invention relates to a method of selecting a set of probes to be immobilized on a biochip to determine whether a sample of unknown genotype has a normal gene or a mutant gene. Specifically, the step of collecting data through hybridization results of a biochip having a probe pool fixed by an in silico method and a sample of which genotype is already known, and examining and selecting a probe through an average difference test The present invention relates to a method for selecting a probe set necessary for genotyping, which includes evaluating discrimination performance by various probe combinations, and selecting a final probe set.

본 발명에 의해 선택된 프로브는 바이오칩 실험에서 발생하는 다양한 오차를 감안하여 선택되기 때문에 실제로 최적의 판별 성능을 보이고, 본 발명에 의해 선택된 프로브를 탑재한 바이오칩은 유전자형을 최소의 오차로 정확하게 판별하기 때문에 유전자의 돌연변이와 질병과의 연관(association)을 연구하는데 활용할 수 있다.Since the probe selected by the present invention is selected in consideration of various errors occurring in the biochip experiment, it shows an optimal discrimination performance.Because the biochip equipped with the probe selected by the present invention accurately determines the genotype with a minimum error, the gene It can be used to study the association between mutations and diseases.

유전자형을 확인하기 위한 방법에는 제한효소로 처리된 단편을 크기별로 분리하는 방법(restriction fragment sizing), 대립형질 특이성 올리고뉴클레오타이드 혼성화(allele specific oligonucleotide hybridization), 변성 구배 젤 전기영동(denaturing gradient gel electrophoresis), 단일 가닥 구조 분석(single stranded conformation analysis) 등 여러가지가 있지만 최근에 개발된 방법인 DNA 칩의 경우는 동시에 여러 위치의 유전자형을 한꺼번에 판별할 수 있는 장점이 있어 많은 사람들의 관심을 끌고 있다.Methods for genotyping include restriction fragment sizing, allele specific oligonucleotide hybridization, denaturing gradient gel electrophoresis, There are many things, such as single stranded conformation analysis, but the recently developed method of DNA chip has attracted the attention of many people because it has the advantage of being able to discriminate several types of gene types at the same time.

DNA 칩의 선두주자인 Affymetrix는 올리고뉴클레오타이드(oligonucleotide)를 프로브로 하는 DNA 칩을 사용하여 돌연변이(미국 특허 제6,027,880호, Arrays of nucleic acid probes and methods of using the same for detecting cystic fibrosis) 또는 다형성(미국 특허 제6,300,063호, Polymorphysm detection)등의 염기서열의 돌연변이를 파악하는 방법을 이미 제시하였다.Affymetrix, a leader in DNA chips, uses a DNA chip that probes with oligonucleotides (US Pat. No. 6,027,880, Arrays of nucleic acid probes and methods of using the same for detecting cystic fibrosis) or polymorphism (US Patent 6,300,063, Polymorphysm detection) has already been proposed a method for detecting the mutation of the nucleotide sequence.

Affymetrix의 유전자형 검출 방법은 기본적으로는 돌연변이가 있다고 알려진 위치에 A,C,G,T를 가지고 돌연변이가 있지 않은 다른 부위는 모두 같은 염기배열을 가지는 길이 9~25mer의 올리고뉴클레오타이드(oligonucleotide)를 프로브로 사용하는 타일드 어레이(tiled array) 방식이다. 이 방법은 서열결정(sequencing)의 기능을 함께 달성하기 위해서 돌연변이가 있다고 알려진 염기 서열의 위치뿐만 아니라 돌연변이 위치의 근처에서도 타일드 어레이 방식으로 가능한 모든 조합의 염기서열을 프로브로 사용하기 때문에 타일드 어레이를 적용하는 위치의 수가 증가함에 따라 필요한 프로브의 숫자도 4배씩 증가한다.The Affymetrix genotyping method is basically a 9-25mer oligonucleotide having a length of A, C, G, T where the mutation is known and all other non-mutant sites have the same base sequence. It is a tiled array method. The tiled array uses probes of all possible combinations of sequences in the tiled array method, not only at the position of the base where the mutation is known, but also near the mutation site, in order to achieve the function of sequencing together. As the number of positions to apply increases, the number of required probes increases by four times.

이에, 본 발명자는 돌연변이 위치가 정확하게 알려진 염기서열에 대해서 최소의 프로브를 사용하면서도 정확한 유전자형을 판별할 수 있는 방법을 찾기 위하여 연구 노력한 결과, 혼성화를 통한 데이터 수집 단계, 프로브의 심사 및 선발 단계, 성능평가 단계, 및 최종 프로브 세트를 선택하는 단계를 통하여 유전자형 확인에 필요한 프로브 세트를 선택하는 경우, 정상 표적 핵산과 돌연변이 표적 핵산의 차이를 실험 오차 이내에서 감지할 수 있고, 점돌연변이 (point mutation) 뿐만 아니라 삽입(insertion) / 결실(deletion)의 경우에도 소수의 프로브를 가지고 유전자형을 확인할 수 있음을 확인하고, 본 발명을 완성하게 되었다.Therefore, the present inventors have tried to find a method that can determine the exact genotype while using the minimum probe for the nucleotide sequence of which the mutation position is known correctly, and as a result, data collection step through hybridization, examination and selection step of probe, performance When selecting a probe set necessary for genotyping through an evaluation step and selecting a final probe set, a difference between a normal target nucleic acid and a mutant target nucleic acid can be detected within an experimental error, and a point mutation In addition, it was confirmed that genotype can be confirmed with a few probes even in the case of insertion / deletion, thus completing the present invention.

따라서, 본 발명의 주된 목적은 정상 표적 핵산과 돌연변이 표적 핵산의 차이를 실험 오차 이내에서 감지할 수 있고, 점돌연변이 (point mutation) 뿐만 아니라 삽입(insertion) / 결실(deletion)의 경우에도 소수의 프로브를 가지고 유전자형을 확인할 수 있는 유전자형 확인용 프로브 세트 선택 방법을 제공하는 데 있다.Therefore, the main object of the present invention is to detect the difference between the normal target nucleic acid and the mutant target nucleic acid within the experimental error, a small number of probes in the case of insertion / deletion as well as point mutation It is to provide a method for selecting a genotype probe set that can determine the genotype with.

도 1은 본 발명의 동작원리를 나타내는 흐름도이다.1 is a flowchart showing the operation principle of the present invention.

도 2는 혼성화 실험에 의한 데이타 수집 단계의 흐름도이다.2 is a flowchart of a data collection step by hybridization experiment.

도 3은 정상 표적 핵산과 프로브와의 혼성화 강도 분포와, 돌연변이 표적 핵산과 프로브와의 혼성화 강도 분포에 대한 평균차 검정을 실시하여 프로브를 심사하고, 유의하고 올바른 프로브만을 선발하는 단계의 흐름도이다.FIG. 3 is a flowchart of a step of examining probes by selecting a mean difference test for hybridization intensity distribution between normal target nucleic acid and "probe" and hybridization intensity distribution between mutant target nucleic acid and "probe, and selecting only a meaningful and correct probe.

도 4는 돌연변이 위치 3306의 두 돌연변이형 프로브(MP1, MP2)와 정상형/돌연변이형 표적과의 혼성화 강도 분포를 나타낸 산점도이다.FIG. 4 is a scatter plot showing the hybridization intensity distribution of two mutant probes (MP1, MP2) at mutation position 3306 with a normal / mutant target.

도 5는 돌연변이 위치 4037의 두 돌연변이형 프로브(MP1, MP2)와 정상형/돌연변이형 표적과의 혼성화 강도 분포를 나타낸 산점도이다.FIG. 5 is a scatter plot showing the hybridization intensity distribution between two mutant probes (MP1, MP2) at mutation position 4037 and a normal / mutant target.

도 6은 돌연변이 위치 5683의 두 돌연변이형 프로브(MP1, MP2)와 정상형/돌연변이형 표적과의 혼성화 강도 분포를 나타낸 산점도이다.FIG. 6 is a scatter plot showing the hybridization intensity distribution between two mutant probes (MP1, MP2) at mutation position 5683 and a normal / mutant target.

도 7은 돌연변이 위치 6195의 두 돌연변이형 프로브(MP1, MP2)와 정상형/돌연변이형 표적과의 혼성화 강도 분포를 나타낸 산점도이다.FIG. 7 is a scatter plot showing the hybridization intensity distribution between two mutant probes (MP1, MP2) at mutation position 6195 and a normal / mutant target.

본 발명의 목적을 달성하기 위하여, 정상 표적 핵산에 상보적인 복수 개의 프로브 및 돌연변이 표적 핵산에 상보적인 복수 개의 프로브가 고정된 바이오칩과 정상 표적 핵산을 가지고 있는 샘플 및 돌연변이 표적 핵산을 가지고 있는 샘플을 반복적으로 혼성화 (hybridization) 시켜 정상 표적 핵산을 가지고 있는 샘플-프로브(본 프로브는 정상형 및 돌연변이형이 혼합된 프로브이다) 및 돌연변이 표적 핵산을 가지고 있는 샘플-프로브(본 프로브도 정상형 및 돌연변이형이 혼합된 프로브이다)의 혼성화 강도 데이터를 수집하는 단계; 상기의 데이터를 이용하여 평균차 검정(t-test)을 실시하여 유의한 차이가 나지 않는(샘플이 다른데도 불구하고 혼성화 강도의 평균이 통계적으로 다르지 않은 것으로 p 값이 유의수준보다 큰 것을 의미) 프로브를 제외하는 프로브 심사 및 선발단계; 유의한 차이를 가지는 프로브(p 값이 유의수준보다 작은 프로브)에 대하여 정상 표적 핵산-프로브 혼성화 강도 분포 및 돌연변이 표적 핵산-프로브 혼성화 강도 분포로부터, 교차 유효성검증법(cross-validation)에 의해 정상 표적 핵산을 돌연변이 표적으로 분류할 확률인 가짜 양성 에러율(false positive error rate)과 돌연변이 표적을 정상 표적 핵산으로 잘못 분류할 확률인 가짜 음성 에러율(false negative error rate)을 계산하는 프로브 성능평가 단계; 및 상기 가짜 양성 에러율이 기준보다 낮고 동시에 가짜 음성 에러율의 기준보다 낮은 프로브를 선택하는 단계를 포함하는 유전자형 확인용 프로브 세트 선택 방법을 제공한다.To achieve the object of the present invention, a plurality of probes complementary to a normal target nucleic acid and a plurality of probes complementary to a mutant target nucleic acid are repeatedly immobilized with a sample having a biochip and a normal target nucleic acid immobilized and a sample having a mutant target nucleic acid. Sample-probe with normal target nucleic acid (hybrid probe is a mixture of normal and mutant), and sample-probe with mutant target nucleic acid (this probe is also mixed with normal and mutant) Collecting hybridization intensity data of the probe; Using the above data, the mean difference test (t-test) was performed, and there was no significant difference (the average of the hybridization intensities was not statistically different even though the samples were different, which means that the p value is larger than the significance level). Probe examination and selection step excluding the probe; For probes with significant differences (probes whose p-values are less than significant), from the normal target nucleic acid-probe hybridization intensity distribution and the mutant target nucleic acid-probe hybridization intensity distribution, the normal targets were cross-validated by cross-validation. A probe performance evaluation step of calculating a false positive error rate, which is a probability of classifying a nucleic acid as a mutation target, and a false negative error rate, which is a probability of misclassifying a mutant target as a normal target nucleic acid; And selecting a probe having a false positive error rate lower than a reference and at the same time lower than a reference of a fake negative error rate.

본 발명의 프로브 심사 및 선발단계에 있어서, 두 표본(정상 표적 핵산을 가지는 샘플-프로브와의 혼성화 강도 분포, 돌연변이 표적 핵산을 가지는 샘플-프로브와의 혼성화 강도 분포)에 대해서 모두 정규분포를 따르면 두 표본 t-검정(two sample t-test)을 실시하여 p 값을 구하고, 어느 하나라도 정규분포를 따르지 않는 경우는 비모수적 방법(nonparametric method)에 의해 p 값을 구하는 단계; 상기 p 값으로 두 표본의 평균이 유의한 차이가 있는가를 확인하는 단계(유의한 차이가 난다는 것은 유의 수준( α)보다 p 값이 작은 것을 의미한다); 상기 유의한 차이가 있는가를 확인하는 단계에서 유의한 차이가 나는 프로브에 대해 정상형 프로브의 경우는 정상 표적 핵산과의 혼성화 강도 평균이 돌연변이 표적 핵산과의 혼성화 강도 평균보다 크고 돌연변이형 프로브는 반대로 돌연변이 표적 핵산과의 혼성화 강도 평균이 정상 표적 핵산과의 혼성화 강도 평균보다 큰 프로브를 선발하는 단계를 포함할 수 있다.In the probe screening and selection step of the present invention, both samples (hybridization intensity distribution with sample-probe with normal target nucleic acid and hybridization intensity distribution with sample-probe with mutant target nucleic acid) were followed according to the normal distribution. Performing a two sample t-test to obtain a p value, and if none follow a normal distribution, obtaining a p value by a nonparametric method; Confirming whether the mean of the two samples is significantly different from the p value (significant difference means that the p value is smaller than the significance level α); In the step of confirming whether there is a significant difference, in the case of a normal probe, the mean of the hybridization intensity with the normal target nucleic acid is greater than the mean of the intensity of hybridization with the mutant target nucleic acid, and the mutant probe is reversely mutated. Selecting a probe whose hybridization intensity average with the average is greater than the average hybridization intensity with the normal target nucleic acid.

본 발명의 두 표본에서 평균에 대한 t-검정을 실시하는 단계에서, 두 표본에서 평균에 대한 t-검정을 실시하기 전에 각 샘플에 대한 혼성화 강도의 분산이 같은지를 검정(등분산성 검정)하여 같은 경우는 t-검정에서 나온 결과 중에 등분산에 해당하는 p 값을 선택하고, 다른 경우는 t-검정에서 나온 결과 중에 등분산이 아닌 경우에 해당하는 p 값을 선택하는 단계를 더 포함할 수 있다.In the step of performing the t-test on the mean in the two samples of the present invention, before performing the t-test on the mean in the two samples, the test is tested for equality of variance of the hybridization intensity for each sample (equal variance test). In some cases, the method may further include selecting a p value corresponding to an equal variance among the results from the t-test, and in another case, selecting a p value corresponding to the non-uniform variance among the results from the t-test.

본 발명의 p 값으로 두 표본의 평균이 유의한 차이가 있는가를 확인하는 단계에서, 유의수준은 0.01, 바람직하게는 0.001로 정한다. p값이 유의 수준보다 작으면 유의한 차이가 있다고 판정한다. In the step of confirming whether the mean of the two samples is significantly different by the p value of the present invention, the significance level is set to 0.01, preferably "0.001." If the p-value is less than the level of significance, it is determined that there is a significant difference.

이하, 본 발명을 단계별로 보다 구체적으로 설명한다.Hereinafter, the present invention will be described in more detail step by step.

본 발명은 혼성화 강도 데이터 수집(hybridization intensity collection) 단계, 프로브 심사 및 선발(probe screening) 단계, 프로브 성능평가(probe quality estimation) 단계, 최종 프로브 세트를 선택하는 단계를 거쳐 유전자형 확인 (genotyping)에 필요한 프로브 세트를 선택한다.The present invention is required for genotyping through a hybridization intensity collection step, probe screening and probe screening step, probe quality estimation step, and selection of a final probe set. Select a probe set.

혼성화 강도 데이터 수집 단계Hybridization Strength Data Collection Steps

본 과정을 도2에 도시하였으므로 참조하시오. in silico 방법에 의해 실험 계획된 프로브들은 상보적인 샘플의 서열(sequence),올리고뉴클레오타이드의 길이와 유전자에서 유전자형 확인(genotyping)을 하려고 하는 부분의 위치에 따라 각각 다르다. 정상 표적 핵산에 상보적인 복수의 프로브(이를 "정상형 프로브: wild type probes"라 함)와 돌연변이 표적 핵산에 상보적인 복수의 프로브(이를 "돌연변이형 프로브:mutant type probes"라 함)를 칩 상에 고정시키고, 정상 표적 핵산을 가진 샘플 및 돌연변이 표적 핵산을 가진 샘플과 혼성화(hybridization)시킨다. 한 장의 DNA 칩 상에배열된모든 프로브의 위치를 알고 있기 때문에 혼성화를마치고 건조된 칩에서 스캐너를 이용하여 각 프로브들과 유전자형을 알고 있는 샘플과의 혼성화 강도를 얻게 된다.  동일한 프로브가 심겨진 여러 장의 DNA칩에서 이 과정을 반복해서 각 프로브별로 데이터를 정리하면 정상 표적 핵산을 가진 샘플-프로브의 혼성화 강도 분포와 돌연변이 표적 핵산을 가진 샘플-프로브의 혼성화 강도 분포를 얻게 된다.Please refer to this process as shown in FIG. The probes designed by the in silico method depend on the sequence of the complementary sample, the length of the oligonucleotide and the location of the genotyping in the gene. A plurality of probes complementary to the normal target nucleic acid (called "wild type probes") and a plurality of probes complementary to the mutant target nucleic acid (called "mutant type probes") on the chip Immobilize and hybridize with samples with normal target nucleic acids and samples with mutant target nucleic acids. By knowing the location of all the probes on a single DNA chip, the hybridization is completed and the hybridization yields the strength of the hybridization of each probe with the sample of known genotype. By repeating this process on multiple DNA chips with the same probe, data is collected for each probe to obtain hybridization intensity distributions for sample-probes with normal target nucleic acids and hybridization intensity distributions for sample-probes with mutant target nucleic acids.

프로브 심사 및 선발(screening) 단계Probe screening and screening steps

본 과정을 도3에 도시하였으므로 참조하시오. 각 프로브 별로 정리된 혼성화 강도 데이터에서 정상 표적 핵산을 가지는 샘플-프로브의 혼성화 강도(Iw)의 평균과 표준 편차를 각각 μw, σw로 표시하고, 돌연변이표적 핵산을 가지는 샘플-프로브의 혼성화 강도(Im)의 평균과 표준 편차를 각각 μm, σm로 표시한다. 각 샘플에 대해 모든 칩에서 얻어진 혼성화 강도를 표준화한 절대값(|(I-μ)/σ|)이 3을 넘는 경우가 있는지를 확인하여, 3을 넘는 경우를 이상치(outlier)라고 말한다. 이상치를 가지는 경우 실험오차가 아닌지 확인한 후에 실험오차로 판명되면 그 데이타는 제거한다.Please refer to this process as shown in FIG. In the hybridization intensity data arranged for each probe, the mean and standard deviation of the hybridization intensity (I w ) of the sample-probe having a normal target nucleic acid (I w ) are expressed as μ w and σ w , respectively, and the hybridization of the sample-probe having a mutation-target nucleic acid is shown. It represents the mean and standard deviation of the intensity (I m) to the m μ, σ m, respectively. For each sample, the absolute value (| (I-μ) / σ |) that standardized the hybridization strength obtained in all chips is checked to see if there is more than 3, and the case of more than 3 is called an outlier. If there is an outlier, verify that it is not an experimental error and then remove the data if it is found to be an experimental error.

정상 표적 핵산-프로브와의 혼성화 강도 평균(μw)과 돌연변이 표적 핵산-프로브와의 혼성화 강도 평균(μm)이 통계적으로 유의한 차이가 나는지를 확인하기 위하여 평균차 검정을 실시한다. 먼저 각 샘플-프로브와의 혼성화 강도의 분포가 정규분포를 따르는지 확인한다. 두 표본(정상 표적 핵산을 가지는 샘플-프로브와의 혼성화 강도 분포, 돌연변이 표적 핵산을 가지는 샘플-프로브와의 혼성화 강도 분포)에 대해서 모두 정규분포를 따르면 두 표본 t-검정(two sample t-test)을 실시하여 p 값을 얻고, 어느 하나라도 정규분포를 따르지 않는 경우는 비모수적 방법(nonparametric method)에 의해 p 값을 얻어서 두 표본의 평균이 유의한 차이가 있는지를 확인한다.  유의한 차이가 난다는 것은 우리가 잡은 유의 수준보다 p 값의 값이 작은 것을 의미한다. 두 표본에서 평균에 대한 t-검정을 실시하기 전에 각 샘플에 대한 혼성화 강도의 분산이 같은지를 검정(등분산성 검정)하여 같은 경우는 t-검정에서 나온 결과 중에 등분산에 해당하는 p 값을 선택하고, 다른 경우는 t-검정에서 나온 결과 중에 등분산이 아닌 경우에 해당하는 p 값을 선택한다. 유의한 차이가 나는 프로브(이를 "유효한 프로브:valid probe"라 한다)에 대해서는 정상형 프로브의 경우는 정상 표적 핵산과의 혼성화 강도 평균이 돌연변이 표적 핵산과의 혼성화 강도 평균보다 커야만 하고 돌연변이형 프로브는 반대로 돌연변이 표적 핵산과의 혼성화 강도 평균이 정상 표적 핵산과의 혼성화 강도 평균보다 커야 한다는 조건(이것을 도3에서 "I(PM)>I(MM)"이라고 표현했다. I는 혼성화 강도(intensity), PM은 정상형 프로브-정상 표적 핵산, 돌연변이형 프로브-돌연변이 표적 핵산으로 결합한 경우(완전일치:perfect match), MM는 정상형 프로브-돌연변이형 표적 핵산, 돌연변이형 프로브-정성형 표적 핵산으로 결합한 경우(불일치:mismatch)를 가리킨다)을 만족하는지 확인 후 만족하는 프로브(이를 "올바른 프로브: right probe"라 하고, 만족하지 못한 것을 "잘못된 프로브: wrong probe"라 한다)만 선발한다. 위에서 설명한 평균차 검정 과정을 탑재된 모든 프로브에 대해서 반복한다.Normal target nucleic acid - to carry out the average difference test to confirm the hybridization intensity average (μ m) of the probe is naneunji a significant difference statistically-average hybridization intensity of a probe (μ w) and mutant target nucleic acid. First verify that the distribution of hybridization intensity with each sample-probe follows a normal distribution. Two sample t-tests following normal distribution for both samples (hybridization intensity distribution with sample-probe with normal target nucleic acid and hybridization intensity distribution with sample-probe with mutant target nucleic acid) If the value of p is obtained, and if any of them do not follow the normal distribution, the value of p is obtained by nonparametric method to check whether there is a significant difference between the two samples. Significant differences mean that the value of p is smaller than the level of significance we grabbed. Test the equal variances of hybridization intensities for each sample before performing the t-test on the mean in the two samples (equal variance test) and select the p-values that are equal variances from the t-test results. In other cases, select the p value that corresponds to the non-uniform variance among the results from the t-test. For probes with significant differences (referred to as "valid probes"), for normal probes, the average hybridization intensity with the normal target nucleic acid should be greater than the average hybridization intensity with the mutant target nucleic acid. In contrast, the condition that the average hybridization intensity with the mutant target nucleic acid should be greater than the average hybridization intensity with the normal target nucleic acid (this is expressed as "I (PM)> I (MM)" in Figure 3. I is the hybridization intensity (intensity), PM binds to normal probe-normal target nucleic acid, mutant probe-mutant target nucleic acid (perfect match), and MM binds to normal probe-mutant target nucleic acid, mutant probe-qualified target nucleic acid (mismatch: mismatch), and then the probe that satisfies it is called the "right probe." Select the “probably wrong probe.” Repeat the average difference test described above for all probes loaded.

프로브 성능평가(estimation) 단계Probe Estimation Step

프로브 심사 및 선발(probe screening) 단계에서 정상 표적 핵산-프로브와의 혼성화 강도 평균(μw)과 돌연변이 표적 핵산-프로브와의 혼성화 강도 평균(μm)이 같다는 평균차 검정의 귀무가설(H0: μw= μm)을 기각(p 값 <σ)한 프로브들만 성능평가를 실시한다. 한 돌연변이 위치(mutation site)의 유전자형을 판별하기 위한 복수의 프로브 풀들 중에서 p 값이 가장 작은 프로브의 성능을 제일 먼저 평가하고 p 값이 낮은 순서로 성능을 평가한다. 한 프로브가 여러 개의 칩에 대해 반복한 실험을 통해 정상 표적 핵산과의 혼성화에 의해 얻어진 강도 값들과(I1, I2,....,Ik)과 돌연변이 표적 핵산과의 혼성화에 의해 얻어진 강도 값들(J1,J2,...., Jm) 중에서 I1을 빼고 로지스틱 회귀분석(logistic regression)을 실시해서 얻어진 판별함수에 I1의 값을 대입했을 때 정상으로 판별하면 오차가 없는 것이고 돌연변이로 판별하면 가짜 양성 에러를 범하는 것이다. k번째 혼성화 강도까지 위와 같은 작업을 하고 나서 가짜 음성 에러를 범하는 회수를 k로 나누면 가짜 양성 에러율(false positive error rate)을 얻는다. 그리고 나서 J1을 빼고 로지스틱 회귀분석을 실시해서 얻어진 판별함수에 J1의 값을 대입했을 때 돌연변이로 판별하면 오차가 없는 것이고 정상으로 판별하면 가짜 음성 에러를 범하는 것이다. 마찬가지로 m번째 혼성화 강도까지 위의 작업을 반복해서 가짜 음성 에러(false negativeerror)를 범하는 회수를 m으로 나누면 가짜 음성 에러율(false negative error rate)을 얻는다. 이와 같은 과정을 교차 유효성 검증법(cross-validation)이라고 한다. 위에서 설명한 방법으로 평균차 검정에서 유의한 프로브들에 대해 모두 교차 유효성 검증법을 실시한다.Probe screening and selection (probe screening) the normal target nucleic acid in the step-hybridization intensity average (μ w) and mutant target nucleic acid with the probe-hybridization intensity average (μ m) The null hypothesis for this average primary black equal with the probe (H 0 : Only probes that rejected μ w = μ m ) (p value <σ) should be evaluated. Among the plurality of probe pools for determining the genotype of one mutation site, the performance of the probe having the smallest p value is first evaluated, and the performance is evaluated in the order of the lowest p value. Repeated experiments on a single chip by one probe resulted from hybridization of mutant target nucleic acids with intensity values (I 1 , I 2 , ...., I k ) obtained by hybridization with normal target nucleic acids. If I 1 is subtracted from the intensity values (J 1 , J 2 , ...., J m ) and the value of I 1 is substituted into the discriminant function obtained by performing logistic regression, an error is obtained. It is absent and if it is determined to be a mutation, it is a false positive. After doing the above up to the kth hybridization intensity, dividing the number of false negative errors by k yields a false positive error rate. After subtracting J 1 and substituting the value of J 1 into the logistic regression analysis, there is no error if it is determined as a mutation and a false negative error if it is normal. Similarly, repeating the above operation up to the mth hybridization intensity and dividing the number of false negative errors by m to obtain a false negative error rate. This process is called cross-validation. The method described above performs cross-validation for all the probes that are significant in the mean difference test.

프로브 세트 선택 단계Probe Set Selection Steps

유전자형을 판별하고자 하는 각 위치에 대해서 프로브 성능평가 단계에서 얻어진 가짜 양성 에러율(false positive error rate)과 가짜 음성 에러율(false negative error rate)에 적당한 가중치(weight)를 곱해서 얻어지는 값이 작은 순서대로 정렬(sorting)해서 프로브를 선택한다. 예를 들어, 진단의 입장에서는 가짜 양성 에러율이 가짜 음성 에러율보다 많이 중요하다고 하면 가짜 양성 에러율에 대한 가중치를 3으로 하고 가짜 음성 에러율에 대한 가중치로는 1을 둘 수 있다. 최종적인 판별 함수는 이렇게 구해진 2개 이상의 프로브들을 가지고 구성한다. 이 판별함수에 유전자형을 모르는 샘플과 혼성화했을 때 나오는 혼성화 강도 값을 대입하여 유전자형을 결정한다.For each position to determine genotype, the value obtained by multiplying the false positive error rate obtained from the probe performance evaluation step and the false negative error rate by an appropriate weight is sorted in small order. select the probe. For example, if the false positive error rate is more important than the fake negative error rate, the weight of the fake positive error rate may be 3 and the weight of the fake negative error rate may be 1. The final discriminant function consists of two or more probes thus obtained. The genotype is determined by substituting the hybridization intensity value obtained when hybridizing with a sample of which the genotype is unknown.

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하기로 한다. 이들 실시예는 단지 본 발명을 예시하기 위한 것이므로, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는다.Hereinafter, the present invention will be described in more detail with reference to Examples. Since these examples are only for illustrating the present invention, the scope of the present invention is not to be construed as being limited by these examples.

HNF-1α(Hepatocyte nuclear factor-1α) 유전자에서 알려진 돌연변이를 검출하기 위한 DNA 칩을 개발하는 과정에서 스폿팅(spotting) 방법에 의해 제작된 DNA 칩과 정상 표적과 혼성화했을 때와 돌연변이유발(mutagenesis)에 의해 합성된돌연변이 염기서열을 가진 표적과 혼성화했을 때의 실험결과를 제시하고자 한다.In the development of DNA chips for the detection of known mutations in the Hepatocyte nuclear factor-1α (HNF-1α) gene, DNA chips produced by spotting and hybridization with normal targets and mutagenesis Experimental results when hybridized with a target having a mutated nucleotide sequence synthesized by

각 데이터는 20장의 칩에서 혼성화를 통해 실험결과를 얻었다. 한 장의 칩에는 각 돌연변이 위치당 정상형 프로브 2개(WP1(wild type probe 1), WP2(wild type probe 2)), 돌연변이형 프로브 2개(MP1(mutant type probe 1), MP2(mutant type probe 2))로 모두 4개씩의 프로브를 기판 위에 올려놓았다. 하기 표 1은 그 중에서 이후의 설명을 위해 몇몇 돌연변이 위치(영문 대문자로 표기)의 프로브 정보를 정리한 것이다.  Each data was obtained through hybridization on 20 chips. One chip contains two normal probes (wild type probe 1 (WP1), wild type probe 2 (WP2), two mutant probes (mutant type probe 1), and mutant type probe 2 for each mutation position. All four probes were placed on the substrate. Table 1 below summarizes the probe information of several mutation sites (in English).

DNA 칩 상에 프로브를 부착하는 과정은 다음과 같다. 하기 표 1에서와 같은 서열의 올리고뉴클레오타이드 프로브를 젤 매트릭스 용액에 첨가하고 교반하여 37℃에서 14시간 동안 방치함으로써 매트릭스-DNA 접합체(conjugates)를 제조한 다음 이를 스폿팅 용액으로 하였다(참조 : 대한민국 특허출원 제 2001-53687호). 상기 스폿팅 용액을 아민기를 갖도록 표면처리된 유리 표면 위에 스폿팅한 후 4시간 동안 37℃의 습식 챔버(wet chamber)에 방치하였다. 이어, 배경 노이즈의 제어(background noise control)에 필요한 공정, 즉 표적 핵산이 유리 표면에 부착하지 않도록 하기 위해 스폿팅 되지 않은 위치의 유리 표면 아민기가 음전하를 띄도록 반응을 실행하고 건조기에 보관하였다.Attaching the probe on the DNA chip is as follows. Matrix-DNA conjugates were prepared by adding oligonucleotide probes of the same sequence as shown in Table 1 to the gel matrix solution, stirring and standing at 37 ° C. for 14 hours, and then using the spotting solution (see Korean patent) Application 2001-53687). The spotting solution was spotted on a glass surface surface-treated with an amine group and then left in a wet chamber at 37 ° C. for 4 hours. The reaction was then carried out and stored in a dryer so that the process required for background noise control, i.e., the glass surface amine groups in unspotted positions, was negatively charged so that the target nucleic acid did not adhere to the glass surface.

표1. 돌연변이 위치들의 프로브 샘플과 p 값Table 1. Probe sample and p value of mutation sites

돌연변이 위치Mutation location 프로브 타입Probe type 프로브 서열Probe sequence p-valuep-value 33063306 WP1WP1 gacaCgcacctccgtgaca C gcacctccgt 5.02454e-65.02454e-6 33063306 MP1MP1 tgtagacaAgcaccttgtagaca A gcacct 5.56682e-35.56682e-3 33063306 WP2WP2 acaCgcacctccgtgaca C gcacctccgtg 9.15422e-69.15422e-6 33063306 MP2MP2 tgtagacaAgcaccttgtagaca A gcacct 3.11200e-33.11200e-3 40374037 WP1WP1 tgagaccTacgagggtgagacc T acgaggg 1.89666e-21.89666e-2 40374037 MP1MP1 ctgagaccGacgaggctgagacc G acgagg 2.82660e-42.82660e-4 40374037 WP2WP2 ctgagaccTacgagggctgagacc T acgaggg 1.04213e-11.04213e-1 40374037 MP2MP2 ctgagaccGacgaggctgagacc G acgagg 1.88030e-41.88030e-4 56835683 WP1WP1 ccacCggctcagcccac C ggctcagc 4.22692e-64.22692e-6 56835683 MP1MP1 cgctgagccCgtggcgctgagcc C gtgg 5.93080e-135.93080e-13 56835683 WP2WP2 ccacCggctcagcccac C ggctcagc 9.95383e-89.95383e-8 56835683 MP2MP2 gcgctgagccCgtgggcgctgagcc C gtgg 5.25110e-125.25110e-12 61956195 WP1WP1 catcgagaCcttcatccatcgaga C cttcatc 3.561e-63.561e-6 61956195 MP1MP1 gatgaagAtctcgatgatgaag A tctcgat 1.7029e-101.7029e-10 61956195 WP2WP2 cgtcatcgagaCcttccgtcatcgaga C cttc 5.0965e-115.0965e-11 61956195 Mp2Mp2 gatgaagAtctcgatgatgaag A tctcgat 9.3977e-119.3977e-11

실시예1> 돌연변이 위치 3306에 대한 혼성화 실험Example 1 Hybridization Experiments for Mutation Location 3306

돌연변이 위치 3306은 HNF-1 유전자 Exon4의 3306번 염기에 돌연변이가 초래되어 G가 T로 바뀐 것이다. 3306번 염기에 T가 존재하는 돌연변이형 표적에 상보적인 MP1과 MP2 프로브는 염기서열이 동일하다. 같은 염기서열이 한 칩에 두 번 탑재되었지만 평균차 검정 결과 얻어진 p 값은 5.567e-3과 3.112e-3으로 동일한 샘플에서 얻어지는 p 값이 크게 차이가 나지 않는다.Mutation position 3306 is a mutation of the base 3306 of the HNF-1 gene Exon4 resulting in a change of G to T. The MP1 and MP2 probes complementary to the mutant target with T present at base 3306 have the same sequence. The same sequence was loaded twice on one chip, but the p-values obtained from the mean difference test were 5.567e-3 and 3.112e-3, so the p-values obtained from the same sample were not significantly different.

도4는 돌연변이 위치 3306의 두 돌연변이형 프로브(MP1, MP2)와 정상형/돌연변이형 표적과의 혼성화 강도 분포이다. 도4에서 한 점은 DNA 칩 한 장과 한 표적과의 혼성화 결과이다. X축은 표1에서 돌연변이 위치 3306이고 프로브 형이 MP1에 해당하는 올리고뉴클레오타이드 프로브와 3306에 G가 있는 정상형 표적과의 혼성화 강도를 파란색으로 표시하고, 3306에 T가 있는 돌연변이형 표적과의 혼성화 강도를 빨간 색으로 표시한 것이다. 마찬가지로 Y축은 표1에서 돌연변이 위치 3306이고 프로브 형이 MP2에 해당하는 프로브와 정상형 표적과의 혼성화 강도는 파란색으로,돌연변이형 표적과의 혼성화 강도는 빨간 색으로 표시하였다. 따라서 파란색 점 중에서 가장 좌하에 위치한 점은 그 칩에서 정상형 표적과 MP1과의 혼성화 강도가 대략 240이고 MP2와의 혼성화 강도가 200가량 나왔다는 것을 의미한다. 그림에서 알 수 있듯이 MP1과 MP2의 염기서열로는 정상형 표적과 돌연변이형 표적과의 혼성화 강도 분포가 거의 겹치기 때문에 두 표적을 구분하기 어렵다. 이 때의 MP1과 MP2의 p 값은 각각 5.56682e-3과 3.11200e-3이다.4 is a hybridization intensity distribution between two mutant probes (MP1, MP2) at mutation position 3306 and a normal / mutant target. One point in FIG. 4 is the hybridization result of one DNA chip and one target. The X axis shows the hybridization intensity of the oligonucleotide probe whose mutation type is 3306 and the probe type corresponding to MP1 in Table 1 with the normal target with G in 3306, and the hybridization intensity with the mutant target with T in 3306. It is shown in red. Similarly, in Table 1, the hybridization intensity between the probe having the mutation position 3306 and the probe type corresponding to MP2 and the normal target is blue, and the hybridization intensity with the mutant target is red. Therefore, the bottom left point among the blue dots means that the hybrid has a strength of about 240 with the normal target and MP1 and about 200 with the MP2. As can be seen from the figure, it is difficult to distinguish the two targets by the nucleotide sequence of MP1 and MP2 because the hybridization intensity distribution between the normal target and the mutant target almost overlaps. At this time, p values of MP1 and MP2 are 5.56682e-3 and 3.11200e-3, respectively.

실시예2> 돌연변이 위치 4037에 대한 혼성화 실험Example 2 Hybridization Experiments for Mutation Location 4037

돌연변이 위치 4037은 HNF-1 유전자 Intron5의 4037번 염기에 돌연변이가 초래되어 A가 G로 바뀐 것이다.  돌연변이 위치 4037에서는 돌연변이 위치 3306과 같이 돌연변이형 프로브와 돌연변이형 표적의 혼성화 강도가 정상형 표적과의 혼성화 강도와 겹치는 부분도 일부분(대략 1/4) 존재하지만 다수의 프로브 결과는 표적이 다름에 따라 혼성화 강도가 차이를 나타낸다. MP1과 정상/돌연변이형 표적과의 혼성화 강도를 기준으로 했을 때 8000이상이 되는 것을 돌연변이형 표적으로 정의한다면 2개의 정상형 표적을 돌연변이형으로 잘못 판별하고 5개의 돌연변이형 표적을 정상형으로 잘못 판별하지만 돌연변이 위치 3306에 대한 돌연변이형 프로브보다는 훨씬 더 정상형과 돌연변이형을 잘 판별한다. 이 때의 MP1과 MP2의 p 값은 각각 2.8226e-4과 1.8803e-4이다.Mutation position 4037 is a mutation at base 4037 of the HNF-1 gene Intron5, causing A to be G. In mutation position 4037, there is a part (approximately 1/4) where the hybridization intensity of the mutant probe and the mutant target overlaps with the hybridization intensity of the normal target, such as mutation position 3306, but many probe results hybridize according to different targets. Intensity indicates a difference. If mutant targets are defined as being above 8000 based on the hybridization intensity between MP1 and normal / mutant targets, the two normal targets are incorrectly identified as mutant and the five mutant targets are incorrectly identified as normal but mutated. Much better discrimination between normal and mutant than with mutant probes for position 3306. At this time, p values of MP1 and MP2 are 2.8226e-4 and 1.8803e-4, respectively.

돌연변이형 표적 3306과 4037의 경우 뿐만 아니라 나머지 돌연변이 위치들에 대한 혼성화 강도의 분포를 조사한 결과, 정상형 표적과 돌연변이형 표적을 구분할 수 있는 프로브는 가장 큰 p 값이 1.00000e-3 보다 작음을 확인하였다. 따라서, 생물/의약 분야에서는 보통 유의수준으로 0.01를 잡지만 본 방법에서는 정확도를 높이기 위하여 0.001를 잡고서, 평균차 검정을 통해 얻어진 p 값이 1.00000e-3보다 작은 프로브를 유효한 프로브라고 정의한다.Investigation of the distribution of hybridization intensities for the remaining mutation sites as well as for the mutant targets 3306 and 4037 confirmed that the probes capable of distinguishing between normal and mutant targets had the largest p values less than 1.00000e-3. . Therefore, in the biological / pharmaceutical field, the average level is usually 0.01. However, in this method, 0.001 is defined to increase the accuracy, and a probe whose p value obtained by the average difference test is smaller than 1.00000e-3 is defined as a valid probe.

실시예3> 돌연변이 위치 5683에 대한 혼성화 실험Example 3 Hybridization Experiments for Mutation Location 5683

돌연변이 위치 5683은 HNF-1 유전자 Exon9의 5683번 염기에 돌연변이가 초래되어 C가 G로 바뀐 것이다. 평균차 검정결과 MP1과 MP2에 의한 p 값은 각각 5.9308e-13과 5.2511e-12으로 유효한 프로브이지만 돌연변이형 프로브와 돌연변이형 표적과의 혼성화 강도가 정상표적과의 혼성화 강도보다 커야 한다는 당연한 사실을 위배한다. 이와 같이 완전 일치(perfect match: 돌연변이형 프로브-돌연변이형 표적)에 해당하는 혼성화 강도의 평균이 불일치(mismatch: 돌연변이형 프로브-정상형 표적)에 해당하는 혼성화 강도의 평균보다 작은 프로브를 잘못된 프로브(wrong probe)라고 정의한다.Mutation position 5683 is a mutation of base 5683 of the HNF-1 gene Exon9 resulting in a change of C to G. The mean difference test showed that the p-values by MP1 and MP2 were 5.9308e-13 and 5.2511e-12, respectively, but the validity of hybridization between mutant and mutant targets should be greater than that of normal targets. Violate. As such, if the average of the hybridization intensities corresponding to a perfect match (mutant probe-mutant target) is smaller than the average of the hybridization intensities corresponding to a mismatch, the wrong probe (wrong) probe).

실시예4> 돌연변이 위치 6195에 대한 혼성화 실험Example 4 Hybridization Experiments for Mutation Location 6195

돌연변이 위치 6195는 HNF-1 유전자 Exon10의 6195번 염기에 돌연변이가 초래되어 C가 T로 바뀐 것이다. 도면에서 볼 수 있듯이 완전 일치(돌연변이형 프로브-돌연변이형 표적)에 해당하는 혼성화 강도의 평균이 불일치(돌연변이형 프로브-정상형 표적)에 해당하는 혼성화 강도의 평균보다 크기 때문에 MP1과 MP2 프로브는 올바른 프로브이고 평균차 검정결과도 MP1과 MP2에 의한 p 값은 각각 1.7029e-10과 9.3977e-11으로 유효한 프로브이다. 우리가 컷오프(cuf-off) 기준으로 삼은 1.00000e-3보다 매우 작은 값을 가지고 있는데 이렇게 작은 p 값을 가지는 프로브는 대체로 정상형 표적과 돌연변이형 표적의 분포가 완전히 분리되는 것을 볼 수 있다. 따라서 이러한 프로브를 심는다면 p 값이 가장 작은 프로브 하나만으로도 정상형 표적과 돌연변이형 표적을 판별할 수도 있고 복수의 프로브를 선택할 때에도 올바른 프로브들 중에서 p 값이 작은 순서로 선택하면 실험오차를 감안하더라도 유전자형 판별(genotyping)이 가능하다.Mutation position 6195 results in a mutation at base 6195 of the HNF-1 gene Exon10 resulting in a C to T change. As can be seen in the figure, the MP1 and MP2 probes are the correct probes because the average of hybridization intensities corresponding to perfect match (mutant probe-mutant target) is greater than the average of hybridization intensities corresponding to mismatch (mutant probe-normal target). The average difference test results also show that the p values of MP1 and MP2 are 1.7029e-10 and 9.3977e-11, respectively. The cutoff (cuf-off criterion) is much smaller than 1.00000e-3. Probes with small p-values generally show a complete separation between the normal and mutant targets. Therefore, when planting these probes, one probe with the smallest p-value can be used to discriminate between normal and mutant targets, and even when selecting multiple probes, the genotype can be determined even if the p-value is selected among the correct probes in the order of smallest p-value. (genotyping) is possible.

이상 설명한 바와 같이, 본 발명에 따르면 정상 표적 핵산과 돌연변이 표적 핵산의 차이를 실험 오차 이내에서 감지할 수 있고, 점돌연변이 (point mutation) 뿐만 아니라 삽입(insertion) / 결실(deletion)의 경우에도 소수의 프로브를 가지고 유전자형을 확인할 수 할 수 있다.As described above, according to the present invention, a difference between a normal target nucleic acid and a mutant target nucleic acid can be detected within an experimental error, and a small number of cases can be detected even in case of insertion / deletion as well as point mutation. You can check the genotype with a probe.

Claims (6)

(a) 정상 표적 핵산에 상보적인 프로브 및 돌연변이 표적 핵산에 상보적인 프로브가 고정된 바이오칩 상에서, 정상 표적 핵산 및 돌연변이 표적 핵산을 혼성화 (hybridization) 시켜 각 프로브별로 정상 표적 핵산-프로브 및 돌연변이 표적 핵산-프로브의 혼성화 강도 데이터를 수집하는 단계;(a) Hybridization of a normal target nucleic acid and a mutant target nucleic acid on a biochip to which a probe complementary to a normal target nucleic acid and a mutant target nucleic acid is immobilized, thereby hybridizing the normal target nucleic acid and the mutant target nucleic acid for each probe Collecting hybridization intensity data of the probes; (b) 상기의 데이터를 이용하여 평균차 검정을 실시하여 유의한 차이가 나지 않는 프로브(p 값이 유의수준보다 큰 프로브)를 제외하는 단계;(b) performing a mean difference test using the above data to exclude probes having no significant difference (probes whose p-values are greater than the significance level); (c) 유의한 차이를 가지는 프로브(p 값이 유의수준보다 작은 프로브)에 대하여 정상 표적 핵산-프로브 혼성화 강도 분포 및 돌연변이 표적 핵산-프로브 혼성화 강도 분포로부터, 교차 유효성 검증법(cross-validation)에 의해 정상 표적 핵산을 돌연변이 표적으로 분류할 확률인 가짜 양성 에러율(false positive error rate) 또는 돌연변이 표적을 정상 표적 핵산으로 잘못 분류할 확률인 가짜 음성 에러율(false negative error rate)을 계산하는 단계; 및,(c) From the normal target nucleic acid-probe hybridization intensity distribution and the mutant target nucleic acid-probe hybridization intensity distribution for probes with significant differences (probes with p values less than the significance level), cross-validation is performed. Calculating a false positive error rate, which is a probability of classifying a normal target nucleic acid as a mutation target, or a false negative error rate, which is a probability of misclassifying a mutant target as a normal target nucleic acid; And, (d) 상기 가짜 양성 에러율 또는 가짜 음성 에러율의 기준을 통과한 프로브를 선택하는 단계를 포함하는 유전자형 확인용 프로브 세트 선택 방법.and (d) selecting a probe that has passed the criteria of the false positive error rate or false negative error rate. 제1항에 있어서, 상기 (b)단계는The method of claim 1, wherein step (b) (a) 두 표본(정상 표적 핵산을 가지는 샘플-프로브와의 혼성화 강도 분포, 돌연변이 표적 핵산을 가지는 샘플-프로브와의 혼성화 강도 분포)에 대해서 모두 정규분포를 따르면 두 표본 t-검정(two sample t-test)을 실시하여 p 값을 구하고, 어느 하나라도 정규분포를 따르지 않는 경우는 비모수적 방법(nonparametric method)에 의해 p 값을 구하는 단계;(a) Two sample t-tests according to the normal distribution for both samples (hybridization intensity distribution with sample-probe with normal target nucleic acid and hybridization intensity distribution with sample-probe with mutant target nucleic acid) -p) to find the p value, and if none of the normal distributions follow a step of obtaining the p value by a nonparametric method; (b) 상기 p 값으로 두 표본의 평균이 유의한 차이가 있는가(p값이 유의수준보다 작은가)를 확인하는 단계;(b) checking whether the mean of the two samples is significantly different from the p value (p value is less than the significance level); (c) 상기 (b)단계에서 유의한 차이가 나는 프로브에 대해 정상형 프로브의 경우는 정상 표적 핵산과의 혼성화 강도 평균이 돌연변이 표적 핵산과의 혼성화 강도 평균보다 크고 돌연변이형 프로브는 반대로 돌연변이 표적 핵산과의 혼성화 강도 평균이 정상 표적 핵산과의 혼성화 강도 평균보다 큰 프로브를 선발하는 단계를 포함하는 것이 특징인 유전자형 확인용 프로브 세트 선택 방법.(c) For the probes having a significant difference in step (b), the average hybridization intensity with the normal target nucleic acid is greater than the average hybridization intensity with the mutant target nucleic acid in the case of the normal probe, and the mutant probe is inversely opposite to the mutant target nucleic acid. And selecting a probe whose average hybridization intensity is greater than the average hybridization intensity with the normal target nucleic acid. 제2항에 있어서, 상기 (a)단계에서 두 표본 t-검정을 실시하기 전에 각 샘플에 대한 혼성화 강도의 분산이 같은지를 검정(등분산성 검정)하여 같은 경우는 t-검정에서 나온 결과 중에 등분산에 해당하는 p 값을 선택하고, 다른 경우는 t-검정에서 나온 결과 중에 등분산이 아닌 경우에 해당하는 p 값을 선택하는 단계를 더 포함하는 것이 특징인 유전자형 확인용 프로브 세트 선택 방법.The method according to claim 2, wherein in the step (a), before performing the two sample t-tests, the variance of the hybridization intensities for each sample is tested for equality (equal variance test), and the same case is equal to the result obtained from the t-test. Selecting a p value corresponding to the acid, and in another case, selecting a p value corresponding to a non-uniform variance among the results from the t-test. 제2항에 있어서, 상기 (b)단계에서의 유의수준은 0.01인 것이 특징인 유전자형 확인용 프로브 세트 선택 방법.The method of claim 2, wherein the significance level in step (b) is 0.01. 제2항에 있어서, 상기 (b)단계에서의 유의수준은 0.001인 것이 특징인 유전자형 확인용 프로브 세트 선택 방법.The method of claim 2, wherein the significance level in step (b) is 0.001. 제2항에 있어서, 표적 핵산이 HNF-1α(Hepatocyte nuclear factor-1α) 유전자인 경우에는, 상기 (b)단계에서의 유의수준은 0.001인 것이 특징인 유전자형 확인용 프로브 세트 선택 방법.The method of claim 2, wherein when the target nucleic acid is a Hepatocyte nuclear factor-1α gene, the significance level in step (b) is 0.001.
KR10-2002-0011871A 2002-03-06 2002-03-06 Selection method of probe set for genotyping KR100450816B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0011871A KR100450816B1 (en) 2002-03-06 2002-03-06 Selection method of probe set for genotyping

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0011871A KR100450816B1 (en) 2002-03-06 2002-03-06 Selection method of probe set for genotyping

Publications (2)

Publication Number Publication Date
KR20030072709A KR20030072709A (en) 2003-09-19
KR100450816B1 true KR100450816B1 (en) 2004-10-01

Family

ID=32223615

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0011871A KR100450816B1 (en) 2002-03-06 2002-03-06 Selection method of probe set for genotyping

Country Status (1)

Country Link
KR (1) KR100450816B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100499142B1 (en) 2003-01-25 2005-07-04 삼성전자주식회사 Robust genotyping using DNA chip and DNA chip used therein
KR100601937B1 (en) 2003-12-26 2006-07-14 삼성전자주식회사 Method for robust genotyping using DNA chip having a discriminating probe and amplicon probe immobilized thereon and DNA chip used therein
KR100682894B1 (en) * 2004-10-26 2007-02-15 삼성전자주식회사 A method for designing a probe from a polynucleotide group comprising a plurality of polynucleotides
KR100707213B1 (en) * 2006-03-21 2007-04-13 삼성전자주식회사 Method and apparatus for choosing nucleic acid probes for microarrays

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001006013A1 (en) * 1999-07-16 2001-01-25 Rosetta Inpharmatics, Inc. Methods for determining the specificity and sensitivity of oligonucleotides for hybridization
EP1103910A1 (en) * 1999-11-24 2001-05-30 Schütz, Ekkehard Method of automatically selecting Oligonucleotide Hybridization probes
KR20030049499A (en) * 2001-12-15 2003-06-25 삼성전자주식회사 Method for scoring and selection for optimum probes in probes design

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001006013A1 (en) * 1999-07-16 2001-01-25 Rosetta Inpharmatics, Inc. Methods for determining the specificity and sensitivity of oligonucleotides for hybridization
EP1103910A1 (en) * 1999-11-24 2001-05-30 Schütz, Ekkehard Method of automatically selecting Oligonucleotide Hybridization probes
KR20030049499A (en) * 2001-12-15 2003-06-25 삼성전자주식회사 Method for scoring and selection for optimum probes in probes design

Also Published As

Publication number Publication date
KR20030072709A (en) 2003-09-19

Similar Documents

Publication Publication Date Title
US6972174B2 (en) Method for detecting single nucleotide polymorphisms (SNP&#39;s) and point mutations
US7732138B2 (en) Rapid genotyping analysis and the device thereof
CZ293278B6 (en) Method for producing complex DNA methylamino fingerprints
WO2000009751A1 (en) Diagnostic methods using serial testing of polymorphic loci
CN111088382B (en) Corn whole genome SNP chip and application thereof
CN108531582A (en) It is a kind of to detect the primer combination and method that human embryos gene of alpha thalassemia is mutated
CN113136422A (en) Method for detecting high-throughput sequencing sample contamination by grouping SNP sites
WO2024140368A1 (en) Sample cross contamination detection method and device
EP1634959B1 (en) Method of designing probe set, microarray using it, and computer readable medium with a program for executing the said method.
CN108728515A (en) A kind of analysis method of library construction and sequencing data using the detection ctDNA low frequencies mutation of duplex methods
KR100450816B1 (en) Selection method of probe set for genotyping
Hollox et al. DNA copy number analysis by MAPH: molecular diagnostic applications
US20220136043A1 (en) Systems and methods for separating decoded arrays
JP2012513197A (en) Methylation biomarkers for predicting relapse-free survival
US20230265496A1 (en) Method for low frequency somatic cell mutation identification and quantification
CN116434843A (en) Base sequencing quality assessment method
EP3447154A1 (en) Method for detection of mutations, polymorphisms and specific dna sequences on dna matrices with dna imaging techniques for the use in medical diagnostics and forensic genetics
KR100601937B1 (en) Method for robust genotyping using DNA chip having a discriminating probe and amplicon probe immobilized thereon and DNA chip used therein
CN110484627B (en) Method for monitoring genetic quality of A/J inbred line mice, primer set and application thereof
CN113355401A (en) NGS-based CNV analysis and detection method for glioma chromosomes
CN117089636B (en) Molecular marker combination for analyzing goat meat performance and application
CN110678557A (en) Genotyping of mutations by in-tube hybridization in combination with universal tag-microarray
JPH07501449A (en) A selection method for at least one mutation screen, its application to a method for rapid identification of alleles of a polymorphic system, and an apparatus for its implementation.
US20220356513A1 (en) Synthetic polynucleotides and method of use thereof in genetic analysis
US20050089877A1 (en) Robust genotyping method using DNA chip and DNA chip used therein

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080912

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee