KR101460520B1 - Detecting method for disease markers of NGS data - Google Patents

Detecting method for disease markers of NGS data Download PDF

Info

Publication number
KR101460520B1
KR101460520B1 KR1020130100998A KR20130100998A KR101460520B1 KR 101460520 B1 KR101460520 B1 KR 101460520B1 KR 1020130100998 A KR1020130100998 A KR 1020130100998A KR 20130100998 A KR20130100998 A KR 20130100998A KR 101460520 B1 KR101460520 B1 KR 101460520B1
Authority
KR
South Korea
Prior art keywords
disease
genome
allele
difference
alleles
Prior art date
Application number
KR1020130100998A
Other languages
Korean (ko)
Other versions
KR20140061223A (en
Inventor
정종선
Original Assignee
(주)신테카바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)신테카바이오 filed Critical (주)신테카바이오
Publication of KR20140061223A publication Critical patent/KR20140061223A/en
Application granted granted Critical
Publication of KR101460520B1 publication Critical patent/KR101460520B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis

Abstract

본 발명은 바이오마커 검색 및 발굴 파워를 향상시키기 위하여 염기다형성 정의를 할 때 사용되는 연속변수 자체를 사용하여 비교분석 방법 (대립유전자제곱승차이, 대립유전자깊이탄젠트차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이, 대립유전자불균형비율) 및 로커스 기능에 대한 가중치 점수 등에 기반한 질병변이마커 선별 및 순위(rank)를 만들고 역 분류 (reverse classification)을 통하여 다양한 암, 암의 약물내성, 희귀질환, 만성질환, 정상인의 질병위험 및 표현형 등에 해당하는 유전체 바이오마커들을 발굴하는 감도(sensitivity)가 기존의 방법에 비하여 향상되는 것을 특징으로 한다.In order to improve biomarker search and digging power, the present invention uses a continuous variable used in defining a base polymorphism, and uses comparative analysis methods (allele ranks, allele depth tangent difference, absolute difference in alleles, The results of this study were as follows: 1) The selection and ranking of disease mutation markers based on the gene score, the statistical allele difference, the ratio of alleles imbalance, and the weight score of the locus function were made, and reverse classification was performed. The sensitivity of detecting genomic biomarkers corresponding to diseases, chronic diseases, disease risk and phenotype of normal persons is improved compared to the conventional methods.

Description

차세대 시퀀싱 데이터의 질병변이마커 검출 방법 { Detecting method for disease markers of NGS data }TECHNICAL FIELD [0001] The present invention relates to a method for detecting a disease marker of a next generation sequencing data,

본 발명은 NGS 데이터의 질병변이마커 검출 시스템 및 방법에 관한 것으로, NGS 데이터의 질병변이마커 검출에 있어 대립유전자깊이의 시그널강도 및 질점수를 사용하여 변이의 정의 및 중요도를 랭킹할 수 있도록 한 대립유전자깊이, 시그널강도 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법에 관한 발명이다.
The present invention relates to a system and method for detecting a disease variation marker in NGS data, and more particularly, to a system and method for detecting a disease variation marker in NGS data, The present invention relates to a system and method for detecting a disease variation marker of NGS data by inverse classification based on gene depth, signal intensity, and quality score.

현재 IT시장의 추세는 구글(Google) 클라우드컴퓨팅 유비쿼터스(Ubiquitous) 순으로 변화하고 있고, 이와 동시에 바이오메디컬, 생물정보 및 유전체 영역도 바이오구글 시스템바이오 개인별 맞춤의학 순으로 새로운 트랜드에 맞춰 바뀌어 가고 있다. 특히 포스트 인간게놈프로젝는 아래 표1 (포스트인간게놈 프로젝트 관련 발표 자료 목록)에 나타난 바와 같이, 이러한 추세에 따라 국가적으로 경쟁을 하고 있음을 보여주고, 최근의 차세대시퀀싱 기술(NGS)이 급격하게 발전하여 개인별 맞춤의학이 현실화되고 있다.Currently, the trend of the IT market is changing in the order of Google cloud computing Ubiquitous. At the same time, biomedical, bioinformation and genome areas are changing to new trends in order of bio-google system bio personalized medicine. In particular, the post-human genome project shows that national competition is taking place in this trend, as shown in Table 1 (list of publications related to the Post-Human Genome Project), and the recent next generation sequencing technology (NGS) Personalized medicine is becoming a reality.

Post Human Genome ProjectPost Human Genome Project PublicationsPublications 1One Mapping and sequencing of structural variation from eight human genomesMapping and sequencing of structural variation from eight human genomes Nature, 453, 2008Nature, 453, 2008 22 A plan to capture Human Diversity in 1000 GenomesA plan to capture Human Diversity in 1000 Genomes Nature, 319, 2008Nature, 319, 2008 33 The diploid genome sequence of an Asian individual, The diploid genome sequence of an Asian individual, Nature, 456 2008Nature, 456 2008 44 The first Korean genome sequence and analysis: full genome sequencing for a socio-ethic groupThe first Korean genome sequence and analysis: full genome sequencing for a socio-ethic group Genome Research 2009 Genome Research 2009 55 A highly annotated whole-genome sequence of a Korean individualA highly annotated whole-genome sequence of a Korean individual Nature 2009 Nature 2009 66 Ancient human genome sequence of an extinct Palaeo-EskimoAncient human genome sequence of an extinct Palaeo-Eskimo Nature, 463 2010, Nature, 463 2010, 77 The sequence and de novo assembly of the giant panda genome, The sequence and de novo assembly of the giant panda genome, Nature,463 2010,Nature, 463 2010, 88 A map of human genome variation from population-scale sequencing,A map of human genome variation from population-scale sequencing, Nature, 467 2010Nature, 467 2010

차세대기술은 인간 1명 (x30)의 유전체를 시퀀싱하는데 약 2주정도 소요가 되는 것으로 알려져 있다. 그리고, 현재 전 세계에 차세대 시퀀서가 20,000여대가 공급된 것으로 보고되었고, 제3세대 시퀀서 (Ion Torrent: 2.5세대, Pacific BioScience의 제3세대)의 주요 개발회사들에게 약 5천억원이 최근에 투자된 것으로 보고되었다. The next generation technology is known to take about two weeks to sequence the genome of a human (x30). Currently, more than 20,000 sequencers are reported worldwide, and about 500 billion won has recently been invested in the major development companies of the third-generation sequencer (Ion Torrent: 2.5 generation, third generation of Pacific BioScience) .

그 이외에 전 세계적으로는 해당분야에 약 10조원 이상이 투자되었고 개발이 진행되고 있다. 이러한, 추세대로 진행이 되면 향후 2 ~ 3년 후에는 1명의 전체 시퀀싱 비용은 약 $1,000로 낮아 질 것으로 예상된다. 위의 차세대기술기반의 가장 활용성이 높고 바로 실용화가 되는 기술은 임상유전체(clinical genomics), 약물유전체학(pharmaco-genomics) 및 중개임상(translational medicine)으로 예상된다.In addition, more than KRW 10 trillion has been invested in the relevant fields around the world and development is proceeding. With this trend, it is expected that the total sequencing cost of one person will be reduced to about $ 1,000 in the next two to three years. The most highly available and readily available technologies based on these next generation technologies are expected to be clinical genomics, pharmaco-genomics and translational medicine.

상기 임상유전체는 NGS시퀀싱 정보인 유전체정보를 바로 진단에 활용이 가능하고, 약물동질성검사를 비롯한 약물대사관련 기술과 결합하면 바로 임상유전체 및 맞춤의학이 된다. 또한 유전체학은 높은 수준으로 표준화되어 가고 있고, 특히 한국의 약물유전체사업단은 지난 9년 간의 사업을 2011년 3월에 종료하면서 650 여편의 약물유전체관련 SCI논문 및 88편의 특허 등 많은 증거자료를 문서화하여 국제약물유전체학회에 기여를 하였다. The clinical genome can be used to diagnose genomic information, which is NGS sequencing information, and it becomes clinical genome and customized medicine when combined with drug metabolism related technology including drug homogeneity test. In addition, genomics has been standardized at a high level. In particular, the Korea National Institute of Pharmacogenomics has documented a large number of evidence including more than 650 drug-genome-related SCI papers and 88 patents at the end of the nine-year project in March 2011 He contributed to the International Pharmacogenomics Society.

현재 한국은 도 1에 도시된 바와 같이, 이러한 NGS기술에 힘입어 2012년 현재 한국의 차세대맞춤의료유전체센터는 현재까지 약 3천명의 전장엑솜시퀀싱을 수행하고 있고, 서울대 아시안게놈센터도 100명 전장 시퀀싱을 수행하고 있다. 또한, 국제적으로는 1,000명에 대한 게놈시퀀싱이 2010년에 끝냈고, 현재까지 수행된 결과의 10배수 이상 늘어난 시퀀싱을 전 세계적으로 수행 중이다.As shown in Fig. 1, Korea now has about 3,000 full-length exome sequencing programs, and the Seoul National University Asian Genome Center has 100 generators Sequencing is being performed. Also, internationally, genome sequencing for 1,000 people ended in 2010, and sequencing is now being performed worldwide, which is more than ten times more than the results achieved so far.

기술적인 측면에서는 현재 유전체 (염기다형성칩 혹은 차세대시퀀싱기술) 데이터 기반 바이오마커 검색 및 발굴은 염기다형성 (SNP, single nucleotide polymorphism) 방법을 사용한다. 그리고, 이러한 염기다형성을 계산하는 방법을 염기다형성 정의 (SNP calling) 이라고 부른다.From a technical point of view, current genome (base polymorphism chip or next-generation sequencing technology) data-based biomarker search and discovery uses SNP (single nucleotide polymorphism) method. And the method of calculating this base polymorphism is called SNP calling.

그리고, 도 2A 및 도 2B에 도시된 바와 같이, 염기다형성 계산은 대립형 유전자에 기반하여 통계를 적용하고 염기다형성 정의를 수행하여 염기다형성(SNP)을 계산한다. And, as shown in FIGS. 2A and 2B, a base polymorphism calculation calculates base polymorphism (SNP) by applying statistics based on an allelic gene and performing base polymorphism definition.

따라서, 바이오마커 발굴 및 검출 기술들은 정상 및 환자군 들의 염기다형성정보를 이용한 질병연관성연구(association study) 및 질병 링키지연구(linkage study)에 사용된다. Thus, biomarker discovery and detection techniques are used in association studies and linkage studies using normal and patient population polymorphism information.

한편, 차세대시퀀싱(NGS) 및 염기다형성(SNP)칩 데이터의 이미지 정보를 가공하면, 대립유전자차이, 시그널강도(signal intensity), 대립유전자불균형(imbalance) 및 질점수(quality score) 등의 정보가 산출된다. 이러한 연속변수 데이터에 기반하여 다양한 변이에 대한 정의(variant calling)를 수행한 후 분류한 정보(SNV, CNV, 대립유전자방향성 및 INDEL)를 가지고 정상과 질병 사이의 차이를 주는 마커를 선별한다. On the other hand, when image information of next generation sequencing (NGS) and base polymorphism (SNP) chip data is processed, information such as allele difference, signal intensity, allelic imbalance and quality score . Based on this continuous variable data, variant calling is performed, and markers giving difference between normal and disease are selected with classified information (SNV, CNV, allele direction and INDEL).

여기서, 지노타입(genotype) 등으로 분류된 데이터는 비연속 변수인 범주형 변수에 해당한다. 이러한 범주형 변수는 연속변수에 비하여 많은 정보가 손실이 되기 때문에, 암, 희귀질환 및 만성질환과 같은 대립유전자(rare allele)에 기인한 질병연관성(disease association) 및 링키지(linkage study) 연구를 수행 할 때 바이오마커 검출 및 발굴 파워가 감소되는 경향이 있다.Here, data classified as genotype corresponds to a categorical variable which is a discontinuous variable. Because these categorical variables are much more information lost than continuous variables, they conduct disease association and linkage studies due to rare alleles such as cancer, rare diseases and chronic diseases. The biomarker detection and excitation power tends to decrease.

일반적으로 염기다형성 정의(SNV calling)를 하려면 차세대시퀀싱(NGS) 혹은 염기다형성-칩(Chip)데이터의 경우, 올리고(oligo nucleotide: 작은 염기서열조각) chip에 대량으로 화학적 방법에 의해 적치하고, 시퀀싱이나 지노타이핑을 수행할 때 잘게 쪼개진 DNA조각을 Chip에 붙어 있는 DNA조각과 반응결합(hybridization)이 생기게 한 후 서로 잘 결합하고 있는지 여부를 나타내는 시그널 강도 값을 정량화하는 방법이 일반적이다. 염기다형성칩(SNPChip)데이터의 경우 정량화된 시그널강도 값은 염기 당 수백 내지 수천 개의 수치로 표현된다. Generally, in order to define a SNPV (SNV), the next generation sequencing (NGS) or nucleotide polymorphism - chip data is carried out by chemical methods on a large number of oligonucleotide chips, It is a common practice to quantify the intensity of a signal that indicates whether or not DNA fragments are tightly bound to each other after hybridization with DNA fragments attached to the chip. For SNPChip data, quantified signal intensity values are expressed as hundreds to thousands of values per base.

도 3에 도시된 바와 같이, 현재 일반적으로 사용하는 illumina 및 affymetrix 사의 SNP chip의 경우, 1백만 염기다형성을 한 번에 집적하도록 되어있다. As shown in FIG. 3, in the case of SNP chips of illumina and affymetrix which are generally used, 1 million base polymorphism is integrated at one time.

따라서, 1백만 개 대립유전자 위치에서 시그널 값(약 1천개)를 생산한다면 1M * 1,000값, 즉, 1명의 게놈 당 10억 개의 수치가 생기고 이러한 방법으로 10,000명을 처리하면 100조개의 수치가 생긴다. 그러므로 데이터 크기로 약 5-10TB 정도가 된다. Thus, producing a signal value (about 1,000) at 1 million alleles results in a value of 1M * 1,000, or 1 billion per genome, and processing 10,000 in this way results in a value of 100 trillion . Therefore, the data size is about 5-10TB.

그리고, 바이오마커를 발굴하는 과학자들은 염기다형성 변이정의(SNV calling) 방법을 사용하여 프로세싱을 한 후에 계산된 염기다형성정보(SNV)만을 사용한다(약 10GB). And scientists digging biomarkers use only computed base polymorphism information (SNV) (about 10 GB) after processing using the SNV calling method.

한편, 대한민국 특허등록 제10-0996443호에는 고집적 유전자 데이터베이스를 처리하는 방법이 개시되어 있다.On the other hand, Korean Patent Registration No. 10-0996443 discloses a method for processing a highly integrated gene database.

그러나 상기한 바와 같은 선행 기술에서는 다음과 같은 문제점이 있다.However, the above-described prior art has the following problems.

즉, 염기다형성 정의를 이용하여 대립유전자의 질병변위마커 대상 후보군을 산출하는 경우, 질병 변위 마커 후보군의 데이터 량이 많아지고, 이들 사이의 검출 가능성에 대한 변별이 없으므로, 상기 후보군으로 부터 실제 질병 변위 마커를 찾아 내는 과정이 복잡해지는 문제점이 있다.
That is, when calculating the candidate group of the disease displacement marker candidate using the base polymorphism definition, since the data amount of the disease displacement marker candidate group is increased and there is no discrimination between the detection probability of the allele gene marker candidate candidate group, There is a problem in that the process of finding the data is complicated.

대한민국 특허등록 제10-0996443호Korean Patent Registration No. 10-0996443

본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명은 대립유전자의 질병변위마커 대상 후보군을 산출함에 있어, 질병 변위 마커 후보군의 데이터들에 대하여 질병변위마커 검출 가능성에 따라 랭킹을 부여하는 대립유전자깊이, 시그널강도 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법을 제공하는 것이다.
Disclosure of Invention Technical Problem [8] Accordingly, the present invention has been made keeping in mind the above problems occurring in the prior art, and it is an object of the present invention to provide a method of detecting a disease marker, The present invention provides a system and a method for detecting a disease variation marker of NGS data by an inverse classification method based on allele gene depth, signal intensity and quality score.

상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 본 발명은 바이오 빅데이터에 특화되어 있고 대립유전자형 깊이, 불균형, 시그널 강도값, 질점수 및 알려진 기능정보를 이용하여 빠르게 계산을 위한 값들만 추출하고 원시데이터는 지우는 방식으로 대규모 데이터를 다루는 부담을 줄이고, 빅 데이터를 다루는 방법에 기반하여 고감도의 바이오마커를 발굴하는 방법을 제공한다.According to an aspect of the present invention for achieving the above object, the present invention provides a method for rapidly calculating a value for a quick calculation by using an allelotype depth, an imbalance, a signal strength value, a quality score, It is possible to extract high-sensitivity biomarkers based on the method of handling big data and reduce the burden of handling large-scale data by extracting only the raw data and erasing the raw data.

도 4에는 종래 방법에 의해 질병변이마커를 발굴하고 활용하는 방법과 본 발명에 의해 질병변이를 발굴하고 진단하는 방법을 서로 비교한 모습이 도시되어 있다.FIG. 4 shows a comparison between a method of discovering and utilizing a disease mutation marker by a conventional method and a method of diagnosing and diagnosing a disease mutation according to the present invention.

또한, 아래의 표2는 대립유전자형 깊이, 불균형, 시그널강도 값 및 질 점수을 사용한 SNP기반 마커 계산 예문과 대립유전자깊이에 기반한 간단한 예를 든 것으로, 희귀질환을 가지는 2명의 유전체와 정상인 3명의 유전체 사이에 만들어진 6 쌍의 유전체의 대립유전자들을 비교한 예문이다. Table 2 below also shows SNP-based marker calculations using allelotype depth, unbalance, signal intensity value, and quality score. A simple example based on example sentences and allele depth is used to show that between two genomes with rare disease and three genomes with normal disease Of alleles of six pairs of genomes.

여기서, GATK는 Harvard/MIT의 브로드 인스티튜트(Broad Institute)에서 만든 염기다형성 변이정의(SNV calling)를 위한 툴이고, ADISCAN은 본 발명에 의한 개발 툴을 말한다.
Here, GATK is a tool for SNV calling made by the Broad Institute of Harvard / MIT, and ADISCAN is a development tool according to the present invention.

대립유전자깊이, 시그널강도, 및 QS기반 분석 예시Allele depth, signal intensity, and QS-based analysis example 쌍 유전체Pair dielectric GATK GATK ADISCAN ADISCAN Pair1(정상/질환)Pair1 (normal / disease) 202,421202,421 44,85244,852 Pair2(정상/질환)Pair2 (normal / disease) 208,598208,598 32,65732,657 Pair3(정상/질환)Pair3 (normal / disease) 197,496197,496 24,79324,793 Pair4(정상/질환)Pair4 (normal / disease) 225,225225,225 65,53665,536 Pair5(정상/질환)Pair5 (normal / disease) 239,990239,990 48,87848,878 Pair6(정상/질환)Pair6 (normal / disease) 224,691224,691 38,03838,038 6pair교집합6pair intersection 31,14531,145 5,1535,153 GATK 와 ADISCAN 공통GATK and ADISCAN common 4,8924,892 4,8924,892 *False Positive Including* False Positive Including 25,99225,992 00 *True Positive Missing* True Positive Missing 291291 00

*검증방법: manual inspection
* Verification method: manual inspection

6개 pair의 교집합을 구하면 GATK는 31,145인데 ADISCAN은 5,153개이다. 그리고, 31,145에는 31,145-5,153 = 25,992개의 거짓양성(false positive)이 포함되어 있고, 전체에서 291개의 정답(true positive) 손실을 포함된다. 따라서, 정확도(sensitivity) 및 정밀도(specificity) 모두 GATK 염기다형성 정의 (SNP calling)방법에 비하여 ADISCAN이 월등히 우수함을 볼 수 있다. 정확도 및 정밀도 모두 합치면 감도는 약 (25,992+291) 대 0, 즉 26,000배 정확하다. 여기에서 정확도는 실험적인 검증 이전에 컴퓨터상에서의 수치에 기반 한 정확도를 의미한다.GATK is 31,145 and ADISCAN is 5,153 when the intersection of 6 pairs is obtained. In addition, 31,145 includes 31,145-5,153 = 25,992 false positives and includes 291 true positive losses in total. Therefore, both the sensitivity and the specificity of ADISCAN are superior to those of the GATK polymorphism definition (SNP calling) method. Accuracy and precision together make the sensitivity about (25,992 + 291) to 0, or 26,000 times more accurate. The accuracy here refers to the accuracy based on numerical values on a computer prior to experimental verification.

이처럼 바이오 빅 데이터의 취급상 어려움에도 불구하고 RVR엔진(대한민국 등록 특허 제10-0880531호)의 기술에 힘입어 대규모 대립유전자깊이 정보를 활용한 연구/예측용 유전체 데이터 및 진단검사 개인유전체에서 질병 대립유전자형질을 일관성 있고 고감도로 검색하는 방법 개발에 성공하였고 아래와 같이 2가지 다른 응용이 있다.Despite the difficulties in handling biovig data, research and forecasting genome data and diagnostic tests using large-scale allele gene depth information based on the technology of RVR engine (Korean Patent No. 10-0880531) We have succeeded in developing a method for searching the gene traits consistently and with high sensitivity, and there are two different applications as follows.

(1) 개인별 유전체의 알려진 질병 대립유전형질 변이 검색. (1) Detection of mutations in known genetic alleles of individual genomes.

(2) 암, 희귀질환 및 만성질환 유전체의 새로운 질병대립유전형질 발굴 방법.
(2) A new disease-specific genetic trait discovery method for cancer, rare disease and chronic disease genomes.

1. 개인별 유전체의 알려진 질병 대립유전형질 변이 검색1. Identification of genetic variants of known genetic variants

인간 유전체의 DNA는 30억 개의 염기서열로 되어 있다. 이중에서 단일 유전자의 변이에 기인한 질병(monogenic disease) 그리고, 다중 유전자들의 변이들에 기인한 질병(polygenic disease)로 구분되는데 이러한 단일 및 다중 유전자에 기인한 직접적인 주요 질병원인 변이(단일유전자 기반 질환)는 약 10,000개가 알려져 있다. 그리고, 질환과 간접적으로 연관이 있는 100,000개의 변이(복합성질환)들도 알려져 있다.The DNA of the human genome has 3 billion nucleotide sequences. Among them, monogenic disease and polygenic disease are divided into major disease causative mutations (single gene-based disease, multiple gene mutation, etc.) ) Are known to be about 10,000. And 100,000 mutations (complex diseases) that are indirectly related to the disease are also known.

인간의 대부분의 DNA(미토콘드리아, Y염색체 제외)는 모든 염기위치에는 2개의 대립유전형질(A:B)을 가지고 있기 때문에 이러한 유전형질은 모두 대립유전형질 및 대립유전형질들의 그룹인 반수체(haploid)로 구성된 하플로그룹(haplogroup) 혹은 지노셋(genoset) 등으로 표현된다. 따라서, 30억 개의 유전형질 중에 특정 유전자의 특정 염기다형성정보 2개의 대립유전형질(A:B)중에 질병 형질이 무었인지를 아는 것이 중요하다. Because most human DNA (except mitochondria and Y chromosomes) has two alleles (A: B) at all base positions, all of these genetic traits are alleles and haploids, a group of alleles, Or a haplogroup or genoset composed of a nucleotide sequence. Therefore, it is important to know the specific genetic polymorphism information of a specific gene among three billion genetic traits, and whether there is a disease trait among two allelic traits (A: B).

현재까지 알려진 질병의 원인이 되는 유전형질 변이들은 다양한 인종에 근거하기 때문에 한국인 인종에서는 기존의 유전형질이 어디까지 적용이 되는지 모두 아는 것은 불가능하다. 또한, 암, 희귀질환과 같은 희귀대립유전자(rare allele)에 기인한 바이오마커 검출은 감도(sensitivity)가 중요한 척도가 된다.It is impossible to know the extent to which existing genetic traits are applied in Korean ethnicity because the genetic trait mutations that cause the known diseases are based on various races. Sensitivity is also an important criterion for biomarker detection due to rare alleles such as cancer and rare diseases.

따라서, 본 발병을 사용하면 기존의 알려진 염기다형성 및 돌연변이데이터를 현재의 한국인에서 알려진 인구집단에서, 2개의 대립 유전형질 중에 어느 것이 질병 유전형질이고 어느 것이 정상 유전형질인지를 계산하는 것이 용이해진다.Thus, using this outbreak, it is now easier to compute existing known base polymorphism and mutation data in a population of known populations in the Korean population, of which two of the allelic traits are disease-genotypic and which are genotypic.

도 5는 개인에서 알려진 변이를 검출하고 검출된 변이중에서 유의성이 높은 것은 전체결과(상위의 유의성 그래프)그리고 개별결과(+)등에서 확인이 가능하다.
FIG. 5 shows that a mutation detected in an individual is detected, and that a significant difference among the detected mutations can be confirmed in the overall result (higher significance graph) and individual result (+).

2. 암 및 희귀질환 유전체의 새로운 질병대립유전형질 발굴 방법2. New disease-specific genetic traits of cancer and rare disease genomes

현재 알려진 희귀질환, 만성질환, 암의 원인 바이오마커는 약 10,000개가 알려져 있지만 그것들은 전체 바이오마커 풀(pool)에 100분의 1도 안되고 차세대 시퀀싱 기술의 도움으로 앞으로 수 없이 많은 새로운 바이오마커가 발굴이 될 수 있다. 그러나, 이러한 암, 희귀질환과 같은 희귀대립유전자(rare allele)에 기인한 바이오마커 발굴 역시 감도(sensitivity)가 가장 중요한 척도가 된다. There are about 10,000 known biomarkers for the rare diseases, chronic diseases and cancers that are currently known, but they are not less than one-hundredth of the total biomarker pool. With the help of next-generation sequencing technology, a myriad of new biomarkers . However, sensitivity is also the most important criterion for biomarker discovery due to rare alleles such as cancer and rare diseases.

즉, 희귀질환의 경우 가족력이 알려져 있으면 대립유전자깊이 기반 바이오마커 검색을 적용하는 방법이 필요하다.That is, if family history is known for rare diseases, it is necessary to apply biomarker search based on allele depth.

정상적인 SNP기반하여 마커를 발굴하면 1단계에서 200,000여개 검출 2단계는 30,000여개가 생성이 되고 생성된 30,000여개는 점수가 표시되지 않기 때문에 검출된 최종 결과물을 사용하기 위해서는 추가적인 많은 비용을 소비하여 많은 양의 시퀀싱을 수행하는 것이 필요하다. If a marker is discovered based on a normal SNP, more than 200,000 detection steps in the first step and about 30,000 in the second step are generated. Since the score is not displayed in the 30,000 generated markers, Lt; / RTI >

즉, 암의 경우는 쌍으로 된 전장 유전체를 대립형 유전자 깊이기반으로 검색하는 것이 필요하다. 그리고, 암이 재발하거나 혹은 암의 내성이 생겼을 때도 이러한 대립형 유전자 깊이(allele depth) 기반하여 높은 감도를 가지고 측정할 수 있다.That is, in the case of cancer, it is necessary to search for a pair of full-length genomes based on the allele-type gene depth. Also, when cancer recurs or cancer tolerance develops, it can be measured with high sensitivity based on the allele depth of this allele.

도 6에서 Ⅰ-2 유전자는 알려진 유명한 바이오마커들이고 본 방법으로 정렬하면 상위에 7개가 검출되는 고감도 결과를 볼 수 있다. 정상적인 SNP기반하여 마커를 발굴하면 위와 같은 정렬된 결과를 주지 않고, 100~200배 많은 수의 유의성을 주는 변이를 가지게 된다. 그리고, 그것을 사용하여 많은 시간을 들여서 검증하는 절차가 추가로 필요하다. 그러나, 본 발명 방법을 사용하면 전체 결과가 점수화가 되기 때문에 위에서부터 검증을 수행할 수 있다. 또한, 본 발명을 사용하여 위의 희귀질환과 같이 암에 걸리지 않은 일반인의 대립유전자형깊이 DB를 사용하여 추가적인 검증 결과를 생성할 수 있다.In Fig. 6, the I-2 gene is a well-known biomarker, and when sorted by this method, seven high-sensitivity results are detected. If a marker is discovered based on normal SNP, it will have a mutation that gives 100 to 200 times more significance than the above-mentioned sorted result. Further, there is a further need for a procedure for verifying with much time using it. However, using the method of the present invention, verification can be performed from above because the overall result is scoring. In addition, using the present invention, additional validation results can be generated using the allele-specific depth DB of a non-cancer-affected general person, such as the above-mentioned rare disease.

도 7에는 실제 다수 백혈병환자의 대립유전자마커에 대한 실행 예시가 도시되어 있다.
FIG. 7 shows an example of the execution of an allele marker in an actual multiple leukemia patient.

3. 차세대에서 제3세대 기술로 전환에 따른 기술의 사양 가능성3. Possibility of specification of technology due to transition from next generation to third generation technology

차세대 시퀀싱 기술의 특징은 Chip 혹은 비드(bead)기반 DNA 올리고(Oligo) 조각들의 화학적인 반응(hybridization)에 의한 검출되는 것이 주요한 기술이다. 그러나, DNA가 합성될 때 생기는 플로톤을 정량하는 2.5세대 및 DNA가 합성될 때의 미묘한 변화를 빛으로 감별하여 염기를 판독하는 제3세대 기술 및 기름 방울의 응집을 이용한 비춤(RainDanse) 기술 등은 앞으로 합프로이드(Haploid) 서열을 생성하는 단계로 발전이 되는데, 이러한 기술은 여전히 그 차체로서 유용하지만 여전히 차세대 시퀀싱 데이터의 시그널강도 값 등의 원인인 DNA의 조각개수차이변이(copy number variation) 및 단백질의 보존성에 기인한 시퀀싱의 잘되는 혹은 안되는 영역들의 정보를 이용한 질병마커발굴이라는 문제에 여전히 유용고 영원히 차세대기술 차체로 발전될 가능성이 높다. A key feature of next-generation sequencing technology is the detection by chemical hybridization of chip or bead-based DNA Oligo fragments. However, the third generation technology that quantifies the flowtone that occurs when DNA is synthesized and the base that discriminates subtle changes when the DNA is synthesized by reading the base by light, and the RainDanse technology that uses aggregation of oil droplets Will be developed as a step of generating a Haploid sequence, which is still useful as a vehicle body, but still involves copy number variation of DNA, which is the cause of the signal intensity value of the next generation sequencing data, It is still useful in the problem of finding disease markers using information of good or not of sequencing due to the conservation of protein and it is highly likely to develop into next generation technology body forever.

또한, 본 특허의 응용으로 NGS의 다른 영역인, ChipSeq, RNAseq, 및 DNA METseq 등에 대한 검출법등도 모두 대립유전자 및 시그널강도값에 기인한 정상과 질환의 차이를 주는 질병마커를 검출할 수 있다.
In addition, the application of the present patent can detect disease markers that give differences in normal and disease due to alleles and signal intensity values, such as detection methods for ChipSeq, RNAseq, and DNA METseq, which are other areas of NGS.

위에서 살핀 바와 같은 본 발명에 의한 대립유전자깊이, 시그널강도 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명은 대립유전자의 질병변위마커 대상 후보군을 산출하는 경우, 질병 변위 마커 후보군의 데이터들에 대하여 질병변위마커 검출 가능성에 따라 랭킹을 부여하여, 상기 후보군으로부터 실제 질병변위마커를 검출할 수 있는 효과가 있다.DISCLOSURE OF THE INVENTION According to the present invention, there is provided a system and method for detecting a disease variation marker of NGS data based on allele depth, signal strength, and quality score-based inverse classification method, The present invention provides a method of detecting an actual disease displacement marker from the candidate group by assigning ranking according to the possibility of detecting a disease displacement marker on the data of the disease displacement marker candidate group when calculating the candidate group of the disease displacement marker of the allele have.

또한,본 특허 기술과 PMAP(개인별 게놈 맵) 기술 및 환자별 유전자형 계층화 기술 기반으로 개인별 맞춤의학 분야의 큰 기여를 할 수 있는 효과가 있다.
In addition, this patent technology, PMAP (individual genome map) technology and patient-specific genotyping technology based on the individual can make a great contribution to the field of personalized medicine.

도 1은 최근 진행되고 있는 맞춤 의료 유전체 서비스를 도시한 계략도.
도 2A는 염기다형성 계산용 SNPchip 시그널강도 값을 도시한 예시도.
도 2B는 염기다형성 계산용 NGS 대립형 유전자 깊이를 도시한 예시도.
도 3은 인간유전체 질병 대립유전자 변이 발굴 및 검색 스키마를 도시한 예시도.
도 4는 종래기술과 본 발명에 의해 대립유전자변이를 발굴하는 과정을 비교하여 도시한 흐름도.
도 5는 본 발명에 의한 개인별 유전체의 알려진 질병대립형질 검색예를 도시한 예시도.
도 6은 본 발명에 의한 희귀질환에서 질병대립유전자 마커 발굴 일 예를 도시한 예시도.
도 7은 본 발명에 의한 다수 백혈병환자로부터 질병 대립유전자마커 발굴하는 예를 도시한 예시도.
도 8은 본 발명에 의한 대립유전자깊이탄젠트차이를 도시한 예시도.
도 9은 본 발명에 의한 기하학적대립유전자의 차이를 도시한 예시도.
도 10는 본 발명에 의해 개인유전체 질병 대립유전자마커를 검색하는 일 예를 도시한 예시도.
도 11은 본 발명에 의해 희귀질환 가족데이터 신규 질병 마커를 발굴하는 일 예를 도시한 예시도.
도 12은 본 발명에 의해 암 쌍-데이터 신규 질병 마커를 발굴하는 일 예를 도시한 예시도.
도 13는 본 발명에 의해 암-쌍 데이터 약물 내성 대립유전자를 발굴하는 일 예를 도시한 예시도.
도 14은 본 발명에 의해 만성질환 대립유전자 신규 마커를 발굴하는 일 예를 도시한 예시도.
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a schematic diagram illustrating a custom medical genetic service service in progress;
Figure 2A is an example of SNPchip signal intensity values for base polymorphism calculation.
Fig. 2B is an illustration showing the NGS allele-type gene depth for calculation of base polymorphism. Fig.
Figure 3 is an illustration showing a human genome disease allelic variant discovery and search schema.
FIG. 4 is a flow chart comparing the process of discovering an allelic variation according to the prior art and the present invention. FIG.
Figure 5 is an illustration showing an example of searching for known disease alleles of individual genomes according to the present invention.
6 is an illustration showing an example of discovering a disease allele marker in a rare disease according to the present invention.
FIG. 7 is an illustration showing an example in which a disease allele marker is excavated from a patient with multiple leukemia according to the present invention. FIG.
FIG. 8 is an exemplary diagram showing allele difference tangent differences according to the present invention. FIG.
FIG. 9 is an exemplary diagram showing differences in geometric alleles according to the present invention. FIG.
10 is an illustration showing an example of searching for a personal genomic disease allele marker by the present invention.
11 is an illustration showing an example of discovering a rare disease family data new disease marker according to the present invention.
Figure 12 is an illustration showing an example of discovering a female pair-data new disease marker by the present invention.
Figure 13 is an illustration showing an example of discovery of an arm-pair data drug resistance allele by the present invention.
14 is an illustration showing an example of discovering a chronic disease allele new marker by the present invention.

이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예에 의한 대립유전자깊이, 시그널강도 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법을 상세히 살펴보기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a disease variance marker detection system and method according to a specific embodiment of the present invention will be described in detail with reference to the accompanying drawings.

먼저, 본 발명을 설명함에 있어, 사용되는 용어를 아래와 같이 정의하도록 한다.First, in describing the present invention, terms used will be defined as follows.

- 염기다형성(SNP: single nucleotide polymorphism): 인구집단에서 2~5%의 서로 다른 대립유전자가 있을 수 있는 유전형질 정보를 말한다.- Single nucleotide polymorphism (SNP): Genetic trait information that can have 2 to 5% different alleles in a population.

- NGS(next generation sequencing) : 칩(Chip)기반 그리고 PCR기반 페어드엔드(paired end)형식으로 전장유전체를 조각내고, 상기 조각을 화학적인 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다.- Next Generation Sequencing (NGS): Techniques for fragmenting a full-length genome in a chip-based and PCR-based paired end format and performing sequencing at high speed based on chemical hybridization of the fragment .

- WGS (whole genome sequencing) : 차세대시퀀싱방법(NGS)에 의한 전장유전체시퀀싱을 10X, 20X, 40X형식으로 여러 배수로 인간게놈을 읽는 방법을 의미한다.- Whole genome sequencing (WGS): A method of sequencing whole genomes by next generation sequencing methods (NGS) to read the human genome in multiples of 10X, 20X, and 40X formats.

- WES (whole exome sequencing) : 위의 WGS중에서 단백질 생성에 관여하는 유전자부위만 시퀸싱을 하는 것을 의미한다.- Whole exome sequencing (WES): means that only the gene region involved in protein production is sequenced among the above WGS.

- TS (Target sequencing) : 위의 WGS중에서 표적단백질 생성에 관여하는 유전자부위만 시퀸싱을 하는 것을 의미한다. 따라서, WGS > WES > TS의 데이터크기가 생성된다. 그러나, 작은 부위이기 때문에 많은 샘플을 시퀀싱 할 수 있는 장점이 있다.- TS (Target sequencing): means sequencing only the gene region involved in the target protein production among the above WGS. Thus, the data size of WGS> WES> TS is generated. However, because of its small size, it has the advantage of being able to sequence many samples.

- METseq: 유전자의 DNA methylation 측정을 위한 시퀀싱 기술- METSEq: Sequencing technology for DNA methylation measurement of genes

- RNAseq: 유전자의 발현, 즉 DNA transcriptome을 위한 시퀀싱 기술- RNAseq: gene expression, ie, sequencing technology for DNA transcriptome

- Microarray: 유전자의 발현, DNA transcriptome을 위한 chip기반 기술로 RNAseq과 유사한 결과를 만들지만, 시퀀싱 기반이 아닌 전통적인 chip기반 기술을 의미함.- Microarray: A chip-based technology for gene expression, DNA transcriptome, similar to RNAseq, but a traditional chip-based technology rather than sequencing.

- SNPchip : Affymetrix 및 Illumina가 중심에 있고 현재는 하나의 칩-어레이에 100만개의 SNP정보를 집적할 수 있는 chip 기술을 의미한다.- SNPchip: Affymetrix and Illumina are at the center, and now chip technology means that 1 million SNP information can be accumulated in one chip-array.

- 세포 집단 (cell or tissue population) : 인간의 몸에는 수많은 다른 세포들이 존재하는데, 백혈구, 눈세포, 뇌세포, 간세포, 암세포 등과 같은 세포들은 대부분 개별적으로 분리가 되지만 시퀀싱을 수행할 때 서로 분리되지 않은 채로 DNA가 추출될 수 있다. 특히 암세포를 추출할 때 정상세포도 함께 추출되는데 이러한 현상을 표현하기 위해 각각 다른 세포들의 집단을 세포집단이라고 표현한다.- Cell or tissue population: There are many different cells in the human body. Cells such as leukocytes, eye cells, brain cells, hepatocytes, and cancer cells are mostly separated separately, but they are not separated when performing sequencing. The DNA can be extracted without any change. Especially when cancer cells are extracted, normal cells are extracted together. To express this phenomenon, each group of different cells is referred to as a cell group.

- 인구 집단 (human population) : 한국인, 일본인, 중국인, 흑인, 코케시안 등 일반 유전형질이 다른 일반 인구집단을 의미한다.- human population: means a general population with different genetic traits such as Korean, Japanese, Chinese, Black, and Kokesian.

- 차세대시퀀싱 (next generation sequencing) : illumina, 로슈, 아이언토론토 등의 시퀀싱 기술을 의미하는 것으로, 넓은 의미로는 제3세대 기술인 Pacificbio, RainDance 등의 기술 및 제 4세대 기술을 포함한다.- Next generation sequencing: refers to sequencing technology such as illumina, Roche, and Toronto, and broadly includes technologies such as third generation technologies Pacificbio, RainDance, and fourth generation technologies.

이러한 기술의 차이는 Chip 혹은 Bead기반이 올리고의 화학적반응에 기초를 둔 것이 차세대 기술이고, DNA를 해독하는 방법에 있서 속도 및 시퀀싱기술이 획기적으로 개선되면 제 3세대 또는 제 4세대 등으로 구분된다.The difference between these technologies is the next generation technology based on the chemical reaction of oligo on a chip or bead basis and the 3rd generation or the 4th generation when the speed and sequencing technology are dramatically improved in the way of decoding DNA .

- 대립유전자 깊이(allele depth): 시퀀싱을 수행하면 표준게놈에 시퀀싱이 된 DNA조각을 붙이는 작업을 수행한다. 이렇게 붙은 유전자를 들의 전체를 전체 Depth라고 부른다. 그리고 전체 depth안에는 대립유전자형 얼리일(allele)A과 상대 대립유전자형 얼리일(allele)B이 포함되는데 이러한 2개의 다른 대립유전자의 합을 depth라고 부르고 개별 얼리일을 표준, 상대 대립유전자형이라고 부른다.- Allele depth: When sequencing is performed, DNA sequencing is applied to the standard genome. All of these genes are called total depth. In total depth, allele A and relative allele B are included. The sum of these two different alleles is called depth and the individual early is called the standard, relative allele.

- 시그널강도(signal intensity): 올리고(oligo)와 같은 DNA조각이 칩에 붙어있는 DNA조각에 결합된 형태를 스케너로 읽으면 결합 및 염기의 특징에 따라 색 및 강도가 측정되는 값을 말한다.Signal intensity: When a DNA fragment such as an oligo is attached to a piece of DNA attached to a chip, the color and intensity are measured according to the characteristics of the binding and the base.

- 돌연변이(amino acid mutation) : 염기다형성의 결과로 Wild type 아미노산이 변형된 형태를 돌연변이라고 부른다.- Amino acid mutation: As a result of base polymorphism, a variant of a wild type amino acid is called a mutation.

- 시퀀싱 회수(sequencing folds) : 시퀀싱을 수행하는 회수를 의미하는 것으로 10x로 시퀀싱을 하는 것이 일반적이나, 20x를 하면 보통 정도의 결과가 나오고, 40x 배수로 시퀀싱을 수행하면 희기 대립유전자를 많이 안정적으로 확보가 가능하다.- Sequencing folds: It means the number of times to perform sequencing. Sequencing is generally done at 10x, but when 20x is used, the result is usually. When sequencing at 40x multiple times, Is possible.

- 로커스(Locus) : 염색체상의 하나의 염기 위치를 의미한다.- Locus: means the position of one base on the chromosome.

- 연관불균형(LD: linkage disequilibrium): 다중 염색체에서의 2개 로커스가 연관불균형이 생겼는지 테스트하는 방법. Linkage disequilibrium (LD): A method of testing whether two loci on multiple chromosomes have a linkage disequilibrium.

- SV(structural variation): 변이중에서 insertion, inversion, translocation 등에 의하여 생기는 염색체의 큰 단위(dna segment)에서 생기는 변이를 의미함. - structural variation (SV): A variation in a large unit (dna segment) of a chromosome resulting from insertion, inversion, or translocation in a variation.

- 방향성 SNV: 2개의 대립유전자가 서로 다른 방향성을 가지는 경우이다. 한명의 정상 유전체의 로커스가 Homo인데 다른 유전체의 로커스를 alternative Homo가 되는 경우는 서로 다른 인종에서 보이는 특이한 경우이다. 그러나, 이러한 변이가 암세포나 혹은 특이 질환에서 발견될 경우 스크리닝 할 수 있다. 또한, hetero인데, 2개의 hetero가 다른 방향성을 보인 경우도 있는데 원인은 아직 밝혀지지 않았다.- Directional SNV: Two alleles have different orientations. The homozygous locus of one normal genome is a unique case where the locus of another genome is an alternative homo, which is seen in different races. However, screening can be done when these mutations are found in cancer cells or in specific diseases. In addition, there are cases where two hetero atoms have different orientations, but the cause is not yet known.

- 로커스 상위성(epistasis): 특정 로커스의 변이가 근처의 유전자 혹은 멀리떨어진 (remote) 유전자의 조절에 관여하는 현상 (예, alternative splicing).- Locust epistasis: a phenomenon where a variation in a particular locus is involved in the regulation of a nearby gene or a remote gene (eg, alternative splicing).

- 로커스 기능정보 (locus functional information): 각 염색체상의 로커스가 기능적으로 알려져 있다는 것을 의미 한다 (예 : CNV, INDEL, Alternative splicing, promoter 등)- Locus functional information: means that the locus on each chromosome is functionally known (eg, CNV, INDEL, Alternative splicing, promoter, etc.)

-SAMTOOLS: 원시정렬정보 조작 및 변이정의 엔진-SAMTOOLS: Primitive sort information manipulation and mutation definition engine

-mpileup: SAMTOOLS에서 사용하는 기능중의 하나로 여러개의 BAM파일을 x to y축을 y to x축으로 정렬하는 기능-mpileup: One of the functions used by SAMTOOLS, it is possible to arrange several BAM files on the x to y axis on the y to x axis

-BAM: Binary sequencing Alignment Map file, -BAM: Binary sequencing Alignment Map file,

-SAM: Sequencing Alignment Map file, -SAM: Sequencing Alignment Map file,

이하에서는 상기한 바와 같은 본 발명에 의한 대립유전자깊이, 시그널강도 질점수 및 로커스기능정보 기반의 역 분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법을 첨부된 도면을 참고하여 상세하게 설명한다.Hereinafter, a disease mutation marker detection system and method of NGS data according to the allele gene depth, signal intensity score, and locus function information-based inverse classification method according to the present invention will be described in detail with reference to the accompanying drawings .

도 8은 본 발명에 의한 대립유전자깊이텐젠트 차이를 도시한 예시도이고, 도 9은 본 발명에 의한 기하학적대립유전자의 차이를 도시한 예시도이고, 도 10 는 본 발명에 의해 개인유전체 질병 대립유전자마커를 검색하는 일 예를 도시한 예시도이며, 도 11은 본 발명에 의해 희귀질환 가족데이터 신규 질병 마커를 발굴하는 일 예를 도시한 예시도이고, 도 12은 본 발명에 의해 암 쌍-데이터 신규 질병 마커를 발굴하는 일 예를 도시한 예시도이며, 도 13는 본 발명에 의해 암-쌍 데이터 약물 내성 대립유전자를 발굴하는 일 예를 도시한 예시도이고,도 14은 본 발명에 의해 만성질환 대립유전자 신규 마커를 발굴하는 일 예를 도시한 예시도이다.FIG. 8 is an illustration showing the allele gene depth difference according to the present invention, FIG. 9 is a diagram illustrating the difference of geometric alleles according to the present invention, and FIG. 11 is a diagram illustrating an example of discovering a new disease marker for rare disease family data according to the present invention, and Fig. 12 is a diagram showing an example of searching for a cancer pair- FIG. 13 is an exemplary diagram illustrating an example of discovery of a cancer-pair data drug resistance allele by the present invention, and FIG. An example of discovering a new marker of a chronic disease allele is shown.

먼저, 본 발명의 제1실시예를 살펴보도록 한다.
First, a first embodiment of the present invention will be described.

실시예 1 : 본 발명의 제1실시예는 쌍-유전체 특이 변이마커 스크리닝 방법이다.Example 1: The first embodiment of the present invention is a method for screening a pair-dielectric specific variation marker.

본 발명에 의한 ADISCAN(allelic depth and imbalance scanning)는 7가지 분석방법의 독립적 혹은 가중치기반 혼용을 사용하여 정상과 질환 유전체의 모든 차이를 주는 마커들을 스크리닝 한다.The ADISCAN (allelic depth and imbalance scanning) according to the present invention uses the independent or weighted mixture of seven analytical methods to screen for markers giving all differences in normal and disease genomes.

즉, ADISCAN 점수 = t*w1+ s*w2 +d*w3 + g*w4 + c*w5 + r*w6 + e 으로 정의되고, 각 알고리듬을 t, s, d, g, c, r 및 e의 방식을 사용한다. We define each algorithm as t, s, d, g, c, r, and e as a function of t, w, Method.

여기서, t: 대립유전자깊이곱탄젠트차이, s: 대립유전자제곱승차이, d: 대립유전자절대값차이, g: 기하학적대립유전자차이, c: 통계적대립유전자차이 r: 대립유전자불균형비율 및 e: 로커스 기능정보를 의미한다. w1, w2, w3, w4, w5 및 w6 들은 경험적인 (혹은 사용자 조작가능) 가중치 값이다. 그리고, e는 각 유전체에서의 특정 로커스(locus)의 기능정보에 대한 가중치 값이다. 즉, 상위성(epistasis), 다중 유전체 깊이 연관불균형(LD: linkage disequilibrium) 및 알려진 기능 정보(known functional information)등의 테이블참고(table lookup)데이터를 의미한다. C: statistical allele difference r: allelic imbalance ratio, and e: locus function. E: allelic difference, t: allele depth product tangent difference, s: allelic ridge, d: absolute difference in allele, g: geometric allele difference, Information. w1, w2, w3, w4, w5 and w6 are empirical (or user operable) weight values. And e is a weight value for the function information of a specific locus in each genome. That is, it means table lookup data such as epistasis, multiple linkage disequilibrium (LD), and known functional information.

이들 각각의 내용을 상세히 살피면, 아래와 같다.
The details of each of these are as follows.

1)대립유전자깊이탄젠트차이1) Allele depth tangent difference

전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 두개의 대립유전자깊이(A, B) 혹은 (C, D)를 각 x = adi(A, B), y = adi(C, D). 여기서, adi()는 다양한 대립유전자(A, B) 혹은 상대(질환) 대립유전자(C, D)를 변형(transform)한 0에서 시작하는 상수 형태의 연속변수(=x) 및 0에서 시작하는 상수 형태의 연속변수(=y)이다. 2개의 유전체의 전체 로커스(locus) 위치에서의 A, B, C 혹은 D의 값 중에서 가장 큰 값을 max라고 정의한다. 단, max가 절대 값 E보다 크면, max 는 E라고 정의하고, 대립유전자깊이탄젠트차이는 다음과 같다.The alleles of the normal genome at the locus of the entire genome are called A and B, and alleles of the disease genome are called C and D. In the case of multiple genomes, the A, B, C and D values (A, B) and y = adi (C, D), respectively, when the two alleles have depths (A, B) or (C, D). Here, adi () is a continuous variable (= x) starting from 0 that transforms various alleles (A, B) or relative (disease) alleles (C, D) It is a continuous variable of constant form (= y). The largest value of A, B, C, or D at the entire locus of two dielectrics is defined as max. However, if max is greater than the absolute value E, then max is defined as E and the allele depth tangent difference is

t= 1/tan (y / x) * 1/tan (max - x / max - y)t = 1 / tan (y / x) * 1 / tan (max - x / max - y)

여기서 t값은 x 및 y축의 아래 2차원 좌표체계에서 x 및 y의 3개의 점(t1, t2, t3)이 아래 그림과 같이 주어지면, 대립유전자깊이탄젠트차이(t)을 사용하여 높은 차순으로 정렬하면 t1이 랭크1, t3가 랭크2 그리고 t2가 랭크3이 계산되어 진다. 이러한 방법으로 2개의 정상과 질환 유전체 사이에 가장 큰 차이를 주는 로커스를 정렬 할 수 있다 (도 8).
Here, the t value is obtained by using the allelic depth tangent difference (t) as three orders of x and y (t1, t2, t3) in the two-dimensional coordinate system under the x and y axes, When sorted, t1 is ranked 1, t3 is ranked 2, and t2 is ranked 3. In this way, the locus that gives the greatest difference between the two normal and disease genomes can be aligned (Figure 8).

2)대립유전자제곱승차이2) Allele rats

전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 정의하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 대립유전자제곱승차이(s)는 2제곱, 3제곱, 4제곱, 5제곱, 6제곱,,,, 및 N차 제곱승 등의 다양한 제곱 승을 사용 가능하다. 이중에서 특히, 모델에 잘 맞는 제곱승은 6제곱 승이고, 다음과 같다. x = B^6/A, A>=B 및 A>=1, 그리고 y = D^6/C 이고 여기서, C>=D 및 D>=1 이다. 또한, 분모는 두 개의 대립유전자깊이 중에 큰 수로 하고, 분자는 작은 수로 정한다. 대립유전자깊이가 0인 경우 1로 정하기도 하고, 균형을 맞추기 위해 0의 상대 대립유전자깊이를 2배수를 하는 방법 등의 약간의 다른 방식이 적용이 가능하다.The alleles of the normal genome at the locus of the entire genome are referred to as A and B and the alleles of the disease genome are defined as C and D. In the case of multiple genomes, A, B, C and D Assuming that the values mean the mean, the allele ranks (s) can use various squared powers such as 2, 3, 4, 5, 6, and N squared. In particular, the squared power that is well suited to the model is six power squared, as follows. x = B 6 / A, A> = B and A> = 1, and y = D 6 / C where C> = D and D> = 1. Also, the denominator is a large number in the depth of two alleles, and the numerator is a small number. There are a few other ways to determine if the allele depth is 0, or to double the relative allele depth of 0 to balance.

s = | log(x) - log(y) |s = | log (x) - log (y) |

본 알고리즘의 특징은 두 개의 다른 대립유전자의 6제곱승 차이를 로그단위로 표현한 것이 특징이고, 0에서 무한 값까의 스큐드(skewed)분포를 주는 것이 특징이다.The feature of this algorithm is that it expresses the logarithm of the 6 squared difference of two different alleles, and skewed distribution from 0 to infinity.

또한, 대립유전자제곱승차이(s)의 정의 및 다양한 제곱승의 로그값(log)을 활용하여 변이정이(variant calling)을 수행하는 방법으로, x1 = log(B^6/A), x2 = log(B/A^6), y1 = log(D^6/C), 및 y2 = log(D/C^6)로 공식을 변형(transform)을 할 수 있다. 그리고, 이러한 점수는 x1이 마이너스("-")가 되면 호모(homozygote)를 의미하고, x1이 플러스("+")이면 heterozygote을 의미한다. 같은 방법으로, y1이 마이너스("-")가 되면 호모(homozygote)를 의미하고, y1이 플러스("+")이면 heterozygote을 의미한다. 그리고, x1 및 y1이 플러스("+")이더라도 점수가 0에서 1사이이면 변이정의를 결정 할 수 없는 영역, 즉, 경계 존 (twilight zone) 혹은 부분(혹은 임시) 변이 정의(partially defined variant calling)로 만들어서 사용 되고, 다른 로커스 기능정보 및 연관불균형(LD)정보 혹은 샘플집단 빈도 정보를 사용하여 최종 판단을 하기도 한다. 또한, x2 및 y2는 최종 homo 및 hetero의 방향성 및 균형을 위한 가시화용 정보로 활용된다.
In addition, we use x1 = log (B ^ 6 / A) and x2 = log (B ^ 6) as a method of performing variant calling using the logarithm of various squared powers (B / A ^ 6), y1 = log (D ^ 6 / C), and y2 = log (D / C ^ 6). And this score means homozygote when x1 is minus (-) and heterozygote if x1 is positive (+). In the same way, when y1 becomes minus (-), it means homozygote, and when y1 is positive (+), it means heterozygote. And, even if x1 and y1 are positive ("+"), if the score is between 0 and 1, an area where the variation definition can not be determined, ie, a twilight zone or a partially defined variant calling ), And may make final decisions using other locus function information, association imbalance (LD) information, or sample population frequency information. Also, x2 and y2 are utilized as information for visualization for directionality and balance of the final homo and hetero.

3)대립유전자절대값차이3) Difference in absolute value of allele

전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 정의하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 대립유전자절대값차이(d)는 다음과 같다.The alleles of the normal genome at the locus of the entire genome are referred to as A and B and the alleles of the disease genome are defined as C and D. In the case of multiple genomes, A, B, C and D If the value means the mean value, the difference (d) of the absolute value of the allele is as follows.

d = sqrt (|A-B| * |C-D| ) d = sqrt (| A-B | * | C-D |)

본 알고리즘의 특징은 대립유전자의 차이를 극대화 한 것이다. 또한, d값은 가장 단순한 수식을 포함하기 때문에 복잡한 수식에 의한 정렬에서 생기는 모순점을 검증하는 측면에서 유용하게 사용가능하다.
The feature of this algorithm is to maximize the difference of alleles. Also, because the d value includes the simplest formulas, it can be useful in terms of verifying the inconsistencies arising from alignment by complex formulas.

4)기하학적대립유전자차이 (g = geometry-based difference)4) Geometric allele difference (g = geometry-based difference)

기하학적대립유전자차이는 도 9에 도시된 바와 같이, 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 기하학적대립유전자차이 계산을 위한 변형을 하면 다음과 같다. As shown in FIG. 9, the geometric allele difference is represented by A and B as alleles of the normal genome at the specific locus of the entire genome, and C and D as the alleles of the disease genome, If the A, B, C, and D values of the normal and disease mean mean values, the transformation for the geometric allele difference calculation is as follows.

small = min(A, B, C, D);small = min (A, B, C, D);

A = A - small +1;A = A - small +1;

B = B - small +1;B = B - small +1;

C = C - small +1;C = C - small +1;

D = D - small +1;D = D - small +1;

x = (A+B+C+D)/4;x = (A + B + C + D) / 4;

AB = sqrt((0-A)*(0-A)+(1*x-B)*(1*x-B)) ;AB = sqrt ((0-A) * (0-A) + (1 * x-B) * (1 * x-B));

BC = sqrt((1*x-B)*(1*x-B)+(2*x-C)*(2*x-C));BC = sqrt ((1 * x-B) * (1 * x-B) + (2 * x-C) * (2 * x-C));

CD = sqrt((2*x-B)*(2*x-B)+(3*x-C)*(3*x-C));CD = sqrt ((2 * x-B) * (2 * x-B) + (3 * x-C) * (3 * x-C));

DA = sqrt((3*x-B)*(3*x-B)+(0-A)*(0-A));DA = sqrt ((3 * x-B) * (3 * x-B) + (0-A) * (0-A));

a=AB; b=BC; c=CD; d=DA;a = AB; b = BC; c = CD; d = DA;

s=(a+b+c+d)/2 이다.s = (a + b + c + d) / 2.

그리고 변형(transform)된 새로운 정보를 이용한 정상 및 질병의 기하학적인 면적의 차이(g)는 다음과 같다.The difference (g) between the normal and disease geometric areas using the transformed new information is as follows.

g = log(sqrt((s-a)*(s-b)*(s-c)*(s-d))) * 1/sqrt(small)(s-d))) * 1 / sqrt (small) g = log (sqrt ((s-

여기서 AB, BC, CD 및 DA는 2개의 대립유전자들의 거리를 의미한다. 최종적인 g(=geometry-based difference)는 4개의 선으로 연결된 4각형의 브라마구타(Brahmagupta) 면적을 의미한다. 그리고, 1/sqrt(small)은 각각의 대립유전자의 가장 작은 값으로 나누어서 표준화(normalization)을 하여 사용한다. 이는 표준화를 하지 않은 값으로 수행하는 경우, 정상 vs. 질환의 대립유전자 비율 값은 250:250 vs. 100:250과 250:250 vs. 1:250의 차이를 구분하는 것이 어렵다.Here, AB, BC, CD, and DA mean the distance of two alleles. The final g (= geometry-based difference) refers to the square Brahmagupta area connected by four lines. Then, 1 / sqrt (small) is divided by the smallest value of each allele and normalized. If this is done with non-standardized values, The allele ratio value of the disease is 250: 250 vs.. 100: 250 and 250: 250. It is difficult to distinguish the difference of 1: 250.

즉, 전자는 대립유전자깊이가 150이지만 후자는 대립유전자깊이가 250이 되지만, 기하학적인 차이 알고리즘은 250 대 250으로 계산되기 때문에 표준화가 필요하다. 또한, g값 또한, 2개의 대립유전자와 x 및 y축을 가지고 가장 단순한 면적을 위한 수식을 포함하기 때문에 복잡한 수식에 의한 정렬에서 생기는 모순점을 검증하는 측면에서 유용하게 사용가능하다.
In other words, the former has an allele depth of 150, while the latter has an allele depth of 250, but the geometric difference algorithm is calculated as 250 to 250, so standardization is needed. Also, the g value can be useful in terms of verifying the inconsistencies in complex mathematical sorting because it includes two alleles and a formula for the simplest area with x and y axes.

5) 통계적대립유전자차이(c=2x2 contingency chi-square)5) Statistical allele difference (c = 2x2 contingency chi-square)

전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 정상 유전체와 질병 유전체의 2x2 컨틴전시 카이스쿼어 통계 값(c)는 다음과 같다;The alleles of the normal genome at the locus of the entire genome are called A and B, and alleles of the disease genome are called C and D. In the case of multiple genomes, the A, B, C and D values Is the mean value, the 2x2 contiguous Kaisier statistic (c) of the normal and disease genomes is:

c = chi-square (A, B, C, D);c = chi-square (A, B, C, D);

또한, c값은, 2개의 대립유전자의 샘플 오염도(contamination) 정도를 가장 이상적인(혹은 가상의) 대립유전자비율 대비하여 차이(deviation)를 주는 정도를 fisher exact test로 샘플 contamination을 측정하는 수단으로도 사용 가능하다.
In addition, the c value is a measure of sample contamination by the fisher exact test to the extent to which the degree of sample contamination of the two alleles is proportional to the ratio of the most ideal (or hypothetical) Available.

6)대립유전자불균형값비율(r = log2 allele imbalance ratio)6) Allele imbalance ratio (r = log2 allele imbalance ratio)

전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 하면 정상과 질병의 대립유전자불균형값비율 (r)은 다음과 같다;If the alleles of the normal genome at the locus of the entire genome are called A and B and the alleles of the disease genome are C and D, the ratio of allelic imbalance values of normal and disease (r) is as follows:

ratio = max(A+B, C+D) / min(A+B, C+D);ratio = max (A + B, C + D) / min (A + B, C + D);

r = log2(ratio);r = log2 (ratio);

또한, r값은, 2개의 대립유전자의 증감정도를 감지할 수 있기 때문에 CNV(copy number variation) 및 LOH(loss of heterozygosity)를 측정하는 수단으로 사용된다.
In addition, the r value is used as a means of measuring copy number variation (CNV) and loss of heterozygosity (LOH) since it can detect the degree of increase / decrease of two alleles.

7)로커스 기능 가중치(e)7) Locus function weight (e)

전체 게놈의 특정 로커스(locus) 위치에서, e는 각 유전체에서의 특정 로커스(locus)의 기능정보에 대한 가중치 값이다. 즉, 상위성(epistasis), 연관불균형(LD: linkage disequilibrium) 및 알려진 기능 정보(known functional information)등의 테이블참고(table lookup)데이터를 의미한다.
In the specific locus position of the entire genome, e is a weight value for the functional information of a particular locus in each genome. That is, it refers to table lookup data such as epistasis, linkage disequilibrium (LD), and known functional information.

다음으로, 본 발명의 제2실시예를 살펴보도록 한다.Next, a second embodiment of the present invention will be described.

실시예2 : 본 발명의 제2실시예는 대립유전자깊이기반 역(reverse) CNV(Copy number variation), SNV, INDEL, 방향성 SNV, 및 SV(structural variation) 방법에 의한 차이를 분석하는 방법이다.Example 2: The second embodiment of the present invention is a method of analyzing difference by allele-depth-based reverse copy number (CNV), SNV, INDEL, directional SNV, and SV (structural variation) method.

전술한 바와 같은 실시예 1에서 정리한 방식으로 본 발명에 의한 ADISCAN을 적용하면 두 개의 로커스(Locus: 염색체상의 위치)의 차이가 대립유전자 깊이 및 강도의 차이가 점수 형태로 산출된다. When the ADISCAN according to the present invention is applied in the manner summarized in Example 1 as described above, the difference between two loci (positions on the chromosome) is calculated in the form of a score in which allele depth and intensity are different.

그리고, 점수는 7가지의 다른 의미를 가진다. And the score has 7 different meanings.

여기서, 첫 번째는 한 유전체 쪽이 homo, 다른 유전체 쪽이 hetero가 되는 경우에 가중치를 주는 방법이고, 두 번째는 염기다형성(혹은, 돌연변이차이), 세 번째는 CNV차이, 네 번째는 INDEL차이, 다섯 번째는 SV(structural variation) 차이, 그리고 여섯 번째는 방향성SNV를 가지는 모든 대립유전자를 검색하고 그리고 일곱 번째는 주어진 로커스 기능 가중치 (예 : 상위성, 연관성불균형(LD) 및 알려진 기능정보)등을 검색한 7가지 방법의 점수를 합한 내용 및 7가지 중에서 한가지 대표성을 가지는 점수의 형태로 표현이 된다. Here, the first is a method of weighting when one dielectric is homo and the other is heterogeneous, the second is base polymorphism (or mutation difference), the third is CNV difference, the fourth is INDEL difference, The fifth searches for all structural alleles with SV (Structural variation) differences, the sixth the directional SNV, and the seventh searches the given locus function weights (eg, topology, association disequilibrium (LD) It is expressed in the form of the sum of the scores of the seven methods searched and the score of one representative among 7 kinds.

따라서, 총 점수 안에는 7가지 다른 요소의 점수들이 혼합되어 있는데 정상과 질환 유전체의 차이를 주는 질병변이 마커를 추출하는 것이 첫 번째 목적이기 때문에 ⅰ)유전체 사이에 차이가 발생된 모든 유전자 및 로커스 부분을 추출하고, ⅱ)추출한 후에 역(reverse)으로 본래의 목적에 맞는 7가지 분류를 적용하면 미리 분류(SNV, CNV, INDEL, 방향성SNV 및 SV) 하는 과정에서 생기는 오류를 피하고 목적에 부합하는 최종 결과물을 선별할 수 있으며, ⅲ) 그 이후에 역(reverse)으로 본래의 목적에 맞도록 아래와 같이, 5가지 정보를 변이정의(variant calling)을 하는 방법이다.
Therefore, the total score is a mixture of scores from seven different factors. The first objective is to extract the marker of disease mutation that differentiates between the normal and the disease genome. Therefore, all the genes and locus portions (SNV, CNV, INDEL, Directional SNV and SV) and apply the final classification result (SNV, CNV, INDEL, directional SNV and SV) , And iii) thereafter reverse-transforms the five kinds of information into variant calling according to the original purpose.

1) 역(Reverse) 분류기반 염기다형성에 의한 질병변이마커 선별1) Selection of disease mutation markers by reverse classification-based polymorphism

ADISCAN의 결과는 2개의 대립유전자가 특이하게 다를 때, 높을 점수를 받는다. 따라서 선별된 대립유전들에 대하여 다시 염기다형성 정의(SNV calling)를 수행 하면 염기다형성(혹은, 돌연변이)차이를 계산할 수 있다. 이것을 가지고 2개의 지노타입이 다르다고 설명할 수 있다. 즉, 차이를 먼저 계산하고 의미가 있는 것을 대상으로 염기다형성 정의를 수행하는 방법이다.
The results of ADISCAN are highly rated when the two alleles are unusually different. Therefore, SNV calling for the selected alleles can be used to calculate the nucleotide polymorphism (or mutation) difference. With this, we can explain that the two Zino types are different. In other words, it is a method to calculate the difference first and to perform the base polymorphism definition on the meaningful one.

2) 역(Reverse) 분류기반 CNV 의한 질병변이마커 선별 2) Selection of disease variant markers by reverse classification based CNV

ADISCAN의 결과는 2개의 대립유전자가 서로 다르면 높은 점수를 받는데 여기서, 특히 시그널 강도 값이 높게 측정되면 이는 DNA조각의 수 변화 (CNV: copy number variation)차이가 원인이 된 것이다. 따라서 선별된 대립유전들에 대하여 CNV 정의(calling)을 수행 하면 CNV의 차이를 계산할 수 있다. 즉, 대립유전자 차이를 주는 마커를 먼저 계산하고 의미가 있는 것을 대상으로 CNV 정의를 수행하는 방법이다. The results of ADISCAN are highly scored when the two alleles are different, which is caused by the difference in the number of DNA fragments (CNV), especially when the signal intensity value is high. Thus, the CNV difference can be calculated by performing a CNV calling on the selected alleles. In other words, the marker that gives allelic difference is first calculated and CNV definition is performed on the meaningful one.

3) 역(Reverse) 분류기반 INDEL(Insertion-Deletion) 의한 질병변이마커 선별3) Reverse sorting based on INDEL (Insertion-Deletion)

ADISCAN의 결과는 2개의 대립유전자가 서로 다르면 높은 점수를 받는데 여기서, 특히, 대립유전자의 차이를 값이 높게 측정되면 이는 DNA조각의 첨가(insertion) 및 삭제(deletion)에 차이가 원인이 된 것이다. 따라서, 선별된 대립유전들에 대하여 INDEL 정의(calling)을 수행 하면 INDEL의 차이를 계산할 수 있다. 즉, 대립유전자 차이를 주는 마커를 먼저 계산하고 의미가 있는 것을 대상으로 INDEL 정의를 수행하는 방법이다.
The results of ADISCAN are highly scored when the two alleles are different from each other, especially when the difference in alleles is measured to be high, which is caused by differences in the insertion and deletion of DNA fragments. Thus, the difference in INDEL can be calculated by performing an INDEL calling on the selected alleles. In other words, the marker that gives allele difference is calculated first, and the INDEL definition is performed for the meaningful one.

4) 역 분류기반 대립유전자 SV를 사용한 질병변이마커 선별4) Selection of disease mutation markers using reverse classification-based allele SV

ADISCAN의 결과는 2개의 대립유전자가 서로 다르면 높은 점수를 받는데 여기서, 특히, 대립유전자의 차이를 값이 높게 측정되면 이는 DNA조각의 긴 첨가(long insertion) 및 긴 조각 삭제(long deletion), 및 상호교차(translocation)에 차이가 원인이 된 것이다. 따라서, 선별된 대립유전들에 대하여 SV 정의(calling)을 수행 하면 SV의 차이를 계산할 수 있다. 즉, 대립유전자 차이를 주는 마커를 먼저 계산하고 의미가 있는 것을 대상으로 SV 정의를 수행하는 방법이다.
The results of ADISCAN are highly scored when the two alleles are different. Here, especially when the difference in alleles is measured to be high, the long insertion and long deletion of the DNA fragment, This is caused by differences in translocation. Therefore, the SV difference can be calculated by performing SV calling on the selected alleles. That is, it is a method to calculate the marker giving the allele difference first and to perform the SV definition on the meaningful one.

5) 역 분류기반 대립유전자 방향성 SNV을 사용한 질병변이마커 선별5) Classification based on alleles Segregation of disease markers using directional SNVs

서도 다른 방향성을 가진 2쌍의 대립유전자 정보는 많은 경우에 Hetero로 정의되서 질병 및 정상 사이에 다른 지노타입으로 잡히지 않는다. 특히, 한 쌍의 대립유전자를 사용하여 염기다형성을 계산하는데 Homo인지 Hetero인지를 명확하게 구분이 되지 않는 경우가 많다. 이러한 경우에도, 정상과 환자의 대조군은 뚜렷하게 다른 방향성을 주는 대립유전자를 계산할 수 가 있는데, 이런식으로 한쪽의 유전체만 가지고 있을 때 불명확한 정보를 2개의 유전체를 비교를 통하여 방향성에 기초한 2개의 대립유전자를 비교한 후 차이를 이용하여 선별하는 것이 먼저이고, 선별한 후에 Homo 및 Hetero로 정의하면 Homo인지 Hetero분간이 안되는 정상/질병사이의 차이를 주는 마커로서 발굴이 가능해진다.
Two pairs of allelic information with different orientations are defined as Hetero in many cases and are not caught by other genotypes between disease and normal. In particular, homozygosity or heterozygosity can not be clearly distinguished in calculating base polymorphisms using a pair of alleles. In this case, both the normal and the patient's control group can be calculated to give distinctly different alleles. In this way, when there is only one genome, unambiguous information can be obtained by comparing the two genomes with each other, It is first to select genes using the difference, and if they are selected as Homo and Hetero after selection, they can be identified as markers that give a difference between normal / diseased cells that are not homo or heterozygous.

다음으로 본 발명의 제3실시예를 살펴보도록 한다.Next, a third embodiment of the present invention will be described.

실시예 3 : 본 발명의 제3실시예는 검증용 정상인/환자 통합 DB를 생성하는 방법에 관한 것이다.Third Embodiment: A third embodiment of the present invention relates to a method for generating a normal / patient integrated DB for verification.

본 발명에 의한 제3실시예는 대규모 공용 DB에서 대립유전자 깊이(allelic depth), 시그널강도(signal intensity), 다중 샘플에서의 마커(chr_position) 질 점수(MCR: marker call rate), 염색체상에서 연관불균형 점수(LD: linkage disequilibrium), 및 질 점수(quality score)등을 추출하여 DB를 생성한다. 여기서 100샘플의 50만 로커스(locus)가 있다고 가정하면, DB는 다음과 같이 생성할 수 있다.The third embodiment of the present invention is based on the finding that allelic depth, signal intensity, marker call rate (MCR) in multiple samples, and linkage disequilibrium on chromosomes in a large- A linkage disequilibrium (LD) score, and a quality score, to generate a DB. Assuming that there are 500,000 locus of 100 samples, DB can be generated as follows.

제 1 단계 : 대부분의 SNV calling 알고리즘 들은 SNV정보와 함께 VCF (variant call format)을 출력파일로 생성한다. 그러나 본 발병에 의한 제3실시예에서는 모든 파라미터를 "0"으로 셋팅하여 가장 낮은 단계의 모든 원시파일에서 대립유전자 쌍인 Allele A, 및 Allele B, 그리고, 그것의 질점수(Quality Score), LD, MCR, 및 QS (QS1: phred quality score, QS2: mapping quality score)를 추출할 수 있다. 또는 samtools(원시정렬정보 조작 및 변이정의 엔진)의 mpileup(여러개의 정렬 파일을 x 에서 y축으로, 그리고 y측 에서 x축으로 정렬하는 기능)함수와 같이 직접 변이계산을 위한 대립유전자깊이 원시정보를 계산 및 추출 할 수 있다. Step 1: Most SNV calling algorithms generate VCF (variant call format) together with SNV information as an output file. However, in the third embodiment due to the incidence, all parameters are set to "0 " so that the allele pairs Allele A and Allele B and their Quality Score, LD, MCR, and QS (QS1: phred quality score, QS2: mapping quality score). Or the mpileup (function to sort multiple sort files from x to y axis and from y to x) functions in samtools (native sort information manipulation and mutation definition engine) functions. Can be calculated and extracted.

제 2 단계 : 이렇게 추출된 값들을 샘플 당 6개의 값을 합쳐서 아래와 같이 정렬을 한다. Step 2: Combine the extracted values into 6 values per sample and arrange them as shown below.

Chr_position, AlleleA[0], alleleB[0], QS1[0], QS2[0], LD[0], MCR[0], AlleleA[1], alleleB[1], QS1[1], QS2[1], LD[1], MCR[1], ... AlleleA[N], alleleB[N], QS1[N], QS2[N], LD[N], MCR[N] 으로 표현할 수 있다. 1, QS1 [1], QS2 [0], LD [0], MCR [0], AlleleA [1], alleleB [ ], LD [1], MCR [1], ... AlleleA [N], alleleB [N], QS1 [N], QS2 [N], LD [N] and MCR [N].

여기서 N은 100이다. 따라서, 총 6*100+1(Chr_Position) = 601 컬럼을 생성한다. 이런식으로 정리된 파일을 RVR (대한민국 특허등록 제10-0996443호 참조)파일로 모든 숫자에 대한 indexing을 수행하고 필요한 컬럼 및 라인정보를 자동으로 추출 할 수 있도록 한다. 위의 예문으로는 생성된 DB의 크기는 601 (컬럼) x 500,000 (라인)이 된다. Where N is 100. Thus, a total of 6 * 100 + 1 (Chr_Position) = 601 columns is generated. The file thus arranged is indexed for all the numbers in the RVR file (refer to Korean Patent Registration No. 10-0996443), and the necessary column and line information can be automatically extracted. In the above example, the size of the generated DB is 601 (column) x 500,000 (line).

제 3 단계 : 제 1 단계 및 제 2 단계에 의하여 생성된 질병변이마커들이 X개로 정해지면 X개의 마커들이 제 1 단계 및 제 2 단계를 통하여 생성된 정상/혹은 질병 검증용 셋트의 X개를 전체 DB에서 추출하고 검증용 용도로 사용을 한다.Step 3: If the disease variability markers generated by the first and second steps are X, the X markers are set to X for the normal / disease proof set generated through the first and second steps, Extract from DB and use for verification purpose.

이런 방법으로 정상(normal control)의 검증용 DB 및 환자(case disease)를 위한 DB를 만들 수 있다.
In this way, a DB for normal control and DB for case disease can be created.

다음으로 본 발명의 제4실시예를 살펴보도록 한다.Next, a fourth embodiment of the present invention will be described.

실시예 4 : 본 발명의 제4실시예는 개인유전체에서 질병대립유전형질 검색방법이다.Example 4: A fourth embodiment of the present invention is a method for searching for disease-related alleles in a personal genome.

이때, 사용되는 용어를 아래와 같이 정의한다.In this case, the terms used are defined as follows.

- 개인유전체 : 정상인지 질병인지 모르는 상태에서 단지 질병 혹은 표현형을 주는 유전자를 찾기 위한 대상 유전체를 말한다.- Individual genome: refers to the target genome to search for a gene that only gives a disease or phenotype without knowing whether it is normal or disease.

- AD : 대립유전자깊이(allele depth) 정보 (2개의 대립유전자 형)- AD: allele depth information (two alleles)

- QS : 질점수 (quality score)- QS: quality score

- N : 정상인 유전체의 AD 값의 개수- N: Number of AD values of normal dielectric

- D : 질병 유전체의 AD 값의 개수- D: number of AD values of the disease genome

- X : 정상 및 질병 AD에서 차이가 없음을 나타내는 기호- X: Symbol indicating no difference in normal and disease AD

- Y : 정상 및 질병 AD에서 차이가 있음을 나타내는 기호- Y: Symbol indicating difference in normal and disease AD

- ADISCAN : 정상과 질병 AD간의 차이를 판별하는 패키지 변이정보
- ADISCAN: package variation information to determine the difference between normal and disease AD

ADISCAN기반 개인유전체의 질병 대립유전자 검색방법은 각 인종에 특화된 검증용 질병 대립유전자 DB들이 필요하다. 이는 기존에 알려진 약 10,000개의 직접적인 영향을 주는 변이정보는 모든 인종에 적용이 되지 않기 때문이다. The ADISCAN-based individual genome search method for disease alleles requires a database of alleles-specific verified disease allele genes. This is because approximately 10,000 known mutational information that is already known does not apply to all races.

따라서, 개별 인종에 특화된 검증이 필요하고 검증된 바이오 마커를 사용하여 진단검사를 수행 해야 하는데, 본 실시예는 ADISCAN에 기반의 검증방법을 적용한다.Therefore, a diagnostic test is required to be performed using a verified biomarker that requires specific tests for individual races. In this embodiment, the ADISCAN-based verification method is applied.

현재 1000G (1000명 게놈), KARE데이터 (10,000명 게놈) 및 차세대맞춤의료유전체사업단의 PGM21 통합데이터(3,000명 게놈)가 존재한다. 이러한 통합 인구집단 유전체 데이터와 같이 ADISCAN 결과를 검증하는 검증용 DB가 필요하다. 즉, 이는 1명의 개인의 NGS 기반 전장엑솜시퀀싱(WES)를 수행한다면 전체 엑솜의 길이는 50 MB정도 되고, 그 안에 알려진 변이를 찾고, 찾은 변이 위치에 질병 대립유전자의 타입을 예측하는 것을 의미한다. There are currently 1000G (1000 genomes), KARE data (10,000 genomes) and PGM21 integrated data (3000 genomes) from the Next Generation Custom Medical Genome Corporation. A validation database is needed to validate ADISCAN results, such as aggregated population genomic data. This means that if one person performs NGS-based full-length exome sequencing (WES), the entire exome is about 50 MB in length, which means finding a known mutation in it and predicting the type of disease allele at the mutation location .

예를 들면 건강한 사람이 위와 같은 테스트를 수행한다면 본인이 가지고 있는 변이중에 질병 원인이 되는 희귀변이(Mendelian)을 비롯한 특정 나이에 활성화가 되는 희귀질환 변이들을 검색할 수 있다.For example, if a healthy person performs the above tests, he or she can search for mutations in rare diseases that are activated at a particular age, including Mendelian, which causes illness.

이와 같은 본 발명의 제 4 실시예는 도 10에 도시된 바와 같이, 아래와 같은 단계를 통해 수행될 수 있다.As shown in FIG. 10, the fourth embodiment of the present invention can be performed through the following steps.

제 1 단계 : 한국인 및 한국인과 유사한 중국인 및 일본인을 포함하는 전장 유전체 집단유전체(1000genome, KARE, PGM21 등)에서 최소한 질병 대립유전자가 20%이하 (혹은 더 낮거나 높은 상태)로 계산된 부위에 맵핑이 된 모든 질병 대립유전자를 포함한 질병마커들을 계산한 DB를 구축한다.Step 1: Mapping to a region calculated at least 20% (or lower or higher) of the disease allele in a full-length genome population genome (1000genome, KARE, PGM21, etc.) including Chinese and Japanese similar to Koreans and Koreans We construct a DB that calculates disease markers including all the disease alleles.

만일 국제적인 서비스를 수행하면 각 나라별 질병 대립유전자를 위의 기준에 부합하는 부위를 선정하고 사전 계산 작업에 의한 방식의 DB를 사용한다.If an international service is performed, the region that meets the above criteria for the disease allele of each country is selected, and the DB based on the pre-calculation work is used.

제 2 단계 : 개인유전체를 WGS, WES, 혹은 TS방법을 사용하여 시퀀싱을 수행한다.Step 2: Sequencing the individual genome using WGS, WES, or TS method.

제 3 단계 : 시퀀싱한 유전체 데이터에서 질병 대립유전자를 포함하는 위치의 모든 대립유전자 깊이 정보를 추출한다.Step 3: Extract all allele depth information at the position containing the disease allele in the sequenced genomic data.

제 4 단계 : ADISCAN을 사용하여 제2단계 및 제3단계 결과 값을 입력파일로하여 질병위험도 및 ADISCAN 점수계산을 수행한다.Step 4: Use ADISCAN to perform the calculation of disease risk and ADISCAN score using the results of the second and third steps as input files.

제 5 단계 : 상기 제1단계의 DB정보를 활용하여 제 2 단계의 개인유전체와 비교대상 인구집단의 질병 대립유전자깊이 위치정보와의 차이를 계산하고 1 vs. N의 차이점 결과를 산출한다. 유의성을 주는 수(X)를 산출하고 산술 성공률을 계산하여 높은 것에서 낮은 순으로 정렬한다.
Step 5: Using the DB information of the first step, the difference between the personal genome of the second step and the disease allele gene location information of the comparative population is calculated, N difference results. Calculate the significance number (X) and calculate the arithmetic success rate and sort from the highest to the lowest.

Rank1, Allele A, Allele B, X*100/N, Sum(ADISCAN(i)*X(i))Rank 1, Allelee, Allele B, X * 100 / N, Sum (ADISCAN (i) * X (i)

산술 성공률 = X*100/N;Arithmetic success rate = X * 100 / N;

산술 성공률 점수 합 = Sum(ADISCAN(i)*X(i));
Arithmetic success rate score sum = Sum (ADISCAN (i) * X (i));

위의 성공률 및 가중치에 의한 점수합을 사용하여 랭크화하고 정렬된 순으로 이용자(의사 또는 유전정보 전문가)가 읽고 평가를 할 수 있는 방식의 참고자료가 포함된 리포트 폼을 생성한다. 여기서, X는 랭크 점수를 의미하고, N은 샘플 수를 의미한다.
Using the above success rate and scoring by weight, generate a report form containing reference materials that can be read and evaluated by the user (physician or genetic information specialist) in the order of ranking and sorting. Here, X denotes a rank score, and N denotes the number of samples.

다음으로 본 발명의 제5실시예를 살펴보도록 한다.Next, a fifth embodiment of the present invention will be described.

실시예 5 : 본 발명의 제5실시예는 도 11에 도시된 바와 같이 희귀질환/암 쌍 유전체에서 새로운 질병 대립유전자를 발굴하는 방법에 관한 것이다.Example 5: A fifth embodiment of the present invention relates to a method for discovering a new disease allele in a rare disease / cancer pair genome, as shown in Fig.

ADISCAN기반 희귀질환 및 암 등의 신규 질병마커 대립유전자 발굴방법으로 희귀질환 및 암은 가족을 대상으로 수행이 가능하고 암과 같이 자신의 정상세포 및 암세포를 포함한 쌍-샘플을 사용하여 같은 방식의 계산이 가능하다. Based on the ADISCAN-based rare disease and cancer, a novel disease marker can be used to identify alleles of rare diseases and cancers in the family, and can be performed in the same way using a pair of samples containing their normal cells and cancer cells, This is possible.

이와 같은 새로운 질병 대립유전자의 발굴은 아래와 같은 단계를 통해 수행될 수 있다.The discovery of such new disease alleles can be performed through the following steps.

재 1 단계 : 정상 및 환자의 유전체를 WGS, WES 혹은 TS 방식으로 시퀀싱을 수행한다. Step 1: Perform sequencing of normal and patient genomes by WGS, WES or TS method.

이때, 상기 환자 유전체는 희귀질환 환자의 유전체 또는 암세포의 유전체를 의미하고, 정상 유전체는 희귀질환 환자의 가족 중 상기 희귀질환이 발병하지 않은 사람의 유전체 또는 암환자의 정상세포 유전체(또는, 암이 발병하지 않은 암환자 가족의 유전체)일 수 있다.In this case, the patient dielectric refers to a genome of a rare disease patient or a genome of a cancer cell, and the normal genome is a genome of a genome or a cancer patient who has not developed the rare disease among families of a rare disease patient The genome of a family of unexposed cancer patients).

제 2 단계 : 시퀀싱한 데이터에서, 정상 유전체와 질병유전체 쌍을 ADISCAN을 사용하여 유의성 변이 부분을 산출한다.Step 2: In the sequenced data, the normal genomic and disease genome pairs are calculated using ADISCAN.

예를 들면, 정상(할머니) vs. 질병(아빠), 정상(할머니) vs. 질병(아들1), 정상(할머니) vs. 질병(아들2), 정상(고모) vs. 질병(아빠), 정상(고모) vs. 질병(아들1), 정상(고모) vs. 질병(아들2)의 6쌍을 ADISCAN을 사용하여 유의성을 주는 변이를 생성한다.For example, normal (grandmother) vs. Disease (father), normal (grandmother) etc. Disease (son 1), normal (grandmother) vs. Disease (son 2), normal (aunt) vs. others. Disease (father), normal (aunt) etc. Disease (son 1), normal (aunt) vs. others. Six pairs of disease (Son 2) produce a mutation giving significance using ADISCAN.

제 3 단계 : 모든 유의성 변이들이 겹치는 부위를 최종 선별한다. 이처럼 가족 데이터의 경우 아빠-아들1-아들2는 같은 질병 대립형질유전자에 기인했을 확률이 높기 때문에 6쌍이 모두 동시에 유의한 질병 대립형질유전자를 계산한다.Step 3: Final selection of all overlapping mutations. Thus, in the case of family data, the father-son-son-2 is likely to be caused by the same disease allelic gene, so all six pairs simultaneously calculate significant disease alleles.

제 4 단계 : 개인유전체 질병대립유전형질 검색방법에서 셋팅 한 제1단계 및 제2단계의 검증된 인구별 질병대립유전형질 DB를 활용한다. 상기 제3단계를 거치면 5천 만개의 전체 데이터에서 4~5천개의 후보마커가 선별이 되고, 이러한 후보마커들을 ADISCAN을 사용하여 인구별 질병대립유전형질 DB와 비교하면 더 높은 정확도의 바이오마커 대상을 선별할 수 있다. Step 4: Utilizing the verified population-specific disease allele genetic trait database set in the first step and the second step set in the individual genome disease allele genetic trait search method. In the third step, 4 to 5 thousand candidate markers are selected from 50 million total data. When these candidate markers are compared with the population-specific disease allele genetic trait DB using ADISCAN, a higher accuracy biomarker target Can be selected.

제 5 단계 : 상기 제4단계를 거치면 점수가 높은 것에서 낮은 순으로 최종 마커 후보가 결정이 되고 이중에서 점수가 높은 것부터 CNV(copy number variatrion), 바이오맵, 주석작업 및 단백질 시뮬레이션을 수행한다.
Step 5: After the fourth step, the final marker candidates are determined in descending order of score, and CNV (copy number variance), bio map, tin work, and protein simulation are performed.

다음으로 본 발명의 제6실시예를 살펴보도록 한다.Next, a sixth embodiment of the present invention will be described.

실시예 6 : 본 발명의 제6실시예는 도 13에 도시된 바와 같이 암 내성 유전체에서 암 내성 원인 마커를 발굴하는 방법에 관한 것이다. Example 6: A sixth embodiment of the present invention relates to a method for locating a cancer resistant cause marker in a cancer resistant genome as shown in FIG.

제 6 실시예는 제5실시예의 희귀질환/암 유전체에서 질병 대립유전자 발굴과 같은 방법으로 제 1 단계 내지 제 3 단계에 의해 수행된다.The sixth embodiment is performed by the first to third steps in the same manner as the disease allele discovery in the rare disease / cancer genome of the fifth embodiment.

이하에서는 백혈병에 대한 마커 발굴 방법을 예로 들어 설명한다.Hereinafter, an example of a marker discovery method for leukemia will be described as an example.

샘플들 중 ID_G1, G2, G3, G4 (Total 4cases)는 백혈병(AML) 중에서도 APL 이라는 특수 아형을 가진다. 상기 환자들의 유전체는 t(15;17) 변환된위치(translocation)를 갖고 있고, 유전자로는 PML/RARA 유전자 교차 (gene rearrangement)를 갖고 있다. 즉 이들은 이미 호발성 암(oncogenic driver)이 알려져 있다. Among the samples, ID_G1, G2, G3, and G4 (Total 4 cases) have a special subtype of APL among leukemia (AML). The genomes of these patients have a t (15; 17) translocation and the gene has a PML / RARA gene rearrangement. In other words, they are already known as oncogenic drivers.

따라서 상기 아형들은 PML/RARA 를 표적으로하는 표적치료제를 쓰게 되는데 대부분 잘 듣지만 일부에서 듣지를 않는다. G1 환자가 그에 해당하는 환자이다. G1에는 있고 나머지에는 없는 변이를 찾아야 한다. 그 변이가 표적치료제 불응성과 관련 있을 같다고 추측한다.Therefore, the subtypes will use a target treatment targeting PML / RARA, which is mostly heard but not heard in some cases. G1 patient is the corresponding patient. You need to find a variation in G1 that is not in the rest. I suspect that the mutation may be related to refusal of the target treatment.

상기 아형들은 유사한(homogenous) 집단이기 때문에, 암변이(cancer mutation)들도 다양하지 않을 것이고 비교적 동일할 것으로 보고 있다. 따라서, G1 에는 있고, 나머지에는 없는 변이를 찾는다. 이 변이는 정상(germline)의 것이 아니고 암(somatic)의 것이다.Since the subtypes are homogenous, the cancer mutations will not vary and are expected to be relatively identical. Thus, we look for a variation in G1 that is not in the rest. This variation is not of germline but of somatic.

도 12에 도시된 바와 같이, 위의 경우 G1, G2, G3, G4까지 모두 쌍-샘플이다. 즉, G1는 정상 및 암 조직의 2개 (쌍) 유전체를 포함한다. As shown in FIG. 12, all of G1, G2, G3 and G4 in the above case are pair-samples. That is, G1 comprises two (pair) dielectrics of normal and cancerous tissue.

제 1 단계 : G1, G2, .. G4 각각의 쌍-유전체에서 ADISCAN을 수행하고 후보를 선별한다. Step 1: Perform ADISCAN on each pair-dielectrics of G1, G2, ... G4 and select candidates.

제 2 단계 : 모든 유의성을 주는 결과들 중에서 G1에만 특이적으로 있는 변이를 선별한다.Step 2: Select mutations that are specific only to G1 among all the significance-giving results.

제 3 단계 : 단백질 시뮬레이션을 수행하여 변이가 G1의 약물내성에 원인이 되는지를 확인한다.
Step 3: Perform a protein simulation to determine if the mutation is responsible for the drug resistance of G1.

다음으로 본 발명의 제7실시예를 살펴보도록 한다.Next, a seventh embodiment of the present invention will be described.

실시예 7 : 본 발명의 제7실시예는 도 13에 도시된 바와 같이, 만성질환 유전체에서 마커발굴하는 방법에 관한 것이다.
Example 7: A seventh embodiment of the present invention relates to a method for excavating a marker in a chronic disease genome, as shown in Fig.

정상군 AD정보, N(s)와 질병군 AD정보, D(s)를 교차적(Pairewise)으로 비교한다. N1 x D(s), N2 x D(s), .. Nn x D(s). 그리고, N1.Y, N2.Y, Nn.Y를 산출한다. 여기서, N(s).Y는 유의성을 주는 마커 리스트를 의미한다. 그리고, 모든 N(s).Y의 점수를 정렬하여 표시한다.
The normal group AD information, N (s), disease group AD information, and D (s) are compared in a pairedwise manner. N1 x D (s), N2 x D (s), ... Nn x D (s). Then, N1.Y, N2.Y, and Nn.Y are calculated. Here, N (s) .Y means a marker list giving significance. Then, all the scores of N (s) .Y are sorted and displayed.

본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
It is to be understood that the invention is not limited to the disclosed embodiment, but is capable of many modifications and variations within the scope of the appended claims. It is self-evident.

본 발명은 바이오마커 검색 및 발굴 파워를 향상시키기 위하여 염기다형성 정의를 할 때 사용되는 연속변수 자체를 사용하여 비교분석 방법에 대한 것으로 본 발명에 의하면, 유전체 바이오마커들을 발굴하는 감도(sensitivity)가 기존의 방법에 비하여 10~10,000배 향상되는 장점이 있다.The present invention relates to a comparative analysis method using a continuous variable itself used to define a base polymorphism in order to improve biomarker searching and digging power. According to the present invention, sensitivity of searching for genome biomarkers is improved Which is 10 ~ 10,000 times better than the conventional method.

Claims (21)

하나 이상의 정상유전체 염기다형성 데이터와 하나 이상의 질환유전체 염기다형성 데이터를 비교하는 단계와;
기 설정된 분류기준으로 질병마커의 우선순위를 산출하는 단계; 그리고
상기 우선순위 별로 정렬된 질병마커를 출력하는 단계를 포함하여 수행되고:
상기 분류기준은,
상기 정상유전체와 질 환유전체의 대립유전자 사이의,
깊이에 대한 탄젠트값의 차(대립유전자깊이탄젠트차이), 제곱승 값의 차(대립유전자제곱승차이), 절대값의 차(대립유전자절대값차이), 기하학적 차이 값(기하학적대립유전자차이), 통계적 차이 값(통계적대립유전자차이), 불균형 비율 값(대립유전자불균형비율) 또는 로커스기능 중 어느 하나 이상을 포함하여 설정되며:
상기 우선순위는,
변수 t, s, d, g, c, r 또는 e의 가중치 중 어느 하나 이상의 합으로 산출되고:
여기서, 상기 변수 t는 대립유전자깊이탄젠트차이에 의한 변수이며;
상기 변수 s는 대립유전자제곱승차이를 나타내는 변수이고;
상기 변수 d는 대립유전자절대값차이를 나타내는 변수이며;
상기 변수 g는 기하학적대립유전자차이를 나타내는 변수이고;
상기 변수 c는 통계적대립유전자차이를 나타내는 변수이며;
상기 변수 r은 대립유전자불균형비율을 나타내는 변수이고;
상기변수 e는 로커스 기능에 대한 가중치 점수임을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
Comparing one or more normal genomic DNA polymorphism data to one or more disease genomic polymorphism data;
Calculating a priority of a disease marker based on a predetermined classification criterion; And
And outputting the disease marker sorted by the priority order:
The sorting criterion may be,
Between the normal genome and the allele of the whole vaginal yeast oil,
(Absolute difference in absolute value of allele), geometric difference (geometric allele difference), statistical difference between tangent values of depth (tangent difference of allele), difference of squared value A difference value (statistical allele difference), an unbalance ratio value (allele imbalance ratio), or a locus function:
The priority order may be,
Is calculated as the sum of at least one of the weights of the variables t, s, d, g, c, r or e:
Where the variable t is a variable due to allele difference tangent difference;
The variable s is a variable representing the allelic squared ranks;
Wherein the variable d is a variable indicating an absolute difference in alleles;
Wherein the variable g is a variable representing a geometric allele difference;
Wherein the variable c is a variable indicative of a statistical allele difference;
The variable r is a variable representing an allelic imbalance ratio;
Wherein the variable e is a weighted score for the locus function.
삭제delete 제 1 항에 있어서,
상기 변수 t는,
t= [1/tan (y / x)] * [1/tan (max-x / max-y)] 에 의해 산출되고:
여기서, adi()함수는 대립유전자를 다양한 방식의 상수로 변형(transform)하는 함수이고;
x = adi(A,B) 및 y=adi(C,D) 이며;
A와 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고;
C와 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미하며;
정상과 질환의 대립유전자가 homo와 hetero형식과 같이 반대되는 개념에 가중치를 주는 것임을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
The method according to claim 1,
The variable " t "
is calculated by t = [1 / tan (y / x)] * [1 / tan (max-x / max-y)
Here, the adi () function is a function that transforms an allele to a constant of various types;
x = adi (A, B) and y = adi (C, D);
A and B refer to alleles of the normal genome at the specific locus position of the entire genome;
C and D are alleles of the disease genome at the locus of the entire genome;
Wherein the alleles of normal and disease are weighed against opposite concepts such as homo and heterozygous.
제 1 항에 있어서,
대립유전자제곱승차이(s)는,
두 개의 다른 대립유전자깊이로부터 산출되는 두 값의 로그(log) 단위 차이값의 절대치를 점수로 하여 랭크화 하는 것을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
The method according to claim 1,
The allelic squared rider (s)
Wherein the absolute value of the log unit difference value of the two values calculated from the depths of the two different alleles is ranked as a score, thereby detecting a marker of disease variation in the next generation sequencing data.
제 4 항에 있어서,
대립유전자제곱승차이(s)는,
s = |log(x) - log(y)| 에 의해 산출되고:
상기 변수 x 및 y 는,
x = B^N/A (A>=B 및 A>=1) 과;
y = D^N/C (C>=D 및 D>=1) 로부터 산출되고;
A와 B 그리고 C와 D는 각각 서로 다른 대립유전자깊이를 나타내는 변수이며;
N은 1이상의 정수임을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
5. The method of claim 4,
The allelic squared rider (s)
s = | log (x) - log (y) | Lt; / RTI >
The variables x and y,
x = B ^ N / A (A > = B and A > = 1);
y = D ^ N / C (C > = D and D > = 1);
A and B and C and D are variables that represent different allele depths;
Wherein N is an integer of 1 or more.
제 5 항에 있어서,
상기 N은 6임을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
6. The method of claim 5,
Wherein the N is 6. ≪ RTI ID = 0.0 > 8. < / RTI >
제 4 항에 있어서,
대립유전자제곱승차이(s)는,
대립유전자의 로그값으로부터 생성되는 마이너스("-") 또는 플러스(+) 형태의 Homo 및 Hetero로 지노타입(homo, hetero)의 변이정의(variant calling)를 하는 것임을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
5. The method of claim 4,
The allelic squared rider (s)
(Homo, hetero) variant of a homo and hetero form of minus ("-") or plus (+) forms generated from the logarithm of the allele. Detection of mutation markers.
제 7 항에 있어서,
대립유전자제곱승차이(s)는,
log(B^6/A) 또는 log(B/A^6)와 log(D^6/C) 또는 log(D/C^6)의 차이값으로 부터 산출되고:
A와 B 그리고 C와 D는 각각 서로 다른 대립유전자깊이를 나타내는 변수임을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
8. The method of claim 7,
The allelic squared rider (s)
is calculated from the difference between log (B ^ 6 / A) or log (B / A ^ 6) and log (D ^ 6 / C) or log (D / C ^
A and B, and C and D are variables representing different allele gene depths, respectively, in the next generation sequencing data.
제 1 항에 있어서,
상기 변수 d는,
d = sqrt (|A-B| * |C-D|) 의해 산출되고:
여기서, A와 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고;
C와 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미함을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
The method according to claim 1,
The variable " d "
d = sqrt (| AB | * | CD |):
Where A and B refer to alleles of the normal genome at the locus of the entire genome;
Wherein C and D are alleles of a disease genome at a specific locus of the entire genome.
제 1 항에 있어서,
상기 변수 g는,
정상유전체 및 질병유전체의 기하학적인 면적의 차이를 반영한 변수로,
g = log(sqrt((s-a)*(s-b)*(s-c)*(s-d))) * 1/sqrt(small) 으로부터 산출되고:
여기서,
small = min(A, B, C, D);
A' = A - small +1;
B' = B - small +1;
C' = C - small +1;
D' = D - small +1;
x = (A+B+C+D)/4;
AB = sqrt((0-A')*(0-A')+(1*x-B')*(1*x-B')) ;
BC = sqrt((1*x-B')*(1*x-B')+(2*x-C')*(2*x-C'));
CD = sqrt((2*x-B')*(2*x-B')+(3*x-C')*(3*x-C'));
DA = sqrt((3*x-B')*(3*x-B')+(0-A')*(0-A'));
a=AB; b=BC; c=CD; d=DA;
s=(a+b+c+d)/2 이고:
A 및 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고, C 및 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미하며, AB, BC, CD 및 DA는 각각 2개의 대립유전자들 사이의 거리를 의미함을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
The method according to claim 1,
The variable " g "
It is a variable that reflects the difference in the geometric area of the normal and diseased genomes,
calculated from g = log sqrt ((sa) * (sb) * (sc) * (sd))) * 1 / sqrt (small)
here,
small = min (A, B, C, D);
A '= A - small +1;
B '= B - small +1;
C '= C - small +1;
D '= D - small +1;
x = (A + B + C + D) / 4;
AB = sqrt ((0-A ') * (0-A') + (1 * x-B ') * (1 * x-B'));
BC = sqrt ((1 * x-B ') * (1 * x-B') + (2 * x-C ') * (2 * x-C'));
CD = sqrt ((2 * x-B ') * (2 * x-B') + (3 * x-C ') * (3 * x-C'));
DA = sqrt ((3 * x-B ') * (3 * x-B') + (0-A ') * (0-A'));
a = AB; b = BC; c = CD; d = DA;
s = (a + b + c + d) / 2 and:
A and B refer to the alleles of the normal genome at the specific locus position of the entire genome and C and D refer to alleles of the disease genome at the specific locus position of the entire genome and AB, BC, Wherein the CD and the DA each represent the distance between two alleles of the next generation sequencing data.
제 1 항에 있어서,
상기 변수 c는, 정상 유전체의 대립유전자와 질병 유전체의 대립유전자간의 2x2 컨틴전시 카이스쿼어(contingency chi-square) 통계 값을 반영한 변수로;
정상 유전체와 질병 유전체의 2x2 컨틴전시 카이스쿼어 통계 값(c)는,
c = chi-square (A, B, C, D)로부터 산출되고;
A 및 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고, C 및 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미함을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
The method according to claim 1,
The variable c is a variable reflecting a 2x2 contingency chi-square statistical value between the allele of the normal genome and the allele of the disease genome;
The 2x2 continea-kinase statistic (c) of the normal and disease genomes,
c = chi-square (A, B, C, D);
A and B denote alleles of the normal genome at the specific locus of the entire genome and C and D denote alleles of the disease genome at the specific locus position of the entire genome. Detection method of disease variation markers in sequencing data.
제 1 항에 있어서,
상기 변수 r은,
정상 유전체와 질병 유전체의 대립유전자불균형값비을 반영한 변수로,
r = log2(ratio)에 의해 산출되고;
여기서, ratio = max(A+B, C+D) / min(A+B, C+D)이고, A 및 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고, C 및 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미함을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
The method according to claim 1,
The variable " r "
This variable reflects the ratio of the allelic imbalance of the normal and disease genomes,
r = log2 (ratio);
A and B are alleles of a normal genome at a specific locus position of the whole genome, and the ratio of the allele of the normal genome to the specific genome of the entire genome is R = max (A + B, C + D) / min C and D are alleles of disease genomes at specific locus loci of the entire genome.
제 1 항 또는 제 3 항 내지 제 12 항 중 어느 한 항에 있어서,
(A) 상기 검출된 질병변이 마커에 대하여, 두 유전체 사이의 차이가 발생된 부분을 추출하는 단계와;
(B) 상기 차이 발생부분에 대하여 역(reverse)으로 염기다형성, CNV(copy number variation), INDEL(Insertion-Deletion) 또는 대립유전자 방향성, 및 SV(structural variation) 중 하나의 차이를 분류하는 단계; 그리고
(C) 상기 제(B)단계의 분류기준으로 분류된 차이(변이정의, variant calling)를 출력하는 단계를 포함하여 수행됨을 특징으로 하는 차세대 시퀀싱 데이터의 질병변이마커 검출 방법.
13. The method according to any one of claims 1 to 12,
(A) extracting, for the detected disease mutation marker, a portion where a difference between two dielectrics occurs;
(B) classifying the difference of one of the base polymorphism, copy number variation, INDEL (Insertion-Deletion) or allelic directionality, and structural variation (SV) reverse to the difference occurrence part; And
(C) outputting a difference classification (variant calling) classified into a classification criterion of the step (B). ≪ Desc / Clms Page number 20 >
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020130100998A 2012-11-12 2013-08-26 Detecting method for disease markers of NGS data KR101460520B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20120127195 2012-11-12
KR1020120127195 2012-11-12

Related Child Applications (2)

Application Number Title Priority Date Filing Date
KR1020140020736A Division KR101542529B1 (en) 2014-02-21 2014-02-21 Examination methods of the bio-marker of allele
KR20140020738A Division KR20150024232A (en) 2014-02-21 2014-02-21 Examination methods of the origin marker of resistance from drug resistance gene about disease

Publications (2)

Publication Number Publication Date
KR20140061223A KR20140061223A (en) 2014-05-21
KR101460520B1 true KR101460520B1 (en) 2014-11-11

Family

ID=50890317

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130100998A KR101460520B1 (en) 2012-11-12 2013-08-26 Detecting method for disease markers of NGS data

Country Status (1)

Country Link
KR (1) KR101460520B1 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101693717B1 (en) 2015-12-28 2017-01-06 (주)신테카바이오 Bioactive variant analysis system using genetic variants data of individual whole genome
KR101693510B1 (en) 2015-12-28 2017-01-17 (주)신테카바이오 Genotype analysis system and methods using genetic variants data of individual whole genome
KR101693504B1 (en) 2015-12-28 2017-01-17 (주)신테카바이오 Discovery system for disease cause by genetic variants using individual whole genome sequencing data
CN107194143A (en) * 2017-03-31 2017-09-22 苏州艾隆信息技术有限公司 Medicine information data processing method and system
WO2017191871A1 (en) * 2016-05-04 2017-11-09 삼성전자 주식회사 Method and device for determining reliability of variation detection marker
KR20180069651A (en) 2016-12-15 2018-06-25 (주)신테카바이오 Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
KR20190000340A (en) 2018-12-20 2019-01-02 (주)신테카바이오 Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
KR20190000342A (en) 2018-12-20 2019-01-02 (주)신테카바이오 Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
KR20190000341A (en) 2018-12-20 2019-01-02 (주)신테카바이오 Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
US10540324B2 (en) 2016-07-29 2020-01-21 Syntekabio Co., Ltd. Human haplotyping system and method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10443090B2 (en) 2014-11-25 2019-10-15 Electronics And Telecommunications Research Institute Method and apparatus for detecting translocation
KR101638473B1 (en) * 2014-12-26 2016-07-12 연세대학교 산학협력단 Detection method of gene deletion based on next-generation sequencing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100996443B1 (en) 2010-04-13 2010-11-24 (주)신테카바이오 System and method of parallel distributed processing of gpu by dividing dense indexed data-files into parts of search and computation in query and database system thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100996443B1 (en) 2010-04-13 2010-11-24 (주)신테카바이오 System and method of parallel distributed processing of gpu by dividing dense indexed data-files into parts of search and computation in query and database system thereof

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101693717B1 (en) 2015-12-28 2017-01-06 (주)신테카바이오 Bioactive variant analysis system using genetic variants data of individual whole genome
KR101693510B1 (en) 2015-12-28 2017-01-17 (주)신테카바이오 Genotype analysis system and methods using genetic variants data of individual whole genome
KR101693504B1 (en) 2015-12-28 2017-01-17 (주)신테카바이오 Discovery system for disease cause by genetic variants using individual whole genome sequencing data
WO2017191871A1 (en) * 2016-05-04 2017-11-09 삼성전자 주식회사 Method and device for determining reliability of variation detection marker
KR20170125278A (en) * 2016-05-04 2017-11-14 삼성전자주식회사 Method and apparatus for determining the reliability of variant detection markers
KR101882867B1 (en) 2016-05-04 2018-07-27 삼성전자주식회사 Method and apparatus for determining the reliability of variant detection markers
US10540324B2 (en) 2016-07-29 2020-01-21 Syntekabio Co., Ltd. Human haplotyping system and method
KR20180069651A (en) 2016-12-15 2018-06-25 (주)신테카바이오 Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
CN107194143A (en) * 2017-03-31 2017-09-22 苏州艾隆信息技术有限公司 Medicine information data processing method and system
KR20190000340A (en) 2018-12-20 2019-01-02 (주)신테카바이오 Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
KR20190000342A (en) 2018-12-20 2019-01-02 (주)신테카바이오 Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
KR20190000341A (en) 2018-12-20 2019-01-02 (주)신테카바이오 Analysis platform for personalized medicine based personal genome map and Analysis method using thereof

Also Published As

Publication number Publication date
KR20140061223A (en) 2014-05-21

Similar Documents

Publication Publication Date Title
KR101542529B1 (en) Examination methods of the bio-marker of allele
KR101460520B1 (en) Detecting method for disease markers of NGS data
AU2002359549B2 (en) Methods for the identification of genetic features
Abecasis et al. GRR: graphical representation of relationship errors
KR101693504B1 (en) Discovery system for disease cause by genetic variants using individual whole genome sequencing data
US8417459B2 (en) Methods of selection, reporting and analysis of genetic markers using broad-based genetic profiling applications
KR20150024232A (en) Examination methods of the origin marker of resistance from drug resistance gene about disease
Jia et al. Mapping quantitative trait loci for expression abundance
KR101693510B1 (en) Genotype analysis system and methods using genetic variants data of individual whole genome
JP2005527904A (en) Computer system and method for subdividing complex diseases into constituent diseases
US20050149271A1 (en) Methods and apparatus for complex gentics classification based on correspondence anlysis and linear/quadratic analysis
Favalli et al. Machine learning-based reclassification of germline variants of unknown significance: The RENOVO algorithm
US20220367063A1 (en) Polygenic risk score for in vitro fertilization
CN107247890A (en) A kind of gene data system for clinical diagnosis and prediction
KR102085169B1 (en) Analysis system for personalized medicine based personal genome map and Analysis method using thereof
KR101693717B1 (en) Bioactive variant analysis system using genetic variants data of individual whole genome
KR20210110241A (en) Prediction system and method of cancer immunotherapy drug Sensitivity using multiclass classification A.I based on HLA Haplotype
Wang et al. DeepPerVar: a multi-modal deep learning framework for functional interpretation of genetic variants in personal genome
US9672271B2 (en) Method for identifying and employing high risk genomic markers for the prediction of specific diseases
KR20190000341A (en) Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
KR102041497B1 (en) Analysis platform for personalized medicine based personal genome map and Analysis method using thereof
Sun et al. A genetical genomics approach to genome scans increases power for QTL mapping
CN112102884A (en) Multi-gene locus combined disease risk analysis and evaluation platform and method
US20030170638A1 (en) Methods to determine genetic risk through analysis of very large families
TWI764817B (en) Genome risk reading method

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E90F Notification of reason for final refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170828

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181008

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190923

Year of fee payment: 6