KR20170125278A - Method and apparatus for determining the reliability of variant detection markers - Google Patents

Method and apparatus for determining the reliability of variant detection markers Download PDF

Info

Publication number
KR20170125278A
KR20170125278A KR1020160055771A KR20160055771A KR20170125278A KR 20170125278 A KR20170125278 A KR 20170125278A KR 1020160055771 A KR1020160055771 A KR 1020160055771A KR 20160055771 A KR20160055771 A KR 20160055771A KR 20170125278 A KR20170125278 A KR 20170125278A
Authority
KR
South Korea
Prior art keywords
depth
score
single nucleotide
reliability
nucleic acid
Prior art date
Application number
KR1020160055771A
Other languages
Korean (ko)
Other versions
KR101882867B1 (en
Inventor
손대순
박동현
정종석
박웅양
Original Assignee
삼성전자주식회사
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 사회복지법인 삼성생명공익재단 filed Critical 삼성전자주식회사
Priority to KR1020160055771A priority Critical patent/KR101882867B1/en
Priority to PCT/KR2016/009491 priority patent/WO2017191871A1/en
Publication of KR20170125278A publication Critical patent/KR20170125278A/en
Application granted granted Critical
Publication of KR101882867B1 publication Critical patent/KR101882867B1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • G06F19/22
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • G06F19/18
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

The present invention relates to a method and an apparatus for accurately determining the reliability of a single nucleotide variation detection marker. The method for determining reliability of a single nucleotide variation detection marker comprises: a step of obtaining a read by performing targeted sequencing on a predicted single nucleotide variation position of a gene to be inspected from a nucleic acid sample containing the gene to be inspected; a step of mapping the read to a reference genome and calculating a quality control (QC) score from the depth of the read aligned in the reference genome; and a step of evaluating the reliability of the single nucleotide variation detection marker in accordance with the calculated QC score.

Description

변이 검출 표지의 신뢰도 결정 방법 및 장치{Method and apparatus for determining the reliability of variant detection markers}[0001] The present invention relates to a method and an apparatus for determining reliability of a detection marker for a variation,

변이 검출 표지의 신뢰도 결정 방법 및 장치에 관한 것이다.And more particularly, to a method and an apparatus for determining the reliability of a detection marker.

유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체를 서열화(sequencing)하는 기술은 DNA 칩 및 차세대 시퀀싱(Next Generation Sequencing) 기술, 차차세대 시퀀싱(Next Next Generation Sequencing) 기술 등 여러 기술들이 개발되고 있다. 차세대 시퀀싱은 대규모 병렬 시퀀싱 또는 2세대 시퀀싱과 상호 교환적으로 사용될 수 있다. A genome is any genetic information that a creature has. Techniques for sequencing one individual's genome include DNA chip, next generation sequencing technology, and next generation sequencing technology. Next-generation sequencing can be used interchangeably with large-scale parallel sequencing or second-generation sequencing.

뉴클레오티드 서열, 단백질 등과 같은 유전 정보들의 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 뉴클레오티드 서열, 단백질 등과 같은 유전 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 이러한 생물의 유전 정보들을 이용하여 질병과 관련된 SNV(Single Nucleotide Variant), CNV(Copy Number Variation), InDel(Insertion and Deletion), Translocation 등의 변이를 정확히 분석하고, 진단하는 기술들이 연구 중에 있다.Analysis of genetic information such as nucleotide sequence and protein is widely used to find genes expressing diseases such as diabetes and cancer or to correlate genetic diversity and expression characteristics of individuals. In particular, genetic data collected from individuals is important in identifying genetic characteristics of individuals with different symptoms or progression of disease. Thus, genetic data such as individual nucleotide sequences, proteins, and the like are key data that can provide information on current and future disease-related information to prevent disease or to select optimal treatment methods in the early stages of the disease. Techniques for precisely analyzing and diagnosing mutations such as SNV (Single Nucleotide Variant), CNV (Copy Number Variation), InDel (Insertion and Deletion) and translocation related to diseases using these genetic information of living organisms are under study.

단일 뉴클레오티드 변이 검출 표지의 신뢰도를 정확하게 결정하는 방법에 관한 것이다.To a method for accurately determining the reliability of a single nucleotide mutation detection label.

단일 뉴클레오티드 변이 검출 표지의 신뢰도를 정확하게 결정하는 장치에 관한 것이다.To an apparatus for accurately determining the reliability of a single nucleotide mutation detection label.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.Although the terms used in the present embodiments have been selected in consideration of the functions in the present embodiments and are currently available in common terms, they may vary depending on the intention or the precedent of the technician working in the art, the emergence of new technology . Also, in certain cases, there are arbitrarily selected terms, and in this case, the meaning will be described in detail in the description part of the embodiment. Therefore, the terms used in the embodiments should be defined based on the meaning of the terms, not on the names of simple terms, and on the contents of the embodiments throughout.

실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 "...부", "...모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.In the descriptions of the embodiments, when a part is connected to another part, it includes not only a case where the part is directly connected but also a case where the part is electrically connected with another part in between . Also, when a component includes an element, it is understood that the element may include other elements, not the exclusion of any other element unless specifically stated otherwise. The term " ... ", "module ", as used in the embodiments, means a unit for processing at least one function or operation, and may be implemented in hardware or software, or a combination of hardware and software Can be implemented.

본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.It should be noted that the terms such as "comprising" or "comprising ", as used in these embodiments, should not be construed as necessarily including the various components or stages described in the specification, Some steps may not be included, or may be interpreted to include additional components or steps.

하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 통상의 기술자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.The following description of the embodiments should not be construed as limiting the scope of the present invention and should be construed as being within the scope of the embodiments of the present invention. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Exemplary embodiments will now be described in detail with reference to the accompanying drawings.

일 양상은, 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이(single nucleotide variant, SNV) 예측 자리에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드(read)를 수득하는 단계; One aspect includes performing target sequencing on a predicted single nucleotide variant (SNV) position of a test gene from a nucleic acid sample containing the test gene to obtain a read;

참조(reference) 유전체에 상기 리드를 맵핑(mapping)하고 참조 유전체에 정렬된 리드의 뎁스(depth)로부터 QC(Quality control)점수를 산출하는 단계; 및Mapping the lead to a reference dielectric and calculating a Quality Control (QC) score from the depth of the lead aligned to the reference dielectric; And

산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 단계를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법을 제공한다.And evaluating the reliability of the single nucleotide mutation detection label in accordance with the calculated QC score. The reliability of the single nucleotide mutation detection label is determined by the reliability of the single nucleotide mutation detection label.

용어 "단일 뉴클레오티드 변이(single nucleotide variant, SNV)"는 상대적으로 큰 영역이 결손되거나 증폭되어 반복적으로 나타나는 유전자 내의 복제수 변이(copy number variant, CNV)와는 다르게 단일 뉴클레오티드의 치환 등을 의미한다. The term "single nucleotide variant (SNV)" refers to the substitution of a single nucleotide, as opposed to a copy number variant (CNV) in a gene where a relatively large region is deleted or amplified and repeatedly appear.

용어 "QC"는 quality control 또는 품질관리와 동일한 의미로 혼용되어 사용될 수 있으며, 상기 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는 실험 또는 진단에서 신뢰도 높은 결과를 얻기 위해서, 변이 검출 표지의 품질, 특히 변이 예측 자리에 대하여 리드의 뎁스가 충분하게 확보되었는지를 의미한다. The term "QC" may be used interchangeably in the same sense as quality control or quality control, and in order to obtain a reliable result in an experiment or diagnosis for judging whether the single nucleotide mutation is present, the quality of the mutation detection marker, It means that the depth of the lead is sufficiently secured with respect to the predicted position.

도 1은 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법의 전반적인 흐름도이다. 도 1을 참고하면, 변이 검출 표지의 신뢰도 결정 방법은 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 단계(110), 참조 유전체에 리드를 맵핑하는 단계(120), 참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 단계(130), 변이 검출 표지의 신뢰도를 평가하는 단계(140)를 포함할 수 있다. 1 is an overall flowchart of a method for determining the reliability of a single nucleotide mutation detection label. Referring to FIG. 1, a method for determining the reliability of a mutation detection label includes performing target sequencing for a single nucleotide mutation predicted site to obtain a lead 110, mapping a lead to a reference dielectric 120, Calculating a QC score from the depth of the aligned leads 130, and evaluating 140 the reliability of the variation detection beacons.

상기 단계(110)는, 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 특정 영역에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드를 수득한다. The step 110 performs targeted sequencing on a specific region including a single nucleotide variation (SNV) prediction position of the test gene to obtain a lead.

상기 단계(110)에 의해 분석되는 핵산 시료는, 피검체의 생물학적 물질로부터 수득된 DNA, RNA 등을 포함할 수 있고, 공지의 DNA 또는 RNA 추출 방법에 의해 수득될 수 있다.The nucleic acid sample analyzed by the step (110) may include DNA and RNA obtained from the biological material of the subject, and may be obtained by a known DNA or RNA extraction method.

피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 차세대 시퀀싱(next generation sequencing, NGS) 기반의 표적 시퀀싱(targeted sequencing) 또는 패널 시퀀싱(panel sequencing)을 수행할 수 있다. 보다 상세하게는, 표적 딥 시퀀싱(targeted deep sequencing)을 수행함으로써 단일 뉴클레오티드 변이(SNV) 예측 유전자들 각각에 대한 리드들을 획득한다. Target sequencing or panel sequencing based on next generation sequencing (NGS) can be performed on a single nucleotide mutation prediction site of the test gene. More specifically, it obtains leads for each single nucleotide variation (SNV) prediction gene by performing targeted deep sequencing.

용어 "표적 딥 시퀀싱"은 DNA 절편, RNA 절편 등과 같은 핵산들에 리드들을 반복적으로 정렬시킴으로써, DNA 절편, RNA 절편 등과 같은 핵산을 시퀀싱하는 기술이다. The term "target dip sequencing" is a technique for sequencing nucleic acids such as DNA fragments, RNA fragments, etc., by repeatedly aligning leads to nucleic acids such as DNA fragments, RNA fragments and the like.

용어 "리드"는 하나 이상의 핵산 단편의 서열 정보를 의미한다. 상기 리드는 약 10bp(염기쌍) 내지 약 2000bp, 약 15bp 내지 약 1500bp, 약 20bp 내지 약 1000bp, 약 20bp 내지 약 500bp 또는 약 20 내지 약 200bp 일 수 있다. The term "lead" means sequence information of one or more nucleic acid fragments. The lid may be from about 10 bp (base pair) to about 2000 bp, from about 15 bp to about 1500 bp, from about 20 bp to about 1000 bp, from about 20 bp to about 500 bp, or from about 20 to about 200 bp.

용어 "뎁스(depth)"는 용어 "리드의 뎁스(read-depth)"와 동일한 의미로 혼용되어 사용될 수 있으며, 리드의 두께 또는 깊이를 의미한다.The term " depth "can be used interchangeably with the term" read-depth "

시퀀싱 수행 결과 FASTQ 파일 포맷의 유전자 데이터를 획득할 수 있다. FASTQ 포맷은 보통 핵산 서열과 같은 생물학적 서열과, 그에 대응되는 퀄리티 스코어를 저장하는 텍스트 기반 포맷(text-based format)이다. 다만, FASTQ 포맷에 제한되지 않고, 다른 포맷의 시퀀싱 데이터도 분석이 가능하다. As a result of the sequencing, gene data of the FASTQ file format can be obtained. The FASTQ format is a text-based format that stores biological sequences, such as nucleic acid sequences, and their corresponding quality scores. However, it is possible to analyze sequencing data in other formats without being restricted to the FASTQ format.

한편, 참조 유전체 또는 단일 뉴클레오티드 변이(SNV) 예측 자리는 NCBI(National Center for Biotechnology Information), GEO (Gene Expression Omnibus), FDA(Food and Drug Administration), My Cancer Genome, 또는 KFDA(식품의약품안전처) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득된 것일 수 있다. 즉, 참조 유전체는 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 획득된 것일 수 있다. 참조 유전체의 표적 자리와 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리는, 예를 들면 동일한 엑손 자리 또는 인트론 자리일 수 있고, 동일한 넘버의 염색체 상에 동일한 서열 번호 자리일 수 있다.The reference genomic or single nucleotide variation (SNV) predictor is located at the National Center for Biotechnology Information (NCBI), the Gene Expression Omnibus (GEO), the Food and Drug Administration (FDA), the My Cancer Genome, or the KFDA (Food and Drug Administration) (DB), as is well known in the art. That is, the reference genome may be obtained from public genomic data or from public HapMap data. The target site of the reference genome and the single nucleotide variation (SNV) predictor of the test gene may be, for example, the same exon or intron, and may be the same sequence number on the chromosome of the same number.

상기 시료는 피검체의 생검 조직, 포르말린-고정 조직 또는 파라핀-내장(Formalin-fixed, paraffin-embedded: FFPE) 조직으로부터 획득된 것일 수 있다. 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득될 수 있다. 상기 생검 조직으로부터 획득된 시료는 혼성화 단계에서 사용하기 위해 투입된 DNA 양이 중요하며, 혼성화 단계에서 사용하기 위하여 DNA를 400ng 이상, 600ng 이상 또는 800ng 이상 투입할 수 있다. FFPE 조직으로부터 획득된 시료는 DNA 농도가 중요하며, 10ng/μl, 20ng/μl 또는 30ng/μl 이상 일 수 있다. 상기 범위에서, 리드의 뎁스가 충분하게 확보되어, 단일 뉴클레오티드 변이 검출 표지의 신뢰도가 향상될 수 있다. The sample may be obtained from biopsy tissue, formalin-fixed tissue or paraffin-embedded (FFPE) tissue of a subject. The sample may be obtained from biopsy tissue based on the amount of DNA input, or may be obtained from FFPE tissue based on DNA concentration. The amount of DNA injected for use in the hybridization step is important for a sample obtained from the biopsy tissue, and more than 400 ng, 600 ng or 800 ng of DNA can be injected for use in the hybridization step. Samples obtained from FFPE tissue are important for DNA concentration and may be 10 ng / μl, 20 ng / μl or 30 ng / μl or more. Within this range, the depth of the lead is sufficiently secured, so that the reliability of the single nucleotide mutation detection label can be improved.

참조 유전체에 리드를 맵핑하는 단계(120)에서 각 리드들을 참조 유전체의 표적 자리에 정렬시켜 맵핑한다. 참조 유전체에서 하나의 게놈 위치에만 맵핑되는 서열 정보를 고유한 서열 정보로 지정할 수 있다. 지정된 고유한 서열 번호를 기준으로 리드를 염색체의 위치에 지정할 수 있다. 상기 맵핑은 리드 전체 서열을 참조 유전체의 표적 자리 중 가장 유사한 부분에 위치시킬 수 있고(글로벌 정렬, Global alignment), 또는 리드 일부 서열을 참조 유전체의 표적 자리 중 가장 유사한 부분 위치시킬 수 있다(로컬 정렬, Local alignment). 결국, 상기 단계(120)에 의해 생성된 뎁스 데이터는, 참조 유전체의 표적 자리 각각의 핵산에 맵핑된 리드의 뎁스를 나타내는 데이터를 포함할 수 있다. In step 120 of mapping the leads to the reference dielectric, each lead is aligned and mapped to the target location of the reference dielectric. Sequence information mapped to only one genome position in the reference genome can be designated as unique sequence information. You can assign a lead to the chromosome location based on the unique sequence number assigned. The mapping can position the entire leader sequence at the most similar part of the target locus of the reference genome (Global alignment), or position some of the leader sequence to the most similar of the target sites of the reference genome , Local alignment). As a result, the depth data generated by the step 120 may include data representing the depth of the lead mapped to the nucleic acid of each of the target positions of the reference dielectric.

도 3은 피검체(400)의 생검 샘플(410) 또는 FFPE 처리 샘플(425)을 표적 시퀀싱하고, 염색체 표적 자리 각각의 핵산(1,2,3,4 또는 5)에 정렬된 리드의 뎁스(430)를 설명하기 위한 도면이다. 도 1의 단계(120)에서 수행되는 방법과 관련된 것일 수 있다. 3 illustrates a method of target sequencing a biopsy sample 410 or an FFPE treated sample 425 of a subject 400 and determining the depth of the lead aligned to the nucleic acid (1, 2, 3, 4 or 5) 430, respectively. May be related to the method performed in step 120 of FIG.

QC점수를 산출하는 단계(130)는 상기 뎁스를 나타내는 데이터에 기초하여 QC점수(품질관리점수, Quality control score)를 산출한다. QC점수는 뎁스와 성분 편향(Strand bias), 표준 편차(standard deviation) 또는 변동 계수(coefficient of variation) 등을 고려할 수 있다. 상기 단계(130)에서, 총 n 개의 표적 자리에 대하여, QC점수는 하기의 수학식 1 및 2에 따라 산출될 수 있다.The QC score calculation step 130 calculates a QC score (quality control score) based on the data representing the depth. QC scores can take into account depth, component bias, standard deviation, or coefficient of variation. In step (130), for a total of n target positions, a QC score can be calculated according to the following equations (1) and (2).

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

[수학식 2] &Quot; (2) "

Figure pat00002
.
Figure pat00002
.

식 1에서, D i 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균을 의미한다. D i 을 구하기 위하여, i번째 표적 자리와 인접하는 주변 자리의 뎁스를 고려할 수 있고, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 위치의 핵산 및 3' 방향으로 c번째 위치의 핵산까지 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 각각의 핵산에 맵핑된 리드의 뎁스로부터, 이들의 평균을 계산할 수 있다. 이 평균값을 D i 으로 정의할 수 있다. 상기 c는 0 또는 자연수일 수 있다. 상기 c는 0 내지 10, 0 내지 7, 0 내지 5, 0 내지 3 또는 0 내지 2일 수 있다. 예를 들면, 3개의 코돈이 하나의 아미노산으로 번역되는 것을 고려하여, 표적 자리와 상기 표적 자리로부터 5' 방향으로 2번째 위치의 핵산 및 3' 방향으로 2번째 위치의 핵산까지 뎁스 분석 구간으로 결정할 수 있다. 도 6을 참조하여 예를 들면, 표적 자리로부터 5' 방향 및 3' 방향, 즉 ±2 번째 위치의 각각의 핵산에 맵핑된 리드의 뎁스를 함께 분석한다. 1번 염색체의 11168336 자리를 기준으로 5' 방향에 있는 11168334 및 11168335 자리에서의 핵산에 맵핑된 리드의 뎁스와, 1번 염색체의 11168336 자리를 기준으로 3' 방향에 있는 11168337 및 11168338 자리에서의 핵산에 맵핑된 리드의 뎁스를 분석하고, 다섯 자리에서의 뎁스의 평균을 표적 자리, 11168336 자리에서의 D i 으로 결정할 수 있다. In Equation 1, D i means the average of the depth of the lead mapped to each nucleic acid within the depth analysis interval for the i-th target spot of the chromosome. In order to obtain D i , the depth of the neighboring digits adjacent to the i-th target site can be considered. Depth analysis is performed from the target position of the reference dielectric to the nucleic acid at the c-th position in the 5 'direction and the nucleic acid at the c- And the average of the read lengths is calculated from the depths of the leads mapped to the respective 2c + 1 nucleic acids in the depth analysis interval. This average value can be defined as D i . The c may be 0 or a natural number. The c may be from 0 to 10, from 0 to 7, from 0 to 5, from 0 to 3, or from 0 to 2. For example, in consideration of the fact that three codons are translated into one amino acid, it is determined as a depth analysis interval from the target site to the nucleic acid at the second position in the 5 'direction from the target site and the nucleic acid at the second position in the 3' direction . With reference to FIG. 6, for example, the depth of the lead mapped to each nucleic acid in the 5 'direction and the 3' direction from the target position, that is, the ± second position, is analyzed together. The depth of the lead mapped to the nucleic acid at positions 11168334 and 11168335 in the 5 'direction with respect to the 11168336 position of the chromosome 1 and the length of the nucleic acid at positions 11168337 and 11168338 in the 3' direction based on 11168336 digits of the chromosome 1 , And the average of the five-digit depths can be determined as the target position, D i , at 11168336. [

I Di 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균(D i )이 최소 뎁스(d) 이상일 때 1의 값을 갖고, 최소 뎁스(d) 미만일 때 0의 값을 갖는 지시 함수이다.I Di Has a value of 1 when the depth (D i ) of the lead mapped to each nucleic acid in the depth analysis section for the i th target spot of the chromosome is greater than or equal to the minimum depth (d), and 0 Is an indicator function having a value of.

S i 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향 (strand bias)이다. 상기 수학식 1에서, S i 는 상기의 수학식 2에 따라 산출된다. 리드는 순방향 또는 역방향으로 정렬될 수 있고, 어느 하나의 방향으로 치우치지 않도록 정렬될 수 있다. 순방향의 리드의 수 및 역방향의 리드의 수가 같을수록, 0에 가까워진다. 예를 들면, S i 가 0.9 미만의 조건을 만족하는 경우 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는데 신뢰도가 향상된다. I Si 는, 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향(S i )이 0.9 미만일 때 1의 값을 갖고, 0.9 이상일 때 0의 값을 갖는 지시 함수이다.S i is the strand bias of the lead mapped to each nucleic acid within the depth analysis interval for the ith target spot of the chromosome. In Equation (1), S i is calculated according to Equation (2). The leads may be arranged in a forward or reverse direction and may be aligned so as not to be offset in either direction. The closer the number of leads in the forward direction and the number of leads in the reverse direction, the closer to zero. For example, when S i satisfies the condition of less than 0.9, reliability is improved in determining whether or not a single nucleotide variation exists. I Si Is an indicator function having a value of 1 when the component bias (S i ) of the lead mapped to each nucleic acid in the depth analysis interval is less than 0.9 and a value of 0 when the deviation is less than 0.9.

n은 총 표적 자리의 수이다. n is the total number of target positions.

d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스를 의미한다. 상기 최소 뎁스(d)는 검출 민감도(detection sensitivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합에 기초하여 결정될 수 있다. d is the minimum depth required to determine whether a single nucleotide variation is present. The minimum depth d may be determined based on detection sensitivity, detection limit of variation, number of supporting reads, or a combination thereof.

용어 "변이의 검출 한계"는 검출할 수 있는 최소의, 변이의 유전자 빈도를 의미한다.The term " detection limit of mutation "means the minimum detectable gene frequency of a mutation.

용어 "검출 민감도"는 변이 유전자가 존재하는지 여부를 판단함에 있어서 어떤 변이 유전자가 존재하는 상태에서 그 변이를 얼마나 잘 검출할 수 있는지를 의미한다.The term "detection sensitivity" refers to how well a mutation can be detected in the presence of a mutation in the presence or absence of the mutation gene.

용어 "지지 리드"는 해당 표적 자리에 변이를 포함하고 있는 리드를 의미한다.The term "support lead" means a lead that contains a variation in its target place.

변이의 대립유전자 빈도의 검출 한계 및 검출 민감도를 설정하고, 이에 기초하여 변이의 검출 한계를 지지하는 지지 리드의 수를 충분하게 확보하는 최소 뎁스를 결정할 수 있다. 이 때, 시료의 상태에 따라 변이의 대립유전자 빈도의 검출 한계를 달리 설정할 수 있음은 물론이다. The detection limit and the detection sensitivity of the allele frequency of the mutation can be set and the minimum depth for sufficiently securing the number of support leads supporting the detection limit of the mutation can be determined. In this case, the detection limit of the allele frequency of the mutation can be set differently depending on the state of the sample.

상기 단계(130)의 최소 뎁스(d)는 하기의 수학식 3에 따라 산출될 수 있다.The minimum depth d of the step 130 may be calculated according to the following equation (3).

[수학식 3] &Quot; (3) "

Figure pat00003
Figure pat00003

r은 지지 리드의 수이다. 목표하는 검출 민감도를 달성하기 위해 요구되는 지지 리드의 수일 수 있다.r is the number of supporting leads. May be the number of supporting leads required to achieve the desired detection sensitivity.

α는 변이의 검출 한계이다.α is the detection limit of the mutation.

총 n 개의 표적 자리에 대한 QC점수는, 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균(D i )과 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향(S i ) 기준을 동시에 만족하는 표적 자리의 수, 즉 I Di 및 I Si 각각이 1의 값을 만족하는 표적 자리의 수를 총 표적 자리의 수 n으로 나눈 값으로 정의한다. 총 표적 자리의 수에 대하여, 상기 뎁스의 평균(D i )과 성분 편향(S i ) 기준을 동시에 만족하는 표적 자리의 수의 비율이 높을수록, 상기 QC점수는 100에 가까울 수 있다. QC점수가 50인 경우 총 표적 자리 가운데 절반만이, 상기 뎁스의 평균(D i )과 성분 편향(S i ) 기준을 동시에 만족하는 것을 의미할 수 있다.The QC scores for the n total target positions are calculated from the mean (D i ) of the depths of the leads mapped to the respective nucleic acids in the depth analysis interval and the biases (S i ) of the lead mapped to the respective nucleic acids in the depth analysis interval Is defined as a value obtained by dividing the number of target positions satisfying simultaneously, i.e., the number of target positions where each of I Di and I Si satisfy a value of 1, by the number n of total target positions. The QC score may be closer to 100 as the ratio of the number of target positions that simultaneously satisfy the average of the depths (D i ) and the slopes of the compositional deviations (S i ) with respect to the total number of target positions. If the QC score of 50 may indicate that only a total of half the target position, satisfies the average (D i) and component deflection (S i) based on the depth at the same time.

변이 검출 표지의 신뢰도를 평가하는 단계(140)에서, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 변이 검출 표지의 신뢰도를 평가할 수 있다. 즉, QC점수는 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 n개의 표적 자리에 대한 변이 검출 표지 중 몇 %인지를 의미할 수 있다. 총 n 개의 표적 자리에 대한 QC점수가 100에 가까울수록, n개에 가까운 단일 뉴클레오티드 변이 검출 결과를 신뢰할 수 있는 것으로 평가할 수 있다. In the step 140 of assessing the reliability of the mutation detection label, the reliability of the mutation detection label can be evaluated from the ratio of the reliable mutation detection label among the mutation detection labels for the total n target positions. That is, the QC score can indicate the percentage of the mutation detection markers capable of reliably detecting a single nucleotide mutation, of the mutation detection marks for the total n number of target positions. The closer the QC score to the total n target positions is closer to 100, the more reliable the detection result of a single nucleotide variation near n.

종래 변이의 존재 여부를 판단하는 기술은, 연구의 측면에서 변이 유전자를 검출하는 것에 초점이 맞추어져 있다. 종래의 평균 뎁스(mean depth), 100x OnTarget Rate, Q30/FASTQ TotalBases(Gb) 등을 이용하는 경우, 특정 변이를 진단하기 위한 활용도가 낮은 문제가 있다. 임상에서 시퀀싱은 표적 자리가 정해져 있는 경우가 대부분이므로, 표적 자리의 뎁스를 해당 표적 자리에서의 변이 검출의 신뢰도를 판단하는 기준으로 활용하는 것이 진단에 보다 적합하다. 나아가, 임상적으로는 피검체의 변이 예측 자리로부터 변이 유전자가 검출되는 경우뿐만 아니라, 변이 유전자가 검출되지 않는 경우에도, 해당 변이 예측 자리의 뎁스를 파악하면 변이 유전자가 존재하지 않는 것인지, 리드가 부족하여 존재하는지 여부를 판단하지 못하는 것인지에 대한 정보를 제공할 수 있다. The technique for determining the presence or absence of a conventional mutation is focused on detecting a mutated gene in terms of research. When the conventional mean depth, 100x OnTarget Rate, and Q30 / FASTQ TotalBases (Gb) are used, there is a problem that the utilization for diagnosis of a specific variation is low. In clinical practice, most target sequences are sequenced. Therefore, it is more appropriate to use the depth of the target spot as a criterion for judging the reliability of detection of the mutation at the target spot. Furthermore, in clinical cases, when a mutation gene is detected not only in a case where a mutation gene is detected from a predicted position of a subject, but also when a mutation gene is not detected, if the depth of the mutation prediction site is grasped, It is possible to provide information on whether or not it is judged whether or not there is a shortage.

다른 양상은, 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 시퀀싱부; In another aspect, there is provided a nucleic acid analyzing apparatus comprising: a sequencing unit for performing a target sequencing on a predicted single nucleotide position of a gene of a test sample from a nucleic acid sample containing the test gene to obtain a lead;

참조 유전체에 상기 리드를 맵핑하는 맵핑부;A mapping unit for mapping the lead to a reference dielectric;

참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 QC점수 산출부; 및A QC score calculating unit for calculating a QC score from the depth of the lead aligned with the reference dielectric; And

산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 신뢰도 평가부를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치를 제공한다.And a reliability evaluation unit for evaluating the reliability of the single nucleotide mutation detection mark according to the calculated QC score.

도 2에 도시된 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치(300)는 앞서 설명된 신뢰도 결정 방법을 구현한다. 상기 장치는 컴퓨터 판독 매체 또는 이를 포함하는 시스템을 포괄한다. 도 2에 도시된 구성요소 외에 다른 범용적인 구성요소들이 더 포함될 수 있다. The reliability determination unit 300 of the single nucleotide variation detection mark shown in FIG. 2 implements the above-described reliability determination method. The apparatus includes a computer readable medium or a system including the same. Other general components than the components shown in FIG. 2 may be further included.

시퀀싱부(310)는 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 특정 영역에 대하여 표적 시퀀싱을 수행하여 리드를 수득한다. 예를 들면, 표적 딥 시퀀싱을 수행함으로써 단일 뉴클레오티드 변이(SNV) 예측 유전자들 각각에 대한 리드들을 획득한다.The sequencing unit 310 performs a target sequencing on a specific region including a single nucleotide variation (SNV) prediction position of the test gene to obtain a lead. For example, a target dip sequence is performed to obtain leads for each single nucleotide variation (SNV) prediction gene.

상기 시료는 피검체의 생검 조직 또는 FFPE 조직으로부터 획득된 것일 수 있다. 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득될 수 있다. The sample may be obtained from biopsy tissue or FFPE tissue of the subject. The sample may be obtained from biopsy tissue based on the amount of DNA input, or may be obtained from FFPE tissue based on DNA concentration.

맵핑부(320)는 각 리드들을 참조 유전체의 표적 자리에 정렬시켜 뎁스를 분석한다. 맵핑부(320)에서 생성된 뎁스 데이터는, 참조 유전체의 표적 자리 각각의 핵산에 맵핑된 리드의 뎁스를 나타내는 데이터를 포함할 수 있다.The mapping unit 320 analyzes the depth by aligning the respective leads to the target positions of the reference dielectric. The depth data generated by the mapping unit 320 may include data indicating a depth of a lead mapped to a nucleic acid of each of the target positions of the reference dielectric.

QC점수 산출부(330)는 상기 뎁스를 나타내는 데이터에 기초하여 QC점수를 산출한다. QC점수는 뎁스와 성분 편향, 표준 편차 또는 변동 계수 등을 고려할 수 있다. 산출부(330)에서 총 n 개의 표적 자리에 대한 QC점수는 하기의 수학식 1 및 2에 따라 산출될 수 있다.The QC score calculating unit 330 calculates a QC score based on the data representing the depth. QC scores can take into account depth, component bias, standard deviation or coefficient of variation. The QC score for a total of n target positions in the calculation unit 330 can be calculated according to the following equations (1) and (2).

[수학식 1][Equation 1]

Figure pat00004
Figure pat00004

[수학식 2] &Quot; (2) "

Figure pat00005
.
Figure pat00005
.

앞서 설명된 바와 같이, 식 1에서 D i 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균이고, I Di 는 지시 함수이다. D i 을 구하기 위하여, i번째 표적 자리와 인접하는 주변 자리의 뎁스를 고려할 수 있고, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 위치의 핵산 및 3' 방향으로 c번째 위치의 핵산까지 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 각각의 핵산에 맵핑된 리드의 뎁스로부터, 이들의 평균을 계산할 수 있다. 이 평균값을 D i 으로 정의할 수 있다. 상기 c는 0 또는 자연수일 수 있다. 상기 c는 0 내지 10, 0 내지 7, 0 내지 5, 0 내지 3 또는 0 내지 2일 수 있다.As previously described, in Equation 1, D i is the average of the depth of the lead mapped to each nucleic acid in the depth analysis interval for the i th target spot of the chromosome, and I Di is the indicator function. In order to obtain D i , the depth of the neighboring digits adjacent to the i-th target site can be considered. Depth analysis is performed from the target position of the reference dielectric to the nucleic acid at the c-th position in the 5 'direction and the nucleic acid at the c- And the average of the read lengths is calculated from the depths of the leads mapped to the respective 2c + 1 nucleic acids in the depth analysis interval. This average value can be defined as D i . The c may be 0 or a natural number. The c may be from 0 to 10, from 0 to 7, from 0 to 5, from 0 to 3, or from 0 to 2.

앞서 설명된 바와 같이, 식 1에서 S i 는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향을 의미하고, I Si 는 지시 함수이다. n은 총 표적 자리의 수이다. d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스를 의미한다. 상기 최소 뎁스(d)는 검출 민감도, 변이의 검출 한계, 지지 리드의 수 또는 이들의 조합에 기초하여 결정될 수 있다. As described above, in Equation 1, S i denotes the component bias of the lead mapped to each nucleic acid in the depth analysis region for the i-th target site of the chromosome, and I Si Is an indicator function. n is the total number of target positions. d is the minimum depth required to determine whether a single nucleotide variation is present. The minimum depth d may be determined based on detection sensitivity, detection limit of variation, number of supporting leads, or a combination thereof.

상기 산출부(330)에서 최소 뎁스(d)는 하기의 수학식 3에 따라 산출될 수 있다.The minimum depth d in the calculation unit 330 may be calculated according to the following equation (3).

[수학식 3]&Quot; (3) "

Figure pat00006
Figure pat00006

앞서 설명된 바와 같이, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.As described above, r is the number of supporting leads and? Is the detection limit of the variation.

앞서 설명된 바와 같이, 총 n 개의 표적 자리에 대한 QC점수는, 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균(D i )과 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향(S i ) 기준을 동시에 만족하는 표적 자리의 수, 즉 I Di 및 I Si 각각이 1의 값을 만족하는 표적 자리의 수를 총 표적 자리의 수 n으로 나눈 값으로 정의한다.As described above, the QC score for a total of n target sites is calculated by multiplying the average (D i ) of the depths of the leads mapped to the respective nucleic acids in the depth analysis interval and the mean Define the number of target positions that simultaneously satisfy the bias (S i ) criterion, that is, the number of target positions where each of I Di and I Si satisfy a value of 1 divided by the total number of target positions n.

신뢰도 평가부(340)는 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 변이 검출 표지의 신뢰도를 평가할 수 있다. 즉, QC점수는 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 n개의 표적 자리에 대한 변이 검출 표지 중 몇 %인지를 의미할 수 있다. 총 n 개의 표적 자리에 대한 QC점수가 100에 가까울수록, n개에 가까운 단일 뉴클레오티드 변이 검출 결과를 신뢰할 수 있는 것으로 평가할 수 있다.The reliability evaluation unit 340 can evaluate the reliability of the mutation detection mark from the ratio of the reliable mutation detection mark among the mutation detection markers for the total of n target positions. That is, the QC score can indicate the percentage of the mutation detection markers capable of reliably detecting a single nucleotide mutation, of the mutation detection marks for the total n number of target positions. The closer the QC score to the total n target positions is closer to 100, the more reliable the detection result of a single nucleotide variation near n.

부가적으로, 상기 장치(300)는 출력부를 포함할 수 있다. 상기 출력부는 상기 변이 검출 표지의 신뢰도를 표시하는 디스플레이 장치가 될 수 있다. 상기 출력부는 상기 변이 검출 표지의 신뢰도를 QC점수, 등급, PASS 또는 FAIL의 2치 변수(binary variable), 이미지, 그래프 등으로 제시할 수 있다. 그 외 사용자가 상기 변이 검출 표지의 신뢰도를 표시할 수 있는 장치라면 어떠한 장치도 가능하다. 도 9를 참조하여 예를 들면, 단일 뉴클레오티드 변이 검출 표지(Y 또는 N 중 N만 표기됨)와 함께, 각각의 염색체 표적 자리, 각각의 표적 자리에 대한 뎁스 분석 구간 내의 5개의 핵산에 맵핑된 리드의 뎁스의 평균, 상기 뎁스 분석 구간 내의 5개의 핵산에 맵핑된 리드의 성분 편향, 변동 계수 및 표준 편차, 및 QC점수로부터 변이 검출 표지의 신뢰도를 평가하여 PASS 또는 FAIL(PASS 또는 FAIL 중 PASS만 표기됨)로 나타내는 파일 포맷을 제공할 수 있다. Additionally, the device 300 may include an output. The output unit may be a display device for displaying the reliability of the variation detection mark. The output unit may present reliability of the variation detection mark by a QC score, a grade, a binary variable of PASS or FAIL, an image, a graph, and the like. Any device is also possible as long as other users can display the reliability of the variation detection mark. With reference to Fig. 9, for example, a single nucleotide mutation detection tag (denoted only N in Y or N) is used to identify each chromosome target spot, a lead mapped to five nucleotides within a depth analysis interval for each target spot , The reliability of the mutation detection mark is evaluated from the component bias, the coefficient of variation and the standard deviation of the lead mapped to the five nucleic acids in the depth analysis interval, and the QC score, and the result is indicated as PASS or FAIL ) Can be provided.

단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치(300)는 도 2에 따르면 시퀀싱부(310), 맵핑부(320), QC점수 산출부(330) 및 신뢰도 평가부(340)를 모두 포함하는 것으로 도시되어 있으나, 이에 한정하는 것은 아니다. 즉, 시퀀싱부(310), 맵핑부(320), QC점수 산출부(330) 및 신뢰도 평가부(340) 각각은 서로 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있고, 이들 중 복수개의 그룹이 하나의 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있으며, 각 구성은 전체로서 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치(300)가 될 수 있다.The single nucleotide mutation detection label reliability determination apparatus 300 is shown to include both the sequencing unit 310, the mapping unit 320, the QC score calculation unit 330, and the reliability evaluation unit 340 according to FIG. 2 However, the present invention is not limited thereto. That is, each of the sequencing unit 310, the mapping unit 320, the QC score calculation unit 330, and the reliability evaluation unit 340 may be a part of a device independent of each other or a part of an independent device, Groups may be constituted as a part of a whole or an independent apparatus of one independent apparatus and each constitution may be a single nucleotide mutation detection mark reliability determination apparatus 300 as a whole.

다른 양상은, 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.Another aspect provides a computer readable recording medium on which a program for executing a reliability determination method of a single nucleotide mutation detection mark is recorded.

상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다.The method may be implemented in the form of software readable by various computer means and recorded in a computer-readable recording medium. Here, the recording medium may include program commands, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the recording medium may be those specially designed and constructed for the method according to the above, or may be available to those skilled in the art of computer software.

예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.For example, the recording medium may be an optical recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, a compact disk read only memory (CD-ROM), a digital video disk (DVD) Includes a hardware device that is specially configured to store and execute program instructions such as a magneto-optical medium such as a floppy disk and a ROM, a random access memory (RAM), a flash memory, do. Examples of program instructions may include machine language code such as those generated by a compiler, as well as high-level language code that may be executed by a computer using an interpreter or the like. Such a hardware device may be configured to operate as one or more software modules to perform the operations of the above-described method, and vice versa.

비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.Although the present specification and drawings describe exemplary device configurations, the functional operations and subject matter implementations described herein may be embodied in other types of digital electronic circuitry, or alternatively, of the structures disclosed herein and their structural equivalents May be embodied in computer software, firmware, or hardware, including, or in combination with, one or more of the foregoing. Implementations of the subject matter described herein may be embodied in one or more computer program products, that is, a computer program product encoded on a type of program storage medium for execution by, or in control of, And can be implemented as a module as described above. The computer-readable medium can be a machine-readable storage device, a machine-readable storage substrate, a memory device, a composition of matter that affects the machine readable propagation type signal, or a combination of one or more of the foregoing.

상기 방법에 따른 장치에 탑재되고 상기 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.A computer program (also known as a program, software, software application, script, or code) that is embedded in the apparatus according to the above method and that executes the method may be any of a compiled or interpreted language, a programming language including a priori or procedural language And may be deployed in any form including stand-alone programs or modules, components, subroutines, or other units suitable for use in a computer environment. A computer program does not necessarily correspond to a file in the file system. The program may be stored in a single file provided to the requested program, or in multiple interactive files (e.g., a file storing one or more modules, subprograms, or portions of code) (E.g., one or more scripts stored in a markup language document). A computer program may be deployed to run on multiple computers or on one computer, located on a single site or distributed across multiple sites and interconnected by a communications network.

상기된 바에 따르면, 피검 유전자로부터 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는데 있어서 변이 검출 결과에 신뢰도를 부여하고, 특히 종양 특이적인 유전자 변이를 검출하는데 유용하다.As described above, in determining whether a single nucleotide mutation is present from the test gene, it is useful for imparting reliability to the mutation detection result, and in particular, for detecting tumor-specific gene mutation.

도 1은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법의 전반적인 흐름을 나타내는 도면이다.
도 2는 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 장치의 구성들을 도시한 도면이다.
도 3은 피검체로부터 수득된 피검 유전자들에 대한 표적 시퀀싱 및 맵핑을 수행하는 것을 나타내는 도면이다.
도 4는 최소 뎁스를 구하기 위하여 참조된, 변이의 검출 한계, 뎁스 및 검출 민감도를 나타내는 도면이다.
도 5는 염색체의 단일 뉴클레오티드 변이 리스트로부터 선정된 표적 자리를 나타내는 도면이다.
도 6은 일 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의, 뎁스의 평균(D i ) 및 성분 편향(S i )을 분석한 결과를 나타내는 도면이다.
도 7은 1283개의 생검 샘플 및 1012개의 FFPE 샘플 각각의 유전자로부터 산출된 QC점수 및 평균 뎁스를 나타내는 도면이다.
도 8은 평균 뎁스 및 QC점수, 및 염색체 표적 자리에서의 뎁스를 나타내는 도면이다.
도 9는 단일 뉴클레오티드 변이 검출 표지 및 그의 신뢰도를 제시하는 도면이다.
도 10은 서로 다른 DNA 추출 키트를 사용하여 염색체 표적 자리 별로 뎁스를 나타내는 도면이다.
Brief Description of the Drawings Figure 1 is a diagram showing an overall flow of a method for determining the reliability of a single nucleotide mutation detection label.
2 is a diagram showing the configurations of an apparatus for determining the reliability of a single nucleotide mutation detection label.
Fig. 3 is a diagram showing the target sequencing and mapping performed on the test genes obtained from the test subject. Fig.
FIG. 4 is a diagram showing the detection limit, depth, and detection sensitivity of a variation referenced to obtain the minimum depth.
5 is a diagram showing a target spot selected from a single nucleotide variation list of chromosomes.
FIG. 6 is a diagram showing the results of analyzing the mean (D i ) and the component bias (S i ) of the depths of the leads mapped to respective nucleic acids in the depth analysis section for one target spot.
7 is a graph showing the QC score and average depth calculated from the genes of each of the 1283 biopsy samples and 1012 FFPE samples.
FIG. 8 is a graph showing an average depth and a QC score, and a depth at a chromosome target spot.
Figure 9 is a diagram showing a single nucleotide mutation detection label and its reliability.
FIG. 10 is a diagram showing depths by chromosome target digits using different DNA extraction kits. FIG.

이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.Hereinafter, the present invention will be described in more detail with reference to examples. However, these examples are for illustrative purposes only, and the scope of the present invention is not limited to these examples.

<검출 민감도 및 검출 한계에 따른 <Sensitivity to detection and detection limit 뎁스Depth 결정> Decision>

검출 한계에 따라 얼마나 많은 리드의 뎁스가 요구되는지 확인하기 위하여, MuTect이 제공하는 변이 검출기(variant caller)의 검출 한계 및 뎁스에 따른 검출 민감도 결과를 참조하였다. 목표하는 검출 민감도를 달성하기 위해 요구되는 지지 리드는 변이를 검출하는 검출기의 성능에 의해 결정될 수 있다. MuTect의 경우에는 10개의 지지 리드가 있는 경우, 99%의 검출 민감도로 변이 검출이 가능하다. 도 4를 참조하면, 변이의 검출 한계가 0.04 초과인 경우, 최소 10개의 지지 리드가 있어야 99%의 검출 민감도를 가질 수 있고, 이 변이의 검출 한계가 0.04 이하인 경우에도 대략 10개의 지지 리드가 있어야 99%의 검출 민감도를 가질 수 있다.To determine how much lead depth is required depending on the detection limit, we refer to the detection limit and depth sensitivity sensitivity of the variant caller provided by MuTect. The supporting leads required to achieve the desired detection sensitivity can be determined by the performance of the detector to detect the variation. In the case of MuTect, detection of mutation is possible with detection sensitivity of 99% with 10 supporting leads. Referring to FIG. 4, when the detection limit of the mutation is more than 0.04, there must be at least 10 supporting leads to have a detection sensitivity of 99%, and even if the detection limit of this variation is 0.04 or less, And can have a detection sensitivity of 99%.

예를 들면, 생검 샘플은 변이의 검출 한계를 2%, FFPE 샘플은 샘플 상태가 상대적으로 양호하지 못한 점을 고려하여 변이의 검출 한계를 5%로 설정하였다. 식 3에 따라, 2%의 변이를 검출하려 하고, 검출기로 MuTect을 사용하는 경우, r=10, α=0.02로 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스(d)는 500이 된다. 5%의 변이를 검출하려 하고, 검출기로 MuTect을 사용하는 경우, r=10, α=0.05로 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스(d)는 200이 된다. For example, the detection limit of the mutation was set at 5% in consideration of the fact that the biopsy sample had a detection limit of 2% and the FFPE sample had a relatively poor sample condition. According to Equation 3, the minimum depth (d) required to determine whether a single nucleotide variation exists at r = 10,? = 0.02 when trying to detect a 2% variation and using MuTect as a detector is 500 . When 5% variation is detected and MuTect is used as a detector, the minimum depth (d) required to determine whether a single nucleotide variation exists at r = 10, a = 0.05 is 200.

<단일 뉴클레오티드 변이(&Lt; Single nucleotide mutation ( SNVSNV ) 예측 자리 선정>) Predicted spot selection>

표적 시퀀싱의 대상으로 FDA 승인 약물 표적 변이(FDA approved drug target mutation), My Cancer Genome, 또는 KFDA에 등재된 단일 뉴클레오티드 변이(SNV)를 조사하고, 중복되는 변이 자리를 제외하여 137개의 염색체 표적 자리를 선정하였다(도 5 참조).A single nucleotide mutation (SNV) listed in the FDA approved drug target mutation, My Cancer Genome, or KFDA was investigated for target sequencing, and 137 chromosomal loci except for overlapping mutations (See FIG. 5).

<표적 시퀀싱><Target Sequencing>

DNA 프렙 키트를 이용하여 인간의 1283개의 생검 샘플과 1012개의 FFPE 샘플로부터 gDNA를 추출한 후, 나노드롭(Nanodrop)과 Qubit 2.0 형광광도계(Fluorometer)를 이용하여 DNA 농도와 순도를 측정하였다. 이어서, 가이드라인에 따라 라이브러리를 제작하고, Illumina의 HiSeq 2500 시퀀싱 플랫폼 상에서 TruSeq Rapid PE Cluster 키트 및 TruSeq Rapid SBS 키트의 100bp 쌍-말단 모드(paired-end mode)를 사용하여 시퀀싱을 수행하였다. GDNA was extracted from 1283 human biopsy samples and 1012 FFPE samples using a DNA prep kit and the DNA concentration and purity were measured using Nanodrop and Qubit 2.0 fluorescence spectrophotometer. The library was then constructed according to the guidelines and sequenced using the TruSeq Rapid PE Cluster kit and the 100bp paired-end mode of the TruSeq Rapid SBS kit on an Illumina HiSeq 2500 sequencing platform.

<< QC점수QC score 산출> Output>

시퀀싱된 리드의 데이터를 hg19 인간 참조 서열에 로컬 정렬(local alignment)하였다. 낮은 품질의 리드, 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 영역에서 벗어난 리드를 필터한 후, MuTect 1.1.4로 변이 유전자가 존재하는지 여부를 확인하여 변이 검출 표지를 수득하였다.The data of the sequenced leads was localized to the hg19 human reference sequence. After filtering leads out of the region containing low quality lead, single nucleotide mutation (SNV) predictors, mutation detection markers were obtained by confirming the presence of the mutation gene in MuTect 1.1.4.

이 때, SAMTOOLS mpileup을 이용하여 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스를 구하였다. 변이 검출기에 들어가기 직전의 최종 BAM 파일을 사용하였다. 상기 식 1에 대입하여 QC점수를 산출하였다. At this time, SAMTOOLS mpileup was used to calculate the depth of the lead mapped to each nucleic acid in the depth analysis section. The final BAM file just before entering the mutation detector was used. And the QC score was calculated by substituting in Equation 1 above.

<신뢰도 평가 1><Reliability Evaluation 1>

QC점수를 산출하여 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 137개의 표적 자리 중 몇 %인지 평가하였다. The QC score was calculated to evaluate the percentage of the total 137 target sites that could reliably detect a single nucleotide variation.

1283개의 생검 샘플과 1012개의 FFPE 샘플의 평균 뎁스와 137개의 염색체 표적 자리에서의 QC점수를 확인하였다(표 1 참조). 평균 뎁스를 살펴보면, FFPE 샘플은 약 728, 생검 샘플은 약 954로, 검출 한계를 고려한 검출 민감도의 기준보다 훨씬 높은 수치를 나타내었다. 한편, QC점수를 살펴보면, FFPE 샘플은 약 92.7, 생검 샘플은 약 97.3을 나타내었다. 즉, FFPE 샘플에서 평균 7.3%, 생검 샘플에서 평균 2.7%의 변이 검출 표지는, 요구되는 최소 뎁스 기준에 미치지 못한다는 것을 확인하였다. The average depth of 1283 biopsy samples and 1012 FFPE samples and the QC scores at 137 chromosome target sites were checked (see Table 1). The average depth of the FFPE sample was about 728 and the biopsy sample was about 954, which is much higher than the sensitivity of the detection sensitivity considering the detection limit. On the other hand, when the QC score was examined, the FFPE sample was about 92.7 and the biopsy sample was about 97.3. That is, it was confirmed that the average detection index of 7.3% in the FFPE sample and 2.7% in the biopsy sample did not meet the required minimum depth standard.

샘플 종류Sample Type NN 평균 뎁스Average depth QC점수QC score FFPEFFPE 10121012 727.8 ±279.2727.8 ± 279.2 92.7±22.392.7 ± 22.3 생검(FF)Biopsy (FF) 12831283 954.3 ±181.5954.3 + - 181.5 97.3±9.197.3 ± 9.1

도 7을 참조하면, 전체 샘플 중 일부 샘플은 충분히 높은 평균 뎁스를 가짐에도 불구하고, 검출 한계를 충족하지 못하는 것을 알 수 있다. 특히, FFPE 샘플은 샘플의 품질이 생검 샘플에 비하여 상대적으로 낮기 때문에, 평균 뎁스가 높게 나타난 경우에도 QC점수는 아주 낮은 경우가 존재할 수 있다. 즉, QC점수는 평균 뎁스가 놓친 변이 검출 표지의 품질을 설명할 수 있다.Referring to FIG. 7, it can be seen that some of the entire samples do not meet the detection limit, even though they have a sufficiently high average depth. In particular, since the quality of the FFPE sample is relatively low compared to the biopsy sample, the QC score may be very low even when the average depth is high. That is, the QC score can account for the quality of the deviation detection mark that the average depth missed.

<신뢰도 평가 2><Reliability Evaluation 2>

임의의 FFPE 샘플 2개를 선정하고 137개의 염색체 자리에서의 뎁스 평균 및 QC점수를 산출하였다. A 샘플의 경우 평균 뎁스는 324.1, QC점수는 100을 기록하였다. B 샘플의 경우 평균 뎁스는 634.4, QC점수는 45.26을 기록하였다. 도 8에 137개의 염색체 표적 자리 각각에서의 뎁스를 함께 도시하였다. A 샘플의 평균 뎁스는 B 샘플의 평균 뎁스보다 낮았으나, 뎁스의 분포가 고르며, 모든 표적 자리에서 최소 뎁스 기준을 충족한 것을 알 수 있다.Two arbitrary FFPE samples were selected and the depth average and QC score at 137 chromosomal sites were calculated. For the A sample, the average depth was 324.1 and the QC score was 100. For B samples, the average depth was 634.4 and the QC score was 45.26. FIG. 8 also shows the depths at each of the 137 chromosome target positions. The average depth of the A sample was lower than the average depth of the B sample, but the distribution of the depth was uniform and it was found that all the target positions met the minimum depth criterion.

FFPE 샘플FFPE sample 평균 뎁스Average depth QC점수QC score A 샘플A sample 324.1324.1 100100 B 샘플B sample 634.4634.4 45.2645.26

<< QC점수를QC score 제어하는 요인 확인> Checking Factors to Control>

QC점수를 활용하여, 표적 시퀀싱을 수행하기 전 QC점수에 영향을 미칠 수 있는 주요 요인들을 확인하였다. 편의상 QC점수를 binary하여 80을 기준으로 PASS 또는 FAIL로 구분하였다.QC scores were used to identify the key factors that could affect the QC score before performing the target sequencing. For convenience, the QC score was binary and classified as PASS or FAIL based on 80.

1012개의 FFPE 샘플에 대하여, PrePCR 후 Qubit의 DNA 농도가 26.5ng/μl 이상을 만족하는 713개의 FFPE 샘플 중에서 696개의 FFPE 샘플(97.6%)의 QC점수는 80 이상을 만족하였다. 또한, 상기 713개의 FFPE 샘플에 대하여, postPCR 후 몰농도(Molarity)가 3.92nM 초과를 만족하는 702개의 FFPE 샘플 중에서 668개의 FFPE 샘플(98%)의 QC점수는 80 이상을 만족하였다. For 1012 FFPE samples, the QC score of 696 FFPE samples (97.6%) among the 713 FFPE samples satisfying the DNA concentration of Qubit of 26.5 ng / μl or more after PrePCR satisfied 80 or more. Also, for the 713 FFPE samples, the QC score of 668 FFPE samples (98%) among the 702 FFPE samples satisfying the molarity of 3.92 nM after postPCR satisfied 80 or more.

1012개의 FFPE 샘플에 대하여, PrePCR 후 Qubit의 DNA 농도가 26.5ng/μl 미만인 299개의 FFPE 샘플 중에서 212개의 FFPE 샘플(70.9%)의 QC점수는 80 이상을 만족하였다. 상기 299개의 FFPE 샘플에 대하여, 평균 라이브러리 크기가 274 초과를 만족하는 213개의 FFPE 샘플 중에서 184개의 FFPE 샘플의 QC점수는 80 이상을 만족하였다. 그러나, 상기 299개의 FFPE 샘플에 대하여, 평균 라이브러리 크기가 274 미만인 84개의 FFPE 샘플 가운데 26개의 FFPE 샘플의 QC점수만이 80을 만족하였다. 즉, FFPE 샘플은, 1차적으로 라이브러리 제작으로 생성된 DNA 농도, postPCR 후 DNA 몰농도 및 평균 라이브러리 크기를 제어하여 높은 QC점수를 수득할 수 있음을 알 수 있다.For 1012 FFPE samples, the QC score of 212 FFPE samples (70.9%) out of 299 FFPE samples with a DNA concentration of Qubit less than 26.5 ng / μl after PrePCR satisfied 80 or better. For the 299 FFPE samples, the QC score of 184 FFPE samples among the 213 FFPE samples satisfying an average library size of greater than 274 satisfied 80 or more. However, for the 299 FFPE samples, only the QC scores of the 26 FFPE samples of 80 out of 84 FFPE samples with an average library size of less than 274 met 80. [ That is, it can be seen that the FFPE sample can obtain a high QC score by primarily controlling the DNA concentration generated by the library production, the DNA molar concentration after postPCR, and the average library size.

1246개의 생검 샘플에 대하여, 혼성화 단계에서 투입된 DNA 양이 648.06ng 초과를 만족하는 1160개의 생검 샘플 중에서 1147개의 생검 샘플(98.9%)의 QC점수는 80 이상을 만족하였다. 생검 샘플은 혼성화 단계에서 투입된 DNA 양을 제어하여 높은 QC점수를 수득할 수 있음을 알 수 있다.For 1246 biopsy samples, among 1160 biopsy samples with a DNA amount exceeding 648.06 ng in the hybridization step, the QC score of 1147 biopsy samples (98.9%) satisfied 80 or more. It can be seen that the biopsy sample can obtain a high QC score by controlling the amount of DNA injected in the hybridization step.

<< DNADNA 추출  extraction 키트의Of kit 품질 평가> Quality evaluation>

2가지 종류의 DNA 추출 키트를 사용하여 동일한 FFPE 샘플로부터 DNA를 추출하고, 상기의 과정을 통해 평균 뎁스, Picard tool의 품질 항목(DNA 순도, GC농도 및 평균 라이브러리 크기) 및 QC점수 산출하였다. DNA was extracted from the same FFPE sample using two kinds of DNA extraction kits and the quality items (DNA purity, GC concentration and average library size) and QC score were calculated by the above procedure.

키트 종류Kit Type DNA 순도
(260/280 비율)
DNA purity
(260/280 ratio)
GC 농도
(%)
GC concentration
(%)
평균 라이브러리 크기(bp)Average library size (bp) 평균 뎁스Average depth QC점수QC score
A키트A kit 1.895±0.0671.895 + 0.067 49.2±1.849.2 ± 1.8 300.3±22.5300.3 ± 22.5 728±279728 ± 279 93.5±21.693.5 ± 21.6 B키트B kit 1.875±0.0761.875 + 0.076 51.5±3.551.5 ± 3.5 313.3±23.4313.3 ± 23.4 775±326775 ± 326 77.7±23.777.7 ± 23.7

A 키트와 B 키트를 사용하여 DNA를 추출한 경우, 평균 뎁스와 Picard tool의 품질 항목에 유의성 있는 차이가 없는 것으로 나타나는 때에도, QC점수에 유의한 차이가 존재하는 것을 확인하였다.When DNA extraction was performed using the A kit and the B kit, there was a significant difference in the QC scores even when there was no significant difference between the average depth and the quality of the Picard tool.

도 10을 참조하여 염색체 표적 자리 별로 뎁스를 살펴보면, A 키트를 사용하여 DNA를 추출한 샘플은 B 키트를 사용하여 DNA를 추출한 샘플에 비하여, 뎁스의 분포가 고르며, 최소 뎁스 기준을 더 많이 확보한 것을 알 수 있다.Referring to FIG. 10, the depth of each chromosome target spot was compared with a sample obtained by extracting DNA using an A kit. The distribution of the depth was uniform and the minimum depth standard was further secured Able to know.

110 : 리드 수득 단계
120 : 맵핑 단계
130 : QC점수 산출 단계
140 : 신뢰도 평가 단계
300 : 신뢰도 결정 장치
310 : 시퀀싱부
320 : 맵핑부
330 : QC점수 산출부
340 : 신뢰도 평가부
400 : 피검체
410 : 생검 샘플
425 : FFPE 처리 샘플
430 : 참조 유전체에 정렬된 리드의 뎁스
1,2,3,4,5 : 핵산
110: step of obtaining lead
120: mapping step
130: QC score calculation step
140: reliability evaluation step
300: reliability determining device
310: Sequencing unit
320:
330: QC score calculating unit
340: Reliability Evaluation Unit
400:
410: biopsy sample
425: FFPE treated sample
430: Depth of lead aligned with reference dielectric
1,2,3,4,5: Nucleic acid

Claims (19)

피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이(single nucleotide variant, SNV) 예측 자리에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드(read)를 수득하는 단계;
참조(reference) 유전체에 상기 리드를 맵핑(mapping)하고 참조 유전체에 정렬된 리드의 뎁스(depth)로부터 QC(Quality control)점수를 산출하는 단계; 및
산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 단계를 포함하는,
단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법.
Performing targeted sequencing on a predicted single nucleotide variant (SNV) position of the test gene from a nucleic acid sample containing the test gene to obtain a read;
Mapping the lead to a reference dielectric and calculating a Quality Control (QC) score from the depth of the lead aligned to the reference dielectric; And
And evaluating the reliability of the single nucleotide mutation detection label according to the calculated QC score.
A method for determining the reliability of a single nucleotide mutation detection label.
청구항 1에 있어서, 상기 QC점수는, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 위치의 핵산 및 3' 방향으로 c번째 위치의 핵산까지 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 각각의 핵산에 맵핑된 리드의 뎁스로부터 산출되는 것인 방법(c은 0 또는 자연수).2. The method according to claim 1, wherein the QC score is determined as a depth analysis interval from a nucleic acid at a c-th position in a 5 'direction to a nucleic acid at a c-th position in a 3' direction from a target site of a reference dielectric, Is calculated from the depth of the lead mapped to each one of the nucleic acids (c is 0 or a natural number). 청구항 2에 있어서, 상기 c은 2인 것인 방법.3. The method of claim 2, wherein c is two. 청구항 1에 있어서, 상기 QC점수는 하기의 수학식 1에 따라 산출되는 것인 방법:
[수학식 1]
Figure pat00007

식 중, D i 는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균이고,
I Di 는 D i 이 d 이상일 때 1의 값을 갖고, D i 이 d 미만일 때 0의 값을 갖는 지시 함수이며,
S i 는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향이고,
I Si 는 S i 가 0.9 미만일 때 1의 값을 갖고, S i 가 0.9 이상일 때 0의 값을 갖는 지시 함수이며,
n은 총 표적 자리의 수이고,
d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스이며,
상기 수학식 1에서, S i 는 하기의 수학식 2에 따라 산출된다
[수학식 2]
Figure pat00008
.
The method of claim 1, wherein the QC score is calculated according to the following equation:
[Equation 1]
Figure pat00007

Where D i is the average of the depth of the lead mapped to each nucleic acid in the depth analysis interval for the ith target spot,
I Di D i Has a value of 1 when d is greater than d, and D i Is an indicator function having a value of 0 when d is less than d,
S i is the component bias of the lead mapped to each nucleic acid in the depth analysis interval for the ith target spot,
I Si S i Has a value of 1 when it is less than 0.9, S i Is an indicator function having a value of 0 when it is 0.9 or more,
n is the total number of target positions,
d is the minimum depth required to determine whether a single nucleotide variation is present,
In the above equation (1), S i is calculated according to the following equation (2)
&Quot; (2) &quot;
Figure pat00008
.
청구항 4에 있어서, 상기 최소 뎁스(d)는 검출 민감도(detection sentivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합으로부터 산출되는 것인 방법.5. The method of claim 4, wherein the minimum depth (d) is calculated from a detection sentivity, a detection limit of variation, a number of supporting reads, or a combination thereof. 청구항 5에 있어서, 상기 최소 뎁스(d)는 하기의 수학식 3에 따라 산출되는 것인 방법:
[수학식 3]
Figure pat00009

식 중, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.
The method of claim 5, wherein the minimum depth (d) is calculated according to the following equation:
&Quot; (3) &quot;
Figure pat00009

Where r is the number of supporting leads and? Is the detection limit of the mutation.
청구항 1에 있어서, 상기 시료는 생검 조직 또는 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 조직으로부터 획득된 것인 방법.The method of claim 1, wherein the sample is obtained from biopsy tissue or formalin-fixed, paraffin-embedded (FFPE) tissue. 청구항 7에 있어서, 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득된 것인 방법.8. The method of claim 7, wherein the sample is obtained from biopsy tissue based on the amount of DNA input, or obtained from FFPE tissue based on DNA concentration. 청구항 1에 있어서, 상기 신뢰도를 평가하는 단계는, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 평가하는 방법.2. The method of claim 1, wherein evaluating the reliability is based on the ratio of the reliable detection markings of the mutation detection markers to the total n target positions. 청구항 1 내지 9 중 어느 하나에 있어서, 단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.The computer-readable recording medium according to any one of claims 1 to 9, wherein a program for executing a reliability determination method of a single nucleotide mutation detection mark is recorded. 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 시퀀싱부;
참조 유전체에 상기 리드를 맵핑하는 맵핑부;
참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 QC점수 산출부; 및
산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 신뢰도 평가부를 포함하는,
단일 뉴클레오티드 변이 검출 표지의 신뢰도 결정 장치.
A sequencing unit for performing a target sequencing to a predicted single nucleotide position of a test gene from a nucleic acid sample containing the test gene to obtain a lead;
A mapping unit for mapping the lead to a reference dielectric;
A QC score calculating unit for calculating a QC score from the depth of the lead aligned with the reference dielectric; And
And a reliability evaluation unit for evaluating the reliability of the single nucleotide mutation detection mark according to the calculated QC score.
An apparatus for determining the reliability of a single nucleotide mutation detection label.
청구항 11에 있어서, 상기 QC점수는, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 위치의 핵산 및 3' 방향으로 c번째 위치의 핵산까지 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 각각의 핵산에 맵핑된 리드의 뎁스로부터 산출되는 것인 장치(c은 0 또는 자연수).12. The method of claim 11, wherein the QC score is determined as a depth analysis interval from a nucleic acid at a c-th position in a 5 'direction to a nucleic acid at a c-th position in a 3' direction from a target site of a reference dielectric, (C is zero or a natural number) that is calculated from the depth of the lead mapped to each one of the nucleic acids. 청구항 12에 있어서, 상기 c은 2인 것인 장치.14. The apparatus of claim 12, wherein c is two. 청구항 11에 있어서, 상기 QC점수는 하기의 수학식 1에 따라 산출되는 것인 장치:
[수학식 1]
Figure pat00010

식 중, D i 는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 뎁스의 평균이고,
I Di 는 D i 이 d 이상일 때 1의 값을 갖고, D i 이 d 미만일 때 0의 값을 갖는 지시 함수이며,
S i 는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 각각의 핵산에 맵핑된 리드의 성분 편향이고,
I Si 는 S i 가 0.9 미만일 때 1의 값을 갖고, S i 가 0.9 이상일 때 0의 값을 갖는 지시 함수이며,
n은 총 표적 자리의 수이고,
d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스이며,
상기 수학식 1에서, S i 는 하기의 수학식 2에 따라 산출된다
[수학식 2]
Figure pat00011
.
12. The apparatus of claim 11, wherein the QC score is calculated according to:
[Equation 1]
Figure pat00010

Where D i is the average of the depth of the lead mapped to each nucleic acid in the depth analysis interval for the ith target spot,
I Di D i Has a value of 1 when d is greater than d, and D i Is an indicator function having a value of 0 when d is less than d,
S i is the component bias of the lead mapped to each nucleic acid in the depth analysis interval for the ith target spot,
I Si S i Has a value of 1 when it is less than 0.9, S i Is an indicator function having a value of 0 when it is 0.9 or more,
n is the total number of target positions,
d is the minimum depth required to determine whether a single nucleotide variation is present,
In the above equation (1), S i is calculated according to the following equation (2)
&Quot; (2) &quot;
Figure pat00011
.
청구항 14에 있어서, 상기 최소 뎁스(d)는 검출 민감도(detection sentivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합으로부터 산출되는 것인 장치.15. The apparatus of claim 14, wherein the minimum depth (d) is calculated from a detection sentivity, a detection limit of variation, a number of supporting reads, or a combination thereof. 청구항 15에 있어서, 상기 최소 뎁스(d)는 하기의 수학식 3에 따라 산출되는 것인 장치:
[수학식 3]
Figure pat00012

식 중, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.
16. The apparatus of claim 15, wherein the minimum depth (d) is calculated according to: &lt; EMI ID =
&Quot; (3) &quot;
Figure pat00012

Where r is the number of supporting leads and? Is the detection limit of the mutation.
청구항 11에 있어서, 상기 시료는 생검 조직 또는 FFPE 조직으로부터 획득된 것인 장치.12. The apparatus of claim 11, wherein the sample is obtained from biopsy tissue or FFPE tissue. 청구항 17에 있어서, 상기 시료는 DNA 투입양에 기초하여 생검조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득된 것인 장치.18. The apparatus of claim 17, wherein the sample is obtained from biopsy tissue based on the amount of DNA input, or is obtained from FFPE tissue based on DNA concentration. 청구항 11에 있어서, 상기 신뢰도를 평가부는, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 평가하는 장치.12. The apparatus of claim 11, wherein the evaluating unit evaluates the reliability from a ratio of reliable mutation detection marks among mutation detection marks for a total of n target positions.
KR1020160055771A 2016-05-04 2016-05-04 Method and apparatus for determining the reliability of variant detection markers KR101882867B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160055771A KR101882867B1 (en) 2016-05-04 2016-05-04 Method and apparatus for determining the reliability of variant detection markers
PCT/KR2016/009491 WO2017191871A1 (en) 2016-05-04 2016-08-26 Method and device for determining reliability of variation detection marker

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160055771A KR101882867B1 (en) 2016-05-04 2016-05-04 Method and apparatus for determining the reliability of variant detection markers

Publications (2)

Publication Number Publication Date
KR20170125278A true KR20170125278A (en) 2017-11-14
KR101882867B1 KR101882867B1 (en) 2018-07-27

Family

ID=60203755

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160055771A KR101882867B1 (en) 2016-05-04 2016-05-04 Method and apparatus for determining the reliability of variant detection markers

Country Status (2)

Country Link
KR (1) KR101882867B1 (en)
WO (1) WO2017191871A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020067603A1 (en) * 2018-09-28 2020-04-02 한양대학교 산학협력단 Method and device for detecting genomic structural variation on basis of multi-reference genome
KR20200036679A (en) * 2018-09-28 2020-04-07 한양대학교 산학협력단 Detection method and detection apparatus for dna structural variations based on multi-reference genome

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310704A (en) * 2019-05-08 2019-10-08 西安电子科技大学 A kind of copy number mutation detection method based on local outlier factor

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140099189A (en) * 2013-02-01 2014-08-11 에스케이텔레콤 주식회사 A method and apparatus of providing information on a genomic sequence based personal marker
KR101460520B1 (en) * 2012-11-12 2014-11-11 (주)신테카바이오 Detecting method for disease markers of NGS data
KR20160020400A (en) * 2014-07-18 2016-02-23 에스케이텔레콤 주식회사 Method for prediction of fetal monogenic genetic variations using maternal cell-free dna

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101460520B1 (en) * 2012-11-12 2014-11-11 (주)신테카바이오 Detecting method for disease markers of NGS data
KR20140099189A (en) * 2013-02-01 2014-08-11 에스케이텔레콤 주식회사 A method and apparatus of providing information on a genomic sequence based personal marker
KR20160020400A (en) * 2014-07-18 2016-02-23 에스케이텔레콤 주식회사 Method for prediction of fetal monogenic genetic variations using maternal cell-free dna

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BMC Bioinformatics, Vol.15, Article 382 (2014) *
Briefings in Bioinformatics, Vol.15, No.6, pp.879-889 (2013) *
Diagnostic Pathology, Vol.10, Article 169 (2015)* *
Nature Communication, Vol.6, Article 8018 (2015) *
Nature Reviews Genetics, Vol.15, pp.121-132 (2014) *
PLoS ONE, Vol.7, Issue 2, Article e30619 (2012) *
PLoS ONE, Vol.8, Issue 9, Article e76144 (2013) *
The Pharmacogenomics Journal, Vol.15, No.4, pp.298-309 (2015)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020067603A1 (en) * 2018-09-28 2020-04-02 한양대학교 산학협력단 Method and device for detecting genomic structural variation on basis of multi-reference genome
KR20200036679A (en) * 2018-09-28 2020-04-07 한양대학교 산학협력단 Detection method and detection apparatus for dna structural variations based on multi-reference genome

Also Published As

Publication number Publication date
WO2017191871A1 (en) 2017-11-09
KR101882867B1 (en) 2018-07-27

Similar Documents

Publication Publication Date Title
AU2019204917B2 (en) Size-based analysis of fetal dna fraction in maternal plasma
Naue et al. Proof of concept study of age-dependent DNA methylation markers across different tissues by massive parallel sequencing
Krawitz et al. Microindel detection in short-read sequence data
Guo et al. Three-stage quality control strategies for DNA re-sequencing data
Ge et al. FusionMap: detecting fusion genes from next-generation sequencing data at base-pair resolution
Hebestreit et al. Detection of significantly differentially methylated regions in targeted bisulfite sequencing data
KR102356323B1 (en) Verification method and system for sequence variant call
Sakamoto et al. Application of long-read sequencing to the detection of structural variants in human cancer genomes
Altmann et al. vipR: variant identification in pooled DNA using R
KR101936933B1 (en) Methods for detecting nucleic acid sequence variations and a device for detecting nucleic acid sequence variations using the same
KR101882867B1 (en) Method and apparatus for determining the reliability of variant detection markers
CN112703254A (en) Free DNA damage analysis and clinical application thereof
KR101936934B1 (en) Methods for detecting nucleic acid sequence variations and a device for detecting nucleic acid sequence variations using the same
KR101882866B1 (en) Method for analyzing cross-contamination of samples and apparatus using the same method
KR102347463B1 (en) Method and appartus for detecting false positive variants in nucleic acid sequencing analysis
Cliften Base calling, read mapping, and coverage analysis
US20240209417A1 (en) Systems and methods for next generation sequencing uniform probe design
KR101977976B1 (en) Method for increasing read data analysis accuracy in amplicon based NGS by using primer remover
Parker et al. Fixation effects on variant calling in a clinical resequencing panel
Liu et al. CSMD: a computational subtraction-based microbiome discovery pipeline for species-level characterization of clinical metagenomic samples
Hu et al. Sequential model selection-based segmentation to detect DNA copy number variation
CA3099612C (en) Method of cancer prognosis by assessing tumor variant diversity by means of establishing diversity indices
Nordentoft et al. Whole genome mutational analysis for tumor-informed ctDNA based MRD surveillance, treatment monitoring and biological characterization of urothelial carcinoma
US20220399079A1 (en) Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status
Sapan et al. Forensic DNA phenotyping using Oxford Nanopore Sequencing system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant