WO2020022733A1 - 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도 - Google Patents

전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도 Download PDF

Info

Publication number
WO2020022733A1
WO2020022733A1 PCT/KR2019/009062 KR2019009062W WO2020022733A1 WO 2020022733 A1 WO2020022733 A1 WO 2020022733A1 KR 2019009062 W KR2019009062 W KR 2019009062W WO 2020022733 A1 WO2020022733 A1 WO 2020022733A1
Authority
WO
WIPO (PCT)
Prior art keywords
score
reads
chromosome
bin
calculating
Prior art date
Application number
PCT/KR2019/009062
Other languages
English (en)
French (fr)
Inventor
조은해
장자현
전영주
이준남
Original Assignee
주식회사 녹십자지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 녹십자지놈 filed Critical 주식회사 녹십자지놈
Publication of WO2020022733A1 publication Critical patent/WO2020022733A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Definitions

  • the present invention relates to a method for detecting chromosomal abnormalities, and more specifically, to extract DNA from a biological sample, to obtain sequence information, and then to separate the chromosomal region into a certain section to select each representative group for normalization correction,
  • the present invention relates to a method for detecting chromosomal aberration, particularly copy number variation (CNV) using regression analysis, PCA algorithm, and CBS algorithm, and its use.
  • CNV copy number variation
  • CNVs DNA copy number variations
  • various tests such as karyotyping, fluorescence in situ hybridization, chromosomal microarrays, and NGS-based screening tests are performed ( Capalbo A, et al. 2017, Hum Reprod. Vol. 32 (3), pp. 492-498).
  • Karyotyping shows a resolution as low as 5Mb compared to other tests, and smaller chromosome deletions / duplicates cannot be detected.
  • microdeletion / duplicate Chromosomal deletions and duplications of less than 5 Mb are called microdeletion / duplicate, and microdeletion / duplicate rates among diseases caused by single genes account for 15% of all mutations (Vissers LE, et al. 2005, Hum Mol Genet. Vol. 15; 14 Spec No. 2: R215-23.).
  • Fluorescence in situ hybridization is a test method that checks the presence or absence of a specific sequence in a chromosome by attaching a fluorescent label to a probe complementary to the base sequence to be identified. Because of the resolution of 100kb-1Mb, microdeletion / duplicate detection is possible, but only the complementary part of the probe sequence can be identified, so it is possible to detect only known mutations.
  • microarray-based comparative dielectric hybridization (aCGH) is used as the most common test for identifying chromosomal microdeletion / redundancy (Russo CD, et al. 2014, Cancer Discov. Vol. 4 (1), pp. 19-21).
  • the size of CNV that can be detected through the microarray is determined by the density of the probe, and can detect up to approximately 50kb of CNV. (Watson CT, et al. 2014)
  • chromosomal abnormalities due to chromosomal rearrangements such as translocations or inversions cannot be detected.
  • NGS Next-generation sequencing
  • SNP single nucleotide polymorphism
  • INDEL indels
  • NGS can detect chromosomal aberrations due to chromosomal rearrangements not detected in probe-based microarrays and new, unknown CNVs (Talkowski ME, et al. 2011, Am J Hum Genet. Vol. 88). (4), pp. 469-81).
  • the chromosome can be fragmented and analyzed for sequencing, which has the advantage of showing higher coverage and resolution than microarrays and detecting breakpoints at which chromosomal aberrations begin (Zhao M, et al. 2013, BMC). Bioinformatics.Vol. 14, Suppl 11: S1)
  • the present inventors have made diligent efforts to develop an NGS-based chromosomal abnormality detection method. After dividing the results of full-length chromosome sequencing by bins, the inventors can represent a chromosome by each chromosome. After screening the bins and performing analysis using normalization correction, regression analysis, PCA algorithm, and CBS algorithm, not only the chromosomal abnormalities can be screened, but also the breakpoints at which chromosomal abnormalities occur can be detected with high accuracy. It was confirmed that the present invention was completed, and the present invention was completed.
  • Another object of the present invention is to provide an apparatus for detecting chromosomal abnormalities.
  • Another object of the present invention is to provide a method for detecting X chromosome abnormalities.
  • the present invention comprises the steps of: a) obtaining sequence information (reads) of DNA isolated from a biological sample; b) aligning said reads to a reference genome database of a reference population; c) selecting sequence information by identifying a sequencing quality score with respect to the aligned sequence information; d) dividing the standard chromosome into bins, checking the amount of each section with respect to the selected sequence reads, and normalizing by the GC ratio; e) selecting a bin having the highest explanatory power for variance among bins normalized by the GC ratio; f) calculating the Z score (Z-score) between the number of leads of the bin selected in step e) and calculating the Q score (Q-score) from the Z score, wherein the Q score is the reference score ( selecting only a certain bin or less than a cut-off score); g) a method for detecting a chromosome abnormality, the method comprising determining a presence or absence of a chromosome abnormality
  • the present invention also includes a decoding unit for decoding the sequence (reads) of the DNA separated from the biological sample; An alignment to align the translated sequence to a reference chromosome sequence database; A quality control unit for identifying sequence information by checking a sequencing quality score with respect to the sorted sequence information; The standard chromosome is divided into bins, and for each of the selected sequence information, the quantity of each section is identified and normalized by a GC ratio, and then distributed among bins normalized by the GC ratio.
  • An analysis section selection unit that selects a predetermined bin having the highest explanatory power for the analysis unit; After calculating the mean and standard deviation of the leads that match each normalized bin of the reference group, the Z score between the number of leads of the section selected by the analysis section selector is calculated and the Q score (Q ⁇ ) a section quality control unit that selects only a predetermined bin in which the Q score is less than or equal to a cut-off score; And it provides a chromosomal abnormality detection device comprising a determination unit for determining the presence and location of chromosomal abnormality by comparing the number of leads of the selected predetermined interval (bin) with the number of leads of the reference population.
  • the invention also includes a computer readable medium comprising instructions configured to be executed by a processor for detecting a chromosomal abnormality, the method comprising the steps of: (a) acquiring sequence information of DNA isolated from a biological sample; (b) aligning the reads to a reference genome database of a reference population; (c) selecting sequence information by identifying a sequencing quality score with respect to the sorted sequence information; (d) dividing the standard chromosome into bins, checking the amount of each section with respect to the selected sequence reads, and normalizing the GC ratio; (e) selecting a bin having the highest explanatory power for variance among bins normalized by the GC ratio; (f) calculating a Z score between the number of leads of the bin selected in step (e) and calculating a Q score from the Z score, wherein the Q score is cut-off.
  • the present invention also provides a method for detecting a chromosomal abnormality comprising detecting an abnormality of a pseudoautosomal region (PAR) present in the X chromosome.
  • PAR pseudoautosomal region
  • 1 is an overall flow chart for detecting chromosomal abnormalities of the present invention.
  • FIG. 2 is a diagram illustrating a correction result of the number of sequencing reads before and after GC calibration by a LOESS algorithm during a QC (quality control) process of read data.
  • Figure 3 is a result of measuring the variation in the number of sequencing reads of the sample (A) and the sample (B) that the Q score of a certain interval (bin) in accordance with the present invention exceeds the reference value.
  • Figure 4 is the result of measuring the clinical sensitivity according to the set size of the bin (bin) according to the method of the present invention.
  • the sequence analysis data obtained from the sample is normalized, summarized based on the reference value, divided into predetermined bins, and normalized the amount of reads by each bin, and then each chromosome can be represented.
  • Select the bin calculate the Z score between the selected bin and the reference sample, check the quality of the selected bin based on the derived Z score.
  • the chromosome after sequencing the DNA extracted from a normal person and a sample confirmed pathogenic microdeletion / duplicate mutations, sorted based on the reference chromosome Hg19 sequence, and then check the quality, the chromosome The amount of matching reads for each section was normalized by the GC ratio. The bin with the highest explanatory power of variance among the bins normalized by the GC ratio was selected by the PCA algorithm, and the average of reads matching each bin in the normal sample. After obtaining the standard deviation, the Z score with the normalized value of the selected bin was calculated, and based on this, the Q score (Q score) was calculated to select only samples of 8.5 or less.
  • the ratio of the number of reads in the selected bins was divided by the number of sequencing reads in the normal population. The ratio was calculated and multiplied by 2 to determine the deletion of 1.2 or less, and the determination of overlapping of 2.8 or more. The loci were separated.
  • sequences other than the reference sequence of the pseudo chromosomal region (Xp22.33) of the human reference genome (Hg19) are masked.
  • the produced sequencing reads were forced to align.
  • LWD scores were calculated based on the data of 20 normal chromosome samples, and the result was determined as -1 or less, and +2 or more (Fig. 1).
  • sequence information refers to one nucleic acid fragment obtained by analyzing sequence information using various methods known in the art. Therefore, the terms “sequence information” and “lead” in the present specification have the same meaning in that they are a result of obtaining sequence information through a sequencing process.
  • the term "bin” is used in the same sense as a certain section or section, and means a part of the entire chromosome sequence.
  • step e calculating the Z score (Z-score) between the number of leads of the bin selected in step e) and calculating the Q score (Q-score) from the Z score, wherein the Q score is the reference score. selecting only bins that are less than or equal to the cut-off score;
  • a method for detecting a chromosome abnormality comprising determining the presence or absence of a chromosome abnormality by comparing the number of reads in a selected bin with the number of reads in a reference population.
  • (a-iv) may be performed by a method comprising the step of obtaining sequence information (reads) of the nucleic acid in the next-generation gene sequencer.
  • the term “reference group” refers to a reference group that can be compared with a standard sequence database, and refers to a group of people who do not currently have a specific disease or condition.
  • the standard nucleotide sequence in the standard chromosome sequence database of the reference group may be a reference chromosome registered in a public health institution such as NCBI.
  • next-generation sequencer is not limited thereto, but the Hisec system of the Illumina Company, the Misec system of the Illumina Company, the genome of the Illumina Company Analyzer (GA) system, Roche Company's 454 FLX, Applied Biosystems Company's SOLiD system, and Life Technology Company's iontorrent system.
  • the alignment step is not limited thereto, but may be performed using a BWA algorithm and Hg19 sequence.
  • the BWA algorithm may include, but is not limited to, BWA-mem, BWA-ALN, BWA-SW, or Bowtie2.
  • selection of sequence information refers to whether to perform additional analysis or end analysis based on the data by checking whether a quality score, for example, a sequencing quality score, meets a predetermined requirement. Refers to the procedure of determining.
  • step (c) is
  • step (c) may be performed by additionally selecting a sequence satisfying a reference value of a mapping quality score in the selected region.
  • the region of the nucleic acid sequence in the step of specifying the region of the nucleic acid sequence of the step (c-i), is not limited thereto, it may be 20kb ⁇ 1MB.
  • the sequencing quality score in the region may vary according to a desired criterion, specifically 30 or more, the region where the sequencing quality score is 30 or more, the entire nucleic acid sequence It is to select more than 70% of the area of, more specifically more than 75%, most specifically more than 80%.
  • the reference value may vary depending on the desired criterion of the sorting quality score, specifically 15 to 70, more specifically 30 to 65, Most specifically 60.
  • step (c) may be performed except for data of the centrosome or the end of the chromosome.
  • core body may be characterized in that about 1Mb from the starting point of each chromosome long arm (q arm), but is not limited thereto.
  • single body may be characterized in that it is within about 1 Mb from the start of each chromosome short arm (p arm) or within 1 Mb from the end of the long arm (q arm), but is not limited thereto.
  • step (d) is
  • (d-iv) may be performed by normalizing the number of reads using the regression coefficient.
  • the predetermined bin in (d-i) may be specifically 15 kb to 50 kb.
  • a predetermined period is not limited to this, 1kb to 1MB, specifically 1kb to 500 kb, more specifically 15kb to 100kb It may be more specifically 15kb to 50kb, most specifically 15kb. If the bin is less than 15 kb, the range is too narrow compared to the general sequencing read size, so the accuracy is greatly reduced, and if the bin is more than 50 kb, the sensitivity is reduced (FIG. 4).
  • step (d-iii) can be used as long as the regression analysis method can calculate the regression coefficient, but may be specifically characterized as LOESS analysis, but is not limited thereto. .
  • the term "explanatory power" in the step (e) means a numerical value expressing the degree to which the characteristics of a particular sample section represent the characteristics of the entire population to which the section belongs, for example For example, it can be expressed as R-square, R2.
  • the step (e) may be characterized in that the selection by the Principal Component Analysis algorithm (PCA algorithm).
  • PCA algorithm Principal Component Analysis algorithm
  • the term "principal component analysis algorithm” is a technique of reducing high-dimensional data to low-dimensional data. Orthogonal transformation is used to transform samples of high dimensional spaces that are related to each other into samples of low dimensional spaces (principal components) that have no linear correlation.
  • the geometric vector which makes X the data matrix and the orthogonal projection of the data matrix to the plane ⁇ (eigenvalue) can be calculated as follows.
  • for a condition where 90% of the variance (Var) of the entire object can be explained.
  • eigenvalue for a condition where 90% of the variance (Var) of the entire object can be explained.
  • step e) in the present invention represents the distribution of read data allocated for each section of the chromosome, that is, the most frequent read is selected and used for later analysis.
  • the step of calculating the Z score of the step (f) may be characterized in that to standardize the sequencing read value for each specific region (bin), specifically calculated by the following formula 1 It can be characterized by.
  • the Q score of step (f) may be calculated by a method comprising the following steps.
  • the cut-off score of the Q score in the step (f) is 8-10, it can be characterized in that the most specifically 8.5.
  • step (g) is,
  • the deletion in the (g-ii) calculated value is specifically 1.2 or less, and the overlap is specifically 2.8 or more.
  • the CBS algorithm refers to a method for detecting a point at which a change in values calculated in the above step occurs.
  • the present invention relates to a method for detecting a chromosomal abnormality comprising detecting an abnormality of a pseudoautosomal region (PAR) present in the X chromosome.
  • PAR pseudoautosomal region
  • detecting the abnormality of the false chromosomal region (PAR) present on the X chromosome may be performed by a method comprising the following steps:
  • the decoding unit for decoding the sequence (reads) of the DNA isolated from the biological sample; An alignment to align the translated sequence to a reference chromosome sequence database; A quality control unit for identifying sequence information by checking a sequencing quality score with respect to the sorted sequence information;
  • the standard chromosome is divided into bins, and for each of the selected sequence information, the quantity of each section is identified and normalized by a GC ratio, and then distributed among bins normalized by the GC ratio.
  • An analysis section selection unit that selects a predetermined bin having the highest explanatory power for the analysis unit; After calculating the mean and standard deviation of the leads that match each normalized bin of the reference group, the Z score between the number of leads of the section selected by the analysis section selector is calculated and the Q score (Q ⁇ ) a section quality control unit that selects only a predetermined bin in which the Q score is less than or equal to a cut-off score; And it relates to a chromosome abnormality detection device comprising a determination unit for determining the presence and location of chromosomal abnormality by comparing the number of reads of the selected bin (bin) with the number of leads of the reference population.
  • the present invention provides a computer readable medium comprising instructions configured to be executed by a processor for detecting a chromosomal abnormality, the method comprising the steps of: (a) obtaining sequence information of DNA isolated from a biological sample; (b) aligning the reads to a reference genome database of a reference population; (c) identifying and selecting sequence information confirming a sequencing quality score with respect to the sorted sequence information; (d) dividing the standard chromosome into bins, checking the amount of each section with respect to the selected sequence reads, and normalizing the GC ratio; (e) selecting a bin having the highest explanatory power for variance among bins normalized by the GC ratio; (f) calculating a Z score between the number of leads of the bin selected in step (e) and calculating a Q score from the Z score, wherein the Q score is cut-off.
  • the computer readable medium comprising instructions configured to be executed by the processor. It is about.
  • standard chromosome of the present invention is a combination of genetic information of multiple donors determined to be genetically normal, and may be, for example, GRCh37 (Hg19) data provided by NCBI.
  • the DNA of 29 pathogenic microdeletion / redundant mutations and 20 normal samples were extracted and a library for the full length chromosome was prepared.
  • the completed library was subjected to sequencing on NextSeq instrument (illumina, USA) and produced an average of 10 million reads of sequencing data per sample.
  • NGS Next-generation sequencing
  • the ratio is calculated by dividing the number of sequencing reads calculated for each bin by the number of sequencing reads of the reference population (normal), multiplying by 2 to determine the deletion if 1.2 or less, and the overlapping if 2.8 or more.
  • the chromosomal loci where duplication occurred were distinguished.
  • sequences other than the reference sequence of the pseudochromosomal region (Xp22.33) of the human reference genome (Hg19) are masked and produced. Sequencing reads were forced to align. LWD scores were calculated based on the data of 20 normal chromosome samples and were determined to be deletions of -2 or less and overlapping of +2 or more.
  • Electrophoresis confirms DNAs that have been left in extreme environments (more than one year at room temperature) and have been identified for large amounts of damage (fragmentation) and those stored under normal conditions (more than one year at -20 ° C), and these have been converted into libraries. It was prepared and analyzed.
  • the Q score was greater than 8.5 for DNA that was left under extreme conditions, and the variation in the number of sequencing reads showed an extreme pattern, whereas the normal sample did not exceed the threshold for the Q score and the variation in the number of sequencing reads. It was also confirmed that a stable pattern was observed (FIG. 3).
  • Bin Size was set in units of 15, 50, 100, 200 500, 1000kb.
  • the chromosomal aberration detection method according to the present invention uses a next generation sequencing (NGS) method to increase the accuracy of chromosomal aberration detection as well as to increase the detection accuracy of very low concentrations of DNA, which is difficult to detect. It can increase. Therefore, the method of the present invention is useful for the determination of chromosomal abnormalities.
  • NGS next generation sequencing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 전장 유전체 시퀀싱 기반의 염색체 이상을 검출하는 방법에 관한 것이다. 본 발명에 따른 염색체 이상 검출 방법은 차세대 염기서열 분석기법(Next Generation Sequencing, NGS)을 이용하여 염색체 이상 검출의 정확도를 높일 뿐만 아니라 검출하기 어려웠던 매우 낮은 농도의 DNA에 대한 검출 정확도를 높여서 상업적 활용도를 높일 수 있다. 따라서 본 발명의 방법은 염색체 이상 여부 판단에 유용하다.

Description

전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도
본 발명은 염색체 이상을 검출하는 방법에 관한 것으로, 보다 구체적으로는 생체시료에서 DNA를 추출하여, 서열정보를 획득한 다음, 염색체 영역을 일정구간으로 구분하여 각각의 대표군을 선별하여 정규화 교정, 회귀분석, PCA 알고리즘 및 CBS 알고리즘을 이용한 염색체 이상, 특히 복제수 변이(Copy Number Variation, CNV)의 검출방법 및 그 용도에 관한 것이다.
염색체의 일부가 결핍 또는 중복되어 나타나는 DNA복제수 변이(CNVs)를 포함한 염색체 이상을 확인하기 위해 핵형분석, 형광동소보합법, 염색체 마이크로어레이, NGS기반의 스크리닝 검사와 같이 다양한 검사가 이루어지고 있다 (Capalbo A, et al. 2017, Hum Reprod. Vol. 32(3), pp. 492-498). 핵형분석은 다른 검사들에 비해 5Mb 정도의 낮은 해상도를 보이며 그보다 작은 크기의 염색체 결실/중복은 검출이 불가능하다. 5Mb 미만의 작은 크기의 염색체 결실 및 중복을 미세결실/중복이라고 하며, 단일유전자에 의한 질환 중 미세결실/중복에 의한 비율이 전체 변이의 15%에 해당한다(Vissers LE, et al. 2005, Hum Mol Genet. Vol. 15;14 Spec No. 2:R215-23.).
이러한 미세결실/중복을 검출해내기 위해서 특정 염기서열에 상보적인 탐침자를 활용한 형광동소보합법(FISH)과 염색체 마이크로어레이 검사가 이루어지고 있다. 형광동소보합법은 확인하려는 염기서열에 상보적인 탐침자에 형광라벨을 붙여 염색체 내에 특정 염기서열의 여부를 확인하는 검사법이다. 100kb-1Mb의 해상도를 보이기 때문에 미세결실/중복의 검출이 가능하지만 탐침자 서열에 상보적인 부분만 확인이 가능하기 때문에 기존에 알려진 변이에 대해서만 검출이 가능하다는 단점이 있다.
현재 염색체 미세결실/중복을 확인하는 가장 일반적인 검사법으로 마이크로어레이를 기반으로 하는 비교유전체혼성화법(aCGH)이 활용되고 있다(Russo CD, et al. 2014, Cancer Discov. Vol. 4(1), pp. 19-21). 마이크로어레이를 통해 검출 가능한 CNV의 크기는 탐침자의 밀도에 의해 결정되며 대략 50kb 크기의 CNV까지 검출이 가능하다. (Watson CT, et al. 2014) 하지만 전좌 또는 역위와 같이 염색체 재배열에 의한 염색체 이상은 검출이 불가능하다.
차세대염기서열분석법(NGS)은 염색체를 작은 조각으로 나누고 각 조각의 유전정보를 병렬적으로 분석하는 염기서열분석법이다. NGS는 유전자분석 기술이 발전하면서 상대적으로 검사의 소요시간과 비용이 적고 단일염기 다형성(SNP), 삽입-결실(INDELs)까지 검출 가능한 높은 해상도 때문에 신생아의 유전성 질환 선별검사로 활용되고 있다. 그러나 염색체를 작게 나누어 분석하는 NGS의 원리적 특성상 큰 규모의 염색체의 구조적 변이나 CNVs을 검출하는데 기술적 한계가 있다(Yohe S, Thyagarajan B. 2017, Arch Pathol Lab Med. Vol. 141(11), pp. 1544-1557).
하지만 NGS는 탐침자를 기반으로 하는 마이크로어레이에서 검출할 수 없는 염색체 재배열에 의한 염색체 이상과 기존에 알려지지 않은 새로운 CNV의 검출이 가능하다(Talkowski ME, et al. 2011, Am J Hum Genet. Vol. 88(4), pp. 469-81). 또한 염색체를 작게 조각 내어 염기서열을 분석하는 특성으로 마이크로어레이 보다 더 높은 coverage와 해상도를 보이고 염색체 이상이 시작되는 구획점(breakpoint) 검출이 가능하다는 장점이 있다(Zhao M, et al. 2013, BMC Bioinformatics. Vol. 14, Suppl 11:S1)
이러한 기술배경하에, 본 발명자들은 NGS 기반의 염색체 이상 검출방법을 개발하기 위해 예의 노력한 결과, 전장 염색체 시퀀싱 결과를 일정구간(bin)별로 나눈 다음, 각각의 염색체 별로 염색체를 대표할 수 있는 일정구간(bin)을 선별한 다음, 정규화 교정, 회귀분석, PCA 알고리즘 및 CBS 알고리즘을 이용한 분석을 수행할 경우, 염색체 이상을 선별할 수 있을 뿐만 아니라, 염색체 이상이 발생한 위치(breakpoint)도 높은 정확도로 검출할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
발명의 요약
본 발명의 목적은 염색체 이상 검출방법을 제공하는 것이다.
본 발명의 다른 목적은 염색체 이상을 검출하는 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법으로 염색체 이상을 검출하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 X 염색체 이상 검출 방법을 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 a) 생체시료에서 분리된 DNA의 서열정보(reads)를 획득하는 단계; b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; c) 상기 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하여 서열정보를 선별하는 단계; d) 상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화하는 단계; e) 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선별하는 단계; f) 상기 e) 단계에서 선별한 일정구간(bin)의 리드 수 사이의 Z 점수(Z-score)를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 단계; g) 선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 단계를 포함하는, 염색체 이상 검출 방법을 제공한다.
본 발명은 또한, 생체시료에서 분리된 DNA의 서열정보(reads)를 해독하는 해독부; 해독된 서열을 참조집단의 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하여 서열정보를 선별하는 품질관리부; 상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화한 다음, 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선택하는 분석구간 선택부; 참조집단의 정규화된 각 일정구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 분석구간 선택부에서 선택한 구간의 리드 수 사이의 Z 점수를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 구간 품질관리부; 및 선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 결정부를 포함하는 염색체 이상 검출장치를 제공한다.
본 발명은 또한, 컴퓨터 판독 가능한 매체로서, 염색체 이상을 검출하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되, (a) 생체시료에서 분리된 DNA의 서열정보를 획득하는 단계; (b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하여 서열정보를 선별하는 단계; (d) 상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화하는 단계; (e) 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선별하는 단계; (f) 상기 (e) 단계에서 선별한 일정구간(bin)의 리드 수 사이의 Z 점수를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 단계; (g) 선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 단계를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체를 제공한다.
본 발명은 또한, X 염색체에 존재하는 허위상염색체 영역(Pseudoautosomal Region, PAR)의 이상을 검출하는 단계를 포함하는 염색체 이상 검출 방법을 제공한다.
도 1은 본 발명의 염색체 이상를 검출하기 위한 전체 흐름도이다.
도 2는 read data의 QC(퀄리티 관리, quality control) 과정 중, LOESS 알고리즘에 의한 GC 교정 전과 후의 시퀀싱 리드 수의 보정결과를 도식화 한 것이다.
도 3은 본 발명에 따른 일정구간(bin)의 Q 점수가 기준값 초과인 샘플(A) 및 이하인 샘플(B)의 시퀀싱 리드 수의 변동을 측정한 결과이다.
도 4는 본 발명의 방법에 따른 일정구간(bin)의 설정 크기에 따른 임상적민감도를 측정한 결과이다.
도 5는 본 발명의 방법에 따른 일정구간(bin)의 설정 크기에 따른 미세결실/중복 변이 크기의 차이변화를 측정한 결과이다.
발명의 상세한 설명 및 바람직한 구현예
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
본 발명에서는, 샘플에서 획득한 서열 분석 데이터를 정규화하고, 기준값을 바탕으로 정리한 뒤, 일정 구간(bin)으로 나누어 각 구간(bin) 별 리드 양을 정규화 한 다음, 각 염색체를 대표할 수 있는 구간(bin)을 선택하고, 선택한 구간(bin)과 참조집단 샘플과의 Z 점수(Z score)를 계산하고, 도출된 Z 점수(Z score)를 기반으로 선택한 구간(bin)의 퀄리티를 확인한 다음, 선택한 구간의 리드 수를 정상인 샘플의 리드 수와 비교하여 염색체 이상 유무를 판별할 경우, 높은 민감도를 가지고 염색체 이상을 판별할 수 있을 뿐만 아니라, 염색체 이상의 구획점(breakpoint)도 검출할 수 있다는 것을 확인하였다.
즉, 본 발명의 일 실시예에서는, 정상인과 병원성 미세결실/중복 변이가 확인된 검체에서 추출한 DNA를 시퀀싱 한 뒤, 참조염색체 Hg19서열을 기준으로 정렬한 다음, 퀄리티를 확인하고, 염색체를 일정 구간(bin)으로 구분하여 각 구간 별 매칭되는 리드 양을 GC 비율로 정규화하였다. 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 PCA 알고리즘으로 선택하였고, 정상인 샘플에서 각 구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 선택된 bin의 정규화된 값과의 Z 점수(Z score)를 계산하고, 이를 기반으로 Q 점수(Q score)를 산출하여 8.5 이하인 샘플만 선별하였다.
선별한 구간(bin)의 리드 수를 정상인의 시퀀싱 리드 수로 나누어 비율을 계산하고 2를 곱하여 1.2 이하이면 결실로 판정하고, 2.8 이상이면 중복으로 판단하였으며, CBS 방법을 이용하여 결실/중복이 일어난 염색체 좌위를 구분하였다.
또한, X 염색체에 존재하는 허위상염색체 영역(pseudoautosomal region)의 수적 이상을 판별 하기 위해서 휴먼 참조 유전체(Hg19) 중 허위상염색체 영역(Xp22.33)의 참조 서열 이외의 서열들은 차폐(masking) 하고 생산된 시퀀싱 리드들을 강제로 정렬하였다. 성염색체가 2개인 샘플의 정상인 20명의 데이터를 기준으로 LWD 점수를 계산하고 -2 이하인 경우는 결실, +2 이상인 경우는 중복으로 판정하였다(도 1).
본 발명에서 용어 "리드(reads)"는, 당업계에 알려진 다양한 방법을 이용하여 서열정보를 분석한 하나의 핵산 단편을 의미한다. 따라서, 본 명세서에서 용어 “서열정보” 및 “리드”는 시퀀싱 과정을 통해 서열정보를 수득한 결과물이라는 점에서 동일한 의미를 가진다.
본 발명에서 용어 “bin”은, 일정구간 또는 구간과 같은 의미로 사용되며, 염색체 전체 서열의 일부를 의미한다.
따라서, 본 발명은 일 관점에서,
(a) 생체시료에서 분리된 DNA의 서열정보(reads)를 획득하는 단계;
(b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하여 서열정보를 선별하는 단계;
(d) 상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화하는 단계;
(e) 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선별하는 단계;
(f) 상기 e) 단계에서 선별한 일정구간(bin)의 리드 수 사이의 Z 점수(Z-score)를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 단계;
(g) 선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 단계를 포함하는 염색체 이상 검출 방법에 관한 것이다.
본 발명에 있어서,
상기 a) 단계는
(a-i) 분리된 DNA에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-ii) 상기 정제된 핵산에 대하여, 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(a-iii) 상기 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(a-iv) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (a-i) 및 상기 (a-ii) 단계 사이에, 상기 (a-i) 단계에서 정제된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계를 추가로 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에서 용어 ”참조집단”은 표준 염기서열 데이터베이스와 같이 비교할 수 있는 기준(reference) 집단으로, 현재 특정 질환 또는 병증이 없는 사람의 집단을 의미한다. 본 발명에 있어서, 상기 참조집단의 표준 염색체 서열 데이터베이스에서 표준 염기서열은 NCBI 등의 공공보건기관에 등록되어 있는 참조 염색체일 수 있다.
본 발명에 있어서, 상기 차세대 유전자서열 검사기(next-generation sequencer)는 이에 제한되지는 않으나, 일루미나 컴파니의 하이섹(Hiseq) 시스템, 일루미나 컴파니의 마이섹(Miseq) 시스템, 일루미나 컴파니의 게놈 분석기(GA) 시스템, 로슈 컴파니(Roche Company)의 454 FLX, 어플라이드 바이오시스템즈 컴파니의 SOLiD 시스템, 라이프 테크놀러지 컴파니의 이온토렌트 시스템일 수 있다.
본 발명에 있어서, 상기 정렬단계는 이에 제한되지는 않으나, BWA 알고리즘 및 Hg19 서열을 이용하여 수행되는 것일 수 있다.
본 발명에 있어서, 상기 BWA 알고리즘은 BWA-mem, BWA-ALN, BWA-SW 또는 Bowtie2 등이 포함될 수 있으나 이에 한정되는 것은 아니다.
본 발명에서, 상기 (c) 단계에서 용어 “서열정보의 선별”은 퀄리티 점수, 예를 들어 시퀀싱 퀄리티 점수가 일정 요건을 만족하는지를 확인함으로써 해당 데이터를 토대로 추가적인 분석을 수행할지 혹은 분석을 종료할지 여부를 결정하는 절차를 의미한다.
본 발명에 있어서, 상기 (c) 단계는
(c-i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및
(c-ii) 상기 영역 내에서 시퀀싱 퀄리티 점수가 30 이상이 되는 영역이, 전체 핵산서열의 영역 중 70 % 초과한 영역을 선별하는 단계;를 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (c) 단계는 상기 선별된 영역에서 정렬 퀄리티 점수(mapping quality score)의 기준값을 만족하는 서열을 선별하는 단계를 추가적으로 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (c-i) 단계의 핵산서열의 영역을 특정하는 단계에서, 핵산서열의 영역은 이에 제한되는 않으나, 20kb~1MB일 수 있다.
본 발명에 있어서, 상기 (c-ii) 단계에서, 상기 영역 내에서 시퀀싱 퀄리티 점수는 원하는 기준에 따라 달라질 수 있으나, 구체적으로 30 이상이고, 시퀀싱 퀄리티 점수가 30 이상이 되는 영역이, 전체 핵산서열의 영역 중 70 % 초과한 영역, 보다 구체적으로 75% 초과한 영역, 가장 구체적으로 80% 초과한 영역을 선별하는 것이다.
본 발명에 있어서, 상기 (c-iii) 단계에서, 상기 기준값은 상기 정렬 퀄리티 점수(mapping quality score)가는 원하는 기준에 따라 달라질 수 있으나, 구체적으로는 15 내지 70, 보다 구체적으로는 30 내지 65, 가장 구체적으로는 60일 수 있다.
본 발명에 있어서, 상기 (c) 단계는 염색체의 중심체 또는 말단체의 데이터를 제외하고 수행되는 것을 특징으로 할 수 있다.
본 발명에서 용어 “중심체”는 각 염색체 장완(q arm)의 시작점으로부터 1Mb 내외인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 용어 “말단체”는 각 염색체 단완(p arm)의 시작점으로부터 1 Mb 내외 이내 또는 장완(q arm)의 종료점으로부터 1 Mb 이내인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (d) 단계는
(d-i) 표준 염색체를 일정구간(bin)으로 나누는 단계;
(d-ii) 상기 구간별 정렬된 리드 개수 및 리드들의 GC양을 산출하는 단계;
(d-iii) 상기 리드 개수 및 GC양을 바탕으로 회귀분석을 실시하여 회귀계수를 산출하는 단계; 및
(d-iv) 상기 회귀계수를 이용하여 리드 개수를 정규화하는 단계를 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, (d-i)에서의 일정구간(bin)은, 구체적으로는 15 kb 내지 50 kb일 수 있다.
본 발명에 있어서, 상기 (d-i) 단계의 핵산서열의 영역을 특정하는 단계에서, 일정구간(bin) 은 이에 제한되는 않으나, 1kb 내지 1MB, 구체적으로 1kb 내지 500 kb, 보다 구체적으로는 15kb 내지 100kb, 보다 더 구체적으로 15kb 내지 50kb, 가장 구체적으로 15kb 일 수 있다. 일정구간(bin)이 15 kb 미만일 경우에는 일반적인 시퀀싱 리드 크기에 비해 지나치게 구간범위가 좁아 정확도가 크게 떨어지고, 일정구간(bin)이 50kb 이상일 경우에, 민감도가 감소한다(도 4).
본 발명에 있어서, 상기 (d-iii) 단계의 회귀분석은 회귀계수를 산출할 수 있는 회귀분석 방법이면 모두 이용가능하나, 구체적으로는 LOESS 분석인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (e) 단계에서 용어 ”설명력(explanatory power)”은 특정 표본구간의 특성이 해당 구간이 속해 있는 전체 집단의 특성을 대변하는 정도를 정량적으로 표현한 수치를 의미하며, 예를 들어 R-square, R2로 표현될 수 있다
본 발명에 있어서, 상기 (e) 단계는 주성분 분석 알고리즘(Principal Component Analysis algorithm, PCA algorithm)으로 선별하는 것을 특징으로 할 수 있다.
본 발명에서 용어 “주성분 분석 알고리즘”은 고차원의 데이터를 저차원의 데이터로 환원시키는 기법이다. 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간(주성분)의 표본으로 변환하기 위해 직교 변환을 사용하는 방법을 의미한다.
즉, X를 데이터 행렬, 데이터 행렬을 평면으로 정사영(Orthogonal projection) 시키는 기하벡터를
Figure PCTKR2019009062-appb-I000001
라고 정의하였을 때 λ(eigenvalue)는 다음과 같이 산출할 수 있다.
수식 4:
Figure PCTKR2019009062-appb-I000002
가령 d차원의 데이터를 m차원 데이터로 감소시킨다고 할 때(이 때 d는 m보다 크다.), 전체 대상의 분산(Variance; Var) 중 90%만큼을 설명할 수 있을 때의 조건에 대해 λ(eigenvalue)를 이용하여 아래의 식과 같이 표현할 수 있다.
수식 5:
Figure PCTKR2019009062-appb-I000003
위의 조건을 만족하는 m을 찾아 차원을 감소시킨다.
이는 본 발명에 있어서 상기 e) 단계는 염색체의 일정 구간별로 할당된 리드 데이터의 분포를 대표하는, 즉 최빈값의 리드를 선별하여 추후 분석에 사용한다는 의미이다.
본 발명에 있어서, 상기 (f) 단계의 Z 점수(Z score)를 계산하는 단계는 특정 영역(bin)별 시퀀싱 리드 값을 표준화하는 것을 특징으로 할 수 있으며, 구체적으로는 하기의 수식 1로 계산하는 것을 특징으로 할 수 있다.
수식1:
Figure PCTKR2019009062-appb-I000004
본 발명에 있어서, 상기 (f) 단계의 Q 점수는, 다음의 단계를 포함하는 방법으로 계산되는 것을 특징으로 할 수 있다.
(f-i) 각 염색체별로 도출한 일정구간(bin)의 Z 점수의 절대값을 모두 합한 수치의 루트값을 계산하고 S로 정의하는 단계;
(f-ii) 각 염색체별로 Q 점수(Q-score)를 하기 수식 2로 계산하는 단계:
수식 2:
Figure PCTKR2019009062-appb-I000005
본 발명에 있어서, 상기 (f) 단계에서 Q 점수의 기준 점수(cut-off score)는 8-10이고, 가장 구체적으로는 8.5인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (g) 단계는,
(g-i) 선별된 일정구간(bin) 당 리드 수를 참조 집단의 리드 수로 나누어 비율을 계산하고 2를 곱하는 단계;
(g-ii) 계산된 값이 1 내지 1.5 이하이면 결실로 판정하고, 2.5 내지 3이상이면 중복으로 판정하는 단계; 및
(g-iii) CBS(Circular Binary Segmentation) 방법으로 염색체 이상이 일어난 위치를 결정하는 단계를 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, (g-ii) 계산된 값에서 결실은 구체적으로 1.2 이하이고, 중복은 구체적으로 2.8 이상인 것이다.
본 발명에서 CBS 알고리즘은 상기 단계에서 계산된 값들의 변화가 발생하는 지점을 검출하는 방법을 의미한다.
즉, 염색체의 특정 복제 수 변화가 시작되는 임의의 지점을 i, 끝나는 임의의 지점을 j, 전체 영역 길이를 N, r을 각 핵산 서열(특정 bin 구간)의 bin 값, s를 bin 값들의 표준 편차라고 가정하면 1<=i<j<=N의 조건 하에서, 아래의 식을 만족한다.
수식 6:
Figure PCTKR2019009062-appb-I000006
수식 7:
Figure PCTKR2019009062-appb-I000007
수식 8:
Figure PCTKR2019009062-appb-I000008
수식 9:
Figure PCTKR2019009062-appb-I000009
수식 10:
Figure PCTKR2019009062-appb-I000010
여기서 (i c, j c)는 복제 수 변화가 실제 일어난 위치를 의미하며, max는 최대값, arg는 편각을 의미한다.
본 발명은 일 관점에서, X 염색체에 존재하는 허위상염색체 영역(Pseudoautosomal Region, PAR)의 이상을 검출하는 단계를 포함하는 염색체 이상 검출 방법에 관한 것이다.
본 발명에 있어서, 상기 X 염색체에 존재하는 허위상염색체 영역(PAR)의 이상을 검출하는 단계는, 하기의 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다:
(i) X 염색체에서 분리된 DNA의 서열정보(read)를 획득하는 단계;
(ii) 상기 서열정보를 참조 집단의 허위상염색체 영역(Xp22.33)에 정렬하는 단계;
(iii) 성염색체가 2개인 참조집단의 리드의 평균과 표준편차를 구한 다음, 정렬된 시퀀싱 리드 수 사이의 LWD 점수(LWD score)를 하기 수식 3으로 계산하는 단계:
수식 3:
Figure PCTKR2019009062-appb-I000011
(iv) 계산된 LWD 점수가 -2 이하인 경우 결실로 판정하고, 2 이상인 경우는 중복으로 판정하는 단계.
본 발명은 다른 관점에서, 생체시료에서 분리된 DNA의 서열정보(reads)를 해독하는 해독부; 해독된 서열을 참조집단의 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하여 서열정보를 선별하는 품질관리부; 상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화한 다음, 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선택하는 분석구간 선택부; 참조집단의 정규화된 각 일정구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 분석구간 선택부에서 선택한 구간의 리드 수 사이의 Z 점수를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 구간 품질관리부; 및 선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 결정부를 포함하는 염색체 이상 검출 장치에 관한 것이다.
본 발명은 또 다른 관점에서, 컴퓨터 판독 가능한 매체로서, 염색체 이상을 검출하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되, (a) 생체시료에서 분리된 DNA의 서열정보를 획득하는 단계; (b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하는 서열정보를 확인하여 선별하는 단계; (d) 상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화하는 단계; (e) 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선별하는 단계; (f) 상기 (e) 단계에서 선별한 일정구간(bin)의 리드 수 사이의 Z 점수를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 단계; (g) 선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 단계를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체에 관한 것이다.
본 발명의 용어 “표준 염색체”는 유전적으로 정상(normal)이라고 판단된 복수 기증자의 유전정보의 조합체이며, 예를 들어 NCBI에서 제공하는 GRCh37(Hg19) 데이터일 수 있다
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. 정상인 샘플과 병원성 샘플에서의 성능 확인
29개의 병원성 미세결실/중복 변이가 확인된 검체와 20개의 정상인 검체의 DNA를 추출하고 전장 염색체에 대한 라이브러리를 제조하였다. 완성된 라이브러리는 NextSeq 장비에서(illumina, USA) 염기서열 분석을 수행하였으며, 샘플당 평균 10 million read의 서열정보 데이터를 생산하였다.
차세대염기서열분석(NGS) 장비에서 Bcl 파일(염기서열정보 포함)을 fastq 형식으로 변환한 다음, fastq 파일을 BWA-mem 알고리즘을 사용하여 참조염색체 Hg19서열 기준으로 라이브러리 서열을 정렬하였다. 시퀀싱 데이터는 Q30이 80% 이상, Mapping quality가 60을 만족하는 것을 확인하였다.
GC양에 따라 각 염색체 좌위 구간(bin)의 시퀀싱 리드 수의 분포가 편향되는 것을 확인했고(도 2), 회귀분석을 사용하여 염색체별 GC 비율에 따라 정렬된 라이브러리 서열의 숫자를 교정하였다.
PCA알고리즘을 통해 분산에 대한 설명력이 가장 높은 1차원의 데이터 세트에 해당하는 bin(15kb 단위)들을 선택하였고, 20개의 정상인 검체의 데이터를 기준으로 이들의 Z 점수(LS)를 계산하고, LS 절대값을 모두 합한 수치의 루트 값을 S로 정의하고 (S=
Figure PCTKR2019009062-appb-I000012
) 이를 이용하여 수식 2로 Q 점수를 산출하였다. 모든 샘플이 Q 점수 8.5 이하인 것을 확인하였다.
수식 1:
Figure PCTKR2019009062-appb-I000013
수식 2:
Figure PCTKR2019009062-appb-I000014
각 bin 당 계산된 시퀀싱 리드 수를 참조 집단(정상인)의 시퀀싱 리드 수로 나누어 비율을 계산하고 2를 곱하여 1.2 이하이면 결실, 2.8 이상이면 중복으로 판단하였으며 CBS(Circular Binary Segmentation) 방법을 이용하여 결실/중복이 일어난 염색체 좌위를 구분하였다.
X 염색체에 존재하는 허위상염색체 영역(pseudoautosomal region)의 수적 이상을 판별 하기 위해서 휴먼 참조 유전체(Hg19) 중 허위상염색체 영역(Xp22.33)의 참조 서열 이외의 서열들은 차폐(masking) 하고 생산된 시퀀싱 리드들을 강제로 정렬하였다. 성염색체가 2개인 샘플의 정상인 20명의 데이터를 기준으로 LWD 점수를 계산하고 -2 이하인 경우는 결실, +2 이상인 경우는 중복으로 판정하였다.
차세대염기서열분석기에서 생산된 모든 데이터는 CytoScan 750k(Affymetrix, California, USA) Platform에서 생산된 데이터와 교차비교하여 양성일치, 음성일치, 전체일치 샘플 수를 계산하였다.
그 결과, 표 1에 개시된 바와 같이 29개의 병원성 미세결실/중복을 모두 검출하였음을 확인하였다.
Figure PCTKR2019009062-appb-T000001
실시예 2. Q 점수(Q score)의 퀄리티 체크 효과 확인
극한환경(실온에서 1년 이상)에서 방치되어 다량의 손상(단편화, Fragmentation)이 확인된 DNA와 정상 조건에서 보관된(-20도에서 1년 이상) DNA를 전기영동으로 확인하고 이들을 각각 라이브러리로 제조하여 분석을 진행하였다.
그 결과, 극한환경에서 방치된 DNA의 경우 Q 점수가 8.5를 상회하고 전반적으로 시퀀싱 리드 수의 변동이 극심한 패턴을 보이는 반면에 정상 샘플의 경우 Q 점수의 임계값을 넘지 않았으며 시퀀싱 리드 수의 변동 또한 안정적인 패턴이 관찰되는 것을 확인하였다(도 3).
실시예 3. Bin size 설정에 따른 임상적 민감도 및 미세결실/중복 변이 크기의 차이 변화 확인
Bin Size 설정에 따른 임상적 민감도(Sensitivity)와 미세결실/중복 변이 크기의 차이(Median of Size Difference)를 계산하였다. Bin Size는 15, 50, 100, 200 500, 1000kb의 단위로 설정하였다.
분석결과, 15kb bin 단위에서 가장 전체 일치도가 높아 최대치의 임상적 민감도와 최소치의 미세결실/중복 변이 크기의 차이를 나타내는 것으로 확인되었다. Bin 단위의 크기가 증가할수록 50kb 이후부터 큰 폭으로 전체 일치도가 떨어지는 경향성이 나타나는 것을 확인하였다(도 4, 5).
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
본 발명에 따른 염색체 이상 검출 방법은 차세대 염기서열 분석기법(Next Generation Sequencing, NGS)을 이용하여 염색체 이상 검출의 정확도를 높일 뿐만 아니라 검출하기 어려웠던 매우 낮은 농도의 DNA에 대한 검출 정확도를 높여서 상업적 활용도를 높일 수 있다. 따라서 본 발명의 방법은 염색체 이상 여부 판단에 유용하다.

Claims (18)

  1. 다음의 단계를 포함하는 염색체 이상의 검출 방법:
    (a) 생체시료에서 분리된 DNA의 서열정보(reads)를 획득하는 단계;
    (b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하여 서열정보를 선별하는 단계;
    (d) 상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화하는 단계;
    (e) 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선별하는 단계;
    (f) 상기 (e) 단계에서 선별한 일정구간(bin)의 리드 수 사이의 Z 점수(Z-score)를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 단계;
    (g) 선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 단계.
  2. 제1항에 있어서, 상기 (a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 염색체 이상 검출방법:
    (a-i) 분리된 DNA에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
    (a-ii) 상기 정제된 핵산에 대하여, 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
    (a-iii) 상기 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
    (a-iv) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
  3. 제2항에 있어서,
    상기 (a-i) 및 상기 (a-ii) 단계 사이에, 상기 (a-i) 단계에서 정제된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계를 추가로 포함하는 방법으로 수행되는 것을 특징으로 하는 염색체 이상 검출방법.
  4. 제1항에 있어서, 상기 (c) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 염색체 이상 검출방법:
    (c-i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및
    (c-ii) 상기 영역 내에서 시퀀싱 퀄리티 점수가 30 이상이 되는 영역이 전체 핵산서열의 영역 중 70 % 초과한 영역을 선별하는 단계.
  5. 제4항에 있어서, 상기 (c) 단계와 (d) 단계 사이에 상기 선별된 영역에서 정렬 퀄리티 점수(mapping quality score)의 기준값을 만족하는 서열을 선별하는 단계를 추가적으로 포함하는 것을 특징으로 하는 염색체 이상 검출방법.
  6. 제5항에 있어서, 상기 기준값은 상기 정렬 퀄리티 점수가 15 내지 70인 것을 특징으로 하는 염색체 이상 검출방법.
  7. 제4항에 있어서, (c) 단계는 염색체의 중심체 또는 말단체의 데이터를 제외하고 수행되는 것을 특징으로 하는 염색체 이상 검출방법.
  8. 제1항에 있어서, 상기 (d) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 염색체 이상 검출방법:
    (d-i) 표준 염색체를 일정구간(bin)으로 나누는 단계;
    (d-ii) 상기 구간별 정렬된 리드 개수 및 리드들의 GC양을 산출하는 단계
    (d-iii) 상기 리드 개수 및 GC양을 바탕으로 회귀분석을 실시하여 회귀계수를 산출하는 단계; 및
    (d-iv) 상기 회귀계수를 이용하여 리드 개수를 정규화하는 단계.
  9. 제8항에 있어서, (d-i)에서의 일정구간(bin)은 15 kb 내지 50 kb인 것을 특징으로 하는 염색체 이상 검출방법.
  10. 제1항에 있어서, 상기 (e) 단계는 주성분 분석 알고리즘(Principal Component Analysis algorithm, PCA algorithm)으로 선별하는 것을 특징으로 하는 염색체 이상 검출방법.
  11. 제1항에 있어서, 상기 (f) 단계의 Z 점수는 하기의 수식 1로 계산하는 것을 특징으로 하는 염색체 이상 검출방법:
    수식 1:
    Figure PCTKR2019009062-appb-I000015
  12. 제1항에 있어서, 상기 (f) 단계의 Q 점수는 다음의 단계를 포함하는 방법으로 계산하는 것을 특징으로 하는 염색체 이상 검출 방법:
    (f-i) 각 염색체별로 도출한 일정구간(bin)의 Z 점수의 절대값을 모두 합한 수치의 루트값(S)을 계산하는 단계;
    (f-ii) 각 염색체별로 Q 점수(Q-score)를 하기 수식 2로 계산하는 단계:
    수식 2:
    Figure PCTKR2019009062-appb-I000016
  13. 제1항에 있어서, 상기 (f) 단계에서 Q 점수의 기준점수(cut-off score)는 8-10인 것을 특징으로 하는 염색체 이상 검출 방법.
  14. 제1항에 있어서, 상기 (g) 단계는 하기의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 염색체 이상 검출방법:
    (g-i) 선별된 일정구간(bin) 당 리드 수를 참조집단의 리드 수로 나누어 비율을 계산하고 2를 곱하는 단계;
    (g-ii) 계산된 값이 1 내지 1.5 이하이면 결실로 판정하고, 2.5 내지 3이상이면 중복으로 판정하는 단계; 및
    (g-iii) CBS(Circular Binary Segmentation) 방법으로 염색체 이상이 일어난 위치를 결정하는 단계.
  15. X 염색체에 존재하는 허위상염색체 영역(Pseudoautosomal Region, PAR)의 이상을 검출하는 단계를 포함하는 염색체 이상 검출 방법.
  16. 제15항에 있어서, 상기 X 염색체에 존재하는 허위상염색체 영역(PAR)의 이상을 검출하는 단계는 하기의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 염색체 이상 검출 방법:
    (i) X 염색체에서 분리된 DNA의 서열정보(read)를 획득하는 단계;
    (ii) 상기 서열정보를 참조 집단의 허위상염색체 영역(Xp22.33)에 정렬하는 단계;
    (iii) 성염색체가 2개인 참조집단의 리드의 평균과 표준편차를 구한 다음, 정렬된 시퀀싱 리드 수 사이의 LWD 점수(LWD score)를 하기 수식 3으로 계산하는 단계:
    수식 3:
    Figure PCTKR2019009062-appb-I000017
    (iv) 계산된 LWD 점수가 -2 이하인 경우 결실로 판정하고, 2 이상인 경우는 중복으로 판정하는 단계.
  17. 생체시료에서 분리된 DNA의 서열정보(reads)를 해독하는 해독부;
    해독된 서열을 참조집단의 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
    정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하여 서열정보를 선별하는 품질관리부;
    상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화한 다음, 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선택하는 분석구간 선택부;
    참조집단의 정규화된 각 일정구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 분석구간 선택부에서 선택한 구간의 리드 수 사이의 Z 점수를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 구간 품질관리부; 및
    선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 결정부를 포함하는 염색체 이상 검출 장치.
  18. 컴퓨터 판독 가능한 매체로서, 염색체 이상을 검출하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
    (a) 생체시료에서 분리된 DNA의 서열정보를 획득하는 단계;
    (b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하는 서열정보를 선별하는 단계;
    (d) 상기 표준 염색체를 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 GC 비율로 정규화하는 단계;
    (e) 상기 GC 비율로 정규화된 일정구간(bin) 중 분산에 대한 설명력(explanatory power)이 가장 높은 일정구간(bin)을 선별하는 단계;
    (f) 상기 (e) 단계에서 선별한 일정구간(bin)의 리드 수 사이의 Z 점수를 산출하고 Z 점수로부터 Q 점수(Q-score)를 계산하여, 상기 Q 점수가 기준점수(cut-off score) 이하인 일정구간(bin)만 선별하는 단계;
    (g) 선별된 일정구간(bin)의 리드 수를 참조 집단의 리드 수와 비교하여 염색체 이상 유무 및 위치를 판별하는 단계
    를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체.
PCT/KR2019/009062 2018-07-27 2019-07-23 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도 WO2020022733A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180087933A KR102405245B1 (ko) 2018-07-27 2018-07-27 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도
KR10-2018-0087933 2018-07-27

Publications (1)

Publication Number Publication Date
WO2020022733A1 true WO2020022733A1 (ko) 2020-01-30

Family

ID=69182257

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/009062 WO2020022733A1 (ko) 2018-07-27 2019-07-23 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도

Country Status (2)

Country Link
KR (1) KR102405245B1 (ko)
WO (1) WO2020022733A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674803A (zh) * 2021-08-30 2021-11-19 广州燃石医学检验所有限公司 一种拷贝数变异的检测方法及其应用
CN116434837A (zh) * 2023-06-12 2023-07-14 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统
WO2024130907A1 (zh) * 2022-12-20 2024-06-27 臻和精准医学检验实验室无锡有限公司 针对测序平台特征的碱基质量值矫正方法、装置、电子设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022108407A1 (ko) * 2020-11-23 2022-05-27 주식회사 녹십자지놈 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
KR102427600B1 (ko) * 2021-12-14 2022-08-01 주식회사 테라젠바이오 줄기세포의 배양적응성을 판단하기 위한 체세포 변이를 선별하는 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140371078A1 (en) * 2013-06-17 2014-12-18 Verinata Health, Inc. Method for determining copy number variations in sex chromosomes
KR101678962B1 (ko) * 2015-08-21 2016-12-06 이승재 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
KR101686146B1 (ko) * 2015-12-04 2016-12-13 주식회사 녹십자지놈 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140371078A1 (en) * 2013-06-17 2014-12-18 Verinata Health, Inc. Method for determining copy number variations in sex chromosomes
KR101678962B1 (ko) * 2015-08-21 2016-12-06 이승재 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
KR101686146B1 (ko) * 2015-12-04 2016-12-13 주식회사 녹십자지놈 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN, JIAYU ET AL.: "A pipeline for copy number variation detection based on principal component analysis", IEEE EMBS. 33RD ANNUAL INTERNATIONAL CONFERENCE, 2011, pages 6975 - 6978, XP032320330, DOI: 10.1109/IEMBS.2011.6091763 *
LIAO, CAN ET AL.: "Noninvasive prenatal diagnosis of common aneuploidies by semiconductor sequencing", PNAS, vol. 111, no. 20, 2014, pages 7415 - 7420, XP055362638, DOI: 10.1073/pnas.1321997111 *
STROM, CHARLES M. ET AL.: "Improving the positive predictive value of non-invasive prenatal screening (NIPS", PLOS ONE, vol. 12, no. 3, 2017, pages 1 - 18, XP055513736, DOI: 10.1371/journal.pone.0167130 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674803A (zh) * 2021-08-30 2021-11-19 广州燃石医学检验所有限公司 一种拷贝数变异的检测方法及其应用
CN113674803B (zh) * 2021-08-30 2023-08-08 广州燃石医学检验所有限公司 一种拷贝数变异的检测方法、装置、存储介质及其应用
WO2024130907A1 (zh) * 2022-12-20 2024-06-27 臻和精准医学检验实验室无锡有限公司 针对测序平台特征的碱基质量值矫正方法、装置、电子设备和存储介质
CN116434837A (zh) * 2023-06-12 2023-07-14 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统
CN116434837B (zh) * 2023-06-12 2023-08-29 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统

Also Published As

Publication number Publication date
KR102405245B1 (ko) 2022-06-07
KR20200012530A (ko) 2020-02-05

Similar Documents

Publication Publication Date Title
WO2020022733A1 (ko) 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도
WO2017023148A1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
Nuzhdin et al. Common pattern of evolution of gene expression level and protein sequence in Drosophila
WO2021107676A1 (ko) 인공지능 기반 염색체 이상 검출 방법
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
WO2020171573A1 (ko) 혈중 무세포 dna 기반 간암 치료 예후예측 방법
WO2017116123A1 (ko) 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
CN104302781A (zh) 一种检测染色体结构异常的方法及装置
WO2017086675A1 (ko) 대사 이상 질환 진단 장치 및 그 방법
WO2017116135A1 (ko) 개인 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
WO2017131359A1 (ko) 태아의 염색체이수성을 검출하는 방법
WO2022105629A1 (zh) 一种用于检测样本污染水平的snp位点的筛选方法及样本污染水平的检测方法
Werner The state of the art of mammalian promoter recognition
US20200087723A1 (en) Methods and systems for determining paralogs
WO2017135768A1 (ko) 추정 자손의 유전질환 발병 위험성을 예측하는 방법 및 시스템
Vieira et al. Evidence for rare recombination at the gametophytic self-incompatibility locus
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
WO2017191871A1 (ko) 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치
WO2022108407A1 (ko) 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
Long Parentage analysis using genome-wide high-density SNP microarray
WO2018021636A1 (ko) 휴먼 하플로타이핑 시스템 및 방법
WO2017074036A2 (ko) 암 환자의 유전체 염기서열 변이 정보와 생존 정보를 이용한 맞춤형 약물 선택 방법 및 시스템
WO2014119914A1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Hohl et al. Applicability of the IrisPlex system for eye color prediction in an admixed population from Argentina
WO2020235972A1 (ko) Ngs 데이터를 이용하여 유전형을 예측하는 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19841354

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19841354

Country of ref document: EP

Kind code of ref document: A1