WO2020067603A1 - 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치 - Google Patents

다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치 Download PDF

Info

Publication number
WO2020067603A1
WO2020067603A1 PCT/KR2018/014079 KR2018014079W WO2020067603A1 WO 2020067603 A1 WO2020067603 A1 WO 2020067603A1 KR 2018014079 W KR2018014079 W KR 2018014079W WO 2020067603 A1 WO2020067603 A1 WO 2020067603A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
genomic
structural variation
genome
mer
Prior art date
Application number
PCT/KR2018/014079
Other languages
English (en)
French (fr)
Inventor
남진우
최민학
이도헌
손장일
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180139875A external-priority patent/KR102215151B1/ko
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to US17/272,383 priority Critical patent/US20210327541A1/en
Publication of WO2020067603A1 publication Critical patent/WO2020067603A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the technique described below relates to a technique for detecting a structural variation of a dielectric.
  • Genome variations can be largely divided into sequence variation and structural variation.
  • Structural variations include genetic duplication of 1000 bp (base pair, length of nucleic acid) or more, copy number variation, translocation, inversion, insertion or deletion. ).
  • NGS Next Generation Sequencing
  • Structural variation prediction is clinically urgent in studies of cancer and major diseases.
  • medical insurance is applied to cancer panel use in Korea, next-generation sequence data is being produced from a large number of cancer patients.
  • cancer-related structural variation prediction or classification techniques are not supported.
  • the technique described below is intended to provide a technique for detecting all types of structural variations by NGS-based analysis.
  • the technique described below is intended to provide a technique for detecting a genomic structural variation in consideration of genomic sequence differences according to differences in races and the like.
  • a method for detecting a genomic structural variation based on a multiple reference genome includes receiving a sample sequence data by a computer device, and comparing the sample sequence data with the multiple reference genome data by the computer device to read the sample sequence data. Determining at least one k-mer lead that is not present in the reference genome, and the computer device mapping the at least one k-mer lead to standard reference genome data to determine candidate regions and breakpoints for structural variations. And the computer device predicting a structural variation type for the sample sequence data based on a breakpoint and a sequence mapping pattern according to the mapping result.
  • the apparatus for detecting a genomic structural variation based on multiple references compares the input device receiving sample sequence data, multiple reference genomic data, standard reference genomic data, and the multiple reference genomic data and the standard reference genomic data with the sample sequence data, respectively.
  • the technique described below can effectively detect various structural variations using a complex mapping technique.
  • the technique described below solves the problem of misdetection due to sequence differences between races by using a complex reference genome in detecting genomic structural variations.
  • the technology described below is a genome analysis technique that can be used for NGS-based cancer diagnostic panels, whole genome sequencing (WGS), whole exomse sequencing (WES), and targeted panel sequencing (TPS).
  • WGS whole genome sequencing
  • WES whole exomse sequencing
  • TPS targeted panel sequencing
  • the technique described below can detect both NGS-based germ cell (genetic) structural variations and somatic cell structural variations (nongenetic).
  • 1 is a result of comparing the 31mer of the hg19 reference genome and reference genomes of various races.
  • FIG. 2 is an example of a flowchart for a process of detecting a chromosomal structural variation based on a multiple reference genome.
  • 3 is an example of the k-mer filtering results for 1000 genome project samples.
  • FIG. 4 is an example of a k-mer filtering result for a breast cancer sample for which structural variation is verified.
  • NGS-based analysis includes a single-end library and a paired-end library method.
  • the paired-end technique is more useful for excavating genomic structural variations because two sequence fragments of a sample genome sample are mapped and compared to a reference genome sample.
  • PEM (Paired-end mapping) -based structural variation detection technique uses a paired-end read (Paired-end read). Two paired reads generated from a case to be detected have distance information from each other. For reference, in general, the patient group is indicated as 'case' in the genome analysis, and the normal group is indicated as 'control'.
  • a structural variation is detected by calculating a distance difference in a case and a distance actually mapped to a reference genome. In this case, since the lead is mapped to the reference dielectric in consideration of both forward and reverse directions, inversion detection is possible.
  • PEM-based techniques for finding and analyzing mating leads support much higher resolution than single-end mapping based methods.
  • the PEM-based structural variation detection technique analyzes the two leads mapped.
  • the form or feature to which the two leads are mapped is also called a signature. Structural variations of the genome are detected by the types and mapping types of these signatures.
  • the clustering technique classifies (clusters) a plurality of signatures and calculates a position of a structural variation that is representative of a cluster.
  • the clustering technique can improve the reliability of prediction by removing accidentally mapped portions. At this time, the position of both ends where the mutation occurs is called a breakpoint. It can be divided into several techniques depending on how to determine the signatures that make up the group and how to calculate the actual breakpoint. For example, there are standard clustering approach, soft clustering approach, and distribution-based clustering.
  • NGS-based genome analysis technique uses PEM.
  • structure variation detection method described below is not limited to a specific genome analysis methodology.
  • Sample data, sample sequence data or sample genomic data means genomic data of an object to be analyzed.
  • the sample sequence data can be genomic data of a patient with a particular disease.
  • Sample data may be genomic data for a cancer patient (suspect).
  • Sample sequence data is the result of NGS device sequence analysis. Therefore, the sample sequence data has an NGS analysis data format.
  • the sample sequence data may be a file in a format such as 'fastq'.
  • Reference data, reference sequence data or reference genomic data means data to be compared for analysis of sample sequence data. Structural variations on the sample sequence data can be detected by comparing the difference between the sample sequence data and the reference genomic data.
  • the reference genome data is data prepared in advance through experimental results. As will be described later, reference genomic data exists for various races. In addition, each reference genome data is different from each other in completeness. Reference genome data completed by many research institutes over a long period of time is highly complete. Here, the completeness can be referred to as a specific gravity (ratio) of a portion in which the sequence is revealed in the entire genome sequence. It can be said that the completeness of the sequence is relatively high if there are many portions.
  • Reference genomic data may exist with a degree of completeness above a certain reference value. For example, the reference value here may be 90%.
  • Standard genomic data is synonymous with reference genomic data.
  • the following standard genomic data is basically defined as single reference genomic data disclosed through research.
  • genomic data such as hg19 may be standard genomic data.
  • the multiple reference genome data is a reference genome data set constructed from a plurality of reference genome data.
  • Multi-reference genomic data is constructed using reference genomes of various races and comparative data (dbSNP, etc.) to filter analysis errors. Multiple reference genome data will be described later.
  • a computer device means a device capable of calculating and processing certain data, such as a PC, a smart device, and a server on a network.
  • a computer device that performs a genomic structural variation analysis may also be referred to as a structural variation detection apparatus.
  • the computer device or the structural variation detection device will be described later.
  • each process of the analysis of the structural variation of a genome is performed by a computer device.
  • 1 is a result of comparing the 31mer of the hg19 reference genome and reference genomes of various races. 1 is a result of comparing 31mers of different race reference genomes based on the hg19 reference genome. Other race reference genomes used hg38, HuRef, NA12878, KOREF, AK1, YH, HX, Mongolian, Japanese, dbSNP (INDEL) and dbSNP (SNP). 1 is a result of calculating the number of specific 31mer without hg19 reference genome from other race reference genomes. Referring to FIG. 1, the number of 31mers that are not present in the representative reference genome of Westerners hg19 and which exist as reference genomes of other races is at least 25 million to a maximum of 370 million. Without reflecting the sequence differences between individuals and races, it is difficult to accurately perform genomic analysis. The structural variation analysis method described below uses multiple reference genomic data to perform genomic analysis without errors between individuals and races.
  • Multi-reference genome data construction will be described. Multiple reference genomic data should be prepared prior to analysis of sample sequence data. Multi-reference genomic data is also prepared by a computer device through constant data processing.
  • Multi-reference genome data basically includes reference genomes for multiple races.
  • the multi-reference genomic data includes hg19, hg38, HuRef, NA12878, KOREF (1.0), AK1, YH (1.0), HX (1.1), Mongolian genome, Japanese genome (v2), and the like.
  • the reference genomic data of multiple races is intended to solve interpretation errors caused by sequence differences between races.
  • the multiple reference genome data may further include a reference genome produced by the user, dbSNP (INDEL) and dbSNP (SNP).
  • dbSNP (INDEL) and dbSNP (SNP) are intended to solve errors in interpretation due to sequence differences between individuals. It can be said to be data for filtering the genome.
  • the multiple reference genomic data is constructed with a plurality of genomic information, and a data structure for managing the plurality of genomic data is required.
  • the multiple reference genome data is composed of a reference genome for a plurality of races and a k-mer of dbSNP data.
  • the multi-reference genomic data can be expressed as a hash table for a large amount of k-mers.
  • a multi-reference genomic data can use a hash table structure such as Sparsepp / KMC as a data structure.
  • normal sequence data normal person's NGS analysis result data
  • Normal sequence data may be data in a format such as fastq as a result of NGS analysis. If normal sequence data exists in a hash table constructed of k-mers of reference genomes and dbSNP data for the plurality of races described above, the k-mers of normal sequence data are included in the hash table.
  • k is a natural number of a certain size. For example, k may be 31.
  • the computer device builds the multiple reference genomic data in advance (110). As described above, the computer device constructs a k-mer data structure with reference genomes for multiple races, published single nucleotide polymorphism (SNP) data, and published small insertions / deletions (INDEL) data.
  • the published SNP data can use dbSNP (SNP).
  • SNP published single nucleotide polymorphism
  • INDEL published small insertions / deletions
  • INDEL dbSNP
  • the computer device generates a k-mer hash database (multi-reference genome data) in advance from a plurality of reference genomes, dbSNP information, etc., and loads the generated multi-reference genome data.
  • Sample sequence data is the result of NGS analysis. Sample sequence data may be in a format such as fastq.
  • the sample sequence data may be a result of genomic analysis of a patient or a patient suspect (hereinafter referred to as a user).
  • Sample sequence data includes sequencing data derived from a user's diseased tissue (eg, cancerous tissue).
  • the sample sequence data may include sequence analysis data derived from the user's blood. Sample sequence data may include both sequence analysis data derived from each of the user's tissue and blood.
  • the computer device determines whether a sample sequence data read exists in the hash table using a hash table of previously constructed multi-reference genomic data (130). This process can be said to be filtering of sample sequence data using multiple reference genomic data.
  • the computer device may determine that among the reads of the sample sequence data, the k-mer reads present in the hash table are parts without structural variation (YES in 130). Conversely, the computer device performs analysis on the type of structural variation based on the k-mer read that is not present in the hash table among the reads of the sample sequence data (NO in 130).
  • the computer device detects a k-mer read that is not in the hash table among the reads of the sample sequence data (140). Among the reads of the sample sequence data, k-mer reads not present in the hash table are hereinafter referred to as target k-mer reads.
  • the computer device compares the target k-mer read back to other reference genomic data (150).
  • the computer device maps the target k-mer lead to standard reference data (150).
  • standard reference data may use hg19 or hg38.
  • reference data for the race may be used.
  • KOREF may be used as standard reference data.
  • the standard reference data may be composed of one or more reference data in some cases. It is assumed that hg19, which is relatively complete among reference genome data, is used.
  • the computer device maps the target k-mer lead to hg19.
  • the computer device predicts the type of structural variation for the sample based on the results mapped to standard reference data (eg, hg19) (160).
  • the computer device can generate a breakpoint list by mapping the target k-mer lead and standard reference data.
  • the computer device may map target k-mer leads and standard reference data to produce a sequence-matched result (signature).
  • the computer device can predict the type of structural variation for the sample sequence data based on the breakpoint list and the sequence matched feature / form / pattern (signature).
  • the criterion for predicting the structure variation type using breakpoint to sequence mapping results may be similar to the conventional structure variation detection technique. Breakpoint to sequence mapping results can be used to predict all types of structural variation.
  • FIG. 3 is an example of k-mer filtering results for a 1000 genome project sample.
  • 3 is a filtering result of 10 k-mers of 1000 samples.
  • FIG. 3 shows that when using multi-reference genomic data, it is possible to effectively filter information causing errors in the analysis. For this purpose, a germline and a somatic sample were used. 3, in the bar graph (bar-plot), 'Reference k-mer' represents the removed k-mer, and 'Non-reference k-mer' represents the remaining k-mer after filtering. The non-reference k-mer corresponds to the target k-mer lead described above. Referring to FIG. 3, it can be seen that k-mer having information irrespective of structural variation can be effectively removed through k-mer filtering for all samples.
  • FIG. 4 is an example of a k-mer filtering result for a breast cancer sample for which structural variation is verified.
  • 4 is a filtering result for the position of the RSF1-PHF12 chromosomal rearrangement of the TCGA-A1-A0SM sample (breast cancer).
  • 4 shows hg19 mapping results for all data and hg19 mapping results for k-mer filtered data.
  • FIG. 4 (A) is an example for chromosome 11
  • FIG. 4 (B) is an example for chromosome 17.
  • the structural variation in FIG. 4 is the result of RSF1-PHF12 internal chromosome rearrangement among 11 structural variations of the sample.
  • the area above the dotted line is the result before k-mer.
  • the area above the dotted line is the result of mapping the entire data to hg19.
  • the area under the dotted line in FIGS. 4 (A) and 4 (B) is the result after k-mer.
  • the area under the dotted line is the result of mapping to hg19 using only the target k-mer lead after k-mer filtering.
  • FIG. 4 the solid line in the vertical axis represents a breakpoint.
  • Data providing breakpoint information of structural variations are shown in black. Referring to FIG. 4, it can be seen that data having erroneous information around the breakpoint is effectively removed after k-mer filtering. In addition, it is possible to more easily distinguish data providing breakpoint information of structural variation.
  • 5 to 7 show the effect of the structure variation detection technique (main structure variation detection technique) using the above-described multiple reference genomic data.
  • the structural variation detection technology herein is referred to as "multi-reference genome".
  • multi-reference genome To verify the effect, a data set that artificially generated structural variation was used.
  • FIG. 5 (a) and 6 show the effect of the structural variation detection technique herein on various sequence depths.
  • data sets with a sequence depth of 10x to 60x were created.
  • the structure variation detection technique of the present application showed the best performance with F1-score 0.78, even when the result of the sequence depth 10x, which is the most inferior when detecting the structural variation, has improved.
  • F1-score 0.92 the structure variation detection technique of the present application showed the best performance with F1-score 0.78, even when the result of the sequence depth 10x, which is the most inferior when detecting the structural variation, has improved.
  • FIG. 6 shows prediction accuracy for various structural variations in results by sequence depth. Referring to FIG. 6, it shows the highest performance in all structural variation types.
  • 5 (b) and 7 show the effect of the structural variation detection technique herein on various cancer tissue purity.
  • data sets of cancer tissue purity from 10% to 100% were prepared by mixing normal genomic information and genomic information reflecting structural variation.
  • F1-score 0.59 was shown even in 10% (the condition in which the structural variation reflection information in the cancer genome is the weakest), which is the most difficult to detect in cancer tissue purity.
  • NOVOBREAK's F1-score 0.48 MANTA: 0.34, LUMPY: 0.38, DELLY: 0.14
  • the structure variation detection technique of the present application shows much better performance.
  • 7 shows the prediction accuracy for each structural variation in the results of cancer tissue purity. 7 shows the highest precision and recall in most types of structural variations at 10% purity, as in the results by depth.
  • 8 is an example of the structure of the structure variation detection device 200. 8 is a device for detecting a structural variation using the aforementioned multi-reference genomic data. 8 corresponds to the above-described computer device.
  • the structure variation detection device may be physically implemented in various forms. For example, as shown at the bottom of FIG. 8, the structure variation detection device may be implemented in the form of a PC (A), a server (B) on a network, a dedicated analysis chipset (C), and the like.
  • the structure variation detection device 200 includes a storage device 210, a memory 220, a computing device 230, an interface device 240, and a communication device 250.
  • the communication device 250 refers to a configuration that receives and transmits certain information through a wired or wireless network.
  • the communication device 250 may receive sample sequence data, multiple reference genomic data, or data for constructing multiple reference genomic data (a plurality of reference genomic data, dbSNP data, etc.) from external objects.
  • the communication device 250 may receive certain data from a user terminal, an NGS analysis device, an NGS analysis server, or the like.
  • the communication device 250 may transmit the result of analyzing the structural variation type to a user terminal or a separate server.
  • the storage device 210 may store a program (code) implementing the aforementioned structure variation analysis technique.
  • the storage device 210 may store multi-reference genomic data, sample sequence data, etc.
  • the memory 220 may store information generated by the node device 200 or data temporarily generated according to the operation of the computing device 230. Can be saved.
  • the interface device 240 is a device that receives a certain command from an external user.
  • the interface device 240 may receive programs or data basically necessary for the operation of the node device 200 from a physically connected input device or an external storage device.
  • the interface device 240 may receive sample sequence data to be analyzed.
  • the interface device 240 may receive multiple reference dielectric data.
  • the interface device 240 may receive various reference data for constructing multi-reference genomic data.
  • the communication device 250 to the interface device 240 is a device that receives certain data or commands from the outside.
  • the communication device 250 to the interface device 240 may be referred to as an input device.
  • the computing device 230 may generate multi-reference genomic data using data input from the input device or data stored in the storage device 210.
  • the computing device 230 may compare the multiple reference genomic data and the sample sequence data to determine at least one target k-mer read that is not present in the multiple reference genome among the reads of the sample sequence data.
  • the computing device 230 may predict a structural variation type based on a candidate region and a breakpoint of a structural variation determined by mapping at least one target k-mer lead to standard reference dielectric data.
  • the computing device 230 may be a device such as a processor embedded in a processor, an AP, or a program that processes data and processes a certain operation.
  • the 9 is an example of a structural variation detection system 300. 9 is for an embodiment of providing a genomic structural variation analysis service using a network.
  • the system 300 includes user terminals 310 and 320 and a service server 350.
  • the user terminals 310 and 320 correspond to a client device.
  • the service server 350 corresponds to the aforementioned structure variation detection device.
  • a detailed description of security or communication between objects is omitted. Each object may perform certain authentication before performing communication. For example, only a user who has successfully authenticated may request a structure variation analysis from the service server 350.
  • the user may request the analysis of the dielectric structure variation from the service server 350 through the user terminal.
  • the user may receive sample sequence data from the sample DB 330.
  • the sample DB 330 stores NGS analysis results for a specific user.
  • the sample DB 330 may be an object located in the network. Alternatively, the sample DB 330 may be a simple storage medium.
  • the user transmits sample sequence data to the service server 350 through the user terminal 310.
  • the service server 350 receiving the analysis request including the sample sequence data predicts the structure variation type for the sample sequence data through the above-described process. It is assumed that the service server 350 has previously constructed multiple reference genomic data for analysis and obtained standard reference genomic data.
  • the service server 350 may receive reference genome data from the reference genome DB 360.
  • the service server 350 may receive SNP and INDEL data from dbSNP 370.
  • the service server 350 may construct multiple reference genome data using a plurality of reference genome data and dbSNP through the aforementioned method.
  • the service server 350 may transmit the generated structural variation analysis result to the user terminal 310.
  • the service server 350 may store the results of the structural variation analysis in a separate storage medium or deliver the result to a separate object.
  • the user may transmit sample sequence data to the service server 350 through the user terminal 320 during the NGS analysis process.
  • the user terminal 320 may receive sample sequence data from the NGS analysis device.
  • the service server 350 receiving the analysis request including the sample sequence data predicts the structure variation type for the sample sequence data through the above-described process. It is assumed that the service server 350 has previously constructed multiple reference genomic data for analysis and obtained standard reference genomic data.
  • the service server 350 may transmit the generated structural variation analysis result to the user terminal 320.
  • the service server 350 may store the results of the structural variation analysis in a separate storage medium or deliver the result to a separate object.
  • the method for detecting a genomic structural variation as described above may be implemented as a program (or application) including executable algorithms that can be executed on a computer.
  • the program may be stored and provided in a non-transitory computer readable medium.
  • the non-transitory readable medium means a medium that stores data semi-permanently and that can be read by a device, rather than a medium that stores data for a short time, such as registers, caches, and memory.
  • a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

다중 참조 유전체에 기반한 유전체 구조변이 검출 방법은 컴퓨터장치가 샘플 서열 데이터를 입력받는 단계, 상기 컴퓨터장치가 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하는 단계, 상기 컴퓨터장치가 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 구조변이의 후보 영역 및 브레이크포인트를 결정하는 단계 및 상기 컴퓨터장치가 상기 매핑 결과에 따른 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 단계를 포함한다.

Description

다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치
이하 설명하는 기술은 유전체의 구조변이 검출 기법에 관한 것이다.
유전체의 변이는 크게 따라 서열 변이(sequence variation)와 구조변이(structural variation)로 나눌 수 있다. 구조변이는 1000bp(base pair, 핵산의 길이) 이상의 유전적 변이-증폭(segmental duplication), 복제수변이(copy number variation), 전좌(translocation), 전위(inversion), 삽입(insertion) 내지 결실(deletion)을 의미한다.
최근에 차세대 시퀸싱(Next Generation Sequencing; NGS) 기술이 발전함에 따라서 시퀀싱 장치에서 생성된 서열조각(리드, read)을 이용하여 구조변이를 발굴하는 기법들이 등장하였다. 서열 변이 분석은 대규모 서열 데이터를 기반으로 다양한 효율적인 알고리즘이 등장하였다. 이에 반하여 문제의 복잡도가 훨씬 높은 구조변이 예측은 성능 및 속도면에서 시장 지배적인 알고리즘 내지 프로그램이 없는 상태이다.
암(cancer) 및 주요 질병에 관한 연구에서 구조변이 예측이 임상적으로 시급하다. 특히 국내에서 암유전체 패널(panel) 사용에 의료 보험이 적용되면서, 많은 수의 암환자로부터 차세대 서열데이터를 생산하고 있다. 그러나 암 관련된 구조변이 예측 내지 분류 기술이 뒷받침되지 못하는 실정이다.
종래 상용 유전체 구조변이 분석 프로그램은 다양한 유형의 구조변이를 검출하는데 한계가 있다. 예컨대, BreakDancer는 페어드 엔드의 양쪽이 서로 일정하게 떨어진 리드(discordant paired-end read) 정보만 사용하여 구조변이를 예측하기 때문에 삽입 유형을 검출하는데 제한적이다. 나아가 종래 분석 프로그램은 개인 간의 유전체 서열 차이(SNP)를 고려하지 않아, 인종의 차이에서 나타나는 서열 차이를 구조변이에 연관된 서열로 잘못 해석하는 문제(false positive 또는 False negative)가 있었다.
이하 설명하는 기술은 NGS 기반의 분석으로 모든 유형의 구조변이를 검출하는 기법을 제공하고자 한다. 또한, 이하 설명하는 기술은 인종 등의 차이에 따른 유전체 서열 차이를 고려하는 유전체 구조변이 검출 기법을 제공하고자 한다.
다중 참조 유전체에 기반한 유전체 구조변이 검출 방법은 컴퓨터장치가 샘플 서열 데이터를 입력받는 단계, 상기 컴퓨터장치가 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하는 단계, 상기 컴퓨터장치가 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 구조변이의 후보 영역 및 브레이크포인트를 결정하는 단계 및 상기 컴퓨터장치가 상기 매핑 결과에 따른 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 단계를 포함한다.
다중 레퍼런스에 기반한 유전체 구조변이 검출 장치는 샘플 서열 데이터를 입력받는 입력장치, 다중 참조 유전체 데이터, 표준 참조 유전체 데이터 및 상기 다중 참조 유전체 데이터와 상기 표준 참조 유전체 데이터를 각각 상기 샘플 서열 데이터와 비교하여 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 프로그램을 저장하는 저장장치 및 상기 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하고, 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 결정되는 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 구조변이 유형을 예측하는 연산장치를 포함한다.
이하 설명하는 기술은 복합적인 매핑기법을 사용하여 효과적으로 다양한 구조변이 검출할 수 있다. 또한, 이하 설명하는 기술은 유전체 구조변이 검출에서 복합적인 참조 유전체를 사용하여 인종 간의 서열 차이에 따른 오검출 문제를 해결한다. 이하 설명하는 기술은 NGS 기반 암 진단 패널, 전장유전체서열 (Whole genome sequencing, WGS), 전장엑솜서열(Whole exomse sequencing, WES), TPS(Targeted panel sequencing)에 모두 사용가능한 유전체 분석 기법이다. 나아가 이하 설명하는 기술은 NGS기반 생식세포 (유전성) 구조변이와 체세포 구조변이 (비유전성)를 모두 검출 할 수 있다.
도 1은 hg19 참조 유전체와 다양한 인종의 참조 유전체들의 31mer를 비교한 결과이다.
도 2는 다중 참조 유전체에 기반한 염색체 구조변이 검출 과정에 대한 순서도의 예이다.
도 3은 1000 게놈 프로젝트 샘플에 대한 k-mer 필터링 결과에 대한 예이다.
도 4는 구조변이가 검증된 유방암 샘플에 대한 k-mer 필터링 결과에 대한 예이다.
도 5는 구조변이 검출의 효과를 검증한 실험 결과의 예이다.
도 6은 서열 깊이에 따른 구조변이 검출의 효과를 검증한 실험 결과의 예이다.
도 7은 암 조직 순도에 따른 구조변이 검출의 효과를 검증한 실험 결과의 예이다.
도 8은 구조변이 검출 장치의 구조에 대한 예이다.
도 9는 구조변이 검출 시스템에 대한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
이하 설명에서 전제하는 분석 기법 내지 용어에 대하여 설명한다.
NGS 기반 분석은 싱글-엔드 라이브러리(sigle-end library)와 페어드-엔드 라이브러리(paired-end library) 방법이 있다. 일반적으로 페어드-엔드 기법이 참조 유전체 시료에 샘플 유전체(sample genome) 시료의 두 서열 단편을 매핑하여 비교하기 때문에 유전체 구조변이를 발굴에 더욱 유용하다.
PEM(Paired-end mapping) 기반의 구조변이 검출 기법은 페어드 엔드 리드(Paired-end read)를 이용한다. 검출하고자 하는 유전체(case)에서 생성된 두 개의 짝지어진 리드(read)는 서로의 거리 정보를 가지고 있다. 참고로 일반적으로 유전체 분석에서 환자군을 'case'라고 표시하고, 정상군을 'control'이라고 표시한다. 두 리드가 이미 서열이 알려진 참조 유전체에 매핑하게 되면, 실제로 참조(reference) 유전체에 매핑된 거리와 case에서의 거리차이를 계산하여 구조변이를 검출한다. 이때, 리드는 순방향과 역방향 모두를 고려하여 참조 유전체에 매핑하게 되므로 전위(inversion) 검출이 가능하다. 짝을 이루는 리드를 찾고 분석하는 PEM기반의 기법들은 싱글 엔드 매핑(Single-end mapping) 기반의 방법들보다 훨씬 높은 해상도를 지원한다. PEM 기반의 구조변이 검출 기법은 두 리드가 매핑된 형태를 분석한다. 두 리드가 맵핑된 형태 내지 특징을 시그네쳐(signature)라고 부르기도 한다. 이 시그네쳐들의 종류와 매핑 형태로 유전체의 구조변이를 검출한다.
하나의 시그네쳐를 이용하여 구조변이가 일어난 위치를 계산하는 것보다 복수의 시그네쳐를 이용하여 구조변이를 검출하는 것이 효과적일 수 있다. 군집화(clustering) 기법은 복수의 시그네쳐를 분류(군집화)하여 하나의 군(cluster)을 대표할 만한 구조변이 위치를 계산한다. 군집화(clustering) 기법은 우연히 매핑되는 부분을 제거하여 예측의 신뢰도를 향상시킬 수 있다. 이때 변이가 일어난 양 끝단 위치를 브레이크포인트(breakpoint)라고 한다. 군을 구성하는 시그네쳐를 결정하는 방법과 실제 브레이크포인트를 계산하는 방법에 따라서 몇 가지 기법으로 구분될 수 있다. 예컨대, 표준 군집화(Standard clustering approach), 가벼운 군집화(Soft clustering approach) 및 분포기반 군집화(Distribution-based clustering)가 있다.
PEM 기법과 다른 분석 방법도 있다. 예컨대, DOC(Depth of coverage) 기반의 구조변이 검출 기법이 있다. 다만 DOC 기반의 분석 방법은 작은 영역에서의 시그네쳐 검출이 어렵고, 브레이크포인트 결정에 한계가 있다.
한편 NGS 기반으로 유전체 구조변이를 검출하는 상용 프로그램들이 있다. 예컨대, MoDIL, SeqSeq, PEMer, VariationHunter, Pindel, BreakDancer 와 ABI SOLiD software Tool 등이 있다. 각각의 도구마다 검출 가능한 시그네쳐와 이를 검출하기 위한 군집화 방법 또는 윈도우를 구성하고 처리하는 방법에 차이가 있다.
설명의 편의를 위하여 이하 NGS 기반의 유전체 분석 기법은 PEM을 사용한다고 가정한다. 다만 이하 설명하는 구조변이 검출 방법이 특정한 유전체 분석 방법론에 제한되는 것은 아니다.
샘플 데이터, 샘플 서열 데이터 또는 샘플 유전체 데이터는 분석하고자 하는 대상의 유전체 데이터를 의미한다. 예컨대, 샘플 서열 데이터는 특정한 질환의 환자의 유전체 데이터일 수 있다. 샘플 데이터는 암 환자(의심자)에 대한 유전체 데이터일 수 있다. 샘플 서열 데이터는 NGS 장치가 서열을 분석한 결과이다. 따라서 샘플 서열 데이터는 NGS 분석 데이터 포맷을 갖는다. 예컨대, 샘플 서열 데이터는 'fastq'와 같은 포맷의 파일일 수 있다.
참조 데이터, 참조 서열 데이터 또는 참조 유전체 데이터는 샘플 서열 데이터 분석을 위한 비교 대상인 데이터를 의미한다. 샘플 서열 데이터와 참조 유전체 데이터의 차이를 비교하여 샘플 서열 데이터에 대한 구조변이를 검출할 수 있다. 참조 유전체 데이터는 실험적 결과를 통해 사전에 마련한 데이터이다. 후술하겠지만, 다양한 인종에 대한 참조 유전체 데이터가 존재한다. 또 각 참조 유전체 데이터는 완성도에서 서로 차이가 있다. 다수의 연구기관이 오랜 기간에 걸쳐 완성한 참조 유전체 데이터는 완성도가 높다. 여기서 완성도는 전체 유전체 서열에서 서열이 밝혀진 부분의 비중(비율)이라고 할 수 있다. 서열이 밝혀진 부분이 많다면 상대적으로 완성도가 높다고 할 수 있다. 특정한 기준값 이상의 완성도를 갖는 참조 유전체 데이터가 존재할 수 있다. 예컨대, 여기서 기준값은 90%일 수 있다.
표준 유전체 데이터는 참조 유전체 데이터와 유사한 의미이다. 다만 이하 표준 유전체 데이터는 기본적으로 연구를 통해 공개된 단일 참조 유전체 데이터라고 정의한다. 예컨대, hg19와 같은 유전체 데이터가 표준 유전체 데이터가 될 수 있다.
다중 참조 유전체 데이터는 복수의 참조 유전체 데이터로 구축된 참조 유전체 데이터 집합이다. 다중 참조 유전체 데이터는 다양한 인종의 참조 유전체 및 분석 오류를 필터링하기 위한 비교 데이터(dbSNP 등)를 이용하여 구축된다. 다중 참조 유전체 데이터에 대해서는 후술한다.
이하 유전체 구조변이 분석은 컴퓨터장치를 통해 수행한다고 가정한다. 컴퓨터장치는 PC, 스마트기기, 네트워크 상의 서버 등과 같이 일정한 데이터를 연산 처리할 수 있는 장치를 의미한다. 유전체 구조변이 분석을 수행하는 컴퓨터장치를 구조변이 검출장치라고도 명명할 수 있다. 컴퓨터장치 내지 구조변이 검출장치에 대해서는 후술한다. 설명의 편의를 위하여 이하 유전체 구조변이 분석의 각 과정은 컴퓨터장치가 수행한다고 가정한다.
도 1은 hg19 참조 유전체와 다양한 인종의 참조 유전체들의 31mer를 비교한 결과이다. 도 1은 hg19 참조 유전체를 기준으로 다른 인종 참조 유전체들의 31mer를 비교한 결과이다. 다른 인종 참조 유전체들은 hg38, HuRef, NA12878, KOREF, AK1, YH, HX, Mongolian, Japanese, dbSNP(INDEL) 및 dbSNP(SNP)를 사용하였다. 도 1은 다른 인종 참조 유전체에서 hg19 참조 유전체 없는 특이적인 31mer의 수를 산출한 결과이다. 도 1을 살펴보면, 서양인 대표 참조 유전체인 hg19에 존재하지 않고 다른 인종의 참조 유전체 존재하는 31mer의 수는 최소 2천 5백만 개부터 최고 3억 7천만 개가 존재한다. 이와 같은 개인 간, 인종 간의 서열 차이를 반영하지 않는다면, 유전체 분석을 정확하게 수행되기 어렵다. 이하 설명하는 구조변이 분석 방법은 개인 간, 인종 간의 오차 없이 유전체 분석을 수행하기 위하여 다중 참조 유전체 데이터를 사용한다.
먼저 다중 참조 유전체 데이터 구축에 대하여 설명한다. 다중 참조 유전체 데이터는 샘플 서열 데이터에 대한 분석 이전에 마련되어야 한다. 다중 참조 유전체 데이터도 컴퓨터 장치가 일정한 데이터 처리를 통해 마련한다.
(1)다중 참조 유전체 데이터는 기본적으로 복수의 인종에 대한 참조 유전체를 포함한다. 예컨대, 다중 참조 유전체 데이터는 hg19, hg38, HuRef, NA12878, KOREF(1.0), AK1, YH(1.0), HX(1.1), Mongolian genome, Japanese genome(v2) 등을 포함한다. 복수의 인종의 참조 유전체 데이터는 인종 간의 서열 차이에서 발생하는 해석 오류를 해결하기 위한 것이다.
(2) 나아가 다중 참조 유전체 데이터는 사용자가 생산한 참조 유전체, dbSNP(INDEL) 및 dbSNP(SNP)을 추가로 포함할 수 있다. dbSNP(INDEL) 및 dbSNP(SNP)는 개인 간 서열 차이에 의한 해석 오류를 해결하기 위한 것이다. 유전체를 필터링하기 위한 데이터라고 할 수 있다.
다중 참조 유전체 데이터는 복수의 유전체 정보로 구축되는데, 복수의 유전체 데이터를 관리하기 위한 자료 구조가 필요하다. 이를 위하여 다중 참조 유전체 데이터는 복수의 인종에 대한 참조 유전체 및 dbSNP 데이터의 k-mer로 구성된다. 나아가 다중 참조 유전체 데이터는 대량의 k-mer들에 대한 해시(hash) 테이블로 표현될 수 있다. 예컨대, 다중 참조 유전체 데이터는 Sparsepp/KMC와 같은 해시 테이블 구조를 자료구조로 사용할 수 있다.
(3) 한편 다중 참조 유전체 데이터는 정상 서열 데이터(정상인의 NGS 분석 결과 데이터)를 추가로 이용할 수 있다. 정상 서열 데이터는 NGS 분석 결과로 fastq같은 포맷의 자료 일 수 있다. 전술한 복수의 인종에 대한 참조 유전체 및 dbSNP 데이터의 k-mer로 구축된 해시 테이블에 정상 서열 데이터가 존재하는 경우, 해시 테이블에 정상 서열 데이터의 k-mer를 포함시킨다. 여기서 k는 일정 크기의 자연수이다. 예컨대, k는 31일 수 있다.
도 2는 다중 참조 유전체에 기반한 염색체 구조변이 검출 과정(100)에 대한 순서도의 예이다. 컴퓨터 장치는 사전에 다중 참조 유전체 데이터를 구축한다(110). 전술한 바와 같이 컴퓨터 장치는 복수의 인종에 대한 참조 유전체, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터로 k-mer 자료구조를 구축한다. 공개된 SNP데이터는 dbSNP(SNP)를 사용할 수 있다. 공개된 INDEL 데이터는 dbSNP(INDEL)를 사용할 수 있다. 이와 같이 컴퓨터장치는 복수의 참조 유전체, dbSNP 정보 등으로부터 k-mer 해시 데이터베이스(다중 참조 유전체 데이터)를 사전에 생성하고, 생성한 다중 참조 유전체 데이터를 로딩한다.
컴퓨터 장치는 분석 대상인 샘플 서열 데이터를 입력받는다(120). 샘플 서열 데이터는 NGS 분석 결과이다. 샘플 서열 데이터는 fastq와 같은 포맷일 수 있다. 샘플 서열 데이터는 환자 또는 환자 의심자(이하 사용자라 함)에 대한 유전체 분석 결과일 수 있다. 샘플 서열 데이터는 사용자의 질병 조직(예컨대, 암 조직)에서 유래한 서열 분석 데이터를 포함한다. 또한 샘플 서열 데이터는 사용자의 혈액에서 유래한 서열 분석 데이터를 포함할 수 있다. 샘플 서열 데이터는 사용자의 조직 및 혈액 각각에서 유래한 서열 분석 데이터를 모두 포함할 수 있다.
컴퓨터 장치는 사전에 구축한 다중 참조 유전체 데이터의 해시 테이블을 이용하여 샘플 서열 데이터 리드가 해시 테이블에 존재하는지 여부를 판단한다(130). 이 과정은 다중 참조 유전체 데이터를 이용한 샘플 서열 데이터의 필터링이라고 할 수 있다. 컴퓨터 장치는 샘플 서열 데이터의 리드 중 해시 테이블에 존재하는 k-mer 리드에 대해서는 구조변이가 없는 부분이라고 판단할 수 있다(130의 YES). 반대로 컴퓨터 장치는 샘플 서열 데이터의 리드 중 해시 테이블에 존재하지 않는 k-mer 리드를 기준으로 구조변이 유형에 대한 분석을 수행한다(130의 NO).
컴퓨터 장치는 샘플 서열 데이터의 리드 중 해시 테이블에 존재하지 않는 k-mer 리드를 검출한다(140). 샘플 서열 데이터의 리드 중 해시 테이블에 존재하지 않는 k-mer 리드를 이하 타깃 k-mer 리드라고 명명한다.
컴퓨터 장치는 타깃 k-mer 리드를 다시 다른 참조 유전체 데이터와 비교한다(150). 컴퓨터 장치는 타깃 k-mer 리드를 표준 참조 데이터에 매핑한다(150). 이때 표준 참조 데이터는 완성도가 높은 참조 유전체 데이터 중 어느 하나를 사용할 수 있다. 예컨대, 표준 참조 데이터는 hg19 또는 hg38를 사용할 수 있다. 또는 사용자가 특정 인종이라면 해당 인종에 대한 참조 데이터를 사용할 수도 있다. 예컨대, 한국인의 구조변이 분석이라면 표준 참조 데이터로 KOREF를 사용할 수도 있다. 나아가 표준 참조 데이터도 경우에 따라서는 하나 이상의 참조 데이터로 구성할 수도 있다. 참조 유전체 데이터 중 비교적 완성도가 높은 hg19를 사용한다고 가정한다.
컴퓨터 장치는 타깃 k-mer 리드를 hg19에 매핑한다. 컴퓨터 장치는 표준 참조 데이터(예컨대, hg19)에 매핑된 결과를 기준으로 샘플에 대한 구조 변이 유형을 예측한다(160). 컴퓨터 장치는 타깃 k-mer 리드와 표준 참조 데이터를 매핑하여 브레이크포인트 리스트를 산출할 수 있다. 또 컴퓨터 장치는 타깃 k-mer 리드와 표준 참조 데이터를 매핑하여 서열이 매칭된 결과(시그네처)를 산출할 수 있다. 최종적으로 컴퓨터 장치는 브레이크포인트 리스트 및 서열이 매칭된 특징/형태/패턴(시그네처)을 기준으로 샘플 서열 데이터에 대한 구조 변이 유형을 예측할 수 있다. 브레이크포인트 내지 서열 매핑 결과를 이용하여 구조 변이 유형을 예측하는 기준은 종래 구조 변이 검출 기법과 유사할 수 있다. 브레이크포인트 내지 서열 매핑 결과를 이용하여 모든 유형의 구조 변이 유형을 예측할 수 있다.
도 3은 1000 게놈 프로젝트(Genome project) 샘플에 대한 k-mer 필터링 결과에 대한 예이다. 도 3은 1000 샘플 10개의 k-mer의 필터링 결과이다. 도 3은 다중 참조 유전체 데이터를 사용하는 경우 분석에서 오류를 유발하는 정보를 효과적으로 필터링할 수 있다는 것을 보여준다. 이를 위하여 점라인(germline)과 체세포(somatic) 샘플을 사용하였다. 도 3은 막대 그래프(bar-plot)에서 'Reference k-mer'는 제거된 k-mer를 나타내고, 'Non-reference k-mer'는 필터링 이후 남은 k-mer를 나타낸다. Non-reference k-mer가 전술한 타깃 k-mer 리드에 해당한다. 도 3을 살펴보면, 모든 샘플에 대하여 k-mer 필터링을 통해 구조변이와 상관 없는 정보를 가진 k-mer를 효과적으로 제거할 수 있다는 것을 알 수 있다.
도 4는 구조변이가 검증된 유방암 샘플에 대한 k-mer 필터링 결과에 대한 예이다. 도 4는 TCGA-A1-A0SM 샘플(breast cancer)의 RSF1-PHF12 염색체 재배열(chromosomal rearrangement) 위치에 대한 필터링 결과이다. 도 4는 전체 데이터에 대한 hg19 매핑 결과와 k-mer 필터링된 데이터에 대한 hg19 매핑 결과를 도시한다. 도 4(A)는 염색체 11번에 대한 예이고, 도 4(B)는 염색체 17번에 대한 예이다. 도 4에서 구조변이는 해당 샘플의 11개 구조변이 중 RSF1-PHF12 내부 염색체 재배열 결과이다. 도 4(A) 및 도 4(B)에서 점선 위 영역은 k-mer 이전 결과이다. 점선 위 영역은 전체 데이터를 hg19에 맵핑한 결과이다. 도 4(A) 및 도 4(B)에서 점선 아래 영역은 k-mer후 결과이다. 점선 아래 영역은 k-mer 필터링 후에 타깃 k-mer 리드만 사용하여 hg19에 맵핑한 결과이다.
도 4에서 세로축 실선은 브레이크포인트를 나타낸다. 구조 변이의 브레이크포인트 정보를 제공하는 데이터는 검은색으로 표시하였다. 도 4를 살펴보면, k-mer 필터링 이후에 브레이크포인트 주변에 오정보를 가진 데이터가 효과적으로 제거된 것을 알 수 있다. 또한 구조변이의 브레이크포인트 정보를 제공하는 데이터를 더욱 쉽게 구별할 수 있다.
도 5 내지 도 7은 전술한 다중 참조 유전체 데이터를 이용한 구조 변이 검출 기법(본원 구조 변이 검출 기술)의 효과를 나타낸다. 본원 구조 변이 검출 기술은 "다중 참조 유전체"로 표시하였다. 효과 검증을 위하여 구조변이를 인위적으로 발생시킨 데이터 세트를 이용하였다. 또한, 서열 깊이 내지 암 조직 순도에 따른 구조변이 예측의 정확도를 나타내는 실험결과의 예이다. 서열 깊이( sequencing depth)와 암 조직 순도(tumor purity)는 구조변이를 검출할 때 성능에 가장 큰 영향을 준다. 일반적으로 서열 깊이가 10x일 때, 암 조직 순도 10%일 때 구조변이 검출 성능이 가장 떨어지는 것으로 알려져 있다.
종래 예측 프로그램과 본 기술의 효과를 비교하였다. 본원 구조 변이 검출 기법에 대한 실험결과(데이터)는 검음색으로 표시하였다. 전술한 본원 구조 변이 검출 기법은 k-mer 필터링 이후 표준 참조 유전체와 매핑한 결과를 이용한다. 이하 실험 결과는 이 과정을 통하여 정확한 구조변이 유형을 예측할 수 있는지 비교하기 위한 것이다. 본원 구조 변이 검출 기법을 이용하여 다양한 구조변이 유형을 효과적으로 검출할 수 있는지 검증한다. 구조변이 유형 중 결실, 전위, 역위, 복제 등 총 555개의 구조변이를 가지고 상용 프로그램들과 함께 성능 평가를 시행하였다.
도 5(a)와 도 6은 다양한 서열 깊이에 대한 본원 구조 변이 검출 기법의 효과를 나타낸다. 실험을 위하여 서열 깊이를 10x부터 60x까지 데이터 세트를 만들었다. 종래 예측 프로그램은 NOVOBREAK, LUMPY, SvABA, MANTA, DELLY를 사용하였다. 결과적으로 도 5(a)를 보면 구조변이를 검출할 때 가장 성능이 떨어지는 서열 깊이 10x의 결과에서도 본원 구조 변이 검출 기법은 F1-score 0.78로 가장 좋은 성능을 보였으며, 깊이가 증가될수록 성능이 향상되어 F1-score 0.92를 보였다.
도 6은 서열 깊이 별 결과에서 다양한 구조변이에 대한 예측 정확도를 나타낸다. 도 6을 살펴보면, 모든 구조변이 유형에서 가장 높은 성능을 보이고 있다.
도 5(b)와 도 7은 다양한 암 조직 순도에 대한 본원 구조 변이 검출 기법의 효과를 나타낸다. 실험을 위하여 정상 유전체 정보와 구조변이를 반영한 유전체 정보를 섞어서 암 조직 순도 10%부터 100%까지 데이터 세트를 만들었다. 도 5(b)를 보면, 암 조직 순도에서는 가장 검출하기 어려운 10% (암 유전체 내 구조변이 반영 정보가 가장 미약한 조건)에서도 F1-score 0.59 정도를 보였다. 종래의 기술 중 가장 높은 성능을 보인 NOVOBREAK의 F1-score 0.48 (MANTA: 0.34, LUMPY: 0.38, DELLY: 0.14)이었다는 점과 비교했을 때 본원 구조변이 검출 기법이 훨씬 더 좋은 성능을 보이고 있다.
도 7은 암 조직 순도 별 결과에서 구조변이 별 예측 정확도를 나타낸다. 도 7는 깊이 별 결과에서와 동일하게 순도 10%에서도 대부분의 구조변이 유형에서 가장 높은 precision과 recall을 보이고 있다.
도 8은 구조변이 검출 장치(200)의 구조에 대한 예이다. 도 8은 전술한 다중 참조 유전체 데이터를 이용한 구조변이 검출을 위한 장치이다. 도 8은 전술한 컴퓨터장치에 해당한다.구조변이 검출 장치는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 도 8의 하단에 도시한 바와 같이 구조변이 검출 장치는 PC(A), 네트워크 상의 서버(B), 전용 분석 칩셋(C) 등과 같은 형태로 구현될 수 있다.
구조변이 검출 장치(200)는 저장 장치(210), 메모리(220), 연산장치(230), 인터페이스 장치(240) 및 통신장치(250)를 포함한다.
통신장치(250)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신 장치(250)는 외부 객체로부터 샘플 서열 데이터, 다중 참조 유전체 데이터 또는 다중 참조 유전체 데이터 구축을 위한 데이터(복수의 참조 유전체 데이터, dbSNP 데이터 등)를 수신할 수 있다. 통신 장치(250)는 사용자 단말, NGS 분석 장치, NGS 분석 서버 등으로부터 일정한 데이터를 수신할 수 있다. 통신 장치(250)는 구조변이 유형 분석 결과를 사용자 단말 이나 별도의 서버 등에 송신할 수 있다.
저장 장치(210)는 전술한 구조변이 분석 기법을 구현한 프로그램(코드)을 저장할 수 있다. 저장 장치(210)는 다중 참조 유전체 데이터, 샘플 서열 데이터 등을 저장할 수 있다.메모리(220)는 노드 장치(200)가 수신한 정보 또는 연산 장치(230)의 동작에 따라 임시로 발생하는 데이터를 저장할 수 있다.
인터페이스 장치(240)는 외부 사용자로부터 일정한 명령을 입력받는 장치이다. 인터페이스 장치(240)는 물리적으로 연결된 입력 장치 또는 외부 저장 장치로부터 노드 장치(200) 동작에 기본적으로 필요한 프로그램 내지 데이터를 입력받을 수 있다. 예컨대, 인터페이스 장치(240)는 분석 대상인 샘플 서열 데이터를 입력받을 수 있다. 또 인터페이스 장치(240)는 다중 참조 유전체 데이터를 입력받을 수 있다. 또 인터페이스 장치(240)는 다중 참조 유전체 데이터 구축을 위한 다양한 참조 데이터 등을 입력받을 수 있다.
통신 장치(250) 내지 인터페이스 장치(240)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신 장치(250) 내지 인터페이스 장치(240)를 입력장치라고 명명할 수도 있다.
연산 장치(230)는 입력장치로부터 입력된 도는 저장장치(210)에 저장된 데이터를 이용하여 다중 참조 유전체 데이터를 생성할 수 있다. 연산 장치(230)는 다중 참조 유전체 데이터와 샘플 서열 데이터를 비교하여 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 타깃 k-mer 리드를 결정할 수 있다. 연산 장치(230)는 적어도 하나의 타깃 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 결정되는 구조 변이의 후보 영역 및 브레이크포인트를 기준으로 구조변이 유형을 예측할 수 있다. 연산 장치(230)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
도 9는 구조변이 검출 시스템(300)에 대한 예이다. 도 9는 네트워크를 이용하여 유전체 구조변이 분석 서비스를 제공하는 실시예에 대한 것이다. 시스템(300)은 사용자 단말(310, 320) 및 서비스 서버(350)를 포함한다. 사용자 단말(310, 320)은 클라이언트 장치에 해당한다. 도 9에서 서비스 서버(350)가 전술한 구조변이 검출 장치에 해당한다. 도 9에서 각 객체 간 보안이나 통신에 대한 자세한 설명은 생략한다. 각 객체는 통신 수행하기 전에 일정한 인증을 수행할 수도 있다. 예컨대, 인증에 성공한 사용자만이 서비스 서버(350)에 구조 변이 분석을 요청할 수 있다.
사용자는 사용자 단말을 통해 서비스 서버(350)에 유전체 구조 변이 분석을 요청할 수 있다. 사용자는 샘플 DB(330)로부터 샘플 서열 데이터를 수신할 수 있다. 샘플 DB(330)는 특정 사용자에 대한 NGS 분석 결과를 저장한다. 샘플 DB(330)는 네트워크에 위치하는 객체일 수 있다. 또는 샘플 DB(330)는 단순한 저장 매체일 수도 있다. 사용자는 사용자 단말(310)을 통해 샘플 서열 데이터를 서비스 서버(350)에 전달한다. 샘플 서열 데이터를 포함한 분석 요청을 수신한 서비스 서버(350)는 전술한 과정을 통하여 샘플 서열 데이터에 대한 구조 변이 유형을 예측한다. 서비스 서버(350)는 사전에 분석을 위한 다중 참조 유전체 데이터를 구축하고, 표준 참조 유전체 데이터를 획득했다고 가정한다. 서비스 서버(350)는 참조 유전체 DB(360)로부터 참조 유전체 데이터들을 수신할 수 있다. 서비스 서버(350)는 dbSNP(370)로부터 SNP 및 INDEL 데이터를 수신할 수 있다. 서비스 서버(350)는 수신한 전술한 방법을 통하여 복수의 참조 유전체 데이터와 dbSNP를 이용하여 다중 참조 유전체 데이터를 구축할 수 있다. 서비스 서버(350)는 생성한 구조변이 분석 결과를 사용자 단말(310)에 전송할 수 있다. 또는 도면에 도시하지 않았지만, 서비스 서버(350)는 구조변이 분석 결과를 별도의 저장 매체에 저장하거나, 별도의 객체에 전달할 수도 있다.
사용자는 NGS 분석 과정에서 샘플 서열 데이터를 사용자 단말(320)을 통해 서비스 서버(350)에 전달할 수도 있다. 사용자 단말(320)은 NGS 분석 장치로부터 샘플 서열 데이터를 수신할 수 있다. 샘플 서열 데이터를 포함한 분석 요청을 수신한 서비스 서버(350)는 전술한 과정을 통하여 샘플 서열 데이터에 대한 구조 변이 유형을 예측한다. 서비스 서버(350)는 사전에 분석을 위한 다중 참조 유전체 데이터를 구축하고, 표준 참조 유전체 데이터를 획득했다고 가정한다. 서비스 서버(350)는 생성한 구조변이 분석 결과를 사용자 단말(320)에 전송할 수 있다. 또는 도면에 도시하지 않았지만, 서비스 서버(350)는 구조변이 분석 결과를 별도의 저장 매체에 저장하거나, 별도의 객체에 전달할 수도 있다.
또한, 상술한 바와 같은 유전체 구조변이 검출 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (15)

  1. 컴퓨터장치가 샘플 서열 데이터를 입력받는 단계;
    상기 컴퓨터장치가 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하는 단계;
    상기 컴퓨터장치가 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 구조변이의 후보 영역 및 브레이크포인트를 결정하는 단계; 및
    상기 컴퓨터장치가 상기 매핑 결과에 따른 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 단계를 포함하는 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
  2. 제1항에 있어서,
    상기 다중 참조 유전체 데이터는 복수의 인종에 대한 참조 유전체 데이터를 포함하는 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
  3. 제1항에 있어서,
    상기 다중 참조 유전체 데이터는 복수의 인종 각각에 대한 참조 유전체 데이터, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터를 포함하는 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
  4. 제1항에 있어서,
    상기 컴퓨터장치가 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터를 기준으로 상기 샘플 서열 데이터의 리드 중 SNP 내지 INDEL에 해당하는 서열을 상기 k-mer 리드에서 배제하는 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
  5. 제1항에 있어서,
    상기 다중 참조 유전체 데이터는 복수의 인종 각각에 대한 참조 유전체 데이터, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터로 구성된 k-mer 자료구조에 정상 유전체 서열 데이터의 k-mer를 추가한 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 방법.
  6. 제5항에 있어서,
    상기 k-mer 자료구조는 Sparsepp 해시 테이블인 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
  7. 제1항에 있어서,
    샘플 서열 데이터는 환자의 유전체 서열 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 방법.
  8. 제1항에 있어서,
    상기 표준 참조 유전체 데이터는 유전체 서열의 완성도가 기준값 이상인 참조 유전체 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 방법.
  9. 제1항에 있어서,
    상기 표준 참조 유전체 데이터는 hg19, hg38 및 KOREF 중 적어도 하나인 다중 레퍼런스에 기반한 유전체 구조변이 검출 방법.
  10. 컴퓨터에서 제1항 내지 제9항 중 어느 하나의 항에 기재된 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  11. 샘플 서열 데이터를 입력받는 입력장치;
    다중 참조 유전체 데이터, 표준 참조 유전체 데이터 및 상기 다중 참조 유전체 데이터와 상기 표준 참조 유전체 데이터를 각각 상기 샘플 서열 데이터와 비교하여 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 프로그램을 저장하는 저장장치; 및
    상기 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하고, 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 결정되는 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 구조변이 유형을 예측하는 연산장치를 포함하는 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
  12. 제11항에 있어서,
    상기 다중 참조 유전체 데이터는 복수의 인종 각각에 대한 참조 유전체 데이터, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터를 포함하는 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
  13. 제11항에 있어서,
    상기 다중 참조 유전체 데이터는 복수의 인종 각각에 대한 참조 유전체 데이터, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터로 구성된 k-mer 자료구조에 정상 유전체 서열 데이터의 k-mer를 추가한 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
  14. 제11항에 있어서,
    상기 표준 참조 유전체 데이터는 유전체 서열의 완성도가 기준값 이상인 참조 유전체 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
  15. 제11항에 있어서,
    상기 표준 참조 유전체 데이터는 hg19, hg38 및 KOREF 중 적어도 하나인 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
PCT/KR2018/014079 2018-09-28 2018-11-16 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치 WO2020067603A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/272,383 US20210327541A1 (en) 2018-09-28 2018-11-16 Detection method and detection apparatus for genomic structural variations based on k-mer set in reference genome

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2018-0116410 2018-09-28
KR20180116410 2018-09-28
KR10-2018-0139875 2018-11-14
KR1020180139875A KR102215151B1 (ko) 2018-09-28 2018-11-14 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치

Publications (1)

Publication Number Publication Date
WO2020067603A1 true WO2020067603A1 (ko) 2020-04-02

Family

ID=69949708

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/014079 WO2020067603A1 (ko) 2018-09-28 2018-11-16 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치

Country Status (1)

Country Link
WO (1) WO2020067603A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022054178A1 (ja) * 2020-09-09 2022-03-17 株式会社日立ハイテク 個体ゲノムの構造変異検出方法及び装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120178635A1 (en) * 2009-08-06 2012-07-12 University Of Virginia Patent Foundation Compositions and methods for identifying and detecting sites of translocation and dna fusion junctions
WO2015031689A1 (en) * 2013-08-30 2015-03-05 Personalis, Inc. Methods and systems for genomic analysis
KR20150059101A (ko) * 2013-11-18 2015-05-29 한국전자통신연구원 염색체 전좌의 위치 계산방법
US20160232291A1 (en) * 2015-02-09 2016-08-11 10X Genomics, Inc. Systems and methods for determining structural variation and phasing using variant call data
KR20170125278A (ko) * 2016-05-04 2017-11-14 삼성전자주식회사 변이 검출 표지의 신뢰도 결정 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120178635A1 (en) * 2009-08-06 2012-07-12 University Of Virginia Patent Foundation Compositions and methods for identifying and detecting sites of translocation and dna fusion junctions
WO2015031689A1 (en) * 2013-08-30 2015-03-05 Personalis, Inc. Methods and systems for genomic analysis
KR20150059101A (ko) * 2013-11-18 2015-05-29 한국전자통신연구원 염색체 전좌의 위치 계산방법
US20160232291A1 (en) * 2015-02-09 2016-08-11 10X Genomics, Inc. Systems and methods for determining structural variation and phasing using variant call data
KR20170125278A (ko) * 2016-05-04 2017-11-14 삼성전자주식회사 변이 검출 표지의 신뢰도 결정 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022054178A1 (ja) * 2020-09-09 2022-03-17 株式会社日立ハイテク 個体ゲノムの構造変異検出方法及び装置

Similar Documents

Publication Publication Date Title
Srivastava et al. Alevin efficiently estimates accurate gene abundances from dscRNA-seq data
US20210257050A1 (en) Systems and methods for using neural networks for germline and somatic variant calling
Abel et al. Detection of structural DNA variation from next generation sequencing data: a review of informatic approaches
Christoforides et al. Identification of somatic mutations in cancer through Bayesian-based analysis of sequenced genome pairs
Hasan et al. Performance evaluation of indel calling tools using real short-read data
CN112951418B (zh) 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质
Kim et al. rSW-seq: algorithm for detection of copy number alterations in deep sequencing data
Spencer et al. Detection of FLT3 internal tandem duplication in targeted, short-read-length, next-generation sequencing data
Al-Ghalith et al. SHI7 is a self-learning pipeline for multipurpose short-read DNA quality control
CN107111693A (zh) 用于确定高同源性区域中的基因型的方法
ES2959360T3 (es) Mejora del cribado del cáncer mediante ácidos nucleicos víricos acelulares
CN110289047B (zh) 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
CN112927755B (zh) 一种鉴定cfDNA变异来源的方法和系统
CN107292129A (zh) 易感基因型检测方法
CN113574602A (zh) 从循环无细胞核酸中灵敏地检测拷贝数变异(cnv)
CN111292809B (zh) 用于检测rna水平基因融合的方法、电子设备和计算机存储介质
WO2020067603A1 (ko) 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
Sepich-Poore et al. Robustness of cancer microbiome signals over a broad range of methodological variation
WO2021080043A1 (ko) 시퀀싱 플랫폼 특이적인 오류를 줄인 체성 돌연변이 검출 장치 및 방법
KR102215151B1 (ko) 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치
WO2016208827A1 (ko) 유전자를 분석하는 방법 및 장치
Afyounian et al. Segmentum: a tool for copy number analysis of cancer genomes
Zeng et al. HIVID2: an accurate tool to detect virus integrations in the host genome
US20210310050A1 (en) Identification of global sequence features in whole genome sequence data from circulating nucleic acid

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18935210

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18935210

Country of ref document: EP

Kind code of ref document: A1