WO2014119914A1 - 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 - Google Patents
유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 Download PDFInfo
- Publication number
- WO2014119914A1 WO2014119914A1 PCT/KR2014/000823 KR2014000823W WO2014119914A1 WO 2014119914 A1 WO2014119914 A1 WO 2014119914A1 KR 2014000823 W KR2014000823 W KR 2014000823W WO 2014119914 A1 WO2014119914 A1 WO 2014119914A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sequence
- marker
- variation
- genetic variation
- evaluating
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Definitions
- the present invention relates to a method for providing information on a gene sequence-based personal marker and an apparatus using the same.
- NGS Next Generation Sequencing
- the method was also used (see KR 10-2011-0094268).
- the conventional technology has a limitation in that it cannot provide reliable and useful information with high specificity from extracted genetic variation information.
- the present invention has been made in consideration of the necessity as described above, using the sequence information obtained from the target sample to find the gene sequence variation, and evaluates the quality of the base sequence and the suitability of the extracted marker information on the gene sequence-based individual marker
- the purpose is to provide a method for providing.
- QC sequence quality control unit
- reliability evaluation is to evaluate the probabilistic significance of the selected markers, but is not limited thereto, for example, the number of supporting reads, the number of base sequences and the quality of the sequence, etc. Evaluating the results of genetic variation analysis using information.
- the "evaluation of ease” is to evaluate the ease of detection of experimental markers, but is not limited to such, for example, the presence of a repeat sequence and sequence composition characteristics such as GC base content, and additional individual mutations around the genetic variation It means to analyze and evaluate the existence.
- availability evaluation is to evaluate the usefulness based on the association of the marker with the biological trait, but is not limited to, for example, based on the association of the genetic marker with the biological trait such as disease risk and association with the target anticancer agent Say that to evaluate.
- the step of evaluating the suitability of the marker provides a method characterized by performing a reliability assessment, an ease assessment or a usability assessment, and the step of checking quality and performing quality control for each position of the gene And performing at least one selected from the group consisting of trimming, N masking, and low quality lead filters, wherein the collating step is performed using global alignment and local alignment.
- the step of extracting the marker is to extract a single-nucleotide polymorphism (SNP) or structural variation (SV) Characterized in that the method is characterized in that the step of evaluating the marker reliability It provides a method characterized by evaluating the statistical reliability from the number and composition of the reads, wherein the step of evaluating the marker ease is characterized by evaluating the experimental ease of consideration considering the presence of the repeat sequence and GC content Wherein the evaluating marker usefulness provides a method for evaluating bioavailability with regard to disease risk and disease association, and outputting the identified sequence comprises surroundings including the nucleotide sequence of the genetic variation. Provided is a method characterized in that the sequence is presented in a commonly used standard file format, such as the fasta format.
- the input unit 110 for inputting the nucleotide sequence information obtained from the target sample, the quality control operation unit 120 for confirming whether the obtained nucleotide information is an analytic base sequence, the identified analytable base A matching operation unit 130 for collating and calculating sequence information and a reference sequence, a genetic variation extracting unit 140 for extracting an individual identification marker from the sequence matching result, and a suitability calculating unit for confirming and calculating a marker suitability of the extracted personal identification marker ( 150) and an output unit 160 for outputting the suitability calculation result.
- the suitability calculation unit 150 provides a device, characterized in that at least one selected from the group consisting of a reliability calculation unit, an ease operation unit and the usability calculation unit, the quality control operation unit 120 trimming for each position of the gene and performing at least one selected from the group consisting of trimming, N masking, and a low quality read filter, wherein the contrast calculating unit 130 is configured with global alignment and local alignment.
- the reliability calculation unit of the suitability calculation unit 150 It provides an apparatus characterized by evaluating the statistical reliability from the number and composition of the read, the ease operation unit provides an apparatus characterized by evaluating experimental ease in consideration of the presence of the repeat sequence and GC content,
- the usefulness calculation unit provides a device for evaluating biological usefulness regarding disease risk and disease association, and the output unit 160 displays a peripheral sequence including a nucleotide sequence of a genetic variation such as a pasta format. It provides a device characterized by the present standard file format.
- Genetic variation information discovered through sequencing reads obtained from gene sequencing devices contains uncertainty and thus often requires verification using other analytical equipment, thus providing information on gene sequence-based personal markers of the present invention.
- discovery of individual genetic mutations ii) evaluation of discovered genetic markers in terms of reliability, ease, and usefulness, and priorities are given.
- Iii) can be used for verification experiments using other analysis equipment.
- Peripheral sequence information can be obtained simultaneously without using a separate program.
- cancer cell genes can be used as a useful tool for detecting genes derived from cancer cells that are distinguished from normal cell-derived genes of a subject by providing cancer cell-specific gene mutation markers.
- 1 is an embodiment of a method of providing information about a gene sequence-based personal marker in one embodiment of the present invention.
- Figure 2 is an embodiment of reading the nucleotide sequence read from the sequencing device, performing a quality control process for each read, and mapping to the published reference sequence.
- 3 is one embodiment of a method for discovering and presenting personal genetic variation with reference to published reference sequences or other nucleotide sequence reads.
- Figures 4a to 4h is an example sequence generated through the simulations subjected to the reliability calculation described in Table 1 and Table 2 and Figures 4i to 4l shows the calculation results for each of the sequences.
- FIG. 5 is one embodiment of calculating the three usefulness scores of the found genetic variants based on their association with the biological trait of the genetic marker.
- FIG. 1 is a schematic diagram of a method for identifying an individual genetic variation from a sequencing data obtained from a sequencing device and presenting a sequence in a form suitable for experiments for verifying individual genetic variation.
- Read sequence reads from the device, perform quality control procedures for each read, arrange and map published reference sequences with the obtained base sequences, and identify individual genetic variations in comparison to published reference sequences or other control sequences And provide information about it.
- reliability evaluation, ease evaluation, and usefulness evaluation are performed to select a marker having high usefulness as an individual identification marker among individual genetic mutations.
- the genetic information extracted as a result of the evaluation shows the surrounding sequence including the nucleotide sequence of the genetic variation in a commonly used standard sequence file format such as a pasta format.
- read data is obtained from sequencing data obtained from a sequencing device, and the gene sequence read data is read and stored in the system. Trimming, N-masking, and low-quality lead filters based on quality scores for each location to perform quality control, parallel processing of reference sequences, global sorting, and local sorting, BWA, BWASW, Bowtie2, etc. Create an output file in SAM or BAM format by performing the array using the program in.
- a process for discovering variant markers such as SNPs and SVs using a lead file subjected to the above quality control process is presented.
- SNP and short INDEL variant excavation can be analyzed using GATK Unified Genotyper and SAMtools mpileup, and can be recalibrated and realigned to improve the accuracy of excavation markers.
- SV excavation identifies large structural variations such as inter / intrachromosomal rearrangement, large INDEL, inversion, and long range repeat sequence variation. To do this, you can use programs such as BreakDancer and Pindel.
- the marker assessment is divided into i) reliability assessment, ii) ease assessment and iii) usability assessment.
- Reliability assessment is to assess the results of genetic variation using information such as the number of supporting reads and sequence quality used to find the genetic variation.
- Ease evaluation refers to evaluating the ease of experiment by analyzing the presence of repetitive sequences and sequence composition characteristics such as GC content, and the presence of individual mutations around the genetic mutation.
- Usability assessment refers to an assessment based on the association of genetic markers with biological traits, such as disease risk and relevance and target anticancer agent relevance.
- reliability assessment is a measure of the reliability of a genetic variation, such as supporting reads, atypical read pairs, and cleaved reads used to find the genetic variation. Scoring is based on the number and sequence quality of and the evaluation of each break point (Break point) refers to the following formula:
- f () is a link function
- wi () is a weight function
- R ij is a score considering the mapping quality and the individual sequence quality of each kind of support read.
- the reliability of the SNP is a read including a geometric mean (Q i ) of the mapping quality (Q i M ) and base quality (Q i B ), quality-based variation ratio (M s ), variation It is defined as the product of the quality (A s ) of the (support lead), the depth of the corresponding position and the total average depth ratio D s .
- Q i B and Q i M represent the base quality and the mapping quality of the i th read and can be calculated as follows.
- the quality-based variation ratio (M s ), the quality of the support lead (A s ), and the depth ratio (D s ) of the corresponding position are defined as follows.
- the reliability of the SNP is as follows.
- Table 1 shows an example of calculating the reliability of the two SNPs generated through the simulation.
- the reliability (Q SV) of the gujobyeon (SV) is defined as the product of the mapping quality (Q i M) and the base quality (Q i B).
- the region corresponding to the insert size in the case of the found structural variation ie, paired-end read around the cut plane, in the case of the single-terminal read
- n support leads typically leads and cut leads
- Q i M is an average of the leads other than the support leads, and is defined as a mapping quality value of the Q i B support leads as follows.
- Table 2 shows an example of the calculation of the reliability of the two inserted structural variations generated by the simulation.
- the "Ease of Use Assessment” is calculated in the following manner as a measure of the ease of validation of markers discovered by methods such as PCR or target sequence analysis:
- a i is the item-specific ease of use
- w i is the weight of each ease.
- Region polymorphisms include, but are not limited to, SNPs and small indels to calculate item-level ease of use. If the marker and the surrounding sequence of interest have a substituent or a small indel different from the reference sequence, the ease of introduction is introduced. For example, it is calculated as follows:
- a rp ⁇ 1 for homo SNP; 0 for homo indel; And -1 for hetero SNP; And -9 for hetero indels;
- sequence complexity is introduced to assess self assembly or uniqueness, for example, calculated as follows:
- Word length is l
- f (s) is a function of sequence frequency
- GC content must be able to provide a suitable melting point (melting point) in order to be used as a primer such as PCR, it is necessary to introduce a function, for example:
- XY at p (XY) is the content.
- the ease can be calculated as follows.
- a rp since the upstream peripheral sequence has one homo SNP, A rp has no penalty. On the other hand, since there are hetero SNPs and homo indels, 1 point is deducted.
- a sp for example, it can be calculated in the same manner as in the reference papers (Computers & Chemistry 23 (3-4): 263-201), and the meaning of it can be the number of primers that can be produced.
- the present invention is not limited thereto.
- a qc is for example using Shannon entropy to calculate the appropriate weight for the GC content (which gives the greatest value when 0.5). To evaluate the ease by the sum of these, for example, if the weighting factor for all the factors considered equal to 1/3, the results are as shown in Table 3.
- flanking sequence of the found deletion genetic variation is as follows,
- the "availability assessment” is based on the association of the genetic markers of biological markers such as, but not limited to, disease risk, relevance and target anticancer agent relevance, e.g. :
- w i is the weight of each utility.
- the target anticancer agent relevance is calculated by evaluating drug reactivity when the genetic marker is associated with the target anticancer agent. Genetic markers associated with target anticancer agents can be used in determining treatment methods. For example, calculate:
- disease risk is calculated by evaluating the risk of disease development when the genetic marker is associated with a disease, for example, in the following manner:
- the utility scores for the three found genetic variants can be calculated as follows.
- genetic variation 2 of FIG. 4 since 0.5 points are assigned by the functional evaluation unit for each region, and since the relationship between breast cancer and ovarian cancer is reported, 1 point of disease correlation score was added, and the mutation is a target anticancer herceptin target region. Since it is located in the target anticancer drug association evaluation unit 1 point was added, the usability score U according to the usefulness formula was 2.5 points. Therefore, it can be determined that, among the three genetic mutations, genetic variation 2 has the highest usefulness.
- N masking refers to treating missing nucleotides of sequences read of too low a quality
- low quality read fields refers to analysis of sequences (leads) that are read of too low quality. It means processing to exclude.
- Global alignment refers to placing the entire read sequence in the most similar portion of the reference sequence
- Local alignment refers to a portion of the read sequence. The method of positioning in the most similar part of the.
- the reads located near the genetic mutations are used to reassemble the genetic and surrounding sequences of the sample and create an output file for the completed genetic sequence.
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 목적시료로부터 염기서열 정보를 수득하고, 수득된 염기서열에 대해 품질관리 를 수행하고, 상기 품질관리 를 수행한 염기서열과 참조서열을 대조하며, 상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하며, 상기 추출된 개인 식별 유전변이 마커의 적합성을 신뢰도, 용이성 및 유용성으로 평가하며, 상기 마커 적합성이 확인된 변이 서열을 출력하는 단계를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치를 제공한다. 이를 통하여, 개인 유전변이를 추출하고, 발굴된 유전변이 마커의 적합성을 평가하여 우선 순위를 제시하며, 타 분석 장비를 이용한 검증 실험에 사용될 수 있도록 주변서열정보를 추가로 제공한다.
Description
본 발명은 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치에 관한 것이다.
인간 유전체 프로젝트가 완료된 후 인간의 DNA 염기서열이 해독되고 이로부터 인간 유전자의 다양한 기능들이 밝혀지고 있다. 특히, 다양한 유전자 변이들이 발견되어 이것들이 인간의 형질의 차이를 일으킬 뿐만 아니라, 특정 질병의 원인으로 작용될 수 있음이 밝혀짐에 따라 인간 유전체 분석 연구는 점점 더 가속화 되어가고 있다. 하지만, 인간 유전체에서 발생할 수 있는 방대한 유전적 변이 중 어떠한 변이가 실질적으로 병인이 될 수 있는 것인가를 밝혀내는 데에는 어려움이 있을 수 밖에 없다.
차세대 시퀀싱 기술(NGS, Next Generation Sequencing)이 발달함에 따라 개별 인간의 전체 유전체의 염기 서열 해독이 가능하게 되었고, 질병군과 정상군의 염기서열 및 변이 비교 분석 방법을 통하여 질병 특이적 유전자 변이를 추출하는 것도 가능하게 되었다. 또한, 형질에 관련된 마커를 선별하고 뉴클레오티드 수준에 기존의 변이를 확인하며 표적 뉴클레오티드 교환에 의해 상기 마커의 불변 부위의 위치들에서 하나 또는 그 이상의 뉴클레오티드의 도입으로 선별가능한 마커를 도입하여 고유한 분자 마커들의 생성을 위한
방법을 활용하기도 하였다(KR 제 10-2011-0094268호 참조). 그러나 종래의 기술은 추출된 유전자 변이 정보로부터 특이도가 높아 신뢰할 수 있고 유용성이 있는 정보를 제공할 수 없다는 한계가 있었다.
본 발명은 상기와 같은 필요성을 고려하여 안출된 것으로, 목적시료로부터 얻은 염기서열 정보를 이용하여 유전자 서열 변이를 찾고 염기서열의 품질과 추출된 마커의 적합성을 평가하여 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법을 제공하는데 목적이 있다.
또한, 본 발명은 목적시료로부터 수득된 염기서열 정보에 대한 서열 입력부, 서열 품질 관리 (QC) 부, 서열 대조 연산부, 유전변이 추출부, 및 변이 서열 출력부를 포함하는 장치를 제공하는데 목적이 있다.
본 발명에서 “신뢰도 평가”란 선정된 마커의 확률적 유의성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 유전변이 발굴에 사용된 리드(Supporting reads)의 개수, 염기 서열의 개수 및 서열 품질 등 정보를 이용하여 유전변이 분석 결과를 평가하는 것을 말한다.
본 발명에서 “용이성 평가”란 실험적 마커 검출의 용이성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 반복서열의 존재여부 및 GC 염기 함량과 같은 서열조성특성, 그리고 해당 유전변이 주변에 추가 개인 변이 존재 여부를 분석하여 평가하는 것을 말한다.
본 발명에서 “유용성 평가”란 마커의 생물학적 형질에 대한 연관성에 기반한 유용성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 질환 위험도와 관련성, 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반으로 평가하는 것을 말한다.
본 발명의 일 구체예에서, 목적시료로부터 염기서열 정보를 수득하고, 수득된 염기정보가 분석가능한 염기서열인지를 품질을 확인하고, 상기 확인된 분석가능한 염기서열 정보와 참조 서열을 대조하며, 상기 서열 대조 결과로부터 개인 식별 마커를 추출하며, 상기 추출된 개인 식별 마커의 마커 적합성을 평가하며, 상기 마커 적합성이 확인된 서열을 출력하는 단계를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법을 제공한다. 상기 구체예에서, 마커의 적합성을 평가하는 단계는 신뢰도 평가, 용이성 평가 또는 유용성 평가를 수행하는 것을 특징으로 하는 방법을 제공하고, 품질을 확인하고 품질관리를 수행하는 단계는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법을 제공하며, 상기 대조하는 단계는 글로벌 정렬법(Global alignment) 및 로컬 정렬법(Local alignment)로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법을 제공하며, 상기 마커를 추출하는 단계는 단일염기다형성(SNP: single-nucleotide polymorphism) 또는 구조 변이(SV: structural variation)를 추출하는 것을 특징으로 하는 방법을 제공하며, 상기 마커 신뢰도를 평가하는 단계는 수득된 염기서열 리드의 개수 및 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 마커 용이성을 평가하는 단계는 반복서열의 존재여부 및 GC 함량을 고려하여 실험적 용이성을 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 마커 유용성을 평가하는 단계는 질환 위험도 및 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 확인된 서열을 출력하는 단계는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식 (fasta format) 등의 통용되는 표준서열 파일 형식으로 제시하는 것을 특징으로 하는 방법을 제공한다.
본 발명의 일 구체예에서, 목적시료로부터 수득된 염기서열 정보를 입력하는 입력부(110), 수득된 염기정보가 분석가능한 염기서열인지를 확인하는 품질 관리 연산부(120), 상기 확인된 분석가능한 염기서열 정보와 참조서열을 대조 연산하는 대조 연산부(130), 상기 서열 대조 결과로부터 개인 식별 마커를 추출하는 유전변이 추출부(140), 상기 추출된 개인 식별 마커의 마커 적합성을 확인 연산하는 적합성 연산부 (150) 및 상기 적합성 연산 결과를 출력하는 출력부(160)를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하기 위한 장치을 제공한다. 상기 구체예에서, 적합성 연산부(150)는 신뢰도 연산부, 용이성 연산부 및 유용성 연산부로 구성된 군으로부터 선택된 어느 하나 이상인 것을 특징으로 하는 장치를 제공하고, 품질 관리 연산부(120)는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 장치를 제공하며, 상기 대조 연산부(130)는 글로벌 정렬법(Global alignment) 및 로컬 정렬법(Local alignment)로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 장치를 제공하며, 상기 유전변이 추출부(140)는 단일염기다형성(single-nucleotide polymorphism) 또는 구조적 변이(structural variation)를 추출하는 것을 특징으로 하는 장치를 제공하며, 상기 적합성 연산부 (150)중 신뢰도 연산부는 수득된 염기서열 리드의 개수 및 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 용이성 연산부는 반복서열의 존재여부 및 GC 함량을 고려하여 실험적 용이성을 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 유용성 연산부는 질환 위험도 및 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 출력부(160)는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식 (fasta format) 등의 통용되는 표준서열 파일 형식으로 제시하는 것을 특징으로 하는 장치를 제공한다.
유전자 서열 분석 장치로부터 얻어진 염기서열 리드를 통해 발굴한 유전변이 정보는 불확실성을 내포하고 있어서 타 분석 장비를 이용한 검증 과정이 요구되는 경우가 많기 때문에 본 발명의 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치를 통하여 i) 개인 유전변이 발굴을 수행하고 ii) 발굴된 유전변이 마커를 신뢰도, 용이성 및 유용성 측면에서 평가하여 우선 순위를 제시하고 iii) 타 분석 장비를 이용한 검증 실험에 사용될 수 있도록 주변서열정보를 별도 프로그램을 사용하지 않고 동시에 획득할 수 있다. 특히 암세포 유전자의 경우 암세포 특이적 유전자변이 마커를 제공하여 피검체의 정상세포 유래 유전자와 구분되는 암세포로부터 유래한 유전자를 검출하는 데 유용한 도구로써 사용될 수 있다.
도 1은 본 발명의 일 구체예로서, 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법에 관한 일 구체예이다.
도 2는 서열 분석장치로부터 염기서열 리드를 읽고 각 리드별로 품질관리 과정을 수행하고, 공개된 참조 서열에 대해 매핑하는 일 구체예이다.
도 3은 공개된 참조 서열 또는 다른 염기서열 리드를 참조로 하여 개인 유전변이를 발굴 및 정보 제시하는 방법의 일 구체예이다.
도 4a 내지 도 4h는 표 1 및 표 2에 기재된 신뢰도 계산의 대상이 된 시뮬레이션을 통해 생성한 예제서열이고 도 4i 내지 도 4l은 상기 서열 각각에 대한 계산결과를 나타낸 것이다.
도 5는 찾아진 유전변이 3개의 유용성 점수를 유전자 마커의 생물학적 형질에 대한 연관성에 기반하여 산정한 일 구체예이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1은 본 발명의 일 구체예로, 서열 분석 장치로부터 얻은 염기서열 자료로부터 개인 유전변이를 발굴하고 개별 유전변이 검증을 위한 실험에 적합한 형태의 서열을 제시하는 방법에 관한 개괄도로써, 서열 분석장치로부터 염기서열 리드를 읽고 각 리드별로 품질관리 과정을 수행하고, 공개된 참조 서열과 상기 수득한 염기서열을 배열시켜 매핑하며, 공개된 참조 서열 또는 다른 대조 염기서열과 비교하여 개인 유전변이를 발굴하고 이에 관한 정보를 제공한다. 이때, 개별 유전변이 중 개인 식별 마커로서 유용성 높은 마커를 선정하기 위하여 신뢰도 평가, 용이성 평가 및 유용성 평가를 수행한다. 또한, 평가 수행 결과 추출된 유전 정보는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식(fasta format) 등의 통용되는 표준서열 파일 형식으로 제시한다.
본 발명의 다른 구체예(도면 2) 에서, 서열 분석 장치로부터 얻은 염기서열 자료로부터 리드(read) 자료를 수득하고, 이 유전자 서열 리드 자료를 읽어 시스템에 저장한다. 각 위치별로 품질 점수를 기준으로 트리밍(trimming), N 마스킹, 저품질 리드 필터를 수행하여 품질관리 처리하고, 처리된 서열에 대하여 참조서열과 글로벌 정렬법 및 로컬 정렬법을 병행하고, BWA, BWASW, Bowtie2 등의 프로그램을 사용하여 배열을 수행하여 SAM 또는 BAM 형식의 출력 파일을 작성한다.
본 발명의 다른 구체예(도면 3) 에서, 위 품질관리 과정을 거친 리드 파일을 이용하여 SNP 및 SV와 같은 변이 마커 발굴과정을 제시하였다. SNP 및 작은 인델(short INDEL) 변이 발굴은 GATK UnifiedGenotyper과 SAMtools mpileup 등을 사용하여 분석하고, 발굴 마커의 정확도를 향상시키기 위해 재보정(recalibration)과 재배열(realignment) 과정을 추가할 수 있다. SV 발굴은 상호 염색체 재배열(Inter/intrachromosomal rearrangement), 큰 인델(large INDEL), 역위(inversion), 긴 범위 반복 서열 변이(long range repeat sequence variation)와 같은 큰 구조 변이(large structural variation)를 발굴하기 위해 브레이크댄서(BreakDancer) 및 핀델(Pindel) 등의 프로그램을 사용할 수 있다.
본 발명의 일 구체예에서, 마커 평가는 i)신뢰도 평가, ii) 용이성 평가 및 iii)유용성 평가로 구분된다. 신뢰도 평가는 유전변이 발굴에 사용된 리드(Supporting reads)의 개수 및 서열 품질 등 정보를 이용하여 유전변이 결과를 평가하는 것이다. 용이성 평가는 반복서열의 존재여부 및 GC 함량과 같은 서열조성특성, 및 해당 유전변이 주변에 개인 변이 존재 여부를 분석하여 실험의 용이성을 평가하는 것을 말한다. 유용성 평가는 질환 위험도와 관련성, 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반한 평가를 말한다.
본 발명의 일 구체예서, ”신뢰도 평가”는 유전변이의 신뢰도를 평가하는 척도로서 유전변이 발굴에 사용된 지지 리드(supporting reads), 비정형 리드쌍 (discordant read pair)과 절단 리드 (clipped read)등의 개수 및 서열품질에 기반하여 점수화하고, 각 변이 끝단(Break point)에 대해 평가하는 것을 말하며, 하기와 같은 수식으로 산정한다:
여기서,
f()는 연결함수(link function)이고;
wi() 는 가중치 함수이며;
Rij는 각 종류별 지지 리드의 맵핑 품질 및 개별 서열 품질을 고려한 점수이다.
본 발명의 일 구체예에서, SNP의 신뢰도는 매핑 품질(Qi
M)과 염기 품질(Qi
B)의 기하평균(Qi), 품질 기반의 변이비율(Ms), 변이를 포함하는 리드(지지 리드)의 품질(As), 해당위치의 깊이(depth)와 전체 평균 깊이비(Ds)의 곱으로 정의한다. 찾아진 SNP 위치에 전체 n개의 지지 리드가 있고(i=1,…,n), m-n개의 참조서열 염기를 가진 리드를 가정하였다. 이때 Qi
B와 Qi
M은 i번째 리드의 염기 품질과 매핑 품질을 나타내며 다음과 같이 계산될 수 있다.
여기서, 와 는 각각 만족해야하는 최소 염기 품질과 매핑 품질값이며, 와 는 각각 해당샘플의 전체 서열 평균 염기 및 매핑 품질값을 나타낸다. CB와 CM은 스케일 상수로서 아래 예에서는 를 사용하였다. Qi, 즉 i번째 리드의 품질값은 다음과 같이 리드의 염기 품질과 매핑 품질의 곱으로 정의하며,
품질 기반의 변이비율(Ms), 지지 리드의 품질(As), 해당 위치의 깊이비(Ds)는 각각 다음과 같이 정의한다.
(d는 해당 샘플의 전체 서열 평균 깊이임)
해당 SNP의 신뢰도는 아래와 같다.
하기 표 1은 시뮬레이션을 통해 생성한 2개의 SNP의 신뢰도 계산 예를 보여준다.
표 1.
본 발명의 일 구체예에서, 구조변이(SV)의 신뢰도(QSV)는 매핑 품질(Qi
M) 와 염기 품질 (Qi
B)의 곱으로 정의된다.
상기 구조변이 신뢰도 계산을 위해, 찾아진 구조변이 영역(즉 절단면을 중심으로 짝지은-말단 리드(paired-end read)의 경우에는 삽입체 크기(insert size)에 해당하는 영역, 단일-말단 리드의 경우에는 리드 길이의 2배에 해당하는 영역)에 전체 n개의 지지 리드(비정형 리드 및 절단 리드)가 있고, m-n개의 참조서열을 갖는 리드를 가정하였다. 또한, Qi
M은 지지 리드를 제외한 나머지 리드들의 평균으로, Qi
B 지지 리드의 매핑 품질값으로 다음과 같이 정의하였다.
l은 리드 길이이며,
하기 표 2는 시뮬레이션을 통해 생성한 두 삽입 구조변이에 대한 신뢰도 계산 예를 보여준다.
표 2
본 발명의 일 구체예에서, “용이성 평가”는 PCR 또는 표적 서열 분석과 같은 방법으로 발굴한 마커의 검증 용이성을 제시하는 척도로 하기와 같은 식으로 산정한다:
여기서,
Ai는 항목별 용이도이고,
wi는 각 용이도의 가중치이다.
항목별 용이도를 산출하기 위하여, 영역 다형성(Regional polymorphisms)은, 이에 한정하지는 않지만, 예를 들어, SNP와 작은 인델을 들 수 있다. 목적하는 마커와 주변서열에 참조 서열과 다른 치환기나 작은 인델이 있을 경우 이에 대한 용이도를 도입한다. 예를 들어, 하기와 같이 산정된다:
Arp={호모 SNP의 경우 1; 호모 인델의 경우 0; 및 헤테로 SNP의 경우 -1; 및 헤테로 인델의 경우 -9}
또한, 서열복잡성(sequence complexity)은 자가 재구성(self assembly)이나 고유성(uniqueness)을 평가하기 위해 도입하는 것으로, 예를 들어, 하기와 같이 산정된다:
여기서,
단어 길이는 l이고,
f(s)는 서열상 빈도에 관한 함수이고,
C는 상수이다.
또한 “GC 함량”은 PCR 등의 프라이머로 쓰기 위해서는 적합한 융점(melting point)를 제공할 수 있어야 하기 때문에, 함수 도입이 필요한데, 예를 들어 하기와 같이 산정된다:
여기서,
Cn 은 계수이고,
p(XY)에서 XY 는 함량이다.
본 발명의 일 구체예에서, 찾아진 전좌(translocation) 유전변이 절단면의 업스트림(upstream) 및 다운스트림(downstream) 주변서열이 하기와 같을 경우, 용이성은 다음과 같이 계산될 수 있다.
- BP_upstream:
GACGCCCCAGGCCGCGGTGGAGTTGCGCGCGGCTTC
[A]
AAAGTGGAGTGGAGCAGGCCTGC
- BP_downstream:
AGCACAGGCAGGCACCAGCTGGGCAGTGT
[A/T]
AGGATGCTGGAGCAGCATCCGT
[-]
ACCCCAC
즉, 상기 업스트림 주변서열의 경우 호모 SNP를 하나 가지므로 Arp에는 감점이 없다. 한편, 다운스트림의 경우 헤테로 SNP와 호모 인델이 있으므로 1점을 감점한다. Asp의 경우, 예를 들어 참고논문(Computers & Chemistry 23(3-4):263-201)에 나와있는 방식과 같은 방법으로 계산할 수 있고, 그것이 가질 수 있는 의미는 primer 제작 가능 개수 등일 수 있으나, 이에 제한되는 것은 아니다. Aqc는 예를 들어 Shannon 엔트로피를 이용하여 GC 함량에 대한 적절한 가중치(0.5일 때 가장 큰 값을 줌)를 계산하는 것이다. 이들에 대한 총합으로 용이성을 평가하며, 예를 들어 고려한 인자들에 대한 가중치를 모두 1/3으로 같게 한다면 그 결과는 하기 표 3과 같다.
표 3
본 발명의 일 구체예에서, 찾아진 결실 유전변이 절단면의 측면 서열(flanking sequence)이 하기와 같을 경우,
- BP_upstream:
GGGCGCGGGCGCGCGGGGCGGCGGTGAGGGCGGCTGGCGGGGCCGGGGGCGCCGGGGGGG
- BP_downstream:
CCACTGGGGAGAGGCTGTTCTGACTCTGCAGGTGGGACAGGGACAGATGGCCACCAGGGT
상기 용이성 계산 방식을 적용한 결과는 하기 표 4와 같다.
표 4
용이성 점수 A가 표 3에 비해 표 4가 작으므로 용이성이 떨어지는 것으로 판단할 수 있다.
본 발명의 일 구체예에서, “유용성 평가”는, 이에 한정하지는 않지만, 질환 위험도, 관련성 및 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반하여 평가하는데, 예를 들어 하기 식을 산정한다:
여기서,
U i 는 항목별 유용성이고,
w i 는 각 유용성의 가중치이다.
각각의 유용성은 영역별 기능 (Function of the region)은 유전자 마커에 해당하는 영역의 기능군에 대하여 사용자의 목적에 적합한지 비교하여 유용성을 계산한다. 예를 들어 코딩 영역, 조절 영역, 유전자간 영역 (intergenic region), 중 사용자가 목적하는 영역에 해당하면 각각 c1, c2, c3 (U
f =c1>c2>c3 ) 를 부여한다. 이때, 표적 항암제 관련성은 유전자 마커가 표적 항암제와 연관성이 있을 경우, 약물 반응성을 평가하여 유용성을 계산한다. 표적 항암제와 연관이 있는 유전자 마커는 치료 방법 결정시 사용될 수 있다. 예를 들어 하기와 같이 산정한다:
Um= f(표적 항암제 관련 변이 포함영역 여부, 1 or 0)
또한, 질환 위험도는 유전자 마커가 질환과 연관성이 있을 경우, 질환 발병 위험도를 평가하여 유용성을 계산하는데, 예를 들어 하기와 같은 식으로 산정한다:
Ui=f(질환위험인자 포함영역 여부,1 또는 0)
본 발명의 일 구체예(도 4)에서, 찾아진 유전변이 3개에 대한 유용성 점수는 하기와 같이 계산될 수 있다. 도 4의 유전변이 2의 경우 인트론에 위치하므로 영역별 기능 평가부에서 0.5점을 부여하였고, 유방암과 난소암의 관련성이 보고되어 있으므로 질환 연관성 점수 1점을 추가하였으며, 변이가 표적 항암제 herceptin 표적 영역에 위치하므로 표적 항암제 연관성 평가부에서 1점을 추가하여 상기 유용성 계산식에 따른 유용성 점수 U가 2.5점이었다. 따라서, 3개의 유전변이 중 유전변이 2가 유용성이 가장 높다고 판단할 수 있다.
본 발명의 일 구체예에서, “N 마스킹”은 지나치게 낮은 품질로 읽혀진 서열의 개별 뉴클레오타이드 에 대해 결측치로 처리하는 것을 말하고, “저품질 리드 필더”는 지나치게 낮은 품질로 읽혀진 서열(리드)에 대해 분석에서 제외하도록 처리하는 것을 말한다.
본 발명의 일 구체예에서, “글로벌 정렬법(Global alignment)”은 리드 전체서열을 참고 서열 중 가장 유사한 부분에 위치시키는 방법을 말하고, “로컬 정렬법(Local alignment)”은 리드서열 중 일부를 참고 서열 중 가장 유사한 부분에 위치시키는 방법을 말한다.
본 발명의 일 구체예에서, 유전변이 부근에 위치한 리드들을 이용하여 샘플의 유전변이 및 주변서열을 재구성(assembly)하고 완성된 유전변이 서열에 대한 출력 파일을 작성한다
Claims (18)
- 목적시료로부터 염기서열 정보를 수득하는 단계;목적시료로부터 수득된 염기서열의 품질관리(QC: Quality Control)를 수행하는 단계;상기 품질관리를 수행한 염기서열 정보와 참조서열을 대조하는 단계;상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하는 단계;상기 추출된 개인 식별 유전변이 마커의 적합성을 평가하는 단계; 및상기 마커 적합성이 확인된 서열을 출력하는 단계를포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법.
- 제 1항에 있어서,마커의 적합성을 평가하는 단계는 신뢰도 평가, 용이성 평가 또는 유용성 평가를 수행하는 것을 특징으로 하는 방법.
- 제 1항에 있어서,품질관리 수행단계는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법.
- 제 1항에 있어서,대조하는 단계는 글로벌 정렬법(Global alignment) 또는 로컬 정렬법 (Local alignment)로 수행하는 것을 특징으로 하는 방법.
- 제 1항에 있어서,마커를 추출하는 단계는 단일염기다형성(single-nucleotide polymorphism) 또는 구조 변이(structural variation)를 추출하는 것을 특징으로 하는 방법.
- 제 2항에 있어서,신뢰도 평가 단계는 수득된 염기서열 리드의 개수 및 염기의 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 방법.
- 제 2항에 있어서,용이성 평가 단계는 반복서열의 존재여부, GC 함량 또는 주변 개인 식별 유전변이 마커 발견 빈도를 분석하여 실험의 용이성을 평가하는 것을 특징으로 하는 방법.
- 제 2항에 있어서,유용성 평가 단계는 목적하는 질환 위험도 또는 목적하는 질환 연관성을 생물학적 유용성을 평가하는 것을 특징으로 하는 방법.
- 제 1항에 있어서,확인된 서열을 출력하는 단계는 유전변이의 염기서열을 포함한 주변 서열을 포함한 파스타 형식(fasta format)으로 제시하는 것을 특징으로 하는 방법.
- 목적시료로부터 수득된 염기서열 정보를 입력하는 입력부;수득된 염기서열의 품질관리 연산부;상기 품질관리를 수행한 염기서열 정보와 참조서열을 대조 연산하는 대조 연산부;상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하는 유전변이 추출부;상기 추출된 개인 식별 유전변이 마커의 적합성을 연산하는 적합성 연산부; 및상기 적합성 연산 결과를 출력하는 변이서열 출력부를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하기 위한 장치.
- 제 10항에 있어서,적합성 연산부는 신뢰도 연산부, 용이성 연산부 및 유용성 연산부로 구성된 군으로부터 선택된 어느 하나 이상인 것을 특징으로 하는 장치.
- 제 10항에 있어서,품질관리 연산부는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 장치.
- 제 10항에 있어서,대조 연산부는 글로벌 정렬법(Global alignment) 또는 로컬 정렬법(Local alignment)을 수행하는 것을 특징으로 하는 장치.
- 제 10항에 있어서,유전변이 추출부는 단일염기다형성(single-nucleotide polymorphism) 또는 구조 변이(structural variation)를 추출하는 것을 특징으로 하는 장치.
- 제 11항에 있어서,신뢰도 연산부는 수득된 염기서열 리드의 개수 및 염기의 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 장치.
- 제 11항에 있어서,용이성 연산부는 반복서열의 존재여부, GC 함량 또는 주변 개인 식별 유전변이 마커 발견 빈도를 분석하여 실험적 용이성을 평가하는 것을 특징으로 하는 장치.
- 제 11항에 있어서,유용성 연산부는 목적하는 질환 위험도 또는 목적하는 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 장치.
- 제 10항에 있어서,변이서열 출력부는 유전변이의 염기서열을 포함한 주변 서열을 포함한 파스타 형식(fasta format) 으로 제시하는 것을 특징으로 하는 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201480006935.9A CN104968806B (zh) | 2013-02-01 | 2014-01-28 | 提供与基于基因序列的个人标记有关的信息的方法和装置 |
US14/817,067 US20160078169A1 (en) | 2013-02-01 | 2015-08-03 | Method of and apparatus for providing information on a genomic sequence based personal marker |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130011803 | 2013-02-01 | ||
KR10-2013-0011803 | 2013-02-01 | ||
KR10-2014-0007344 | 2014-01-21 | ||
KR1020140007344A KR101770962B1 (ko) | 2013-02-01 | 2014-01-21 | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US14/817,067 Continuation US20160078169A1 (en) | 2013-02-01 | 2015-08-03 | Method of and apparatus for providing information on a genomic sequence based personal marker |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014119914A1 true WO2014119914A1 (ko) | 2014-08-07 |
Family
ID=51262568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2014/000823 WO2014119914A1 (ko) | 2013-02-01 | 2014-01-28 | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2014119914A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909806A (zh) * | 2015-12-22 | 2017-06-30 | 广州华大基因医学检验所有限公司 | 定点检测变异的方法和装置 |
CN113811949A (zh) * | 2019-05-13 | 2021-12-17 | 富士通株式会社 | 评价方法、评价程序和评价装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060008803A1 (en) * | 2002-06-14 | 2006-01-12 | Andreas Brunner | Identification of tissue/cell specific marker genes and use thereof |
KR20090105921A (ko) * | 2006-11-30 | 2009-10-07 | 네이비제닉스 인크. | 유전자 분석 시스템 및 방법 |
KR20100065949A (ko) * | 2008-12-09 | 2010-06-17 | 이화여자대학교 산학협력단 | 상호 연관 지도 작성법을 이용한 다목적 활용 가능 유전자 판별법 |
KR20110036608A (ko) * | 2008-07-07 | 2011-04-07 | 디코드 제네틱스 이에이치에프 | 유방암 위험도 평가를 위한 유전적 변이 |
-
2014
- 2014-01-28 WO PCT/KR2014/000823 patent/WO2014119914A1/ko active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060008803A1 (en) * | 2002-06-14 | 2006-01-12 | Andreas Brunner | Identification of tissue/cell specific marker genes and use thereof |
KR20090105921A (ko) * | 2006-11-30 | 2009-10-07 | 네이비제닉스 인크. | 유전자 분석 시스템 및 방법 |
KR20110036608A (ko) * | 2008-07-07 | 2011-04-07 | 디코드 제네틱스 이에이치에프 | 유방암 위험도 평가를 위한 유전적 변이 |
KR20100065949A (ko) * | 2008-12-09 | 2010-06-17 | 이화여자대학교 산학협력단 | 상호 연관 지도 작성법을 이용한 다목적 활용 가능 유전자 판별법 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909806A (zh) * | 2015-12-22 | 2017-06-30 | 广州华大基因医学检验所有限公司 | 定点检测变异的方法和装置 |
CN106909806B (zh) * | 2015-12-22 | 2019-04-09 | 广州华大基因医学检验所有限公司 | 定点检测变异的方法和装置 |
CN113811949A (zh) * | 2019-05-13 | 2021-12-17 | 富士通株式会社 | 评价方法、评价程序和评价装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Neumann et al. | Quantification of experimentally induced nucleotide conversions in high-throughput sequencing datasets | |
Zook et al. | A robust benchmark for germline structural variant detection | |
Ulahannan et al. | Technical and implementation issues in using next-generation sequencing of cancers in clinical practice | |
Moncunill et al. | Comprehensive characterization of complex structural variations in cancer by directly comparing genome sequence reads | |
EP3092317B1 (en) | Systems and methods for use of known alleles in read mapping | |
US20140129201A1 (en) | Validation of genetic tests | |
Bocklandt et al. | Bionano genome mapping: high-throughput, ultra-long molecule genome analysis system for precision genome assembly and haploid-resolved structural variation discovery | |
Yang et al. | ScanIndel: a hybrid framework for indel detection via gapped alignment, split reads and de novo assembly | |
US12065696B2 (en) | Systems and methods for genetic identification and analysis | |
Budis et al. | Non-invasive prenatal testing as a valuable source of population specific allelic frequencies | |
Heupink et al. | Comprehensive and accurate genetic variant identification from contaminated and low-coverage Mycobacterium tuberculosis whole genome sequencing data | |
WO2016117812A1 (ko) | 암 바이오마커의 성능 평가 장치 및 방법 | |
CN115083521A (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
CN109524060B (zh) | 一种遗传病风险提示的基因测序数据处理系统与处理方法 | |
KR101770962B1 (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
CN110782946A (zh) | 识别重复序列的方法及装置、存储介质、电子设备 | |
CN110305945A (zh) | 一种基于二代测序技术的游离线粒体dna突变检测技术 | |
WO2014119914A1 (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
CN107967411B (zh) | 一种脱靶位点的检测方法、装置及终端设备 | |
Pouseele et al. | Accurate whole-genome sequencing-based epidemiological surveillance of Mycobacterium tuberculosis | |
CN116994649A (zh) | 一种基因检测数据的智能判定方法以及智能判定系统 | |
Camiolo et al. | Altools: a user friendly NGS data analyser | |
WO2019031867A1 (ko) | 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법 | |
CN112885407B (zh) | 一种基于二代测序的微单倍型检测分型系统和方法 | |
Henke et al. | Identification of Mutations in Zebrafish Using Next‐Generation Sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14746504 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14746504 Country of ref document: EP Kind code of ref document: A1 |