KR20190023968A - Apparatus and method for clinical genome data set transmitting - Google Patents

Apparatus and method for clinical genome data set transmitting Download PDF

Info

Publication number
KR20190023968A
KR20190023968A KR1020170110455A KR20170110455A KR20190023968A KR 20190023968 A KR20190023968 A KR 20190023968A KR 1020170110455 A KR1020170110455 A KR 1020170110455A KR 20170110455 A KR20170110455 A KR 20170110455A KR 20190023968 A KR20190023968 A KR 20190023968A
Authority
KR
South Korea
Prior art keywords
data
clinical
generate
genome
transmitting
Prior art date
Application number
KR1020170110455A
Other languages
Korean (ko)
Inventor
박유랑
김규표
김덕훈
Original Assignee
울산대학교 산학협력단
재단법인 아산사회복지재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단, 재단법인 아산사회복지재단 filed Critical 울산대학교 산학협력단
Priority to KR1020170110455A priority Critical patent/KR20190023968A/en
Publication of KR20190023968A publication Critical patent/KR20190023968A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention relates to a method for sharing clinical genome data which shares a series of processes and generation files from the initial generation file of the genomic data to the final generation file in order to obtain the same analysis results by shared institutions. According to the present invention, a method for transmitting a clinical genome data set comprises the steps of: mapping clinical genomic data to generate first data; performing a post-alignment process on the first data to generate second data; detecting a variation from the second data to generate third data; and transmitting all the data and transformation methods of the data.

Description

임상유전체 데이터 세트 전송 장치 및 방법{APPARATUS AND METHOD FOR CLINICAL GENOME DATA SET TRANSMITTING}[0001] APPARATUS AND METHOD FOR CLINICAL GENOME DATA SET TRANSMITTING [0002]

유전체 데이터를 처리하는 장치 및 방법에 연관되며, 보다 특정하게는 임상유전체 데이터를 공유하기 위한 처리 및 전송을 제공하는 장치 및 방법에 연관된다.To an apparatus and method for processing genomic data, and more particularly to an apparatus and method for providing processing and transmission for sharing clinical genomic data.

유전체 데이터는 병원의 진료용이 아닌 연구용 데이터로 주로 사용되었으나, 최근 개인 맞춤형 의료가 발달함에 따라 진료용으로 사용되기 시작하고 있다. 또한 최근에는 유전자 패널 검사에 대한 조건부 선별 급여가 적용되어, 임상을 위한 유전체 데이터의 분석에 관심이 높아지고 있다.The genomic data was mainly used as research data, not for hospital treatment, but recently it is beginning to be used for medical treatment due to the development of personalized medical care. Recently, conditional screening benefits for gene panel screening have been applied, and interest in analysis of genomic data for clinical use is increasing.

NGS(Next Generation Sequencing) 검사 결과에 따른 원시데이터(raw data)의 분석이 중요하기는 하지만, 타 병원 또는 기관과의 원시데이터만을 공유하는 경우에는 동일한 결과를 얻을 수 없는 점이 문제된다. 따라서 타 병원 또는 기관과의 임상적 유전체 데이터의 원활한 공유를 위한 시스템이 요구된다.Although it is important to analyze raw data according to NGS (Next Generation Sequencing) test results, it is problematic that the same result can not be obtained when only raw data is shared with other hospitals or institutions. Therefore, a system for smooth sharing of clinical genomic data with other hospitals or institutions is required.

1. 미국 공개특허 US 2015-0095064호 (공개일 2015년04월02일)1. U.S. Published Patent US 2015-0095064 (published April 2, 2015) 2. 대한민국 등록특허 KR 10-12333830호 (등록일 2013년02월08일)2. Korean Registered Patent KR 10-12333830 (Registered on February 08, 2013) 3. 대한민국 공개특허 KR 10-2007-0052673호 (공개일 2007년05월22일)3. Korean Patent Publication KR 10-2007-0052673 (Published on May 22, 2007)

일실시예에 따르면, 컴퓨터에 의해 적어도 일시적으로 구현되는 방법에 있어서, 임상유전체 데이터를 맵핑하여 제1 데이터를 생성하는 단계; 상기 제1 데이터를 포스트 얼라인먼트 프로세싱하여 제2 데이터를 생성하는 단계; 상기 제2 데이터로부터 변이를 검출하여 제3 데이터를 생성하는 단계; 및 상기 데이터들과 상기 데이터들의 변환 방법들을 모두 전송하는 단계를 포함하는 임상유전체 데이터 세트를 전송하는 방법이 개시된다.According to one embodiment, there is provided a method, at least temporarily implemented by a computer, comprising: mapping clinical genetic data to generate first data; Post-alignment processing the first data to generate second data; Detecting a variation from the second data to generate third data; And transmitting both the data and the methods of transforming the data.

다른 일실시예에 따르면, 상기 임상유전체 데이터를 맵핑하여 제1 데이터를 생성하는 단계는, 얼라인먼트 툴을 이용하여 상기 임상유전체 데이터를 참조 게놈에 대응시키고, 상기 대응되는 참조 서열의 위치 정보를 포함하는 임상유전체 데이터 세트를 전송하는 방법일 수 있다.According to another embodiment, the step of mapping the clinical genome data to generate the first data comprises: associating the clinical genome data with the reference genome using an alignment tool; Lt; RTI ID = 0.0 > a < / RTI > set of clinical genomic data.

또 다른 일실시예에 따르면, 상기 제1 데이터를 포스트 얼라인먼트 프로세싱하여 제2 데이터를 생성하는 단계는, 상기 맵핑에 따라 삽입 또는 결실이 발생하는 부분에 염기 서열을 재정렬하는 임상유전체 데이터 세트를 전송하는 방법이 개시된다.According to another embodiment, the step of post-alignment processing the first data to generate the second data may include transmitting a set of clinical genome data that rearrange the base sequence in a portion where insertion or deletion occurs according to the mapping A method is disclosed.

다른 일실시예에 따르면, 상기 제2 데이터로부터 변이를 검출하여 제3 데이터를 생성하는 단계는, 상기 변이가, 단일 뉴클레오티드 변이, 삽입 또는 결실 중 어느 하나인 경우 염색체, 게놈조정, 참조 대립 유전자 및 변이 대립 유전자의 정보 중 어느 하나를 포함하고, 재배열인 경우 상기 재배열이 발생한 중단점의 염색체 및 게놈조정 정보 중 어느 하나를 포함하고, 유전자 복제수 변이인 경우 분할의 시작점 위치정보, 상기 분할의 끝점 위치정보 및 복제수 변화 정보 중 어느 하나를 포함하는 임상유전체 데이터 세트를 전송하는 방법도 개시된다.According to another embodiment, the step of detecting the mutation from the second data and generating the third data may further comprise the step of generating the third data if the mutation is a single nucleotide variation, insertion or deletion, And information on a chromosomal and genomic coordination information of a breakpoint where the rearrangement occurs in the case of rearrangement. The information on the starting point of the division when the gene copy number is variation, A method of transmitting a set of clinical genomic data including any one of end point position information and copy number change information of a clinical genome.

일측에 따르면, 임상유전체 데이터를 맵핑하여 제1 데이터를 생성하고, 상기 제1 데이터를 포스트 얼라인먼트 프로세싱하여 제2 데이터를 생성하며, 상기 제2 데이터로부터 변이를 검출하여 제3 데이터를 생성하는 처리부; 상기 데이터들을 저장하는 저장부; 및 상기 데이터들과 상기 데이터들의 변환 방법들을 모두 전송하는 전송부를 포함하는 임상유전체 데이터 세트를 전송하는 장치가 개시된다.According to one aspect, there is provided a data processing apparatus comprising: a processing unit for mapping clinical genetic data to generate first data, post-alignment processing the first data to generate second data, and detecting a variation from the second data to generate third data; A storage unit for storing the data; And a transmitter for transmitting both the data and the methods of transforming the data.

다른 일측에 따르면, 상기 처리부는, 얼라인먼트 툴을 이용하여 상기 임상유전체 데이터를 참조 게놈에 대응시키고, 상기 대응되는 참조 서열의 위치 정보를 포함하여 제1 데이터를 생성하는 임상유전체 데이터 세트를 전송하는 장치일 수 있다.According to another aspect, the processor is configured to transmit a clinical genome data set that associates the clinical genome data with a reference genome using an alignment tool and generates first data including positional information of the corresponding reference sequence Lt; / RTI >

또 다른 일측에 따르면, 상기 처리부는, 상기 맵핑에 따라 상기 제1 데이터에 삽입 또는 결실이 발생하는 부분의 염기 서열을 재정렬하여 제2 데이터를 생성하는 임상유전체 데이터 세트를 전송하는 장치도 개시된다.According to another aspect of the present invention, there is also provided an apparatus for transmitting a clinical genome data set that generates second data by rearranging a base sequence of a portion where insertion or deletion occurs in the first data according to the mapping.

다른 일측에 따르면, 상기 프로세서는, 제2 데이터로부터 변이를 검출하여, 상기 변이가, 단일 뉴클레오티드 변이, 삽입 또는 결실 중 어느 하나인 경우 염색체, 게놈조정, 참조 대립 유전자 및 변이 대립 유전자의 정보 중 어느 하나를 포함하고, 재배열인 경우 상기 재배열이 발생한 중단점의 염색체 및 게놈조정 정보 중 어느 하나를 포함하고, 유전자 복제수 변이인 경우 분할의 시작점 위치정보, 상기 분할의 끝점 위치정보 및 복제수 변화 정보 중 어느 하나를 포함하여 제3 데이터를 생성하는 임상유전체 데이터 세트를 전송하는 장치일 수 있다.According to another aspect, the processor is configured to detect a mutation from the second data and to determine whether the mutation is a single nucleotide mutation, an insertion or a deletion, the chromosome, the genomic coordinates, the reference allele, And a chromosome and genome coordination information of a breakpoint where the rearrangement occurs in the case of rearrangement. In case of gene copy number variation, information on the starting point of the division, the end point position information of the division, Or a device that transmits a set of clinical genomic data to generate third data, including any of the change information.

일실시예에 따르면, 상기 임상유전체 데이터 세트를 전송하는 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체도 개시된다.According to one embodiment, there is also provided a computer-readable recording medium embodying a program for performing a method of transmitting the set of clinical genomic data.

도 1은 일실시예에 따른 기존의 유전자 데이터 공유 방법을 도시한다.
도 2은 일실시예에 따른 제안되는 유전자 데이터 공유 방법을 도시한다.
도 3은 일실시예에 따른 유전자 데이터의 변형 방법을 도시한다.
도 4은 일실시예에 따른 유전자 데이터의 변형 단계를 도시한다.
FIG. 1 illustrates an existing method of sharing gene data according to an embodiment.
FIG. 2 illustrates a proposed gene data sharing method according to an embodiment.
FIG. 3 illustrates a method of transforming gene data according to an embodiment.
FIG. 4 shows a modification step of gene data according to an embodiment.

이하에서, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 권리범위는 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. However, the scope of the rights is not limited or limited by these embodiments. Like reference symbols in the drawings denote like elements.

아래 설명에서 사용되는 용어는, 연관되는 기술 분야에서 일반적이고 보편적인 것으로 선택되었으나, 기술의 발달 및/또는 변화, 관례, 기술자의 선호 등에 따라 다른 용어가 있을 수 있다. 따라서, 아래 설명에서 사용되는 용어는 기술적 사상을 한정하는 것으로 이해되어서는 안 되며, 실시예들을 설명하기 위한 예시적 용어로 이해되어야 한다.The terms used in the following description are chosen to be generic and universal in the art to which they are related, but other terms may exist depending on the development and / or change in technology, customs, preferences of the technician, and the like. Accordingly, the terminology used in the following description should not be construed as limiting the technical thought, but should be understood in the exemplary language used to describe the embodiments.

또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세한 그 의미를 기재할 것이다. 따라서 아래 설명에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가지는 의미와 명세서 전반에 걸친 내용을 토대로 이해되어야 한다.Also, in certain cases, there may be a term chosen arbitrarily by the applicant, in which case the meaning of the detailed description in the corresponding description section. Therefore, the term used in the following description should be understood based on the meaning of the term, not the name of a simple term, and the contents throughout the specification.

도 1은 일실시예에 따른 기존의 유전자 데이터 공유 방법을 도시한다. 일실시예에 따르면 A병원과 B병원 간에 임상 유전체 데이터를 공유하는 방법이 개시된다. 상기 임상 유전체 데이터를 공유하기 위해서 일반적인 방법으로서 NGS raw data(Next Generation Sequencing raw data)를 공유한다(110). 그러나 상기 NGS raw data 만을 공유하는 경우에는 A병원과 B병원 간에 동일한 분석 결과를 얻을 수 없다(120).FIG. 1 illustrates an existing method of sharing gene data according to an embodiment. According to one embodiment, a method for sharing clinical genomic data between A and B hospitals is disclosed. In order to share the clinical genome data, NGS raw data (Next Generation Sequencing raw data) is shared as a general method (110). However, if only the NGS raw data is shared, the same analysis result can not be obtained between the A hospital and the B hospital (120).

보다 구체적으로 NGS raw data를 이용하여 분석을 하는 경우에 원시데이터 맵핑(raw data mapping) 과정, 포스트 얼라인먼트 프로세싱(Post-alignment Processing) 과정, 변이 발견 및 주석 달기(Variant discovery and annotation) 과정이 수행될 수 있다. 상기 각 과정마다 다양한 분석 툴(tool) 및 알고리즘(algorithm)이 사용되고, 각 툴의 버전(version)이 상이할 수 있기 때문에 동일한 원시 데이터를 이용하더라도 전혀 상이한 결과를 얻게 된다.More specifically, when analysis is performed using NGS raw data, a raw data mapping process, a post-alignment processing process, a variant discovery and annotation process are performed . Since various analysis tools and algorithms are used for each process and the version of each tool may be different, a completely different result is obtained even if the same raw data is used.

예시적으로 그러나 한정되지 않게 Illumina사(社)의 제품을 이용하여 NGS 데이터를 분석하는 경우에, 최초 획득하는 데이터의 형태는 FASTQ 파일이다. 상기 FASTQ 파일은 시퀀스 정보를 기록하고 있는 시퀀스 파일(Sequence file)이다. 그러나 상기 FASTQ 파일만을 타 병원 또는 기관과 공유하는 경우에 동일한 분석 결과를 얻을 수 없다. 따라서 아래에서는 제안되는 유전자 데이터 공유 방법을 설명한다.Illustratively, but not exclusively, when analyzing NGS data using a product from Illumina, the type of data initially acquired is a FASTQ file. The FASTQ file is a sequence file that records sequence information. However, the same analysis result can not be obtained when only the FASTQ file is shared with another hospital or an institution. Therefore, the proposed gene data sharing method is described below.

도 2은 일실시예에 따른 제안되는 유전자 데이터 공유 방법을 도시한다. 일실시예에 따르면 A병원과 B병원 사이에 유전자 데이터를 공유하는 방법에 있어서, FASTQ 파일부터 MAP 파일까지 전체 유전자 데이터의 변환 과정 일체를 한꺼번에 공유(210)하는 방법이 제시된다. 이는 예시적일 뿐 반드시 동일한 파일 확장자를 가질 필요는 없으며, 최초 생성되는 원시 데이터(raw data)로부터 최종 활용되는 파일 형태까지 변환되는 과정과 중간 생성물을 포함한 최종 생성물을 함께 공유한다.FIG. 2 illustrates a proposed gene data sharing method according to an embodiment. According to one embodiment, a method of sharing gene data between the A hospital and the B hospital is disclosed, in which all of the conversion processes of the entire gene data from the FASTQ file to the MAP file are simultaneously shared (210). It is an example only and does not necessarily have the same file extension, but shares the end product including the intermediate product and the process of converting from the raw data that is generated first to the file format that is finally utilized.

상기 제안되는 방법으로 유전자 데이터를 공유하는 경우에 A병원과 B병원 간에 동일한 분석 결과(220)를 얻을 수 있다.When the gene data is shared by the proposed method, the same analysis result (220) can be obtained between the A hospital and the B hospital.

보다 구체적으로 210의 공유 과정을 설명한다. 유전자 검사에 따라 최초 획득되는 유전자 데이터부터 원시 데이터의 맵핑 단계, 포스트 얼라인먼트 프로세싱 단계, 변이 발견 및 주석달기 단계를 거쳐서 생성되는 모든 중간생성물과 최종생성물 데이터를 모두 함께 전송한다.More specifically, the sharing process of 210 is explained. All of the intermediate products and final product data generated through the mapping step of the raw data, the post alignment processing step, the mutation discovery step and the annotation step are all transmitted together with the gene data obtained by the genetic test.

예시적으로 그러나 한정되지 않게 Illumina 사(社)의 제품을 사용하는 경우에 유전자 분석에 의한 원시 데이터는 FASTQ 파일 형태로 획득할 수 있다. 상기 FASTQ 파일을 이용하여 원시 데이터 맵핑을 수행하는 경우에 SAM 또는 BAM 파일을 얻을 수 있다. 상기 SAM 또는 BAM 파일은 레퍼런스 게놈(reference genome)에 맵핑하여 정렬한 시퀀스 얼라인먼트(sequence alignment)파일이다. 원시 데이터 맵핑 과정에서 어떠한 얼라인먼트 툴(alignment tool) 또는 알고리즘(algorithm)을 사용하는지에 따라서 SAM 또는 BAM 파일이 형성된다. 상기 SAM 또는 BAM 파일에는 각 유전자 단편들이 맵핑되는 참조서열의 위치 정보들이 포함되어 있고 NGS 데이터 분석에 사용된다. 상기 SAM 또는 BAM 파일을 이용하여 포스트 얼라인먼트 프로세싱을 수행하면 변이 콜 파일(Variants Call File)인 VCF 또는 BCF 파일이 생성될 수 있다. 상기 VCF 또는 BCF 파일에는 염색체와 변이 검출 등에 관한 정보들이 저장되어 있다. 최종적으로 상기 VCF 또는 BCF 파일은 MAF(Mutation Annotation Format) 파일로 변환될 수 있다. 상기 MAF 파일에는 변이에 대한 주석이 포함되어 있으며, 최종 변환 형태이다.By way of example, but not limitation, the use of the product of Illumina Inc., raw data by genetic analysis can be obtained in the form of a FASTQ file. When raw data mapping is performed using the FASTQ file, a SAM or BAM file can be obtained. The SAM or BAM file is a sequence alignment file mapped to a reference genome. SAM or BAM files are formed depending on which alignment tool or algorithm is used in the raw data mapping process. The SAM or BAM file contains location information of the reference sequence to which each gene fragment is mapped and is used for NGS data analysis. When the post alignment processing is performed using the SAM or BAM file, a VCF or BCF file which is a Variants Call File can be generated. The VCF or BCF file stores information on chromosome and mutation detection and the like. Finally, the VCF or BCF file can be converted into a MAF (Mutation Annotation Format) file. The MAF file contains annotations about the variation, and is the final transformation type.

상기 일련의 변환 절차를 거쳐 최초 FASTQ 파일이 MAF 파일로 변환되는 일체의 과정을 모두 포함하여 공유(210)한다. 최초 FASTQ 파일, SAM 또는 BAM 파일, VCF 또는 BCF 파일, MAF 파일 및 변환 툴과 알고리즘을 함께 공유함으로써 A병원과 B병원 간에 동일한 분석 결과를 얻을 수 있도록 한다.The FASTQ file is converted into a MAF file through the series of conversion procedures. By sharing the original FASTQ file, SAM or BAM file, VCF or BCF file, MAF file, and conversion tool and algorithm together, the same analysis result can be obtained between A hospital and B hospital.

도 1 및 도 2에서는 병원으로 예시하였으나, 이에 한정되는 것은 아니며, 유전체 데이터를 활용하는 모든 기관에 적용이 가능하다. 보다 구체적으로 병원 이외에도 국가 연구 기관 또는 사설 유전자 분석 업체 등과 유전체 데이터를 공유하는 경우에도 적용이 가능하다.Although FIG. 1 and FIG. 2 illustrate hospitals, the present invention is not limited thereto, and can be applied to all institutions utilizing dielectric data. More specifically, it can be applied to a case where genomic data is shared with a national research institute or a private gene analysis company in addition to a hospital.

도 3은 일실시예에 따른 유전자 데이터의 변형 방법을 도시한다. 원시 데이터 맵핑 단계(310, raw data mapping), 포스트 얼라인먼트 프로세싱 단계(320, Post-alignment Processing) 단계, 변이 발견 및 주석달기(330, Variant discovery and annotation) 단계로 구성될 수 있다.FIG. 3 illustrates a method of transforming gene data according to an embodiment. A raw data mapping step 310, a post-alignment processing step 320, and a variant discovery and annotation step 330.

상기 원시 데이터 맵핑 단계(310)는 50 내지 300 bp의 짧은 단편의 염기 서열을 인간 참조 서열(human reference genome)에 맵핑하는 단계이다. 보다 구체적으로 FASTQ 파일 형식으로 저장되는 염기 서열들을 얼라인먼트 툴(alignment tool)을 이용하여 SAM 또는 BAM 파일 형태로 저장할 수 있다. The primed data mapping step 310 is a step of mapping a base sequence of a short fragment of 50 to 300 bp to a human reference genome. More specifically, base sequences stored in the FASTQ file format can be stored in SAM or BAM file format using an alignment tool.

포스트 얼라인먼트 프로세싱 단계(320, Post-alignment Processing)는 시퀀싱 에러(Sequencing error)에 의한 거짓 긍정 변이(False positive variants)를 줄이기 위한 처리 단계를 의미한다. 중합효소 연쇄 반응(Polymerase Chain Reaction, PCR) 과정에서 생기는 에러(error)를 줄이기 위해 같은 라이브러리(library)를 시퀀싱(sequencing)하는 경우를 제외한다. 맵핑 과정에서 삽입(Insertion)과 결실(Deletion)이 일어나는 위치에서는 정밀하게 맵핑이 진행되지 못해 잘못된 변이(Variant)로 판단할 수 있기 때문에, 삽입 또는 결실(Indel) 주변으로 국소 재정렬을 진행한다. 상기 포스트 얼라인먼트 프로세싱 단계에서는 파일 포맷(형태)의 변화가 없기 때문에 SAM 또는 BAM 파일 형식이 그대로 유지되며, 파일의 내용만 변경된다. 변경되는 정보에는 국소 재정렬에 따른 추가 정보가 포함될 수 있다.The post-alignment processing 320 refers to a processing step for reducing false positive variants due to sequencing errors. Except for the case of sequencing the same library to reduce the error caused by the polymerase chain reaction (PCR). In the mapping process, the localization is performed around the insertion or deletion (Indel) because the mapping can not be precisely performed at the positions where the insertion and deletion occur, so that it can be judged as a wrong variant. Since there is no change in the file format (form) in the post alignment processing step, the SAM or BAM file format remains intact and only the contents of the file are changed. The information to be modified may include additional information due to local reordering.

마지막으로 변이 발견 및 주석달기(330, Variant discovery and annotation) 단계에서는 다양한 변이들을 검출할 수 있다. 변이(Variant)는 크게 단일 뉴클레오티드 변이(Single Nucleotide Variant, SNV), 삽입 및 결실(Insertion and Deletion), 재배열(Rearrangement) 및 복제수 변이(Copy Number Variants)로 구분될 수 있다. 상기 각 변이의 종류에 따라 다른 종류의 프로그램을 사용하여 검출한다.Finally, various mutations can be detected at the stage of 330 (Variant discovery and annotation). Variants can be broadly divided into Single Nucleotide Variant (SNV), Insertion and Deletion, Rearrangement, and Copy Number Variants. And it is detected by using a different kind of program according to the kind of each variation.

단일 뉴클레오티드 변이(SNV) 또는 삽입 및 결실(Indel)의 경우에는 VCF 파일 형태로 결과를 획득한다. 상기 VCF 파일에는 염색체(chromosome) 정보, 게놈 조정(genomic coordination), 참조 대립 유전자(reference allele), 변이 대립 유전자(variant allele) 정보와 분석 깊이(read depth)등의 정보가 포함될 수 있다. 또한 재배열(Rearrangement)의 경우에는 특정 파일 포맷으로 결과를 산출하지 않으며, 중단점(Breakpoint)에 대한 염색체(Chromosome) 및 게놈 조정(Genomic Coordination) 정보를 포함할 수 있다. 유전자 복제수 변이(CNV)인 경우는 분할(Segmentation)의 시작점 위치정보, 상기 분할의 끝점 위치정보를 포함할 수 있고, 로그(log) 값으로 복제수 변화 정보를 포함할 수 있다. 상기 각 종류의 변이들은 프로그램에 따라 변이 검출과 함께 주석 달기(Annotation)가 수행될 수 있다. 일반적으로 단일 뉴클레오티드 변이(SNV)나 삽입 및 결실(Indel)의 경우에는 독립된 주석 툴(Annotation tool)을 이용하여 어떤 유전자에 위치하고 있으며, 다른 데이터베이스에서 이 변이가 보고되고 있는지에 대한 정보를 포함할 수 있다.In the case of a single nucleotide variation (SNV) or insertion and deletion (Indel), the result is obtained in the form of a VCF file. The VCF file may include information such as chromosome information, genomic coordination, reference allele, variant allele information, and read depth. Also, in case of rearrangement, it does not produce a result in a specific file format, and may include chromosome and genomic coordination information for a breakpoint. In the case of a genetic copy number variation (CNV), it may include information on a starting point of segmentation and information on an end point of the segment, and may include information on the number of replicas as a log value. Each type of mutation may be subjected to annotation together with mutation detection according to a program. In general, in the case of a single nucleotide variation (SNV) or insertion and deletion (Indel), an independent annotation tool can be used to contain information about which gene is located and which variation is reported in another database. have.

도 4은 일실시예에 따른 유전자 데이터의 변형 단계를 도시한다. 최초 시퀀싱 아웃풋(Primary Sequencing Output)은 BCL(410) 파일 형태를 가질 수 있다. 상기 BCL 파일을 이용하여 시퀀스 파일(Sequence file)인 FASTQ(420) 파일 형태로 변환을 수행한다. 상기 FASTQ 파일을 이용하여 참조 게놈에 맵핑되는 시퀀스 정렬(Sequence Alignment to reference genome) 정보 파일인 SAM 또는 BAM(430) 로 변환될 수 있다. 이어서, 상기 SAM 또는 BAM 파일을 이용하여 변이 콜 파일(Variant Call File, VCF)인 VCF 또는 BCF(440) 파일로 변환되며, 최종적으로는 주석이 달려있는 변이 파일(Annotated Variant File)인 MAF(Mutation Annotation File, 450) 파일로 변환될 수 있다.FIG. 4 shows a modification step of gene data according to an embodiment. The primary sequencing output may have a BCL (410) file format. And performs conversion into a FASTQ (420) file format, which is a sequence file, using the BCL file. (SAM) or BAM 430 (Sequence Alignment to Reference Genome) information file that is mapped to the reference genome using the FASTQ file. Subsequently, the SAM or BAM file is converted into a VCF or BCF (440) file, which is a Variant Call File (VCF). Finally, an annotated Variant File MAF Annotation File, 450) file.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA) A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be permanently or temporarily embodied in a transmitted signal wave. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described with reference to the drawings, various modifications and variations may be made by those skilled in the art. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (9)

컴퓨터에 의해 적어도 일시적으로 구현되는 방법에 있어서,
임상유전체 데이터를 맵핑하여 제1 데이터를 생성하는 단계;
상기 제1 데이터를 포스트 얼라인먼트 프로세싱하여 제2 데이터를 생성하는 단계;
상기 제2 데이터로부터 변이를 검출하여 제3 데이터를 생성하는 단계; 및
상기 데이터들과 상기 데이터들의 변환 방법들을 모두 전송하는 단계
를 포함하는 임상유전체 데이터 세트를 전송하는 방법.
In a method at least temporarily implemented by a computer,
Mapping the clinical genomic data to generate first data;
Post-alignment processing the first data to generate second data;
Detecting a variation from the second data to generate third data; And
Transmitting both the data and the data conversion methods
RTI ID = 0.0 > 1, < / RTI >
제1항에 있어서,
상기 임상유전체 데이터를 맵핑하여 제1 데이터를 생성하는 단계는,
얼라인먼트 툴을 이용하여 상기 임상유전체 데이터를 참조 게놈에 대응시키고, 상기 대응되는 참조 서열의 위치 정보를 포함하는 임상유전체 데이터 세트를 전송하는 방법.
The method according to claim 1,
Wherein the step of mapping the clinical genome data to generate first data comprises:
And linking the clinical genomic data to a reference genome using an alignment tool and transmitting a set of clinical genomic data comprising positional information of the corresponding reference sequence.
제2항에 있어서,
상기 제1 데이터를 포스트 얼라인먼트 프로세싱하여 제2 데이터를 생성하는 단계는,
상기 맵핑에 따라 삽입 또는 결실이 발생하는 부분의 염기 서열을 재정렬하는 임상유전체 데이터 세트를 전송하는 방법.
3. The method of claim 2,
Wherein the step of post-alignment processing the first data to generate second data comprises:
And rearranging the nucleotide sequence of the insertion or deletion region according to the mapping.
제3항에 있어서,
상기 제2 데이터로부터 변이를 검출하여 제3 데이터를 생성하는 단계는,
상기 변이가,
단일 뉴클레오티드 변이, 삽입 또는 결실 중 어느 하나인 경우 염색체, 게놈조정, 참조 대립 유전자 및 변이 대립 유전자 중 어느 하나의 정보를 포함하고,
재배열인 경우 상기 재배열이 발생한 중단점의 염색체 및 게놈조정 정보 중 어느 하나를 포함하고,
유전자 복제수 변이인 경우 분할의 시작점 위치정보, 상기 분할의 끝점 위치정보 및 복제수 변화 정보 중 어느 하나를 포함하는
임상유전체 데이터 세트를 전송하는 방법
The method of claim 3,
Wherein the step of detecting the variation from the second data to generate the third data comprises:
Wherein said mutation
A single nucleotide mutation, an insertion or deletion, information on any one of a chromosome, a genome coordination, a reference allele and a mutation allele,
And a chromosome and genome coordination information of a breakpoint at which the rearrangement occurred,
The position information of the start point of the division, the position information of the end point of the division,
How to Transmit a Clinical Genome Data Set
임상유전체 데이터를 맵핑하여 제1 데이터를 생성하고, 상기 제1 데이터를 포스트 얼라인먼트 프로세싱하여 제2 데이터를 생성하며, 상기 제2 데이터로부터 변이를 검출하여 제3 데이터를 생성하는 처리부;
상기 데이터들을 저장하는 저장부; 및
상기 데이터들과 상기 데이터들의 변환 방법들을 모두 전송하는 전송부
를 포함하는 임상유전체 데이터 세트를 전송하는 장치.
A processing unit for mapping the clinical genome data to generate first data, post-alignment processing the first data to generate second data, and detecting a variation from the second data to generate third data;
A storage unit for storing the data; And
A transmission unit for transmitting both the data and the data conversion methods,
And transmitting the set of clinical genomic data.
제5항에 있어서,
상기 처리부는,
얼라인먼트 툴을 이용하여 상기 임상유전체 데이터를 참조 게놈에 대응시키고, 상기 대응되는 참조 서열의 위치 정보를 포함하여 제1 데이터를 생성하는
임상유전체 데이터 세트를 전송하는 장치.
6. The method of claim 5,
Wherein,
Associating the clinical genome data with the reference genome using an alignment tool and generating first data including positional information of the corresponding reference sequence
A device for transmitting a clinical genomic dataset.
제6항에 있어서,
상기 처리부는,
상기 맵핑에 따라 상기 제1 데이터에 삽입 또는 결실이 발생하는 부분의 염기 서열을 재정렬하여 제2 데이터를 생성하는
임상유전체 데이터 세트를 전송하는 장치.
The method according to claim 6,
Wherein,
And generating a second data by rearranging base sequences of a portion where insertion or deletion occurs in the first data according to the mapping
A device for transmitting a clinical genomic dataset.
제7항에 있어서,
상기 프로세서는,
제2 데이터로부터 변이를 검출하여,
상기 변이가,
단일 뉴클레오티드 변이, 삽입 또는 결실 중 어느 하나인 경우 염색체, 게놈조정, 참조 대립 유전자 및 변이 대립 유전자의 정보 중 어느 하나를 포함하고,
재배열인 경우 상기 재배열이 발생한 중단점의 염색체 및 게놈조정 정보 중 어느 하나를 포함하고,
유전자 복제수 변이인 경우 분할의 시작점 위치정보, 상기 분할의 끝점 위치정보 및 복제수 변화 정보 중 어느 하나를 포함하여 제3 데이터를 생성하는
임상유전체 데이터 세트를 전송하는 장치.
8. The method of claim 7,
The processor comprising:
Detecting a variation from the second data,
Wherein said mutation
A single nucleotide mutation, either insertion or deletion, comprises any one of the information of the chromosome, the genomic coordination, the reference allele and the mutation allele,
And a chromosome and genome coordination information of a breakpoint at which the rearrangement occurred,
The third data including any one of the start point information of the division, the end point position information of the division, and the replication number change information in the case of the gene copy number variation
A device for transmitting a clinical genomic dataset.
제1항 내지 제4항 중 어느 한 항의
임상유전체 데이터 세트를 전송하는 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.
A method according to any one of claims 1 to 4
A computer-readable medium having embodied thereon a program for performing a method of transmitting a set of clinical genomic data.
KR1020170110455A 2017-08-30 2017-08-30 Apparatus and method for clinical genome data set transmitting KR20190023968A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170110455A KR20190023968A (en) 2017-08-30 2017-08-30 Apparatus and method for clinical genome data set transmitting

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170110455A KR20190023968A (en) 2017-08-30 2017-08-30 Apparatus and method for clinical genome data set transmitting

Publications (1)

Publication Number Publication Date
KR20190023968A true KR20190023968A (en) 2019-03-08

Family

ID=65800882

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170110455A KR20190023968A (en) 2017-08-30 2017-08-30 Apparatus and method for clinical genome data set transmitting

Country Status (1)

Country Link
KR (1) KR20190023968A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488106A (en) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 Method for rapidly acquiring comparison result data of target genome region

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0123830B1 (en) 1993-11-02 1997-12-01 가나이 쯔또무 Refrigerator
KR20070052673A (en) 2005-11-17 2007-05-22 인터내셔널 비지네스 머신즈 코포레이션 Clinical genomics merged repository and partial episode support with support abstract and semantic meaning preserving data sniffers
US20150095064A1 (en) 2013-09-27 2015-04-02 Orbicule Bvba Method for Storage and Communication of Personal Genomic or Medical Information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0123830B1 (en) 1993-11-02 1997-12-01 가나이 쯔또무 Refrigerator
KR20070052673A (en) 2005-11-17 2007-05-22 인터내셔널 비지네스 머신즈 코포레이션 Clinical genomics merged repository and partial episode support with support abstract and semantic meaning preserving data sniffers
US20150095064A1 (en) 2013-09-27 2015-04-02 Orbicule Bvba Method for Storage and Communication of Personal Genomic or Medical Information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488106A (en) * 2021-07-02 2021-10-08 苏州赛美科基因科技有限公司 Method for rapidly acquiring comparison result data of target genome region

Similar Documents

Publication Publication Date Title
JP6231654B2 (en) Systems and methods for analysis and reporting of disease-related human genome variants
McCoy et al. Illumina TruSeq synthetic long-reads empower de novo assembly and resolve complex, highly-repetitive transposable elements
Van der Auwera et al. From FastQ data to high‐confidence variant calls: the genome analysis toolkit best practices pipeline
US20190164320A1 (en) Methods for the graphical representation of genomic sequence data
Pop et al. Hierarchical scaffolding with Bambus
Schatz et al. Hawkeye and AMOS: visualizing and assessing the quality of genome assemblies
Muggli et al. Misassembly detection using paired-end sequence reads and optical mapping data
EP3329491A2 (en) Method and system for genomic visualization
Voshall et al. Next-generation transcriptome assembly: strategies and performance analysis
Parrish et al. Assembly of non-unique insertion content using next-generation sequencing
US10573405B2 (en) Genome analysis and visualization using coverages for bin sizes and ranges of genomic base coordinates calculated and stored before an output request
Bagal et al. MycoSNP: a portable workflow for performing whole-genome sequencing analysis of Candida auris
US10116632B2 (en) System, method and computer-accessible medium for secure and compressed transmission of genomic data
Jammali et al. SplicedFamAlign: CDS-to-gene spliced alignment and identification of transcript orthology groups
Zhu et al. misFinder: identify mis-assemblies in an unbiased manner using reference and paired-end reads
KR20190023968A (en) Apparatus and method for clinical genome data set transmitting
WO2016205767A1 (en) String graph assembly for polyploid genomes
Tian et al. Identification of factors associated with duplicate rate in ChIP-seq data
Mc Cartney et al. An international virtual hackathon to build tools for the analysis of structural variants within species ranging from coronaviruses to vertebrates
Marri et al. Advances in sequencing and resequencing in crop plants
Asselman Bioinformatic analysis of methylation patterns using bisulfite sequencing data
Nodehi et al. Selection of optimal bioinformatic tools and proper reference for reducing the alignment error in targeted sequencing data
Carr et al. Illuminator, a desktop program for mutation detection using short-read clonal sequencing
Crowgey et al. Development of bioinformatics pipeline for analyzing clinical pediatric NGS data
Kasaragod et al. CusVarDB: A tool for building customized sample-specific variant protein database from next-generation sequencing datasets